Tuesday 19 September 2017

Centered Moving Average Konzept


Bei der Berechnung eines laufenden gleitenden Durchschnittes ist die Platzierung des Mittelwertes in der mittleren Zeitspanne sinnvoll. Im vorigen Beispiel haben wir den Durchschnitt der ersten 3 Zeiträume berechnet und als nächstes in die Periode 3 gestellt. Wir hätten den Mittelpunkt in der Mitte des Zeitintervall von drei Perioden, also neben Periode 2. Das funktioniert gut mit ungeraden Zeiträumen, aber nicht so gut für gleichzeitige Zeiträume. Also, wo würden wir den ersten gleitenden Durchschnitt platzieren, wenn M 4 Technisch, würde der Moving Average bei t 2,5, 3,5 fallen. Um dieses Problem zu vermeiden, glätten wir die MAs mit M 2. Damit glätten wir die geglätteten Werte. Wenn wir eine gerade Anzahl von Begriffen beurteilen, müssen wir die geglätteten Werte glätten. Die folgende Tabelle zeigt die Ergebnisse mit M 4.David, ja, MapReduce ist Beabsichtigt, auf einer großen Menge von Daten zu arbeiten. Und die Idee ist, dass im Allgemeinen die Karte und die reduzierten Funktionen nicht darauf achten sollten, wie viele Mapper oder wie viele Reduzierstücke es gibt, das ist nur Optimierung. Wenn Sie sorgfältig über den Algorithmus nachdenken, den ich gepostet habe, können Sie sehen, dass es nicht wichtig ist, welcher Mapper bekommt, welche Teile der Daten. Jeder Eingabedatensatz steht jedem zur Verfügung, um den Betrieb zu reduzieren. Ndash Joe K Sep 18 12 um 22:30 Im besten meiner Verständnis gleitenden Durchschnitt ist nicht schön Karten zu MapReduce Paradigma, da seine Berechnung im Wesentlichen Schiebefenster über sortierte Daten, während MR Verarbeitung von nicht geschnittenen Bereichen von sortierten Daten ist. Lösung, die ich sehe, ist wie folgt: a) Um benutzerdefinierte Partitionierer zu implementieren, um zwei verschiedene Partitionen in zwei Läufen machen zu können. In jedem Durchlauf werden Ihre Reduzierstücke unterschiedliche Datenbereiche berechnen und gleitenden Durchschnitt berechnen, wo es angemessen ist, zu veranschaulichen: Im ersten Lauf werden Daten für Reduzierstücke sein: R1: Q1, Q2, Q3, Q4 R2: Q5, Q6, Q7, Q8 . Hier wirst du gleitender Durchschnitt für einige Qs cacluate. Im nächsten Lauf sollten deine Reduzierer Daten wie: R1: Q1 bekommen. Q6 R2: Q6 Q10 R3: Q10..Q14 Und caclulate den Rest der gleitenden Durchschnitte. Dann müssen Sie die Ergebnisse zusammenfassen. Idee der benutzerdefinierten Partitionierer, dass es zwei Betriebsarten haben wird - jedes Mal in gleiche Bereiche, aber mit einigen Verschiebung. In einem Pseudocode sieht es so aus. Partition (keySHIFT) (MAXKEYnumOfPartitions) wobei: SHIFT aus der Konfiguration entnommen wird. MAXKEY Maximalwert des Schlüssels. Ich gehe aus der Einfachheit, dass sie mit Null beginnen. RecordReader, IMHO ist keine Lösung, da es auf bestimmte Split begrenzt ist und kann nicht über Splits Grenze gleiten. Eine andere Lösung wäre, um die benutzerdefinierte Logik der Aufteilung der Eingangsdaten (es ist Teil der InputFormat) zu implementieren. Es kann getan werden, um 2 verschiedene Dias, ähnlich wie Partitionierung zu tun. Antwortete am 17. September 12 um 8: 59Moving Averages und zentrierte Moving Averages Ein paar Punkte über Saisonalität in einer Zeitreihe tragen immer wieder, auch wenn sie offensichtlich erscheinen. Einer ist, dass der Begriff 8220season8221 nicht unbedingt auf die vier Jahreszeiten des Jahres verweist, die aus dem Kippen der Erde8217s Achse resultieren. In prädiktiven Analysen bedeutet das oft genau das, weil viele der Phänomene, die wir studieren, mit dem Fortschreiten des Frühlings durch den Winter variieren: Verkäufe von Winter - oder Sommergeräten, Inzidenz von gewissen weit verbreiteten Krankheiten, Wetterereignisse, die durch die Lage der Jet-Stream und Änderungen in der Temperatur des Wassers im östlichen Pazifischen Ozean, und so weiter. Ebenso können Ereignisse, die regelmäßig auftreten, wie meteorologische Jahreszeiten handeln, obwohl sie nur eine schwache Verbindung zu den Sonnenwende - und Äquinoktien haben. Acht-Stunden-Verschiebungen in Krankenhäusern und Fabriken oft in der Inzidenz von Einnahmen und Ausgaben von Energie gibt, eine Saison ist acht Stunden lang und die Jahreszeiten Zyklus jeden Tag, nicht jedes Jahr. Fälligkeiten für Steuern signalisieren den Beginn einer Flut von Dollars in Kommunal-, Staats - und Bundesschatzkammern dort, die Jahreszeit könnte ein Jahr lang (persönliche Einkommenssteuern), sechs Monate (Grundsteuern in vielen Staaten), vierteljährlich (viele Körperschaftssteuern ), und so weiter. Es ist ein wenig seltsam, dass wir das Wort 8220season8221 haben, um allgemein auf die regelmäßig wiederkehrende Zeit zu verweisen, aber keinen allgemeinen Begriff für den Zeitraum, in dem eine volle Umdrehung der Jahreszeiten auftritt. 8220Cycle8221 ist möglich, aber in der Analytik und Prognose, dass Begriff ist in der Regel bedeutet, eine Periode von unbestimmter Länge, wie ein Konjunkturzyklus bedeuten. In der Abwesenheit eines besseren Begriffs verwendete ich in diesem und den nachfolgenden Kapiteln 8220.die Periode8221. Das ist nicht nur das terminologische Gedenken. Die Wege, die wir identifizieren Jahreszeiten und die Zeitspanne, in der die Jahreszeiten drehen, haben echte, wenn auch nur geringfügige, Implikationen für, wie wir ihre Auswirkungen messen. In den folgenden Abschnitten wird erörtert, wie einige Analytiker so variieren, wie sie berechnende Durchschnitte berechnen, je nachdem, ob die Anzahl der Jahreszeiten ungerade oder gerade ist. Mit Hilfe von Umzugsdurchschnitten anstelle von einfachen Mitteln Angenommen, dass eine große Stadt die Umverteilung ihrer Verkehrspolizei in Erwägung zieht, um die Inzidenz des Fahrens besser zu beeinträchtigen, was die Stadt glaubt, hat sich erhöht. Vor vier Wochen wurde eine neue Gesetzgebung in Kraft gesetzt, die den Besitz und die Freizeitgestaltung von Marihuana legalisierte. Seitdem scheint die tägliche Anzahl von Verkehrsstörungen für DWI zu sein. Komplikationen sind die Tatsache, dass die Anzahl der Verhaftungen freitags und samstags zu spitzen scheint. Um zu planen, um die Anforderungen der Arbeitskräfte in die Zukunft zu planen, prognostizieren Sie gern einen zugrunde liegenden Trend, der festgestellt wird. You8217d auch gerne Zeit der Bereitstellung Ihrer Ressourcen zu berücksichtigen, jede Wochenende-bezogenen Saisonalität, die8217s stattfinden. Abbildung 5.9 hat die relevanten Daten, mit denen Sie arbeiten müssen. Abbildung 5.9 Mit diesem Datensatz stellt jeder Wochentag eine Saison dar. Sogar durch nur Augapfel des Diagramms in Abbildung 5.9. Sie können sagen, dass die Tendenz der Zahl der täglichen Verhaftungen oben ist. Sie müssen planen, die Anzahl der Verkehrsoffiziere zu erweitern und hoffen, dass der Trend bald abnimmt. Weiterhin sind die Daten der Vorstellung, dass mehr Verhaftungen routinemäßig an freitags und samstags auftreten, so dass Ihre Ressourcenzuteilung diese Spikes adressieren muss. Aber du musst den zugrunde liegenden Trend quantifizieren, um festzustellen, wieviele zusätzliche Polizei Sie aufbringen müssen. Sie müssen auch die erwartete Größe der Wochenendspitzen quantifizieren, um festzustellen, wie viele zusätzliche Polizei Sie brauchen, um für unberechenbare Fahrer an diesen Tagen zu sehen. Das Problem ist, dass bis jetzt Sie don8217t wissen, wie viel von der täglichen Zunahme ist aufgrund der Tendenz und wie viel ist aufgrund dieser Wochenende Wirkung. Sie können mit der Zeitreihe beginnen. Früher in diesem Kapitel, in 8220Simple saisonale Mittelwerte, 8221 sahen Sie ein Beispiel, wie man eine Zeitreihe zu detrend, um die saisonalen Effekte mit der Methode der einfachen Mittelwerte zu isolieren. In diesem Abschnitt sehen Sie, wie man dies mit bewegten Durchschnitten durchführen kann. Wahrscheinlich wird der Moving-Averages-Ansatz öfter in prädiktiven Analysen verwendet, als es der einfache Mittelwertansatz ist. Es gibt verschiedene Gründe für die größere Popularität von gleitenden Durchschnitten, unter ihnen, dass die Moving-Averages-Ansatz nicht Sie bitten, Ihre Daten in den Prozess der Quantifizierung eines Trends zu kollabieren. Denken Sie daran, dass das frühere Beispiel es notwendig machte, vierteljährliche Mittelwerte zu Jahresdurchschnitten zu kollabieren, einen jährlichen Trend zu berechnen und dann ein Viertel des jährlichen Trends über jedes Quartal des Jahres zu verteilen. Dieser Schritt war erforderlich, um den Trend aus den saisonalen Effekten zu entfernen. Im Gegensatz dazu ermöglicht der Moving-Averages-Ansatz, die Zeitreihen zu veranlassen, ohne auf diese Art von Maschinierung zurückzugreifen. Abbildung 5.10 zeigt, wie der Moving-Averages-Ansatz im vorliegenden Beispiel funktioniert. Abbildung 5.10 Der gleitende Durchschnitt im zweiten Chart verdeutlicht den zugrunde liegenden Trend. Abbildung 5.10 fügt eine gleitende durchschnittliche Spalte und eine Spalte für bestimmte Saisonale hinzu. Zum Datensatz in Abbildung 5.9. Beide Ergänzungen bedürfen einer Diskussion. Die Spikes in Verhaftungen, die am Wochenende stattfinden, gibt Ihnen Grund zu glauben, dass Sie mit den Jahreszeiten arbeiten, die einmal pro Woche wiederholen. Deshalb fange an, den Durchschnitt für die umgreifende Periode zu erhalten8212 das ist, die ersten sieben Jahreszeiten, Montag bis Sonntag. Die Formel für den Durchschnitt in Zelle D5, der erste verfügbare gleitende Durchschnitt, ist wie folgt: Diese Formel wird kopiert und durch die Zelle D29 eingefügt, so dass Sie 25 gleitende Durchschnitte auf 25 Läufen von sieben aufeinander folgenden Tagen haben. Beachten Sie, dass ich, um sowohl die erste als auch die letzten Beobachtungen in der Zeitreihe zu zeigen, die Zeilen 10 bis 17 versteckt habe. Sie können sie, wenn Sie wollen, in diesem Kapitel8217s Arbeitsmappe, die auf der Website des publisher8217 verfügbar ist, ausblenden. Machen Sie eine Mehrfachauswahl der sichtbaren Zeilen 9 und 18, klicken Sie mit der rechten Maustaste auf einen ihrer Zeilenköpfe und wählen Sie im Kontextmenü die Option Ausblenden. Wenn du eine Arbeitsblätter8217s Zeilen versteckst, wie ich in Abbildung 5.10 gemacht habe. Alle gezeichneten Daten in den versteckten Zeilen ist auch auf dem Diagramm versteckt. Die x-Achsen-Etiketten identifizieren nur die Datenpunkte, die auf dem Diagramm erscheinen. Weil jeder gleitende Durchschnitt in Abbildung 5.10 sieben Tage umfasst, wird kein gleitender Durchschnitt mit den ersten drei oder letzten drei tatsächlichen Beobachtungen gepaart. Kopieren und Einfügen der Formel in Zelle D5 bis ein Tag in Zelle D4 führt Sie aus Beobachtungen8212.Sie ist keine Beobachtung in Zelle C1 aufgezeichnet. Ähnlich gibt es keinen gleitenden Durchschnitt, der unterhalb der Zelle D29 aufgezeichnet ist. Das Kopieren und Einfügen der Formel in D29 in D30 würde eine Beobachtung in Zelle C33 erfordern, und keine Beobachtung ist für den Tag verfügbar, den die Zelle repräsentieren würde. Es wäre natürlich möglich, die Länge des gleitenden Durchschnittes auf etwa fünf statt sieben zu verkürzen. So würde das bedeuten, dass die gleitenden Mittelformeln in Abbildung 5.10 in Zelle D4 anstelle von D5 beginnen könnten. Doch in dieser Art von Analyse, wollen Sie die Länge der gleitenden Durchschnitt gleich der Anzahl der Jahreszeiten: sieben Tage in der Woche für Ereignisse, die wöchentlich wiederkehren impliziert einen gleitenden Durchschnitt der Länge sieben und vier Quartalen in einem Jahr für Veranstaltungen, die Recur jährlich impliziert einen gleitenden Durchschnitt der Länge vier. In ähnlicher Weise quantifizieren wir in der Regel saisonale Effekte so, dass sie innerhalb des umgreifenden Zeitraums auf Null sinken. Wie Sie in diesem Kapitel 8217s ersten Abschnitt, auf einfachen Mittelwerten gesehen haben, erfolgt dies durch die Berechnung des Durchschnitts von (sagen) die vier Quartale in einem Jahr und dann Subtraktion der Durchschnitt für das Jahr von jeder vierteljährlichen Zahl. So sorgt dafür, dass die Summe der saisonalen Effekte Null ist. Im Gegenteil, das ist nützlich, weil es die saisonalen Effekte auf einen gemeinsamen Fuß sitzt8212a Sommereffekt von 11 ist so weit von der Mittel wie ein Winter-Effekt von 821111. Wenn Sie wollen, um fünf Jahreszeiten statt sieben, um Ihren gleitenden Durchschnitt zu bekommen, you8217re besser Aus der Suche nach einem Phänomen, das wiederholt alle fünf Jahreszeiten statt sieben. Allerdings, wenn Sie den Durchschnitt der saisonalen Effekte später in den Prozess zu nehmen, sind diese Durchschnittswerte unwahrscheinlich, um auf Null summieren. Es ist an diesem Punkt notwendig, sich neu zu kalibrieren oder zu normalisieren. Die Mittelwerte, so dass ihre Summe Null ist. Wenn dies geschehen ist, geben die gemittelten saisonalen Mittelwerte die Wirkung auf einen Zeitraum der Zugehörigkeit zu einer bestimmten Saison aus. Einmal normalisiert, werden die saisonalen Mittelwerte als saisonale Indizes bezeichnet, die dieses Kapitel bereits mehrfach erwähnt hat. Sie sehen, wie es später in diesem Kapitel funktioniert, in 8220Detrending the Series mit Moving Averages.8221 Verständnis der spezifischen Saisonale Abbildung 5.10 zeigt auch, was in Spalte E als spezifische Saisonale bezeichnet werden. Sie sind nach dem Subtrahieren des gleitenden Durchschnitts von der tatsächlichen Beobachtung übrig. Um ein Gefühl davon zu bekommen, was die spezifischen Saisonale repräsentieren, betrachten Sie den gleitenden Durchschnitt in Zelle D5. Es ist der Durchschnitt der Beobachtungen in C2: C8. Die Abweichungen jeder Beobachtung aus dem gleitenden Durchschnitt (z. B. C2 8211 D5) werden garantiert, dass sie sich auf einen Wert von durchschnittlich veranschaulichen. Daher drückt jede Abweichung die Wirkung aus, mit diesem bestimmten Tag in dieser bestimmten Woche verbunden zu sein. Es ist eine spezifische saisonale, dann8212spezifisch, weil die Abweichung für diesen besonderen Montag oder Dienstag und so weiter gilt, und saisonal, weil in diesem Beispiel wir jeden Tag behandeln, als ob es eine Saison in der umlaufenden Periode einer Woche wäre. Weil jede spezifische saisonale Maßnahme die Wirkung des Seins in dieser Jahreszeit gegen den gleitenden Durchschnitt für diese Gruppe von (hier) sieben Jahreszeiten, können Sie nachtlich durchschnittlich die spezifischen Saison für eine bestimmte Saison (zum Beispiel alle freitags in Ihrem Zeitreihen) zu schätzen, dass Saison8217s allgemeine, anstatt spezifische, Wirkung. Dieser Durchschnitt wird nicht durch einen zugrunde liegenden Trend in den Zeitreihen verwechselt, weil jede einzelne Saison eine Abweichung von ihrem eigenen gleitenden Durchschnitt ausdrückt. Ausrichten der Moving Averages There8217s auch die Frage der Ausrichtung der gleitenden Durchschnitte mit dem ursprünglichen Datensatz. In Abbildung 5.10. Ich habe jeden gleitenden Durchschnitt mit dem Mittelpunkt des Spektrums der Beobachtungen, die es enthält, ausgerichtet. So zählt beispielsweise die Formel in Zelle D5 die Beobachtungen in C2: C8, und ich habe sie mit der vierten Beobachtung, dem Mittelpunkt des gemittelten Bereichs, durch Platzieren in Zeile 5 ausgerichtet. Diese Anordnung wird als zentrierter gleitender Durchschnitt bezeichnet . Und viele Analysten ziehen es vor, jeden gleitenden Durchschnitt mit dem Mittelpunkt der Beobachtungen auszurichten, die es im Durchschnitt hat. Denken Sie daran, dass in diesem Zusammenhang 8220Midpoint8221 bezieht sich auf die Mitte einer Zeitspanne: Donnerstag ist der Mittelpunkt von Montag bis Sonntag. Es bezieht sich nicht auf den Median der beobachteten Werte, obwohl es natürlich in der Praxis so funktionieren könnte. Ein anderer Ansatz ist der nachlaufende gleitende Durchschnitt. In diesem Fall wird jeder gleitende Durchschnitt mit der endgültigen Beobachtung ausgerichtet, dass er durchschnittlich ist und daher hinter seinen Argumenten zurückblickt. Dies ist oft die bevorzugte Anordnung, wenn Sie einen gleitenden Durchschnitt als Prognose verwenden möchten, wie es bei der exponentiellen Glättung der Fall ist, weil Ihr endgültiger gleitender Durchschnitt mit der endgültigen verfügbaren Beobachtung zusammenfällt. Zentrierte Bewegungsdurchschnitte mit geraden Zahlen von Jahreszeiten Wir nehmen normalerweise ein spezielles Verfahren an, wenn die Anzahl der Jahreszeiten sogar eher als ungerade ist. Das ist der typische Sachverhalt: Es gibt sogar eine Jahreszeit in der Umfassungszeit für typische Jahreszeiten wie Monate, Viertel und vierundzwanzig (für Wahlen). Die Schwierigkeit mit einer geraden Anzahl von Jahreszeiten ist, dass es keinen Mittelpunkt gibt. Zwei ist nicht der Mittelpunkt eines Bereichs, der bei 1 beginnt und mit 4 endet, und auch nicht 3, wenn man sagen kann, dass man einen hat, ist sein Mittelpunkt 2,5. Sechs ist nicht der Mittelpunkt von 1 bis 12, und auch nicht der rein theoretische Mittelpunkt ist 6.5. Um zu handeln, als ob ein Mittelpunkt existiert, müssen Sie eine Schicht von Mittelung auf den gleitenden Durchschnitten hinzufügen. Siehe Abbildung 5.11. Abbildung 5.11 Excel bietet mehrere Möglichkeiten, einen gezielten gleitenden Durchschnitt zu berechnen. Die Idee hinter diesem Ansatz, um einen gleitenden Durchschnitt, dass8217s auf einen bestehenden Mittelpunkt zentriert, wenn there8217s eine gerade Anzahl von Jahreszeiten, ist, dass Mittelpunkt vorwärts um eine halbe Saison zu ziehen. Sie berechnen einen gleitenden Durchschnitt, der sich auf den dritten Punkt konzentrieren würde, wenn fünf Jahreszeiten statt vier eine volle Umdrehung des Kalenders darstellten. Dies geschah durch die Aufnahme von zwei aufeinanderfolgenden gleitenden Durchschnitten und deren Mittelung. Also in Abbildung 5.11. Da8217s ein gleitender Durchschnitt in Zelle E6, der die Werte in D3: D9 mittelt. Denn es gibt vier saisonale Werte in D3: D9, der gleitende Durchschnitt in E6 wird als zentriert in der imaginären Saison 2.5 gedacht, ein halber Punkt kurz vor der ersten verfügbaren Kandidatensaison, 3. (Die Jahreszeiten 1 und 2 sind als Mittelpunkte nicht verfügbar Mangel an Daten im Durchschnitt vor Saison 1.) Beachten Sie jedoch, dass der gleitende Durchschnitt in Zelle E8 die Werte in D5: D11, die zweite bis zum fünften in der Zeitreihe, überschreitet. Dieser Mittelpunkt liegt auf (imaginär) Punkt 3.5, eine volle Periode vor dem Mittelpunkt bei 2,5 zentriert. Durch die Mittelung der beiden gleitenden Mittelwerte, so dass das Denken geht, können Sie den Mittelpunkt des ersten gleitenden Mittels nach vorne um einen halben Punkt, von 2,5 bis 3 ziehen. Das ist, was die Mittelwerte in Spalte F von Abbildung 5.11 tun. Die Zelle F7 liefert den Durchschnitt der gleitenden Mittelwerte in E6 und E8. Und der Durchschnitt in F7 ist mit dem dritten Datenpunkt in der ursprünglichen Zeitreihe in der Zelle D7 ausgerichtet, um zu betonen, dass der Durchschnitt auf dieser Jahreszeit zentriert ist. Wenn man die Formel in Zelle F7 sowie die gleitenden Mittelwerte in den Zellen E6 und E8 erweitert, sieht man, dass es sich um einen gewichteten Durchschnitt der ersten fünf Werte in der Zeitreihe handelt, wobei der erste und der fünfte Wert ein Gewicht haben Von 1, und die zweiten bis vierten Werte, die ein Gewicht von 2 erhalten. Das führt uns zu einer schnelleren und einfacheren Möglichkeit, einen zentrierten gleitenden Durchschnitt mit einer geraden Anzahl von Jahreszeiten zu berechnen. Noch in Abbildung 5.11. Die Gewichte werden im Bereich H3: H11 gespeichert. Diese Formel gibt den ersten zentrierten gleitenden Durchschnitt in Zelle I7 zurück: Diese Formel gibt 13.75 zurück. Die mit dem durch die doppel-durchschnittliche Formel in Zelle F7 berechneten Wert identisch ist. Den Verweis auf die Gewichte absolut, mit Hilfe der Dollarzeichen in H3: H11. Sie können die Formel kopieren und fügen Sie es so weit wie nötig, um den Rest der zentrierten gleitenden Mittelwerte zu erhalten. Detmending der Serie mit Moving Averages Wenn Sie die gleitenden Durchschnitte von den ursprünglichen Beobachtungen subtrahiert haben, um die spezifischen Saison zu erhalten, haben Sie den zugrunde liegenden Trend aus der Serie entfernt. Was8217s, die in den spezifischen Jahreszeiten verbleiben, ist normalerweise eine stationäre, horizontale Reihe mit zwei Effekten, die die spezifischen Jahreszeiten verursachen, um von einer absoluten geraden Linie abzuweichen: die saisonalen Effekte und der zufällige Fehler in den ursprünglichen Beobachtungen. Abbildung 5.12 zeigt die Ergebnisse für dieses Beispiel. Abbildung 5.12 Die spezifischen saisonalen Effekte für Freitag und Samstag bleiben in der verstorbenen Serie klar. Das obere Diagramm in Abbildung 5.12 zeigt die ursprünglichen täglichen Beobachtungen. Sowohl der allgemeine Aufwärtstrend als auch das Wochenende saisonale Spikes sind klar. Das untere Diagramm zeigt die spezifischen Saisonscheine: das Ergebnis der Verlangsamung der Originalreihe mit einem gleitenden Durchschnittsfilter, wie es früher in 8220Unterstandspezifischen Saisonaltern beschrieben wurde.8221 Sie können sehen, dass die verstoßene Serie jetzt praktisch horizontal ist (eine lineare Trendlinie für die spezifischen Saison Hat eine leichte Abwärtsdrift), aber die saisonalen Freitag und Samstag Spikes sind noch vorhanden. Der nächste Schritt ist, über die spezifischen Saison zu den saisonalen Indizes zu gehen. Siehe Abbildung 5.13. Abbildung 5.13 Die spezifischen saisonalen Effekte werden zuerst gemittelt und dann normalisiert, um die saisonalen Indizes zu erreichen. In Abbildung 5.13. Die spezifischen Jahreszeiten in Spalte E werden in der tabellarischen Form im Bereich H4: N7 umgeordnet. Der Zweck ist einfach, es einfacher zu machen, die saisonalen Mittelwerte zu berechnen. Diese Durchschnittswerte sind in H11: N11 dargestellt. Allerdings sind die Zahlen in H11: N11 Mittelwerte, nicht Abweichungen von einem Durchschnitt, und daher können wir erwarten, dass sie auf Null summieren. Wir müssen sie immer noch anpassen, damit sie Abweichungen von einem großen Mittel ausdrücken. Dieser große Mittelwert erscheint in Zelle N13, und ist der Durchschnitt der saisonalen Mittelwerte. Wir können zu den saisonalen Indizes kommen, indem wir den großen Mittelwert in N13 von jedem der saisonalen Mittelwerte abziehen. Das Ergebnis liegt im Bereich H17: N17. Diese saisonalen Indizes sind nicht mehr spezifisch für einen bestimmten gleitenden Durchschnitt, wie es bei den spezifischen Saisonalons in Spalte E der Fall ist. Weil sie auf der Grundlage eines Durchschnitts jeder Instanz einer bestimmten Saison basieren, drücken sie den durchschnittlichen Effekt einer bestimmten Saison über die Vier Wochen in der Zeitreihe. Darüber hinaus sind sie Maßnahmen einer Jahreszeit8217s8212hine, ein Tag8217s8212effekt auf Verkehrsstörungen vis-224-vis der Durchschnitt für eine Sieben-Tage-Periode. Wir können diese Saisonindizes jetzt verwenden, um die Serie zu entwerfen. Wir verwenden die entsandte Serie, um Prognosen über lineare Regression oder Holt8217s Methode der Glättung von Trendreihen zu erhalten (siehe Kapitel 4). Dann fügen wir einfach die saisonalen Indizes wieder in die Prognosen ein, um sie neu zu ordnen. All dies erscheint in Abbildung 5.14. Abbildung 5.14 Nachdem Sie die saisonalen Indizes haben, sind die abschließenden Berührungen, wie hier angewendet, die gleiche wie bei der Methode der einfachen Mittelwerte. Die in Abbildung 5.14 dargestellten Schritte sind weitgehend die gleichen wie in den Abbildungen 5.6 und 5.7. Diskutiert in den folgenden Abschnitten. Deseasonalisierung der Beobachtungen Subtrahieren Sie die saisonalen Indizes von den ursprünglichen Beobachtungen, um die Daten zu entsorgen. Sie können dies tun, wie in Abbildung 5.14 gezeigt. In denen die ursprünglichen Beobachtungen und die saisonalen Indizes als zwei Listen in der gleichen Zeile, Spalten C und F angeordnet sind. Diese Anordnung macht es ein wenig einfacher, die Berechnungen zu strukturieren. Sie können auch die Subtraktion durchführen, wie in Abbildung 5.6 gezeigt. In denen die ursprünglichen vierteljährlichen Beobachtungen (C12: F16), die vierteljährlichen Indizes (C8: F8) und die entsalzten Ergebnisse (C20: F24) tabellarisch dargestellt sind. Diese Anordnung macht es ein wenig einfacher, sich auf die saisonalen Indizes und die veralteten Quartalshäuser zu konzentrieren. Vorhersage aus den deseasonalisierten Beobachtungen in Abbildung 5.14. Die entsorgten Beobachtungen befinden sich in Spalte H und in Abbildung 5.7888 in Spalte C. Unabhängig davon, ob Sie einen Regressionsansatz oder einen Glättungsansatz für die Prognose verwenden wollen, ist es am besten, die entsorgten Beobachtungen in einer einspaltigen Liste anzuordnen. In Abbildung 5.14. Die Prognosen sind in Spalte J. Die folgende Arrayformel wird im Bereich J2: J32 eingetragen. Früher in diesem Kapitel habe ich darauf hingewiesen, dass, wenn Sie das Argument x-values ​​aus den TREND () function8217s Argumenten weglassen, liefert Excel die Standardwerte 1. 2 N. Wobei n die Anzahl der y-Werte ist. In der angegebenen Formel enthält H2: H32 31 y-Werte. Da das Argument, das normalerweise die x-Werte enthält, fehlt, liefert Excel die Standardwerte 1. 2 31 Das sind die Werte, die wir ohnehin verwenden wollen, in Spalte B, so dass die angegebene Formel TREND (H2: H32, B2: B32) entspricht. Und das ist die in D5 verwendete Struktur: D24 von Abbildung 5.7: Die Ein-Schritt-Prognose machen Bisher haben Sie für die Prognosen der entsorgten Zeitreihen von t 1 bis t 31 in Abbildung 5.14 angeordnet. Und von t 1 bis t 20 in Abbildung 5.7. Diese Prognosen stellen nützliche Informationen für verschiedene Zwecke dar, einschließlich der Beurteilung der Genauigkeit der Prognosen mittels einer RMSE-Analyse. Aber Ihr Hauptzweck prognostiziert mindestens die nächste, noch nicht beobachtete Zeit. Um das zu bekommen, könntest du zuerst aus der TREND () oder LINEST () - Funktion prognostizieren, wenn du mit Regression oder aus der exponentiellen Glättungsformel, wenn du die Holt8217s Methode verwende. Dann können Sie den zugehörigen Saisonindex zur Regressions - oder Glättungsprognose hinzufügen, um eine Prognose zu erhalten, die sowohl den Trend als auch den saisonalen Effekt beinhaltet. In Abbildung 5.14. Sie erhalten die Regressionsvorhersage in Zelle J33 mit dieser Formel: In dieser Formel sind die y-Werte in H2: H32 die gleichen wie in den anderen TREND () - Formeln in Spalte J. So sind die (Standard) x-Werte von 1 Durch 32. Nun, aber Sie liefern einen neuen x-Wert als die Funktion8217s dritten Argument, die Sie sagen, TREND () in der Zelle B33 zu suchen. It8217s 32 Der nächste Wert von t. Und Excel gibt den Wert 156.3 in Zelle J33 zurück. Die TREND () - Funktion in Zelle J33 sagt Excel, in Wirklichkeit 8220Calculate die Regressionsgleichung für die Werte in H2: H32 regressed auf den t-Werten 1 bis 31. Wenden Sie diese Regressionsgleichung auf den neuen x-Wert von 32 an und geben Sie das Ergebnis zurück.8221 Sie finden den gleichen Ansatz in Zelle D25 von Abbildung 5.7. Wo die Formel, um die One-Step-Ahead-Prognose zu bekommen ist dies: Hinzufügen der saisonalen Indizes zurück Im letzten Schritt ist es, die Prognosen neu zu bewerten, indem Sie die saisonalen Indizes auf die Trendprognosen, Umkehrung, was Sie vier Schritte zurück, wenn Sie subtrahiert Indizes aus den ursprünglichen Beobachtungen. Dies geschieht in Spalte F in Abbildung 5.7 und Spalte K in Abbildung 5.14. Don8217t vergessen, den entsprechenden Saisonindex für die einstufige Prognose hinzuzufügen, wobei die Ergebnisse in Zelle F25 in Abbildung 5.7 und in Zelle K33 in Abbildung 5.14 gezeigt sind. (Abb. 5.7 und Abbildung 5.14, um die Prognosen hervorzuheben). Sie können Diagramme von drei Darstellungen der Verkehrsstörungsdaten in Abbildung 5.15 finden. Die entschätzte Reihe, die lineare Prognose aus den entschätzten Daten und die neu geschätzten Prognosen. Beachten Sie, dass die Prognosen sowohl den allgemeinen Trend der ursprünglichen Daten als auch die FridaySaturday Spikes beinhalten. Abbildung 5.15 Darstellung der Prognosen.6.2 Verschieben von Durchschnittswerten ma 40 elecsales, order 5 41 In der zweiten Spalte dieser Tabelle wird ein gleitender Durchschnitt der Ordnung 5 angezeigt, der eine Schätzung des Trendzyklus liefert. Der erste Wert in dieser Spalte ist der Durchschnitt der ersten fünf Beobachtungen (1989-1993) der zweite Wert in der 5-MA-Spalte ist der Durchschnitt der Werte 1990-1994 und so weiter. Jeder Wert in der 5-MA-Säule ist der Durchschnitt der Beobachtungen in der Fünfjahresperiode, die auf dem entsprechenden Jahr zentriert sind. Es gibt keine Werte für die ersten zwei Jahre oder die letzten zwei Jahre, weil wir nicht zwei Beobachtungen auf beiden Seiten haben. In der obigen Formel enthält Spalte 5-MA die Werte von Hut mit k2. Um zu sehen, wie die Trendzyklusschätzung aussieht, zeichnen wir sie mit den Originaldaten in Abbildung 6.7 zusammen. Plot 40 elecsales, main quotResidential Elektrizitätsverkäufe, ylab quotGWhquot. Xlab quotYearquot 41 Zeilen 40 ma 40 elecsales, 5 41. col quotredquot 41 Beachten Sie, wie der Trend (in Rot) glatter ist als die Originaldaten und erfasst die Hauptbewegung der Zeitreihe ohne all die kleinen Schwankungen. Die gleitende Durchschnittsmethode erlaubt keine Schätzungen von T, wobei t nahe den Enden der Reihe liegt, daher erstreckt sich die rote Linie nicht auf die Kanten des Graphen auf beiden Seiten. Später werden wir anspruchsvollere Methoden der Trendzyklusschätzung einsetzen, die Schätzungen in der Nähe der Endpunkte zulassen. Die Reihenfolge des gleitenden Durchschnitts bestimmt die Glätte der Trendzyklusschätzung. Im Allgemeinen bedeutet eine größere Ordnung eine glattere Kurve. Die folgende Grafik zeigt die Auswirkung der Änderung der Reihenfolge des gleitenden Durchschnitts für die Wohnungsdaten der Verkaufsdaten. Einfache gleitende Mittelwerte wie diese sind meist von ungerader Ordnung (zB 3, 5, 7 usw.). Das ist also symmetrisch: In einem gleitenden Durchschnitt der Ordnung m2k1 gibt es k frühere Beobachtungen, k spätere Beobachtungen und die mittlere Beobachtung Die gemittelt werden. Aber wenn m war sogar, wäre es nicht mehr symmetrisch. Verschieben von Durchschnittswerten der gleitenden Mittelwerte Es ist möglich, einen gleitenden Durchschnitt auf einen gleitenden Durchschnitt anzuwenden. Ein Grund dafür ist es, einen gleichmäßigen gleitenden Durchschnitt symmetrisch zu machen. Zum Beispiel könnten wir einen gleitenden Durchschnitt von Ordnung 4 nehmen und dann einen anderen gleitenden Durchschnitt von Ordnung 2 auf die Ergebnisse anwenden. In Tabelle 6.2 wurde dies für die ersten Jahre der australischen vierteljährlichen Bierproduktionsdaten durchgeführt. Bier2 lt-fenster 40 ausbeer, start 1992 41 ma4 ltmma 40 bier2, bestell 4. centre FALSE 41 ma2x4 ltmma 40 bier2, bestell 4. zentrum TRUE 41 Die notation 2times4-MA in der letzten Spalte bedeutet ein 4-MA Gefolgt von einem 2-MA. Die Werte in der letzten Spalte werden durch einen gleitenden Durchschnitt der Ordnung 2 der Werte in der vorherigen Spalte erhalten. Zum Beispiel sind die ersten beiden Werte in der 4-MA-Säule 451,2 (443410420532) 4 und 448,8 (410420532433) 4. Der erste Wert in der Spalte 2times4-MA ist der Durchschnitt dieser beiden: 450,0 (451,2448,8) 2. Wenn ein 2-MA einem gleitenden Durchschnitt der geraden Ordnung folgt (wie z. B. 4), wird er als zentrierter gleitender Durchschnitt von Ordnung 4 bezeichnet. Dies liegt daran, dass die Ergebnisse nun symmetrisch sind. Um zu sehen, dass dies der Fall ist, können wir die 2times4-MA wie folgt schreiben: begin Hut amp frac Bigfrac (y y y y) frac (y y y y) Big Amps frac y frac14y frac14y frac14y frac18y. Ende Es ist jetzt ein gewichteter Durchschnitt von Beobachtungen, aber es ist symmetrisch. Auch andere Kombinationen von gleitenden Durchschnitten sind möglich. Zum Beispiel wird oft ein 3times3-MA verwendet und besteht aus einem gleitenden Durchschnitt der Ordnung 3, gefolgt von einem anderen gleitenden Durchschnitt der Ordnung 3. Im Allgemeinen sollte eine gerade Ordnung MA von einer geraden Ordnung MA folgen, um sie symmetrisch zu machen. In ähnlicher Weise sollte eine ungerade Ordnung MA von einer ungeraden Ordnung MA folgen. Schätzung des Trendzyklus mit saisonalen Daten Die häufigste Verwendung von zentrierten gleitenden Durchschnitten ist die Schätzung des Trendzyklus von saisonalen Daten. Betrachten Sie die 2times4-MA: Hut frac y frac14y frac14y frac14y frac18y. Bei der Anwendung auf vierteljährliche Daten wird jedes Viertel des Jahres gleichgewichtig, da die ersten und letzten Bedingungen für das gleiche Quartal in aufeinanderfolgenden Jahren gelten. Folglich wird die saisonale Variation gemittelt und die resultierenden Werte von Hut t haben wenig oder keine saisonale Variation übrig. Ein ähnlicher Effekt würde mit einem 2 x 8-MA oder einem 2 x 12-MA erhalten. Im Allgemeinen entspricht ein 2 x m-MA einem gewichteten gleitenden Durchschnitt der Ordnung m1 mit allen Beobachtungen, die das Gewicht 1m mit Ausnahme der ersten und letzten Begriffe, die Gewichte 1 (2m) nehmen, Wenn also die saisonale Periode gleich und von der Ordnung m ist, benutze ein 2 mal m-MA, um den Trendzyklus abzuschätzen. Wenn die Saisonperiode ungerade und der Ordnung m ist, verwenden Sie einen m-MA, um den Trendzyklus abzuschätzen. Insbesondere kann ein 2 x 12-MA verwendet werden, um den Trendzyklus der monatlichen Daten abzuschätzen und ein 7-MA kann verwendet werden, um den Trendzyklus der täglichen Daten abzuschätzen. Andere Entscheidungen für den Auftrag der MA werden in der Regel dazu führen, dass Trend-Zyklus-Schätzungen durch die Saisonalität in den Daten verunreinigt werden. Beispiel 6.2 Herstellung elektrischer Geräte Abbildung 6.9 zeigt eine 2-mal 12-MA, die auf den Index der elektronischen Ausrüstung angewendet wird. Beachten Sie, dass die glatte Linie keine Saisonalität zeigt, ist es fast das gleiche wie der Trendzyklus, der in Abbildung 6.2 gezeigt wird, der mit einer viel anspruchsvolleren Methode geschätzt wurde, als im Durchschnitt zu fahren. Jede andere Wahl für die Reihenfolge des gleitenden Durchschnitts (außer 24, 36, etc.) hätte zu einer glatten Linie geführt, die einige saisonale Schwankungen zeigt. Plot 40 elecequip, ylab quotNeu bestellt indexquot. Col quotgrayquot, main quotElektrische Geräteherstellung (Eurozone) 41 Zeilen 40 ma 40 elecequip, Auftrag 12 41. col quotredquot 41 Gewichtete Bewegungsdurchschnitte Kombinationen von gleitenden Durchschnitten führen zu gewichteten gleitenden Durchschnitten. Zum Beispiel entspricht der oben diskutierte 2x4-MA einem gewichteten 5-MA mit Gewichten, die durch frac, frac, frac, frac, frac gegeben sind. Im allgemeinen kann ein gewichteter m-MA als Hut t sum k aj y geschrieben werden, wobei k (m-1) 2 und die Gewichte durch a, Punkte, ak gegeben sind. Es ist wichtig, dass die Gewichte alle zu einem summieren und dass sie symmetrisch sind, so dass aj a. Die einfache m-MA ist ein Spezialfall, bei dem alle Gewichte gleich 1m sind. Ein großer Vorteil der gewichteten gleitenden Durchschnitte ist, dass sie eine glattere Schätzung des Trendzyklus ergeben. Anstelle von Beobachtungen, die die Berechnung mit vollem Gewicht betreten und verlassen, werden ihre Gewichte langsam erhöht und dann langsam verringert, was zu einer glatteren Kurve führt. Einige spezifische Sätze von Gewichten sind weit verbreitet. Einige davon sind in Tabelle 6.3 aufgeführt.

No comments:

Post a Comment