Monday, 2 January 2017

Gleitender Mittelwert Lowess

Smoothing: Lowess Wir arbeiten mit Daten aus der Kolumbien WFS Household Survey, durchgeführt 1975-76. Ich tabellierte die Altersverteilung aller Haushaltsmitglieder und speicherte sie in einer ascci-Datei, die wir jetzt lesen und plotten: Wie Sie sehen können, sieht die Verteilung etwas weniger glatt aus als die Daten von den Philippinen, die wir früher studiert haben. Können Sie den Myers-Index für diese Verteilung berechnen Running-Mittel und Linien Der einfachste Weg, um ein Scatterplot zu glätten, besteht darin, einen gleitenden Durchschnitt zu verwenden. Auch als laufender Mittelwert bekannt. Der gebräuchlichste Ansatz besteht darin, ein Fenster von 2k 1 Beobachtungen, k links und k rechts von jeder Beobachtung zu verwenden. Der Wert von k ist ein Trade-off zwischen Glätte der Güte der Passform. Besondere Vorsicht ist bei den Extremen des Sortiments zu beachten. Stata kann Laufmittel über lowess mit den Optionen mean und noweight berechnen. Ein häufiges Problem mit Laufmitteln ist Bias. Eine Lösung besteht darin, Gewichte zu verwenden, die den nächsten Nachbarn mehr Gewicht verleihen und weniger weit entfernten. Eine beliebte Gewichtungsfunktion ist Tukeys tri-cube, definiert als w (d) (1-d 3) 3 für d lt 1 und 0 ansonsten, wobei d der Abstand zu dem Zielpunkt ist, der als Bruchteil der Bandbreite ausgedrückt wird. Stata kann diese Berechnung über lowess mit der Option mean tun, wenn Sie noweight weglassen. Eine noch bessere Lösung ist die Verwendung von laufenden Linien. Wir definieren wieder eine Nachbarschaft für jeden Punkt, typischerweise die k nächsten Nachbarn auf jeder Seite, passen eine Regressionslinie zu den Punkten in der Nachbarschaft und verwenden sie dann, um einen glatteren Wert für die Indexbeobachtung vorherzusagen. Das klingt wie eine Menge Arbeit, aber die Berechnungen können effizient mit Regression Updating Formeln durchgeführt werden. Stata kann eine laufende Linie über lowess berechnen, wenn Sie Mittel weglassen, aber noweight einschließen. Besser noch ist die Verwendung gewichteter Linien. Was den engsten Beobachtungen mehr Gewicht verleiht, was die Lowess glatter macht. Eine Variante folgt dieser Schätzung mit wenigen Iterationen, um eine robustere Linie zu erhalten. Dies ist eindeutig die beste Technik in der Familie. Statas lowess verwendet eine gewichtete laufende Linie, wenn Sie Mittelwert und noweight R ausführen, implementiert die lowess glatter durch die Funktionen lowess () und die neuere loess (), die eine Formelschnittstelle mit einem oder mehreren Prädiktoren und etwas anderen Voreinstellungen verwendet. Der Parametergrad steuert den Grad des lokalen Polynoms, der Standardwert ist 2 für quadratisch, Alternativen sind 1 für lineare und 0 für laufende Mittel. Beide Implementierungen können einen robusten Schätzer verwenden, wobei die Anzahl der Iterationen von einem Parameter iter oder Iterationen gesteuert wird. Geben Sie loess und lowess in der R-Konsole ein, um weitere Informationen zu erhalten. In ggplot () können Sie eine lowess glatter durch Aufrufen geomsmooth () Die Abbildung unten zeigt die kolumbianischen Daten und eine lowess glatter mit einer Spanne oder Bandbreite gleich 25 der Daten. Vielleicht möchten Sie versuchen, verschiedene badwidths zu sehen, wie die Ergebnisse variieren. Digit Preference Revisited Glättung der Altersverteilung bietet eine bessere Möglichkeit, Ziffernpräferenz als Myers-Blending zu bewerten. Lassen Sie uns die letzte Ziffer des Alters berechnen und sie über den gesamten Bereich der Daten unter Verwendung der beobachteten Frequenzen und einer niedrigeren Glättung tabellieren. Die rohen Frequenzen zeigen Beweise der Präferenz für Altersgruppen, die in 0 und 5 enden, was sehr häufig ist, und wahrscheinlich auch 2. Wir verwenden jetzt das glatte wie das Gewicht. Die geglätteten Frequenzen zeigen, dass wir weniger Menschen in höheren Ziffern erwarten, sogar in einer glatten Verteilung, mit mehr Endung in 0 als 9. Wir sind nun bereit, einen Index der Ziffernpräferenz, definiert als die Hälfte, zu berechnen Summe der absoluten Differenzen zwischen beobachteten und glatten Frequenzen: Wir sehen, dass wir 5,5 der Beobachtungen umschreiben müssten, um die Ziffernpräferenz zu beseitigen. Sie können dieses Ergebnis mit dem Myers-Index vergleichen. Kopie 2017 Germaacuten Rodriacuteguez, Princeton UniversityLOESS ist eine von vielen modernen Modellierungsmethoden, die auf klassischen Methoden aufbauen, wie lineare und nichtlineare Regression der kleinsten Quadrate. Moderne Regressionsmethoden wurden entwickelt, um Situationen zu begegnen, in denen die klassischen Verfahren nicht gut funktionieren oder nicht ohne unnötige Arbeit effektiv angewendet werden können. LOESS kombiniert einen Großteil der Einfachheit der linearen Regression der kleinsten Quadrate mit der Flexibilität der nichtlinearen Regression. Dies geschieht durch die Anpassung einfacher Modelle an lokalisierte Teilmengen der Daten, um eine Funktion aufzubauen, die den deterministischen Teil der Variation in den Daten beschreibt. Punkt für Punkt. In der Tat ist eine der Hauptattraktionen dieses Verfahrens, dass der Datenanalytiker nicht benötigt wird, um eine globale Funktion irgendeiner Form zu spezifizieren, um ein Modell an die Daten anzupassen, nur um Segmente der Daten anzupassen. Der Kompromiss für diese Merkmale ist eine erhöhte Berechnung. Weil es so rechenintensiv ist, wäre LOESS in der Ära praktisch unmöglich gewesen, wenn die Regression der kleinsten Quadrate entwickelt wurde. Die meisten anderen modernen Methoden der Prozessmodellierung sind in dieser Hinsicht ähnlich wie LOESS. Diese Methoden wurden bewusst entwickelt, um unsere derzeitige Rechenfähigkeit in vollem Umfang nutzen, um Ziele zu erreichen, die nicht leicht durch traditionelle Ansätze erreicht werden. Definition eines LOESS-Modells LOESS, ursprünglich von Cleveland (1979) vorgeschlagen und weiterentwickelt von Cleveland und Devlin (1988). Spezifisch ein Verfahren, das (etwas) deskriptiv als lokal gewichtete polynomielle Regression bekannt ist. An jedem Punkt in dem Datensatz wird ein Polynom mit niedrigem Grad zu einer Teilmenge der Daten angepasst, wobei er Erläuterungsvariablenwerte nahe dem Punkt, dessen Antwort geschätzt wird, aufweisen. Das Polynom wird mit gewichteten kleinsten Quadraten angepasst, was mehr Punkten in der Nähe des Punktes ergibt, dessen Reaktion geschätzt wird, und weniger Gewicht zu Punkten weiter weg. Der Wert der Regressionsfunktion für den Punkt wird dann durch Auswertung des lokalen Polynoms unter Verwendung der erläuternden Variablenwerte für diesen Datenpunkt erhalten. Der LOESS-Fit ist abgeschlossen, nachdem die Regressionsfunktionswerte für jeden der (n) Datenpunkte berechnet wurden. Viele Details dieses Verfahrens, wie der Grad des Polynommodells und die Gewichte, sind flexibel. Die Auswahlmöglichkeiten für jeden Teil der Methode und typische Vorgaben werden im Folgenden kurz erläutert. Lokalisierte Untermengen von Daten Die Untermengen von Daten, die für jede gewichtete Kleinstquadrat-Anpassung in LOESS verwendet werden, werden durch einen nächsten Nachbar-Algorithmus bestimmt. Eine benutzerdefinierte Eingabe in die Prozedur, die als Bandbreiten - oder Glättungsparameter bezeichnet wird, bestimmt, wie viel der Daten verwendet wird, um jedes lokale Polynom anzupassen. Der Glättungsparameter (q) ist eine Zahl zwischen ((d1) n) und (1), wobei (d) der Grad des lokalen Polynoms ist. Der Wert von (q) ist der Anteil der in jedem Fit verwendeten Daten. Die Untermenge der Daten, die in jeder gewichteten Kleinste-Quadrate-Anpassung verwendet werden, umfasst die (nq) (gerundet auf die nächstgrößeren Integer) Punkte, deren erläuternde Variablenwerte dem Punkt am nächsten liegen, an dem die Antwort geschätzt wird. (Q) heißt der Glättungsparameter, da er die Flexibilität der LOESS-Regressionsfunktion steuert. Große Werte von (q) erzeugen die glattesten Funktionen, die am wenigsten in Reaktion auf Schwankungen der Daten wackeln. Je kleiner (q) ist, desto näher ist die Regressionsfunktion den Daten. Ein zu kleiner Wert des Glättungsparameters zu verwenden, ist jedoch nicht wünschenswert, da die Regressionsfunktion schließlich beginnen wird, den Zufallsfehler in den Daten zu erfassen. Nützliche Werte des Glättungsparameters liegen typischerweise im Bereich von 0,25 bis 0,5 für die meisten LOESS-Anwendungen. Grad der lokalen Polynome Die lokalen Polynome, die zu jeder Untermenge der Daten passen, sind fast immer von einem ersten oder zweiten Grad, der entweder lokal linear (im Geraden-Sinn) oder lokal quadratisch ist. Bei Verwendung eines Nullgradpolynoms wird LOESS in einen gewichteten gleitenden Durchschnitt verschoben. Ein solches einfaches lokales Modell könnte für einige Situationen gut funktionieren, kann aber nicht immer die zugrundeliegende Funktion gut genug approximieren. Polynome höherer Ordnung würden in der Theorie funktionieren, aber Modelle liefern, die nicht wirklich im Geist von LOESS sind. LOESS basiert auf den Ideen, dass jede Funktion in einem kleinen Umfeld durch ein niederwertiges Polynom gut angenähert werden kann und dass einfache Modelle problemlos an Daten angepasst werden können. Hochgradige Polynome neigen dazu, die Daten in jeder Untermenge zu überladen und sind numerisch instabil, was genaue Berechnungen schwierig macht. Wie oben erwähnt, gibt die Gewichtungsfunktion die am meisten von dem Punkt der Schätzung am nächsten gelegenen Datenpunkte und die geringste Gewichtung zu den am weitesten entfernten Datenpunkten. Die Verwendung der Gewichte beruht auf der Idee, dass Punkte, die nahe zu einander in dem erläuternden variablen Raum liegen, eher aufeinander bezogen werden können als auf Punkte, die weiter voneinander entfernt sind. Nach dieser Logik beeinflussen Punkte, die dem lokalen Modell am besten folgen, die lokalen Modellparameter-Schätzungen am meisten. Punkte, die weniger wahrscheinlich sind, tatsächlich mit dem lokalen Modell übereinzustimmen, haben weniger Einfluss auf die lokalen Modellparameterschätzungen. Die traditionelle Gewichtsfunktion, die für LOESS verwendet wird, ist die Tri-Cube-Gewichtsfunktion, w (x) links (1 - x3) 3 mboxmike, installieren Sie zuerst R (falls noch nicht vorhanden), führen Sie R aus und installieren Sie das TeachingDemos-Paket Auf deinem System), laden Sie das Paket mit Bibliothek (TeachingDemos) und geben Sie loess. demo ein, um die Hilfeseite aufzurufen, um zu sehen, wie es ausgeführt wird, können Sie nach unten scrollen, wo das Beispiel ist und kopieren und fügen Sie diesen Code in R39s Befehl ein Um die Beispiele zu sehen und dann mit eigenen Daten weiter zu erforschen. Ndash Greg Snow Mar 23 12 at 17:15 Hier ist eine einfache, aber detaillierte Antwort. Ein lineares Modell passt zu einer Beziehung über alle Datenpunkte. Dieses Modell kann erste Ordnung (eine andere Bedeutung von linearem) oder Polynom sein, um der Krümmung Rechnung zu tragen, oder mit Splines, um verschiedene Regionen mit einem anderen regulierenden Modell zu berücksichtigen. Eine LOESS-Passung ist eine lokal bewegte gewichtete Regression, die auf den ursprünglichen Datenpunkten basiert. Whats that mean A LOESS fit gibt die ursprünglichen X - und Y-Werte sowie einen Satz von Output-X-Werten ein, für die neue Y-Werte berechnet werden (in der Regel werden die gleichen X-Werte für beide, aber oft weniger X-Werte für passende XY-Paare verwendet Wegen der erhöhten Rechenleistung). Für jeden Ausgabe-X-Wert wird ein Teil der Eingangsdaten verwendet, um einen Fit zu berechnen. Der Teil der Daten, im allgemeinen 25 bis 100, aber typischerweise 33 oder 50, ist lokal, was bedeutet, daß es derjenige Teil der ursprünglichen Daten ist, der jedem bestimmten Ausgangswert X am nächsten liegt. Es ist eine bewegliche Passform, da jeder Ausgang X-Wert eine andere Teilmenge der Originaldaten mit unterschiedlichen Gewichten erfordert (siehe nächster Absatz). Diese Untermenge von Eingangsdatenpunkten wird verwendet, um eine gewichtete Regression durchzuführen, wobei Punkte am nächsten zu dem Ausgang X-Wert mit größerem Gewicht sind. Diese Regression ist in der Regel erster Ordnung zweiter Ordnung oder höher möglich, erfordert jedoch eine höhere Rechenleistung. Der Y-Wert dieser gewichteten Regression, der an dem Ausgang X berechnet wird, wird als der Modell-Y-Wert für diesen X-Wert verwendet. Die Regression wird an jedem Ausgabe-X-Wert neu berechnet, um einen vollständigen Satz von Ausgabe-Y-Werten zu erzeugen. Antwortete am 21. Februar um 21:08 Uhr


No comments:

Post a Comment