Gleichungen für die Gewöhnliche kleinste Quadrate regression
Ordinary Least Squares regression (OLS) ist normalerweise mit der Bezeichnung lineare regression (einfach oder mehrfach, je nach der Anzahl der erklärenden Variablen).
Bei einem Modell mit p erklärenden Variablen schreibt das OLS-Regressionsmodell:
Y = β0 + Σj=1..,p ßjXj + ε
wobei Y die abhängige Variable β0 ist, der Intercept des Modells ist, Xj der j-ten Erklärungsvariablen des Modells entspricht (j= 1 bis p) und e der Zufallsfehler mit Erwartung 0 und Varianz σ2 ist.
Bei n Beobachtungen ist die Schätzung des vorhergesagten Wertes der abhängigen Variablen Y für die ith-Beobachtung gegeben durch:
yi = β0 + Σj=1..p ßjXij
Die OLS-Methode entspricht der Minimierung der Summe der Quadratdifferenzen zwischen den beobachteten und den vorhergesagten Werten., Diese Minimierung führt zu den folgenden Schätzern der Parameter des Modells:
wobei β der Vektor der Schätzer der ßi-Parameter ist, X die Matrix der erklärenden Variablen ist, denen ein Vektor von 1s vorangestellt ist, y der Vektor der n beobachteten Werte der abhängigen Variablen ist, p* die Anzahl der erklärenden Variablen ist, zu denen wir 1 hinzufügen, wenn der Intercept nicht festgelegt ist, wi das Gewicht der ith-Beobachtung ist und W die Summe der wi-Gewichte ist und D eine Matrix mit den wi-Gewichten auf seiner Diagonale ist.,
Der Vektor der vorhergesagten Werte kann wie folgt geschrieben werden:
y = X (X‘ DX)-1 X ‚Dx
Begrenzung der Regression der gewöhnlichen kleinsten Quadrate
Die Einschränkungen der OLS-Regression ergeben sich aus der Einschränkung der Inversion der X‘ X-Matrix: Es ist erforderlich, dass der Rang der Matrix p+1 ist, und einige numerische Probleme können auftreten, wenn sich die Matrix nicht gut benimmt., XLSTAT verwendet Algorithmen aufgrund von Dempster (1969), die es ermöglichen, diese beiden Probleme zu umgehen: Wenn der Matrixrang gleich q ist, wobei q streng niedriger als p+1 ist, werden einige Variablen aus dem Modell entfernt, entweder weil sie konstant sind oder weil sie zu einem Block gehören von kollinearen Variablen.
Variablenauswahl in der OLS-Regression
Eine automatische Auswahl der Variablen wird durchgeführt, wenn der Benutzer eine zu hohe Anzahl von Variablen im Vergleich zur Anzahl der Beobachtungen auswählt. Die theoretische Grenze ist n-1, da bei größeren Werten die X ‚ X-Matrix nicht invertierbar wird.,
Das Löschen einiger Variablen ist jedoch möglicherweise nicht optimal: In einigen Fällen fügen wir dem Modell möglicherweise keine Variable hinzu, da sie für einige andere Variablen oder einen Variablenblock fast kollinear ist, aber es könnte sein, dass es relevanter wäre, eine Variable, die sich bereits im Modell befindet, und die neue Variable zu entfernen.
Aus diesem Grund und auch um die Fälle zu behandeln, in denen es viele erklärende Variablen gibt, wurden andere Methoden entwickelt.
Vorhersage
Lineare Regression wird häufig verwendet, um die Werte der Ausgaben für neue Stichproben vorherzusagen., XLSTAT ermöglicht es Ihnen, die Qualität des Modells für die Vorhersage zu charakterisieren, bevor Sie ahaed gehen und es für die prädiktive Verwendung verwenden.
Leave a Reply