równania dla zwykłej regresja najmniejszych kwadratów
zwykła regresja najmniejszych kwadratów (OLS) jest częściej nazywana regresją liniową (prostą lub wielokrotną w zależności od liczby zmiennych wyjaśniających).
w przypadku modelu ze zmiennymi objaśniającymi P, model regresji OLS pisze:
Y = β0 + Σj=1..,p ßjXj + ε
gdzie Y jest zmienną zależną, β0, jest przechwyceniem modelu, X J odpowiada JTH zmiennej wyjaśniającej modelu (j = 1 do p), A e jest błędem losowym z oczekiwaniem 0 i wariancją σ2.
w przypadku N obserwacji, oszacowanie przewidywanej wartości zmiennej zależnej Y dla i-tej obserwacji jest podane przez:
yi = β0 + Σj=1..p ßjXij
metoda OLS odpowiada minimalizacji sumy kwadratowych różnic między wartościami obserwowanymi i przewidywanymi., Ta minimalizacja prowadzi do następujących estymatorów parametrów Modelu:
Gdzie β jest wektorem estymatorów parametrów ßi, X jest macierzą zmiennych objaśniających poprzedzoną wektorem 1s, y jest wektorem N obserwowanych wartości zmiennej zależnej, p * jest liczbą zmiennych objaśniających, do których dodajemy 1, jeśli przechwycenie nie jest stałe, wi jest wagą i-tej obserwacji, a W jest sumą wag wi, A D jest macierzą z wag wi na przekątnej.,
wektor przewidywanych wartości można zapisać w następujący sposób:
y = X (X' DX)-1 x 'dy
ograniczenie zwykłej regresji najmniejszych kwadratów
Ograniczenia regresji OLS wynikają z ograniczenia inwersji macierzy X' X: wymagane jest, aby ranga macierzy wynosiła p+1, a niektóre problemy numeryczne mogą pojawić się, jeśli macierz nie jest dobrze zachowana., XLSTAT wykorzystuje algorytmy Dempstera (1969), które pozwalają obejść te dwie kwestie: jeśli ranga macierzy jest równa q, gdzie q jest ściśle niższa niż p+1, niektóre zmienne są usuwane z modelu, ponieważ są stałe lub należą do bloku zmiennych koliniowych.
wybór zmiennych w regresji OLS
automatyczny wybór zmiennych jest wykonywany, jeśli użytkownik wybierze zbyt dużą liczbę zmiennych w porównaniu do liczby obserwacji. Teoretyczna granica wynosi n-1, ponieważ przy większych wartościach macierz X ' X staje się nieodwracalna.,
usunięcie niektórych zmiennych może jednak nie być optymalne: w niektórych przypadkach możemy nie dodawać zmiennej do modelu, ponieważ jest ona prawie zbieżna z niektórymi innymi zmiennymi lub blokiem zmiennych, ale może być bardziej istotne usunięcie zmiennej, która jest już w modelu i do nowej zmiennej.
z tego powodu, a także w celu obsługi przypadków, w których istnieje wiele zmiennych wyjaśniających, opracowano inne metody.
Predykcja
regresja liniowa jest często używana do przewidywania wartości wyjściowych dla nowych próbek., XLSTAT pozwala scharakteryzować jakość modelu do przewidywania, zanim przejdziesz do ahaed i wykorzystasz go do celów predykcyjnych.
Leave a Reply