ekvationer för den vanliga minsta kvadraterna regression
Ordinary Least Squares regression (OLS) kallas mer vanligt linjär regression (enkel eller multipel beroende på antalet förklarande variabler).
När det gäller en modell med förklarande variabler för p skriver OLS-regressionsmodellen:
Y = β0 + Σj=1..,p ßjXj + ε
där Y är den beroende variabeln, β0 är interceptet i modell, X j motsvarar jth förklarande variabel i modellen (j= 1 p) och e är slumpmässiga fel med väntevärde 0 och varians σ2.
i de fall där det finns n-observationer anges uppskattningen av det förutsagda värdet för den beroende variabeln Y för den ith-observationen med:
yi = β0 + Σj=1..p ßjXij
OLS-metoden motsvarar att minimera summan av kvadratiska skillnader mellan de observerade och förutsagda värdena., Denna minimering leder till följande uppskattningar av parametrarna för modellen:
där β är vektorn för estimatorerna för BTI-parametrarna, X är matrisen för de förklarande variablerna som föregås av en vektor av 1s, y är vektorn för de n observerade värdena för den beroende variabeln, p * är antalet förklarande variabler som vi lägger till 1 om avlyssningen inte är fast, wi är vikten av den i: e observationen och W är summan av wi-vikterna och D är en matris med wi-vikterna på dess diagonala.,
vektorn för de förutsagda värdena kan skrivas enligt följande:
y = X (X’ DX)-1 x ’dy
begränsning av den vanliga minsta kvadratens regression
begränsningarna av OLS-regressionen kommer från begränsningen av inversion av X’ X-matrisen: det krävs att matrisens rang är p+1, och vissa numeriska problem kan uppstå om matrisen inte är väluppfostrad., XLSTAT använder algoritmer på grund av Dempster (1969) som gör det möjligt att kringgå dessa två problem: om matrisrankningen är lika med q där q är strikt lägre än p+1, tas vissa variabler bort från modellen, antingen för att de är konstanta eller för att de tillhör ett block av kollinära variabler.
Variabelval i OLS-regressionen
ett automatiskt urval av variablerna utförs om användaren väljer ett för högt antal variabler jämfört med antalet observationer. Den teoretiska gränsen är n-1, som med större värden blir X ’ X-matrisen icke-inverterbar.,
raderingen av några av variablerna kan dock inte vara optimal: i vissa fall kanske vi inte lägger till en variabel i modellen eftersom den nästan är collinear till några andra variabler eller till ett block av variabler, men det kan vara att det skulle vara mer relevant att ta bort en variabel som redan finns i modellen och till den nya variabeln.
av den anledningen, och även för att hantera de fall där det finns många förklarande variabler, har andra metoder utvecklats.
prediktion
linjär regression används ofta för att förutsäga utdatavärden för nya prover., XLSTAT kan du karakterisera kvaliteten på modellen för förutsägelse innan du går ahaed och använda den för prediktiv användning.
Leave a Reply