Ligninger for den Vanlige Minste Kvadraters regresjon
Vanlig Minste Kvadraters regresjon (OLS) er mer vanlig kalt lineær regresjon (enkle eller flere, avhengig av antall forklarende variabler).
I tilfelle av en modell med p forklarende variabler, den OLS regresjon modell skriver:
Y = β0 + Σj=1..,p ßjXj + ε
hvor Y er den avhengige variabelen, β0, er skjæringspunktet av modellen, X j tilsvarer jth forklarende variable i modellen (j= 1 p), og e er den tilfeldige feil med forventning 0 og varians σ2.
I tilfelle det er n observasjoner, estimering av forventet verdi på den avhengige variabelen Y for i-te observasjonen er gitt ved:
yi = β0 + Σj=1..p ßjXij
The OLS metoden tilsvarer å minimere summen av square forskjeller mellom observerte og predikerte verdier., Dette minimalisering fører til følgende estimatorer for parametrene i modellen:
hvor β er en vektor av estimatorer av ßi parametre, X er matrise av den forklarende variabler som innledes med en vektor av 1s, y er en vektor av n observerte verdier av den avhengige variabelen, p* er antall forklarende variabler som vi legger til 1 hvis skjæringspunktet er ikke fast, wi er vekten av den i-te observasjonen, og W er summen av wi vekter, og D er en matrise med wi vekt på den diagonale.,
vektoren av den forventede verdier kan skrives slik:
y = X (X) DX)-1 X’Dy
Begrensning av Vanlig Minste Kvadraters regresjon
begrensningene i OLS regresjon kommer fra begrensningen av inversjon av X ‘ X matrise: det er nødvendig at rangen til matrisen er p+1, og noen numeriske problemer kan oppstå hvis matrise er ikke oppførte seg bra., XLSTAT bruker algoritmer på grunn av Dempster (1969) som tillater å omgå disse to spørsmålene: hvis matrise er lik rang q der q er strengt lavere enn p+1, noen variabler er fjernet fra modellen, enten fordi de er konstant, eller fordi de tilhører en blokk av likhet kollineære variabler.
Variabel utvalget i OLS regresjon
Et automatisk valg av variabler er utført hvis brukeren velger et for høyt antall variabler i forhold til antall observasjoner. Den teoretiske grensen er n-1, som med større verdier av X ‘ X matrix blir ikke-invertible.,
slette noen av variablene kan imidlertid ikke være optimalt: i noen tilfeller kan vi ikke legge til en variabel i modellen fordi det er nesten likhet kollineære til noen andre variabler eller til en blokk av variabler, men det kan være at det ville være mer relevant å ta en variabel som allerede er i modellen og til den nye variabelen.
derfor, og også for å håndtere saker der det er mange forklarende variabler, andre metoder har blitt utviklet.
logisk skriving
Lineær regresjon er ofte bruke til å forutsi utganger » verdier for nye prøver., XLSTAT gjøre deg i stand til å karakterisere kvaliteten på modellen for prediksjon før du går ahaed og bruke det for prediktiv bruk.
Leave a Reply