vergelijkingen voor de gewone kleinste-Kwadratenregressie
gewone kleinste-Kwadratenregressie (OLS) wordt vaker lineaire regressie genoemd (eenvoudig of veelvoud afhankelijk van het aantal verklarende variabelen).
bij een model met P verklarende variabelen schrijft het OLS-regressiemodel:
Y = β0 + Σj=1..,p ßjXj + ε
waar Y de afhankelijke variabele is, β0, is het snijpunt van het model, X j komt overeen met de JDE verklarende variabele van het model (j= 1 tot p), en e is de willekeurige fout met verwachting 0 en variantie σ2.
wanneer er n waarnemingen zijn, wordt de voorspelde waarde van de afhankelijke variabele Y voor de IDE waarneming bepaald door:
yi = β0 + Σj=1..p ßjXij
de OLS-methode komt overeen met het minimaliseren van de som van kwadraatverschillen tussen de waargenomen en voorspelde waarden., Deze minimalisering leidt tot de volgende schatters van de parameters van het model:
waarbij β de vector is van de schatters van de ßi-parameters, X de matrix van de verklarende variabelen voorafgegaan door een vector van 1s, y de vector van de n waargenomen waarden van de afhankelijke variabele, p* het aantal verklarende variabelen waaraan we 1 toevoegen als het intercept niet vast is, W is het gewicht van de IDE waarneming, en W is de som van de Wi-gewichten, en D is een matrix met de wi-gewichten op zijn diagonaal.,
de vector van de voorspelde waarden kan als volgt worden geschreven:
y = X (X ‘DX) -1 X’ dy
beperking van de gewone kleinste-Kwadratenregressie
De beperkingen van de OLS-regressie komen voort uit de beperking van de inversie van de x ‘ x-matrix: de rang van de matrix moet p+1 zijn, en er kunnen zich enkele numerieke problemen voordoen als de matrix zich niet goed gedraagt., XLSTAT maakt gebruik van algoritmen als gevolg van Dempster (1969) die het mogelijk maken om deze twee problemen te omzeilen: als de matrixrank gelijk is aan q Waar q strikt lager is dan p+1, worden sommige variabelen uit het model verwijderd, hetzij omdat ze constant zijn of omdat ze behoren tot een blok van collineaire variabelen.
variabele selectie in de OLS-regressie
een automatische selectie van de variabelen wordt uitgevoerd als de gebruiker een te groot aantal variabelen selecteert in vergelijking met het aantal waarnemingen. De theoretische limiet is n-1, omdat bij grotere waarden de x ‘ x matrix niet-inverteerbaar wordt.,
het verwijderen van een aantal variabelen kan echter niet optimaal zijn: in sommige gevallen kunnen we een variabele niet toevoegen aan het model omdat het bijna collineair is voor een aantal andere variabelen of een blok van variabelen, maar het kan zijn dat het relevanter is om een variabele die al in het model zit en de nieuwe variabele te verwijderen.
om die reden, en ook om de gevallen te behandelen waarin er veel verklarende variabelen zijn, zijn andere methoden ontwikkeld.
voorspelling
lineaire regressie wordt vaak gebruikt om outputwaarden voor nieuwe monsters te voorspellen., XLSTAT stelt u in staat om de kwaliteit van het model te karakteriseren voor voorspelling voordat u ahaed gaat en gebruiken voor voorspellend gebruik.
Leave a Reply