Equazioni per la regressione dei minimi quadrati ordinari
La regressione dei minimi quadrati ordinari (OLS) è più comunemente chiamata regressione lineare (semplice o multipla a seconda del numero di variabili esplicative).
Nel caso di un modello con variabili esplicative p, il modello di regressione OLS scrive:
Y = β0 + Σj=1..,p ßjXj + ε
dove Y è la variabile dipendente, β0, è l’intercetta del modello, X j corrisponde alla variabile esplicativa j del modello (j= 1 a p), ed e è l’errore casuale con aspettativa 0 e varianza σ2.
Nel caso in cui vi siano n osservazioni, la stima del valore previsto della variabile dipendente Y per l’osservazione ith è data da:
yi = β0 + Σj=1..p ßjXij
Il metodo OLS corrisponde a minimizzare la somma delle differenze quadrate tra i valori osservati e previsti., Questa minimizzazione comporta i seguenti stimatori dei parametri del modello:
dove b è il vettore dei stimatori di ßi parametri, X è la matrice delle variabili esplicative preceduta da un vettore di 1s, y è il vettore degli n valori osservati della variabile dipendente, p* è il numero di variabili esplicative a cui si aggiunge 1 se l’intercetta non è fisso, wi è il peso della i-esima osservazione, e W è la somma dei pesi wi, e D è una matrice con il wi pesi sulla sua diagonale.,
Il vettore dei valori stimati può essere scritto come segue:
y = X (X’) DX)-1 X’Dy
Limitazione dei minimi Quadrati Ordinari di regressione
Le limitazioni della regressione OLS provengono dal vincolo di inversione della matrice x’X: è necessario che il rango della matrice è p+1, e alcuni numerica di problemi possono sorgere se la matrice non si è comportata bene., XLSTAT utilizza algoritmi dovuti a Dempster (1969) che consentono di aggirare questi due problemi: se il rango della matrice è uguale a q dove q è strettamente inferiore a p+1, alcune variabili vengono rimosse dal modello, perché sono costanti o perché appartengono a un blocco di variabili collineari.
Selezione variabile nella regressione OLS
Una selezione automatica delle variabili viene eseguita se l’utente seleziona un numero di variabili troppo elevato rispetto al numero di osservazioni. Il limite teorico è n-1, poiché con valori maggiori la matrice X’X diventa non invertibile.,
L’eliminazione di alcune variabili potrebbe tuttavia non essere ottimale: in alcuni casi potremmo non aggiungere una variabile al modello perché è quasi collineare ad altre variabili o ad un blocco di variabili, ma potrebbe essere che sarebbe più rilevante rimuovere una variabile che è già nel modello e alla nuova variabile.
Per questo motivo, e anche per gestire i casi in cui ci sono molte variabili esplicative, sono stati sviluppati altri metodi.
Previsione
La regressione lineare viene spesso utilizzata per prevedere i valori degli output per i nuovi campioni., XLSTAT consentono di caratterizzare la qualità del modello per la previsione prima di andare ahaed e utilizzarlo per l’uso predittivo.
Leave a Reply