équations pour la régression des moindres carrés ordinaires
la régression des moindres carrés ordinaires (OLS) est plus communément appelée régression linéaire (simple ou multiple selon le nombre de variables explicatives).
dans le cas d’un modèle avec P variables explicatives, le modèle de régression OLS écrit:
Y = β0 + Σj=1..,P ßjXj + ε
où Y est la variable dépendante, β0 est l’ordonnée à l’origine du modèle, X j correspond à la jème variable explicative du modèle (j= 1 à p), et e est l’erreur aléatoire avec espérance 0 et variance σ2.
dans le cas où il y a n observations, l’estimation de la valeur prédite de la variable dépendante Y pour lath observation est donnée par:
yi = β0 + Σj=1..p ßjXij
la méthode OLS correspond à la minimisation de la somme des différences carrées entre les valeurs observées et prédites., Cette minimisation conduit aux estimateurs suivants des paramètres du modèle:
Où β est le vecteur des estimateurs des paramètres ßi, X est la matrice des variables explicatives précédées d’un vecteur de 1s, y est le vecteur Des n valeurs observées de la variable dépendante, p* est le nombre de variables explicatives auxquelles on ajoute 1 si l’ordonnée à l’origine n’est pas fixe, wi est le poids de lath observation, et W est la somme des poids wi, Et D est une matrice avec les poids wi sur sa diagonale.,
Le Vecteur des valeurs prédites peut s’écrire comme suit:
y = X (X’ DX)-1 X’Dy
Limitation de la régression des moindres carrés ordinaires
Les limitations de la régression OLS proviennent de la contrainte de l’inversion de la matrice X’X: il est nécessaire que le rang de la matrice soit p+1, et certains problèmes numériques peuvent survenir si la matrice n’est pas bien comportée., XLSTAT utilise des algorithmes dus à Dempster (1969) qui permettent de contourner ces deux problèmes: si le rang de la matrice est égal à q Où q est strictement inférieur à p+1, certaines variables sont supprimées du modèle, soit parce qu’elles sont constantes, soit parce qu’elles appartiennent à un bloc de variables colinéaires.
sélection des variables dans la régression OLS
Une sélection automatique des variables est effectuée si l’utilisateur sélectionne un nombre trop élevé de variables par rapport au nombre d’observations. La limite théorique est n-1, car avec de plus grandes valeurs, la matrice X’X devient non inversible.,
la suppression de certaines variables peut cependant ne pas être optimale: dans certains cas, nous pourrions ne pas ajouter de variable au modèle car elle est presque colinéaire à d’autres variables ou à un bloc de variables, mais il se peut qu’il soit plus pertinent de supprimer une variable qui est déjà dans le modèle et à la nouvelle variable.
pour cette raison, et aussi pour gérer les cas où il y a beaucoup de variables explicatives, d’autres méthodes ont été développées.
prédiction
la régression linéaire est souvent utilisée pour prédire les valeurs des sorties pour les nouveaux échantillons., XLSTAT vous permet de caractériser la qualité du modèle pour la prédiction avant d’aller ahaed et de l’utiliser pour une utilisation prédictive.
Leave a Reply