ecuaciones para la regresión de mínimos cuadrados ordinarios
la regresión de mínimos cuadrados ordinarios (OLS) se denomina más comúnmente regresión lineal (simple o múltiple dependiendo del número de variables explicativas).
en el caso de un modelo con variables explicativas p, el modelo de regresión OLS escribe:
y = β0 + Σj=1..,p ßjXj + ε
donde Y es la variable dependiente, β0, es la intersección del modelo, X j corresponde a la J-ésima variable explicativa del modelo (j= 1 A p), y e es el error aleatorio con expectativa 0 y varianza σ2.
En el caso donde hay n observaciones, la estimación del valor predicho de la variable dependiente Y para la i-ésima observación está dada por:
yi = β0 + Σj=1..p ßjXij
el método OLS corresponde a minimizar la suma de diferencias cuadradas entre los valores observados y predichos., Esta minimización conduce a los siguientes estimadores de los parámetros del modelo:
donde β es el vector de los estimadores de los parámetros ßi, X es la matriz de las variables explicativas precedida por un vector de 1s, y es el vector de los n valores observados de la variable dependiente, p* es el número de variables explicativas a las que agregamos 1 si la intersección no es fija, wi es el peso de la observación ith, y W es la suma de los pesos wi, Y D es una matriz con los pesos wi en su diagonal.,
el vector de los valores predichos se puede escribir de la siguiente manera:
y = X (X’ DX)-1 x’dy
limitación de la regresión de mínimos cuadrados ordinarios
las limitaciones de la regresión OLS provienen de la restricción de la inversión de la matriz X’X: se requiere que el rango de la matriz sea p+1, y pueden surgir algunos problemas numéricos si la matriz no se comporta bien., XLSTAT utiliza algoritmos debido a Dempster (1969) que permiten eludir estos dos problemas: si el rango de la matriz es igual a q donde q es estrictamente inferior a p+1, algunas variables se eliminan del modelo, ya sea porque son constantes o porque pertenecen a un bloque de variables colineales.
selección de variables en la regresión OLS
se realiza una selección automática de las variables si el usuario selecciona un número demasiado alto de variables en comparación con el número de observaciones. El límite teórico es n-1, ya que con valores mayores la matriz X’X se vuelve no invertible.,
la eliminación de algunas de las variables puede, sin embargo, no ser óptima: en algunos casos podríamos no agregar una variable al modelo porque es casi colineal a algunas otras variables o a un bloque de variables, pero podría ser que sería más relevante eliminar una variable que ya está en el modelo y a la nueva variable.
por esa razón, y también para manejar los casos donde hay muchas variables explicativas, se han desarrollado otros métodos.
predicción
la regresión lineal se utiliza a menudo para predecir los valores de las salidas para nuevas muestras., XLSTAT le permite caracterizar la calidad del modelo para la predicción antes de ir ahaed y usarlo para uso predictivo.
Leave a Reply