Es una técnica que permite estudiar cómo una variable respuestacontinua varía en función de una o más variables predictoras
\({Y}\) = variable respuesta o dependiente; aleatoria
\({X}\) = variable explicatoria, predictorao independiente; no aleatoria
Si se incluye una única X, regresión simple
Si se incluye más de una X, regresión múltiple
Objetivos del análisis de regresión
\({y_i} = \beta_0 + \beta_1{x_i} + \epsilon_i\)
\({y_i}\) es la i-ésima observación de la variable dependiente Y
\({x_i}\) es el i-ésimo valor de la variable predictora X
\(\beta_0\) y \(\beta_1\) son los parámetrosl origen y pendiente
\(\beta_1\) indica el cambio esperado en Y por cada aumento unitario de X
\(\epsilon_i\) es el error aleatorio, variación de Y no explicada por X
La función anterior no es observable directamente, sino que debe ser estimada a través de una los datos experimentales:
\(\hat{y_i} = b_0 + b_1{x_i} + \epsilon_i\) Donde \(b_0\) y \(b_1\) son los estimadores puntuales de \(\beta_0\) y \(\beta_1\) respectivamente
Se denomina residuo a la diferencia entre el valor observado y el pronosticado por el modelo (distancia vertical)
\(e_i = {y_i} - \hat{y_i}\)
\(\Sigma{e_i} = 0\) La suma de los residuos es cero
\(\Sigma({y_i} - \hat{y_i})^2= \Sigma{e_i}^2 = \Sigma({y_i} - (b_0 + b_1{x_i}))^2\)
Se buscan los valores de \(b_0\) y \(b_1\) que minimicen \(e_i\) igualando queda asi
\(b_1 = \Sigma({x_i} - \bar{x})({y_i} - \bar{y})/ \Sigma({x_i} - \bar{x})^2\)
\(b_0 = \bar{y} - b_1\bar{x})\)
La pregunta de rigor: ¿La variación explicada por el modelo es significativamente mayor que la no explicada? Particularmente, ¿variaciones de X explican variaciones de Y?
\(H_0 = \beta_1 = 0\) la variación de Y no se explica linealmente por la variación de X
\(H_1 = \beta_1 no 0\) la variación de Y sí se explica linealmente por la variación de X
Mide la proporción de variabilidad de la variable respuesta explicada por variaciones en X, es decir por el modelo de regresión
\(R^2 = \Sigma({y_i} - \hat{y})^2/ \Sigma({y_i} - \bar{y})^2\)
\(R^2\) es adimensional y puede tomar valores entre 0 y 1 Es una medida de la capacidad predictiva del modelo: cuanto más cercano a 1, mejor el ajuste del modelo
\({y_i} = \beta_0 + \beta_1{x_1i} + \beta_2{x_2i} + \epsilon_i\)
\(\hat{y_i} = b_0 + b_1{x_1i} + b_2{x_2i} + \epsilon_i\)
\(H_0 = \beta_1 = \beta_2 = 0\) ninguna de las v. explicatorias consideradas en el modelo explica la variación en la respuesta.
\(H_1 = \beta_i no 0\) al menos una de las X explica la variación en la respuesta.
Se refiere a la existencia de asociaciones lineales entre variables explicatorias, el modelo tiene información redundante
puede causar:
se puede analizar mediante coeficientes de correlacion y con el FIV (factor de inflación de la varianza) que mide para cada X el aumento de la varianza del coeficiente de regresión debido a la correlación entre VI
\(FIV = 1/1 - {R^2_j}\)
Toma valores entre 1 e infinito. Valores superiores a 5 son considerados indicativos de colinealidad
\({y_i} = \beta_0 + \beta_1{x_1i} + \beta_2{x_i}^2 + ... + \beta_2{x_i}^p + \epsilon_i\)
El modelo incluye términos de potencias sucesivas de la v. independiente X Es un caso particular de regresión múltiple: las distintas potencias de X actúan como distintas v. explicatorias p es el gradodel polinomio (máxima potencia)
Se utilizan las mismas técnicas que para regresión lineal
Análisis de residuos: normalidad, homocedasticidad, correcta especificación del modelo, outliers Gráfico de los valores observados y de los predichos según el modelo propuesto vs x
Multicolinealidad: Por definición, los términos polinomiales están correlacionados. Por lo tanto las estimaciones de los coeficientes son inestables y los errores estándar pueden ser grandes. Esto empeora al aumentar el orden del polinomio
Atención con las extrapolaciones! En regresión polinomial es muy probable que arrojen resultados absurdos
Modelos lineales: son aquellos que son lineales en los parámetros. Además pueden ser:
Modelos no lineales: en los parámetros
Lineales intrínsecamente: se pueden linealizarmediante una transformación \({y_i} = \beta_0{x}^\alpha\)
No lineales propiamente dichos: 1. Son más difíciles de especificar y estimar que los modelos lineales 2. A diferencia de la regresión lineal, donde sólo se listan las v. explicatorias, en RNL debe decidirse una ecuación, indicando la relación funcional de Y con X 3. Esta puede surgir a partir de teoría (lo más recomendable) o empíricamente
Algunos modelos no convergen si se parte de valores iniciales lejanos de aquellos que logran la minimización de la suma de cuadrados Si se parte de valores iniciales alejados de aquellos que logran la minimización de la suma de cuadrados