\[ Y=\beta_0+\beta_1 x+\varepsilon \]
\(Y\) es una función lineal de \(x\).
\(\beta_0\) y \(\beta_1\) son los parámetros (desconocidos) del modelo.
\(\varepsilon\): Variable aleatoria del error, es la componente aleatoria del modelo que explica la variabilidad que no explica el modelo.
\(E(\varepsilon)=0\) y \(Var(\varepsilon)=\sigma^2\)
\[ \hat{y}=\hat{\beta_0}+\hat{\beta_1}x \]
\(\hat{y}\): Variable dependiente o respuesta.
\(x\): Variable independiente o explicativa.
\(\hat{\beta_0}\) y \(\hat{\beta_1}\) son los coeficientes de regresión. Estiman los parámetros del modelo teórico.
Linealidad. (Gráficos de dispersión o coeficiente de correlación).
Independencia entre los residuos. (Estadístico de Durbin - Watson).
Homocedasticidad. (Estadístico de Leneve).
Normalidad de los residuos tipificados. (Prueba de Kolmogorff - Smirnov).
No-Colinealidad.
\[ SCE= \sum_{i=1}^{n} (y_i-\hat{y}_i)^2 \]
\[ SCT= \sum_{i=1}^{n} (y_i-\bar{y})^2 \]
\[ SCR= \sum_{i=1}^{n} (\hat{y}_i-\bar{y})^2 \]
\[ SCT=SCE+SCR \]
donde:
SCT = suma total de cuadrados
SCR = suma de cuadrados debido a la regresión
SCE = suma de cuadrados debido al error
\[ r^2=\dfrac{SCR}{STC} \]
\[ \hat{\sigma^2}=s^2=ECM=\dfrac{SCE}{n-2} \]
\[H_0: \beta_1 = 0\] \[H_a: \beta_1 \ne 0\]
\[t=\dfrac{\hat{\beta_1}}{s_{\hat{\beta_1}}}\]
donde
\[s_{\hat{\beta_1}}=\dfrac{s}{ \sqrt{ \sum_{i=1}^{n}(x_i-\bar{x})^2} } \]
\[H_0: \beta_1 = 0\] \[H_a: \beta_1 \ne 0\]
\[F=\dfrac{CMR}{ECM}\]
donde
\[CMR=\dfrac{SCR}{\text{grados de libertad de la regresión}}\]
CMR: Cuadrado medio de la regresión
| Fuente de variación | Suma de cuadrados | G.L | Cuadrado medio | F | P-Valor |
|---|---|---|---|---|---|
| Regresión | SCR | 1 | SCR | SCR/ECM | |
| Error | SCE | \(n-2\) | \(\text{ECM}=\frac{\text{SCE}}{n-2}\) | ||
| Total | SCT | \(n-1\) |
Un intervalo de confianza de \(100(1 - \alpha)\%\) para el parámetro \(\beta_1\) en la recta de regresión \(\hat{y} = \hat{\beta_0} + \hat{\beta_1} x\) es
\[ \hat{\beta_1}-t_{\frac{\alpha}{2}} s_{\hat{\beta_1}} <\beta_1< \hat{\beta_1}+t_{\frac{\alpha}{2}} s_{\hat{\beta_1}} \]
Un intervalo de confianza de \(100(1 - \alpha)\%\) para el parámetro \(\beta_0\) en la recta de regresión \(\hat{y} = \hat{\beta_0} + \hat{\beta_1} x\) es
\[ \hat{\beta_0}-t_{\frac{\alpha}{2}} s_{\hat{\beta_1}} \left( \sqrt{ \dfrac{\sum_{i=1}^{n} x^2_i}{n}} \right) <\beta_0< \hat{\beta_0}+t_{\frac{\alpha}{2}} s_{\hat{\beta_1}} \left( \sqrt{ \dfrac{\sum_{i=1}^{n} x^2_i}{n}} \right) \]
donde, \(t_{\frac{\alpha}{2}}\) es un valor de la distribución \(t\) con \(n-2\) G.L.
\[y=f(X_0,X_1,\ldots,X_p,\beta_0,\beta_1,\ldots,\beta_p)+\varepsilon\]
El análisis de regresión es un conjunto de herramientas estadísticas utilizadas para explicar o modelar la relación entre una sola variable \(y\), llamada la variable respuesta, salida o dependiente; y una o más variables predictoras, entrada o explicativas, \(X_0,X_1,\ldots,X_p\)
Donde \(\beta_0,\beta_1,\ldots,\beta_p\) son los parámetros (desconocidos) del modelo y \(\varepsilon\) es la Variable aleatoria del error, es la componente aleatoria del modelo que explica la variabilidad que no explica el modelo.
Predicción de futuras observaciones.
Evaluación del efecto o relación entre las variables explicativas y la respuesta.
Una descripción general de la estructura de datos.
\[ \pmb{y}=\mu+\varepsilon= \pmb{X}\beta+\varepsilon \]
donde \(\pmb{y}\), \(\mu\) son vectores de tamaño \(n\), \(\pmb{X}\) es una matriz de tamaño \(n \times p\) y \(\beta\) es un vector de tamaño \(p\)
La estimación de los parámetros \(\beta\) puede caracterizarse de manera general como:
\[ \hat{\beta}= \text{argmín}\sum_{k=1}^n M(\varepsilon_k) \]
Si la matriz \(A=\pmb{X^T}\pmb{X}\) es no singular, la solución para los coeficientes de regresión usando el método de mínimos cuadrados, se escribe como
\[ \hat{\beta}=(\pmb{X^T}\pmb{X})^{-1}\pmb{X^T}\pmb{y} \]
Por lo tanto, la estimaciones de \(y\) estan dadas por
\[ \hat{\pmb{y}}=\pmb{X}\hat{\beta}=\pmb{X}(\pmb{X^T}\pmb{X})^{-1}\pmb{X^T}\pmb{y} \]
Si \(\hat{\beta}\) es el estimador por mínimos cuadrados de \(\beta\), entonces es un estimador insesgado.
Si suponemos que el modelo con variable de respuesta continua, descrito de la forma anterior, tiene errores no sesgados y no correlacionados de varianza constante, entonces:
El estimador lineal insesgado de minima varianza de \(\beta\) es \(\hat{\beta}=(\pmb{X^T}\pmb{X})^{-1}\pmb{X^T}\pmb{y}\), el estimador por minimos cuadrados.
Si suponemos que los errores siguen una distribución normal \(\varepsilon \sim N(\pmb{0},\sigma^2 \pmb{I})\), entonces \(\hat{\beta}\) coincide con el estimador de maxima verosimilitud.
En ausencia de normalidad, el estimador por mínimos cuadrados no es eficiente.
\[ \hat{e_i}=\frac{e_i}{s \sqrt{1-h_{ii}}} \]
\[ rs\hat{e_i}=\frac{e_i}{s_{(i)} \sqrt{1-h_{ii}}} \]
donde \(h_{ii}\) en la entrada en la diagonal de la matriz \(H=X(X^TX)^{-1}X^T\)
Sea \(\bar{h}=\frac{p}{n}\) donde \(p=Tr(H)=\sum_{i=1}^n h_{ii}\)
\[ DC_i = \left( \frac{h_{ii}}{1-h_{ii}} \right) \frac{rse_i^2}{p} \]
Un dato es influyente globalmente si \(DC_i>F_{(0.95,p,n-p)}\)
\[ Dffits_i=\frac{|\hat{y}_i-\hat{y}_{i(i)}|}{\sqrt{s^2_{(i)}h_{ii}}}=|rse_i| \sqrt{\frac{h_{ii}}{1-h_{ii}}} \] ¿Qué tan influyente es el valor \(i\) al hacer predicciones?
Si \(Dffits_{i}>2 \sqrt{\frac{p}{n}}\), entonces el registro \(i\) es influyente en las predicciones.
\[ AIC=-2\text{Ln}(L)+2p \] donde \(k\) es el número de parámetros del modelo , y \(L\) es el máximo valor de la función de verosimilitud para el modelo estimado.
\[ BIC=-2\text{Ln}(L)+p\text{Ln}(n) \]
\[ PRESS = \sum_{i=1}^n (y_i-\hat{y}_{i(i)})^2 \]
Modificación de la regresión lineal clásica.
Múltiples modelos (problema combinatorio).
Técnicas que penalizan los coeficientes.
Herramienta para la selección de variables.
Reducción de la varianza.
Hoerl y Kennard (1970)
Escenarios donde las variables independientes están altamente correlacionadas
Contraen los coeficientes del modelo
Recordemos el método de minimizar la suma de cuadrados del error (Mínimos cuadrados)
\[ SCE = \sum_{k=1}^n (\ y_k - \beta_0 - \sum_{j=1}^m \beta_j x_{kj} )\ ^2 \]
\[ SCE + \lambda \sum_{j=1}^m \beta_j^2, \ \ \ \lambda \geq 0 \]
Seleccionar los \(\beta_j\) de forma que el modelo realice un buen ajuste y podamos minimizar la expresión anterior.
La penalización busca contraer los \(\beta_j\)
\(\lambda\) se conoce como el parámetro de Tuning (afinamiento de parámetros) y controla el efecto relativo de la penalización
Robert Tibshirani (1996).
Penaliza la suma del valor absoluto de los coeficientes.
El propósito es forzar a que los coeficientes de los predictores tiendan a cero.
El método Lasso consigue excluir los predictores menos relevantes.
\[ SCE + \lambda \sum_{j=1}^m |\beta_j|, \ \ \ \lambda \geq 0 \]