Notas de clase

RegresiĂ³n

Andrés Cruz Ph.D(c)

17 febrero, 2022

RegresiĂ³n Lineal Simple

Modelo TeĂ³rico

\[ Y=\beta_0+\beta_1 x+\varepsilon \]

  • \(Y\) es una funciĂ³n lineal de \(x\).

  • \(\beta_0\) y \(\beta_1\) son los parĂ¡metros (desconocidos) del modelo.

  • \(\varepsilon\): Variable aleatoria del error, es la componente aleatoria del modelo que explica la variabilidad que no explica el modelo.

  • \(E(\varepsilon)=0\) y \(Var(\varepsilon)=\sigma^2\)

Modelo estimado

\[ \hat{y}=\hat{\beta_0}+\hat{\beta_1}x \]

  • \(\hat{y}\): Variable dependiente o respuesta.

  • \(x\): Variable independiente o explicativa.

  • \(\hat{\beta_0}\) y \(\hat{\beta_1}\) son los coeficientes de regresiĂ³n. Estiman los parĂ¡metros del modelo teĂ³rico.

Supuestos

  • Linealidad. (GrĂ¡ficos de dispersiĂ³n o coeficiente de correlaciĂ³n).

  • Independencia entre los residuos. (EstadĂ­stico de Durbin - Watson).

  • Homocedasticidad. (EstadĂ­stico de Leneve).

  • Normalidad de los residuos tipificados. (Prueba de Kolmogorff - Smirnov).

  • No-Colinealidad.

Suma de Cuadrados

Suma de cuadrados debido al error

\[ SCE= \sum_{i=1}^{n} (y_i-\hat{y}_i)^2 \]

Suma total de cuadrados

\[ SCT= \sum_{i=1}^{n} (y_i-\bar{y})^2 \]

Suma de cuadrados debido a la regresiĂ³n

\[ SCR= \sum_{i=1}^{n} (\hat{y}_i-\bar{y})^2 \]

RelaciĂ³n entre SCT, SCR Y SCE

\[ SCT=SCE+SCR \]

donde:

  • SCT = suma total de cuadrados

  • SCR = suma de cuadrados debido a la regresiĂ³n

  • SCE = suma de cuadrados debido al error

Coeficiente de determinaciĂ³n

\[ r^2=\dfrac{SCR}{STC} \]

Error cuadrĂ¡tico medio (estimaciĂ³n de \(\sigma^2\))

\[ \hat{\sigma^2}=s^2=ECM=\dfrac{SCE}{n-2} \]

Pruebas de significancia

Prueba t

\[H_0: \beta_1 = 0\] \[H_a: \beta_1 \ne 0\]

  • EstadĂ­stico de prueba

\[t=\dfrac{\hat{\beta_1}}{s_{\hat{\beta_1}}}\]

donde

\[s_{\hat{\beta_1}}=\dfrac{s}{ \sqrt{ \sum_{i=1}^{n}(x_i-\bar{x})^2} } \]

Prueba F

\[H_0: \beta_1 = 0\] \[H_a: \beta_1 \ne 0\]

  • EstadĂ­stico de prueba

\[F=\dfrac{CMR}{ECM}\]

donde

\[CMR=\dfrac{SCR}{\text{grados de libertad de la regresiĂ³n}}\]

CMR: Cuadrado medio de la regresiĂ³n

Tabla ANOVA para regresiĂ³n lineal simple

Fuente de variaciĂ³n Suma de cuadrados G.L Cuadrado medio F P-Valor
RegresiĂ³n SCR 1 SCR SCR/ECM
Error SCE \(n-2\) \(\text{ECM}=\frac{\text{SCE}}{n-2}\)
Total SCT \(n-1\)

Inferencias sobre los coeficientes de regresiĂ³n

  • Intervalo de confianza para \(\beta_1\)

Un intervalo de confianza de \(100(1 - \alpha)\%\) para el parĂ¡metro \(\beta_1\) en la recta de regresiĂ³n \(\hat{y} = \hat{\beta_0} + \hat{\beta_1} x\) es

\[ \hat{\beta_1}-t_{\frac{\alpha}{2}} s_{\hat{\beta_1}} <\beta_1< \hat{\beta_1}+t_{\frac{\alpha}{2}} s_{\hat{\beta_1}} \]

  • Intervalo de confianza para \(\beta_0\)

Un intervalo de confianza de \(100(1 - \alpha)\%\) para el parĂ¡metro \(\beta_0\) en la recta de regresiĂ³n \(\hat{y} = \hat{\beta_0} + \hat{\beta_1} x\) es

\[ \hat{\beta_0}-t_{\frac{\alpha}{2}} s_{\hat{\beta_1}} \left( \sqrt{ \dfrac{\sum_{i=1}^{n} x^2_i}{n}} \right) <\beta_0< \hat{\beta_0}+t_{\frac{\alpha}{2}} s_{\hat{\beta_1}} \left( \sqrt{ \dfrac{\sum_{i=1}^{n} x^2_i}{n}} \right) \]

donde, \(t_{\frac{\alpha}{2}}\) es un valor de la distribuciĂ³n \(t\) con \(n-2\) G.L.

RegresiĂ³n Lineal Multiple

Modelo TeĂ³rico

\[y=f(X_0,X_1,\ldots,X_p,\beta_0,\beta_1,\ldots,\beta_p)+\varepsilon\]

El anĂ¡lisis de regresiĂ³n es un conjunto de herramientas estadĂ­sticas utilizadas para explicar o modelar la relaciĂ³n entre una sola variable \(y\), llamada la variable respuesta, salida o dependiente; y una o mĂ¡s variables predictoras, entrada o explicativas, \(X_0,X_1,\ldots,X_p\)

Donde \(\beta_0,\beta_1,\ldots,\beta_p\) son los parĂ¡metros (desconocidos) del modelo y \(\varepsilon\) es la Variable aleatoria del error, es la componente aleatoria del modelo que explica la variabilidad que no explica el modelo.

Propositos de un modelo de regresiĂ³n

  • PredicciĂ³n de futuras observaciones.

  • EvaluaciĂ³n del efecto o relaciĂ³n entre las variables explicativas y la respuesta.

  • Una descripciĂ³n general de la estructura de datos.

Modelo matricial

\[ \pmb{y}=\mu+\varepsilon= \pmb{X}\beta+\varepsilon \]

donde \(\pmb{y}\), \(\mu\) son vectores de tamaño \(n\), \(\pmb{X}\) es una matriz de tamaño \(n \times p\) y \(\beta\) es un vector de tamaño \(p\)

La estimaciĂ³n de los parĂ¡metros \(\beta\) puede caracterizarse de manera general como:

\[ \hat{\beta}= \text{argmĂ­n}\sum_{k=1}^n M(\varepsilon_k) \]

Si la matriz \(A=\pmb{X^T}\pmb{X}\) es no singular, la soluciĂ³n para los coeficientes de regresiĂ³n usando el mĂ©todo de mĂ­nimos cuadrados, se escribe como

\[ \hat{\beta}=(\pmb{X^T}\pmb{X})^{-1}\pmb{X^T}\pmb{y} \]

Por lo tanto, la estimaciones de \(y\) estan dadas por

\[ \hat{\pmb{y}}=\pmb{X}\hat{\beta}=\pmb{X}(\pmb{X^T}\pmb{X})^{-1}\pmb{X^T}\pmb{y} \]

Propiedades bĂ¡sicas de inferencia

  • Si \(\hat{\beta}\) es el estimador por mĂ­nimos cuadrados de \(\beta\), entonces es un estimador insesgado.

  • Si suponemos que el modelo con variable de respuesta continua, descrito de la forma anterior, tiene errores no sesgados y no correlacionados de varianza constante, entonces:

Teorema de Gauss-Markov

El estimador lineal insesgado de minima varianza de \(\beta\) es \(\hat{\beta}=(\pmb{X^T}\pmb{X})^{-1}\pmb{X^T}\pmb{y}\), el estimador por minimos cuadrados.

  • Si suponemos que los errores siguen una distribuciĂ³n normal \(\varepsilon \sim N(\pmb{0},\sigma^2 \pmb{I})\), entonces \(\hat{\beta}\) coincide con el estimador de maxima verosimilitud.

  • En ausencia de normalidad, el estimador por mĂ­nimos cuadrados no es eficiente.

Residuales

  • Residuales estandarizados

\[ \hat{e_i}=\frac{e_i}{s \sqrt{1-h_{ii}}} \]

  • Residuales estudentizados

\[ rs\hat{e_i}=\frac{e_i}{s_{(i)} \sqrt{1-h_{ii}}} \]

donde \(h_{ii}\) en la entrada en la diagonal de la matriz \(H=X(X^TX)^{-1}X^T\)

Puntos de apalancamiento (Alto Leverage)

Sea \(\bar{h}=\frac{p}{n}\) donde \(p=Tr(H)=\sum_{i=1}^n h_{ii}\)

  • Si \(h_{ii}>\bar{h}\) entonces en punto es un punto apalancamiento.

Datos influyentes (Distancia de Cook)

\[ DC_i = \left( \frac{h_{ii}}{1-h_{ii}} \right) \frac{rse_i^2}{p} \]

Un dato es influyente globalmente si \(DC_i>F_{(0.95,p,n-p)}\)

Influencia de predicciones

\[ Dffits_i=\frac{|\hat{y}_i-\hat{y}_{i(i)}|}{\sqrt{s^2_{(i)}h_{ii}}}=|rse_i| \sqrt{\frac{h_{ii}}{1-h_{ii}}} \] ¿QuĂ© tan influyente es el valor \(i\) al hacer predicciones?

Si \(Dffits_{i}>2 \sqrt{\frac{p}{n}}\), entonces el registro \(i\) es influyente en las predicciones.

Medidas de calidad de ajuste

  • Criterio de informaciĂ³n de Akaike

\[ AIC=-2\text{Ln}(L)+2p \] donde \(k\) es el nĂºmero de parĂ¡metros del modelo , y \(L\) es el mĂ¡ximo valor de la funciĂ³n de verosimilitud para el modelo estimado.

  • Criterio de informaciĂ³n bayesiano

\[ BIC=-2\text{Ln}(L)+p\text{Ln}(n) \]

  • Capacidad predictiva del modelo

\[ PRESS = \sum_{i=1}^n (y_i-\hat{y}_{i(i)})^2 \]

RegresiĂ³n LogĂ­stica

RegresiĂ³n Ridge y Lasso

  • ModificaciĂ³n de la regresiĂ³n lineal clĂ¡sica.

  • MĂºltiples modelos (problema combinatorio).

  • TĂ©cnicas que penalizan los coeficientes.

  • Herramienta para la selecciĂ³n de variables.

  • ReducciĂ³n de la varianza.

Regresion Ridge

  • Hoerl y Kennard (1970)

  • Escenarios donde las variables independientes estĂ¡n altamente correlacionadas

  • Contraen los coeficientes del modelo

  • Recordemos el mĂ©todo de minimizar la suma de cuadrados del error (MĂ­nimos cuadrados)

\[ SCE = \sum_{k=1}^n (\ y_k - \beta_0 - \sum_{j=1}^m \beta_j x_{kj} )\ ^2 \]

  • Ahora, insertemos una funciĂ³n de penalizaciĂ³n:

\[ SCE + \lambda \sum_{j=1}^m \beta_j^2, \ \ \ \lambda \geq 0 \]

  • Seleccionar los \(\beta_j\) de forma que el modelo realice un buen ajuste y podamos minimizar la expresiĂ³n anterior.

  • La penalizaciĂ³n busca contraer los \(\beta_j\)

  • \(\lambda\) se conoce como el parĂ¡metro de Tuning (afinamiento de parĂ¡metros) y controla el efecto relativo de la penalizaciĂ³n

Plot Ridge

Ridge

RegresiĂ³n Lasso (least absolute shrinkage and selection operator)

  • Robert Tibshirani (1996).

  • Penaliza la suma del valor absoluto de los coeficientes.

  • El propĂ³sito es forzar a que los coeficientes de los predictores tiendan a cero.

  • El mĂ©todo Lasso consigue excluir los predictores menos relevantes.

  • Agregamos una funciĂ³n de penalizaciĂ³n a la de suma residuos cuadrados:

\[ SCE + \lambda \sum_{j=1}^m |\beta_j|, \ \ \ \lambda \geq 0 \]

Plot Lasso

lasso