Notas de clase

Regresión

Andrés Cruz Ph.D(c)

19 marzo, 2026

Regresión Lineal Simple

Modelo Teórico

\[ Y=\beta_0+\beta_1 x+\varepsilon \]

  • \(Y\) es una función lineal de \(x\).

  • \(\beta_0\) y \(\beta_1\) son los parámetros (desconocidos) del modelo.

  • \(\varepsilon\): Variable aleatoria del error, es la componente aleatoria del modelo que explica la variabilidad que no explica el modelo.

  • \(E(\varepsilon)=0\) y \(Var(\varepsilon)=\sigma^2\)

Modelo estimado

\[ \hat{y}=\hat{\beta_0}+\hat{\beta_1}x \]

  • \(\hat{y}\): Variable dependiente o respuesta.

  • \(x\): Variable independiente o explicativa.

  • \(\hat{\beta_0}\) y \(\hat{\beta_1}\) son los coeficientes de regresión. Estiman los parámetros del modelo teórico.

Supuestos

  • Linealidad. (Gráficos de dispersión o coeficiente de correlación).

  • Independencia entre los residuos. (Estadístico de Durbin - Watson).

  • Homocedasticidad. (Estadístico de Leneve).

  • Normalidad de los residuos tipificados. (Prueba de Kolmogorff - Smirnov).

  • No-Colinealidad.

Suma de Cuadrados

Suma de cuadrados debido al error

\[ SCE= \sum_{i=1}^{n} (y_i-\hat{y}_i)^2 \]

Suma total de cuadrados

\[ SCT= \sum_{i=1}^{n} (y_i-\bar{y})^2 \]

Suma de cuadrados debido a la regresión

\[ SCR= \sum_{i=1}^{n} (\hat{y}_i-\bar{y})^2 \]

Relación entre SCT, SCR Y SCE

\[ SCT=SCE+SCR \]

donde:

  • SCT = suma total de cuadrados

  • SCR = suma de cuadrados debido a la regresión

  • SCE = suma de cuadrados debido al error

Coeficiente de determinación

\[ r^2=\dfrac{SCR}{STC} \]

Error cuadrático medio (estimación de \(\sigma^2\))

\[ \hat{\sigma^2}=s^2=ECM=\dfrac{SCE}{n-2} \]

Pruebas de significancia

Prueba t

\[H_0: \beta_1 = 0\] \[H_a: \beta_1 \ne 0\]

  • Estadístico de prueba

\[t=\dfrac{\hat{\beta_1}}{s_{\hat{\beta_1}}}\]

donde

\[s_{\hat{\beta_1}}=\dfrac{s}{ \sqrt{ \sum_{i=1}^{n}(x_i-\bar{x})^2} } \]

Prueba F

\[H_0: \beta_1 = 0\] \[H_a: \beta_1 \ne 0\]

  • Estadístico de prueba

\[F=\dfrac{CMR}{ECM}\]

donde

\[CMR=\dfrac{SCR}{\text{grados de libertad de la regresión}}\]

CMR: Cuadrado medio de la regresión

Tabla ANOVA para regresión lineal simple

Fuente de variación Suma de cuadrados G.L Cuadrado medio F P-Valor
Regresión SCR 1 SCR SCR/ECM
Error SCE \(n-2\) \(\text{ECM}=\frac{\text{SCE}}{n-2}\)
Total SCT \(n-1\)

Inferencias sobre los coeficientes de regresión

  • Intervalo de confianza para \(\beta_1\)

Un intervalo de confianza de \(100(1 - \alpha)\%\) para el parámetro \(\beta_1\) en la recta de regresión \(\hat{y} = \hat{\beta_0} + \hat{\beta_1} x\) es

\[ \hat{\beta_1}-t_{\frac{\alpha}{2}} s_{\hat{\beta_1}} <\beta_1< \hat{\beta_1}+t_{\frac{\alpha}{2}} s_{\hat{\beta_1}} \]

  • Intervalo de confianza para \(\beta_0\)

Un intervalo de confianza de \(100(1 - \alpha)\%\) para el parámetro \(\beta_0\) en la recta de regresión \(\hat{y} = \hat{\beta_0} + \hat{\beta_1} x\) es

\[ \hat{\beta_0}-t_{\frac{\alpha}{2}} s_{\hat{\beta_1}} \left( \sqrt{ \dfrac{\sum_{i=1}^{n} x^2_i}{n}} \right) <\beta_0< \hat{\beta_0}+t_{\frac{\alpha}{2}} s_{\hat{\beta_1}} \left( \sqrt{ \dfrac{\sum_{i=1}^{n} x^2_i}{n}} \right) \]

donde, \(t_{\frac{\alpha}{2}}\) es un valor de la distribución \(t\) con \(n-2\) G.L.

Regresión Lineal Multiple

Modelo Teórico

\[y=f(X_0,X_1,\ldots,X_p,\beta_0,\beta_1,\ldots,\beta_p)+\varepsilon\]

El análisis de regresión es un conjunto de herramientas estadísticas utilizadas para explicar o modelar la relación entre una sola variable \(y\), llamada la variable respuesta, salida o dependiente; y una o más variables predictoras, entrada o explicativas, \(X_0,X_1,\ldots,X_p\)

Donde \(\beta_0,\beta_1,\ldots,\beta_p\) son los parámetros (desconocidos) del modelo y \(\varepsilon\) es la Variable aleatoria del error, es la componente aleatoria del modelo que explica la variabilidad que no explica el modelo.

Propositos de un modelo de regresión

  • Predicción de futuras observaciones.

  • Evaluación del efecto o relación entre las variables explicativas y la respuesta.

  • Una descripción general de la estructura de datos.

Modelo matricial

\[ \pmb{y}=\mu+\varepsilon= \pmb{X}\beta+\varepsilon \]

donde \(\pmb{y}\), \(\mu\) son vectores de tamaño \(n\), \(\pmb{X}\) es una matriz de tamaño \(n \times p\) y \(\beta\) es un vector de tamaño \(p\)

La estimación de los parámetros \(\beta\) puede caracterizarse de manera general como:

\[ \hat{\beta}= \text{argmín}\sum_{k=1}^n M(\varepsilon_k) \]

Si la matriz \(A=\pmb{X^T}\pmb{X}\) es no singular, la solución para los coeficientes de regresión usando el método de mínimos cuadrados, se escribe como

\[ \hat{\beta}=(\pmb{X^T}\pmb{X})^{-1}\pmb{X^T}\pmb{y} \]

Por lo tanto, la estimaciones de \(y\) estan dadas por

\[ \hat{\pmb{y}}=\pmb{X}\hat{\beta}=\pmb{X}(\pmb{X^T}\pmb{X})^{-1}\pmb{X^T}\pmb{y} \]

Propiedades básicas de inferencia

  • Si \(\hat{\beta}\) es el estimador por mínimos cuadrados de \(\beta\), entonces es un estimador insesgado.

  • Si suponemos que el modelo con variable de respuesta continua, descrito de la forma anterior, tiene errores no sesgados y no correlacionados de varianza constante, entonces:

Teorema de Gauss-Markov

El estimador lineal insesgado de minima varianza de \(\beta\) es \(\hat{\beta}=(\pmb{X^T}\pmb{X})^{-1}\pmb{X^T}\pmb{y}\), el estimador por minimos cuadrados.

  • Si suponemos que los errores siguen una distribución normal \(\varepsilon \sim N(\pmb{0},\sigma^2 \pmb{I})\), entonces \(\hat{\beta}\) coincide con el estimador de maxima verosimilitud.

  • En ausencia de normalidad, el estimador por mínimos cuadrados no es eficiente.

Residuales

  • Residuales estandarizados

\[ \hat{e_i}=\frac{e_i}{s \sqrt{1-h_{ii}}} \]

  • Residuales estudentizados

\[ rs\hat{e_i}=\frac{e_i}{s_{(i)} \sqrt{1-h_{ii}}} \]

donde \(h_{ii}\) en la entrada en la diagonal de la matriz \(H=X(X^TX)^{-1}X^T\)

Puntos de apalancamiento (Alto Leverage)

Sea \(\bar{h}=\frac{p}{n}\) donde \(p=Tr(H)=\sum_{i=1}^n h_{ii}\)

  • Si \(h_{ii}>\bar{h}\) entonces en punto es un punto apalancamiento.

Datos influyentes (Distancia de Cook)

\[ DC_i = \left( \frac{h_{ii}}{1-h_{ii}} \right) \frac{rse_i^2}{p} \]

Un dato es influyente globalmente si \(DC_i>F_{(0.95,p,n-p)}\)

Influencia de predicciones

\[ Dffits_i=\frac{|\hat{y}_i-\hat{y}_{i(i)}|}{\sqrt{s^2_{(i)}h_{ii}}}=|rse_i| \sqrt{\frac{h_{ii}}{1-h_{ii}}} \] ¿Qué tan influyente es el valor \(i\) al hacer predicciones?

Si \(Dffits_{i}>2 \sqrt{\frac{p}{n}}\), entonces el registro \(i\) es influyente en las predicciones.

Medidas de calidad de ajuste

  • Criterio de información de Akaike

\[ AIC=-2\text{Ln}(L)+2p \] donde \(k\) es el número de parámetros del modelo , y \(L\) es el máximo valor de la función de verosimilitud para el modelo estimado.

  • Criterio de información bayesiano

\[ BIC=-2\text{Ln}(L)+p\text{Ln}(n) \]

  • Capacidad predictiva del modelo

\[ PRESS = \sum_{i=1}^n (y_i-\hat{y}_{i(i)})^2 \]

Regresión Logística

Regresión Ridge y Lasso

  • Modificación de la regresión lineal clásica.

  • Múltiples modelos (problema combinatorio).

  • Técnicas que penalizan los coeficientes.

  • Herramienta para la selección de variables.

  • Reducción de la varianza.

Regresion Ridge

  • Hoerl y Kennard (1970)

  • Escenarios donde las variables independientes están altamente correlacionadas

  • Contraen los coeficientes del modelo

  • Recordemos el método de minimizar la suma de cuadrados del error (Mínimos cuadrados)

\[ SCE = \sum_{k=1}^n (\ y_k - \beta_0 - \sum_{j=1}^m \beta_j x_{kj} )\ ^2 \]

  • Ahora, insertemos una función de penalización:

\[ SCE + \lambda \sum_{j=1}^m \beta_j^2, \ \ \ \lambda \geq 0 \]

  • Seleccionar los \(\beta_j\) de forma que el modelo realice un buen ajuste y podamos minimizar la expresión anterior.

  • La penalización busca contraer los \(\beta_j\)

  • \(\lambda\) se conoce como el parámetro de Tuning (afinamiento de parámetros) y controla el efecto relativo de la penalización

Plot Ridge

Ridge

Regresión Lasso (least absolute shrinkage and selection operator)

  • Robert Tibshirani (1996).

  • Penaliza la suma del valor absoluto de los coeficientes.

  • El propósito es forzar a que los coeficientes de los predictores tiendan a cero.

  • El método Lasso consigue excluir los predictores menos relevantes.

  • Agregamos una función de penalización a la de suma residuos cuadrados:

\[ SCE + \lambda \sum_{j=1}^m |\beta_j|, \ \ \ \lambda \geq 0 \]

Plot Lasso

lasso