Notas de clase

Regresión

Andrés Cruz Ph.D(c)

19 marzo, 2026

Regresión Lineal Simple

Modelo Teórico

\[ Y=\beta_0+\beta_1 x+\varepsilon \]

\(Y\) es una función lineal de \(x\).
\(\beta_0\) y \(\beta_1\) son los parámetros (desconocidos) del modelo.
\(\varepsilon\): Variable aleatoria del error, es la componente aleatoria del modelo que explica la variabilidad que no explica el modelo.
\(E(\varepsilon)=0\) y \(Var(\varepsilon)=\sigma^2\)

Modelo estimado

\[ \hat{y}=\hat{\beta_0}+\hat{\beta_1}x \]

\(\hat{y}\): Variable dependiente o respuesta.
\(x\): Variable independiente o explicativa.
\(\hat{\beta_0}\) y \(\hat{\beta_1}\) son los coeficientes de regresión. Estiman los parámetros del modelo teórico.

Supuestos

Linealidad. (Gráficos de dispersión o coeficiente de correlación).
Independencia entre los residuos. (Estadístico de Durbin - Watson).
Homocedasticidad. (Estadístico de Leneve).
Normalidad de los residuos tipificados. (Prueba de Kolmogorff - Smirnov).
No-Colinealidad.

Suma de Cuadrados

Suma de cuadrados debido al error

\[ SCE= \sum_{i=1}^{n} (y_i-\hat{y}_i)^2 \]

Suma total de cuadrados

\[ SCT= \sum_{i=1}^{n} (y_i-\bar{y})^2 \]

Suma de cuadrados debido a la regresión

\[ SCR= \sum_{i=1}^{n} (\hat{y}_i-\bar{y})^2 \]

Relación entre SCT, SCR Y SCE

\[ SCT=SCE+SCR \]

donde:

SCT = suma total de cuadrados
SCR = suma de cuadrados debido a la regresión
SCE = suma de cuadrados debido al error

Coeficiente de determinación

\[ r^2=\dfrac{SCR}{STC} \]

Error cuadrático medio (estimación de \(\sigma^2\))

\[ \hat{\sigma^2}=s^2=ECM=\dfrac{SCE}{n-2} \]

Pruebas de significancia

Prueba t

\[H_0: \beta_1 = 0\] \[H_a: \beta_1 \ne 0\]

Estadístico de prueba

\[t=\dfrac{\hat{\beta_1}}{s_{\hat{\beta_1}}}\]

donde

\[s_{\hat{\beta_1}}=\dfrac{s}{ \sqrt{ \sum_{i=1}^{n}(x_i-\bar{x})^2} } \]

Prueba F

\[H_0: \beta_1 = 0\] \[H_a: \beta_1 \ne 0\]

Estadístico de prueba

\[F=\dfrac{CMR}{ECM}\]

donde

\[CMR=\dfrac{SCR}{\text{grados de libertad de la regresión}}\]

CMR: Cuadrado medio de la regresión

Tabla ANOVA para regresión lineal simple

Fuente de variación	Suma de cuadrados	G.L	Cuadrado medio	F
Regresión	SCR	1	SCR	SCR/ECM
Error	SCE	\(n-2\)	\(\text{ECM}=\frac{\text{SCE}}{n-2}\)
Total	SCT	\(n-1\)

Inferencias sobre los coeficientes de regresión

Intervalo de confianza para \(\beta_1\)

Un intervalo de confianza de \(100(1 - \alpha)\%\) para el parámetro \(\beta_1\) en la recta de regresión \(\hat{y} = \hat{\beta_0} + \hat{\beta_1} x\) es

\[ \hat{\beta_1}-t_{\frac{\alpha}{2}} s_{\hat{\beta_1}} <\beta_1< \hat{\beta_1}+t_{\frac{\alpha}{2}} s_{\hat{\beta_1}} \]

Intervalo de confianza para \(\beta_0\)

Un intervalo de confianza de \(100(1 - \alpha)\%\) para el parámetro \(\beta_0\) en la recta de regresión \(\hat{y} = \hat{\beta_0} + \hat{\beta_1} x\) es

\[ \hat{\beta_0}-t_{\frac{\alpha}{2}} s_{\hat{\beta_1}} \left( \sqrt{ \dfrac{\sum_{i=1}^{n} x^2_i}{n}} \right) <\beta_0< \hat{\beta_0}+t_{\frac{\alpha}{2}} s_{\hat{\beta_1}} \left( \sqrt{ \dfrac{\sum_{i=1}^{n} x^2_i}{n}} \right) \]

donde, \(t_{\frac{\alpha}{2}}\) es un valor de la distribución \(t\) con \(n-2\) G.L.

Regresión Lineal Multiple

Modelo Teórico

\[y=f(X_0,X_1,\ldots,X_p,\beta_0,\beta_1,\ldots,\beta_p)+\varepsilon\]

El análisis de regresión es un conjunto de herramientas estadísticas utilizadas para explicar o modelar la relación entre una sola variable \(y\), llamada la variable respuesta, salida o dependiente; y una o más variables predictoras, entrada o explicativas, \(X_0,X_1,\ldots,X_p\)

Donde \(\beta_0,\beta_1,\ldots,\beta_p\) son los parámetros (desconocidos) del modelo y \(\varepsilon\) es la Variable aleatoria del error, es la componente aleatoria del modelo que explica la variabilidad que no explica el modelo.

Propositos de un modelo de regresión

Predicción de futuras observaciones.
Evaluación del efecto o relación entre las variables explicativas y la respuesta.
Una descripción general de la estructura de datos.

Modelo matricial

\[ \pmb{y}=\mu+\varepsilon= \pmb{X}\beta+\varepsilon \]

donde \(\pmb{y}\), \(\mu\) son vectores de tamaño \(n\), \(\pmb{X}\) es una matriz de tamaño \(n \times p\) y \(\beta\) es un vector de tamaño \(p\)

La estimación de los parámetros \(\beta\) puede caracterizarse de manera general como:

\[ \hat{\beta}= \text{argmín}\sum_{k=1}^n M(\varepsilon_k) \]

Si la matriz \(A=\pmb{X^T}\pmb{X}\) es no singular, la solución para los coeficientes de regresión usando el método de mínimos cuadrados, se escribe como

\[ \hat{\beta}=(\pmb{X^T}\pmb{X})^{-1}\pmb{X^T}\pmb{y} \]

Por lo tanto, la estimaciones de \(y\) estan dadas por

\[ \hat{\pmb{y}}=\pmb{X}\hat{\beta}=\pmb{X}(\pmb{X^T}\pmb{X})^{-1}\pmb{X^T}\pmb{y} \]

Propiedades básicas de inferencia

Si \(\hat{\beta}\) es el estimador por mínimos cuadrados de \(\beta\), entonces es un estimador insesgado.
Si suponemos que el modelo con variable de respuesta continua, descrito de la forma anterior, tiene errores no sesgados y no correlacionados de varianza constante, entonces:

Teorema de Gauss-Markov

El estimador lineal insesgado de minima varianza de \(\beta\) es \(\hat{\beta}=(\pmb{X^T}\pmb{X})^{-1}\pmb{X^T}\pmb{y}\), el estimador por minimos cuadrados.

Si suponemos que los errores siguen una distribución normal \(\varepsilon \sim N(\pmb{0},\sigma^2 \pmb{I})\), entonces \(\hat{\beta}\) coincide con el estimador de maxima verosimilitud.
En ausencia de normalidad, el estimador por mínimos cuadrados no es eficiente.

Residuales

Residuales estandarizados

\[ \hat{e_i}=\frac{e_i}{s \sqrt{1-h_{ii}}} \]

Residuales estudentizados

\[ rs\hat{e_i}=\frac{e_i}{s_{(i)} \sqrt{1-h_{ii}}} \]

donde \(h_{ii}\) en la entrada en la diagonal de la matriz \(H=X(X^TX)^{-1}X^T\)

Puntos de apalancamiento (Alto Leverage)

Sea \(\bar{h}=\frac{p}{n}\) donde \(p=Tr(H)=\sum_{i=1}^n h_{ii}\)

Si \(h_{ii}>\bar{h}\) entonces en punto es un punto apalancamiento.

Datos influyentes (Distancia de Cook)

\[ DC_i = \left( \frac{h_{ii}}{1-h_{ii}} \right) \frac{rse_i^2}{p} \]

Un dato es influyente globalmente si \(DC_i>F_{(0.95,p,n-p)}\)

Influencia de predicciones

\[ Dffits_i=\frac{|\hat{y}_i-\hat{y}_{i(i)}|}{\sqrt{s^2_{(i)}h_{ii}}}=|rse_i| \sqrt{\frac{h_{ii}}{1-h_{ii}}} \] ¿Qué tan influyente es el valor \(i\) al hacer predicciones?

Si \(Dffits_{i}>2 \sqrt{\frac{p}{n}}\), entonces el registro \(i\) es influyente en las predicciones.

Medidas de calidad de ajuste

Criterio de información de Akaike

\[ AIC=-2\text{Ln}(L)+2p \] donde \(k\) es el número de parámetros del modelo , y \(L\) es el máximo valor de la función de verosimilitud para el modelo estimado.

Criterio de información bayesiano

\[ BIC=-2\text{Ln}(L)+p\text{Ln}(n) \]

Capacidad predictiva del modelo

\[ PRESS = \sum_{i=1}^n (y_i-\hat{y}_{i(i)})^2 \]

Regresión Logística

Regresión Ridge y Lasso

Modificación de la regresión lineal clásica.
Múltiples modelos (problema combinatorio).
Técnicas que penalizan los coeficientes.
Herramienta para la selección de variables.
Reducción de la varianza.

Regresion Ridge

Hoerl y Kennard (1970)
Escenarios donde las variables independientes están altamente correlacionadas
Contraen los coeficientes del modelo
Recordemos el método de minimizar la suma de cuadrados del error (Mínimos cuadrados)

\[ SCE = \sum_{k=1}^n (\ y_k - \beta_0 - \sum_{j=1}^m \beta_j x_{kj} )\ ^2 \]

Ahora, insertemos una función de penalización:

\[ SCE + \lambda \sum_{j=1}^m \beta_j^2, \ \ \ \lambda \geq 0 \]

Seleccionar los \(\beta_j\) de forma que el modelo realice un buen ajuste y podamos minimizar la expresión anterior.
La penalización busca contraer los \(\beta_j\)
\(\lambda\) se conoce como el parámetro de Tuning (afinamiento de parámetros) y controla el efecto relativo de la penalización

Plot Ridge

Ridge

Regresión Lasso (least absolute shrinkage and selection operator)

Robert Tibshirani (1996).
Penaliza la suma del valor absoluto de los coeficientes.
El propósito es forzar a que los coeficientes de los predictores tiendan a cero.
El método Lasso consigue excluir los predictores menos relevantes.

Agregamos una función de penalización a la de suma residuos cuadrados:

\[ SCE + \lambda \sum_{j=1}^m |\beta_j|, \ \ \ \lambda \geq 0 \]

Plot Lasso

lasso