Discusión sobre regresión lineal

David Mateos

El problema de regresión lineal

Sea \(\Phi: \mathcal{X} \rightarrow \mathbb{R}^N\) y consideremos la familia de hipótesis lineales \[H=\{x\mapsto w \cdot \Phi(x)+b | w\in\mathbb{R}^N, b\in\mathbb{R}\}\]

La regresión lineal consiste en buscar la hipótesis \(h\in H\) con el menor error cuadrático medio, es decir, se debe resolver el problema de optimización: \[\min \frac{1}{m}\sum_{i=1}^{m}(h(x_i)-y_i)^2\]

Ejemplo

Ventas ~ publicidad en TV + publicidad en radio

El modelo teórico

\[\Huge{y = \beta_0+\beta_1x_1+\dots+\beta_kx_k}\]

\[\Huge{ventas = \beta_0+\beta_1\ TV+\beta_2\ Radio}\]

El modelo ajustado/estimado

\[\Huge{\hat{y} = \hat{\beta}_0+\hat{\beta}_1x_1+\dots+\hat{\beta}_kx_k}\]

\[\Huge{ventas = \hat{\beta_0}+\hat{\beta_1}\ TV+\hat{\beta_2}\ Radio}\]

Ventas estimadas por el modelos vs. Ventas observadas

Evaluación de la validez del modelo

Linealidad en los parámetros

\[\hat{y} = \hat{\beta}_0+\hat{\beta}_1x_1+\dots+\hat{\beta}_kx_k\]

Supuestos asociados a normalidad

Evaluación de la validez del modelo

Puntos influyentes

Interacciones

\[Y = \beta_0+\beta_1X_1+\beta_2X_2+\beta_3X_1X_2\]

\[Y = \beta_0+(\beta_1+\beta_3X_2)X_1+\beta_2X_2\]

\[Y = \beta_0+\hat{\beta_1}X_1+\beta_2X_2\]