\[ Y=\beta_0+\beta_1 x+\varepsilon \]
\(Y\) es una funciĂ³n lineal de \(x\).
\(\beta_0\) y \(\beta_1\) son los parĂ¡metros (desconocidos) del modelo.
\(\varepsilon\): Variable aleatoria del error, es la componente aleatoria del modelo que explica la variabilidad que no explica el modelo.
\(E(\varepsilon)=0\) y \(Var(\varepsilon)=\sigma^2\)
\[ \hat{y}=\hat{\beta_0}+\hat{\beta_1}x \]
\(\hat{y}\): Variable dependiente o respuesta.
\(x\): Variable independiente o explicativa.
\(\hat{\beta_0}\) y \(\hat{\beta_1}\) son los coeficientes de regresiĂ³n. Estiman los parĂ¡metros del modelo teĂ³rico.
Linealidad. (GrĂ¡ficos de dispersiĂ³n o coeficiente de correlaciĂ³n).
Independencia entre los residuos. (EstadĂstico de Durbin - Watson).
Homocedasticidad. (EstadĂstico de Leneve).
Normalidad de los residuos tipificados. (Prueba de Kolmogorff - Smirnov).
No-Colinealidad.
\[ SCE= \sum_{i=1}^{n} (y_i-\hat{y}_i)^2 \]
\[ SCT= \sum_{i=1}^{n} (y_i-\bar{y})^2 \]
\[ SCR= \sum_{i=1}^{n} (\hat{y}_i-\bar{y})^2 \]
\[ SCT=SCE+SCR \]
donde:
SCT = suma total de cuadrados
SCR = suma de cuadrados debido a la regresiĂ³n
SCE = suma de cuadrados debido al error
\[ r^2=\dfrac{SCR}{STC} \]
\[ \hat{\sigma^2}=s^2=ECM=\dfrac{SCE}{n-2} \]
\[H_0: \beta_1 = 0\] \[H_a: \beta_1 \ne 0\]
\[t=\dfrac{\hat{\beta_1}}{s_{\hat{\beta_1}}}\]
donde
\[s_{\hat{\beta_1}}=\dfrac{s}{ \sqrt{ \sum_{i=1}^{n}(x_i-\bar{x})^2} } \]
\[H_0: \beta_1 = 0\] \[H_a: \beta_1 \ne 0\]
\[F=\dfrac{CMR}{ECM}\]
donde
\[CMR=\dfrac{SCR}{\text{grados de libertad de la regresiĂ³n}}\]
CMR: Cuadrado medio de la regresiĂ³n
| Fuente de variaciĂ³n | Suma de cuadrados | G.L | Cuadrado medio | F | P-Valor |
|---|---|---|---|---|---|
| RegresiĂ³n | SCR | 1 | SCR | SCR/ECM | |
| Error | SCE | \(n-2\) | \(\text{ECM}=\frac{\text{SCE}}{n-2}\) | ||
| Total | SCT | \(n-1\) |
Un intervalo de confianza de \(100(1 - \alpha)\%\) para el parĂ¡metro \(\beta_1\) en la recta de regresiĂ³n \(\hat{y} = \hat{\beta_0} + \hat{\beta_1} x\) es
\[ \hat{\beta_1}-t_{\frac{\alpha}{2}} s_{\hat{\beta_1}} <\beta_1< \hat{\beta_1}+t_{\frac{\alpha}{2}} s_{\hat{\beta_1}} \]
Un intervalo de confianza de \(100(1 - \alpha)\%\) para el parĂ¡metro \(\beta_0\) en la recta de regresiĂ³n \(\hat{y} = \hat{\beta_0} + \hat{\beta_1} x\) es
\[ \hat{\beta_0}-t_{\frac{\alpha}{2}} s_{\hat{\beta_1}} \left( \sqrt{ \dfrac{\sum_{i=1}^{n} x^2_i}{n}} \right) <\beta_0< \hat{\beta_0}+t_{\frac{\alpha}{2}} s_{\hat{\beta_1}} \left( \sqrt{ \dfrac{\sum_{i=1}^{n} x^2_i}{n}} \right) \]
donde, \(t_{\frac{\alpha}{2}}\) es un valor de la distribuciĂ³n \(t\) con \(n-2\) G.L.
\[y=f(X_0,X_1,\ldots,X_p,\beta_0,\beta_1,\ldots,\beta_p)+\varepsilon\]
El anĂ¡lisis de regresiĂ³n es un conjunto de herramientas estadĂsticas utilizadas para explicar o modelar la relaciĂ³n entre una sola variable \(y\), llamada la variable respuesta, salida o dependiente; y una o mĂ¡s variables predictoras, entrada o explicativas, \(X_0,X_1,\ldots,X_p\)
Donde \(\beta_0,\beta_1,\ldots,\beta_p\) son los parĂ¡metros (desconocidos) del modelo y \(\varepsilon\) es la Variable aleatoria del error, es la componente aleatoria del modelo que explica la variabilidad que no explica el modelo.
PredicciĂ³n de futuras observaciones.
EvaluaciĂ³n del efecto o relaciĂ³n entre las variables explicativas y la respuesta.
Una descripciĂ³n general de la estructura de datos.
\[ \pmb{y}=\mu+\varepsilon= \pmb{X}\beta+\varepsilon \]
donde \(\pmb{y}\), \(\mu\) son vectores de tamaño \(n\), \(\pmb{X}\) es una matriz de tamaño \(n \times p\) y \(\beta\) es un vector de tamaño \(p\)
La estimaciĂ³n de los parĂ¡metros \(\beta\) puede caracterizarse de manera general como:
\[ \hat{\beta}= \text{argmĂn}\sum_{k=1}^n M(\varepsilon_k) \]
Si la matriz \(A=\pmb{X^T}\pmb{X}\) es no singular, la soluciĂ³n para los coeficientes de regresiĂ³n usando el mĂ©todo de mĂnimos cuadrados, se escribe como
\[ \hat{\beta}=(\pmb{X^T}\pmb{X})^{-1}\pmb{X^T}\pmb{y} \]
Por lo tanto, la estimaciones de \(y\) estan dadas por
\[ \hat{\pmb{y}}=\pmb{X}\hat{\beta}=\pmb{X}(\pmb{X^T}\pmb{X})^{-1}\pmb{X^T}\pmb{y} \]
Si \(\hat{\beta}\) es el estimador por mĂnimos cuadrados de \(\beta\), entonces es un estimador insesgado.
Si suponemos que el modelo con variable de respuesta continua, descrito de la forma anterior, tiene errores no sesgados y no correlacionados de varianza constante, entonces:
El estimador lineal insesgado de minima varianza de \(\beta\) es \(\hat{\beta}=(\pmb{X^T}\pmb{X})^{-1}\pmb{X^T}\pmb{y}\), el estimador por minimos cuadrados.
Si suponemos que los errores siguen una distribuciĂ³n normal \(\varepsilon \sim N(\pmb{0},\sigma^2 \pmb{I})\), entonces \(\hat{\beta}\) coincide con el estimador de maxima verosimilitud.
En ausencia de normalidad, el estimador por mĂnimos cuadrados no es eficiente.
\[ \hat{e_i}=\frac{e_i}{s \sqrt{1-h_{ii}}} \]
\[ rs\hat{e_i}=\frac{e_i}{s_{(i)} \sqrt{1-h_{ii}}} \]
donde \(h_{ii}\) en la entrada en la diagonal de la matriz \(H=X(X^TX)^{-1}X^T\)
Sea \(\bar{h}=\frac{p}{n}\) donde \(p=Tr(H)=\sum_{i=1}^n h_{ii}\)
\[ DC_i = \left( \frac{h_{ii}}{1-h_{ii}} \right) \frac{rse_i^2}{p} \]
Un dato es influyente globalmente si \(DC_i>F_{(0.95,p,n-p)}\)
\[ Dffits_i=\frac{|\hat{y}_i-\hat{y}_{i(i)}|}{\sqrt{s^2_{(i)}h_{ii}}}=|rse_i| \sqrt{\frac{h_{ii}}{1-h_{ii}}} \] ¿QuĂ© tan influyente es el valor \(i\) al hacer predicciones?
Si \(Dffits_{i}>2 \sqrt{\frac{p}{n}}\), entonces el registro \(i\) es influyente en las predicciones.
\[ AIC=-2\text{Ln}(L)+2p \] donde \(k\) es el nĂºmero de parĂ¡metros del modelo , y \(L\) es el mĂ¡ximo valor de la funciĂ³n de verosimilitud para el modelo estimado.
\[ BIC=-2\text{Ln}(L)+p\text{Ln}(n) \]
\[ PRESS = \sum_{i=1}^n (y_i-\hat{y}_{i(i)})^2 \]
ModificaciĂ³n de la regresiĂ³n lineal clĂ¡sica.
MĂºltiples modelos (problema combinatorio).
Técnicas que penalizan los coeficientes.
Herramienta para la selecciĂ³n de variables.
ReducciĂ³n de la varianza.
Hoerl y Kennard (1970)
Escenarios donde las variables independientes estĂ¡n altamente correlacionadas
Contraen los coeficientes del modelo
Recordemos el mĂ©todo de minimizar la suma de cuadrados del error (MĂnimos cuadrados)
\[ SCE = \sum_{k=1}^n (\ y_k - \beta_0 - \sum_{j=1}^m \beta_j x_{kj} )\ ^2 \]
\[ SCE + \lambda \sum_{j=1}^m \beta_j^2, \ \ \ \lambda \geq 0 \]
Seleccionar los \(\beta_j\) de forma que el modelo realice un buen ajuste y podamos minimizar la expresiĂ³n anterior.
La penalizaciĂ³n busca contraer los \(\beta_j\)
\(\lambda\) se conoce como el parĂ¡metro de Tuning (afinamiento de parĂ¡metros) y controla el efecto relativo de la penalizaciĂ³n
Robert Tibshirani (1996).
Penaliza la suma del valor absoluto de los coeficientes.
El propĂ³sito es forzar a que los coeficientes de los predictores tiendan a cero.
El método Lasso consigue excluir los predictores menos relevantes.
\[ SCE + \lambda \sum_{j=1}^m |\beta_j|, \ \ \ \lambda \geq 0 \]