Regresión lineal
Maestría en Gobierno y Políticas Públicas
Diego Solís Delgadillo
El grado en que dos eventos ocurren al mismo tiempo
La correlación no implica causalidad
Tip
\(Z\) es una variable confusora
Persona | Años Estudio | Ingreso | Desv. Años | Desv. Ingreso | Producto Desv. |
---|---|---|---|---|---|
1 | 8 | 5 | -5.3 | -5.6 | 29.68 |
2 | 9 | 6 | -4.3 | -4.6 | 19.78 |
3 | 10 | 7 | -3.3 | -3.6 | 11.88 |
4 | 12 | 9 | -1.3 | -1.6 | 2.08 |
5 | 13 | 9 | -0.3 | -1.6 | 0.48 |
6 | 14 | 10 | 0.7 | -0.6 | -0.42 |
7 | 15 | 11 | 1.7 | 0.4 | 0.68 |
8 | 16 | 12 | 2.7 | 1.4 | 3.78 |
9 | 17 | 13 | 3.7 | 2.4 | 8.88 |
10 | 18 | 15 | 4.7 | 4.4 | 20.68 |
Suma | 0 | 0 | 97.0 | ||
Promedio Producto | 9.7 |
Resumen Años Estudio
Resumen Ingreso
\[corr_{X,Y}=\frac{cov (X, Y)}{\sigma_X\sigma_y}\]
Promedio del producto de las desviaciones:
\(\overline{(x_i - \bar{x})(y_i - \bar{y})} = 9.7\)
Desviación estándar de Años de Estudio:
\(s_x = 3.27\)
Desviación estándar de Ingreso:
\(s_y = 3.35\)
\[ r = \frac{9.7}{3.27 \times 3.35} = \frac{9.7}{10.95} \approx 0.89 \]
Interpretación
Mejor Línea de ajuste
Resultado \((Y)\): es la variable que queremos explicar o predecir
Predictor \((X)\): es la variable que utilizamos para explicar la variabilidad en \(Y\)
\[ Y=Modelo+Error \]
\[ Presupuesto_i = \alpha + \beta_1 Matricula_i \]
\[ Y_i = \alpha + \beta_1 x_i \]
\[ residuo_i = presupuesto_i - predicción_i \]
Calculamos el residuo para cada punto
Algunos valores serán positivos y otros negativos
Para que todos sean positivos los elevamos al cuadrado
Se le conoce así a la suma de errores individuales
Diferente líneas de ajuste tienen distintas SSE
Tip
X | Y |
---|---|
1 | 2 |
2 | 4 |
3 | 5 |
4 | 4 |
5 | 5 |
Calculamos las medias
Important
Note
Primero calculamos las distancias entre \(x\) y \(\bar{x}\)
X | Y | \(x-\bar{x}\) |
---|---|---|
1 | 2 | -2 |
2 | 4 | -1 |
3 | 5 | 0 |
4 | 4 | 1 |
5 | 5 | 2 |
Hacemos lo mismos con las distancias entre \(y\) y \(\bar{y}\)
X | Y | \(x-\bar{x}\) | \(y-\bar{y}\) |
---|---|---|---|
1 | 2 | -2 | -2 |
2 | 4 | -1 | 0 |
3 | 5 | 0 | 1 |
4 | 4 | 1 | 0 |
5 | 5 | 2 | 1 |
X | Y | \(x-\bar{x}\) | \(y-\bar{y}\) | \((x-\bar{x})^2\) | \((x-\bar{x})(y-\bar{y})\) |
---|---|---|---|---|---|
1 | 2 | -2 | -2 | 4 | 4 |
2 | 4 | -1 | 0 | 1 | 0 |
3 | 5 | 0 | 1 | 0 | 0 |
4 | 4 | 1 | 0 | 1 | 0 |
5 | 5 | 2 | 1 | 4 | 2 |
Total | 10 | 6 |
\[ \beta=\frac{\Sigma(x-\bar{x})(y-\bar{y}) }{\Sigma(x-\bar{x})^2} \] \[ \beta=\frac{6}{10}=0.6 \]
\[ y= \alpha+\beta x \] \[ 4= \alpha+0.6(3) \] \[ \alpha= 4-1.8=2.2 \]
Tip
\(\beta_1 = 0\) vs \(\beta_1 \neq 0\)
Note
El Error Estándar de \(\beta\) (\(SE(\hat{\beta})\)) mide la precisión de nuestro estimado de la pendiente.
Si el error estándar es pequeño → mayor precisión.
Si el error estándar es grande → mayor incertidumbre.
Se calcula con:
\[ SE(\hat{\beta}) = \sqrt{ \frac{SSE}{(n-2) \sum (x-\bar{x})^2} } \]
Donde
Sabemos que:
Por lo tanto:
\[ SE(\hat{\beta})= \sqrt{ \frac{2.4}{3 \times 10} } = \sqrt{0.08} = 0.2828 \]
Note
\[ t= \frac{\hat{\beta} - \beta_0}{SE} \]
Tip
Sabemos que:
Por lo tanto:
\[ t= \frac{0.6-0}{0.2828}=2.122 \]
\[ gl = n - 2 \]
Tip
Por lo tanto:
\[ gl = 5-2 = 3 \]
Tip
En nuestro ejemplo:
El valor t calculado fue:
\[ t=2.122 \]
Con \(gl=3\) se obtiene:
\[ p=0.121 \]
(1) | |
---|---|
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001 | |
(Intercept) | 53.956*** |
(0.315) | |
gdpPercap | 0.001*** |
(0.000) | |
Num.Obs. | 1704 |
R2 | 0.341 |
R2 Adj. | 0.340 |
AIC | 12850.4 |
BIC | 12866.7 |
Log.Lik. | -6422.205 |
F | 879.577 |
RMSE | 10.49 |