Regresión lineal

Maestría en Gobierno y Políticas Públicas

Diego Solís Delgadillo

¿Qué es correlación?

El grado en que dos eventos ocurren al mismo tiempo

  • Si ocurre \(X\) y al mismo tiempo \(Y\) decimos que están positivamente correlacioandas
  • Si ocurre \(X\) y \(Y\) tiende a no ocurrir están negativamente correlacionadas

Correlación y causalidad

La correlación no implica causalidad

Tip

  • Hay correlación entre tomar clases de cálculo y graduarse de universidad
  • Pero, las personas que toman cálculo están **más motivadas* académicamente.

Variables confusoras

\(Z\) es una variable confusora

  • En el ejemplo anterior es la motivación del estudiante

Covarianza

  • Es una medida de correlación entre variables
  • Calculamos la desviación entre cada observación y la media \[(X_i - \bar{X})\]
  • Hacemos lo mismo para \(Y\) \[(Y_i-\bar{Y})\]

  • Posteriormente mulitplicamos las dos desviaciones \[(X_i - \bar{X})(Y_i-\bar{Y})\]
  • Finalmente, calculamos el promedio de este producto \[cov_{X,Y}=\frac{\sum_{i=1}^{N}(X_{i}-\bar{X})(Y_{i}-\bar{Y})}{N}\]

Coeficiente de correlación

  • La covarianza es dificil de interpretar
  • El coeficiente de correlación es la covarianza dividida entre el producto de las desviaciones estándar \[corr_{X,Y}=\frac{cov (X, Y)}{\sigma_X\sigma_y}\]
  • Toma un valor entre -1 y 1

  • La correlación no nos informa sobre la magnitud de la relación entre \(X\) y \(Y\)
  • La correlacion solo apunta a la intensidad de la relación
  • Pero no sobre cómo cambia \(Y\) con un aumento de \(X\)

Años de Estudio e Ingreso

Persona Años Estudio Ingreso Desv. Años Desv. Ingreso Producto Desv.
1 8 5 -5.3 -5.6 29.68
2 9 6 -4.3 -4.6 19.78
3 10 7 -3.3 -3.6 11.88
4 12 9 -1.3 -1.6 2.08
5 13 9 -0.3 -1.6 0.48
6 14 10 0.7 -0.6 -0.42
7 15 11 1.7 0.4 0.68
8 16 12 2.7 1.4 3.78
9 17 13 3.7 2.4 8.88
10 18 15 4.7 4.4 20.68
Suma 0 0 97.0
Promedio Producto 9.7

Resumen Años Estudio

  • Media: 13.3
  • Desv. Estándar: 3.27

Resumen Ingreso

  • Media: 10.6
  • Desv. Estándar: 3.35

Cálculo de la Correlación

Fórmula

\[corr_{X,Y}=\frac{cov (X, Y)}{\sigma_X\sigma_y}\]

  • Donde:
    • \(\sigma_X\) y \(\sigma_y\) son las desviaciones estándar

Aplicado a nuestro ejemplo

  • Promedio del producto de las desviaciones:
    \(\overline{(x_i - \bar{x})(y_i - \bar{y})} = 9.7\)

  • Desviación estándar de Años de Estudio:
    \(s_x = 3.27\)

  • Desviación estándar de Ingreso:
    \(s_y = 3.35\)

Resultado final:

\[ r = \frac{9.7}{3.27 \times 3.35} = \frac{9.7}{10.95} \approx 0.89 \]

Interpretación

  • Existe una correlación positiva y fuerte entre Años de Estudio e Ingreso.

¿Qué hace la regresión lineal?

  • La regresión lineal calcula la mejor línea de ajuste
  • La pendiente de cambio promedio en \(Y\) por un aumento en una unidad de \(X\)

Mejor Línea de ajuste

  • Minimiza la distancia entre las observaciones y la línea de ajuste

Términos

Resultado \((Y)\): es la variable que queremos explicar o predecir

Predictor \((X)\): es la variable que utilizamos para explicar la variabilidad en \(Y\)

Modelo de regresión

\[ Y=Modelo+Error \]

Modelo de regresión

  • Estima la mejor línea de ajuste
  • La línea que minimiza la distancia entre las observaciones y el valor esperado

Interpretación \(\beta\)

  • La pendiente \(\beta\) indica la tasa de cambio ente \(X\) y \(Y\)
  • Nos dice en cuánto cambia \(Y\) en promedio con un aumento de una unidad en \(X\)
  • El modelo se expresa como \[ Y_i = \alpha + \beta_1 x_i \]

\[ Presupuesto_i = \alpha + \beta_1 Matricula_i \]

Interpretación \(\alpha\)

\[ Y_i = \alpha + \beta_1 x_i \]

  • Donde \(\alpha\) se conoce como el intercepto: el valor de \(Y\) cuando \(X\) toma un valor de \(0\)
  • Donde \(\beta\) indica la pendiente de línea de ajuste
  • Por cada valor de \(X\) el modelo nos da una predicción de \(Y\)

Residuo

  • La predicción no va ser exactamente el valor observado
  • Es una estimación del valor promedio de \(Y\) dados los valores de \(X\)
  • La diferencia entre la predicción y lo observado se llama residuo

\[ residuo_i = presupuesto_i - predicción_i \]

Errores cuadrados

  • Calculamos el residuo para cada punto

  • Algunos valores serán positivos y otros negativos

  • Para que todos sean positivos los elevamos al cuadrado

Suma de Errores Cuadrados (SSE)

  • Se le conoce así a la suma de errores individuales

  • Diferente líneas de ajuste tienen distintas SSE

Tip

  • El Modelo de Mínimos Cuadrados (OLS) obtiene la línea con la menor SSE

Propiedades de Mínimos Cuadrados

  • La línea pasa por el valor medio de \(X\) y el valor medio de \(Y\)
  • La pendiente tiene el mismo signo que el coeficiente de correlación
  • La suma de residuos del modelo es igual a \(0\)

Cómo calcular \(\beta\)

X Y
1 2
2 4
3 5
4 4
5 5

Calculamos las medias

  • La media de X es 3
  • La media de Y es 4

Paso 2

Important

  • La línea de regresión pasa por el punto donde se cruzan las medias de \(X\) y \(Y\)

Note

  • Posteriormente se calculan las distancias entre los puntos y las medias

Paso 3

Primero calculamos las distancias entre \(x\) y \(\bar{x}\)

X Y \(x-\bar{x}\)
1 2 -2
2 4 -1
3 5 0
4 4 1
5 5 2

Paso 4

Hacemos lo mismos con las distancias entre \(y\) y \(\bar{y}\)

X Y \(x-\bar{x}\) \(y-\bar{y}\)
1 2 -2 -2
2 4 -1 0
3 5 0 1
4 4 1 0
5 5 2 1

Paso 5

  • Posteriormente se elevan las diferencias ente \(x-\bar{x}\) al cuadrado
  • Y se multiplican las diferencias entre \(x-\bar{x}\) y \(y-\bar{y}\)
X Y \(x-\bar{x}\) \(y-\bar{y}\) \((x-\bar{x})^2\) \((x-\bar{x})(y-\bar{y})\)
1 2 -2 -2 4 4
2 4 -1 0 1 0
3 5 0 1 0 0
4 4 1 0 1 0
5 5 2 1 4 2
Total 10 6

Paso 6

\[ \beta=\frac{\Sigma(x-\bar{x})(y-\bar{y}) }{\Sigma(x-\bar{x})^2} \] \[ \beta=\frac{6}{10}=0.6 \]

Constante

  • Es el valor de \(\beta\) cuando \(X\) es igual a \(0\)
  • ¿Cómo calcularla?
    • Sabemos que la línea por por la media de \(x\) y \(y\)

\[ y= \alpha+\beta x \] \[ 4= \alpha+0.6(3) \] \[ \alpha= 4-1.8=2.2 \]

Coeficiente de determinación

  • \(R^2\) mide cuanto de la variación en \(Y\) se explica con el modelo
  • Sus valores van de 0 a 1 (la proporción explicada)
  • Compara la Suma de Errores Cuadrados (SSE) con la Suma de Errores Totales (TSS) \[ R^2= SSE/TSS \]

Suma de Errores Totales

  • Es la distancia entre las observaciones y el valor medio de \(Y\)
  • Es la línea que obtendríamos si no hubiese relaicón entre \(X\) y \(Y\)

Prueba de Hipótesis

  • Asumimos que el valor verdadero de \(\beta\) es cero
    • La hipótesis nula
  • Comparamos qué tan inusual sería obtener el estimador que obtuvimos del modelo siendo que \(\beta=0\)
  • Para ello utilizamos la distribución \(t\)

Significancia estadística

  • La probabilidad de obtener nuestro estimador asumiendo que \(\beta=0\)
  • Esta probabilidad es el p-value

Tip

  • Si nuestros p-values son muy bajos, podemos concluir que difícilmente la hipótesis nula es verdadera

Comparamos los coeficientes con la hipótesis nula

  • Los modelos de regresión lineal comparan los coeficientes con la hipótesis nula
  • La hipótesis nula es que el valor de \(\beta\) es igual a \(0\)

\(\beta_1 = 0\) vs \(\beta_1 \neq 0\)

¿Qué es el Error Estándar de \(\beta\)?

Note

  • El Error Estándar de \(\beta\) (\(SE(\hat{\beta})\)) mide la precisión de nuestro estimado de la pendiente.

  • Si el error estándar es pequeño → mayor precisión.

  • Si el error estándar es grande → mayor incertidumbre.

Cálculo Error Estándar

Se calcula con:

\[ SE(\hat{\beta}) = \sqrt{ \frac{SSE}{(n-2) \sum (x-\bar{x})^2} } \]

Donde

  • \(SSE= \sum (y-\hat{y})^2\) (Suma de los Errores al Cuadrado)
  • \(n\) es el número de observaciones.
  • \(\sum(x-\bar{x})^2\) es la variabilidad de \(X\).

Aplicación al ejemplo

Sabemos que:

  • \(SSE=2.4\)
  • \(n=5 \Rightarrow n-2=3\)
  • \(\sum(x-\bar{x})^2=10\)

Por lo tanto:

\[ SE(\hat{\beta})= \sqrt{ \frac{2.4}{3 \times 10} } = \sqrt{0.08} = 0.2828 \]

Puntuación t

Note

  • La puntuación t nos permite evaluar si el coeficiente \(\beta\) es significativamente diferente de cero.

\[ t= \frac{\hat{\beta} - \beta_0}{SE} \]

Tip

  • \(\hat{\beta}\) es el coeficiente estimado.
  • \(\beta_0\) es el valor hipotético bajo \(H_0\) (generalmente \(0\)).
  • \(SE(\hat{\beta})\) es el error estándar de \(\beta\).

Aplicación al ejemplo

Sabemos que:

  • \(\hat{\beta}=0.6\)
  • \(\beta_0=0\)
  • \(SE(\hat{\beta})=0.2828\)

Por lo tanto:

\[ t= \frac{0.6-0}{0.2828}=2.122 \]

Grados de Libertad

  • En regresión simple:

\[ gl = n - 2 \]

Tip

  • Restamos 1 grado de libertad por estimar la pendiente (\(\beta\)).
  • Restamos 1 grado de libertad por estimar la constante (\(\alpha\)).

Aplicación al ejemplo

  • Número de observaciones: \(n=5\)

Por lo tanto:

\[ gl = 5-2 = 3 \]

Aplicación al ejemplo

  • Utilizamos los gl para obtener el p-value

Tip

En nuestro ejemplo:

El valor t calculado fue:

\[ t=2.122 \]

Con \(gl=3\) se obtiene:

\[ p=0.121 \]

Ejemplo regresión

(1)
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001
(Intercept) 53.956***
(0.315)
gdpPercap 0.001***
(0.000)
Num.Obs. 1704
R2 0.341
R2 Adj. 0.340
AIC 12850.4
BIC 12866.7
Log.Lik. -6422.205
F 879.577
RMSE 10.49
image/svg+xml