Regresión lineal

Maestría en Gobierno y Políticas Públicas

Diego Solís Delgadillo

¿Qué es correlación?

El grado en que dos eventos ocurren al mismo tiempo

  • Si ocurre \(X\) y al mismo tiempo \(Y\) decimos que están positivamente correlacioandas
  • Si ocurre \(X\) y \(Y\) tiende a no ocurrir están negativamente correlacionadas

¿Para qué sirve la correlación?

  • Describir
  • Predecir
  • Inferencia causal

Correlación y causalidad

La correlación no implica causalidad

Tip

  • Hay correlación entre tomar clases de cálculo y graduarse de universidad
  • Pero, las personas que toman cálculo están **más motivadas* académicamente.

Variables confusoras

\(Z\) es una variable confusora

  • En el ejemplo anterior es la motivación del estudiante

Covarianza

  • Es una medida de correlación entre variables
  • Calculamos la desviación entre cada observación y la media \[(X_i - \bar{X})\]
  • Hacemos lo mismo para \(Y\) \[(Y_i-\bar{Y})\]

  • Posteriormente mulitplicamos las dos desviaciones \[(X_i - \bar{X})(Y_i-\bar{Y})\]
  • Finalmente, calculamos el promedio de este producto \[cov_{X,Y}=\frac{\sum_{i=1}^{N}(X_{i}-\bar{X})(Y_{i}-\bar{Y})}{N}\]

Coeficiente de correlación

  • La covarianza es dificil de interpretar
  • El coeficiente de correlación es la covarianza dividida entre el producto de las desviaciones estándar \[corr_{X,Y}=\frac{cov (X, Y)}{\sigma_X\sigma_y}\]
  • Toma un valor entre -1 y 1

  • La correlación no nos informa sobre la magnitud de la relación entre \(X\) y \(Y\)
  • La correlacion solo apunta a la intensidad de la relación
  • Pero no sobre cómo cambia \(Y\) con un aumento de \(X\)

¿Qué hace la regresión lineal?

  • La regresión lineal calcula la mejor línea de ajuste
  • La pendiente de cambio promedio en \(Y\) por un aumento en una unidad de \(X\)

Mejor Línea de ajuste

  • Minimiza la distancia entre las observaciones y la línea de ajuste

Términos

Resultado \((Y)\): es la variable que queremos explicar o predecir

Predictor \((X)\): es la variable que utilizamos para explicar la variabilidad en \(Y\)

Modelo de regresión

\[ Y=Modelo+Error \]

¿Qué es causalidad?

  • Se refiere al efecto de una variable sobre otra
  • El efecto causal es el cambio en \(Y\) que es atribuible a \(X\)

Mercurio y sifilis

  • Se creía que el mercurio curaba la sifilis
  • Después del tratamiento desaparicían los síntomas
  • Pero los síntomas de la sifilis desaparecen por sí mismos (más no la enfermedad)

Problema fundamental de la causalidad

  • Para estimar el efecto causal necesitamos observar al sujeto \(i\) con y sin tratamiento

Warning

  • Esto no es posible porque si toma tratamiento ya no observamos que sucedería sin tratamiento
  • A esa situación hipotética le llamamos contrafactual

Estudios universitarios e ingreso

El efecto causal requeriría comparar:

  • El ingreso habiendo ido a la univerdad
  • Menos el ingreso sin haber acudido a la universidad

Uno de los dos no es observable

¿Entonces cómo saber el efecto causal?

  • No podemos observar al individuo con y sin tratamiento
  • Pero podemos comparar grupos de individuos tratados y no tratados
  • Lo que estimamos es el efecto medio del tratamiento

Vacunas

  • Estar vacunado contra la influenza reduce el riesgo de contagio
  • No significa que todas las personas vacunadas serán inmunes
  • El hallazgo apunta a una dismunición promedio

Selección por variable dependiente

  • Seleccionar solo casos con resultado positivo
  • No hay variación en la variable dependiente
  • Por ejemplo, Gladwell y su regla de las 10 mil horas

Importante!

Correlación requiere variación

Consejos de vida

  • Son ejemplo de selección por variable dependiente
  • Pedimos consejos de gente exitosa
  • Identifican decisiones que consideran importantes
  • Pero no sabemos si otras personas, sin éxito, también las tomaron

Modelo de regresión

  • Estima la mejor línea de ajuste
  • La línea que minimiza la distancia entre las observaciones y el valor esperado

  • La pendiente \(\beta\) indica la tasa de cambio ente \(X\) y \(Y\)
  • Nos dice en cuánto cambia \(Y\) en promedio con un aumento de una unidad en \(X\)
  • El modelo se expresa como \[ Y_i = \alpha + \beta_1 x_i \]

\[ Presupuesto_i = \alpha + \beta_1 Matricula_i \]

\[ Y_i = \alpha + \beta_1 x_i \]

  • Donde \(\alpha\) se conoce como el intercepto: el valor de \(Y\) cuando \(X\) toma un valor de \(0\)
  • Donde \(\beta\) indica la pendiente de línea de ajuste
  • Por cada valor de \(X\) el modelo nos da una predicción de \(Y\)

Residuo

  • La predicción no va ser exactamente el valor observado
  • Es una estimación del valor promedio de \(Y\) dados los valores de \(X\)
  • La diferencia entre la predicción y lo observado se llama residuo

\[ residuo_i = presupuesto_i - predicción_i \]

  • Calculamos el residuo para cada punto

  • Algunos valores serán positivos y otros negativos

  • Para que todos sean positivos los elevamos al cuadrado

Suma de Errores Cuadrados (SSE)

  • Se le conoce así a la suma de errores individuales

  • Diferente líneas de ajuste tienen distintas SSE

Tip

  • El Modelo de Mínimos Cuadrados (OLS) obtiene la línea con la menor SSE

Propiedades de Mínimos Cuadrados

  • La línea pasa por el valor medio de \(X\) y el valor medio de \(Y\)
  • La pendiente tiene el mismo signo que el coeficiente de correlación
  • La suma de residuos del modelo es igual a \(0\)

Cómo calcular \(\beta\)

X Y
1 2
2 4
3 5
4 4
5 5

Calculamos las medias

  • La media de X es 3
  • La media de Y es 4

Important

  • La línea de regresión pasa por el punto donde se cruzan las medias de \(X\) y \(Y\)

Note

  • Posteriormente se calculan las distancias entre los puntos y las medias

Primero calculamos las distancias entre \(x\) y \(\bar{x}\)

X Y \(x-\bar{x}\)
1 2 -2
2 4 -1
3 5 0
4 4 1
5 5 2

Hacemos lo mismos con las distancias entre \(y\) y \(\bar{y}\)

X Y \(x-\bar{x}\) \(y-\bar{y}\)
1 2 -2 -2
2 4 -1 0
3 5 0 1
4 4 1 0
5 5 2 1

  • Posteriormente se elevan las diferencias ente \(x-\bar{x}\) al cuadrado
  • Y se multiplican las diferencias entre \(x-\bar{x}\) y \(y-\bar{y}\)
X Y \(x-\bar{x}\) \(y-\bar{y}\) \((x-\bar{x})^2\) \((x-\bar{x})(y-\bar{y})\)
1 2 -2 -2 4 4
2 4 -1 0 1 0
3 5 0 1 0 0
4 4 1 0 1 0
5 5 2 1 4 2
Total 10 6

\[ \beta=\frac{\Sigma(x-\bar{x})(y-\bar{y}) }{\Sigma(x-\bar{x})^2} \] \[ \beta=\frac{6}{10}=0.6 \]

Constante

  • Es el valor de \(\beta\) cuando \(X\) es igual a \(0\)
  • ¿Cómo calcularla?
    • Sabemos que la línea por por la media de \(x\) y \(y\)

\[ y= \alpha+\beta x \] \[ 4= \alpha+0.6(3) \] \[ \alpha= 4-1.8=2.2 \]

Coeficiente de determinación

  • \(R^2\) mide cuanto de la variación en \(Y\) se explica con el modelo
  • Sus valores van de 0 a 1 (la proporción explicada)
  • Compara la Suma de Errores Cuadrados (SSE) con la Suma de Errores Totales (TSS) \[ R^2= SSE/TSS \]

Suma de Errores Totales

  • Es la distancia entre las observaciones y el valor medio de \(Y\)
  • Es la línea que obtendríamos si no hubiese relaicón entre \(X\) y \(Y\)

Parámetros y estimadores

  • Los parámetros son los valores verdaderos de la población
  • Los estimadores son nuestra predicción del modelo
  • El sesgo son errores que ocurren por razones sistemáticas
  • El ruido son errores que ocurren aleatoriamente (por ejemplo por muestreo) \[ Y= Estimador + Sesgo + Ruido \]

Ruido y Sesgo

  • Un tenista profesional puede equivocarse y colocar la pelota fuera de la línea
  • Hay factores aleatorios que hacen que la pelota caiga fuera, esos factores aleatorios son ruido
  • En cambio un tenista frecuentemente coloca la pelota fuera de la línea
  • No por factores aleatorios sino porque es un mal tenista, esto es sesgo

¿Qué hace un buen estimador

  • Buscamos tener estimadores que no estén sesgados pero que sean precisos
  • Pero en ocasiones tenemos que decidir entre uno de estos objetivos

Errores estándar

  • Con diferentes muestras podemos obtener diferentes estimadores

  • Al repetir el ejercicio obtenemos una distribución muestral de estimadores

Tip

  • La desviación estándar de esa distribución muestral es el error estándar

Error estándar

Valor verdadero

Si los estimadores no están sesgados la media de la distribución es igual al valor verdadero

  • Esto nos permite identificar valores inusuales
  • Para saber qué tan inusuales son los valores utilizamos el error estándar

Error estándar grande

  • Los estimadores están dispersos y la medición es imprecisa

Error estándar pequeño

  • Los estimadores están cerca uno del otro y la medición es precisa

Important

  • Entre más grande es la muestra el error estándar es más pequeño

Prueba de Hipótesis

  • Asumimos que el valor verdadero de \(\beta\) es cero
    • La hipótesis nula
  • Comparamos qué tan inusual sería obtener el estimador que obtuvimos del modelo siendo que \(\beta=0\)
  • Para ello utilizamos la distribución \(t\)

Significancia estadística

  • La probabilidad de obtener nuestro estimador asumiendo que \(\beta=0\)
  • Esta probabilidad es el p-value

Tip

  • Si nuestros p-values son muy bajos, podemos concluir que difícilmente la hipótesis nula es verdadera

Comparamos los coeficientes con la hipótesis nula

  • Los modelos de regresión lineal comparan los coeficientes con la hipótesis nula
  • La hipótesis nula es que el valor de \(\beta\) es igual a \(0\)

\(\beta_1 = 0\) vs \(\beta_1 \neq 0\)