3. Econometria, Analisis causal y Experimentos

ECONOMETRIA I. GRADO EN ECONOMIA.

Jose Antonio Ortega
Universidad de Salamanca

Resultados potenciales: ¿Reflejan los patrones empíricos efectos causales?

¿Mejora irse de Erasmus nuestra formación?

  • Sólo algunos estudiantes se van de Erasmus.

  • Para tomar una decisión de si merece la pena hacerlo, nos interesaría comparar cómo estaríamos después de irnos de Erasmus (\(Y_1\)) con cómo estaríamos si NO nos vamos de Erasmus (\(Y_0\)).

  • Debemos definir cómo medimos los resultados. Supongamos que nos planteamos los resultados en un examen estandarizado que hacen al final del grado todos los graduados en economía.

    • \(Y_{0i}\) - Resultado en el GMAT de la persona i si se queda en la Universidad.
    • \(Y_{1i}\) - Resultado en el GMAT por la persona i si se va de Erasmus.
    • \(TE_i\) - Efecto del tratamiento (treatment effect) para la persona \(i\).

    \[ TE_i = Y_{1i} - Y_{0i} \]

El problema básico de medición:

Para un individuo concreto podemos conocer \(Y_{0i}\) si se queda o \(Y_{1i}\) si se va.

PERO NO PODEMOS OBSERVAR LOS DOS

Definimos:

  • \(D_i\): Variable de tratamiento
    • \(D_i=0\): No tratados (Los que no van de Erasmus)
    • \(D_i=1\): Tratados (Los que van de Erasmus)

¿Qué podemos observar?

  • Si \(D_i=0\): \(Y_{0i}\)
  • Si \(D_i=1\): \(Y_{1i}\)

Variable observada: \(Y_i = Y_{0i}+D_i \cdot (Y_{1i}-Y_{0i}) = Y_{0i}+D_i \cdot TE_i\)

¿Qué nos gustaría medir? ATE

Nos podría gustar medir varias magnitudes: La primera, el efecto medio del tratamiento o ATE (Average Treatment Effect):

\[ATE=E(Y_{1i}-Y_{0i})\]

Se trata del promedio entre los distintos individuos del efecto que tendría el tratamiento.

Cerulli fig 1.2

Fuente: Cerulli (2015), Econometric evaluation of socio-economic programs.

¿Qué nos podría gustar medir? ATET y ATENT

También nos podría gustar medir el efecto medio del tratamiento en los tratados o ATET (Average Treatment Effect of the Treated):

\[ATE=E(Y_{1i}-Y_{0i}|D_i=1)\]

Se trata del promedio entre los individuos tratados del efecto del tratamiento. Ej: Si se van de Erasmus los que saben que se beneficiarás más de ello, esperaríamos que \(ATET > ATE\)

También podemos definir ATENT, el efecto esperado del tratamiento en los NO tratados.

Cerulli fig 1.4

Fuente: Cerulli (2015), Econometric evaluation of socio-economic programs.

\(ATE =\) \[Pr(D=1) \cdot ATET + Pr(D=0) \cdot ATENT\]

¿Qué podemos medir? Diferencia de Medias

Pero, como sólo observamos \(Y_0\) para los que se quedan y \(Y_1\) para los que se van, lo que podemos calcular es la diferencia de medias:

\[ DM = Med_n(Y_{i}|D_i=1)-Med_n(Y_{i}|D_i=0) = Med_n(Y_{1i}|D_i=1)-Med_n(Y_{0i}|D_i=0) \]

Donde \(Med_n(Y_{i}|D_i=j)\) es la media aritmética de la variable en la submuestra correspondiente.

¿Es la DM un buen estimador del ATE o del ATET?

DEPENDE

  • Depende de quiénes son los que se van y quienes los que se quedan.
  • Si no hay diferencias sistemáticas, DM funcionará (lo veremos)
  • Si hay diferencias sistemáticas NO funcionará.
    • Diferencias sistemáticas por variables observables: Requisito de nota media ...
    • Diferencias por variables no observables: capacidad de iniciativa, toma de riesgo, ...

¿Es el estimador DM un estimador insesgado?

Supongamos la variable tratamiento como dada.

\[DM = Med_n(Y_{1i}|D_i=1)-Med_n(Y_{0i}|D_i=0)\]

¿Cuál será el valor esperado?

\[E(DM) = E(Y_{1i}|D_i=1) - E(Y_{0i}|D_i=0)\]

¿Coincide con \(ATE=E(Y_{1i}-Y_{0i})\)?

  • Sumamos y restamos \(E(Y_{0i}|D_i=1)\)

  • \(E(DM) = [E(Y_{1i}|D_i=1) - E(Y_{0i}|D_i=1)] + [E(Y_{0i}|D_i=1) - E(Y_{0i}|D_i=0)]\)

  • Definimos el Efecto del tratamiento en los tratados, \(ATET\) como \(ATET=[E(Y_{1i}-Y_{01}|D_i=1)\)

  • Definimos el sesgo de selección como \(\text{Sesgo}=E(Y_{0i}|D_i=1) - E(Y_{0i}|D_i=0)\)

  • \(E(DM) = ATET + \text{Sesgo}\)

¿En qué consiste el sesgo de selección?

\(\text{Sesgo}=E(Y_{0i}|D_i=1) - E(Y_{0i}|D_i=0)\)

  • La diferencia en el resultado que habrían obtenido tratados y no tratados de no tratarse.
  • En el caso del Erasmus la pregunta es: ¿cómo habría sido el resultado de los que se van a ir, si no se hubieran ido, comparado con cómo los resultados de los que no van?
  • Vemos que habla de en qué medida son seleccionados los que se van
  • Variables observables: Los Erasmus tienen más nota media, esperamos que saquen mejor resultado en la prueba vayan de Erasmus o no.
  • ¿No observables?

Ejemplo: ¿Debemos ir a un hospital?

¿Se puede evitar el sesgo de selección?

SI

  • En un contexto EXPERIMENTAL, no observacional.

  • Nos planteamos el experimento “ideal” para estimar el efecto causal del tratamiento.

ALEATORIZACIÓN (asignación aleatoria)

  • Asignamos aleatoriamente quién recibe el tratamiento y quien no.
  • De este modo garantizamos que TODOS los individuos proceden de la MISMA población: No tenemos poblaciones distintas.
  • Esto garantiza, además, que \(ATET=ATE\)
  • Demostración: Si asignamos aleatoriamente, \(E(Y_{0i}) = E(Y_{0i}|D_i=1) = E(Y_{0i}|D_i=0)\) y el sesgo de selección se anula.

¿Es la economía una ciencia experimental?

  • Cuando yo estudié econometría se decía que en economía no había experimentos, y los métodos se dirigían a qué hacer con datos observacionales.
  • Hoy en día las cosas han cambiado.

  • Existen múltiples aplicaciones de los experimentos en Economía que implican:

    • Costes más altos de diseño del experimento, incluyendo algún mecanismo de asignación aleatoria: La evaluación es parte integral de la política.
    • Métodos estadísticos más sencillos de análisis: Una simple diferencia de medias funciona.
  • Aplicaciones de los experimentos en economía:

    • Microeconomía: Comportamiento real en juegos, ... Se hace en laboratorio. Economía del comportamiento
    • Macroeconomía: Evaluación de políticas públicas.
    • Economía del desarrollo: Evaluación del impacto de la ayuda al desarrollo.
  • En todos estos casos cambia el tipo de experimento, dónde se realiza, ...

    • PERO LA METODOLOGÍA ES LA MISMA.

Curso del MIT de evaluación de impacto

Aprendemos lo que NO funciona: Flip charts

La idea parecía buena: Donde apenas saben leer una alternativa a los libros eran tarjetas que muestran a los niños los conceptos.

  • Estudios observacionales prometedores.

  • En los experimentos NO aumentaban el % de respuestas correctas

Fecha,curso Tratados Control Efecto D.Típica
Jul 1997,8 45.5 46.0 -0.5 12.5
Nov 1997,8 48.7 49.6 -0.9 13.3
Jul 1997,8 42.7 42.9 -0.3 11.2
Nov 1997,8 49.5 49.5 0.0 13.0
Oct 1998,7 37.6 37.5 0.1 11.3
Oct 1998,6 37.3 36.9 0.4 11.4

Fuente: García Montalvo (2013)

flipcharts

Aprendemos LO QUE FUNCIONA y lo podemos ESCALAR.

  • Hoy en día tenemos evidencia empírica acumulada de miles de estudios: 3ieimpact

  • Ejemplo: ¿Cómo deben proporcionarse mosquiteros contra la malaria?

    • Al coste completo: Limita lo que pueden comprar gente pobre, y hay una externalidad clara.
    • A coste pequeño subvencionado: Al pagar algo se aprecia más pero puede disuadir a los que más lo necesitan.
    • Gratis: ES LO QUE EXPERIMENTALMENTE REDUCE MÁS LA MALARIA, aunque algunos utilicen las redes para pescar.
  • Hay agencias que escalan aquello que hay evidencia de que funciona.

¿Sólo funcionan los experimentos aleatorizados?

  • Aunque realizar un experimento aleatorizado es el REFERENTE, existen alternativas.

  • Estas pasan, por obtener estimaciones del sesgo de selección para recuperar el ATET (o incluso el ATENT y el ATE).

    • Diferencia de diferencias: Funciona cuando hay selección por variables no observadas
    • Regresión: Incluimos en un modelo las variables asociadas a quién recibe el tratamiento. Funciona para variables observables.
    • Matching: Funciona cuando hay selección por variables observables. Comparar con lo parecido.
    • Variables instrumentales: Funciona cuando hay selección por variables no observadas y existen variables que afectan al tratamiento pero no al output (Instrumentos)
  • Volveremos sobre ellos al final del curso.

¿Siempre hay sesgos con datos observacionales?

  • Con datos observacionales yo siempre puedo estimar una diferencia de medias
  • Pero esta diferencia de medias no la podré interpretar como efecto causal a no ser que se cumpla una condición equivalente a la que conseguíamos con la aleatorización:

\[E(Y_{0i}) = E(Y_{0i}|D_i=1) = E(Y_{0i}|D_i=0)\]

  • Ejemplo: Diferencias salariales entre hombres y mujeres, ¿son causales?
  • Yo no puedo asignar aleatoriamente el sexo.
  • Pero si puedo PENSAR en términos de efectos causales: La pregunta es ¿cuánto ganaría la MISMA persona si lo "ÚNICO" que cambiamos es el sexo?
  • Sesgo de selección: \(E(Y_{0i}|D_i=1) - E(Y_{0i}|D_i=0)\)
  • Será distinto de 0 si, por ejemplo, los hombres y mujeres EN MI MUESTRA difieren sistemáticamente en otras cosas aparte del sexo que afectan al salario: Educación, experiencia, ...
  • Otro motivo más para meter más variables en modelos de regresión

El modelo de resultados potenciales como modelo de regresión.

  • Los modelos de regresión vimos que intentaban captar la función \(f\) tal que \(y=f(x)=E(y|x)\)
  • En nuestro modelo tenemos que \(x\) es la variable de tratamiento, \(D_i\)
  • La variable de respuesta es \(Y_i = Y_{0i}+D_i \cdot (Y_{1i}-Y_{0i}) = Y_{0i}+D_i \cdot TE_i\)
    • \(f(1)=E(Y_i|D_i=1)=E(Y_{1i}|D_i=1)\)
    • \(f(0)=E(Y_i|D_i=0)=E(Y_{0i}|D_i=0)\)
    • Luego, \(\hat f (1)-\hat f (0)=DM\) y será estimación insesgada del efecto causal (ATET) sólo si el sesgo de selección es 0.
  • Modelo: \(Y_i = f(D_i) + \varepsilon_i\)

La regresión capta la esperanza condicionada, pero no necesariamente los efectos causales

Modelo lineal causal

Otra forma de ver esto: Pensemos en un modelo lineal causal.

  • Vimos que: \(Y_i = Y_{0i}+ D_i \cdot TE_i\)
  • Podemos escribir el modelo en función de los parámetros poblacionales:
    • \(Y_i = E(Y_{0i}) + ATET \cdot D_i + (Y_{0i}-E(Y_{0i})) + (TE_i-ATET) \cdot D_i\)
    • \(Y_i = \alpha + \beta \cdot D_i + \varepsilon_i\)
  • Problemas con este modelo: ¿Se cumple la esperanza condicionada nula del término de error? SÓLO SI:
    • PARA \(D_i=0\): \(E(Y_{0i}|D_i=0)-E(Y_{0i})=0 \Leftrightarrow E(Y_{0i}|D_i=0) = E(Y_{0i})\): No hay sesgo de selección
    • PARA \(D_i=1\): \(E(Y_{0i}|D_i=1)-E(Y_{0i}) + E(TE_i/D_i=1)- ATET = 0\). La segunda parte es 0 por definición de \(ATET\). La primera, sólo si \(E(Y_{0i}|D_i=1) = E(Y_{0i})\), que de nuevo se da si no hay SESGO DE SELECCIÓN
  • Un modelo lineal proporciona estimaciones causales sólo cuando $\forall X, E(\varepsilon_i|X)=0 $

Para mañana:

  • Vamos a repasar los conceptos básicos de la estadística.

  • ¿Por qué en una población la media muestral se acerca (converge) a la media poblacional? LEY DE LOS GRANDES NÚMEROS

  • ¿Por qué al tomar una muestra arbitrariamente grande, la función de distribución empírica se parece a la función de distribución teórica? TEOREMA FUNDAMENTAL DE LA ESTADÍSTICA

  • ¿Qué es un CONTRASTE DE HIPÓTESIS? Comparar el valor muestral con la distribución teórica bajo la nula

  • ¿Qué es un INTERVALO DE CONFIANZA de un parámetro? Una regla que garantiza que en promedio el verdadero valor está en el intervalo un % de veces

  • Y veremos una forma NO PARAMÉTRICA y sencilla de obtener intervalos de confianza y hacer contrastes de hipótesis: EL MÉTODO BOOTSTRAP.