Para homogeneizar los resultados, usaremos la “semilla” 30042014 usando el comando set seed.
1. Nuestra población simulada. Vamos a analizar una población simulada donde viven 100,000 habitantes con dolor de cabeza. Define 100,000 observaciones en tu do-file. Crearemos distintas variables para analizar cómo se estima el ATE (efecto del tratamiento medio) y otros estadísticos de interés para la inferencia causal y qué nos dicen éstos. Supongamos que la salud (a la cual perjudica el dolor de cabeza) se distribuye de forma normal en la población. Así, podemos pensar que la salud depende del grado de dolor de cabeza que tienen los individuos (normalizado).
2. Efecto del tratamiento. Vamos a considerar un tratamiento que es una versión novedosa de una aspirina, y supondremos que la mitad de la población experimentará un efecto del tratamiento ‘positivo’ (mejora la salud, cae el dolor de cabeza) y la mitad un efecto ‘nulo’. Es decir, para la mitad de la gente, la aspirina será un gran alivio y para el resto será poco (si es que algo) efectiva. La dirección y magnitud del efecto del tratamiento será independiente de la salud original.
¿Cuál es la correlación estimada entre salud y grupo?
## [1] 0.003134535
Ahora vamos a construir el efecto del tratamiento para los dos grupos. Supondremos que para la mitad del grupo el efecto del tratamiento (real) será en promedio igual a 2 (Grupo 1) y para la otra mitad será igual a 0 (en promedio). En particular, construyamos la salud de los individuos del Grupo 1 si toman la aspirina de acuerdo a:
\(Salud_{i,T}^1=salud_i+\epsilon_1\)
donde T indica que se recibió el tratamiento (la aspirina), el superíndice 1 indica el grupo, \(salud_i\) es la salud previa a la intervención y \(\epsilon_1\) es el efecto del tratamiento, con \(\epsilon_1\) ∼ N (2, 1). Por su parte, la salud del Grupo 0 con tratamiento se construye de acuerdo a:
\(Salud_{i,T}^0=salud_i+\epsilon_0\)
donde \(\epsilon_0\) ∼ N (0, 1). Crea variables para \(\epsilon_0\) y \(\epsilon_1\), y llámalas trat_nulo y trat_efectivo, respectivamente. Usa la función rnormal(mu,sigma2).
¿Cuál es la media de t_salud para la población total?
## [1] 0.9977115
¿Para el grupo 0?
## [1] -0.007289334
¿Grupo 1?
## [1] 2.002712
Supongamos que sabemos que en la ausencia de tratamiento, el dolor de cabeza permanece constante. Por lo tanto, tenemos la información suficiente para conocer el efecto del tratamiento de tomar la aspirina para cada individuo. La media de éstos será igual al efecto del tratamiento medio (ATE).
\(Salud_{i,T}^G-Salud_{i,C}^G\), donde ahora sabemos que \(Salud_{i,C}^G=salud_i\) (esto es, para los individuos del grupo de control, C, que no reciban aspirinas, su salud después de un experimento será simplemente su salud original). Llama a esta variable et_real, dado que refleja el efecto del tratamiento verdadero. Presenta un histograma (Gráfica 5) para et real con líneas verticales en 0, 1 y 2. Presenta una gráfica (Gráfica 6) de la distribución de et real para cada grupo de individuos, de preferencia en el mismo plano (grupos 0 y 1). Debes usar el comando kdensity. Incluye líneas verticales en 0 y 2.
## [1] 1.001356
3. T1: el doctor perfecto. En las siguientes preguntas, nos pondremos en el papel de un investigador que trata de estimar el efecto del tratamiento. El problema fundamental, es que el investigador no puede observar \(y_{i,T}\) y \(y_{i,C}\) simultáneamente (y tampoco sabe que el dolor de cabeza no cambia si el paciente no se toma la aspirina). Consideremos un primer escenario (T1) donde el tratamiento se asigna por un ‘doctor perfecto’. Esto es, un doctor benévolo que conoce perfectamente a los individuos les indica si tomarse la aspirina o no (suponemos que él sí conoce \(salud_{i,T}\) y \(salud_{i,C}\)). En particular, sólo recetará la pastilla cuando \(salud_{i,T}\) ≥ \(salud_{i,C}\)
## [1] 73.818
## [1] 1.203241
¿Para quienes recibieron la aspirina?
## [1] 1.631018
¿Para quienes no?
## [1] -0.00284093
## [1] 1.633859
##
## Call:
## lm(formula = y_t1 ~ t1, data = experimento)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.1257 -0.9057 -0.0345 0.8697 6.4266
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.002841 0.008234 -0.345 0.73
## t1 1.633859 0.009583 170.492 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.332 on 99998 degrees of freedom
## Multiple R-squared: 0.2252, Adjusted R-squared: 0.2252
## F-statistic: 2.907e+04 on 1 and 99998 DF, p-value: < 2.2e-16
¿Cuál es el coeficiente de t1?
## [1] 1.633859
## [1] 1.633859
¿Cómo se compara con tu respuesta del inciso anterior?
Es exactamente la misma respuesta estimada de dos formas distintas.
0.6325029
Las estimaciones difieren debido a que la asignación a tratamiento no fue aleatoria. Consecuentemente, el efecto esta sobreestimado ya que el Dr. Perfecto únicamente otorga el tratamiento a las personas que se beneficiarían (o al menos no sufrirían daño alguno) con este. Debido a ello, en este caso comparar las medias es una mala estrategia.
4. T2: asignación aleatoria. Consideremos el siguiente escenario (T2) donde el tratamiento ya no lo asigna el doctor perfecto sino que se asigna de manera completamente aleatoria. Es decir, tú como el investigador de este proyecto decidirás quiénes deben tomar una aspirina y quienes no y lo harás de manera aleatoria.
## [1] -0.001653675
y
## [1] 0.004000203
respectivamente.
¿Hay evidencia de que la salud original esté correlacionada a la asignación del tratamiento? No. Es claro que la asignación fue aleatoria.
## [1] 0.5026626
¿Para quienes recibieron la aspirina?
## [1] 1.001325
¿Para quienes no?
## [1] 0.004000203
## [1] 0.9973248
##
## Call:
## lm(formula = y_t2 ~ t2, data = experimento)
##
## Residuals:
## Min 1Q Median 3Q Max
## -7.0337 -0.8853 -0.0023 0.8916 6.5561
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.004000 0.006305 0.634 0.526
## t2 0.997325 0.008916 111.853 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.41 on 99998 degrees of freedom
## Multiple R-squared: 0.1112, Adjusted R-squared: 0.1112
## F-statistic: 1.251e+04 on 1 and 99998 DF, p-value: < 2.2e-16
¿Cuál es el coeficiente de t2?
## [1] 0.9973248
¿Cómo se compara con tu respuesta del inciso anterior?
Son iguales
-0.004031347
La diferencia entre T2 y ATE tiende a cero. Si se consideran únicamente dos decimales puede decirse que las dos estimaciones son prácticamente iguales. Esto se debe a que la asignación del tratamiento fue aleatoria, por lo que en este caso si es posible estimar el ATE a partir de una sencilla resta de medias.
5. T3: interacciones con educación. Ahora vamos a considerar un tercer escenario (T3) donde el efecto del tratamiento va a variar de acuerdo al nivel educativo. En particular, el efecto del tratamiento para todos los individuos será mayor entre mayor sea su escolaridad. Podemos pensar que las indicaciones de uso son complejas y que a mayor escolaridad es más factible que se sigan correctamente.
Supondremos que la educación modifica el efecto del tratamiento individual de la siguiente manera (llamaremos te salud a esta nueva variable)
te_\(salud_i=\)t_\(salud_i+0.2\rho_ixedu_i\)
donde \(\rho ∼ N[0, 1]\) y refleja el grado de aprovechamiento escolar de cada individuo.
## [1] 1.899009
¿Por cuánto difiere de la media poblacional de t_salud?
## [1] 0.901298
## [1] 1.897836
## [1] 0.001173264
y la media de salud tomando aspirinas considerando el efecto educativo es
## [1] 1.899009
¿Cuál es la diferencia entre estos promedios?
## [1] 1.897836
¿Es igual a tu estimación del inciso anterior?
Si, son iguales.
Para los siguientes incisos, supondremos que la asignación del tratamiento se hace de manera aleatoria. En particular, usaremos nuestra variable de tratamiento t2 para asignar quién debe tomarse las aspirinas.
## [1] 0.9528622
¿Para quienes recibieron la aspirina?
## [1] 1.901724
¿Para quienes no?
## [1] 0.004000203
## [1] 1.897724
##
## Call:
## lm(formula = y_te ~ t2, data = experimento)
##
## Residuals:
## Min 1Q Median 3Q Max
## -7.9010 -0.9007 -0.0029 0.9033 6.9144
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.004000 0.006551 0.611 0.541
## t2 1.897724 0.009264 204.847 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.465 on 99998 degrees of freedom
## Multiple R-squared: 0.2956, Adjusted R-squared: 0.2956
## F-statistic: 4.196e+04 on 1 and 99998 DF, p-value: < 2.2e-16
¿Cuál es el coeficiente de t2?
## [1] 1.897724
¿Cómo se compara con tu respuesta del inciso anterior? Son iguales.
-0.0001123347
Las estimaciones de T3 y ATE no difieren a dos decimales, por lo que puede afirmarse que la estimación de T3 es precisa ya que la asignación a tratamiento fue aleatoria.
6. T4: asignación correlacionada con educación. En este último escenario (T4) supondremos que (i) la educación afecta el efecto del tratamiento como en T3, pero que (ii) la asignación no es aleatoria, sino que depende del nivel educativo. En particular, supondremos que la aspirina se le da a la mitad más educada de la población (podría ser una política regresiva promovida por las élites o podríamos pensar que al ofrecerse el nuevo tratamiento la gente más educada tiende a buscarlo antes).
## [1] 0.003309227
¿Para los que sí?
## [1] 2.059223
¿Cuál es la diferencia?
## [1] 2.055914
##
## Call:
## lm(formula = y_t4 ~ t4, data = experimento)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8.0585 -0.9025 -0.0021 0.9024 8.3935
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.003309 0.006640 0.498 0.618
## t4 2.055914 0.009391 218.924 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.485 on 99998 degrees of freedom
## Multiple R-squared: 0.324, Adjusted R-squared: 0.324
## F-statistic: 4.793e+04 on 1 and 99998 DF, p-value: < 2.2e-16
¿Cuál es el coeficiente asociado a la variable de tratamiento?
## [1] 2.055914
¿Cómo se compara con la diferencia estimada en el inciso anterior? Son iguales.
0.158078 (d) (5 puntos) ¿Por qué difieren estas estimaciones (si es que difieren)? ¿La estimación correspondiente a T4 es precisa-, sub- o sobre-estimada? ¿Por qué? Explica brevemente.
Las estimaciones difieren porque los individuos del grupo de tratamiento en T4 tienen mayor educación, por lo que la asignación al tratamiento no es aleatoria. Por tanto, la estimación correspondiente a T4 está sobreestimada ya que la población con más educación tiene un mayor efecto de tratamiento.
##
## Call:
## lm(formula = y_t4 ~ t4 + edu, data = experimento)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8.1578 -0.9044 -0.0023 0.9043 8.3246
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.356016 0.029616 -12.02 <2e-16 ***
## t4 1.900893 0.015592 121.91 <2e-16 ***
## edu 0.048506 0.003896 12.45 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.484 on 99997 degrees of freedom
## Multiple R-squared: 0.325, Adjusted R-squared: 0.325
## F-statistic: 2.408e+04 on 2 and 99997 DF, p-value: < 2.2e-16
¿Cuál es el coeficiente asociado a la variable de tratamiento?
## [1] 1.900893
¿Cuál es el coeficiente asociado a t4?
## [1] 1.900893
¿Cómo se compara (diferencia) con el ATE que considera a la educación estimado en T3?. 0.003057 Explica por qué cambian tus resultados Las estimaciones difieren ya que las personas del grupo tratamiento de T4 son las más educadas, por lo que la asignación a tratamiento no fue aleatoria. Debido a ello, cuando se incluye educación como control en la regresión, se elimina el problema de variables omitidas, haciendo que le coeficiente asociado con T4 este correctamente estimado.
7. T5: asignación imperfecta. Ahora supondremos que hay una asignación imperfecta del tratamiento (regresaremos a los supuestos originales donde la educación no afecta el efecto del tratamiento). En particular, las aspirinas se entregan de manera aleatoria (puedes volver a usar t2 para asignar el tratamiento), pero no todos los individuos que reciben las aspirinas las usan. En particular, sólo p = 0.10 de quienes reciben aspirinas se las acaban tomando. Indica con una variable dicotómica llamada t5 quiénes toman las aspirinas efectivamente. Supondremos que tomar la aspirina o no dado que se recibió una es independiente del efecto de tratamiento individual y de otras características personales.
## [1] 0.9979772
¿Cómo se compara con el ATE? El ATE es
## [1] 0.9979772
## [1] 0.09466893
¿Cómo se compara con el ATE? Es aproximadamente el 10% del ATE. ¿Cómo se relaciona con la probabilidad de tomar la aspirina, p? Son casi iguales, 0.0947 es cercano a 0.1.
##
## t test of coefficients:
##
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.0040002 0.0044852 0.8919 0.3725
## t5 0.9483964 0.0664260 14.2775 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
LATE
## [1] 0.9483964
¿Cómo se compara con el ATE? Casi SON iguales, el LATE es un poco menor, ya que tiene un valor de 0.9484
ATT
## [1] 3.634159
ITT
## [1] 0.2741453
LATTE
## [1] 2.741453
Discute estos resultados:
Se observa que los ATT, ITT y LATE del inciso d) son mayores a los ATT, ITT y LATE estimados en los incisos anteriores. Esto se debe a que en d) existe un sesgo hacia arriba, causado por el hecho de que el 10% de quienes toman el tratamiento son aquellos para quienes el efecto de este es mayor. Consecuentemente, los resultados del inciso d) están sobreestimados en relación con los de incisos previos.