## [1] 0.003134535
## [1] 73.818
## [1] 1.633859
## 
## Call:
## lm(formula = y_t1 ~ t1, data = experimento)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.1257 -0.9057 -0.0345  0.8697  6.4266 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.002841   0.008234  -0.345     0.73    
## t1           1.633859   0.009583 170.492   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.332 on 99998 degrees of freedom
## Multiple R-squared:  0.2252, Adjusted R-squared:  0.2252 
## F-statistic: 2.907e+04 on 1 and 99998 DF,  p-value: < 2.2e-16
## [1] -0.00283095
## [1] NA
## 
## Call:
## lm(formula = y_t2 ~ t2, data = experimento)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -7.0337 -0.8853 -0.0023  0.8916  6.5561 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 0.004000   0.006305   0.634    0.526    
## t2          0.997325   0.008916 111.853   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.41 on 99998 degrees of freedom
## Multiple R-squared:  0.1112, Adjusted R-squared:  0.1112 
## F-statistic: 1.251e+04 on 1 and 99998 DF,  p-value: < 2.2e-16
## [1] 1.899009
## [1] 0.901298
## [1] 1.897836
## [1] 1.899009
## [1] 0.001173264
## [1] 1.897836
## [1] 1.897724
## 
## Call:
## lm(formula = y_te ~ t2, data = experimento)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -7.9010 -0.9007 -0.0029  0.9033  6.9144 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 0.004000   0.006551   0.611    0.541    
## t2          1.897724   0.009264 204.847   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.465 on 99998 degrees of freedom
## Multiple R-squared:  0.2956, Adjusted R-squared:  0.2956 
## F-statistic: 4.196e+04 on 1 and 99998 DF,  p-value: < 2.2e-16
## [1] 2.059223
## [1] 0.003309227
## [1] 2.055914
## 
## Call:
## lm(formula = y_t4 ~ t4, data = experimento)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -8.0585 -0.9025 -0.0021  0.9024  8.3935 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 0.003309   0.006640   0.498    0.618    
## t4          2.055914   0.009391 218.924   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.485 on 99998 degrees of freedom
## Multiple R-squared:  0.324,  Adjusted R-squared:  0.324 
## F-statistic: 4.793e+04 on 1 and 99998 DF,  p-value: < 2.2e-16
## 
## Call:
## lm(formula = y_t4 ~ t4 + edu, data = experimento)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -8.1578 -0.9044 -0.0023  0.9043  8.3246 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.356016   0.029616  -12.02   <2e-16 ***
## t4           1.900893   0.015592  121.91   <2e-16 ***
## edu          0.048506   0.003896   12.45   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.484 on 99997 degrees of freedom
## Multiple R-squared:  0.325,  Adjusted R-squared:  0.325 
## F-statistic: 2.408e+04 on 2 and 99997 DF,  p-value: < 2.2e-16
## [1] 0.9979772
## [1] 0.9979772
## [1] 0.09466893
## 
## Call:
## ivreg(formula = y_t5 ~ t5 | t2, data = experimento)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -5.996601 -0.689101 -0.005375  0.688061  5.932558 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 0.004000   0.004689   0.853    0.394    
## t5          0.948396   0.066426  14.277   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.048 on 99998 degrees of freedom
## Multiple R-Squared: 0.0411,  Adjusted R-squared: 0.04109 
## Wald test: 203.8 on 1 and 99998 DF,  p-value: < 2.2e-16
## 
## t test of coefficients:
## 
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 0.0040002  0.0044852  0.8919   0.3725    
## t5          0.9483964  0.0664260 14.2775   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## [1] 3.387027
## [1] 0.3304496
## 
## Call:
## ivreg(formula = y_t6 ~ t6 | t2, data = experimento)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -4.569226 -0.672676 -0.003313  0.675209  4.340434 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  0.00400    0.00448   0.893    0.372    
## t6           3.30450    0.06335  52.161   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.002 on 99998 degrees of freedom
## Multiple R-Squared: 0.3518,  Adjusted R-squared: 0.3518 
## Wald test:  2721 on 1 and 99998 DF,  p-value: < 2.2e-16
## 
## t test of coefficients:
## 
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 0.0040002  0.0044852  0.8919   0.3725    
## t6          3.3044959  0.0633520 52.1609   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Pregunta 1.

Para homogeneizar los resultados, usaremos la “semilla” 30042014 usando el comando set seed.

1. Nuestra población simulada. Vamos a analizar una población simulada donde viven 100,000 habitantes con dolor de cabeza. Define 100,000 observaciones en tu do-file. Crearemos distintas variables para analizar cómo se estima el ATE (efecto del tratamiento medio) y otros estadísticos de interés para la inferencia causal y qué nos dicen éstos. Supongamos que la salud (a la cual perjudica el dolor de cabeza) se distribuye de forma normal en la población. Así, podemos pensar que la salud depende del grado de dolor de cabeza que tienen los individuos (normalizado).

  1. (10 puntos) Genera una variable llamada salud que esté distribuida en la población como ∼ N (0, 1). Muestra el histograma (Gráfica 1) para esta variable.

Pregunta 2.

2. Efecto del tratamiento. Vamos a considerar un tratamiento que es una versión novedosa de una aspirina, y supondremos que la mitad de la población experimentará un efecto del tratamiento ‘positivo’ (mejora la salud, cae el dolor de cabeza) y la mitad un efecto ‘nulo’. Es decir, para la mitad de la gente, la aspirina será un gran alivio y para el resto será poco (si es que algo) efectiva. La dirección y magnitud del efecto del tratamiento será independiente de la salud original.

  1. (5 puntos) De manera aleatoria, divide a la población en dos grupos (uno que tendrá efecto positivo y otro que tendrá efecto nulo). Puedes usar las funciones uniform() y rank() para asegurarte que esto se hace de manera aleatoria. Genera una variable llamada grupo que sea igual a 1 para la mitad de la población y 0 para la otra mitad.

¿Cuál es la correlación estimada entre salud y grupo?

## [1] 0.003134535

Ahora vamos a construir el efecto del tratamiento para los dos grupos. Supondremos que para la mitad del grupo el efecto del tratamiento (real) será en promedio igual a 2 (Grupo 1) y para la otra mitad será igual a 0 (en promedio). En particular, construyamos la salud de los individuos del Grupo 1 si toman la aspirina de acuerdo a:

\(Salud_{i,T}^1=salud_i+\epsilon_1\)

donde T indica que se recibió el tratamiento (la aspirina), el superíndice 1 indica el grupo, \(salud_i\) es la salud previa a la intervención y \(\epsilon_1\) es el efecto del tratamiento, con \(\epsilon_1\) ∼ N (2, 1). Por su parte, la salud del Grupo 0 con tratamiento se construye de acuerdo a:

\(Salud_{i,T}^0=salud_i+\epsilon_0\)

donde \(\epsilon_0\) ∼ N (0, 1). Crea variables para \(\epsilon_0\) y \(\epsilon_1\), y llámalas trat_nulo y trat_efectivo, respectivamente. Usa la función rnormal(mu,sigma2).

  1. (5 puntos) Genera una variable llamada t_salud la cual mostrará la salud una vez que se toma aspirina para cada individuo. Haz un histograma (Gráfica 2) de esta variable. Ahora haz un histograma de esta variable por separado para el grupo 0 y 1 (Gráficas 3 y 4). Utiliza el comando xline( ) para incluir líneas verticales en los valores cero y dos.

¿Cuál es la media de t_salud para la población total?

## [1] 0.9977115

¿Para el grupo 0?

## [1] -0.007289334

¿Grupo 1?

## [1] 2.002712

Supongamos que sabemos que en la ausencia de tratamiento, el dolor de cabeza permanece constante. Por lo tanto, tenemos la información suficiente para conocer el efecto del tratamiento de tomar la aspirina para cada individuo. La media de éstos será igual al efecto del tratamiento medio (ATE).

  1. (5 puntos) Calcula el efecto del tratamiento para cada individuo de acuerdo a

\(Salud_{i,T}^G-Salud_{i,C}^G\), donde ahora sabemos que \(Salud_{i,C}^G=salud_i\) (esto es, para los individuos del grupo de control, C, que no reciban aspirinas, su salud después de un experimento será simplemente su salud original). Llama a esta variable et_real, dado que refleja el efecto del tratamiento verdadero. Presenta un histograma (Gráfica 5) para et real con líneas verticales en 0, 1 y 2. Presenta una gráfica (Gráfica 6) de la distribución de et real para cada grupo de individuos, de preferencia en el mismo plano (grupos 0 y 1). Debes usar el comando kdensity. Incluye líneas verticales en 0 y 2.

  1. (5 puntos) ¿Cuál es la media de et real? Esto es, ¿cuál es el ATE poblacional verdadero?
## [1] 0.998226

Pregunta 3.

3. T1: el doctor perfecto. En las siguientes preguntas, nos pondremos en el papel de un investigador que trata de estimar el efecto del tratamiento. El problema fundamental, es que el investigador no puede observar \(y_{i,T}\) y \(y_{i,C}\) simultáneamente (y tampoco sabe que el dolor de cabeza no cambia si el paciente no se toma la aspirina). Consideremos un primer escenario (T1) donde el tratamiento se asigna por un ‘doctor perfecto’. Esto es, un doctor benévolo que conoce perfectamente a los individuos les indica si tomarse la aspirina o no (suponemos que él sí conoce \(salud_{i,T}\) y \(salud_{i,C}\)). En particular, sólo recetará la pastilla cuando \(salud_{i,T}\)\(salud_{i,C}\)

  1. (5 puntos) Crea una variable indicadora del tratamiento (dicotómica) que sea igual a uno cuando el doctor receta la aspirina e igual a cero de lo contrario. Llámala \(t_1\). ¿Qué porcentaje de los pacientes reciben aspirinas?
## [1] 73.818
  1. (5 puntos) Crea una variable que muestre la salud de todos los individuos después de que los trata el doctor. En particular, ésta será igual a t_salud para quienes fueron recetados una aspirina e igual a salud para quienes no. Llámala y_t1. ¿Cuál es la media de y_t1 para la población entera?
## [1] 1.203241

¿Para quienes recibieron la aspirina?

## [1] 1.631018

¿Para quienes no?

## [1] -0.00284093
  1. (5 puntos) Una posible estrategia para ver el efecto de la aspirina sobre la salud sería comparar la salud promedio de quienes se la tomaron contra la salud promedio de quienes no se la tomaron (esto es, \(\mathbb{E}(y_t1|aspirina)−\mathbb{E}(y_t1|no-aspirina)\)). Con base a tus respuestas en el inciso anterior, ¿cuál sería el efecto del tratamiento de acuerdo a esta metodología?
## [1] 1.633859
  1. (5 puntos) Una manera equivalente de estimar el efecto del tratamiento sería hacer una regresión donde y_t1 es la variable dependiente y donde usamos t1, nuestra variable de tratamiento, como la única variable independiente (incluyendo una constante). Estima este modelo:
## 
## Call:
## lm(formula = y_t1 ~ t1, data = experimento)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.1257 -0.9057 -0.0345  0.8697  6.4266 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.002841   0.008234  -0.345     0.73    
## t1           1.633859   0.009583 170.492   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.332 on 99998 degrees of freedom
## Multiple R-squared:  0.2252, Adjusted R-squared:  0.2252 
## F-statistic: 2.907e+04 on 1 and 99998 DF,  p-value: < 2.2e-16

¿Cuál es el coeficiente de t1?

## [1] 1.633859
  1. (5 puntos) Compara tus respuestas de los dos incisos anteriores con tu estimaci´on real del ATE. ¿Cu´al es la diferencia de las estimaciones T1 menos el ATE?
## [1] 1.633859

¿Cómo se compara con tu respuesta del inciso anterior?

Es exactamente la misma respuesta estimada de dos formas distintas.

  1. (5 puntos) Compara tus respuestas de los dos incisos anteriores con tu estimaci´on real del ATE. ¿Cu´al es la diferencia de las estimaciones T1 menos el ATE?

0.6325029

  1. (5 puntos) ¿Por qu´e difieren estas estimaciones? ¿La estimaci´on correspondiente a T1 es precisa-, sub- o sobre-estimada? ¿Por qu´e? ¿Fue una buena estrategia la de comparar las medias? Explica brevemente.

Las estimaciones difieren debido a que la asignación a tratamiento no fue aleatoria. Consecuentemente, el efecto esta sobreestimado ya que el Dr. Perfecto únicamente otorga el tratamiento a las personas que se beneficiarían (o al menos no sufrirían daño alguno) con este. Debido a ello, en este caso comparar las medias es una mala estrategia.

Pregunta 4.

4. T2: asignación aleatoria. Consideremos el siguiente escenario (T2) donde el tratamiento ya no lo asigna el doctor perfecto sino que se asigna de manera completamente aleatoria. Es decir, tú como el investigador de este proyecto decidirás quiénes deben tomar una aspirina y quienes no y lo harás de manera aleatoria.

  1. (5 puntos) Crea una variable dicotómica de manera aleatoria. Puedes usar los comandos uniform( ) y rank( ) para hacerlo. Asegúrate que la media de tu variable sea igual a 0.5, para así asegurarnos que ambos grupos tengan el mismo número de individuos. Llámala t2. Ahora, estima la media de la salud original (salud) por separado para los individuos asignados al tratamiento, t2 = 1, y para los asignados al grupo de control, t2 = 0. Las medias (a dos decimales) son:
## [1] -0.001653675

y

## [1] 0.004000203

respectivamente.

¿Hay evidencia de que la salud original esté correlacionada a la asignación del tratamiento? No. Es claro que la asignación fue aleatoria.

  1. (5 puntos) Crea una variable que muestre la salud de la población después de que los individuos asignados al tratamiento se tomen la aspirina. En particular, ésta será igual a t_salud para quienes fueron asignados aleatoriamente al tratamiento e igual a salud para quienes no. Llámala y_t2. ¿Cuál es la media de y_t2 para la población entera?
## [1] 0.5026626

¿Para quienes recibieron la aspirina?

## [1] 1.001325

¿Para quienes no?

## [1] 0.004000203
  1. (5 puntos) Nuevamente, podemos usar la estrategia de comparar la salud promedio de quienes se tomaron la aspirina contra la salud promedio de quienes no se la tomaron (esto es, \(\mathbb{E}(y-t2|aspirina)−\mathbb{E}(y-t2|no-aspirina)\). Con base a tus respuestas en el inciso anterior, ¿cuál sería el efecto del tratamiento de acuerdo a esta metodología?
## [1] 0.9973248
  1. (5 puntos) Una manera equivalente de estimar el efecto del tratamiento sería haciendo una regresión usando y t2 como la variable dependiente y t2, la nueva variable tratamiento, como la única variable independiente (además de la constante). Estima esta regresión.
## 
## Call:
## lm(formula = y_t2 ~ t2, data = experimento)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -7.0337 -0.8853 -0.0023  0.8916  6.5561 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 0.004000   0.006305   0.634    0.526    
## t2          0.997325   0.008916 111.853   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.41 on 99998 degrees of freedom
## Multiple R-squared:  0.1112, Adjusted R-squared:  0.1112 
## F-statistic: 1.251e+04 on 1 and 99998 DF,  p-value: < 2.2e-16

¿Cuál es el coeficiente de t2?

## [1] 0.9973248

¿Cómo se compara con tu respuesta del inciso anterior?

Son iguales

  1. (5 puntos) Compara tus respuestas de los dos incisos anteriores con tu estimación real del ATE. ¿Cuál es la diferencia de las estimaciones T2 y el ATE?

-0.004031347

  1. (5 puntos) ¿Por qué difieren estas estimaciones (si es que difieren)? ¿La estimación correspondiente a T2 es precisa-, sub- o sobre-estimada? ¿Por qué? ¿Fue buena estrategia comparar la salud promedio de cada grupo posterior al tratamiento en este caso? Explica brevemente.

La diferencia entre T2 y ATE tiende a cero. Si se consideran únicamente dos decimales puede decirse que las dos estimaciones son prácticamente iguales. Esto se debe a que la asignación del tratamiento fue aleatoria, por lo que en este caso si es posible estimar el ATE a partir de una sencilla resta de medias.

Pregunta 5

5. T3: interacciones con educación. Ahora vamos a considerar un tercer escenario (T3) donde el efecto del tratamiento va a variar de acuerdo al nivel educativo. En particular, el efecto del tratamiento para todos los individuos será mayor entre mayor sea su escolaridad. Podemos pensar que las indicaciones de uso son complejas y que a mayor escolaridad es más factible que se sigan correctamente.

  1. (5 puntos) Crea la variable de educación. Supongamos que en nuestra población la educación media es equivalente a haber completado la secundaria, y en particular que la escolaridad se distribuye ∼ N (9, 2). Puedes usar la función rnormal(mu,sigma2). Presenta un histograma de esta variable (Gráfica 7).

Supondremos que la educación modifica el efecto del tratamiento individual de la siguiente manera (llamaremos te salud a esta nueva variable)

te_\(salud_i=\)t_\(salud_i+0.2\rho_ixedu_i\)

donde \(\rho ∼ N[0, 1]\) y refleja el grado de aprovechamiento escolar de cada individuo.

  1. (5 puntos) Construye la variable de te_salud para cada individuo. Puedes generar \(\rho_i\) usando la función uniform(). La media de te_salud para toda la población es:
## [1] 1.899009

¿Por cuánto difiere de la media poblacional de t_salud?

## [1] 0.901298
  1. (5 puntos) Calculemos el nuevo ATE (real) tomando en cuenta el efecto de la educación. Crea la variable ate_\(edu_i\) = te_*\(salud_i − salud_i\). La media de esta variable (el ATE) es:
## [1] 1.897836
  1. (5 puntos) La media poblacional de salud sin aspirinas es
## [1] 0.001173264

y la media de salud tomando aspirinas considerando el efecto educativo es

## [1] 1.899009

¿Cuál es la diferencia entre estos promedios?

## [1] 1.897836

¿Es igual a tu estimación del inciso anterior?

Si, son iguales.

Para los siguientes incisos, supondremos que la asignación del tratamiento se hace de manera aleatoria. En particular, usaremos nuestra variable de tratamiento t2 para asignar quién debe tomarse las aspirinas.

  1. (5 puntos) Crea una variable que muestre la salud de la población después de que los individuos asignados al tratamiento se tomen la aspirina considerando los efectos de la educación. En particular, ésta será igual a te_salud para quienes fueron asignados aleatoriamente al tratamiento e igual a salud para quienes no. Llámala y_te. ¿Cuál es la media de y_te para la población entera?
## [1] 0.9528622

¿Para quienes recibieron la aspirina?

## [1] 1.901724

¿Para quienes no?

## [1] 0.004000203
  1. (5 puntos) Nuevamente, podemos usar la estrategia de comparar la salud promedio de quienes se tomaron la aspirina contra la salud promedio de quienes no se la tomaron; esto es, \(\mathbb{E}\)(y_te|aspirina)−\(\mathbb{E}\)(y_te|no_aspirina)$. Con base a tus respuestas en el inciso anterior, ¿cuál sería el efecto del tratamiento una vez que consideramos la educación de acuerdo a esta metodología?
## [1] 1.897724
  1. (5 puntos) Estima el efecto del tratamiento utilizando una regresión donde y te es la variable dependiente y t2, la nueva variable de tratamiento, como la única variable independiente y una constante. Estima esta regresión.
## 
## Call:
## lm(formula = y_te ~ t2, data = experimento)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -7.9010 -0.9007 -0.0029  0.9033  6.9144 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 0.004000   0.006551   0.611    0.541    
## t2          1.897724   0.009264 204.847   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.465 on 99998 degrees of freedom
## Multiple R-squared:  0.2956, Adjusted R-squared:  0.2956 
## F-statistic: 4.196e+04 on 1 and 99998 DF,  p-value: < 2.2e-16

¿Cuál es el coeficiente de t2?

## [1] 1.897724

¿Cómo se compara con tu respuesta del inciso anterior? Son iguales.

  1. (5 puntos) Compara tus respuestas de los dos incisos anteriores con tu estimación real del ATE. ¿Cuál es la diferencia de las estimaciones T3 y el ATE que considera la educación?

-0.0001123347

  1. (5 puntos) ¿Por qué difieren estas estimaciones (si es que difieren)? ¿La estimación correspondiente a T3 es precisa-, sub- o sobre-estimada? ¿Por qué? Explica brevemente.

Las estimaciones de T3 y ATE no difieren a dos decimales, por lo que puede afirmarse que la estimación de T3 es precisa ya que la asignación a tratamiento fue aleatoria.

Pregunta 6

6. T4: asignación correlacionada con educación. En este último escenario (T4) supondremos que (i) la educación afecta el efecto del tratamiento como en T3, pero que (ii) la asignación no es aleatoria, sino que depende del nivel educativo. En particular, supondremos que la aspirina se le da a la mitad más educada de la población (podría ser una política regresiva promovida por las élites o podríamos pensar que al ofrecerse el nuevo tratamiento la gente más educada tiende a buscarlo antes).

  1. (5 puntos) Crea una variable dicotómica t4 que sea igual a uno para la mitad de la población más educada, quienes recibirán el tratamiento, e igual a cero para el resto de la población. Usa esta variable para calcular y_t4, la cual será igual a salud para quienes no reciben aspirina y igual a te_salud para quienes sí (ya que estamos considerando que la educación potencia el tratamiento). La variable y_t4 muestra la salud que observan los investigadores una vez terminado el estudio. ¿Cuál es la salud promedio para la gente que no se asignó la aspirina?
## [1] 0.003309227

¿Para los que sí?

## [1] 2.059223

¿Cuál es la diferencia?

## [1] 2.055914
  1. (5 puntos) Estima una regresión con y_t4 como variable dependiente y t4 como variable independiente más una constante.
## 
## Call:
## lm(formula = y_t4 ~ t4, data = experimento)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -8.0585 -0.9025 -0.0021  0.9024  8.3935 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 0.003309   0.006640   0.498    0.618    
## t4          2.055914   0.009391 218.924   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.485 on 99998 degrees of freedom
## Multiple R-squared:  0.324,  Adjusted R-squared:  0.324 
## F-statistic: 4.793e+04 on 1 and 99998 DF,  p-value: < 2.2e-16

¿Cuál es el coeficiente asociado a la variable de tratamiento?

## [1] 2.055914

¿Cómo se compara con la diferencia estimada en el inciso anterior? Son iguales.

  1. (5 puntos) Compara tus respuestas de los dos incisos anteriores con tu estimación real del ATE en T3. ¿Cuál es la diferencia de las estimaciones T4 y el ATE que considera la educación?

0.158078 (d) (5 puntos) ¿Por qué difieren estas estimaciones (si es que difieren)? ¿La estimación correspondiente a T4 es precisa-, sub- o sobre-estimada? ¿Por qué? Explica brevemente.

Las estimaciones difieren porque los individuos del grupo de tratamiento en T4 tienen mayor educación, por lo que la asignación al tratamiento no es aleatoria. Por tanto, la estimación correspondiente a T4 está sobreestimada ya que la población con más educación tiene un mayor efecto de tratamiento.

  1. (5 puntos) Ahora, estima una regresión usando y_t4 como variable dependiente y t4 como variable independiente (más una constante) pero ahora agrega la variable de educacion como control.
## 
## Call:
## lm(formula = y_t4 ~ t4 + edu, data = experimento)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -8.1578 -0.9044 -0.0023  0.9043  8.3246 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.356016   0.029616  -12.02   <2e-16 ***
## t4           1.900893   0.015592  121.91   <2e-16 ***
## edu          0.048506   0.003896   12.45   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.484 on 99997 degrees of freedom
## Multiple R-squared:  0.325,  Adjusted R-squared:  0.325 
## F-statistic: 2.408e+04 on 2 and 99997 DF,  p-value: < 2.2e-16

¿Cuál es el coeficiente asociado a la variable de tratamiento?

## [1] 1.900893

¿Cuál es el coeficiente asociado a t4?

## [1] 1.900893

¿Cómo se compara (diferencia) con el ATE que considera a la educación estimado en T3?. 0.003057 Explica por qué cambian tus resultados Las estimaciones difieren ya que las personas del grupo tratamiento de T4 son las más educadas, por lo que la asignación a tratamiento no fue aleatoria. Debido a ello, cuando se incluye educación como control en la regresión, se elimina el problema de variables omitidas, haciendo que le coeficiente asociado con T4 este correctamente estimado.

Pregunta 7

7. T5: asignación imperfecta. Ahora supondremos que hay una asignación imperfecta del tratamiento (regresaremos a los supuestos originales donde la educación no afecta el efecto del tratamiento). En particular, las aspirinas se entregan de manera aleatoria (puedes volver a usar t2 para asignar el tratamiento), pero no todos los individuos que reciben las aspirinas las usan. En particular, sólo p = 0.10 de quienes reciben aspirinas se las acaban tomando. Indica con una variable dicotómica llamada t5 quiénes toman las aspirinas efectivamente. Supondremos que tomar la aspirina o no dado que se recibió una es independiente del efecto de tratamiento individual y de otras características personales.

  1. (5 puntos) Estima el efecto del tratamiento medio para quienes efectivamente tomaron las aspirinas—ATT, o average treatment on the treated (para esto, ignora la asignación original de aspirinas, t2, y enfócate más bien en t5). ATT =
## [1] 0.9979772

¿Cómo se compara con el ATE? El ATE es

## [1] 0.9979772
  1. (5 puntos) Ahora estima cuál fue el efecto de haber sido ofrecido aspirinas—ITT, o intent to treat (independientemente de si se las toman o no). ITT =
## [1] 0.09466893

¿Cómo se compara con el ATE? Es aproximadamente el 10% del ATE. ¿Cómo se relaciona con la probabilidad de tomar la aspirina, p? Son casi iguales, 0.0947 es cercano a 0.1.

  1. (5 puntos) Estima el efecto local—LATE, o local average treatment effect—el efecto para aquellos que fueron inducidos a tomar las aspirinas por la asignación original. Para ello, usa la asignación original como un instrumento para la toma de aspirina, usando mínimos cuadrados en dos etapas (2SLS). LATE =
## 
## t test of coefficients:
## 
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 0.0040002  0.0044852  0.8919   0.3725    
## t5          0.9483964  0.0664260 14.2775   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

LATE

## [1] 0.9483964

¿Cómo se compara con el ATE? Casi SON iguales, el LATE es un poco menor, ya que tiene un valor de 0.9484

  1. (5 puntos) ¿Qué pasa con tus estimaciones de los tres incisos anteriores si en lugar de que un 10% (aleatorio) de los individuos asignados al tratamiento son quienes efectivamente toman las aspirinas, los individuos que toman las aspirinas son el 10% para quienes el efecto de tratamiento (individual) es más grande (en lugar de una proporción aleatoria)? (Indica con una variable dicotómica llamada t6 quiénes toman las aspirinas efectivamente bajo este nuevo supuesto.)

ATT

## [1] 3.634159

ITT

## [1] 3.634159

LATTE

## [1] 2.741453

Discute estos resultados:

Se observa que los ATT, ITT y LATE del inciso d) son mayores a los ATT, ITT y LATE estimados en los incisos anteriores. Esto se debe a que en d) existe un sesgo hacia arriba, causado por el hecho de que el 10% de quienes toman el tratamiento son aquellos para quienes el efecto de este es mayor. Consecuentemente, los resultados del inciso d) están sobreestimados en relación con los de incisos previos.