1. Replicación: Legalización del aborto e incidencia de gonorrea


Para entender mejor estos conceptos de replicará la investigación de Cunningham y Cornwell (2013). El contexto de esta investigación está en el análisis de niños abortados si es que hubiesen llegado a su adolecencia, lo que indicaba que había un sesgo de seleción en los abortos, pues están asociados a niveles más altos de pobreza. Al investigar impactos de largo plazo, donde Donohue y Levitt (2001) llegaron a concluir que la legalización del aborto había reducido la delincuencia, lo que sin duda fué polémico.

Las principales críticas centradas en el diseño y análisis fueron por parte de Joyce (2004), Joyce (2009) y Foote y Goetz (2008), donde no pudieron replicar resultados y encontrando errores claves de codificación. Además Ted Joyce señalaba que, si fuese tan grande el efecto, también encontraría dichos efectos en otros ámbitos de la vida, como salud infantil, desarrollo de niños, escolaridad, etc.

En este contexto, Cunningham y Cornwell (2003) analizan los efectos de la legalización del aborto en la incidencia de gonorrea. Según los autores, se estudia la gonorrea porque los hogares monoparentales son factor de riesgo qu conduce a una actividad sexual más temprana y relaciones sexuales sin protección. Además, se reporta que los niños expuestos a ambientes en régimen de aborto legalizado tenían menos probabilidades de consumir sustancuas ilegales, que está correlacionado a comportamiento sexual de riesgo.

Las predicciones de Cunninhgam y corwell es que en Estados donde ha habido una revocación temprana del aborto implicaría una baja de incidencia entre jóvenes de 15 a 19 años que en los estados donde se revocó entre 1986 y 1992. Además: “En otras palabras, la hipótesis de la legalización del aborto predice un efecto parabólico del tratamiento a medida que las cohortes tratadas se mueven a través de la distribución de edades. Todos los coeficientes DD después de 1992 deberían ser cero y/o estadísticamente insignificantes”.


Parea esto se realizó la siguiente tabla con predicciones:


Si no se encuentran pruebas de una parábola negatriva durante la ventana específica de tiempo, se debería descartar esta hipótesis. Para ello comienza entregando gráficos sobre incidencia de gonorerra en mujeres afrodescendientes entre 15 a 19 años, desde 1985 hasta 200 mostrando una baja importante.

La ecuación de regresión para estimarla es:


\[Y_{st} = \beta_1Repeals + \beta_2DT_t + \beta_{3t}Repeal_s \times DT_t + X_{st}\psi + \alpha_sDS_s + \varepsilon_{st}\]

Donde \(Y\) es el logaritmo de nuevos casos de gonorrea entre personas de 15 a 19 años (por 100.000 personas); \(Repeal\) equivale a 1 si el estado legalizó el aborto previo a Roe; \(DT_t\) es una dummy por año; \(DS_s\) es una dummy del estado, \(t\) es el tiempo, \(X\) una matriz de covariables y \(\varepsilon\) el error estructural.

#-- DD estimate of 15-19 year olds in repeal states vs Roe states
library(tidyverse)
library(haven)
library(estimatr)

read_data <- function(df)
{
  full_path <- paste("https://raw.github.com/scunning1975/mixtape/master/", 
                     df, sep = "")
  df <- read_dta(full_path)
  return(df)
}

abortion <- read_data("abortion.dta") %>% 
  mutate(
    repeal = as_factor(repeal),
    year   = as_factor(year),
    fip    = as_factor(fip),
    fa     = as_factor(fa),
  )
reg <- abortion %>% 
  filter(bf15 == 1) %>% 
  lm_robust(lnr ~ repeal*year + fip + acc + ir + pi + alcohol+ crack + poverty+ income+ ur,
            data = ., weights = totpop, clusters = fip)
abortion_plot <- tibble(
  sd = reg[[2]][76:90],
  mean = reg[[1]][76:90],
  year = c(1986:2000))
abortion_plot %>% 
  ggplot(aes(x = year, y = mean)) + 
  geom_rect(aes(xmin=1986, xmax=1992, ymin=-Inf, ymax=Inf), fill = "cyan", alpha = 0.01)+
  geom_point()+
  geom_text(aes(label = year), hjust=-0.002, vjust = -0.03)+
  labs(y = "Coeficiente de estimación de Repeal x año",
         x = "Año",
         title= "Gráfico N°1: Efecto estimado de legalización del aborto en Gonorrea",
         subtitle = "Mujeres Afrodescencientes entre 15 a 19 años",
         caption = "Whisker plot son los coeficientes estimados de DD")+
  theme(axis.text = element_text(size = 10),
          axis.title= element_text(size=12,face="bold"),
          plot.title = element_text(size = 14, face = "bold"),
          plot.caption = element_text(size = 9),
          panel.grid.major = element_line(colour = "grey70", size = 0.2),
          panel.grid.minor = element_blank())+
  geom_hline(yintercept = 0) +
  geom_errorbar(aes(ymin = mean - sd*1.96, ymax = mean + sd*1.96), width = 0.2,
                position = position_dodge(0.05))


Al observar los coeficientes en el gráfico expuesto arriba, hay un efecto negativo durante la ventana donde el Roe no está capturado completamente, y el efecto negativo forma una parábola, como se había predicho.

Sin embarrgo hay que despejar explicaciones alternativas al fenómeno. Para ello se utilizaron jóvenes entre 25 a 29 años de los mismos estados como grupos de comparación dentro de los estados en lugar de jóvenes de 20 a 24 años. La idea es tener un grupo de edad que estruviera lo suficientemente cerca como para captar tendencias comunes, pero lo suficientemente lejos como para no violar la SUTVA.

A continuación se muestra el gráfico con los coeficientes estimados en el tramo etáreo.

library(tidyverse)
library(haven)
library(estimatr)

read_data <- function(df)
{
  full_path <- paste("https://raw.github.com/scunning1975/mixtape/master/", 
                     df, sep = "")
  df <- read_dta(full_path)
  return(df)
}


abortion <- read_data("abortion.dta") %>% 
  mutate(
    repeal  = as_factor(repeal),
    year    = as_factor(year),
    fip     = as_factor(fip),
    fa      = as_factor(fa),
    younger = as_factor(younger),
    yr      = as_factor(case_when(repeal == 1 & younger == 1 ~ 1, TRUE ~ 0)),
    wm      = as_factor(case_when(wht == 1 & male == 1 ~ 1, TRUE ~ 0)),
    wf      = as_factor(case_when(wht == 1 & male == 0 ~ 1, TRUE ~ 0)),
    bm      = as_factor(case_when(wht == 0 & male == 1 ~ 1, TRUE ~ 0)),
    bf      = as_factor(case_when(wht == 0 & male == 0 ~ 1, TRUE ~ 0))
  ) %>% 
  filter(bf == 1 & (age == 15 | age == 25))
regddd <- lm_robust(lnr ~ repeal*year + younger*repeal + younger*year + yr*year + fip*t + acc + ir + pi + alcohol + crack + poverty + income + ur,
                    data = abortion, weights = totpop, clusters = fip)
abortion_plot <- tibble(
  sd = regddd$std.error[110:124],
  mean = regddd$coefficients[110:124],
  year = c(1986:2000))
abortion_plot %>% 
  ggplot(aes(x = year, y = mean)) + 
  geom_rect(aes(xmin=1986, xmax=1992, ymin=-Inf, ymax=Inf), fill = "cyan", alpha = 0.01)+
  geom_point()+
  geom_text(aes(label = year), hjust=-0.002, vjust = -0.03)+
  labs(y = "Coeficiente de estimación de Repeal x 15 - 19 años \n x año",
         x = "Año",
         title= "Gráfico N°2: Efecto estimado de legalización del aborto en Gonorrea",
         subtitle = "Mujeres Afrodescencientes entre 20 a 24 años vs 25 a 29 años",
         caption = "Whisker plot son los coeficientes estimados de DDD")+
    theme(axis.text = element_text(size = 10),
          axis.title= element_text(size=12,face="bold"),
          plot.title = element_text(size = 14, face = "bold"),
          plot.caption = element_text(size = 9),
          panel.grid.major = element_line(colour = "grey70", size = 0.2),
          panel.grid.minor = element_blank())+
  geom_hline(yintercept = 0) +
  geom_errorbar(aes(ymin = mean-sd*1.96, ymax = mean+sd*1.96), width = 0.2,
                position = position_dodge(0.05))


Acá podemos ver que las predicciones comienzan a fallar. Si bien hay efectos negativos para los aós 1986 a 1990, los coeficvientes de 1991 y 1992 son positivos, lo que no concuerda con la hipótesis, sin contar que sólo los cuatro primeros coeficientes son estadísticamente significativos. Esto podría significar que la teoría original de Gruber, Levine y Staiger (1999) y Donohue con Levitt (2001) puede resistir la crítica.

La segunda línea estima la ecuación de regresión. Los coeficientes dinámicos DD son capturados por las interacciones derogación-año. Estos son los coeficientes que utilizamos para crear gráficos de caja en la Figura 9.11. Puede comprobarlos usted mismo. Puede comprobarlos usted mismo.

Tenga en cuenta que, para simplificar, sólo lo he estimado para las mujeres negras (bf15==1), pero podría estimarlo para los hombres negros (bm15==1), las mujeres blancas (wf15==1) o los hombres blancos (wm15==1). En el documento hacemos las cuatro cosas, pero aquí sólo nos centramos en las mujeres negras de 15-19 años porque el objetivo de esta sección es ayudarle a entender la estimación. Le animo a que juegue con este modelo para ver cómo de robustos son los efectos en su mente utilizando sólo esta estimación lineal.

Pero ahora quiero mostrarle el código para estimar un modelo de triple diferencia. Para esta estructura de datos hubo que hacer algunos cambios entre bastidores, pero llevaría demasiado tiempo publicarlos aquí. Por ahora, me limitaré a mostrar los comandos que producen el resultado de la mujer negra, y le animo a explorar la estructura de datos del panel para que se familiarice con la forma en que están organizados los datos.

Observe que algunas de ellas ya eran interacciones (por ejemplo, yr), que era mi forma de incluir de forma compacta todas las interacciones. Lo hice principalmente para tener más control sobre las variables que utilizaba. Pero le animo a que estudie la estructura de datos en sí para que, cuando necesite estimar su propia DDD, tenga una buena idea de la forma que deben tener los datos para poder ejecutar tantas interacciones.

2. Más allá de Cunningham y Cornwell

Para sintetizar, se hizo con un diseño DD y se observa una parábola entre 1986 y 1992, sin embargo al estimar con un diuseño DDD los efectos no son tan precisos, aunque pareciera que “ocurría algo en la vecindad general de lo que predecía el modelo”. La investigación original de Cunningham y Cdorwell llegó hasta este punbto, pero sería interesante poder avanzar un poco más allá.

En la medida en que las cohortes de principios de los 70 fueron tratadas in utero con la legalización del aborto, entonces deberíamos ver no sólo una parábola para las personas de 15 a 19 años de 1986 a 1992, sino también para las de 20 a 24 años de 1991 a 1997, a medida que las cohortes continuaban envejeciendo.

read_data <- function(df)
{
  full_path <- paste("https://raw.github.com/scunning1975/mixtape/master/", 
                     df, sep = "")
  df <- read_dta(full_path)
  return(df)
}

abortion1 <- read_data("abortion.dta") %>% 
  mutate(
    repeal = as_factor(repeal),
    year   = as_factor(year),
    fip    = as_factor(fip),
    fa     = as_factor(fa),
  )

reg <- abortion1 %>% 
  filter(race == 2 & sex == 2 & age == 20) %>% 
  lm_robust(lnr ~ repeal*year + fip + acc + ir + pi + alcohol+ crack + poverty+ income+ ur,
            data = ., weights = totpop, clusters = fip)



abortion_plot <- tibble(
  sd = reg$std.error[76:90],
  mean = reg$coefficients[76:90],
  year = c(1986:2000))

abortion_plot %>% 
  ggplot(aes(x = year, y = mean)) + 
  geom_rect(aes(xmin=1990.7, xmax=1997.3, ymin=-Inf, ymax=Inf), fill = "cyan", alpha = 0.01)+
  geom_point()+
  geom_text(aes(label = year), hjust=-0.002, vjust = -0.03)+
  labs(y = "Coeficiente de estimación de Repeal x Año",
         x = "Año",
         title= "Grafico N°3: Efecto estimado de legalización del aborto en Gonorrea",
         subtitle = "Mujeres Afrodescencientes entre 20 a 24 años",
         caption = "Whisker plot son los coeficientes estimados de DD")+
  geom_hline(yintercept = 0) +
  geom_errorbar(aes(ymin = mean-sd*1.96, ymax = mean+sd*1.96), width = 0.2,
                position = position_dodge(0.05))+
  theme(axis.text = element_text(size = 10),
          axis.title= element_text(size=12,face="bold"),
          plot.title = element_text(size = 14, face = "bold"),
          plot.caption = element_text(size = 9),
          panel.grid.major = element_line(colour = "grey70", size = 0.2),
          panel.grid.minor = element_blank())


No se había realizado un análisis de las cohortes de 20 a 24 años pues se dudaba de si había persistencia de efectos en edad adulta, sin embargo ya no tiene esa creencia por lo que realiza el análisis adicional, estimando el mismo modelo DD sólo para mujeres afrodescencientes entre 20 a 24 años.

Como vemos en el gráfico 3, hay elementos diferentes como la aparición de una parábola negativa donde antes no había. Por otro lado no había parábola en la ventana de tratamiento para dicha cohorte; esto muestra que los tamaños del efecto son negativos al principio, pero se reducne en valor absoluto cuando deberían estar creciendo. Es más, el período de 1991 a 1997 es de convergencia a cero.

read_data <- function(df)
{
  full_path <- paste("https://raw.github.com/scunning1975/mixtape/master/", 
                     df, sep = "")
  df <- read_dta(full_path)
  return(df)
}

abortion <- read_data("abortion.dta") %>% 
  mutate(
    repeal   = as_factor(repeal),
    year     = as_factor(year),
    fip      = as_factor(fip),
    fa       = as_factor(fa),
    younger2 = case_when(age == 20 ~ 1, TRUE ~ 0),
    yr2      = as_factor(case_when(repeal == 1 & younger2 == 1 ~ 1, TRUE ~ 0)),
    wm       = as_factor(case_when(wht == 1 & male == 1 ~ 1, TRUE ~ 0)),
    wf       = as_factor(case_when(wht == 1 & male == 0 ~ 1, TRUE ~ 0)),
    bm       = as_factor(case_when(wht == 0 & male == 1 ~ 1, TRUE ~ 0)),
    bf       = as_factor(case_when(wht == 0 & male == 0 ~ 1, TRUE ~ 0))
  )

regddd_20_25 <- abortion %>% 
  filter(bf == 1 & (age == 20 | age ==25)) %>% 
  lm_robust(lnr ~ repeal*year + acc + ir + pi + alcohol + crack + poverty + income + ur,
            data = ., weights = totpop, clusters = fip)

regddd_20_25_comp <- abortion %>% 
  filter(bf == 1 & (age == 20 | age ==25)) %>% 
  lm_robust(lnr ~ repeal*year*younger2 + acc + ir + pi + alcohol + crack + poverty + income + ur,
            data = ., weights = totpop, clusters = fip)


abortion_plot <- tibble(
  sd = regddd_20_25_comp$std.error[58:72],
  mean = regddd_20_25_comp$coefficients[58:72],
  year = c(1986:2000))

abortion_plot %>% 
  ggplot(aes(x = year, y = mean)) + 
  geom_rect(aes(xmin=1991, xmax=1997, ymin=-Inf, ymax=Inf), fill = "cyan", alpha = 0.01)+
  geom_point()+
  geom_text(aes(label = year), hjust=-0.002, vjust = -0.03)+
  geom_hline(yintercept = 0) +
  labs(y = "Coeficiente de estimación de Repeal x 20-24 años \n x Año estimado",
         x = "Año",
         title= "Gráfico N°4: Efecto estimado de legalización del aborto en Gonorrea",
         subtitle = "Mujeres Afrodescencientes entre 20 a 24 años  v/s 25 a 29 años",
         caption = "Whisker plot son los coeficientes estimados de DDD")+
  geom_errorbar(aes(ymin = mean-sd*1.96, ymax = mean+sd*1.96), width = 0.2,
                position = position_dodge(0.05))+
  theme(axis.text = element_text(size = 10),
          axis.title= element_text(size=12,face="bold"),
          plot.title = element_text(size = 14, face = "bold"),
          plot.caption = element_text(size = 9),
          panel.grid.major = element_line(colour = "grey70", size = 0.2),
          panel.grid.minor = element_blank())

En el gráfico 4 se muestran los coeficientes estimados de la DDD para la cohorte tratada en relación a una cohorte lijeramente mayor de 25 a 29 años. Es posible que la cohorte de “control” está demasiado cerca en edad para funcionar como un control satisfactorio, porquer si las personas entre 20 a 25 años tienen relaciones sexuales entre los de 25 a 29 años, se viola la SUTVA.

Para recapitular: la hipótesis de la legalización del aborto hizo una serie de predicciones donde se deberían observar los efectos parabólicos de esta. Y aunque al comienzo funcionó, mientras más de explotaban los datos las predicciones no fueron consistentes. Una interprertación justa del ejercicio es que el análisis no apoya la hipótesis de legalización del aborto, ya que varias estimaciones puntuales están cerca de cero o tienen errores estándar tan grandes que incluyen valores positivos como negativos.

Cunningham este apartado de análisis porque quería ilustrar el poder de una teoría con numerosas predicciones inusuales pero comprobables. Si hubiese aparecido una parábola para todos los grupos de edad precisamente en los años predichos por la teoría probablemente tendríamos que revisar los prejuicios sbre dicha teoría. Es precisamente porque las predicciones son tan específicas que se puede rechazar la hipótesis del la legalización del aborto.