Usando la ENADIN 1997 definimos conducta riesgosa aquella en donde la persona tiene sexo sin proteccion. Sea su variable de resultado = haber estado embarazada como proxy de poder estar infectada. (VIH/SIDA: Para las mujeres en edad reproductiva (15 a 49 anios) el VIH/SIDA era la principal causa de mortalidad y morbilidad en el mundo entero, OMS | Salud de la mujer, www.who.int/mediacentre/factsheets/fs334/es/index.html)

Construya un propensity usando personas en edad reproductiva y mida el impacto de T1 y T2. Para este ejercicio solo se usará un covariate (educación de la mujer).

Datos

El primer lugar es hacer el merge inicial y limpiar las variables:

library(haven)
library(kableExtra)
library(dplyr)
library(MatchIt)
data1<-read_stata("enadid97/Base ENADID97_carac-muj.dta")
data2<-read_stata("enadid97/Base ENADID97_dat-gen.dta")
data<-merge(data1,data2)
#solo nos quedamos con observaciones con todas las columnas (en stata sería "both in master and using data" )
print(nrow(data))
## [1] 77428

Preparo mis datos

data$p12_2b[is.na(data$p12_2b)] <- 0
data<-data%>% mutate(uso_preservativo=ifelse(p12_2b==1,1,0),
                    embarazada=ifelse(p9_4==3,1,0),
                    escuchado_preservativo=ifelse(p12_1b==1|p12_1b==2 ,1,0),
                    estudio=p5_4b)



kable(data%>%
  select(embarazada,uso_preservativo,escuchado_preservativo) %>% group_by (embarazada) %>%
  summarise( mean_uso=mean(uso_preservativo),
            mean_escuchado=mean(escuchado_preservativo)))
## `summarise()` ungrouping output (override with `.groups` argument)
embarazada mean_uso mean_escuchado
0 0.0285533 0.8791549
1 0.1830153 0.9040519

Esta tabla nos dice que la gente que se embarazó tiene menor proabilidad de haber usado condon y de haber escuchado condón. Asimismo, parece que la diferencia en uso es considerablemebte más grande y la diferencia en escuchado es demasiado pequeña, tal vez no significativa. Asimismo, notamos una mayor prevalencia en haber escuchado sobre el uso del condón, que haber usado.

Ejercicio 1: T= usó persevativo

Visualizo la distribucion del tratamiento condicional a mi variable de interes(años de estudio)

hist(data[data$uso_preservativo == 1,]$estudio)

hist(data[data$uso_preservativo == 0,]$estudio)

Realizo el matching, con un p_score logit.

#match it
#primero quito omisiones
data_nomiss<- data %>% select(uso_preservativo,estudio,embarazada)%>% na.omit()
#hago match
mod_match<-matchit(uso_preservativo~estudio,method="nearest",data=data_nomiss)
dta_m<-match.data(mod_match)
#summary
summary(mod_match)
## 
## Call:
## matchit(formula = uso_preservativo ~ estudio, data = data_nomiss, 
##     method = "nearest")
## 
## Summary of Balance for All Data:
##          Means Treated Means Control Std. Mean Diff. Var. Ratio eCDF Mean
## distance        0.1455        0.1371          0.2338     1.3054    0.0387
## estudio         3.2841        2.9367          0.2450     1.2337    0.0387
##          eCDF Max
## distance   0.1129
## estudio    0.1129
## 
## 
## Summary of Balance for Matched Data:
##          Means Treated Means Control Std. Mean Diff. Var. Ratio eCDF Mean
## distance        0.1455        0.1455               0          1         0
## estudio         3.2841        3.2841               0          1         0
##          eCDF Max Std. Pair Dist.
## distance        0               0
## estudio         0               0
## 
## Percent Balance Improvement:
##          Std. Mean Diff. Var. Ratio eCDF Mean eCDF Max
## distance             100        100       100      100
## estudio              100        100       100      100
## 
## Sample Sizes:
##           Control Treated
## All         63047   10118
## Matched     10118   10118
## Unmatched   52929       0
## Discarded       0       0

Finalmente probamos el TONT antes y después.

#probamos sin matching
with(data, t.test(uso_preservativo~embarazada))
## 
##  Welch Two Sample t-test
## 
## data:  uso_preservativo by embarazada
## t = -77.586, df = 76645, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.1583641 -0.1505600
## sample estimates:
## mean in group 0 mean in group 1 
##      0.02855327      0.18301529
#probamos con matching
with(dta_m, t.test(uso_preservativo~embarazada))
## 
##  Welch Two Sample t-test
## 
## data:  uso_preservativo by embarazada
## t = -70.493, df = 10754, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.4704759 -0.4450190
## sample estimates:
## mean in group 0 mean in group 1 
##       0.1502200       0.6079674

En este caso vemos que la proporcion de gente que usa preservativo aumento en cada grupo y el aumento fue grande en ambos. La diferencia pasó del 15% al 45%. Esto es indicio de que en realidad hay poca gente que usa condón en ambos grupos y que de esta poca gente, el embarazo es menor.

Ejercicio 2: T= ha escuchado del perservativo

Visualizo la distribucion del tratamiento condicional a mi variable de interes(años de estudio)

hist(data[data$escuchado_preservativo == 1,]$estudio)

hist(data[data$escuchado_preservativo == 0,]$estudio)

Realizo el matching, con un p_score logit.

#match it
#primero quito omisiones
data_nomiss<- data %>% select(escuchado_preservativo,estudio,embarazada)%>% na.omit()
#hago match
mod_match<-matchit(escuchado_preservativo~estudio,method="nearest",data=data_nomiss)
## Warning: Fewer control units than treated units; not all treated units will get
## a match.
dta_m<-match.data(mod_match)
#summary
summary(mod_match)
## 
## Call:
## matchit(formula = escuchado_preservativo ~ estudio, data = data_nomiss, 
##     method = "nearest")
## 
## Summary of Balance for All Data:
##          Means Treated Means Control Std. Mean Diff. Var. Ratio eCDF Mean
## distance        0.9197        0.8623          0.8516     0.5957    0.1049
## estudio         3.0647        2.1262          0.7148     2.8980    0.1049
##          eCDF Max
## distance   0.4351
## estudio    0.4351
## 
## 
## Summary of Balance for Matched Data:
##          Means Treated Means Control Std. Mean Diff. Var. Ratio eCDF Mean
## distance        0.9974        0.8623          2.0056      0.000    0.4399
## estudio         6.0988        2.1262          3.0257      0.318    0.4399
##          eCDF Max Std. Pair Dist.
## distance   0.9904          2.0056
## estudio    0.9904          3.0257
## 
## Percent Balance Improvement:
##          Std. Mean Diff. Var. Ratio eCDF Mean eCDF Max
## distance          -135.5    -1898.9    -319.4   -127.6
## estudio           -323.3       -7.7    -319.4   -127.6
## 
## Sample Sizes:
##           Control Treated
## All          6234   66931
## Matched      6234    6234
## Unmatched       0   60697
## Discarded       0       0

Realizo una comparación del TONT antes y después

#probamos sin matching
with(data, t.test(escuchado_preservativo~embarazada))
## 
##  Welch Two Sample t-test
## 
## data:  escuchado_preservativo by embarazada
## t = -10.268, df = 45500, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.02964959 -0.02014439
## sample estimates:
## mean in group 0 mean in group 1 
##       0.8791549       0.9040519
#probamos con matching
with(dta_m, t.test(escuchado_preservativo~embarazada))
## 
##  Welch Two Sample t-test
## 
## data:  escuchado_preservativo by embarazada
## t = 2.7364, df = 11999, p-value = 0.006221
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  0.006983841 0.042255547
## sample estimates:
## mean in group 0 mean in group 1 
##       0.5135183       0.4888986

En cuanto haber escuchado del uso del preservativo, notamos el efecto opuesto, vemos que la proporcion de gente disminuye en ambos grupos, lo que es indicio de que el matching condicionado a educacion expandió a la cantidad de personas que no habian escuchado del condón. Lo interesante esque el signo cambio y la significancia disminuyó considerablemente.

Conclusión

El p_score es muy sensible a las covariates que uno elija, Se debe tener mucho cuidado. En este caso, es mejor tratamiento el uso del preservativo que el solo haber escuchado del uso porque el primero tiene una relación directa inmediata. Asimismo, la variable solo haber escuchado del uso del preservativo es muy ruidosa porque la prevalencia es muy alta y similar entre ambos grupos de mujeres (embarazo=1 y 0).