Introduccion
La inferencia causal es una metodología estadística y analítica que
busca identificar relaciones de causa y efecto entre variables, más allá
de simples correlaciones. Su objetivo es responder preguntas del tipo
“¿qué pasaría si…?”, permitiendo estimar el impacto de una intervención
o cambio en una variable sobre otra. Esta técnica es ampliamente
utilizada en campos como la economía, la medicina, las ciencias
sociales, el marketing y el aprendizaje automático, donde es crucial
entender cómo ciertas acciones o políticas influyen en los resultados
observados. Por ejemplo, puede emplearse para evaluar el efecto de una
política pública, el impacto de un tratamiento médico o el rendimiento
de una estrategia comercial.
En este caso, asumiremos que a unos investigadores les interesa saber
si el uso de mosquiteros disminuye el riesgo de que una persona
contraiga malaria. Para ello han recopilado datos de 1.752 hogares en un
país sin nombre y tienen variables relacionadas con los factores
ambientales, salud individual y las características de los hogares.
Además, este país tiene un programa especial que proporciona mosquiteros
gratuitos a los hogares que cumplen con requisitos específicos: para
calificar para el programa, debe haber más de 4 miembros del hogar, y el
ingreso mensual del hogar debe ser inferior a 700 dólares al mes. Los
hogares no se inscriben automáticamente en el programa, y muchos no lo
usan. Los datos no son experimentales - los investigadores no tienen
control sobre quién usa los mosquiteros, y los hogares individuales
toman sus propias decisiones sobre si solicitan mosquiteros gratuitos o
compran sus propios mosquiteros, así como si usan los mosquiteros si los
tienen.
Importamos
librerias
library(dagitty) # Para crear, analizar y evaluar diagramas causales (DAGs)
library(ggdag) # Extensión de ggplot2 para visualizar y personalizar DAGs
library(tidyverse) # Conjunto de herramientas para manipulación, transformación y análisis de datos
library(ggplot2) # Para crear gráficos elegantes y personalizables en R
library(MatchIt) # Para realizar emparejamiento de muestras (matching) en análisis causal
library(XReg) # Salida de modelos de regresion
library(texreg) # Resumen y comparaciones de modelos
Modelamos DAG (Diagram
Aclyclic Graph)
mosquito_dag <- dagify(
riesgo_malaria ~ red + ingreso + salud + temperatura + resistencia,
red ~ ingreso + salud + temperatura + elegible + hogar,
elegible ~ ingreso + hogar,
salud ~ ingreso,
exposure = "red",
outcome = "riesgo_malaria",
coords = list(x = c(riesgo_malaria = 7, red = 3, ingreso = 4, salud = 5,
temperatura = 6, resistencia = 8.5, elegible = 2, hogar = 1),
y = c(riesgo_malaria = 2, red = 2, ingreso = 3, salud = 1,
temperatura = 3, resistencia = 2, elegible = 3, hogar = 2)),
labels = c(riesgo_malaria = "Riesgo de malaria", red = "Mosquitero", ingreso = "Ingreso",
salud = "Salud", temperatura = "temperaturas nocturnas",
resistencia = "Resistencia a insecticidas",
elegible = "Eligible para el programa", hogar = "Miembros en el hogar")
)
ggdag_status(mosquito_dag, use_labels = "label", text = FALSE) +
theme_dag()

Este código en R construye y visualiza un grafo acíclico dirigido
(DAG, por sus siglas en inglés) que representa relaciones causales
hipotéticas entre variables relacionadas con el riesgo de malaria.
Utiliza la función dagify() para definir cómo se cree que las variables
están causalmente conectadas: por ejemplo, el uso de mosquiteros (red)
depende de factores como ingreso, salud, temperatura, elegibilidad y
tamaño del hogar, y a su vez influye en el riesgo de malaria
(riesgo_malaria). Se especifican las variables de exposición (red) y
resultado (riesgo_malaria), así como las coordenadas para su
visualización y etiquetas descriptivas. Finalmente, ggdag_status()
genera un gráfico que muestra el estado de las variables en el DAG, útil
para analizar supuestos de identificación causal y planear estrategias
de estimación.
Cada nodo en el DAG es una columna en la base de datos recogida por
los investigadores, e incluye lo siguiente:
Riesgo de malaria (malaria_risk): La probabilidad de
que alguien en el hogar se infecte con malaria. Se mide en una escala de
0-100, con valores más altos que indican un mayor riesgo.
Mosquitero ((net and net_num): Una variable binaria
que indica si el hogar utiliza mosquiteros.
Elegible para el programa (eligible): Una variable
binaria que indica si el hogar es elegible para el programa de
mosquiteros gratuitos.
Ingresos (income): Los ingresos mensuales del hogar,
en dólares americanos.
Temperaturas nocturnas (temperature): La temperatura
media nocturna, en grados centígrados.
Salud (health): La salud de la familia se declarada
por sus propios miembros. Medido en una escala de 0-100, con valores más
altos que indican mejor salud.
Número en el hogar (household): Número de personas
que viven en el hogar.
Resistencia a los insecticidas (resistance): Algunas
cepas de mosquitos son más resistentes a los insecticidas y, por lo
tanto, suponen un mayor riesgo de infectar a las personas con malaria.
Esto se mide en una escala de 0-100, con valores más altos que indican
una mayor resistencia.
Según el DAG, el riesgo de contraer malaria es causado por los
ingresos, las temperaturas, la salud, la resistencia a los insecticidas
y el uso de mosquiteros. Las personas que viven en regiones más cálidas,
tienen ingresos más bajos, tienen peor salud, están rodeadas de
mosquitos con alta resistencia a los insecticidas y los que no utilizan
mosquiteros corren un riesgo mayor de contraer malaria que los que los
utilizan. El uso de los mosquiteros se explica por los ingresos, las
temperaturas nocturnas, la salud, el número de personas que viven en la
vivienda y la elegibilidad para el programa de mosquiteros gratuitos.
Las personas que viven en zonas más frescas por la noche, tienen
ingresos más altos, mejor salud, tienen más personas en el hogar, y son
elegibles para los mosquiteros gratuitos del gobierno, tienen más
probabilidades de usar regularmente los mosquiteros. El DAG también
muestra que la elegibilidad para el programa de mosquiteros gratuitos se
explica por los ingresos y el tamaño de los núcleos familiares, ya que
los hogares deben cumplir con umbrales específicos para calificar.
Cargamos la base de
datos
load("~/Library/Mobile Documents/com~apple~CloudDocs/Cursos/Causal Inference/Causal Inference in R/R for political data science/data/mosquito_nets.rda")
glimpse(mosquito_nets)
Rows: 1,752
Columns: 10
$ id <dbl> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28,…
$ net <lgl> TRUE, FALSE, FALSE, TRUE, FALSE, FALSE, TRUE, FALSE, FALSE, FALSE, FALSE, TRUE, TRUE, FALSE, FALSE, TR…
$ net_num <dbl> 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 1, 0, …
$ malaria_risk <dbl> 33, 42, 80, 34, 44, 25, 19, 35, 32, 40, 30, 14, 31, 34, 22, 54, 23, 41, 37, 65, 59, 59, 41, 21, 25, 27…
$ income <dbl> 781, 974, 502, 671, 728, 1050, 1146, 1093, 1037, 828, 889, 1133, 807, 950, 1195, 594, 936, 816, 962, 4…
$ health <dbl> 56, 57, 15, 20, 17, 48, 65, 75, 60, 36, 75, 62, 42, 53, 90, 29, 47, 30, 55, 6, 36, 30, 45, 64, 62, 75,…
$ household <dbl> 2, 4, 3, 5, 5, 1, 3, 5, 3, 3, 6, 3, 4, 3, 1, 5, 2, 1, 2, 6, 5, 4, 3, 7, 3, 4, 3, 3, 2, 2, 6, 5, 4, 4, …
$ eligible <lgl> FALSE, FALSE, FALSE, TRUE, FALSE, FALSE, FALSE, FALSE, FALSE, FALSE, FALSE, FALSE, FALSE, FALSE, FALSE…
$ temperature <dbl> 21.1, 26.5, 25.6, 21.3, 19.2, 25.3, 27.4, 29.8, 27.6, 21.3, 17.4, 18.9, 27.6, 24.0, 24.5, 25.5, 26.1, …
$ resistance <dbl> 59, 73, 65, 46, 54, 34, 45, 65, 55, 54, 33, 39, 37, 53, 34, 55, 32, 73, 54, 38, 51, 43, 53, 51, 33, 37…
Analisamos las
independencias condicionales
El comando impliedConditionalIndependencies()
se utiliza
en el paquete dagitty en R para analizar un DAG (Gráfico Acíclico
Dirigido).Este comando identifica las independencias condicionales que
deberían existir en el modelo, basándose en su estructura. Teniendo en
cuenta que el signo se interpreta como independencia ⊥
.
Cuando dos variables son independientes incondicionalmente, significa
que no tienen relación directa o indirecta, y conocer el valor de una no
proporciona información sobre la otra. Por ejemplo, si A y B son
incondicionalmente independientes, el conocimiento de A no afecta
nuestra predicción sobre B. Por otro lado, dos variables son
independientes condicionalmente si dejan de estar relacionadas al
conocer el valor de una tercera variable C. En este caso, A y B pueden
estar correlacionadas inicialmente, pero esa correlación desaparece al
controlar por C.
Primero, verificar independecias condicionales
impliedConditionalIndependencies(mosquito_dag)
elgb _||_ rsst
elgb _||_ rsg_ | ingr, red, sald, tmpr
elgb _||_ sald | ingr
elgb _||_ tmpr
hogr _||_ ingr
hogr _||_ rsst
hogr _||_ rsg_ | ingr, red, sald, tmpr
hogr _||_ sald
hogr _||_ tmpr
ingr _||_ rsst
ingr _||_ tmpr
red _||_ rsst
rsst _||_ sald
rsst _||_ tmpr
sald _||_ tmpr
las independencias incondicionales (como elgb || rsst)
significan que, basándonos en la estructura del DAG, las variables
“Eligible para el programa” (elegible) y “Resistencia a insecticidas”
(resistencia) no tienen una relación directa o indirecta; conocer el
estado de una no cambia nada sobre la otra. Por otro lado, las
independencias condicionales (como elgb || sald | ingr) indican
que, aunque podría haber una relación entre “Elegible” y “Salud”, esta
relación desaparece si conocemos “Ingreso”, que actúa como variable de
ajuste.
Segundo, validamos correlación entre las
variables
# Elegible ⊥ resistencia
cor(mosquito_nets$eligible,mosquito_nets$resistance)
[1] 0.01234798
# Elegible ⊥ temperatura
cor(mosquito_nets$eligible,mosquito_nets$temperature)
[1] -0.02092867
# Miembros Hogar ⊥ Ingreso
cor(mosquito_nets$household,mosquito_nets$income)
[1] 0.008606828
# Miembros Hogar ⊥ Resistencia
cor(mosquito_nets$household,mosquito_nets$resistance)
[1] 0.02036479
# Miembros Hogar ⊥ Salud
cor(mosquito_nets$household,mosquito_nets$health)
[1] 0.00009785337
# Miembros Hogar ⊥ temperatura
cor(mosquito_nets$household,mosquito_nets$temperature)
[1] -0.02355615
# Ingreso ⊥ resistencias
cor(mosquito_nets$income,mosquito_nets$resistance)
[1] 0.01371297
# Ingreso ⊥ temperatura
cor(mosquito_nets$income,mosquito_nets$temperature)
[1] 0.1145676
# Red ⊥ resistencia
cor(mosquito_nets$net_num,mosquito_nets$resistance)
[1] 0.01677202
# resistencia ⊥ salud
cor(mosquito_nets$resistance,mosquito_nets$health)
[1] 0.007841029
# resistencia ⊥ temperatura
cor(mosquito_nets$resistance,mosquito_nets$temperature)
[1] -0.02198524
# salud ⊥ temperatura
cor(mosquito_nets$health,mosquito_nets$temperature)
[1] 0.1199855
Podemos que observar que la correlación entre las variables
independientes incondicionadas es significativamente bajas. Sugiriendo
la ausencia de dependencias entre ellas
Evaluamos la
independencia condicional
El riesgo de malaria debe ser independiente del número de miembros de
la familia, dado que los niveles de salud, ingresos, uso de mosquiteros
y temperaturas nocturnas son similares.
No podemos utilizar cor() para probar esta implicación, ya que hay
muchas variables en juego, pero podemos utilizar un modelo de regresión
para comprobar si el número de miembros del hogar está
significativamente relacionado con el riesgo de malaria
# Riesgo de malaria ⊥ Miembros en el hogar| Salud, Ingreso, Uso de la red, Temperatura:
lm(malaria_risk ~ household + health + income + net_num + temperature,
data = mosquito_nets) %>%
summary()
Call:
lm(formula = malaria_risk ~ household + health + income + net_num +
temperature, data = mosquito_nets)
Residuals:
Min 1Q Median 3Q Max
-13.1458 -3.9117 -0.5715 3.3512 16.4438
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 76.206730 0.965788 78.906 <0.0000000000000002 ***
household -0.015453 0.089311 -0.173 0.863
health 0.148337 0.010672 13.900 <0.0000000000000002 ***
income -0.075144 0.001036 -72.563 <0.0000000000000002 ***
net_num -10.437014 0.266500 -39.163 <0.0000000000000002 ***
temperature 1.005790 0.030964 32.483 <0.0000000000000002 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 5.245 on 1746 degrees of freedom
Multiple R-squared: 0.8852, Adjusted R-squared: 0.8848
F-statistic: 2692 on 5 and 1746 DF, p-value: < 0.00000000000000022
No es significativo (t= −0.17, p = 0.863), lo que significa que los
dos son independientes, como se esperaba. Por lo tanto, la variable
riesgos de malaria es independiente a la variable miembros del
hogar.
Si hay correlaciones sustanciales y significativas entre los nodos
que deberían ser independientes, es probable que haya un problema con la
especificación del DAG.
Para este ejemplo en concreto hemos validado que no hay dependencia
significativas y que nuestro DAG calcula la realizad del modelo.
Econtramos el set de
ajuste
Existe una vía directa entre el uso de mosquiteros y el riesgo de
contraer malaria, pero el efecto no se identifica causalmente debido a
otras varias vías abiertas. Podemos dejar que R encuentre los sets de
ajuste apropiados automáticamente:
# Comando para evualuar los caminos del DAG
paths(mosquito_dag)
$paths
[1] "red -> riesgo_malaria"
[2] "red <- elegible <- ingreso -> riesgo_malaria"
[3] "red <- elegible <- ingreso -> salud -> riesgo_malaria"
[4] "red <- hogar -> elegible <- ingreso -> riesgo_malaria"
[5] "red <- hogar -> elegible <- ingreso -> salud -> riesgo_malaria"
[6] "red <- ingreso -> riesgo_malaria"
[7] "red <- ingreso -> salud -> riesgo_malaria"
[8] "red <- salud -> riesgo_malaria"
[9] "red <- salud <- ingreso -> riesgo_malaria"
[10] "red <- temperatura -> riesgo_malaria"
$open
[1] TRUE TRUE TRUE FALSE FALSE TRUE TRUE TRUE TRUE TRUE
$paths
Muestra todas las rutas (causales, indirectas, espurias) entre
variables en el DAG. Esto es útil para visualizar cómo las variables
están conectadas directa e indirectamente.
$open
La lista $open indica si las rutas están abiertas o cerradas. Las
rutas [4], [5] están cerradas (FALSE), lo que sugiere que están
bloqueadas por el control de ciertas variables. Para entender, la ruta 4
está cerrada por la variable elegibles, ya que no permite el flujo de
ingreso (variable confusa) a la variable tratamiento a pesar de que si
tiene influencia en el outcome.
Una ruta se determina abierta o cerrada dependiendo si permite el
flujo causal. Es decir, una ruta es abierta (TRUE) si hay relación entre
la exposición (tratamiento) y el resultado (outcome), ya sea por medio
de una variable confusor o de forma directa como la ruta 1.
El siguente comando identifica las variables que deben ajustarse para
obtener una estimación no sesgada del efecto causal. Las variables de
ajuste son aquellas que “cierran” las rutas de confusión, permitiendo
analizar el efecto directo entre las variables de interés.
El efecto de confusión ocurre cuando la relación observada entre dos
variables está influenciada por una tercera variable (llamada confusor)
que afecta tanto a la variable independiente (exposición) como a la
variable dependiente (resultado). Este efecto puede distorsionar o
sesgar la estimación del efecto causal, llevando a conclusiones
incorrectas.
# Variables necesarias para controlar efecto de confusion
adjustmentSets(mosquito_dag)
{ ingreso, salud, temperatura }
Basándose en las relaciones entre todos los nodos del DAG, el ajuste
por salud, ingresos y temperatura es suficiente para cerrar todas las
puertas traseras e identificar la relación entre el uso de la red y el
riesgo de malaria. Es importante destacar que no tenemos que
preocuparnos por ninguno de los nodos relacionados con el programa
gubernamental de redes gratuitas, ya que esos nodos no están d
conectados con el riesgo de malaria. Sólo tenemos que preocuparnos por
las relaciones de confusión.
Esto significa que, para estimar correctamente el efecto causal de la
exposición (por ejemplo, red) sobre el resultado (por ejemplo,
riesgo_malaria), es necesario controlar (o ajustar) por las variables
ingreso, salud, y temperatura, ya que estas variables influyen tanto en
el tratamiento (red) como en el resultado (malaria), bajo el termino en
ingles confounder
.
Podemos confirmar esto gráficamente con ggdag_adjustment_set():
ggdag_adjustment_set(mosquito_dag, shadow = TRUE,
use_labels = "label", text = FALSE)

Estimación ingenua no
ajustada
Primero, podemos ver cuál es la relación entre el
uso de mosquiteros y el riesgo de malaria en ausencia de cualquier
ajuste. Si creamos un cuadro de la distribución del riesgo de malaria
entre las personas que usan y no usan mosquiteros, vemos que el riesgo
medio es sustancialmente menor entre los que usan mosquiteros
ggplot(mosquito_nets, aes(x = net, y = malaria_risk)) +
geom_boxplot()

Podemos ejecutar un simple modelo de regresión para medir la
diferencia promedio exacta:
model_naive <- lm(malaria_risk ~ net, data = mosquito_nets)
tbl_regression(model_naive)
G1;H1;Errorh in tbl_regression(model_naive) :
could not find function "tbl_regression"
Error during wrapup: not that many frames on the stack
Error: no more error handlers available (recursive errors?); invoking 'abort' restart
g
Call:
lm(formula = malaria_risk ~ net, data = mosquito_nets)
Residuals:
Min 1Q Median 3Q Max
-26.937 -9.605 -1.937 7.063 55.395
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 41.9365 0.4049 103.57 <0.0000000000000002 ***
netTRUE -16.3315 0.6495 -25.15 <0.0000000000000002 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 13.25 on 1750 degrees of freedom
Multiple R-squared: 0.2654, Adjusted R-squared: 0.265
F-statistic: 632.3 on 1 and 1750 DF, p-value: < 0.00000000000000022
Según este modelo, parece que el uso de un mosquitero está asociado
con una disminución de 16 puntos en el riesgo de malaria. Sin embargo,
este no es el efecto causal. Este es un caso en el que la correlación no
es igual a la causalidad. Otros factores como los ingresos, la salud y
las temperaturas confunden la relación entre el uso de los mosquiteros y
el riesgo
Regresiones
Una forma rápida y fácil de tratar de ajustar las variables de
confusión es incluirlas como covariables en una regresión lineal. A
primera vista, esto tiene sentido intuitivo: el objetivo del ajuste es
comparar los nodos de tratamiento y de resultado con los mismos valores
de los diversos confusores, y el propósito de la regresión múltiple es
explicar la variación del resultado manteniendo constantes las
diferentes variables explicativas. Sin embargo, hacer ajustes de
confusión con la regresión lineal dará como resultado relaciones
causales correctamente identificadas sólo en circunstancias muy
específicas. Para que el ajuste basado en la regresión funcione, las
relaciones entre todos los nodos de tratamiento, resultado y confusión
deben ser lineales, lo cual es difícil de probar y verificar con datos
de observación reales. Casi siempre es mejor utilizar una de las otras
técnicas de ajuste que se describen a continuación (matching o
ponderación de probabilidad inversa), ya que esos métodos no se basan en
el supuesto de la linealidad.
model_regression <- lm(malaria_risk ~ net + income + temperature + health,
data = mosquito_nets)
summary(model_regression)
Call:
lm(formula = malaria_risk ~ net + income + temperature + health,
data = mosquito_nets)
Residuals:
Min 1Q Median 3Q Max
-13.143 -3.915 -0.561 3.333 16.461
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 76.159901 0.926835 82.17 <0.0000000000000002 ***
netTRUE -10.441932 0.264906 -39.42 <0.0000000000000002 ***
income -0.075144 0.001035 -72.58 <0.0000000000000002 ***
temperature 1.005855 0.030953 32.50 <0.0000000000000002 ***
health 0.148362 0.010668 13.91 <0.0000000000000002 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 5.244 on 1747 degrees of freedom
Multiple R-squared: 0.8852, Adjusted R-squared: 0.8849
F-statistic: 3366 on 4 and 1747 DF, p-value: < 0.00000000000000022
Según estos resultados, el uso de un mosquitero causa una disminución
de 10.44 puntos en el riesgo de paludismo, en promedio. Nótese que
debido a que hemos ajustado los confusores, ahora podemos usar
justificadamente el lenguaje causal en lugar de hablar simplemente de
asociaciones.
Podemos hablar de causalidad después de una regresión lineal cuando
se han ajustado los confusores porque estos se incorporan explícitamente
como variables adicionales en el modelo. Al incluirlos, se controla
estadísticamente su influencia tanto sobre la variable independiente
como sobre la dependiente, lo que permite “bloquear” los caminos
espurios que podrían generar asociaciones engañosas. Este ajuste se
realiza al estimar el efecto de la variable de interés mientras se
mantienen constantes los confusores, lo que simula un escenario de
intervención. Así, el coeficiente estimado refleja el efecto directo de
la variable explicativa sobre la respuesta, justificando el uso de
lenguaje causal.
Emparejamiento
(Matching)
El principal problema de utilizar datos de observación en lugar de
datos experimentales es que las personas que utilizaron un mosquitero lo
hicieron sin ser asignadas a un grupo de tratamiento. Las
características individuales llevaron a las personas a
auto-seleccionarse para el tratamiento, lo que hace que las personas que
usaron mosquiteros sean esencialmente diferentes de las que no lo
hicieron. Gracias al DAG, conocemos muchos de los factores que causaron
que la gente eligiera usar los mosquiteros: ingresos, salud y
temperatura.
El objetivo del código es emparejar las observaciones del dataset
mosquito_nets entre los grupos tratados (personas que recibieron una red
antimosquitos, representado por net) y no tratados, basándose en las
covariables income, temperature, y health. Este emparejamiento busca
reducir el sesgo al balancear las covariables entre los dos grupos para
estimar correctamente el efecto del tratamiento (net).
Nota: recordemos que una covariable es una
característica o variable que puede influir tanto en el tratamiento como
en el resultado que se quiere estudiar.
El emparejamiento en el código que emplea MatchIt se basa en la idea
de crear grupos tratados y no tratados que sean comparables entre sí.
Esto se logra al seleccionar observaciones de ambos grupos que sean
similares en términos de las covariables que podrían confundir la
relación entre el tratamiento (net) y el resultado. Este proceso emula
un experimento controlado aleatorizado en un estudio observacional
Ejemplo de MatchIt: un ejemplo sencillo para
ilustrar el emparejamiento con covariables:
Imagina que estás evaluando si entregar una red antimosquitos
(tratamiento) mejora la salud de las personas (resultado). Sin embargo,
las personas con mayor ingreso (income) o que viven en zonas con más
mosquitos (temperature) podrían tener más probabilidades de recibir la
red y también de tener mejor o peor salud, independientemente del
tratamiento. Entonces, si comparas directamente a tratados y no
tratados, podrías confundir el efecto real de la red con el efecto de
esas otras variables.
Para evitar eso, el emparejamiento busca, por ejemplo, una persona
tratada con ingreso de $500, temperatura de 28°C y salud regular, y la
empareja con una persona no tratada con características muy similares.
Así, al comparar sus resultados de salud, puedes atribuir con mayor
confianza cualquier diferencia al efecto de la red, porque las otras
condiciones están equilibradas. Esto es lo que se busca al emular un
experimento aleatorizado en un estudio observacional.
Continuado con el analisis
La similitud se mide utilizando la distancia de Mahalanobis, que
calcula la distancia multidimensional entre observaciones considerando
las correlaciones y escalas de las covariables. Observaciones más
cercanas en esta métrica son consideradas más similares.
# Indicamos semilla de reproducibilidad
set.seed(123)
# Indicamos modelo de emparejamiento
matched <- matchit(net ~ income + temperature + health, # Definir covariables
data = mosquito_nets, # Definir conjunto de datos
method = "nearest", # Emperejamiento por vecinos mas cercanos
distance = "mahalanobis", # Tipo de distancia multidimensional
replace = TRUE # permitir reutilizacion para emparejamiento
)
summary(matched)
Call:
matchit(formula = net ~ income + temperature + health, data = mosquito_nets,
method = "nearest", distance = "mahalanobis", replace = TRUE)
Summary of Balance for All Data:
Summary of Balance for Matched Data:
Sample Sizes:
Este código realiza un emparejamiento entre personas que recibieron
una red antimosquitos y las que no, utilizando el paquete MatchIt en R.
Lo hace comparando las covariables income, temperature y health, que
podrían influir tanto en la asignación del tratamiento como en el
resultado. Usa el método de vecinos más cercanos (method = “nearest”)
con la distancia de Mahalanobis, que considera la correlación entre
variables, para encontrar pares lo más similares posible. Además,
permite que una misma persona no tratada sea reutilizada en varios
emparejamientos (replace = TRUE), lo que mejora la calidad del
emparejamiento cuando hay pocos controles disponibles. El objetivo es
crear grupos comparables y reducir el sesgo para estimar el efecto
causal del tratamiento.
En el resultado de Sample Sizes
tenemos que:
Había 1071 controles y 681 tratados antes del
emparejamiento.
Se utilizaron 436 observaciones del grupo control para emparejar
a las 681 del grupo tratado.
Dado que replace = TRUE, algunas observaciones del grupo control
se reutilizaron para emparejar a varios tratados.
635 observaciones del grupo control no pudieron ser emparejadas.
Discarded:
No se descartaron observaciones en este análisis.
El valor Matched (ESS), o Tamaño Efectivo de la Muestra (por sus
siglas en ingles), representa una estimación ajustada del número de
unidades de control emparejadas, teniendo en cuenta que algunas de ellas
pueden haber sido reutilizadas varias veces durante el emparejamiento
(porque se usó replace = TRUE). Aunque el número real de controles
emparejados fue 436, el ESS fue de 320.94, lo que indica que la
reutilización de controles reduce la diversidad efectiva del grupo de
comparación, y por tanto, el poder estadístico del análisis. Es una
forma más precisa de reflejar cuánta “información independiente” se
tiene realmente en el grupo de control emparejado
El emparejamiento fue exitoso, logrando balancear las covariables
entre los dos grupos, lo que permitirá estimar el efecto del tratamiento
(net) con menor sesgo.
Ahora,podemos crear una nueva base de datos basada en este matching
con la función match.data()
. Observa cómo ahora hay sólo
1117 filas en lugar de 1752, ya que hemos descartado las observaciones
no emparejadas. También ahora hay una nueva columna llamada weights. La
función matchit()
asigna a los pares de observaciones
emparejadas diferentes pesos dependiendo de lo cerca o lejos que estén
los emparejamientos en un intento de controlar la variación de la
distancia. Podemos utilizar estos pesos en nuestro modelo de regresión
para mejorar nuestra estimación del efecto causal
mosquito_nets_matched <- match.data(matched)
glimpse(mosquito_nets_matched)
Rows: 1,117
Columns: 11
$ id <dbl> 1, 3, 4, 5, 6, 7, 8, 11, 12, 13, 14, 16, 17, 20, 22, 23, 24, 25, 27, 28, 31, 33, 35, 36, 40, 43, 44, 4…
$ net <lgl> TRUE, FALSE, TRUE, FALSE, FALSE, TRUE, FALSE, FALSE, TRUE, TRUE, FALSE, TRUE, TRUE, TRUE, FALSE, FALSE…
$ net_num <dbl> 1, 0, 1, 0, 0, 1, 0, 0, 1, 1, 0, 1, 1, 1, 0, 0, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 0, …
$ malaria_risk <dbl> 33, 80, 34, 44, 25, 19, 35, 30, 14, 31, 34, 54, 23, 65, 59, 41, 21, 25, 23, 26, 50, 29, 66, 27, 21, 21…
$ income <dbl> 781, 502, 671, 728, 1050, 1146, 1093, 889, 1133, 807, 950, 594, 936, 431, 655, 896, 1033, 1115, 967, 8…
$ health <dbl> 56, 15, 20, 17, 48, 65, 75, 75, 62, 42, 53, 29, 47, 6, 30, 45, 64, 62, 71, 37, 37, 53, 22, 67, 40, 53,…
$ household <dbl> 2, 3, 5, 5, 1, 3, 5, 6, 3, 4, 3, 5, 2, 6, 4, 3, 7, 3, 3, 3, 6, 4, 1, 3, 2, 3, 2, 2, 2, 2, 5, 1, 1, 2, …
$ eligible <lgl> FALSE, FALSE, TRUE, FALSE, FALSE, FALSE, FALSE, FALSE, FALSE, FALSE, FALSE, TRUE, FALSE, TRUE, FALSE, …
$ temperature <dbl> 21.1, 25.6, 21.3, 19.2, 25.3, 27.4, 29.8, 17.4, 18.9, 27.6, 24.0, 25.5, 26.1, 26.8, 23.6, 25.9, 23.4, …
$ resistance <dbl> 59, 65, 46, 54, 34, 45, 65, 33, 39, 37, 53, 55, 32, 38, 43, 53, 51, 33, 52, 71, 59, 52, 84, 31, 63, 53…
$ weights <dbl> 1.0000000, 0.6402349, 1.0000000, 0.6402349, 1.2804699, 1.0000000, 1.9207048, 0.6402349, 1.0000000, 1.0…
Por ultimo,podemos hacer una regresión usando los
datos emparejados:
# Indicamos modelo lineal
model_matched <- lm(malaria_risk ~ net, data = mosquito_nets_matched,
weights = weights)
# Vemos resumen estadistico
summary(model_matched)
Call:
lm(formula = malaria_risk ~ net, data = mosquito_nets_matched,
weights = weights)
Weighted Residuals:
Min 1Q Median 3Q Max
-38.295 -7.605 -2.365 5.395 55.395
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 36.0896 0.5971 60.45 <0.0000000000000002 ***
netTRUE -10.4846 0.7647 -13.71 <0.0000000000000002 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 12.47 on 1115 degrees of freedom
Multiple R-squared: 0.1443, Adjusted R-squared: 0.1435
F-statistic: 188 on 1 and 1115 DF, p-value: < 0.00000000000000022
Según estos resultados, el uso de un mosquitero causa una disminución
de 10.48 puntos en el riesgo de malaria, en promedio. Una vez más,
podemos utilizar el lenguaje causal ahora porque hemos ajustado los
confusores al hacer la comparación, identificando así el camino causal
entre el uso de mosquiteros y el riesgo de malaria.
Ponderación de
probabilidad inversa
Una desventaja del uso de matching es que desechamos mucha
información: las observaciones no coincidentes se descartan, y el tamaño
de nuestra muestra puede reducirse significativamente. El emparejamiento
también tiende a ser muy riguroso, ya que cada observación tratada debe
ser emparejada con una (o más) observaciones no tratadas. Aunque que
algunas observaciones no tratadas están en realidad muy cerca de las
observaciones tratadas, aún así se descartan porque fueron superadas por
observaciones que tienen una distancia ligeramente menor.
En lugar de desechar datos potencialmente útiles, podemos utilizar
otros métodos para crear coincidencias que sean menos rigurosas pero más
informativas. Un método común en epidemiología y bioestadística es la
ponderación de probabilidad inversa (IPW, en inglés). En la IPW, a cada
observación se le asigna un peso basado en lo bien que su asignación
real al tratamiento coincide con la probabilidad prevista del
tratamiento, y esos pesos se utilizan luego en un modelo de regresión
para estimar el efecto causal del tratamiento en el resultado.
Primero, podemos ajustar los factores de confusión
de nuestro mosquitero y el ejemplo de riesgo de malaria usando una
ponderación de probabilidad inversa.
Para ello, usamos una regresión logística para predecir la propensión
a usar un mosquitero usando los ingresos, la temperatura y la salud.
Luego usamos los puntajes de propensión para calcular los pesos de
probabilidad inversa usando esta fórmula:
\[
\frac{\text{Mosquitero}}{\text{Propensión}} + \frac{1 -
\text{Mosquitero}}{1 - \text{Propensión}}
\]
# Creamos regresion logistica
model_mosquito_net <- glm(net ~ income + temperature + health,
data = mosquito_nets, family = binomial(link = "logit"))
# Agregamos ipw
mosquito_nets_ipw <- mosquito_nets %>% # Indicamos el df
mutate(propensity = predict(model_mosquito_net, type = "response"), #Aplicamos el modelo logistico, con las probabilidades
ipw = (net_num / propensity) + (1 - net_num) / (1 - propensity)) # creamos columna ipw
# Vemos resultados
print(mosquito_nets_ipw)
Este código ajusta un modelo de regresión logística para estimar la
probabilidad de que una persona reciba un mosquitero (net
)
en función de sus ingresos, temperatura y salud, y luego utiliza esas
probabilidades (propensiones) para calcular pesos de ponderación por la
inversa de la probabilidad de tratamiento (IPW). Estos pesos permiten
corregir posibles sesgos de selección al comparar grupos tratados y no
tratados, asignando mayor peso a las observaciones que recibieron un
tratamiento inesperado según sus características. Así, se busca simular
un escenario más parecido a un experimento aleatorio y estimar de forma
más justa el efecto del tratamiento.
Segundo, ahora que tenemos pesos de probabilidad
inversa, podemos usarlos en una regresión:
# Indicamos modelo lineal
model_ipw <- lm(malaria_risk ~ net, data = mosquito_nets_ipw,
weights = ipw)
# Vemos resultados
summary(model_ipw)
Call:
lm(formula = malaria_risk ~ net, data = mosquito_nets_ipw, weights = ipw)
Weighted Residuals:
Min 1Q Median 3Q Max
-45.705 -14.622 -4.924 10.791 162.642
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 39.6788 0.4684 84.71 <0.0000000000000002 ***
netTRUE -10.1312 0.6583 -15.39 <0.0000000000000002 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 19.54 on 1750 degrees of freedom
Multiple R-squared: 0.1192, Adjusted R-squared: 0.1187
F-statistic: 236.8 on 1 and 1750 DF, p-value: < 0.00000000000000022
Según este modelo de IPW, el uso de un mosquitero causa una
disminución de 10.13 puntos en el riesgo de malaria, en promedio. Una
vez más, podemos utilizar con seguridad el lenguaje causal porque hemos
identificado el camino causal entre el uso de mosquiteros y el riesgo de
malaria teniendo en cuenta los factores de confusión en los pesos de
probabilidad inversos.
Comparando todos los
métodos
Ahora que hemos ejecutado varios modelos de regresión que se ajustan
a los factores de confusión de diferentes maneras, podemos comparar los
resultados todos juntos. La ingenua estimación de -16 parece ser
definitivamente una sobreestimación: después de ajustar con la
regresión, el matching y la ponderación de probabilidad inversa, el
efecto causal del uso de un mosquitero en el riesgo de malaria es
consistentemente de alrededor de -10. Asumiendo que nuestro DAG está
correcto, encontramos con éxito un efecto causal a partir de datos no
experimentales y observacionales.
texreg::screenreg(list(model_naive, model_regression,
model_matched, model_ipw),
custom.model.names = c("Naive", "Regression",
"Matching", "IPW"))
===============================================================
Naive Regression Matching IPW
---------------------------------------------------------------
(Intercept) 41.94 *** 76.16 *** 36.09 *** 39.68 ***
(0.40) (0.93) (0.60) (0.47)
netTRUE -16.33 *** -10.44 *** -10.48 *** -10.13 ***
(0.65) (0.26) (0.76) (0.66)
income -0.08 ***
(0.00)
temperature 1.01 ***
(0.03)
health 0.15 ***
(0.01)
---------------------------------------------------------------
R^2 0.27 0.89 0.14 0.12
Adj. R^2 0.27 0.88 0.14 0.12
Num. obs. 1752 1752 1117 1752
===============================================================
*** p < 0.001; ** p < 0.01; * p < 0.05
