Gráfico Acíclico Dirigido
Introducción
Un Gráfico Acíclico Dirigido (DAG, por sus siglas en inglés: Directed
Acyclic Graph) es una estructura gráfica que se utiliza para representar
relaciones causales entre variables. Los DAGs son herramientas poderosas
en diversas áreas, incluyendo la epidemiología, las ciencias sociales,
la economía y la inteligencia artificial, entre otras. En el caso de la
evaluación de políticas publicas, los DAGs nos permiten entender mejor
las relaciones causales con que se desarrollan los proyectos y programas
de desarrollo. Con ellos podemos entender mejor cómo ciertas
intervenciones conducen a determinados resultados e impactos.
Para identificar efectos causales en intervenciones de política
social necesitamos bloquear todos los caminos (paths) no causales
mientras que mantenemos los que si son causales, para lo cual se
necesita listar todos los caminos que conecten la variable de
tratamiento (usualmente denominada X o D) con la variable de resultados
(usualmente denominada Y).
Componentes de un DAG
Nodos: Representan las variables en estudio. Cada
nodo en el gráfico corresponde a una variable específica.
Flechas (aristas dirigidas): Indican la dirección de
la relación causal entre las variables. Una flecha de un nodo A a un
nodo B (A → B) sugiere que A tiene un efecto causal sobre B.
Características de los DAGs
A-cíclicos: No contienen ciclos, lo que significa
que no es posible volver al mismo nodo siguiendo las flechas dirigidas.
Es decir, no hay un camino cerrado en el que una variable se cause a sí
misma directa o indirectamente.
Dirigidos: Las aristas tienen una dirección, lo que
denota la relación causal y la direccionalidad del efecto entre las
variables.
Propósitos y Usos de los DAGs
Representación Causal: Los DAGs se utilizan para
representar y visualizar las relaciones causales entre variables,
facilitando el entendimiento de cómo una variable puede influir en
otra.
Identificación de Sesgos: Permiten identificar
posibles fuentes de sesgo, como caminos de “backdoor” o variables
confusoras, que pueden afectar la estimación del efecto causal.
Diseño de Estudios: Ayudan en el diseño de estudios
observacionales y experimentales, indicando qué variables deben ser
controladas para obtener una estimación causal no sesgada.
Inferencia Causal: Se utilizan en análisis
estadísticos para realizar inferencias causales, identificando las
condiciones bajo las cuales los efectos causales pueden ser
correctamente estimados.
Tipos de DAG
Los tipos de DAGs (Gráficos Acíclicos Dirigidos) más importantes en
el análisis causal son aquellos que permiten identificar claramente las
relaciones causales y las posibles fuentes de sesgo en los estudios.
1. DAG Directo (Direct Causal Pathway) Representa
una relación causal directa entre dos variables sin la intervención de
variables intermedias. Útil para modelar relaciones causales
simples.
Ejemplo:
Relación entre fumar (F) y riesgo de cáncer de pulmón (C).
Representación: \[
\ F → C
\]
##
## Attaching package: 'ggdag'
## The following object is masked from 'package:stats':
##
## filter

2. DAG de Cadena (Chain) Representa una secuencia
causal en la que una variable afecta a otra, que a su vez afecta a una
tercera variable. Importante para identificar efectos mediadores.
Ejemplo:
Relación entre la dieta (D), el índice de masa corporal (B), y la
salud cardiovascular (H).
Representación: \[
\ D → B → H
\]

3. DAG de Colisionador (Collider) Representa una
situación en la que dos variables independientes afectan conjuntamente a
una tercera variable. En esta situación, el collider permite que las
puertas traseras estén cerradas “naturalmente”: \[
X → Collider ←Y
\] Es decir, la existencia de un collider en un camino hace que
automaticamente cierra los caminos o puertas traseras.
Son cruciales para reconocer asociaciones espurias inducidas por
ajustar el colisionador, pues ajustar el colisionador abre una puerta
trasera. Al controlar o condicionar por un collider el camino que estaba
cerrado se vuelve a abrir. Por esto es crítico, para cualquier
estrategia de identificación, el diferenciar entre variables colliders y
variables de confusión, y controlar por estas últimas pero NO por las
primeros.
Ejemplo:
Nivel de ejercicio (E) y dieta (D) afectando al peso corporal
(W).
Representación: \[
E → W ← D
\]
4. DAG de Confusor (Confounder) Incluye una variable
confusora que afecta tanto a la variable de exposición como a la
variable de resultado.
Ayuda a identificar y ajustar variables confusoras para evitar
sesgos. Las variables confusoras abren caminos o puertas traseras no
deseadas en el ejercicio de encontrar la relacion causal entre
tratamiento y resultado.
Ejemplo:
Relación entre fumar (F), exposición a toxinas (T), y riesgo de
cáncer de pulmón (C).
Representación: \[
T → F
\] \[
T → C
\]
\[
F → C
\]

5. DAG de Interacción (Moderator) Representa una
situación en la que el efecto de una variable sobre otra depende de una
tercera variable. Útil para modelar efectos que dependen de otra
variable.
Ejemplo:
Relación entre ejercicio físico (E), la presencia de una condición
genética (G), y la salud cardiovascular (H).
Representación: \[
E → H
\]
\[
G → H
\]
\[
E ↔ G
\]

6. DAG de Mediador (Mediator) Incluye una variable
mediadora que transmite el efecto de una variable sobre otra. Ayuda a
entender cómo se transmite un efecto causal a través de una variable
intermediaria.
Ejemplo:
Relación entre la motivación parental (P), el rendimiento académico
(R), y el éxito profesional (S).
Representación: \[
P → R → S
\]

Existencia de Backdoor en una relacion causal
En el contexto de los Gráficos Acíclicos Dirigidos (DAGs), un
“backdoor” se refiere a un camino indirecto que conecta la variable de
exposición (o tratamiento) con la variable de resultado (o desenlace) a
través de una o más variables intermediarias. Este camino indirecto
puede introducir sesgos en la estimación del efecto causal si no se
ajusta adecuadamente.
Concepto de Backdoor Path Un backdoor path es
cualquier camino entre la variable de exposición X y la variable de
resultado Y que:
No sigue la dirección causal directa de \[
X→Y
\]
Conecta X y Y a través de una o más variables intermediarias, que
pueden ser confusores.
Ejemplo
Relaciones Causales en Educación Variables:
I: Nivel de inteligencia de un estudiante. S: Horas de estudio. G:
Calificaciones obtenidas.
Relaciones:
El nivel de inteligencia (I) afecta las horas de estudio (S). Las
horas de estudio (S) afectan las calificaciones (G).
\[
I→S→G
\]

Un “backdoor” es un camino alternativo entre las variables que podría
introducir sesgo si no se controla adecuadamente.
Vamos a añadir una nueva variable P (motivación parental), que afecta
tanto el nivel de inteligencia I como las horas de estudio S.
Relaciones:
La motivación parental (P) afecta tanto el nivel de inteligencia (I)
como las horas de estudio (S). El nivel de inteligencia (I) afecta las
horas de estudio (S). Las horas de estudio (S) afectan las
calificaciones (G).

En este nuevo DAG, la motivación parental (P) introduce un “backdoor”
entre I y S. Esto significa que si no controlamos por P, cualquier
análisis que busque entender la relación entre I y S podría estar
sesgado debido a la influencia de P.
Para obtener una estimación no sesgada del efecto causal de I sobre S
y de S sobre G, necesitaríamos ajustar por P.
Ajuste para Eliminar el Backdoor Path Para eliminar
el sesgo introducido por el backdoor path, se debe ajustar por la
variable confusora P. Esto se puede hacer mediante:
Estratificación: Dividir los datos en estratos según los valores de P
y analizar cada estrato por separado.
Regresión: Incluir P como covariable en un modelo de regresión.
Emparejamiento: Emparejar individuos con valores similares de P para
comparar los efectos de I sobre G.
Independencia condicional
La independencia condicional es un concepto fundamental en el
análisis causal y se representa de manera natural en los Gráficos
Acíclicos Dirigidos (DAGs). En un DAG, la independencia condicional se
utiliza para identificar cuales variables son independientes unas de
otras dado un conjunto de variables condicionantes.
Definición:
Dos variables X y Y son condicionalmente independientes dadas una
tercera variable Z. En notación, esto se escribe como:
\[
X⊥Y∣ Z
\]
En un DAG:
La independencia condicional se puede leer directamente del DAG
utilizando el criterio de d-separación (d-separation). Si un conjunto de
variables Z bloquea todos los caminos entre X y Y, entonces X y Y son
condicionalmente independientes dado Z.
Tipos de DAGs que Representan Independencia Condicional
DAG Directo (Direct Causal Pathway): En un DAG
directo sin variables intermediarias ni confusores, la relación directa
entre dos variables implica que no hay independencia condicional sin
intervención.
DAG de Cadena (Chain): En un DAG de cadena, dos
variables X y Y pueden ser independientes si condicionamos en la
variable intermedia Z.
\[
X → Z → Y
\] Aquí, X y Y son condicionalmente independientes dado Z.
DAG de Colisionador (Collider): En un DAG de
colisionador, dos variables X y Y son independientes a menos que se
condicione en la variable colisionadora Z o en sus descendientes.
\[
X → Z ← Y
\] Aquí, X y Y son independientes a menos que condicionemos en
Z.
DAG con Confusor (Confounder):
En un DAG con un confusor, las variables pueden volverse
condicionalmente independientes cuando se ajusta por el confusor.
\[
Z → X
\] \[
Z → Y
\]
\[
X → Y
\] Aquí, X y Y pueden ser independientes si ajustamos por Z.
Condicionar (controlar) en un DAG
En un DAG, entender cuándo y cómo condicionar en una variable es
crucial para el análisis de relaciones causales.
Para Controlar por Confusión (Confounding):
Condicionar en variables que pueden actuar como confusores ayuda a
obtener una estimación no sesgada del efecto causal.
Para Bloquear Rutas No Deseadas: A veces,
necesitamos bloquear rutas indirectas que no forman parte del efecto
causal de interés.
Recordar los siguientes conceptos Clave:
Confounders: Variables que afectan tanto a la variable de exposición
como a la de resultado. Condicionar en confounders ayuda a obtener una
relación causal más precisa.
Colliders: Nodos en los que dos aristas convergen. Condicionar en
colliders puede inducir una asociación no causal entre las variables de
entrada.
Non-Colliders: Nodos que no son colliders, generalmente se recomienda
no condicionar en ellos a menos que se necesite para bloquear una ruta
no deseada.
Ejemplos
- Condicionar para Controlar por Confusión
DAG Ejemplo: \[
T <- S -> I -> P
\]
S es un confounder, ya que afecta tanto a T (intervention) como a P
(outcome) a través de I. Para obtener una relación no sesgada entre T y
P, debemos condicionar en S.
Condicionemos ahora S:
# Definir un DAG simple
dag_simple <- dagify(
P ~ T + S, # Desempeño influenciado por el Tipo de Programa y Nivel Socioeconómico
T ~ S, # Tipo de Programa influenciado por el Nivel Socioeconómico
outcome="P",
exposure = "T",
labels = c("T" = "Tipo de Programa",
"P" = "Desempeño Académico",
"S" = "Nivel Socioeconómico")
)
# Convertir el DAG a un objeto dagitty
dagitty_dag <- as.dagitty(dag_simple)
# Visualizar el DAG
ggdag(dagitty_dag) + theme_dag()

Ahora, realizamos el análisis de paths para ver cómo las rutas están
afectadas por condicionar en S.
# Realizar el análisis de paths desde T hasta P
paths(dagitty_dag, from = "T", to = "P")
## $paths
## [1] "T -> P" "T <- S -> P"
##
## $open
## [1] TRUE TRUE
Sin Condicionar en S
Ruta directa: T -> P Ruta indirecta: T <- S -> P
Ambas rutas están abiertas. La ruta directa T -> P y la ruta
indirecta T <- S -> P están abiertas, lo que significa que S puede
estar confundiéndonos sobre la verdadera relación entre T y P.
Condicionando en S
Al condicionar en S, bloqueamos la ruta T <- S -> P, lo que nos
permite estimar el efecto directo de T en P.
Para esto utulizamos la funci[on adjustmentSets que nos ayuda a
encontar el set minimo suficiente (Minimally Sufficient
Sett)
# Identificar los conjuntos de ajuste para controlar confusión
adjustmentSets(dagitty_dag, exposure = "T", outcome = "P")
## { S }
ggdag_adjustment_set(dagitty_dag, text = FALSE, use_labels = "label",
shadow = TRUE, stylized = TRUE, node_size = 10, text_size = 2.8)

- Condicionar para Bloquear Rutas No Deseadas
DAG Ejemplo: \[
T -> I -> P
\] \[
S -> I
\]

I es un nodo en una ruta indirecta de T a P.
Si queremos bloquear esta ruta, podríamos condicionar en I para
obtener la relación directa entre T y P.
En resumen, condicionar en una variable significa ajustar por ella en
el análisis para controlar su influencia y obtener relaciones causales
más precisas. Es una práctica fundamental en la modelización causal y
debe ser utilizada estratégicamente para asegurar la validez de los
resultados. A modo de conclusión:
Condicionar en Confounders: Esto ayuda a eliminar la
confusión y obtener una estimación causal precisa. Condicionar
en Colliders: Generalmente no se debe hacer, ya que puede
inducir asociaciones no causales. Condicionar en
Non-Colliders: Útil para bloquear rutas no deseadas o para
controlar confusión.
D-Separated y D-Connected Paths
En el contexto de los DAGs (Graphos Acíclicos Dirigidos), los
conceptos de d-separated y d-connected son cruciales para entender cómo
las variables están relacionadas y cómo la información se transmite a
través del modelo.
1. D-Separated Paths Dos variables están d-separated
si, dado el conocimiento de ciertas otras variables, no hay ninguna ruta
activa (es decir, ninguna ruta a través de la cual la información pueda
fluir) entre ellas. En otras palabras, las variables están
independientemente condicionadas por otras variables en el DAG.
Cómo Determinar la D-Separation:
Variable de Ajuste: Para que dos variables estén
d-separadas, se debe ajustar por ciertas variables que “bloquean” todas
las rutas entre ellas.
Colisionadores y Confusores: Una ruta está bloqueada
si pasa por un colisionador y no se ajusta por el colisionador ni por
sus descendientes.
Una ruta también puede estar bloqueada si pasa por un confusor y se
ajusta por el confusor.
Ejemplo: En un DAG donde X -> Z <- Y, X y Y están d-separados
dado Z. La información no fluye entre X y Y si Z es conocido.
2. D-Connected Paths
Dos variables están d-conectadas si existe una ruta activa entre
ellas, es decir, si no hay ninguna ruta bloqueada por las variables
condicionadas. En otras palabras, la información puede fluir entre las
dos variables a través de una o más rutas en el DAG.
Cómo Determinar la D-Connection:
Colisionadores y Confusores: Una ruta es activa si
pasa por un confusor y se ajusta por él. Una ruta es activa si pasa por
un colisionador y el colisionador (o sus descendientes) no se ajusta por
él.
Ejemplo: En un DAG donde X -> Z -> Y y se ajusta por Z, X y Y
están d-conectados a través de Z. La información puede fluir de X a Y a
través de Z.
# Definir un DAG simple
dag_example <- dagify(
Y ~ X + Z,
Z ~ X,
outcome= "Y",
exposure= "X",
labels = c("X" = "Variable X",
"Y" = "Variable Y",
"Z" = "Variable Z")
)
# Convertir el DAG a un objeto dagitty
dagitty_dag <- as.dagitty(dag_example)
# Visualizar el DAG
ggdag(dagitty_dag) + theme_dag()

# Analizar la d-separation entre X y Y dado Z usando ggdag_drelationship
ggdag_drelationship(dagitty_dag, controlling_for = "Z", text = FALSE, use_labels = "label", stylized = TRUE, node_size = 10, text_size = 2.8, edge_type="link_arc")

```
