Gráfico Acíclico Dirigido

Introducción

Un Gráfico Acíclico Dirigido (DAG, por sus siglas en inglés: Directed Acyclic Graph) es una estructura gráfica que se utiliza para representar relaciones causales entre variables. Los DAGs son herramientas poderosas en diversas áreas, incluyendo la epidemiología, las ciencias sociales, la economía y la inteligencia artificial, entre otras. En el caso de la evaluación de políticas publicas, los DAGs nos permiten entender mejor las relaciones causales con que se desarrollan los proyectos y programas de desarrollo. Con ellos podemos entender mejor cómo ciertas intervenciones conducen a determinados resultados e impactos.

Para identificar efectos causales en intervenciones de política social necesitamos bloquear todos los caminos (paths) no causales mientras que mantenemos los que si son causales, para lo cual se necesita listar todos los caminos que conecten la variable de tratamiento (usualmente denominada X o D) con la variable de resultados (usualmente denominada Y).

Componentes de un DAG

Nodos: Representan las variables en estudio. Cada nodo en el gráfico corresponde a una variable específica.

Flechas (aristas dirigidas): Indican la dirección de la relación causal entre las variables. Una flecha de un nodo A a un nodo B (A → B) sugiere que A tiene un efecto causal sobre B.

Características de los DAGs

A-cíclicos: No contienen ciclos, lo que significa que no es posible volver al mismo nodo siguiendo las flechas dirigidas. Es decir, no hay un camino cerrado en el que una variable se cause a sí misma directa o indirectamente.

Dirigidos: Las aristas tienen una dirección, lo que denota la relación causal y la direccionalidad del efecto entre las variables.

Propósitos y Usos de los DAGs

Representación Causal: Los DAGs se utilizan para representar y visualizar las relaciones causales entre variables, facilitando el entendimiento de cómo una variable puede influir en otra.

Identificación de Sesgos: Permiten identificar posibles fuentes de sesgo, como caminos de “backdoor” o variables confusoras, que pueden afectar la estimación del efecto causal.

Diseño de Estudios: Ayudan en el diseño de estudios observacionales y experimentales, indicando qué variables deben ser controladas para obtener una estimación causal no sesgada.

Inferencia Causal: Se utilizan en análisis estadísticos para realizar inferencias causales, identificando las condiciones bajo las cuales los efectos causales pueden ser correctamente estimados.

Tipos de DAG

Los tipos de DAGs (Gráficos Acíclicos Dirigidos) más importantes en el análisis causal son aquellos que permiten identificar claramente las relaciones causales y las posibles fuentes de sesgo en los estudios.

1. DAG Directo (Direct Causal Pathway) Representa una relación causal directa entre dos variables sin la intervención de variables intermedias. Útil para modelar relaciones causales simples.

Ejemplo:

Relación entre fumar (F) y riesgo de cáncer de pulmón (C).

Representación: \[ \ F → C \]

## 
## Attaching package: 'ggdag'
## The following object is masked from 'package:stats':
## 
##     filter

2. DAG de Cadena (Chain) Representa una secuencia causal en la que una variable afecta a otra, que a su vez afecta a una tercera variable. Importante para identificar efectos mediadores.

Ejemplo:

Relación entre la dieta (D), el índice de masa corporal (B), y la salud cardiovascular (H).

Representación: \[ \ D → B → H \]

3. DAG de Colisionador (Collider) Representa una situación en la que dos variables independientes afectan conjuntamente a una tercera variable. En esta situación, el collider permite que las puertas traseras estén cerradas “naturalmente”: \[ X → Collider ←Y \] Es decir, la existencia de un collider en un camino hace que automaticamente cierra los caminos o puertas traseras.

Son cruciales para reconocer asociaciones espurias inducidas por ajustar el colisionador, pues ajustar el colisionador abre una puerta trasera. Al controlar o condicionar por un collider el camino que estaba cerrado se vuelve a abrir. Por esto es crítico, para cualquier estrategia de identificación, el diferenciar entre variables colliders y variables de confusión, y controlar por estas últimas pero NO por las primeros.

Ejemplo:

Nivel de ejercicio (E) y dieta (D) afectando al peso corporal (W).

Representación: \[ E → W ← D \] 4. DAG de Confusor (Confounder) Incluye una variable confusora que afecta tanto a la variable de exposición como a la variable de resultado.

Ayuda a identificar y ajustar variables confusoras para evitar sesgos. Las variables confusoras abren caminos o puertas traseras no deseadas en el ejercicio de encontrar la relacion causal entre tratamiento y resultado.

Ejemplo:

Relación entre fumar (F), exposición a toxinas (T), y riesgo de cáncer de pulmón (C).

Representación: \[ T → F \] \[ T → C \]

\[ F → C \]

5. DAG de Interacción (Moderator) Representa una situación en la que el efecto de una variable sobre otra depende de una tercera variable. Útil para modelar efectos que dependen de otra variable.

Ejemplo:

Relación entre ejercicio físico (E), la presencia de una condición genética (G), y la salud cardiovascular (H).

Representación: \[ E → H \]

\[ G → H \]

\[ E ↔ G \]

6. DAG de Mediador (Mediator) Incluye una variable mediadora que transmite el efecto de una variable sobre otra. Ayuda a entender cómo se transmite un efecto causal a través de una variable intermediaria.

Ejemplo:

Relación entre la motivación parental (P), el rendimiento académico (R), y el éxito profesional (S).

Representación: \[ P → R → S \]

Existencia de Backdoor en una relacion causal

En el contexto de los Gráficos Acíclicos Dirigidos (DAGs), un “backdoor” se refiere a un camino indirecto que conecta la variable de exposición (o tratamiento) con la variable de resultado (o desenlace) a través de una o más variables intermediarias. Este camino indirecto puede introducir sesgos en la estimación del efecto causal si no se ajusta adecuadamente.

Concepto de Backdoor Path Un backdoor path es cualquier camino entre la variable de exposición X y la variable de resultado Y que:

  1. No sigue la dirección causal directa de \[ X→Y \]

  2. Conecta X y Y a través de una o más variables intermediarias, que pueden ser confusores.

Ejemplo

Relaciones Causales en Educación Variables:

I: Nivel de inteligencia de un estudiante. S: Horas de estudio. G: Calificaciones obtenidas.

Relaciones:

El nivel de inteligencia (I) afecta las horas de estudio (S). Las horas de estudio (S) afectan las calificaciones (G).

\[ I→S→G \]

Un “backdoor” es un camino alternativo entre las variables que podría introducir sesgo si no se controla adecuadamente.

Vamos a añadir una nueva variable P (motivación parental), que afecta tanto el nivel de inteligencia I como las horas de estudio S.

Relaciones:

La motivación parental (P) afecta tanto el nivel de inteligencia (I) como las horas de estudio (S). El nivel de inteligencia (I) afecta las horas de estudio (S). Las horas de estudio (S) afectan las calificaciones (G).

En este nuevo DAG, la motivación parental (P) introduce un “backdoor” entre I y S. Esto significa que si no controlamos por P, cualquier análisis que busque entender la relación entre I y S podría estar sesgado debido a la influencia de P.

Para obtener una estimación no sesgada del efecto causal de I sobre S y de S sobre G, necesitaríamos ajustar por P.

Ajuste para Eliminar el Backdoor Path Para eliminar el sesgo introducido por el backdoor path, se debe ajustar por la variable confusora P. Esto se puede hacer mediante:

Estratificación: Dividir los datos en estratos según los valores de P y analizar cada estrato por separado.

Regresión: Incluir P como covariable en un modelo de regresión.

Emparejamiento: Emparejar individuos con valores similares de P para comparar los efectos de I sobre G.

Independencia condicional

La independencia condicional es un concepto fundamental en el análisis causal y se representa de manera natural en los Gráficos Acíclicos Dirigidos (DAGs). En un DAG, la independencia condicional se utiliza para identificar cuales variables son independientes unas de otras dado un conjunto de variables condicionantes.

Definición:

Dos variables X y Y son condicionalmente independientes dadas una tercera variable Z. En notación, esto se escribe como:

\[ X⊥Y∣ Z \]

En un DAG:

La independencia condicional se puede leer directamente del DAG utilizando el criterio de d-separación (d-separation). Si un conjunto de variables Z bloquea todos los caminos entre X y Y, entonces X y Y son condicionalmente independientes dado Z.

Tipos de DAGs que Representan Independencia Condicional

DAG Directo (Direct Causal Pathway): En un DAG directo sin variables intermediarias ni confusores, la relación directa entre dos variables implica que no hay independencia condicional sin intervención.

DAG de Cadena (Chain): En un DAG de cadena, dos variables X y Y pueden ser independientes si condicionamos en la variable intermedia Z.

\[ X → Z → Y \] Aquí, X y Y son condicionalmente independientes dado Z.

DAG de Colisionador (Collider): En un DAG de colisionador, dos variables X y Y son independientes a menos que se condicione en la variable colisionadora Z o en sus descendientes.

\[ X → Z ← Y \] Aquí, X y Y son independientes a menos que condicionemos en Z.

DAG con Confusor (Confounder):

En un DAG con un confusor, las variables pueden volverse condicionalmente independientes cuando se ajusta por el confusor.

\[ Z → X \] \[ Z → Y \]

\[ X → Y \] Aquí, X y Y pueden ser independientes si ajustamos por Z.

Condicionar (controlar) en un DAG

En un DAG, entender cuándo y cómo condicionar en una variable es crucial para el análisis de relaciones causales.

Para Controlar por Confusión (Confounding): Condicionar en variables que pueden actuar como confusores ayuda a obtener una estimación no sesgada del efecto causal.

Para Bloquear Rutas No Deseadas: A veces, necesitamos bloquear rutas indirectas que no forman parte del efecto causal de interés.

Recordar los siguientes conceptos Clave:

Confounders: Variables que afectan tanto a la variable de exposición como a la de resultado. Condicionar en confounders ayuda a obtener una relación causal más precisa.

Colliders: Nodos en los que dos aristas convergen. Condicionar en colliders puede inducir una asociación no causal entre las variables de entrada.

Non-Colliders: Nodos que no son colliders, generalmente se recomienda no condicionar en ellos a menos que se necesite para bloquear una ruta no deseada.

Ejemplos

  1. Condicionar para Controlar por Confusión

DAG Ejemplo: \[ T <- S -> I -> P \]

S es un confounder, ya que afecta tanto a T (intervention) como a P (outcome) a través de I. Para obtener una relación no sesgada entre T y P, debemos condicionar en S.

Condicionemos ahora S:

# Definir un DAG simple
dag_simple <- dagify(
  P ~ T + S,  # Desempeño influenciado por el Tipo de Programa y Nivel Socioeconómico
  T ~ S,      # Tipo de Programa influenciado por el Nivel Socioeconómico
  outcome="P",
  exposure = "T",
  labels = c("T" = "Tipo de Programa",
             "P" = "Desempeño Académico",
             "S" = "Nivel Socioeconómico")
)
# Convertir el DAG a un objeto dagitty
dagitty_dag <- as.dagitty(dag_simple)
# Visualizar el DAG
ggdag(dagitty_dag) + theme_dag()

Ahora, realizamos el análisis de paths para ver cómo las rutas están afectadas por condicionar en S.

# Realizar el análisis de paths desde T hasta P
paths(dagitty_dag, from = "T", to = "P")
## $paths
## [1] "T -> P"      "T <- S -> P"
## 
## $open
## [1] TRUE TRUE

Sin Condicionar en S

Ruta directa: T -> P Ruta indirecta: T <- S -> P

Ambas rutas están abiertas. La ruta directa T -> P y la ruta indirecta T <- S -> P están abiertas, lo que significa que S puede estar confundiéndonos sobre la verdadera relación entre T y P.

Condicionando en S

Al condicionar en S, bloqueamos la ruta T <- S -> P, lo que nos permite estimar el efecto directo de T en P.

Para esto utulizamos la funci[on adjustmentSets que nos ayuda a encontar el set minimo suficiente (Minimally Sufficient Sett)

# Identificar los conjuntos de ajuste para controlar confusión
adjustmentSets(dagitty_dag, exposure = "T", outcome = "P")
## { S }
ggdag_adjustment_set(dagitty_dag, text = FALSE, use_labels = "label", 
                     shadow = TRUE, stylized = TRUE, node_size = 10,   text_size = 2.8)

  1. Condicionar para Bloquear Rutas No Deseadas

DAG Ejemplo: \[ T -> I -> P \] \[ S -> I \]

I es un nodo en una ruta indirecta de T a P.

Si queremos bloquear esta ruta, podríamos condicionar en I para obtener la relación directa entre T y P.

En resumen, condicionar en una variable significa ajustar por ella en el análisis para controlar su influencia y obtener relaciones causales más precisas. Es una práctica fundamental en la modelización causal y debe ser utilizada estratégicamente para asegurar la validez de los resultados. A modo de conclusión:

Condicionar en Confounders: Esto ayuda a eliminar la confusión y obtener una estimación causal precisa. Condicionar en Colliders: Generalmente no se debe hacer, ya que puede inducir asociaciones no causales. Condicionar en Non-Colliders: Útil para bloquear rutas no deseadas o para controlar confusión.

D-Separated y D-Connected Paths

En el contexto de los DAGs (Graphos Acíclicos Dirigidos), los conceptos de d-separated y d-connected son cruciales para entender cómo las variables están relacionadas y cómo la información se transmite a través del modelo.

1. D-Separated Paths Dos variables están d-separated si, dado el conocimiento de ciertas otras variables, no hay ninguna ruta activa (es decir, ninguna ruta a través de la cual la información pueda fluir) entre ellas. En otras palabras, las variables están independientemente condicionadas por otras variables en el DAG.

Cómo Determinar la D-Separation:

Variable de Ajuste: Para que dos variables estén d-separadas, se debe ajustar por ciertas variables que “bloquean” todas las rutas entre ellas.

Colisionadores y Confusores: Una ruta está bloqueada si pasa por un colisionador y no se ajusta por el colisionador ni por sus descendientes.

Una ruta también puede estar bloqueada si pasa por un confusor y se ajusta por el confusor.

Ejemplo: En un DAG donde X -> Z <- Y, X y Y están d-separados dado Z. La información no fluye entre X y Y si Z es conocido.

2. D-Connected Paths

Dos variables están d-conectadas si existe una ruta activa entre ellas, es decir, si no hay ninguna ruta bloqueada por las variables condicionadas. En otras palabras, la información puede fluir entre las dos variables a través de una o más rutas en el DAG.

Cómo Determinar la D-Connection:

Colisionadores y Confusores: Una ruta es activa si pasa por un confusor y se ajusta por él. Una ruta es activa si pasa por un colisionador y el colisionador (o sus descendientes) no se ajusta por él.

Ejemplo: En un DAG donde X -> Z -> Y y se ajusta por Z, X y Y están d-conectados a través de Z. La información puede fluir de X a Y a través de Z.

 # Definir un DAG simple
dag_example <- dagify(
  Y ~ X + Z,
  Z ~ X,
  outcome= "Y",
  exposure= "X",
  labels = c("X" = "Variable X",
             "Y" = "Variable Y",
             "Z" = "Variable Z")
)

# Convertir el DAG a un objeto dagitty
dagitty_dag <- as.dagitty(dag_example)

# Visualizar el DAG
ggdag(dagitty_dag) + theme_dag()

# Analizar la d-separation entre X y Y dado Z usando ggdag_drelationship
ggdag_drelationship(dagitty_dag, controlling_for  = "Z", text = FALSE, use_labels = "label",                     stylized = TRUE, node_size = 10,   text_size = 2.8, edge_type="link_arc")

```

