La inferencia causal en salud poblacional: una crítica al pluralismo metodológico de Matthay et al. (2020)
Author
Ilich H. De La Hoz-Siegler, MD. MPH. MPP. FMS. HM
Introducción
El artículo de Matthay et al. (2020) aborda un problema central en las ciencias sociales y de la salud: cómo establecer relaciones causales en ausencia de experimentos aleatorizados. Los autores proponen una síntesis entre dos grandes enfoques: 1. el control de confusores y 2. los métodos basados en variables instrumentales. Luego, apoyándose en el marco de validez de Shadish, Cook y Campbell, argumentan que no existe un método superior, ya que todos implican trade-offs y dependen de supuestos no verificables.
Si bien esta postura promueve el diálogo interdisciplinario, en este ensayo defiendo una tesis más crítica: el artículo incurre en un pluralismo metodológico problemático que reduce la inferencia causal a una elección técnica, desatendiendo las diferencias epistemológicas, ontológicas y sustantivas entre los métodos. Esto puede conducir a conclusiones engañosamente robustas, pero débilmente fundamentadas.
Ideas clave:
El artículo cree que el problema radica en elegir bien un método, pero el verdadero desafío es determinar si esos métodos realmente capturan cómo funciona la realidad. El problema epistemológico fundamental es: ¿cómo sabemos que lo que afirmamos es verdadero? No se trata solo de herramientas, sino de conocimiento.
Preguntas epistemológicas centrales:
¿Qué significa “causar algo”?
¿Qué tipo de evidencia cuenta como prueba?
¿Estamos midiendo la realidad o solo una simplificación?
¿Nuestros supuestos reflejan fielmente el mundo real?
1. El pluralismo metodológico como simplificación excesiva
El argumento central del artículo es que los métodos deben evaluarse según sus trade-offs, sin jerarquías absolutas. Sin embargo, esta postura implica asumir que los métodos son comparables en un mismo plano, equivalencia que resulta cuestionable.
Siguiendo a Cartwright (2018), los métodos no son herramientas intercambiables, sino estrategias que solo funcionan bajo condiciones causales específicas del mundo real. Por tanto, el problema no consiste únicamente en elegir entre métodos con ventajas y desventajas, sino en determinar si sus supuestos corresponden a mecanismos causales plausibles.
Desde esta perspectiva, el artículo presenta una limitación fundamental: transforma un problema ontológico (cómo funcionan las causas en el mundo) en un problema meramente instrumental (qué método elegir).
2. El tratamiento superficial de los supuestos causales
Matthay et al. afirman que todos los métodos dependen de supuestos no verificables. Aunque esta afirmación es correcta en términos generales, su uso en el artículo es problemático porque homogeneiza los supuestos.
Desde el enfoque de Pearl (2000), los supuestos causales no son todos iguales: algunos pueden evaluarse indirectamente mediante modelos causales, mientras que otros pueden contrastarse con implicaciones observables. Al no distinguir entre tipos de supuestos, el artículo iguala métodos con diferentes niveles de rigor, debilitando los criterios de evaluación científica.
Esto introduce una forma de escepticismo metodológico que, lejos de fortalecer la inferencia, puede justificar resultados poco sólidos bajo la premisa de que “todos los métodos son imperfectos”.
3. Ignorar las diferencias ontológicas entre estimaciones causales
Una de las debilidades más importantes del artículo es tratar los métodos como alternativas para responder la misma pregunta, cuando en realidad producen respuestas diferentes.Como señalan Deaton y Cartwright (2018), los métodos generan distintos tipos de efectos:
El control de confusores estima efectos promedio en la población (PATE).
Los métodos instrumentales estiman efectos locales (LATE).
Esta diferencia no es meramente técnica, sino ontológica: cada método define un objeto causal distinto. Por tanto, la idea de “escoger el mejor método según trade-offs” es incompleta. En realidad, escoger un método implica definir qué tipo de causalidad se considera relevante. El artículo omite esta discusión, limitando su profundidad conceptual.
Ejemplo ilustrativo:
Estudio A (PATE): “La educación mejora la salud en general”.
Estudio B (LATE): “La educación mejora la salud en las personas que fueron obligadas a estudiar por la ley 1122”.
Estos dos estudios no son equivalentes: uno se refiere a toda la población y el otro a un subgrupo específico. No estamos eligiendo entre métodos equivalentes, sino entre distintos objetos causales. El problema no es solo qué método usar, sino qué tipo de efecto consideramos que existe y es relevante.
4. La triangulación: una solución sobreestimada
Los autores proponen la triangulación como estrategia para fortalecer la evidencia. Sin embargo, esta propuesta se presenta de forma excesivamente optimista.La literatura crítica (Lawlor et al., 2016) advierte que la triangulación solo mejora la validez cuando los sesgos de los métodos son independientes. En la práctica, muchos estudios comparten problemas estructurales (errores de medición, especificaciones incorrectas, limitaciones en los datos). En estos casos, puede generarse una “convergencia espuria”, donde múltiples métodos coinciden en un resultado incorrecto. El artículo no aborda suficientemente este riesgo, lo que debilita su propuesta como solución general.
5. Subestimación de los problemas de los métodos instrumentales
Aunque Matthay et al. reconocen que encontrar instrumentos válidos es difícil, su tratamiento resulta insuficiente. La evidencia empírica muestra que:
Los instrumentos válidos son raros.
Las condiciones de exogeneidad y exclusión son altamente exigentes.
Los resultados suelen ser poco generalizables.
Además, los métodos instrumentales suelen estimar efectos para subgrupos específicos (LATE), lo que limita su utilidad para decisiones poblacionales amplias. La presentación equilibrada del artículo oculta una realidad clave: en la práctica, muchos análisis instrumentales son poco creíbles o débilmente justificables.
6. Ausencia de teoría sustantiva y contexto social
Finalmente, una de las críticas más profundas es la falta de articulación con la teoría sustantiva. Como señala Krieger (2000), los fenómenos de salud no pueden entenderse únicamente mediante técnicas estadísticas, pues están atravesados por desigualdad social, estructuras históricas y relaciones de poder. El artículo trata variables como la educación o las políticas públicas como factores aislados, sin considerar estos contextos. Esto reduce problemas complejos a ejercicios metodológicos, perdiendo capacidad explicativa real.
Conclusión:
El artículo de Matthay et al. (2020) constituye un aporte importante al reconocer la diversidad de enfoques en la inferencia causal y al cuestionar la supremacía de un método único. No obstante, su propuesta se ve limitada por un pluralismo metodológico que simplifica en exceso la naturaleza del problema causal. En particular, el artículo:
Equipa métodos con diferentes fundamentos epistemológicos.
Subestima la heterogeneidad de los supuestos causales.
Sobrevalora la triangulación como solución.
Carece de articulación con teoría sustantiva.
En consecuencia, su enfoque, aunque útil como guía metodológica, resulta insuficiente como propuesta epistemológica. Para avanzar en la inferencia causal en salud poblacional no basta con combinar métodos; es necesario integrar rigurosamente teoría, contexto y modelos causales, reconociendo que la validez no es solo una propiedad técnica, sino una construcción profundamente dependiente del conocimiento del mundo social.
Lawlor, D. A., Tilling, K., & Davey Smith, G. (2016). Triangulation in aetiological epidemiology. International Journal of Epidemiology, 45(6), 1866–1886. https://doi.org/10.1093/ije/dyw314
Matthay, E. C., Hagan, E., Gottlieb, L. M., Tan, M. L., Vlahov, D., Adler, N. E., & Glymour, M. M. (2020). Alternative causal inference methods in population health research: Evaluating tradeoffs and triangulating evidence. SSM - Population Health, 10, 100526. https://doi.org/10.1016/j.ssmph.2019.100526
Pearl, J. (2000). Causality: Models, reasoning, and inference. Cambridge University Press.
Anexos Técnicos para interesados en profundizar LATE y PATE
En inferencia causal, PATE y LATE son dos de los parámetros causales (estimandos) más importantes. Representan promedios de efectos causales, pero se aplican a poblaciones o subpoblaciones diferentes y se identifican con métodos distintos. Su diferencia es central en la crítica al artículo de Matthay et al. (2020) que revisamos.
1. PATE – Population Average Treatment Effect (Efecto Promedio del Tratamiento en la Población)
Definición formal
El PATE se define como:
PATE = E[Y(1) - Y(0)]
Donde:
Y(1) es el resultado potencial si la unidad recibe el tratamiento.
Y(0) es el resultado potencial si la unidad no recibe el tratamiento.
El operador Ees el valor esperado (promedio) en toda la población objetivo.
Es el efecto causal promedio que se obtendría si toda la población fuera expuesta al tratamiento versus si toda la población estuviera sin tratamiento.
Interpretación
Responde a la pregunta: ¿Cuál sería el efecto promedio de implementar esta intervención en toda la población?
Es el parámetro más “general” y el que suele interesar para políticas públicas o decisiones poblacionales en salud.
Cómo se identifica/estima
En experimentos aleatorizados perfectos (con cumplimiento total), el PATE se estima directamente comparando medias de los grupos.
En estudios observacionales, el PATE se estima mediante:
Control de confusores (regresión, propensity score matching, weighting, etc.).
Supuestos fuertes: no confusión (ignorabilidad), positividad, consistencia, etc.
Métodos de control de confusores suelen apuntar al PATE (o al SATE — Sample Average Treatment Effect — cuando solo nos interesa la muestra).
Ventajas
Alta relevancia política (efecto en toda la población).
Más interpretable para decisiones generales.
Limitaciones
Requiere supuestos muy fuertes (especialmente en datos observacionales).
Si hay heterogeneidad del efecto (el tratamiento afecta de forma distinta según subgrupos), el promedio puede ocultar variaciones importantes.
2. LATE – Local Average Treatment Effect (Efecto Promedio del Tratamiento Local)
También conocido como CACE (Complier Average Causal Effect).
Definición formal
El LATE es el efecto promedio del tratamiento solo para el subgrupo de “compliers” (cumplidores):
LATE = E[Y(1) - Y(0)|Complier]
Los compliers son aquellas unidades cuyo tratamiento cambia según el instrumento (toman el tratamiento solo cuando el instrumento lo “empuja” a tomarlo).
Interpretación
Responde a la pregunta: ¿Cuál es el efecto del tratamiento entre las personas que cambian su comportamiento debido al instrumento?
Ejemplo clásico (usado en el ensayo):
Instrumento Z = aprobación de una ley que obliga a estudiar más años (ej. ley 1122).
Tratamiento D = años de educación reales.
Resultado Y = salud.
El LATE estima el efecto de la educación sobre la salud solo entre las personas que estudiaron más años porque existía esa ley (los que fueron inducidos a estudiar por la norma). No incluye:
Always-takers: los que habrían estudiado de todos modos.
Never-takers: los que no habrían estudiado ni con la ley.
Defiers: los que hacen lo contrario (raros, se asume que no existen bajo monotonicidad).
Cómo se identifica
Se usa principalmente con Variables Instrumentales (IV) o diseños cuasi-experimentales (RD, DID con IV, etc.).
Supuestos clave (Imbens & Angrist, 1994)
Relevancia: El instrumento predice fuertemente el tratamiento.
Exogeneidad / Independencia: El instrumento es como si fuera aleatorio (no correlacionado con confusores).
Exclusión: El instrumento solo afecta al resultado a través del tratamiento.
Monotonicidad: No hay defiers (el instrumento no hace que nadie haga lo contrario).
Comparación clave: PATE vs LATE
Aspecto
PATE
LATE
Población
Toda la población
Solo los “compliers” (subgrupo inducido por el IV)
Método principal
Control de confusores, RCT perfecto
Variables Instrumentales (IV)
Generalizabilidad
Alta (si supuestos se cumplen)
Baja (solo aplica a un subgrupo específico)
Supuestos
Muy fuertes (no confusión)
Diferentes y también fuertes (exclusión, monotonicidad)
Interpretación
Efecto en toda la población
Efecto en quienes responden al instrumento
Utilidad en políticas
Alta para decisiones universales
Limitada, salvo que el subgrupo sea el de interés
Ejemplo educación-salud
Efecto promedio de más educación en todos
Efecto solo en quienes estudiaron por la ley
Implicaciones epistemológicas y prácticas
No son el mismo parámetro: Elegir un método instrumental no es solo una cuestión técnica; estás cambiando el objeto causal que estás estimando (como bien señalas en el documento).
El PATE es más ambicioso, pero más difícil de identificar sin experimentos.
El LATE es más creíble en muchos contextos (porque relaja el supuesto de no confusión), pero es menos generalizable.
En salud poblacional, esto es crítico: muchas decisiones (políticas universales, recomendaciones clínicas) requieren PATE, pero gran parte de la literatura econométrica produce LATE.
Resumen sencillo:
PATE = ¿Qué pasaría si tratamos a todos?
LATE = ¿Qué efecto tiene el tratamiento en las personas que cambian su comportamiento por nuestra “herramienta” (instrumento)?
Cómo estimarlos en la práctica
1. Estimación del PATE (Population Average Treatment Effect)
El PATE suele estimarse mediante métodos de control de confusores (ajuste multivariable, propensity score, etc.).
Métodos comunes en R:
Regresión lineal ajustada (simple, pero requiere correctos supuestos).
Propensity Score Matching (PSM) o weighting (IPTW).
# Cargar paqueteslibrary(AER) # ivreg + test de Hausmanlibrary(sandwich) # Errores robustoslibrary(lmtest) # Para tests# 1. Modelo IV (2SLS ó 2MCE)model_iv <-ivreg(health_score ~ educ_high + age + income + sex | reform_law + age + income + sex, data = datos)# Resumen con errores estándar robustossummary(model_iv, vcov =vcovHC(model_iv, type ="HC3"))# 2. Primera etapa (comprobar relevancia del instrumento)first_stage <-lm(educ_high ~ reform_law + age + income + sex, data = datos)summary(first_stage)# F-statistic del instrumento (debe ser > 10, idealmente mucho mayor)linearHypothesis(first_stage, "reform_law = 0", test ="F")# 3. Test de exogeneidad de Hausman (comparación IV vs OLS)model_ols <-lm(health_score ~ educ_high + age + income + sex, data = datos)# Versión automática con AERhausman_test <-hausman(model_iv, model_ols)print(hausman_test)# Interpretación:# H0: El tratamiento es exógeno (OLS es consistente)# Si p-value < 0.05 → rechazar H0 → se prefiere el estimador IV
Interpretación: El coeficiente de educ_high estima el LATE, el efecto de la educación sobre la salud solo entre los “compliers” (quienes estudiaron más por la reforma legal).
Sesgos comunes
Para PATE (métodos de control de confusores):
Confusión residual / sesgo por variables omitidas(Residual confounding / omitted variable bias): No se incluyen todos los factores de confusión relevantes (por ejemplo, motivación personal, redes sociales, exposición a estrés crónico, etc.).
Sesgo de selección (Selection bias): La muestra no representa adecuadamente a la población objetivo.
Violación de positividad: Algunos perfiles de individuos tienen probabilidades casi nulas de recibir el tratamiento (ej. personas en extrema pobreza con alta educación).
Especificación incorrecta del modelo (Model misspecification): Asumir una forma funcional equivocada (por ejemplo, asumir linealidad cuando no la hay).
Sesgo por sobreajuste (Overcontrol bias): Ajustar por variables mediadoras o posteriores al tratamiento.
Para LATE (métodos instrumentales):
Instrumento débil (Weak instrument bias): Correlación baja entre el instrumento y el tratamiento, lo que genera estimaciones inestables y sesgadas hacia el estimador de mínimos cuadrados ordinarios (OLS).
Violación de la restricción de exclusión: El instrumento afecta al resultado por vías distintas al tratamiento.
Violación de la monotonicidad: Existen “defiers” (personas que reaccionan en sentido contrario al instrumento).
Limitada generalizabilidad: El efecto solo se estima para un subgrupo específico (los “compliers”), que puede no ser representativo.
Sesgo en muestras finitas: Especialmente grave cuando el instrumento es débil.
Ejemplos específicos en salud poblacional
Educación y salud (el clásico que mencionas en el ensayo):
PATE: Efecto promedio de completar la secundaria sobre mortalidad o morbilidad en toda la población adulta.
LATE: Efecto entre quienes completaron la secundaria solo porque una reforma educativa obligatoria los forzó (ej. aumento de edad mínima de abandono escolar). Ejemplo real: estudios usando reformas educativas en Suecia, UK o EE.UU.
Políticas antitabaco:
Instrumento: Aumento fuerte de impuestos al tabaco o implementación de leyes antitabaco.
LATE: Efecto de dejar de fumar sobre enfermedades cardiovasculares entre quienes dejaron de fumar por el aumento de precio (compliers).
PATE: Efecto promedio que tendría subir los impuestos en toda la población.
Vacunas o suplementos:
Ejemplo histórico: suplemento de vitamina A en Indonesia (Sommer & Zeger). Usaron asignación aleatoria por aldea como instrumento para recibir el suplemento (no todos los asignados lo tomaron) → estimación de LATE/CACE sobre mortalidad infantil.
Acceso a atención médica:
Instrumento: Distancia al hospital o cambios en elegibilidad de seguros públicos (ej. transición fácil entre el régimen contributivo y subsidiado).
LATE: Efecto de tener seguro sobre utilización de servicios y salud entre quienes obtienen cobertura solo por la expansión.
Estos ejemplos ilustran por qué PATE y LATE no son intercambiables: un tomador de decisión interesado en el impacto de una política universal necesita algo cercano al PATE, mientras que muchos estudios econométricos entregan LATE, que puede ser menos generalizable.