La Paradoja de Simpson ocurre cuando una asociación observada entre dos variables se revierte o desaparece al controlar por una tercera variable: el confundidor.
Es uno de los fenómenos más contraintuitivos de la estadística y tiene consecuencias directas para la interpretación de estudios observacionales en epidemiología y medicina clínica.
El ejemplo clásico son las admisiones a la Universidad de Berkeley (1973). Los datos globales sugerían discriminación contra mujeres, pero al estratificar por departamento, esa diferencia desaparecía. La razón: las mujeres se postulaban desproporcionadamente a los departamentos más selectivos.
En este ejercicio reproducimos ese escenario con datos simulados.
Tenemos 200 postulantes a dos departamentos universitarios (A y B):
| Departamento A | Departamento B | |
|---|---|---|
| Tasa de admisión | 80% | 30% |
| Hombres que se postulan aquí | 80% | 20% |
| Mujeres que se postulan aquí | 20% | 80% |
El departamento B es mucho más selectivo, y las mujeres se postulan allí con mayor frecuencia. Esto va a crear una ilusión en los datos globales.
Si miramos los datos sin estratificar, ¿qué observamos?
A nivel marginal, los hombres tienen una tasa de admisión notablemente mayor que las mujeres. Una lectura apresurada de estos datos sugeriría discriminación de género.
Pero esperen — antes de concluir, estratifiquemos.
¿Qué pasa cuando separamos los datos por departamento?
Dentro de cada departamento, las tasas de admisión de hombres y mujeres son similares. La aparente desventaja de las mujeres desaparece por completo cuando controlamos por departamento, incluso parece que Las mujeres son MAS ACEPTADAS QUE LOS HOMBRES!!.
Esto es la Paradoja de Simpson en acción: la asociación global era espuria.
La clave está en cómo se distribuyen las postulaciones. Las mujeres eligen el departamento más selectivo (B) con mucha mayor frecuencia que los hombres:
El departamento actúa como confundidor porque está relacionado simultáneamente con:
Al ignorar el departamento, la menor tasa de admisión del Dpto. B “se le carga” al sexo femenino. Ese es el “engaño”.
Primero ajustamos un modelo con solo el sexo como predictor:
| admitido | ||||
|---|---|---|---|---|
| Predictors | Odds Ratios | std. Error | CI | p |
| sexoM | 2.40 | 0.70 | 1.36 – 4.29 | 0.003 |
| Observations | 200 | |||
El OR para el sexo Masculino es mayor que 1, con intervalo de confianza que no incluye el 1. Según este modelo, ser hombre aumenta mucho la probabilidad de admisión. Es la conclusión errónea a la que lleva el confundidor.
Ahora controlamos por el departamento:
| admitido | ||||
|---|---|---|---|---|
| Predictors | Odds Ratios | std. Error | CI | p |
| deptoB | 0.04 | 0.02 | 0.01 – 0.12 | <0.001 |
| sexoM | 0.30 | 0.17 | 0.09 – 0.82 | 0.033 |
| Observations | 200 | |||
Al ajustar por departamento:
Esto confirma que departamento era un confundidor:
explicaba toda la asociación aparente entre sexo y
admisión.
Hasta ahora tratamos al departamento como un confundidor puro. Pero podríamos preguntarnos: ¿el efecto del sexo es igual en ambos departamentos, o varía? Eso se evalúa con un término de interacción:
| admitido | ||||
|---|---|---|---|---|
| Predictors | Odds Ratios | std. Error | CI | p |
| deptoB | 0.03 | 0.03 | 0.00 – 0.15 | 0.001 |
| sexoM | 0.20 | 0.21 | 0.01 – 1.08 | 0.131 |
| sexoM:deptoB | 1.85 | 2.32 | 0.19 – 41.90 | 0.626 |
| Observations | 200 | |||
Las líneas son casi-paralelas: el efecto del sexo es similar en ambos departamentos. El departamento es un confundidor, no un modificador de efecto. No necesitamos reportar OR estratificados.
La paradoja de Simpson es un recordatorio de que las asociaciones marginales pueden ser completamente engañosas en presencia de confundidores. El ajuste por variables relevantes no es opcional: es la diferencia entre una conclusión válida y una conclusión falsa.