La Paradoja de Simpson

¿Qué es la Paradoja de Simpson?

La Paradoja de Simpson ocurre cuando una asociación observada entre dos variables se revierte o desaparece al controlar por una tercera variable: el confundidor.

Es uno de los fenómenos más contraintuitivos de la estadística y tiene consecuencias directas para la interpretación de estudios observacionales en epidemiología y medicina clínica.

El ejemplo clásico son las admisiones a la Universidad de Berkeley (1973). Los datos globales sugerían discriminación contra mujeres, pero al estratificar por departamento, esa diferencia desaparecía. La razón: las mujeres se postulaban desproporcionadamente a los departamentos más selectivos.

En este ejercicio reproducimos ese escenario con datos simulados.

El escenario simulado

Tenemos 200 postulantes a dos departamentos universitarios (A y B):

	Departamento A	Departamento B
Tasa de admisión	80%	30%
Hombres que se postulan aquí	80%	20%
Mujeres que se postulan aquí	20%	80%

El departamento B es mucho más selectivo, y las mujeres se postulan allí con mayor frecuencia. Esto va a crear una ilusión en los datos globales.

Paso 1 — El “engaño” marginal

Si miramos los datos sin estratificar, ¿qué observamos?

A nivel marginal, los hombres tienen una tasa de admisión notablemente mayor que las mujeres. Una lectura apresurada de estos datos sugeriría discriminación de género.

Pero esperen — antes de concluir, estratifiquemos.

Paso 2 — Miramos dentro de cada departamento

¿Qué pasa cuando separamos los datos por departamento?

Dentro de cada departamento, las tasas de admisión de hombres y mujeres son similares. La aparente desventaja de las mujeres desaparece por completo cuando controlamos por departamento, incluso parece que Las mujeres son MAS ACEPTADAS QUE LOS HOMBRES!!.

Esto es la Paradoja de Simpson en acción: la asociación global era espuria.

Paso 3 — ¿Por qué ocurre esto?

La clave está en cómo se distribuyen las postulaciones. Las mujeres eligen el departamento más selectivo (B) con mucha mayor frecuencia que los hombres:

El departamento actúa como confundidor porque está relacionado simultáneamente con:

La exposición (sexo): las mujeres se postulan más al Dpto. B
El outcome (admisión): el Dpto. B admite menos gente

Al ignorar el departamento, la menor tasa de admisión del Dpto. B “se le carga” al sexo femenino. Ese es el “engaño”.

Paso 4 — Regresión logística: crudo vs. ajustado

Modelo crudo

Primero ajustamos un modelo con solo el sexo como predictor:

Modelo crudo: admisión ~ sexo
	admitido
Predictors	Odds Ratios	std. Error	CI	p
sexoM	2.40	0.70	1.36 – 4.29	0.003
Observations	200

El OR para el sexo Masculino es mayor que 1, con intervalo de confianza que no incluye el 1. Según este modelo, ser hombre aumenta mucho la probabilidad de admisión. Es la conclusión errónea a la que lleva el confundidor.

Modelo ajustado por departamento

Ahora controlamos por el departamento:

Modelo ajustado: admisión ~ sexo + departamento
	admitido
Predictors	Odds Ratios	std. Error	CI	p
deptoB	0.04	0.02	0.01 – 0.12	<0.001
sexoM	0.30	0.17	0.09 – 0.82	0.033
Observations	200

Al ajustar por departamento:

El efecto del sexo se modifica (OR < 1)
El departamento emerge como el predictor relevante (OR muy bajo para Dpto. B)

Esto confirma que departamento era un confundidor: explicaba toda la asociación aparente entre sexo y admisión.

Paso 5 — ¿Hay modificación de efecto?

Hasta ahora tratamos al departamento como un confundidor puro. Pero podríamos preguntarnos: ¿el efecto del sexo es igual en ambos departamentos, o varía? Eso se evalúa con un término de interacción:

Modelo con interacción: admisión ~ sexo × departamento
	admitido
Predictors	Odds Ratios	std. Error	CI	p
deptoB	0.03	0.03	0.00 – 0.15	0.001
sexoM	0.20	0.21	0.01 – 1.08	0.131
sexoM:deptoB	1.85	2.32	0.19 – 41.90	0.626
Observations	200

Las líneas son casi-paralelas: el efecto del sexo es similar en ambos departamentos. El departamento es un confundidor, no un modificador de efecto. No necesitamos reportar OR estratificados.

Resumen

La paradoja de Simpson es un recordatorio de que las asociaciones marginales pueden ser completamente engañosas en presencia de confundidores. El ajuste por variables relevantes no es opcional: es la diferencia entre una conclusión válida y una conclusión falsa.