Introducción

Este tutorial te guiará a través de las pruebas estadísticas fundamentales para comparar proporciones entre dos grupos, una tarea común en la investigación clínica y epidemiológica.

Objetivos de Aprendizaje

Utilizar e interpretar intervalos de confianza para la diferencia de proporciones.
Comprender y aplicar la prueba Z para comparar dos proporciones.
Seleccionar y aplicar la prueba de Chi-cuadrado para tablas de contingencia.
Identificar cuándo usar el Test Exacto de Fisher para muestras pequeñas.
Aplicar métodos de simulación (permutaciones, bootstrapping) como alternativas robustas.

Esquema de Decisión: ¿Qué Prueba Utilizar?

1.Intervalo de Confianza (IC) para la Diferencia de Proporciones

El intervalo de confianza (IC) permite estimar el rango de valores plausibles para la diferencia entre dos proporciones poblacionales.
Un IC del 95% indica que, si se repitiera el estudio muchas veces, el 95% de los intervalos obtenidos contendría la verdadera diferencia poblacional.

Fórmula del error estándar sin agrupación

\[ SE_{unpooled} = \sqrt{\frac{p_1(1 - p_1)}{n_1} + \frac{p_2(1 - p_2)}{n_2}} \]

El intervalo de confianza se calcula como:

\[ IC_{95\%} = (p_1 - p_2) \pm Z_{0.975} \times SE_{unpooled} \]

donde \(Z_{0.975} = 1.96\) para un nivel de confianza del 95%.

Ejemplo con datos del estudio

Grupo	Pacientes	Trombosis	Proporción
Fármaco A	150	12	0.08
Warfarina	160	24	0.15

Código en R

# Proporciones observadas
p1 <- 12 / 150
p2 <- 24 / 160

# Tamaños muestrales
n1 <- 150
n2 <- 160

# Error estándar sin agrupación
SE_unpooled <- sqrt((p1 * (1 - p1) / n1) + (p2 * (1 - p2) / n2))

# Intervalo de confianza del 95%
IC_inf <- (p1 - p2) - 1.96 * SE_unpooled
IC_sup <- (p1 - p2) + 1.96 * SE_unpooled

c(IC_inf, IC_sup)

## [1] -0.1403293685  0.0003293685

Interpretación

Si el intervalo incluye el valor 0, no hay evidencia suficiente para afirmar que las proporciones son diferentes.
Si el intervalo no incluye 0, se concluye que existe una diferencia estadísticamente significativa entre las proporciones.
Además del valor p, el intervalo de confianza permite evaluar la magnitud y la precisión del efecto observado.

2. Prueba Z para la Diferencia de Dos Proporciones

Esta prueba se utiliza para comparar proporciones entre dos grupos independientes, por ejemplo, la proporción de éxito entre dos tratamientos médicos.

Supuestos

Los grupos son independientes.
Las muestras son aleatorias.
Se cumple la condición de éxito-fracaso: \(n_1p_1, n_1(1-p_1), n_2p_2, n_2(1-p_2) \ge 10\)

Fórmulas para la Prueba Z de Diferencia de Proporciones

La prueba Z se utiliza para determinar si existe una diferencia significativa entre las proporciones de dos grupos independientes.

Hipótesis

\[ H_0: p_1 = p_2 \quad \text{(no hay diferencia entre las proporciones poblacionales)} \]

\[ H_a: p_1 \neq p_2 \quad \text{(existe una diferencia entre las proporciones poblacionales)} \]

Proporciones muestrales

\[ \hat{p}_1 = \frac{x_1}{n_1} \quad , \quad \hat{p}_2 = \frac{x_2}{n_2} \]

donde:
- \(x_1\) y \(x_2\) son los conteos de “éxitos” en cada grupo.
- \(n_1\) y \(n_2\) son los tamaños muestrales.

Proporción combinada bajo \(H_0\)

Cuando se asume que \(p_1 = p_2\) bajo la hipótesis nula, se calcula la proporción combinada (o “pooled proportion”):

\[ \hat{p}_{pool} = \frac{x_1 + x_2}{n_1 + n_2} \]

Error estándar combinado

\[ SE_{pool} = \sqrt{\hat{p}_{pool} (1 - \hat{p}_{pool}) \left(\frac{1}{n_1} + \frac{1}{n_2}\right)} \]

Estadístico de prueba

\[ Z = \frac{(\hat{p}_1 - \hat{p}_2)}{SE_{pool}} \]

Este estadístico sigue aproximadamente una distribución normal estándar bajo \(H_0\).

Criterio de decisión

Para un nivel de significancia \(\alpha = 0.05\):

Rechaza \(H_0\) si \(|Z| > 1.96\) (prueba bilateral).
Rechaza \(H_0\) si \(Z > 1.645\) o \(Z < -1.645\) para pruebas unilaterales.

El valor p se obtiene como:

\[ p\text{-valor} = 2 \times P(Z > |Z_{obs}|) \]

Si el valor p < 0.05, se concluye que existe una diferencia estadísticamente significativa entre las proporciones de los dos grupos.

Ejemplo: Eficacia de un nuevo fármaco

Se desea comparar la proporción de pacientes con trombosis entre dos tratamientos: Fármaco A y Warfarina.

Grupo	Pacientes	Trombosis	Proporción
Fármaco A	150	12	0.08
Warfarina	160	24	0.15

Código en R

# Datos 
exitos <- c(12, 24) 
totales <- c(150, 160) 

# Prueba Z sin corrección de continuidad 
resultado_z <- prop.test(exitos, totales, correct = FALSE) 
resultado_z

## 
##  2-sample test for equality of proportions without continuity correction
## 
## data:  exitos out of totales
## X-squared = 3.6959, df = 1, p-value = 0.05455
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.1403280761  0.0003280761
## sample estimates:
## prop 1 prop 2 
##   0.08   0.15

# Cálculo manual de la estadística Z y el valor p
p1 <- 12 / 150
p2 <- 24 / 160
p_pool <- (12 + 24) / (150 + 160)
SE_pool <- sqrt(p_pool * (1 - p_pool) * (1/150 + 1/160))
Z <- (p1 - p2) / SE_pool
p_valor <- 2 * (1 - pnorm(abs(Z)))

list(Z = Z, p_valor = p_valor)

## $Z
## [1] -1.922463
## 
## $p_valor
## [1] 0.05454753

Interpretación:

Si el valor p es menor que 0.05, se concluye que existe una diferencia estadísticamente significativa entre las proporciones.
Si el valor p es mayor que 0.05, no hay evidencia suficiente para afirmar que los tratamientos difieren.

3. Prueba de Chi-cuadrado (χ²)

La prueba de Chi-cuadrado se utiliza para evaluar si existe una asociación significativa entre dos variables categóricas.
Compara las frecuencias observadas con las esperadas bajo la hipótesis de independencia.

Fórmula del estadístico Chi-cuadrado

El estadístico de la prueba de Chi-cuadrado mide cuánto difieren las frecuencias observadas de las esperadas bajo la hipótesis nula de independencia entre las variables.

\[ \chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}} \]

donde:

\(O_{ij}\) representa la frecuencia observada en la celda \(i,j\).
\(E_{ij}\) es la frecuencia esperada, calculada como:

\[ E_{ij} = \frac{(\text{Total de la fila}_i) \times (\text{Total de la columna}_j)}{\text{Gran total}} \]

El estadístico \(\chi^2\) se compara con la distribución Chi-cuadrado con:

\[ gl = (r - 1)(c - 1) \]

donde \(r\) es el número de filas y \(c\) el número de columnas de la tabla de contingencia.

Si el valor p asociado a \(\chi^2\) es menor que el nivel de significancia (por ejemplo, \(\alpha = 0.05\)), se rechaza la hipótesis nula, concluyendo que existe asociación significativa entre las variables categóricas.

Supuestos

Los datos son conteos de frecuencia, no porcentajes.
Las observaciones son independientes.
El valor esperado en cada celda debe ser al menos 5.

Ejemplo: Tabaquismo y Cáncer

# Tabla de contingencia
tabla <- matrix(c(80, 20, 50, 50), nrow = 2, byrow = FALSE)
colnames(tabla) <- c("Cáncer", "Control")
rownames(tabla) <- c("Fumador", "No Fumador")

tabla

##            Cáncer Control
## Fumador        80      50
## No Fumador     20      50

# Prueba de Chi-cuadrado
chisq.test(tabla)

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  tabla
## X-squared = 18.484, df = 1, p-value = 1.714e-05

Interpretación: Si el valor p es menor que 0.05, existe evidencia estadísticamente significativa de asociación entre el tabaquismo y el cáncer.

4. Test Exacto de Fisher

El Test Exacto de Fisher se aplica cuando las frecuencias esperadas en alguna celda son menores que 5. Es una prueba no paramétrica que calcula la probabilidad exacta de observar una distribución igual o más extrema que la obtenida.

Ejemplo: Náuseas y Tratamiento

# Tabla con frecuencias pequeñas
tabla_rara <- matrix(c(4, 3, 1, 7), nrow = 2, byrow = FALSE)
colnames(tabla_rara) <- c("Náuseas", "Sin Náuseas")
rownames(tabla_rara) <- c("Tratamiento", "Placebo")

tabla_rara

##             Náuseas Sin Náuseas
## Tratamiento       4           1
## Placebo           3           7

# Test exacto de Fisher
fisher.test(tabla_rara)

## 
##  Fisher's Exact Test for Count Data
## 
## data:  tabla_rara
## p-value = 0.1189
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##    0.5027782 521.2731861
## sample estimates:
## odds ratio 
##   7.876343

Interpretación: Si el valor p es menor que 0.05, existe evidencia significativa de diferencia entre los tratamientos. Si el valor p es mayor que 0.05, no se observa diferencia estadísticamente significativa.

5. Métodos por Simulación

Los métodos de simulación, como la prueba de permutación y el bootstrapping, no requieren supuestos de normalidad ni de tamaño de muestra grande. Son útiles cuando los métodos tradicionales no son apropiados o se desea una estimación más robusta.

5.1 Prueba de Permutación

Evalúa si la diferencia observada entre las proporciones podría deberse al azar al redistribuir aleatoriamente las observaciones entre los grupos.

library(infer)

# Datos simulados
datos_farmaco <- data.frame(
  tratamiento = rep(c("Farmaco_A", "Warfarina"), times = c(150, 160)),
  resultado = c(rep("Trombosis", 12), rep("No_Trombosis", 138),
                rep("Trombosis", 24), rep("No_Trombosis", 136))
)

# Diferencia observada
diferencia_obs <- datos_farmaco %>%
  specify(resultado ~ tratamiento, success = "Trombosis") %>%
  calculate(stat = "diff in props", order = c("Farmaco_A", "Warfarina"))

# Distribución nula por permutación
distribucion_nula <- datos_farmaco %>%
  specify(resultado ~ tratamiento, success = "Trombosis") %>%
  hypothesize(null = "independence") %>%
  generate(reps = 5000, type = "permute") %>%
  calculate(stat = "diff in props", order = c("Farmaco_A", "Warfarina"))

# Cálculo del valor p
get_p_value(distribucion_nula, obs_stat = diferencia_obs, direction = "two-sided")

## # A tibble: 1 × 1
##   p_value
##     <dbl>
## 1  0.0832

Interpretación: El valor p se obtiene a partir de la proporción de diferencias simuladas tan extremas como la observada bajo la hipótesis nula.

5.2 Bootstrapping

El método de bootstrapping permite estimar el intervalo de confianza para la diferencia de proporciones mediante remuestreo con reemplazo.

# Distribución bootstrap
distribucion_bootstrap <- datos_farmaco %>%
  specify(resultado ~ tratamiento, success = "Trombosis") %>%
  generate(reps = 5000, type = "bootstrap") %>%
  calculate(stat = "diff in props", order = c("Farmaco_A", "Warfarina"))

# Intervalo de confianza del 95%
get_confidence_interval(distribucion_bootstrap, level = 0.95, type = "percentile")

## # A tibble: 1 × 2
##   lower_ci upper_ci
##      <dbl>    <dbl>
## 1   -0.141 -0.00108

Interpretación: El intervalo de confianza obtenido mediante bootstrapping puede compararse con el intervalo teórico calculado en la sección 2. Si el intervalo incluye 0, no existe evidencia estadística de diferencia entre los tratamientos.

6. Guía Rápida de Selección de Prueba

Característica	Prueba Z / Chi-cuadrado	Test de Fisher	Permutación / Bootstrap
Tamaño de muestra	Grande (≥5 esperados)	Pequeña (<5 esperados)	Cualquiera
Supuestos	Independencia, n grande	Independencia	Ninguno
Resultado	p-valor, IC	p-valor exacto	p o IC simulados
Ventajas	Simplicidad	Exactitud	Flexibilidad
Limitaciones	Poco fiable si n pequeño	Limitado a 2x2	Mayor carga computacional

7. Consideraciones Finales

Un resultado estadísticamente significativo no implica necesariamente relevancia clínica.
El investigador debe evaluar tanto el valor p como la magnitud del efecto y el intervalo de confianza.
Los métodos de simulación son útiles cuando los supuestos de las pruebas tradicionales no se cumplen o se dispone de software estadístico para implementarlos.

Tutorial: Comparación de dos o más proporciones

Giovanni Francisco Guevara, MD, MPH

2025-10-17

Introducción

Objetivos de Aprendizaje

Esquema de Decisión: ¿Qué Prueba Utilizar?

1.Intervalo de Confianza (IC) para la Diferencia de Proporciones

Fórmula del error estándar sin agrupación

Ejemplo con datos del estudio

Código en R

Interpretación

2. Prueba Z para la Diferencia de Dos Proporciones

Supuestos

Fórmulas para la Prueba Z de Diferencia de Proporciones

Hipótesis

Proporciones muestrales

Proporción combinada bajo \(H_0\)

Error estándar combinado

Estadístico de prueba

Criterio de decisión

Ejemplo: Eficacia de un nuevo fármaco

Código en R

Interpretación:

3. Prueba de Chi-cuadrado (χ²)

Fórmula del estadístico Chi-cuadrado

Supuestos

Ejemplo: Tabaquismo y Cáncer

4. Test Exacto de Fisher

Ejemplo: Náuseas y Tratamiento

5. Métodos por Simulación

5.1 Prueba de Permutación

5.2 Bootstrapping

6. Guía Rápida de Selección de Prueba

7. Consideraciones Finales