Introducción a la Distribución Muestral de la Diferencia de Proporciones

La distribución muestral de la diferencia de proporciones se utiliza para comparar las proporciones de dos grupos independientes. Es un concepto clave en inferencia estadística, especialmente en pruebas de hipótesis y la construcción de intervalos de confianza para la diferencia entre dos proporciones.

Propiedades de la Distribución Muestral de la Diferencia de Proporciones

Supongamos que tenemos dos muestras independientes de tamaños \(n_1\) y \(n_2\) con proporciones muestrales \(\widehat{p}_{1}\) y \(\widehat{p}_{2}\).

  1. Media de la Distribución:
  • La media de la distribución muestral de la diferencia de proporciones es igual a la diferencia de las proporciones poblacionales:

\[ {\mu}_{\overline{X}_{1}-\overline{X}_{2}}={\pi}_{1}-{\pi}_{2} \]

  1. Desviación Estándar (Error Estándar):
  • La desviación estándar de la diferencia de proporciones es:

\[ {\sigma}_{\widehat{p}_{1}-\widehat{p}_{2}}=\sqrt{\frac{{\pi}_{1}\left(1-{\pi}_{1}\right)}{n_1}+\frac{{\pi}_{2}\left(1-{\pi}_{2}\right)}{n_2}} \]

  • Cuando las proporciones poblacionales no son conocidas, usamos las proporciones muestrales \(\widehat{p}_{1}\) y \(\widehat{p}_{2}\):

\[ {\sigma}_{\widehat{p}_{1}-\widehat{p}_{2}}=\sqrt{\frac{{\widehat{p}}_{1}\left(1-{\widehat{p}}_{1}\right)}{n_1}+\frac{{\widehat{p}}_{2}\left(1-{\widehat{p}}_{2}\right)}{n_2}} \]

  1. Forma de la Distribución:
  • Si los tamaños de las muestras son suficientemente grandes, la distribución muestral de la diferencia de proporciones se aproxima a una distribución normal.

Ejemplo de Distribución Muestral de la Diferencia de Proporciones

Simulemos un escenario en el que comparamos la proporción de éxito en dos grupos.

set.seed(123)

# Parámetros poblacionales
p1 <- 0.6
p2 <- 0.5

# Tamaños de muestra
n1 <- 100
n2 <- 100

# Función para simular la diferencia de proporciones
calcular_diferencia_proporciones <- function(num_simulaciones = 1000) {
  replicate(num_simulaciones, {
    muestra1 <- rbinom(1, n1, p1) / n1
    muestra2 <- rbinom(1, n2, p2) / n2
    muestra1 - muestra2
  })
}

# Simular diferencias de proporciones
diferencias_proporciones <- calcular_diferencia_proporciones()

# Crear un data frame para graficar
df_diferencias_proporciones <- data.frame(Diferencia = diferencias_proporciones)

# Graficar
ggplot(df_diferencias_proporciones, aes(x = Diferencia)) +
  geom_histogram(bins = 30, fill = "lightblue", alpha = 0.7) +
  geom_vline(aes(xintercept = p1 - p2), color = "red", linetype = "dashed", size = 1) +
  labs(title = "Distribución Muestral de la Diferencia de Proporciones",
       x = "Diferencia de Proporciones Muestrales", y = "Frecuencia") +
  theme_minimal() +
  annotate("text", x = p1 - p2, y = max(table(cut(df_diferencias_proporciones$Diferencia, breaks = 30))) * 0.8, 
           label = "Diferencia Poblacional", color = "red", hjust = -0.2, size = 4)

Ejercicio Resuelto

Apliquemos el concepto de distribución muestral de la diferencia de proporciones en un contexto práctico.

Ejercicio: Comparación de Dos Grupos

Supongamos que estamos comparando dos tratamientos para una enfermedad, donde 60%60% de los pacientes del primer tratamiento se curan, mientras que 50% de los pacientes del segundo tratamiento se curan. Simularemos la distribución de la diferencia de proporciones.

set.seed(456)

# Parámetros poblacionales alternativos
p1_alt <- 0.7
p2_alt <- 0.4

# Tamaños de muestra
n1_alt <- 120
n2_alt <- 120

# Simular diferencias de proporciones
diferencias_proporciones_alt <- replicate(1000, {
  muestra1 <- rbinom(1, n1_alt, p1_alt) / n1_alt
  muestra2 <- rbinom(1, n2_alt, p2_alt) / n2_alt
  muestra1 - muestra2
})

# Crear un data frame para graficar
df_diferencias_proporciones_alt <- data.frame(Diferencia = diferencias_proporciones_alt)

# Graficar
ggplot(df_diferencias_proporciones_alt, aes(x = Diferencia)) +
  geom_histogram(bins = 30, fill = "orange", alpha = 0.7) +
  geom_vline(aes(xintercept = p1_alt - p2_alt), color = "red", linetype = "dashed", size = 1) +
  labs(title = "Distribución Muestral de la Diferencia de Proporciones (Grupos Alternativos)",
       x = "Diferencia de Proporciones Muestrales", y = "Frecuencia") +
  theme_minimal() +
  annotate("text", x = p1_alt - p2_alt, y = max(table(cut(df_diferencias_proporciones_alt$Diferencia, breaks = 30))) * 0.8, 
           label = "Diferencia Poblacional", color = "red", hjust = -0.2, size = 4)

Interpretación del Ejercicio

Este ejercicio ilustra cómo la distribución muestral de la diferencia de proporciones se centra alrededor de la diferencia de proporciones poblacionales reales a medida que aumentamos el tamaño de las muestras. La aproximación normal mejora con muestras más grandes.

Conclusiones

La distribución muestral de la diferencia de proporciones es una herramienta esencial para comparar dos proporciones y realizar inferencias estadísticas sobre la diferencia entre ellas. Mediante simulaciones y ejemplos prácticos, hemos demostrado cómo las diferencias de proporciones muestrales se distribuyen alrededor de la diferencia de proporciones poblacionales verdaderas, lo cual es crucial para el diseño de experimentos y la toma de decisiones basada en datos.