Introducción a la Distribución de la Proporción

La distribución de la proporción es un concepto clave en estadística inferencial que se utiliza para estimar la proporción de una característica particular en una población. Se refiere a la distribución de las proporciones de todas las muestras posibles de un tamaño fijo nn extraídas de una población.

Propiedades de la Distribución de la Proporción

  1. Media de la Distribución de la Proporción \(\left({\mu}_{\widehat{p}}\right)\):
  • La media de la distribución de la proporción muestral es igual a la proporción de la población:

\[ {\mu}_{\widehat{p}}=\pi \]

  1. Desviación Estándar de la Distribución de la Proporción \(\left({\sigma}_{\widehat{p}}\right)\):
  • La desviación estándar de la proporción muestral, también llamada error estándar, es igual a:

\[ {\sigma}_{\widehat{p}}=\sqrt{\frac{\pi\left(1-\pi\right)}{n}} \]

  1. Forma de la Distribución:
  • Para tamaños de muestra suficientemente grandes, la distribución de la proporción muestral se aproxima a una distribución normal, especialmente cuando \(n\pi\) y \(n(1−\pi)\) son ambos mayores que 5.

Ejemplos

Ejemplo 1: Moneda Equilibrada

Consideremos una moneda equilibrada (justa) y queremos estimar la proporción de caras al lanzar la moneda. Analizaremos cómo se comporta la distribución de la proporción muestral para diferentes tamaños de muestra.

set.seed(123)

# Función para calcular la proporción muestral
calcular_proporcion_muestral <- function(n, num_simulaciones = 1000) {
  replicate(num_simulaciones, mean(rbinom(n, size = 1, prob = 0.5)))
}

# Simulaciones con diferentes tamaños de muestra
proporciones_n10 <- calcular_proporcion_muestral(10)
proporciones_n30 <- calcular_proporcion_muestral(30)
proporciones_n100 <- calcular_proporcion_muestral(100)

# Crear data frames para graficar
df_n10 <- data.frame(Proporción = proporciones_n10, Tamaño = "n = 10")
df_n30 <- data.frame(Proporción = proporciones_n30, Tamaño = "n = 30")
df_n100 <- data.frame(Proporción = proporciones_n100, Tamaño = "n = 100")

# Combinar los data frames
df_distribucion_moneda <- bind_rows(df_n10, df_n30, df_n100)

# Graficar
ggplot(df_distribucion_moneda, aes(x = Proporción, fill = Tamaño)) +
  geom_histogram(bins = 30, alpha = 0.7, position = "identity") +
  facet_wrap(~ Tamaño, scales = "free_y") +
  labs(title = "Distribución de Proporciones Muestrales (Moneda Equilibrada)",
       x = "Proporción Muestral", y = "Frecuencia") +
  theme_minimal()

Ejemplo 2: Encuesta de Preferencia

Supongamos que realizamos una encuesta para estimar la proporción de personas que prefieren el producto A en una población donde el 60% prefiere este producto. Queremos ver cómo se comporta la proporción muestral.

set.seed(123)

# Función para calcular la proporción muestral
calcular_proporcion_muestral_encuesta <- function(n, num_simulaciones = 1000) {
  replicate(num_simulaciones, mean(rbinom(n, size = 1, prob = 0.6)))
}

# Simulaciones con diferentes tamaños de muestra
proporciones_encuesta_n10 <- calcular_proporcion_muestral_encuesta(10)
proporciones_encuesta_n30 <- calcular_proporcion_muestral_encuesta(30)
proporciones_encuesta_n100 <- calcular_proporcion_muestral_encuesta(100)

# Crear data frames para graficar
df_encuesta_n10 <- data.frame(Proporción = proporciones_encuesta_n10, Tamaño = "n = 10")
df_encuesta_n30 <- data.frame(Proporción = proporciones_encuesta_n30, Tamaño = "n = 30")
df_encuesta_n100 <- data.frame(Proporción = proporciones_encuesta_n100, Tamaño = "n = 100")

# Combinar los data frames
df_distribucion_encuesta <- bind_rows(df_encuesta_n10, df_encuesta_n30, df_encuesta_n100)

# Graficar
ggplot(df_distribucion_encuesta, aes(x = Proporción, fill = Tamaño)) +
  geom_histogram(bins = 30, alpha = 0.7, position = "identity") +
  facet_wrap(~ Tamaño, scales = "free_y") +
  labs(title = "Distribución de Proporciones Muestrales (Encuesta de Preferencia)",
       x = "Proporción Muestral", y = "Frecuencia") +
  theme_minimal()

Ejercicio Resuelto

Aplicaremos el concepto de distribución de la proporción muestral usando un ejemplo de aprobación de un candidato político.

Ejercicio: Aprobación de Candidato

Supongamos que el 45% de la población aprueba a un candidato. Queremos analizar la distribución de la proporción muestral para diferentes tamaños de muestra.

set.seed(123)

# Función para calcular la proporción muestral
calcular_proporcion_muestral_candidato <- function(n, num_simulaciones = 1000) {
  replicate(num_simulaciones, mean(rbinom(n, size = 1, prob = 0.45)))
}

# Simulaciones con diferentes tamaños de muestra
proporciones_candidato_n10 <- calcular_proporcion_muestral_candidato(10)
proporciones_candidato_n30 <- calcular_proporcion_muestral_candidato(30)
proporciones_candidato_n100 <- calcular_proporcion_muestral_candidato(100)

# Crear data frames para graficar
df_candidato_n10 <- data.frame(Proporción = proporciones_candidato_n10, Tamaño = "n = 10")
df_candidato_n30 <- data.frame(Proporción = proporciones_candidato_n30, Tamaño = "n = 30")
df_candidato_n100 <- data.frame(Proporción = proporciones_candidato_n100, Tamaño = "n = 100")

# Combinar los data frames
df_distribucion_candidato <- bind_rows(df_candidato_n10, df_candidato_n30, df_candidato_n100)

# Graficar
ggplot(df_distribucion_candidato, aes(x = Proporción, fill = Tamaño)) +
  geom_histogram(bins = 30, alpha = 0.7, position = "identity") +
  facet_wrap(~ Tamaño, scales = "free_y") +
  labs(title = "Distribución de Proporciones Muestrales (Aprobación de Candidato)",
       x = "Proporción Muestral", y = "Frecuencia") +
  theme_minimal()

Conclusiones

La distribución de la proporción muestral es fundamental para estimar proporciones poblacionales a partir de muestras. A través de los ejemplos, hemos observado cómo la distribución de la proporción muestral se aproxima a una normalidad a medida que el tamaño de la muestra aumenta, permitiendo realizar inferencias estadísticas válidas sobre las proporciones poblacionales.