La distribución de la proporción es un concepto clave en estadística inferencial que se utiliza para estimar la proporción de una característica particular en una población. Se refiere a la distribución de las proporciones de todas las muestras posibles de un tamaño fijo nn extraídas de una población.
\[ {\mu}_{\widehat{p}}=\pi \]
\[ {\sigma}_{\widehat{p}}=\sqrt{\frac{\pi\left(1-\pi\right)}{n}} \]
Consideremos una moneda equilibrada (justa) y queremos estimar la proporción de caras al lanzar la moneda. Analizaremos cómo se comporta la distribución de la proporción muestral para diferentes tamaños de muestra.
set.seed(123)
# Función para calcular la proporción muestral
calcular_proporcion_muestral <- function(n, num_simulaciones = 1000) {
replicate(num_simulaciones, mean(rbinom(n, size = 1, prob = 0.5)))
}
# Simulaciones con diferentes tamaños de muestra
proporciones_n10 <- calcular_proporcion_muestral(10)
proporciones_n30 <- calcular_proporcion_muestral(30)
proporciones_n100 <- calcular_proporcion_muestral(100)
# Crear data frames para graficar
df_n10 <- data.frame(Proporción = proporciones_n10, Tamaño = "n = 10")
df_n30 <- data.frame(Proporción = proporciones_n30, Tamaño = "n = 30")
df_n100 <- data.frame(Proporción = proporciones_n100, Tamaño = "n = 100")
# Combinar los data frames
df_distribucion_moneda <- bind_rows(df_n10, df_n30, df_n100)
# Graficar
ggplot(df_distribucion_moneda, aes(x = Proporción, fill = Tamaño)) +
geom_histogram(bins = 30, alpha = 0.7, position = "identity") +
facet_wrap(~ Tamaño, scales = "free_y") +
labs(title = "Distribución de Proporciones Muestrales (Moneda Equilibrada)",
x = "Proporción Muestral", y = "Frecuencia") +
theme_minimal()
Supongamos que realizamos una encuesta para estimar la proporción de personas que prefieren el producto A en una población donde el 60% prefiere este producto. Queremos ver cómo se comporta la proporción muestral.
set.seed(123)
# Función para calcular la proporción muestral
calcular_proporcion_muestral_encuesta <- function(n, num_simulaciones = 1000) {
replicate(num_simulaciones, mean(rbinom(n, size = 1, prob = 0.6)))
}
# Simulaciones con diferentes tamaños de muestra
proporciones_encuesta_n10 <- calcular_proporcion_muestral_encuesta(10)
proporciones_encuesta_n30 <- calcular_proporcion_muestral_encuesta(30)
proporciones_encuesta_n100 <- calcular_proporcion_muestral_encuesta(100)
# Crear data frames para graficar
df_encuesta_n10 <- data.frame(Proporción = proporciones_encuesta_n10, Tamaño = "n = 10")
df_encuesta_n30 <- data.frame(Proporción = proporciones_encuesta_n30, Tamaño = "n = 30")
df_encuesta_n100 <- data.frame(Proporción = proporciones_encuesta_n100, Tamaño = "n = 100")
# Combinar los data frames
df_distribucion_encuesta <- bind_rows(df_encuesta_n10, df_encuesta_n30, df_encuesta_n100)
# Graficar
ggplot(df_distribucion_encuesta, aes(x = Proporción, fill = Tamaño)) +
geom_histogram(bins = 30, alpha = 0.7, position = "identity") +
facet_wrap(~ Tamaño, scales = "free_y") +
labs(title = "Distribución de Proporciones Muestrales (Encuesta de Preferencia)",
x = "Proporción Muestral", y = "Frecuencia") +
theme_minimal()
Aplicaremos el concepto de distribución de la proporción muestral usando un ejemplo de aprobación de un candidato político.
Supongamos que el 45% de la población aprueba a un candidato. Queremos analizar la distribución de la proporción muestral para diferentes tamaños de muestra.
set.seed(123)
# Función para calcular la proporción muestral
calcular_proporcion_muestral_candidato <- function(n, num_simulaciones = 1000) {
replicate(num_simulaciones, mean(rbinom(n, size = 1, prob = 0.45)))
}
# Simulaciones con diferentes tamaños de muestra
proporciones_candidato_n10 <- calcular_proporcion_muestral_candidato(10)
proporciones_candidato_n30 <- calcular_proporcion_muestral_candidato(30)
proporciones_candidato_n100 <- calcular_proporcion_muestral_candidato(100)
# Crear data frames para graficar
df_candidato_n10 <- data.frame(Proporción = proporciones_candidato_n10, Tamaño = "n = 10")
df_candidato_n30 <- data.frame(Proporción = proporciones_candidato_n30, Tamaño = "n = 30")
df_candidato_n100 <- data.frame(Proporción = proporciones_candidato_n100, Tamaño = "n = 100")
# Combinar los data frames
df_distribucion_candidato <- bind_rows(df_candidato_n10, df_candidato_n30, df_candidato_n100)
# Graficar
ggplot(df_distribucion_candidato, aes(x = Proporción, fill = Tamaño)) +
geom_histogram(bins = 30, alpha = 0.7, position = "identity") +
facet_wrap(~ Tamaño, scales = "free_y") +
labs(title = "Distribución de Proporciones Muestrales (Aprobación de Candidato)",
x = "Proporción Muestral", y = "Frecuencia") +
theme_minimal()
La distribución de la proporción muestral es fundamental para estimar proporciones poblacionales a partir de muestras. A través de los ejemplos, hemos observado cómo la distribución de la proporción muestral se aproxima a una normalidad a medida que el tamaño de la muestra aumenta, permitiendo realizar inferencias estadísticas válidas sobre las proporciones poblacionales.