Se cargan paquetes necesarios y se genera la población de 1000 donde hay una posibilidad de estar enfermo o sano representando con 1 y 0 respectivamente.
En otras palabras se planea lo necesario para realizar simulaciones en las que se va a examinar el comportamiento de la proporción de individuos enfermos en muestras de diferentes tamaños tomadas de una población con una tasa de enfermedad del 50%.
# Cargar paquetes necesarios
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.3.3
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(ggpubr)
## Warning: package 'ggpubr' was built under R version 4.3.3
# Generar la población
set.seed(123) # Para asegurar reproducibilidad
population_size <- 1000
population <- rbinom(n = population_size, size = 1, prob = 0.5) # 50% enfermas
# Función para obtener una muestra y calcular p-hat
get_sample_prop <- function(sample_size) {
sample <- sample(population, size = sample_size)
return(mean(sample))
}
Se define el tamaño de muestra de la simulación para observar la distribución de las proporciones muestrales derivadas de tomar muestras de 30 individuos de tu población. Te facilita la comprensión y evaluación de esta distribución a través de dos métodos gráficos: un histograma, que muestra la estructura general de los datos, y un gráfico Q-Q, que se utiliza para contrastar esta distribución con una distribución normal ideal.
sample_size <- 30 # Cambia esto para diferentes tamaños de muestra
p_hat_values <- replicate(500, get_sample_prop(sample_size))
# Histograma
hist(p_hat_values, breaks = 20, main = "Distribución de p-hat para n=30", xlab = "p-hat", col = "skyblue", border = "white")
Histograma y QQ-plot para n=30
# QQ-plot
qqnorm(p_hat_values, main = "QQ-plot para n=30")
qqline(p_hat_values, col = "red")
Histograma y QQ-plot para n=30
A partir del histograma podemos ver que la distribución parece ser relativamente simétrica alrededor del valor central (0.5), lo cual es un indicador de que la distribución de la proporción muestral se aproxima a una distribución normal, como predice el Teorema del Límite Central y menor frecuencia en los extremos 0.3 y 0.8.
A partir del QQ-Plot vemos desviaciones no muy elevadas en los extremos y en el resto una alineación con la linea de tendencia lo que tambien sugiere normalidas.
Ahora realizamos diferentes tamaños de muestra para identificar la distribución de p-hat y una visualización gráfica que permite un reconocimiento más intuitivo.
sample_sizes <- c(5, 10, 15, 20, 30, 50, 60, 100, 200, 500)
results <- list()
for (n in sample_sizes) {
p_hat_values <- replicate(500, get_sample_prop(n))
results[[paste("n", n, sep = "=")]] <- p_hat_values
# Histograma para cada tamaño de muestra
hist(p_hat_values, breaks = 20, main = paste("Distribución de p-hat para n =", n), xlab = "p-hat", col = "skyblue", border = "white")
# QQ-plot para cada tamaño de muestra
qqnorm(p_hat_values, main = paste("QQ-plot para n =", n))
qqline(p_hat_values, col = "red")
}
Con los diferentes gráficos identificamos que en el QQ-Plot a medidad que aument ala muestra se alinea más con la tendencia y en los histogramas vemos distribuciones irregulares y en las primeras muestras pero que a medida que aumenta se acerca a la forma de campana.
Luego realizamos pruebas de normalidad en las proporciones muestrales de diferentes tamaños de muestra para ver qué tan cercanas están a una distribución normal, ofreciendo una manera numérica de entender el impacto del tamaño de la muestra en la normalidad de los datos.
library(knitr)
normality_test_results <- lapply(results, shapiro.test)
# Convertir resultados a un dataframe para una mejor visualización
normality_test_df <- do.call(rbind, lapply(normality_test_results, function(test) {
data.frame(p_value = test$p.value)
}))
rownames(normality_test_df) <- names(normality_test_results)
# Imprimir la tabla
kable(normality_test_df, caption = "Resultados de la prueba de Shapiro-Wilk para diferentes tamaños de muestra")
| p_value | |
|---|---|
| n=5 | 0.0000000 |
| n=10 | 0.0000000 |
| n=15 | 0.0000007 |
| n=20 | 0.0000046 |
| n=30 | 0.0001217 |
| n=50 | 0.0009476 |
| n=60 | 0.0010367 |
| n=100 | 0.0041124 |
| n=200 | 0.0786395 |
| n=500 | 0.0328065 |
Los valores obtenidos de la prueba de Shapiro-Wilk, aplicada a nuestras simulaciones con distintos tamaños de muestra, indican claramente cómo la normalidad de las distribuciones se modifica en función del tamaño de la muestra analizada. En los casos de muestras más reducidas, hasta 60 individuos, los valores p extremadamente bajos sugieren una desviación significativa de una distribución normal. No obstante, este patrón empieza a cambiar notablemente cuando evaluamos muestras de 100 individuos en adelante, observando un incremento en los valores p que, para muestras de 200 y 500, superan el límite convencional de 0.05, lo cual no permite rechazar la hipótesis de que estas distribuciones siguen un comportamiento normal. Este fenómeno respalda la teoría ofrecida por el Teorema del Límite Central, demostrando que conforme el tamaño de la muestra crece, la distribución de las proporciones muestrales tiende hacia la normalidad
A través de las simulaciones realizadas, se observó que las distribuciones de las proporciones muestrales para tamaños de muestra pequeños mostraban una variabilidad considerable y no se adherían a una distribución normal, lo cual cambia progresivamente con el aumento del tamaño de la muestra.
Los histogramas y gráficos Q-Q generados para distintos tamaños de muestra revelaron una tendencia hacia la simetría y la forma de campana característica de la distribución normal, especialmente evidente en muestras grandes.
La aplicación de la prueba de Shapiro-Wilk a los resultados de las simulaciones confirmó cuantitativamente que, a medida que el tamaño de la muestra aumenta, las proporciones muestrales tienden a seguir una distribución más normal, superando el umbral de significancia estadística en tamaños de muestra de 200 y 500.
Estos hallazgos validan empíricamente el Teorema del Límite Central, demostrando su aplicabilidad y la importancia del tamaño de la muestra en la inferencia estadística, subrayando que para tamaños de muestra suficientemente grandes, la distribución de la proporción muestral se aproxima a una distribución normal.