## Warning: package 'patchwork' was built under R version 4.3.3
## Warning: package 'gridExtra' was built under R version 4.3.3
El teorema del límite central es, por mucho, el resultado más importante en estadística. Muchos de los métodos estadísticos comúnmente empleados basan su validez en este teorema. El teorema del límite central establece que si se extrae una muestra lo suficientemente grande \((n > 30)\) de una población, entonces la distribución de la media muestral es aproximadamente normal, sin importar de qué tipo de población haya sido extraída la muestra.
Teniendo en cuenta lo anterior, vamos a simular algunas muestras aleatorias de diferentes tamaños, para comprobar que el planteamiento expuesto en el teorema del limite central es cierto.
En este caso, necesitamos que la función tenga las siguiente características:
Genere una muestra aleatoria de tamaño n de una distribución binomial.
Calcule el estimador de la proporción muestral \(\hat{p}\) para un tamaño de muestra dado n.
est_prop <- function(n, p){
set.seed(1234)
m=1000*n # Lote de tamaño mil
X=matrix(rbinom(m,1,p), ncol= n) # Muestras aleatorias
media <- apply(X[, 1:n], 1, mean) # media de las estimaciones
prop <- data.frame(estimaciones = media)
return(prop)
}
A continuación estimaremos \(\hat{p}\) para diferentes lotes de plantas considerando como “exito” encontrar una planta enferma.
p = 0.5 # Propoción de plantas enfermas.
m_5 <- est_prop(5, p)
m_10 <- est_prop(10, p)
m_15 <- est_prop(15, p)
m_20 <- est_prop(20, p)
m_30 <- est_prop(30, p)
m_50 <- est_prop(50, p)
m_60 <- est_prop(60, p)
m_100 <- est_prop(100, p)
m_200 <- est_prop(200, p)
m_500 <- est_prop(500, p)
m_1000 <- est_prop(1000, p)
m_0 <- est_prop(250, p)
Según varios autores, cuando el tamaño muestral es mayor a 30, la aproximación del teorema del límite central es adecuada para la mayoría de las poblaciones. Sin embargo, en este caso específico, las estimaciones para la proporción se distribuyen normalmente a partir de una muestra de tamaño \(n = 250\).
Esto se verifica mediante los resultados de la prueba de Shapiro-Wilks para normalidad. Donde el p-valor obtenido para muestras de tamaño \(n < 250\) es menor que el nivel de significancia \(\alpha = 0.05\), lo que proporciona evidencia estadística para rechazar la hipótesis nula \((H_0)\). En otras palabras, la muestra en estos casos no sigue una distribución normal. Por otro lado, para muestras de tamaño mayor a 250, el p-valor es mayor que el nivel de significancia \(\alpha\), lo que sugiere que no hay evidencia estadística para rechazar \(H_0\), indicando que es posible que la muestra tenga una distribución normal.| n | P- Valor |
|---|---|
| 5 | 2.2e-16 |
| 10 | 8.37e-15 |
| 15 | 3.68e-09 |
| 20 | 1.7e-07 |
| 30 | 9.52e-08 |
| 50 | 2.41e-05 |
| 60 | 4.95e-05 |
| 100 | 0.002125 |
| 200 | 0.03053 |
| 500 | 0.2443 |
Por medio de los histogramas, se puede observar que para muestras de tamaños pequeños, en este caso menores que 200 los histogramas muestran una cola a la izquierda y no guardan parecido con el que se obtendría a partir de una distribución normal. Sin embargo, a medida que aumenta el tamaño de la muestra, se puede ver como los histogramas empezan a adquirir la forma de una campana de Gauss.
p = 0.1 # Propoción de plantas enfermas.
m1_5 <- est_prop(5, p)
m1_10 <- est_prop(10, p)
m1_15 <- est_prop(15, p)
m1_20 <- est_prop(20, p)
m1_30 <- est_prop(30, p)
m1_50 <- est_prop(50, p)
m1_60 <- est_prop(60, p)
m1_100 <- est_prop(100, p)
m1_200 <- est_prop(200, p)
m1_500 <- est_prop(500, p)
m1_1000 <- est_prop(1000, p)
m1_0 <- est_prop(1350, p)
Ahora, realizaremos las pruebas de normalidad, usando el test de Shapiro Wilk con \(\alpha = 0.05\), y el sistema de hipótesis planteado al inicio.
| n | P- Valor |
|---|---|
| 5 | 2.2e-16 |
| 10 | 2.2e-16 |
| 15 | 2.2e-16 |
| 20 | 2.2e-16 |
| 30 | 2.2e-16 |
| 50 | 1.935e-12 |
| 60 | 5.829e-11 |
| 100 | 5.1e-08 |
| 200 | 0.000131 |
| 500 | 0.01525 |
En este caso se observa que para ninguno de los tamaños de muestra el p-valor es mayor que el nivel de significancia, por lo cual se rechaza la hipótesis nula de que las muestras provienen de una distribución normal. Sin embargo, por medio de experimentación se pudo determinar que para muestras que superan un tamaño de 1300 observaciones, la distribución se comporta como una normal.
Los histogramas muestran que para muestras de tamaño pequeño, en este caso menores a 100, los histogramas presentan colas a la derecha y no tienen un comportamiento similar al de la distribución normal. Por otra parte, a medida que n aumenta, los histogramas se asemejan cada vez más a los que mostraría una distribución normal.
En los graficos de normalidad se observa que para muestras menores o iguales a 30, los puntos no son cercanos a la diagonal, lo que indica que los datos no provienen de una distribución normal. Por otra parte, a medida que se aumenta el tamaño de la muestra, se puede evidenciar, que los puntos cada vez se ajustan mejor a la diagonal de los percentiles teóricos y los muestrales, por lo que se puede concluir que la distribución de los estimadores se aproxima a una distribución normal.
Ahora, vamos a asumir que la proporción de plantas enfermas es del 90%, y simularemos algunos resultados.
p2 = 0.9 # Propoción de plantas enfermas.
m2_5 <- est_prop(5, p2)
m2_10 <- est_prop(10, p2)
m2_15 <- est_prop(15, p2)
m2_20 <- est_prop(20, p2)
m2_30 <- est_prop(30, p2)
m2_50 <- est_prop(50, p2)
m2_60 <- est_prop(60, p2)
m2_100 <- est_prop(100, p2)
m2_200 <- est_prop(200, p2)
m2_500 <- est_prop(500, p2)
m2_1000 <- est_prop(1000, p2)
m2_0 <- est_prop(1300, p2)
Una vez generados los nuevos datos, procederemos a realizar las pruebas de hipótesis, para conocer si los datos tienen distribución normal, usando el test de Shapiro-Wilk. Para esto, vamos a considerar el sistema de hipótesis planteado inicialmente.
| n | P- Valor |
|---|---|
| 5 | 2.2e-16 |
| 10 | 2.2e-16 |
| 15 | 2.2e-16 |
| 20 | 2.2e-16 |
| 30 | 2.2e-16 |
| 50 | 1.935e-12 |
| 60 | 5.829e-11 |
| 100 | 5.1e-08 |
| 200 | 0.000131 |
| 500 | 0.01525 |
En este caso se observa que el p-valor para muestras de tamaño \(n < 1300\) es menor que el nivel de significancia \(\alpha\) por lo cual, hay evidencia estadística para rechazar la hipótesis nula, es decir que los datos no provienen de una distribución normal. Sin embargo, por medio de experimentación para valores mayores a 1300, el p-valor es mayor que \(\alpha\) lo cual comprueba la teoría expuesta en el _Teorema del Limite Central.
Aquí se puede observar que los histogramas presentan colas a la izquierda para muestras menores o iguales a 60. Sin embargo, a medida que aumenta el tamaño de muestra, los histogramas se empiezan a asemejar al de una distribución normal.
En los graficos de normalidad se observa que para muestras menores o iguales a 30, los puntos no son cercanos a la diagonal, lo que indica que los datos no provienen de una distribución normal. Por otra parte, a medida que se aumenta el tamaño de la muestra, se puede evidenciar, que los puntos cada vez se ajustan mejor a la diagonal de los percentiles teóricos y los muestrales. Siendo a partir de un tamaño de muestra de 1300 que los puntos se ajustan casi de forma perfecta a la diagonal. Lo cual indica que a partir de este tamaño de muestra, los datos se distribuyen normalmente.