El Teorema del Límite Central es uno de los más importantes en la inferencia estadística y habla sobre la convergencia de los estimadores como la proporción muestral a la distribución normal. Algunos autores afirman que esta aproximación es bastante buena a partir del umbral \(n>30\).
A continuación se describen los siguientes pasos para su verificación:
Realice una simulación en la cual genere una población de \(n=1000\) (Lote), donde el porcentaje de
individuos (supongamos plantas) enfermas sea del \(50\%\).
1 : Plantas enfermas
0 : Plantas sanas
lote <- rbinom(n = 1000, size = 1, prob = 0.5)
head(lote)
## [1] 0 0 1 1 0 0
Genere una función que permita: - Obtener una muestra aleatoria de la población. - Calcule el estimador de la proporción muestral \(\hat{p}\) para un tamaño de muestra dado n.
p_gorro <- function(n, lote) {
muestra <- sample(lote, size = n, replace = F)
return(sum(muestra)/n)
}
Repita el escenario anterior (b) \(n=500\) veces y analice los resultados en cuanto al comportamiento de los 500 resultados del estimador \(\hat{p}\). ¿Qué tan simétricos o sesgados son los resultados obtenidos? y ¿qué se puede observar en cuanto a la variabilidad?. Realice en su informe un comentario sobre los resultados obtenidos.
ps <- c()
for (i in 1:500) {
ps <- c(ps, p_gorro(30, lote))
}
par(mfrow = c(1, 2))
hist(ps)
boxplot(ps)
Prueba de normalidad
shapiro.test(ps)$p.value
## [1] 2.607303e-05
Los resultados son poco sesgados, pero sí son muy aleatorios dentro
de su rango.
Repita los puntos b y c para tamaños de muestra \(n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500\). Compare los resultados obtenidos para los diferentes tamaños de muestra en cuanto a la normalidad. Utilice pruebas de bondad y ajuste (shapiro wilks :shapiro.test()) y métodos gráficos (gráfico de normalidad: qqnorm()). Comente en su informe los resultados obtenidos.
par(mfrow = c(2, 5))
ns <- c(5, 10, 15, 20, 30, 50, 60, 100, 200, 500)
for(n in ns){
ps_gorro <- c()
for (i in 1:500) {
ps_gorro <- c(ps_gorro, p_gorro(n, lote))
}
p_value <- shapiro.test(ps_gorro)$p.value
title <- paste('n=', n, 'p-valor=', round(p_value, 4))
hist(ps_gorro, main=title)
}
A medida que va aumentando el tamaño de las muestras, la distribución de
hace más simétrica y tiene a una distribución normal. Se puede observar
como desde tamaño de muestras \(n=60\),
tanto la gráfica como el p-valor, la mayoría de las veces (no siempre
por la aleatoriedad de las muestras) nos permiten concluir que la
distribución sigue una distribución normal.
Repita toda la simulación (puntos a – d), pero ahora para lotes con 10% de plantas enfermas y de nuevo para lotes con un 90% de plantas enfermas. Concluya sobre los resultados del ejercicio.
par(mfrow = c(2, 5))
lote2 <- rbinom(n = 1000, size = 1, prob = 0.1)
for(n in ns){
ps_gorro <- c()
for (i in 1:500) {
ps_gorro <- c(ps_gorro, p_gorro(n, lote2))
}
p_value <- shapiro.test(ps_gorro)$p.value
title <- paste('n=', n, 'p-valor=', round(p_value, 4))
hist(ps_gorro, main=title)
}
La distribución no alcanza a ser simétrica con ninguno de los tamaños de muestra \(n\), pues la mayoría de los \(\hat{p}\) se encuentran en la izquierda de la distribución debido a la desigualdad proporcional. En otras palabras, hay menos plantas enfermas en la población total en comparación con las plantas sanas. Por lo tanto, es mucho más probable obtener muestras que sobreestimen la proporción de plantas enfermas en cada muestra individual.
par(mfrow = c(2, 5))
lote3 <- rbinom(n = 1000, size = 1, prob = 0.9)
for(n in ns){
ps_gorro <- c()
for (i in 1:500) {
ps_gorro <- c(ps_gorro, p_gorro(n, lote3))
}
p_value <- shapiro.test(ps_gorro)$p.value
title <- paste('n=', n, 'p-valor=', round(p_value, 4))
hist(ps_gorro, main=title)
}
En muy pocos casos la distribución es simétrica solo con tamaños de muestra \(n=200\). Similar al punto anterior, la mayoría de los \(\hat{p}\) se encuentran en la derecha de la distribución debido a la desigualdad proporcional. En otras palabras, hay muchas más plantas enfermas en la población total en comparación con las plantas sanas. Por lo tanto, es mucho menos probable obtener muestras que sobreestimen la proporción de plantas enfermas en cada muestra individual.