El Teorema del Límite Central es uno de los más importantes en la inferencia estadística y habla sobre la convergencia de los estimadores como la proporción muestral a la distribución normal. Algunos autores afirman que esta aproximación es bastante buena a partir del umbral n>30.
A continuación se describen los siguientes pasos para su verificación:
Realice una simulación en la cual genere una población de n=1000 (Lote), donde el porcentaje de individuos (supongamos plantas) enfermas sea del 50%.
Genere una función que permita:
Obtener una muestra aleatoria de la población y
Calcule el estimador de la proporción muestral pˆ para un tamaño de muestra dado n.
Repita el escenario anterior (b) n=500 veces y analice los resultados en cuanto al comportamiento de los 500 resultados del estimador pˆ. ¿Qué tan simétricos o sesgados son los resultados obtenidos? y ¿qué se puede observar en cuanto a la variabilidad?. Realice en su informe un comentario sobre los resultados obtenidos.
Repita los puntos b y c para tamaños de muestra n=5, 10, 15, 20,
30, 50, 60, 100, 200, 500. Compare los resultados obtenidos para los
diferentes tamaños de muestra en cuanto a la normalidad. Utilice pruebas
de bondad y ajuste (shapiro wilks :shspiro.test()) y
métodos gráficos (gráfico de normalidad: qqnorm()). Comente
en su informe los resultados obtenidos
Repita toda la simulación (puntos a – d), pero ahora para lotes con 10% de plantas enfermas y de nuevo para lotes con un 90% de plantas enfermas. Concluya sobre los resultados del ejercicio.
# Establecer la semilla aleatoria para reproducibilidad
# x: individuos de la poblacion
# n: cantidad de repeticiones
# t: tamaño de muestra
# probabilidad de enfermos: p
# 0: sanas
# 1: enfermas
TLC=function(x,t,p,n){
poblacion=rbinom(n = x ,size = 1,prob = p)
muest_pob=sample(x = poblacion,size = t)
prop=function(a){
positivos=table(a)[2]
proporcion=positivos/length(a)
return(proporcion)
}
sim=replicate(n=n,expr = sample(poblacion,size = t,replace = T))
props=apply(sim, 2, prop)
#qqnorm(props)
#qqline(props)
hist(props)
shapiro.test(props)
}
# Para p =0.5
TLC(x = 1000,t =5,p = 0.5,n = 500)
##
## Shapiro-Wilk normality test
##
## data: props
## W = 0.88036, p-value < 2.2e-16
TLC(x = 1000,t =10,p = 0.5,n = 500)
##
## Shapiro-Wilk normality test
##
## data: props
## W = 0.96181, p-value = 4.199e-10
TLC(x = 1000,t =15,p = 0.5,n = 500)
##
## Shapiro-Wilk normality test
##
## data: props
## W = 0.97599, p-value = 2.565e-07
TLC(x = 1000,t =20,p = 0.5,n = 500)
##
## Shapiro-Wilk normality test
##
## data: props
## W = 0.98097, p-value = 4.052e-06
TLC(x = 1000,t =30,p = 0.5,n = 500)
##
## Shapiro-Wilk normality test
##
## data: props
## W = 0.98701, p-value = 0.0001968
TLC(x = 1000,t =50,p = 0.5,n = 500)
##
## Shapiro-Wilk normality test
##
## data: props
## W = 0.99182, p-value = 0.007481
TLC(x = 1000,t =60,p = 0.5,n = 500)
##
## Shapiro-Wilk normality test
##
## data: props
## W = 0.99074, p-value = 0.003165
TLC(x = 1000,t =100,p = 0.5,n = 500)
##
## Shapiro-Wilk normality test
##
## data: props
## W = 0.99391, p-value = 0.0424
TLC(x = 1000,t =200,p = 0.5,n = 500)
##
## Shapiro-Wilk normality test
##
## data: props
## W = 0.99575, p-value = 0.1957
TLC(x = 1000,t =500,p = 0.5,n = 500)
##
## Shapiro-Wilk normality test
##
## data: props
## W = 0.99654, p-value = 0.3573
El p value evidencia que se debe aceptar la hipótesis nula, es decir, los datos muestran un comportamiento normal. Aunque presenta un ligero sesgo es insignificativo. Tiene un buen comportamiento analizado desde la variabilidad ya que los datos se concentran entre 0,40 y 0,60.
Se debe señalar también que realizadas varias simulaciones con diferentes tamaños de muestra, en la medida que se aumenta la muestra mejora el nivel de confianza de la prueba. Para este número de repeticiones y tasa la única muestra aceptable es a partir de n=500 que alcanza una distribución normal y según el value se ubica en zona de aceptación de la hipotésis nula.
# Para p=0.1
TLC(x = 1000,t =5,p = 0.1,n = 500)
##
## Shapiro-Wilk normality test
##
## data: props
## W = 0.46677, p-value < 2.2e-16
TLC(x = 1000,t =10,p = 0.1,n = 500)
##
## Shapiro-Wilk normality test
##
## data: props
## W = 0.7316, p-value < 2.2e-16
TLC(x = 1000,t =15,p = 0.1,n = 500)
##
## Shapiro-Wilk normality test
##
## data: props
## W = 0.81378, p-value < 2.2e-16
TLC(x = 1000,t =20,p = 0.1,n = 500)
##
## Shapiro-Wilk normality test
##
## data: props
## W = 0.88182, p-value < 2.2e-16
TLC(x = 1000,t =30,p = 0.1,n = 500)
##
## Shapiro-Wilk normality test
##
## data: props
## W = 0.9498, p-value = 6.904e-12
TLC(x = 1000,t =50,p = 0.1,n = 500)
##
## Shapiro-Wilk normality test
##
## data: props
## W = 0.9621, p-value = 5.012e-10
TLC(x = 1000,t =60,p = 0.1,n = 500)
##
## Shapiro-Wilk normality test
##
## data: props
## W = 0.97357, p-value = 7.521e-08
TLC(x = 1000,t =100,p = 0.1,n = 500)
##
## Shapiro-Wilk normality test
##
## data: props
## W = 0.98713, p-value = 0.0002137
TLC(x = 1000,t =200,p = 0.1,n = 500)
##
## Shapiro-Wilk normality test
##
## data: props
## W = 0.98988, p-value = 0.001611
TLC(x = 1000,t =500,p = 0.1,n = 500)
##
## Shapiro-Wilk normality test
##
## data: props
## W = 0.99507, p-value = 0.112
El comportamiento de las pruebas son similares a las anteriores, en la ùnica situación que se ubica en zona de aceptación es la muestra con n=500
# Para p = 0.9
TLC(x = 1000,t =5,p = 0.9,n = 500)
##
## Shapiro-Wilk normality test
##
## data: props
## W = 0.39528, p-value < 2.2e-16
TLC(x = 1000,t =10,p = 0.9,n = 500)
##
## Shapiro-Wilk normality test
##
## data: props
## W = 0.71047, p-value < 2.2e-16
TLC(x = 1000,t =15,p = 0.9,n = 500)
##
## Shapiro-Wilk normality test
##
## data: props
## W = 0.75548, p-value < 2.2e-16
TLC(x = 1000,t =20,p = 0.9,n = 500)
##
## Shapiro-Wilk normality test
##
## data: props
## W = 0.83024, p-value < 2.2e-16
TLC(x = 1000,t =30,p = 0.9,n = 500)
##
## Shapiro-Wilk normality test
##
## data: props
## W = 0.90425, p-value < 2.2e-16
TLC(x = 1000,t =50,p = 0.9,n = 500)
##
## Shapiro-Wilk normality test
##
## data: props
## W = 0.95737, p-value = 7.688e-11
TLC(x = 1000,t =60,p = 0.9,n = 500)
##
## Shapiro-Wilk normality test
##
## data: props
## W = 0.97051, p-value = 1.736e-08
TLC(x = 1000,t =100,p = 0.9,n = 500)
##
## Shapiro-Wilk normality test
##
## data: props
## W = 0.96747, p-value = 4.412e-09
TLC(x = 1000,t =200,p = 0.9,n = 500)
##
## Shapiro-Wilk normality test
##
## data: props
## W = 0.99206, p-value = 0.009103
TLC(x = 1000,t =500,p = 0.9,n = 500)
##
## Shapiro-Wilk normality test
##
## data: props
## W = 0.99454, p-value = 0.07178
Es este caso se presenta el mismo comportamiento que los dos escenarios anteriores lo cual es coherente con el teorema del límite central donde la función de distribución se aproxima a una normal.