El objetivo de este ejercicio es explorar la aplicación del Teorema del Límite Central y verificar su validez en la aproximación de la distribución de la proporción muestral a una distribución normal para diferentes tamaños de muestra y diferentes porcentajes de éxito en la población simulada de plantas enfermas y sanas.
Se creó una población de N=1000 individuos, con una proporción de individuos enfermos del 50%.
Para cada tamaño de muestra, se generaron 10 muestras aleatorias de la población y se calculó el estimador de la proporción muestral s1.
Tamaños de muestra de n=5,50,100,200,500.
library(nortest)
set.seed(123)
N <- 1000
test_shapiro <- c()
test_lillie <- c()
test_sf <- c()
N_mues <- c()
probal <- c()
k = 1
n <- c(5,50,100,200,500)
for (j in c(0.5,0.1,0.9)) {
x <- rbinom(N, 1, j) # población simulada
proporcion <- function(m){
p <- sum(sample(x,m))/m
return(p)
}
proporcion(10)
#___________________________________________________________________
#n=5
for (i in n) {
w <- rep(i,1000)
s1 <- sapply(w, proporcion)
hist(s1,
main=paste("Con", i,"Muestreos de", j*100,"% Plantas Enfermas"),
xlab = "",
ylab = "")
qqnorm(s1,
main=paste("Grafico QQ Normal", i," Muestros de", j*100, "% Plantas Enfermas"),
xlab = "Cuantiles teoricos",
ylab = "Cuantiles de muestra")
qqline(s1, col='red')
# Ho: s1 tiene distribucion normal
# Ha: s1 no tiene distribucion nomal
#
# Si el v-p < alpha : 0.05
# se rechaza Ho, se acepta Ha como V
# -> s1 no es normal
# De lo contrario
# -> asumimos que s1 es normal
test_shapiro[k] <- c(shapiro.test(s1)$p.value)
test_lillie[k] <- c(lillie.test(s1)$p.value)
test_sf[k] <- c(sf.test(s1)$p.value)
N_mues[k] <- c(i)
probal[k] <- c(j)
print(shapiro.test(s1))
k <- k+1
}
}
Shapiro-Wilk normality test
data: s1
W = 0.92989, p-value < 2.2e-16
Shapiro-Wilk normality test
data: s1
W = 0.99196, p-value = 2.903e-05
Shapiro-Wilk normality test
data: s1
W = 0.99477, p-value = 0.001556
Shapiro-Wilk normality test
data: s1
W = 0.99612, p-value = 0.01332
Shapiro-Wilk normality test
data: s1
W = 0.99734, p-value = 0.1007
Shapiro-Wilk normality test
data: s1
W = 0.70494, p-value < 2.2e-16
Shapiro-Wilk normality test
data: s1
W = 0.97582, p-value = 7.528e-12
Shapiro-Wilk normality test
data: s1
W = 0.98751, p-value = 1.593e-07
Shapiro-Wilk normality test
data: s1
W = 0.98927, p-value = 1.089e-06
Shapiro-Wilk normality test
data: s1
W = 0.99478, p-value = 0.001585
Shapiro-Wilk normality test
data: s1
W = 0.73232, p-value < 2.2e-16
Shapiro-Wilk normality test
data: s1
W = 0.97013, p-value = 1.789e-13
Shapiro-Wilk normality test
data: s1
W = 0.9881, p-value = 2.991e-07
Shapiro-Wilk normality test
data: s1
W = 0.99328, p-value = 0.0001747
Shapiro-Wilk normality test
data: s1
W = 0.99493, p-value = 0.001995
Se analizaron los resultados obtenidos para las n en términos de simetría, sesgo y variabilidad utilizando pruebas de bondad de ajuste (Shapiro-Wilk) y métodos gráficos (QQ-plot). Ho: s1 tiene distribucion normal Ha: s1 no tiene distribucion nomal
Si el p < alpha = 0.05 : se rechaza Ho, se acepta Ha como Verdadera: s1 no es normal
De lo contrario: asumimos que s1 es normal
Se repitió el análisis para poblaciones con proporciones de plantas enfermas del 10% y 90%.
La distribución de las proporciones muestrales s1 tiende a ser sesgada y asimétrica. Esto se debe a que con tamaños de muestra pequeños, la distribución de s1 no sigue bien una distribución normal, especialmente cuando la proporción de éxito en la población no es 50%.
La variabilidad de p es alta en comparación con el tamaño de muestra mayor. Las estimaciones pueden variar ampliamente debido a la pequeña cantidad de datos en cada muestra.
Las pruebas de Shapiro-Wilk y los QQ-plots muestran que la distribución de s1 no se ajusta bien a una distribución normal. Se observa que el p es menor que 0.05 rechazando Ho, aceptando Ha como verdadera, lo que indica que s1 no es normal.
Con un tamaño de muestra de 500, la distribución de s1 es mucho más simétrica y se aproxima a una distribución normal. Esto es consistente con el Teorema del Límite Central, que sugiere que la distribución de la proporción muestral se aproxima a una normal a medida que el tamaño de la muestra aumenta.
La variabilidad de s1 es significativamente menor en comparación con el tamaño de muestra de 5, lo que se alinea con la reducción de la varianza en proporciones muestrales con tamaños de muestra mayores.
Las pruebas de Shapiro-Wilk y los QQ-plots indican que la distribución de s1 se ajusta bien a una distribución normal, Como se observa en la tabla el único valor que supera el limite de p para s1 es para 500 muestras con 50% de la población enferma, dando Ho como verdadera y se asume que cumple con una distribución normal.
Para poblaciones con un 10% de plantas enfermas, las muestras aún muestran una aproximación a la normalidad para n=500, pero la distribución es más sesgada y menos simétrica para n=5. La varianza es mayor para la proporción baja en comparación con la proporción de 50%.
o Similar al caso del 10%, para una población con 90% de plantas enfermas, la distribución de p tiende a aproximarse a una normal para n=500, pero se observa una mayor sesgo y asimetría para n=5. La varianza también es mayor comparada con la proporción del 50%.
| probal | N_mues | test_shapiro | diferencia_shapiro |
|---|---|---|---|
| 0.5 | 5 | 0.000 | -0.050 |
| 0.5 | 50 | 0.000 | -0.050 |
| 0.5 | 100 | 0.002 | -0.048 |
| 0.5 | 200 | 0.013 | -0.037 |
| 0.5 | 500 | 0.101 | 0.051 |
| 0.1 | 5 | 0.000 | -0.050 |
| 0.1 | 50 | 0.000 | -0.050 |
| 0.1 | 100 | 0.000 | -0.050 |
| 0.1 | 200 | 0.000 | -0.050 |
| 0.1 | 500 | 0.002 | -0.048 |
| 0.9 | 5 | 0.000 | -0.050 |
| 0.9 | 50 | 0.000 | -0.050 |
| 0.9 | 100 | 0.000 | -0.050 |
| 0.9 | 200 | 0.000 | -0.050 |
| 0.9 | 500 | 0.002 | -0.048 |
La aproximación a la normalidad de la distribución de la proporción muestral es significativamente mejor para tamaños de muestra grandes (por ejemplo, n=500) en comparación con tamaños de muestra pequeños (por ejemplo, n=5,100,200). El Teorema del Límite Central se confirma al observar que para tamaños grandes la distribución se ajusta bien a la normalidad. Aunque la distribución de la proporción muestral se aproxima a una distribución normal con tamaños de muestra grandes, la simetría y la varianza varían con la proporción de éxito en la población. Proporciones extremas (10% o 90%) generan una mayor variabilidad y sesgo en muestras pequeñas en comparación con una proporción cercana al 50%. Este análisis confirma la robustez del Teorema del Límite Central en la inferencia estadística, especialmente para tamaños de muestra grandes, y muestra la importancia de considerar la proporción de éxito en la población al interpretar los resultados de muestras pequeñas.