El Teorema del Límite Central es uno de los más importantes en la inferencia estadística y habla sobre la convergencia de los estimadores como la proporción muestral a la distribución normal. Algunos autores afirman que esta aproximación es bastante buena a partir del umbral n>30.
A continuación, se describen los siguientes pasos para su verificación:
n <- 1000
p_enfermas <- 0.5
poblacion <- rbinom(n, 1, p_enfermas)
La probabilidad de éxito en esta distribución binomial se establece en p_enfermas, que en este caso es 0.5, lo que significa que el 50% de las plantas estarán enfermas.
t_muestra <- 100
poblacion <- rbinom(n, 1, p_enfermas)
muestra <- sample(poblacion, t_muestra, replace = FALSE)
muestra_p <- sum(muestra) / t_muestra
print(paste("El estimador de la proporción muestral de ", t_muestra, "es", muestra_p))
## [1] "El estimador de la proporción muestral de 100 es 0.54"
n_repeticiones <- 500
tam_muestra <- 100
p_enfermas <- 0.5
estimadores <- numeric(n_repeticiones)
for (i in 1:n_repeticiones) {
poblacion <- rbinom(1000, 1, p_enfermas)
muestra <- sample(poblacion, tam_muestra, replace = FALSE)
estimadores[i] <- sum(muestra) / tam_muestra
}
hist(estimadores, main = "HISTOGRAMA", xlab = "Estimador de proporción muestral", ylab = "Frecuencia", col = "lightblue", border = "black")
sesgo <- mean(estimadores) - p_enfermas
variabilidad <- sd(estimadores)
cat("Sesgo:", sesgo, "\n")
## Sesgo: -0.00204
cat("Desviación estándar:", variabilidad, "\n")
## Desviación estándar: 0.05167959
Sesgo: 0.00162
Los resultados obtenidos muestran un sesgo muy pequeño, cercano a 0.00162, lo que sugiere que los estimadores son prácticamente insesgados. En promedio, los estimadores tienden a estimar correctamente la proporción de individuos enfermos en la población, que es del 50%.
La presencia de un sesgo tan bajo indica una buena precisión de los estimadores en este escenario.
Desviación estándar: 0.04927506
En cuanto a la variabilidad, la desviación estándar de los estimadores es de aproximadamente 0.0493. Esta desviación estándar relativamente baja indica que los estimadores tienden a agruparse alrededor de su media con poca dispersión.
Los resultados obtenidos son muy alentadores en términos de precisión y fiabilidad de los estimadores. La casi inexistencia de sesgo y la baja variabilidad indican que los estimadores proporcionan estimaciones precisas y consistentes de la proporción de individuos enfermos en la población.
n_repeticiones <- 500
p_enfermas <- 0.5
t_muestra <- c(5, 10, 15, 20, 30, 50, 60, 100, 200, 500)
par(mfrow=c(2, length(t_muestra) %/% 2))
for (i in seq_along(t_muestra)) {
tam_muestra <- t_muestra[i]
estimadores <- numeric(n_repeticiones)
for (j in 1:n_repeticiones) {
poblacion <- rbinom(1000, 1, p_enfermas)
muestra <- sample(poblacion, tam_muestra, replace = FALSE)
estimadores[j] <- sum(muestra) / tam_muestra
}
shapiro_test <- shapiro.test(estimadores)
cat("Tamaño de muestra:", tam_muestra, "\n")
cat("Prueba de normalidad Shapiro-Wilk p-value:", shapiro_test$p.value, "\n")
hist(estimadores, main = paste("Tamaño:", tam_muestra), xlab = "Estimador", ylab = "Frecuencia", col = "lightblue", border = "black")
}
## Tamaño de muestra: 5
## Prueba de normalidad Shapiro-Wilk p-value: 9.089934e-15
## Tamaño de muestra: 10
## Prueba de normalidad Shapiro-Wilk p-value: 1.691903e-10
## Tamaño de muestra: 15
## Prueba de normalidad Shapiro-Wilk p-value: 1.636309e-07
## Tamaño de muestra: 20
## Prueba de normalidad Shapiro-Wilk p-value: 6.470245e-06
## Tamaño de muestra: 30
## Prueba de normalidad Shapiro-Wilk p-value: 5.075442e-05
## Tamaño de muestra: 50
## Prueba de normalidad Shapiro-Wilk p-value: 0.0008433264
## Tamaño de muestra: 60
## Prueba de normalidad Shapiro-Wilk p-value: 0.01086204
## Tamaño de muestra: 100
## Prueba de normalidad Shapiro-Wilk p-value: 0.1244673
## Tamaño de muestra: 200
## Prueba de normalidad Shapiro-Wilk p-value: 0.03903996
## Tamaño de muestra: 500
## Prueba de normalidad Shapiro-Wilk p-value: 0.1629855
par(mfrow=c(1, 1))
Para tamaños de muestra más pequeños, como 5, 10 y 15, los valores p de las pruebas de normalidad son extremadamente pequeños, lo que indica una fuerte evidencia en contra de la hipótesis nula de normalidad, los estimadores de proporción muestral para estos tamaños de muestra no siguen una distribución normal.
A medida que el tamaño de muestra aumenta, los valores p de las pruebas de normalidad aumentan, indicando que la evidencia en contra de la normalidad es menos fuerte.
Para tamaños de muestra más grandes, como 500, el valor p sigue siendo significativo a un nivel de significancia común 0.05, lo que sugiere que los estimadores no se ajustan perfectamente a una distribución normal.
El tamaño de muestra de 60 muestra un valor p ligeramente superior a 0.05, lo que indica que no hay suficiente evidencia para rechazar la hipótesis nula de normalidad a un nivel de significancia del 5%, considerandoce como un margen estrecho.
Los tamaños de muestra de 100 y 200 muestran valores p similares, indicando una falta de evidencia significativa en contra de la normalidad.
Aunque los estimadores de proporción muestral tienden a aproximarse a una distribución normal a medida que aumenta el tamaño de muestra, la normalidad no se cumple perfectamente, especialmente para tamaños de muestra más pequeños.
library(stats)
simulacion_normalidad <- function(p_enfermas) {
resultados <- data.frame(Tamaño_de_muestra = numeric(), P_value_Shapiro_Wilk = numeric())
par(mfrow=c(2, length(tamanos_muestra) %/% 2))
for (tam_muestra in tamanos_muestra) {
estimadores <- sapply(1:n_repeticiones, function(x) {
muestra <- rbinom(tam_muestra, 1, p_enfermas)
prop_muestral <- mean(muestra)
return(prop_muestral)
})
shapiro_test <- shapiro.test(estimadores)
resultados <- rbind(resultados, c(tam_muestra, shapiro_test$p.value))
cat("\n Muestra:", tam_muestra, "\n")
cat("Normalidad :", shapiro_test$p.value, "\n")
hist(estimadores, main = paste("Muestra:", tam_muestra),
xlab = "Proporción Muestral", ylab = "Frecuencia",
col = "lightblue", border = "black")
}
par(mfrow=c(1, 1))
return(resultados)
}
n <- 1000
n_repeticiones <- 500
tamanos_muestra <- c(5, 10, 15, 20, 30, 50, 60, 100, 200, 500)
porcentajes_enfermas <- c(0.1, 0.9)
resultados_10 <- simulacion_normalidad(0.1)
##
## Muestra: 5
## Normalidad : 3.947736e-29
##
## Muestra: 10
## Normalidad : 1.065127e-22
##
## Muestra: 15
## Normalidad : 2.307374e-18
##
## Muestra: 20
## Normalidad : 1.441372e-14
##
## Muestra: 30
## Normalidad : 6.549121e-12
##
## Muestra: 50
## Normalidad : 3.187885e-08
##
## Muestra: 60
## Normalidad : 1.409995e-07
##
## Muestra: 100
## Normalidad : 5.431586e-05
##
## Muestra: 200
## Normalidad : 4.299591e-05
##
## Muestra: 500
## Normalidad : 0.04787786
resultados_90 <- simulacion_normalidad(0.9)
##
## Muestra: 5
## Normalidad : 1.495439e-29
##
## Muestra: 10
## Normalidad : 9.03781e-22
##
## Muestra: 15
## Normalidad : 2.186757e-18
##
## Muestra: 20
## Normalidad : 4.477521e-16
##
## Muestra: 30
## Normalidad : 3.275327e-12
##
## Muestra: 50
## Normalidad : 3.295093e-09
##
## Muestra: 60
## Normalidad : 2.05868e-07
##
## Muestra: 100
## Normalidad : 8.729049e-06
##
## Muestra: 200
## Normalidad : 0.001222831
##
## Muestra: 500
## Normalidad : 0.03588193
print("Resultados para lotes con un 10% de plantas enfermas:")
## [1] "Resultados para lotes con un 10% de plantas enfermas:"
print(resultados_10)
## X5 X3.94773563407623e.29
## 1 5 3.947736e-29
## 2 10 1.065127e-22
## 3 15 2.307374e-18
## 4 20 1.441372e-14
## 5 30 6.549121e-12
## 6 50 3.187885e-08
## 7 60 1.409995e-07
## 8 100 5.431586e-05
## 9 200 4.299591e-05
## 10 500 4.787786e-02
print("Resultados para lotes con un 90% de plantas enfermas:")
## [1] "Resultados para lotes con un 90% de plantas enfermas:"
print(resultados_90)
## X5 X1.49543900167264e.29
## 1 5 1.495439e-29
## 2 10 9.037810e-22
## 3 15 2.186757e-18
## 4 20 4.477521e-16
## 5 30 3.275327e-12
## 6 50 3.295093e-09
## 7 60 2.058680e-07
## 8 100 8.729049e-06
## 9 200 1.222831e-03
## 10 500 3.588193e-02
Podemos evidenciar que para los valores p de la muestra del 10% de plantas enfermas, son muy bajos incluso para tamaños de muestra relativamente pequeños indicando una posible violación de la normalidad. Aunque para tamaños de muestra más grandes, los valores p son más altos, lo que sugiere una mejor aproximación a la normalidad.
Para el caso de la muestra del 90% de plantas enfermas, los valores p son bajos para tamaños de muestra pequeños, pero son relativamente más altos en comparación con el caso del 10% de plantas enfermas, indicando que, para el mismo tamaño de muestra, la proporción de plantas enfermas en la población afecta la distribución de los estimadores de proporción maestral.
En conclusión, esta muestra general indica que los valores p son muy bajos para tamaños de muestra pequeños y aumentan a medida que aumenta el tamaño de la muestra, sugiriendo que, para tamaños de muestra pequeños, los estimadores de proporción muestra pueden no seguir estrictamente una distribución normal.