TEOREMA DEL LÍMITE CENTRAL

El Teorema del Límite Central es uno de los más importantes en la inferencia estadística y habla sobre la convergencia de los estimadores como la proporción muestral a la distribución normal. Algunos autores afirman que esta aproximación es bastante buena a partir del umbral n>30.

A continuación, se describen los siguientes pasos para su verificación:

  1. Realice una simulación en la cual genere una población de n=1000 (Lote), donde el porcentaje de individuos (supongamos plantas) enfermas sea del 50%.
n <- 1000
p_enfermas <- 0.5
poblacion <- rbinom(n, 1, p_enfermas)

La probabilidad de éxito en esta distribución binomial se establece en p_enfermas, que en este caso es 0.5, lo que significa que el 50% de las plantas estarán enfermas.

  1. Genere una función que permita obtener una muestra aleatoria de la población y calcule el estimador de la proporción muestral pˆ para un tamaño de muestra dado n.
t_muestra <- 100
poblacion <- rbinom(n, 1, p_enfermas)
muestra <- sample(poblacion, t_muestra, replace = FALSE)
muestra_p <- sum(muestra) / t_muestra
print(paste("El estimador de la  proporción muestral  de ", t_muestra, "es", muestra_p))
## [1] "El estimador de la  proporción muestral  de  100 es 0.54"
  1. Repita el escenario anterior (b) n=500 veces y analice los resultados en cuanto al comportamiento de los 500 resultados del estimador p^.
n_repeticiones <- 500
tam_muestra <- 100
p_enfermas <- 0.5
estimadores <- numeric(n_repeticiones)
for (i in 1:n_repeticiones) {
  poblacion <- rbinom(1000, 1, p_enfermas)
  muestra <- sample(poblacion, tam_muestra, replace = FALSE)
  estimadores[i] <- sum(muestra) / tam_muestra
}

hist(estimadores, main = "HISTOGRAMA", xlab = "Estimador de proporción muestral", ylab = "Frecuencia", col = "lightblue", border = "black")

sesgo <- mean(estimadores) - p_enfermas
variabilidad <- sd(estimadores)
cat("Sesgo:", sesgo, "\n")
## Sesgo: -0.00204
cat("Desviación estándar:", variabilidad, "\n")
## Desviación estándar: 0.05167959

Sesgo: 0.00162

Los resultados obtenidos muestran un sesgo muy pequeño, cercano a 0.00162, lo que sugiere que los estimadores son prácticamente insesgados. En promedio, los estimadores tienden a estimar correctamente la proporción de individuos enfermos en la población, que es del 50%.

La presencia de un sesgo tan bajo indica una buena precisión de los estimadores en este escenario.

Desviación estándar: 0.04927506

En cuanto a la variabilidad, la desviación estándar de los estimadores es de aproximadamente 0.0493. Esta desviación estándar relativamente baja indica que los estimadores tienden a agruparse alrededor de su media con poca dispersión.

Los resultados obtenidos son muy alentadores en términos de precisión y fiabilidad de los estimadores. La casi inexistencia de sesgo y la baja variabilidad indican que los estimadores proporcionan estimaciones precisas y consistentes de la proporción de individuos enfermos en la población.

  1. Repita los puntos b y c para tamaños de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Compare los resultados obtenidos para los diferentes tamaños de muestra en cuanto a la normalidad.
n_repeticiones <- 500
p_enfermas <- 0.5
t_muestra <- c(5, 10, 15, 20, 30, 50, 60, 100, 200, 500)

par(mfrow=c(2, length(t_muestra) %/% 2)) 

for (i in seq_along(t_muestra)) {
  tam_muestra <- t_muestra[i]
  estimadores <- numeric(n_repeticiones)
  for (j in 1:n_repeticiones) {
    poblacion <- rbinom(1000, 1, p_enfermas)
    muestra <- sample(poblacion, tam_muestra, replace = FALSE)
    estimadores[j] <- sum(muestra) / tam_muestra
  }
  
  shapiro_test <- shapiro.test(estimadores)
  cat("Tamaño de muestra:", tam_muestra, "\n")
  cat("Prueba de normalidad Shapiro-Wilk p-value:", shapiro_test$p.value, "\n")
  hist(estimadores, main = paste("Tamaño:", tam_muestra), xlab = "Estimador", ylab = "Frecuencia", col = "lightblue", border = "black")
  
}
## Tamaño de muestra: 5 
## Prueba de normalidad Shapiro-Wilk p-value: 9.089934e-15
## Tamaño de muestra: 10 
## Prueba de normalidad Shapiro-Wilk p-value: 1.691903e-10
## Tamaño de muestra: 15 
## Prueba de normalidad Shapiro-Wilk p-value: 1.636309e-07
## Tamaño de muestra: 20 
## Prueba de normalidad Shapiro-Wilk p-value: 6.470245e-06
## Tamaño de muestra: 30 
## Prueba de normalidad Shapiro-Wilk p-value: 5.075442e-05
## Tamaño de muestra: 50 
## Prueba de normalidad Shapiro-Wilk p-value: 0.0008433264
## Tamaño de muestra: 60 
## Prueba de normalidad Shapiro-Wilk p-value: 0.01086204
## Tamaño de muestra: 100 
## Prueba de normalidad Shapiro-Wilk p-value: 0.1244673
## Tamaño de muestra: 200 
## Prueba de normalidad Shapiro-Wilk p-value: 0.03903996
## Tamaño de muestra: 500 
## Prueba de normalidad Shapiro-Wilk p-value: 0.1629855

par(mfrow=c(1, 1))

Para tamaños de muestra más pequeños, como 5, 10 y 15, los valores p de las pruebas de normalidad son extremadamente pequeños, lo que indica una fuerte evidencia en contra de la hipótesis nula de normalidad, los estimadores de proporción muestral para estos tamaños de muestra no siguen una distribución normal.

A medida que el tamaño de muestra aumenta, los valores p de las pruebas de normalidad aumentan, indicando que la evidencia en contra de la normalidad es menos fuerte.

Para tamaños de muestra más grandes, como 500, el valor p sigue siendo significativo a un nivel de significancia común 0.05, lo que sugiere que los estimadores no se ajustan perfectamente a una distribución normal.

El tamaño de muestra de 60 muestra un valor p ligeramente superior a 0.05, lo que indica que no hay suficiente evidencia para rechazar la hipótesis nula de normalidad a un nivel de significancia del 5%, considerandoce como un margen estrecho.

Los tamaños de muestra de 100 y 200 muestran valores p similares, indicando una falta de evidencia significativa en contra de la normalidad.

Aunque los estimadores de proporción muestral tienden a aproximarse a una distribución normal a medida que aumenta el tamaño de muestra, la normalidad no se cumple perfectamente, especialmente para tamaños de muestra más pequeños.

  1. Repita toda la simulación (puntos a – d), pero ahora para lotes con 10% de plantas enfermas y de nuevo para lotes con un 90% de plantas enfermas. Concluya sobre los resultados del ejercicio.
library(stats)


simulacion_normalidad <- function(p_enfermas) {
  resultados <- data.frame(Tamaño_de_muestra = numeric(), P_value_Shapiro_Wilk = numeric())
  
  par(mfrow=c(2, length(tamanos_muestra) %/% 2))
  
  for (tam_muestra in tamanos_muestra) {
    estimadores <- sapply(1:n_repeticiones, function(x) {
      muestra <- rbinom(tam_muestra, 1, p_enfermas)
      prop_muestral <- mean(muestra)
      return(prop_muestral)
    })
    
    shapiro_test <- shapiro.test(estimadores)
    resultados <- rbind(resultados, c(tam_muestra, shapiro_test$p.value))
    
    cat("\n Muestra:", tam_muestra, "\n")
    cat("Normalidad :", shapiro_test$p.value, "\n")
    hist(estimadores, main = paste("Muestra:", tam_muestra), 
         xlab = "Proporción Muestral", ylab = "Frecuencia", 
         col = "lightblue", border = "black")
  }
  
  par(mfrow=c(1, 1))  
  
  return(resultados)
}


n <- 1000
n_repeticiones <- 500
tamanos_muestra <- c(5, 10, 15, 20, 30, 50, 60, 100, 200, 500)
porcentajes_enfermas <- c(0.1, 0.9)

resultados_10 <- simulacion_normalidad(0.1)
## 
##  Muestra: 5 
## Normalidad : 3.947736e-29
## 
##  Muestra: 10 
## Normalidad : 1.065127e-22
## 
##  Muestra: 15 
## Normalidad : 2.307374e-18
## 
##  Muestra: 20 
## Normalidad : 1.441372e-14
## 
##  Muestra: 30 
## Normalidad : 6.549121e-12
## 
##  Muestra: 50 
## Normalidad : 3.187885e-08
## 
##  Muestra: 60 
## Normalidad : 1.409995e-07
## 
##  Muestra: 100 
## Normalidad : 5.431586e-05
## 
##  Muestra: 200 
## Normalidad : 4.299591e-05
## 
##  Muestra: 500 
## Normalidad : 0.04787786

resultados_90 <- simulacion_normalidad(0.9)
## 
##  Muestra: 5 
## Normalidad : 1.495439e-29
## 
##  Muestra: 10 
## Normalidad : 9.03781e-22
## 
##  Muestra: 15 
## Normalidad : 2.186757e-18
## 
##  Muestra: 20 
## Normalidad : 4.477521e-16
## 
##  Muestra: 30 
## Normalidad : 3.275327e-12
## 
##  Muestra: 50 
## Normalidad : 3.295093e-09
## 
##  Muestra: 60 
## Normalidad : 2.05868e-07
## 
##  Muestra: 100 
## Normalidad : 8.729049e-06
## 
##  Muestra: 200 
## Normalidad : 0.001222831
## 
##  Muestra: 500 
## Normalidad : 0.03588193

print("Resultados para lotes con un 10% de plantas enfermas:")
## [1] "Resultados para lotes con un 10% de plantas enfermas:"
print(resultados_10)
##     X5 X3.94773563407623e.29
## 1    5          3.947736e-29
## 2   10          1.065127e-22
## 3   15          2.307374e-18
## 4   20          1.441372e-14
## 5   30          6.549121e-12
## 6   50          3.187885e-08
## 7   60          1.409995e-07
## 8  100          5.431586e-05
## 9  200          4.299591e-05
## 10 500          4.787786e-02
print("Resultados para lotes con un 90% de plantas enfermas:")
## [1] "Resultados para lotes con un 90% de plantas enfermas:"
print(resultados_90)
##     X5 X1.49543900167264e.29
## 1    5          1.495439e-29
## 2   10          9.037810e-22
## 3   15          2.186757e-18
## 4   20          4.477521e-16
## 5   30          3.275327e-12
## 6   50          3.295093e-09
## 7   60          2.058680e-07
## 8  100          8.729049e-06
## 9  200          1.222831e-03
## 10 500          3.588193e-02

Podemos evidenciar que para los valores p de la muestra del 10% de plantas enfermas, son muy bajos incluso para tamaños de muestra relativamente pequeños indicando una posible violación de la normalidad. Aunque para tamaños de muestra más grandes, los valores p son más altos, lo que sugiere una mejor aproximación a la normalidad.

Para el caso de la muestra del 90% de plantas enfermas, los valores p son bajos para tamaños de muestra pequeños, pero son relativamente más altos en comparación con el caso del 10% de plantas enfermas, indicando que, para el mismo tamaño de muestra, la proporción de plantas enfermas en la población afecta la distribución de los estimadores de proporción maestral.

En conclusión, esta muestra general indica que los valores p son muy bajos para tamaños de muestra pequeños y aumentan a medida que aumenta el tamaño de la muestra, sugiriendo que, para tamaños de muestra pequeños, los estimadores de proporción muestra pueden no seguir estrictamente una distribución normal.