Teorema del Límite Central

El Teorema del Límite Central es uno de los más importantes en la inferencia estadística y habla sobre la convergencia de los estimadores como la proporción muestral a la distribución normal. Algunos autores afirman que esta aproximación es bastante buena a partir del umbral n>30.

A continuación se describen los siguientes pasos para su verificación:

  1. Realice una simulación en la cual genere una población de n=1000 (Lote), donde el porcentaje de individuos (supongamos plantas) enfermas sea del 50%.

  2. Genere una función que permita:

Obtener una muestra aleatoria de la población y Calcule el estimador de la proporción muestral pˆ para un tamaño de muestra dado n.

  1. Repita el escenario anterior (b) n=500 veces y analice los resultados en cuanto al comportamiento de los 500 resultados del estimador pˆ. ¿Qué tan simétricos o sesgados son los resultados obtenidos? y ¿qué se puede observar en cuanto a la variabilidad?. Realice en su informe un comentario sobre los resultados obtenidos.

  2. Repita los puntos b y c para tamaños de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Compare los resultados obtenidos para los diferentes tamaños de muestra en cuanto a la normalidad. Utilice pruebas de bondad y ajuste (shapiro wilks :shspiro.test()) y métodos gráficos (gráfico de normalidad: qqnorm()). Comente en su informe los resultados obtenidos

  3. Repita toda la simulación (puntos a – d), pero ahora para lotes con 10% de plantas enfermas y de nuevo para lotes con un 90% de plantas enfermas. Concluya sobre los resultados del ejercicio.

# Establecer la semilla para reproducibilidad
set.seed(123)

# a. Generar la población
n <- 1000
porcentaje_enfermas <- 0.50
poblacion <- c(rep(1, n * porcentaje_enfermas), rep(0, n * (1 - porcentaje_enfermas)))

# b. y c. Función para tomar una muestra y calcular el estimador p̂
obtener_muestra <- function(tamaño_muestra) {
  muestra <- sample(poblacion, tamaño_muestra, replace = TRUE)
  p_hat <- mean(muestra)
  return(p_hat)
}

# Realizar la simulación para un tamaño de muestra dado y repetir 500 veces
simular_muestreo <- function(tamaño_muestra, repeticiones = 500) {
  p_hats <- replicate(repeticiones, obtener_muestra(tamaño_muestra))
  return(p_hats)
}

# d. Repetir para diferentes tamaños de muestra y analizar los resultados
tamaños_muestra <- c(5, 10, 15, 20, 30, 50, 60, 100, 200, 500)
resultados <- lapply(tamaños_muestra, simular_muestreo)

# Análisis de resultados
library(ggplot2)

for (i in seq_along(tamaños_muestra)) {
  tamaño_actual <- tamaños_muestra[i]
  datos <- data.frame(Estimaciones = resultados[[i]])
  
  # Gráfico de densidad
  ggplot(datos, aes(x = Estimaciones)) + 
    geom_density(fill = "blue", alpha = 0.5) + 
    ggtitle(paste("Distribución de p̂ para n =", tamaño_actual)) +
    xlab("p̂") +
    ylab("Densidad")
  
  # Prueba de Shapiro-Wilk para normalidad
  print(shapiro.test(datos$Estimaciones))
  
  # Gráfico Q-Q para normalidad
  qqnorm(datos$Estimaciones, main = paste("Gráfico Q-Q para n =", tamaño_actual))
  qqline(datos$Estimaciones)
}

## 
##  Shapiro-Wilk normality test
## 
## data:  datos$Estimaciones
## W = 0.92326, p-value = 2.752e-15
## 
## 
##  Shapiro-Wilk normality test
## 
## data:  datos$Estimaciones
## W = 0.96335, p-value = 7.786e-10
## 
## 
##  Shapiro-Wilk normality test
## 
## data:  datos$Estimaciones
## W = 0.97415, p-value = 1.002e-07
## 
## 
##  Shapiro-Wilk normality test
## 
## data:  datos$Estimaciones
## W = 0.98105, p-value = 4.235e-06
## 
## 
##  Shapiro-Wilk normality test
## 
## data:  datos$Estimaciones
## W = 0.98442, p-value = 3.408e-05
## 
## 
##  Shapiro-Wilk normality test
## 
## data:  datos$Estimaciones
## W = 0.98933, p-value = 0.00106
## 
## 
##  Shapiro-Wilk normality test
## 
## data:  datos$Estimaciones
## W = 0.99339, p-value = 0.02744
## 
## 
##  Shapiro-Wilk normality test
## 
## data:  datos$Estimaciones
## W = 0.99344, p-value = 0.02849
## 
## 
##  Shapiro-Wilk normality test
## 
## data:  datos$Estimaciones
## W = 0.99509, p-value = 0.1139
## 
## 
##  Shapiro-Wilk normality test
## 
## data:  datos$Estimaciones
## W = 0.99745, p-value = 0.6437

Los resultados de la prueba de normalidad de Shapiro-Wilk indican si las distribuciones de los estimadores \(\hat{p}\) para los diferentes tamaños de muestra se desvían de una distribución normal. La prueba proporciona dos valores: el estadístico W y el valor p.

Estadístico W: Un valor más cercano a 1 indica que los datos son más cercanos a una distribución normal. Valores significativamente menores que 1 indican desviaciones de la normalidad.

Valor p: Si el valor p es menor que el nivel de significancia (comúnmente 0.05), rechazamos la hipótesis nula de que los datos provienen de una distribución normal.

Interpretando cada uno:

W = 0.92326, p-value = 2.752e-15: Este resultado indica una desviación significativa de la normalidad, ya que el valor p es mucho menor que 0.05.

W = 0.96335, p-value = 7.786e-10: Aunque W está más cerca de 1, el valor p todavía indica una desviación significativa de la normalidad.

W = 0.97415, p-value = 1.002e-07: Aquí, W está aún más cerca de 1, pero el valor p sigue siendo lo suficientemente pequeño para indicar que los datos no son normales.

W = 0.98105, p-value = 4.235e-06: se continua viendo una tendencia hacia la normalidad con un mayor W, pero los resultados aún son estadísticamente significativos para rechazar la normalidad.

W = 0.98442, p-value = 3.408e-05: Similar al anterior, con una mejora en W pero aún con un valor p que indica no normalidad.

W = 0.98933, p-value = 0.00106: Este es más cercano a la normalidad en comparación con los anteriores, aunque el valor p aún es suficientemente pequeño.

W = 0.99339, p-value = 0.02744: Aquí W es muy cercano a 1, y el valor p es menor que 0.05, lo que sugiere una desviación leve de la normalidad.

W = 0.99344, p-value = 0.02849: Similar al anterior, con indicaciones leves de no normalidad.

W = 0.99509, p-value = 0.1139: Este resultado es bastante cercano a 1 en W y el valor p es mayor que 0.05, lo cual no permite rechazar la hipótesis de normalidad.

W = 0.99745, p-value = 0.6437: Este es el más cercano a una distribución normal de todos, con un W muy cercano a 1 y un valor p significativamente mayor que 0.05, indicando normalidad.

En general, estos resultados sugieren que a medida que el tamaño de la muestra aumenta, la distribución de \(\hat{p}\) tiende a aproximarse a una distribución normal, lo cual es consistente con el Teorema del Límite Central. Las muestras más grandes muestran una tendencia más fuerte hacia la normalidad en la distribución de sus estimaciones.