TEOREMA DEL LÍMITE CENTRAL

El Teorema del Límite Central es uno de los más importantes en la inferencia estadística y habla sobre la convergencia de los estimadores como la proporción muestral a la distribución normal. Algunos autores afirman que esta aproximación es bastante buena a partir del umbral n>30.

A continuación se describen los siguientes pasos para su verificación:

VERIFICACIÓN

Simulación

Se genera una población de n = 1000, donde el porcentaje de individuos enfermos es de 50%.

set.seed(123)  # Semilla para reproducibilidad
n <- 1000  # Tamaño de la población
enfermo <- 0.5  # Población enferma

poblacion <- rbinom(n, 1, enfermo)  # 1 -> Enfermo
                                     # 0 -> sano

Obtener muestras aleatorias y estimar p^

A continuación se obtiene una muestra aleatoria de la población y se raliza el calculo del estimador de la proporción muestral pˆ para un tamaño de muestra dado n. 

  obtener_muestra <- function(n_muestra, poblacion) {
  muestra <- sample(poblacion, n_muestra)
  p_hat <- mean(muestra)
  return(p_hat)
}

Analizar resultados con n = 500 muestra

n_simulaciones <- 500
tamanos_muestra <- c(5, 10, 15, 20, 30, 50, 60, 100, 200, 500)

resultados <- matrix(NA, nrow = n_simulaciones, ncol = length(tamanos_muestra))

for (i in 1:n_simulaciones) {
  for (j in 1:length(tamanos_muestra)) {
    n_muestra <- tamanos_muestra[j]
    p_hat <- obtener_muestra(n_muestra, poblacion)
    resultados[i, j] <- p_hat
  }
}

# Visualizar los resultados

colnames(resultados) <- tamanos_muestra

Prueba de bondad y ajuste

library(stats)

# Función para realizar pruebas de bondad y ajuste
realizar_pruebas <- function(muestra, titulo) {
  shapiro_result <- shapiro.test(muestra)
  qqnorm(muestra)
  qqline(muestra)
  
  cat(titulo, "\n")
  cat("Resultado de Shapiro-Wilk:", "\n")
  print(shapiro_result)
  cat("\n")
}

# Realizar pruebas para diferentes tamaños de muestra
for (j in 1:length(tamanos_muestra)) {
  n_muestra <- tamanos_muestra[j]
  muestra <- resultados[, j]
  titulo <- paste("Tamaño de muestra:", n_muestra)
  realizar_pruebas(muestra, titulo)
}

## Tamaño de muestra: 5 
## Resultado de Shapiro-Wilk: 
## 
##  Shapiro-Wilk normality test
## 
## data:  muestra
## W = 0.92064, p-value = 1.447e-15

## Tamaño de muestra: 10 
## Resultado de Shapiro-Wilk: 
## 
##  Shapiro-Wilk normality test
## 
## data:  muestra
## W = 0.96659, p-value = 3.02e-09

## Tamaño de muestra: 15 
## Resultado de Shapiro-Wilk: 
## 
##  Shapiro-Wilk normality test
## 
## data:  muestra
## W = 0.97483, p-value = 1.412e-07

## Tamaño de muestra: 20 
## Resultado de Shapiro-Wilk: 
## 
##  Shapiro-Wilk normality test
## 
## data:  muestra
## W = 0.97835, p-value = 9.062e-07

## Tamaño de muestra: 30 
## Resultado de Shapiro-Wilk: 
## 
##  Shapiro-Wilk normality test
## 
## data:  muestra
## W = 0.98688, p-value = 0.0001791

## Tamaño de muestra: 50 
## Resultado de Shapiro-Wilk: 
## 
##  Shapiro-Wilk normality test
## 
## data:  muestra
## W = 0.99042, p-value = 0.002452

## Tamaño de muestra: 60 
## Resultado de Shapiro-Wilk: 
## 
##  Shapiro-Wilk normality test
## 
## data:  muestra
## W = 0.98982, p-value = 0.001543

## Tamaño de muestra: 100 
## Resultado de Shapiro-Wilk: 
## 
##  Shapiro-Wilk normality test
## 
## data:  muestra
## W = 0.99078, p-value = 0.003264

## Tamaño de muestra: 200 
## Resultado de Shapiro-Wilk: 
## 
##  Shapiro-Wilk normality test
## 
## data:  muestra
## W = 0.99522, p-value = 0.1271

## Tamaño de muestra: 500 
## Resultado de Shapiro-Wilk: 
## 
##  Shapiro-Wilk normality test
## 
## data:  muestra
## W = 0.99571, p-value = 0.1892

CONCLUSIONES

De acuerdo a la simulación realizada del teorema del límite central donde se toma una muestra poblacional, del cual el 50% se encuentra enferma, se concluye:

  1. La prueba realizada de bondad y ajuste se evidencia que a medida que el tamaño de la muestra incrementa, la distribución de los estimadores de la muestra se aproxima más a una distribución normal.

  2. En la repetición de la simulación para la población enferma correspondiente a un 10% y 90%, se identifico que los resultados obtenidos sigue mostrando una aproximación a la normalidad a medida que aumenta el tamaño de la muestra.

  3. El teorema del límite central es importante en la aplicación de la estadística inferencial para desarrollar estimaciones precisas incluso cuando una parte de la población total no sigue una distribución normal.