Definicion

Es un teorema de probabilidad y estadística que describe la distribución de la media de una muestra aleatoria proveniente de una población con una distribución no normal. Cuando el tamaño de la muestra es lo suficientemente grande, la distribución de las medias sigue aproximadamente una distribución normal independientemente de la forma original de la población. Muchos procedimientos estadísticos comunes requieren que los datos sean aproximadamente normales. El teorema de límite central le permite aplicar estos procedimientos útiles a poblaciones que son considerablemente no normales. El tamaño que debe tener la muestra depende de la forma de la distribución original. Si la distribución de la población es simétrica, un tamaño de muestra de 5 podría producir una aproximación adecuada. Si la distribución de la población es considerablemente asimétrica, es necesario un tamaño de muestra más grande. Por ejemplo, la distribución de la media puede ser aproximadamente normal si el tamaño de la muestra es mayor que 50. Las siguientes gráficas muestran ejemplos de cómo la distribución afecta el tamaño de la muestra que se necesita.

Comprobando el Teorema

#funcion TLC
# 1. Crear una población sesgada 
tlc<-function(N,n_muestras,tamano_muestra){

set.seed(123)
poblacion <- rexp(N, rate = 1) 

# 2. crear muestras y calcular media por muestra

medias <- numeric(n_muestras)

for (i in 1:n_muestras) {
  muestra <- sample(poblacion, tamano_muestra, replace = TRUE)
  medias[i] <- mean(muestra)
}

# 3. Crear un data frame con las medias
df <- data.frame(media = medias)

# 4. Graficar con ggplot2
g1<-ggplot(df, aes(x = media)) +
  geom_histogram(aes(y = ..density..), bins = 30, fill = "skyblue", color = "black") +
  stat_function(fun = dnorm, args = list(mean = mean(medias), sd = sd(medias)), 
                color = "red", size = 1.2) +
  labs(title = "Teorema Central del Límite con Distribución Exponencial",
       x = "Media de la muestra", y = "Densidad") +
  theme_minimal()

print(g1)
library(nortest)
shapiro.test(medias)
lillie.test(medias)
}

Simulando N=100, numero de muestras 10, n=15

tlc(100,10,15)

## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  medias
## D = 0.18777, p-value = 0.406

Simulando N=1000, numero de muestras 20, n=55

tlc(1000,20,55)

## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  medias
## D = 0.13223, p-value = 0.4763

Simulando N=1000, numero de muestras 50, n=75

tlc(1000,50,55)

## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  medias
## D = 0.12312, p-value = 0.05605

Simulando N=1000, numero de muestras 150, n=155

tlc(1000,150,155)

## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  medias
## D = 0.068111, p-value = 0.08548

Simulando N=1000, numero de muestras 250, n=255

tlc(1000,250,55)

## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  medias
## D = 0.03225, p-value = 0.7604

pero se cumple siempre

Simulando N=1000, numero de muestras 150, n=55

tlc(1000,150,55)

## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  medias
## D = 0.07383, p-value = 0.04424

la excepción de la regla para el \(\alpha\)