Carlos Jimémez-Gallardo
Estadístico
MSc Informática Educativa
Universidad de La Frontera
carlos.jimenez@ufrontera.cl
Data Scientist
[www.innovate.cl] cjimenez@innovate.cl
Canal de
Youtube
Es un teorema de probabilidad y estadística que describe la distribución de la media de una muestra aleatoria proveniente de una población con una distribución no normal. Cuando el tamaño de la muestra es lo suficientemente grande, la distribución de las medias sigue aproximadamente una distribución normal independientemente de la forma original de la población. Muchos procedimientos estadísticos comunes requieren que los datos sean aproximadamente normales. El teorema de límite central le permite aplicar estos procedimientos útiles a poblaciones que son considerablemente no normales. El tamaño que debe tener la muestra depende de la forma de la distribución original. Si la distribución de la población es simétrica, un tamaño de muestra de 5 podría producir una aproximación adecuada. Si la distribución de la población es considerablemente asimétrica, es necesario un tamaño de muestra más grande. Por ejemplo, la distribución de la media puede ser aproximadamente normal si el tamaño de la muestra es mayor que 50. Las siguientes gráficas muestran ejemplos de cómo la distribución afecta el tamaño de la muestra que se necesita.
#funcion TLC
# 1. Crear una población sesgada
tlc<-function(N,n_muestras,tamano_muestra){
set.seed(123)
poblacion <- rexp(N, rate = 1)
# 2. crear muestras y calcular media por muestra
medias <- numeric(n_muestras)
for (i in 1:n_muestras) {
muestra <- sample(poblacion, tamano_muestra, replace = TRUE)
medias[i] <- mean(muestra)
}
# 3. Crear un data frame con las medias
df <- data.frame(media = medias)
# 4. Graficar con ggplot2
g1<-ggplot(df, aes(x = media)) +
geom_histogram(aes(y = ..density..), bins = 30, fill = "skyblue", color = "black") +
stat_function(fun = dnorm, args = list(mean = mean(medias), sd = sd(medias)),
color = "red", size = 1.2) +
labs(title = "Teorema Central del Límite con Distribución Exponencial",
x = "Media de la muestra", y = "Densidad") +
theme_minimal()
print(g1)
library(nortest)
shapiro.test(medias)
lillie.test(medias)
}
Simulando N=100, numero de muestras 10, n=15
tlc(100,10,15)
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: medias
## D = 0.18777, p-value = 0.406
Simulando N=1000, numero de muestras 20, n=55
tlc(1000,20,55)
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: medias
## D = 0.13223, p-value = 0.4763
Simulando N=1000, numero de muestras 50, n=75
tlc(1000,50,55)
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: medias
## D = 0.12312, p-value = 0.05605
Simulando N=1000, numero de muestras 150, n=155
tlc(1000,150,155)
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: medias
## D = 0.068111, p-value = 0.08548
Simulando N=1000, numero de muestras 250, n=255
tlc(1000,250,55)
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: medias
## D = 0.03225, p-value = 0.7604
Simulando N=1000, numero de muestras 150, n=55
tlc(1000,150,55)
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: medias
## D = 0.07383, p-value = 0.04424
la excepción de la regla para el \(\alpha\)