## Warning: package 'patchwork' was built under R version 4.3.3
## Warning: package 'gridExtra' was built under R version 4.3.3

Teorema del Limite Central

El teorema del límite central es, por mucho, el resultado más importante en estadística. Muchos de los métodos estadísticos comúnmente empleados basan su validez en este teorema. El teorema del límite central establece que si se extrae una muestra lo suficientemente grande \((n > 30)\) de una población, entonces la distribución de la media muestral es aproximadamente normal, sin importar de qué tipo de población haya sido extraída la muestra.

Teniendo en cuenta lo anterior, vamos a simular algunas muestras aleatorias de diferentes tamaños, para comprobar que el planteamiento expuesto en el teorema del limite central es cierto.

Función para generar una muestra aleatoria

En este caso, necesitamos que la función tenga las siguiente características:

  • Genere una muestra aleatoria de tamaño n de una distribución binomial.

  • Calcule el estimador de la proporción muestral \(\hat{p}\) para un tamaño de muestra dado n.

est_prop <- function(n, p){
  set.seed(1234)
  m=1000*n # Lote de tamaño mil
  X=matrix(rbinom(m,1,p), ncol= n) # Muestras aleatorias
  media <- apply(X[, 1:n], 1, mean) # media de las estimaciones 
  prop <- data.frame(estimaciones = media) 
  return(prop)
}
En este caso la función, devuelve un data frame con la media de las estimaciones, tomando como entrada el tamaño de la muestra y el valor de la proporción.

A continuación estimaremos \(\hat{p}\) para diferentes lotes de plantas considerando como “exito” encontrar una planta enferma.

Proporción de plantas enfermas igual al 50%

Estimación de la proporción para diferentes tamaños de muestra

Una vez creada la función que nos calcula la media del estimador, de acuerdo con el tamaño de muestra y la proporción, procederemos a simular algunos datos para muestras de tamaños n = 5, 10, 15, 20, 30, 50, 60, 100, 200, 500, 1000, 10000, suponiendo que la proporción de plantas enfermas sea del 50%.
p = 0.5 # Propoción de plantas enfermas.
m_5 <- est_prop(5, p)
m_10 <- est_prop(10, p)
m_15 <- est_prop(15, p)
m_20 <- est_prop(20, p)
m_30 <- est_prop(30, p)
m_50 <- est_prop(50, p)
m_60 <- est_prop(60, p)
m_100 <- est_prop(100, p)
m_200 <- est_prop(200, p)
m_500 <- est_prop(500, p)
m_1000 <- est_prop(1000, p)
m_0 <- est_prop(250, p)
Una vez generadas las muestras, realizaremos las pruebas de normalidad, usando el test de Shapiro Wilk con \(\alpha = 0.05\) que es el nivel de significancia que aplica R por defecto. Para esto se plantea el siguiente sistema de hipótesis.
\(H_0\): La muestra proviene de una distribución normal.
Vs
\(H_1\): La muestra NO proviene de una distribución normal.
A continuación, se muestran los resultados obtenidos por medio de las simulaciones para cada uno de los tamaños de muestra.

Según varios autores, cuando el tamaño muestral es mayor a 30, la aproximación del teorema del límite central es adecuada para la mayoría de las poblaciones. Sin embargo, en este caso específico, las estimaciones para la proporción se distribuyen normalmente a partir de una muestra de tamaño \(n = 250\).

Esto se verifica mediante los resultados de la prueba de Shapiro-Wilks para normalidad. Donde el p-valor obtenido para muestras de tamaño \(n < 250\) es menor que el nivel de significancia \(\alpha = 0.05\), lo que proporciona evidencia estadística para rechazar la hipótesis nula \((H_0)\). En otras palabras, la muestra en estos casos no sigue una distribución normal. Por otro lado, para muestras de tamaño mayor a 250, el p-valor es mayor que el nivel de significancia \(\alpha\), lo que sugiere que no hay evidencia estadística para rechazar \(H_0\), indicando que es posible que la muestra tenga una distribución normal.
n P- Valor
5 2.2e-16
10 8.37e-15
15 3.68e-09
20 1.7e-07
30 9.52e-08
50 2.41e-05
60 4.95e-05
100 0.002125
200 0.03053
500 0.2443

Histogramas para diferentes tamaños de muestra.

Por medio de los histogramas, se puede observar que para muestras de tamaños pequeños, en este caso menores que 200 los histogramas muestran una cola a la izquierda y no guardan parecido con el que se obtendría a partir de una distribución normal. Sin embargo, a medida que aumenta el tamaño de la muestra, se puede ver como los histogramas empezan a adquirir la forma de una campana de Gauss.

Graficos de Normalidad para diferentes tamaños de muestra

En los gráficos de puntos se observa que para muestras pequeñas los gráficos de puntos no se ajustan a la diagonal, mostrando lineas horizontales de puntos, es decir que no se distrubuyen normalmente. Sin embargo, para muestras mayores a 250, los puntos se alinean con la diagonal de los percentiles teóricos y los muestrales. Cabe resaltar que para muestras de tamaño mayor a 30, la distribución de los puntos se ajusta de forma más precisa a la diagonal, mejorando a medida que aumenta el tamaño de muestra.

proporción de plantas enfermas igual al 10%

Igual que en el caso anterior vamos a simular muestras de diferentes tamaños y veremos el comportamiento de la distribución a medida que el tamaño de muestra aumenta. Para esto asumiremos que la proporción de platas enfermas en el lote es del 10%.
p = 0.1 # Propoción de plantas enfermas.
m1_5 <- est_prop(5, p)
m1_10 <- est_prop(10, p)
m1_15 <- est_prop(15, p)
m1_20 <- est_prop(20, p)
m1_30 <- est_prop(30, p)
m1_50 <- est_prop(50, p)
m1_60 <- est_prop(60, p)
m1_100 <- est_prop(100, p)
m1_200 <- est_prop(200, p)
m1_500 <- est_prop(500, p)
m1_1000 <- est_prop(1000, p)
m1_0 <- est_prop(1350, p)

Pruebas de Hipótesis para diferentes tamaños de muestra

Ahora, realizaremos las pruebas de normalidad, usando el test de Shapiro Wilk con \(\alpha = 0.05\), y el sistema de hipótesis planteado al inicio.

n P- Valor
5 2.2e-16
10 2.2e-16
15 2.2e-16
20 2.2e-16
30 2.2e-16
50 1.935e-12
60 5.829e-11
100 5.1e-08
200 0.000131
500 0.01525

En este caso se observa que para ninguno de los tamaños de muestra el p-valor es mayor que el nivel de significancia, por lo cual se rechaza la hipótesis nula de que las muestras provienen de una distribución normal. Sin embargo, por medio de experimentación se pudo determinar que para muestras que superan un tamaño de 1300 observaciones, la distribución se comporta como una normal.

Histogramas para los diferentes tamaños de muestra

Los histogramas muestran que para muestras de tamaño pequeño, en este caso menores a 100, los histogramas presentan colas a la derecha y no tienen un comportamiento similar al de la distribución normal. Por otra parte, a medida que n aumenta, los histogramas se asemejan cada vez más a los que mostraría una distribución normal.

Graficos de Normalidad para diferentes tamaños de muestra

En los graficos de normalidad se observa que para muestras menores o iguales a 30, los puntos no son cercanos a la diagonal, lo que indica que los datos no provienen de una distribución normal. Por otra parte, a medida que se aumenta el tamaño de la muestra, se puede evidenciar, que los puntos cada vez se ajustan mejor a la diagonal de los percentiles teóricos y los muestrales, por lo que se puede concluir que la distribución de los estimadores se aproxima a una distribución normal.

Proporción de plantas enfermas igual al 90%

Ahora, vamos a asumir que la proporción de plantas enfermas es del 90%, y simularemos algunos resultados.

p2 = 0.9 # Propoción de plantas enfermas.
m2_5 <- est_prop(5, p2)
m2_10 <- est_prop(10, p2)
m2_15 <- est_prop(15, p2)
m2_20 <- est_prop(20, p2)
m2_30 <- est_prop(30, p2)
m2_50 <- est_prop(50, p2)
m2_60 <- est_prop(60, p2)
m2_100 <- est_prop(100, p2)
m2_200 <- est_prop(200, p2)
m2_500 <- est_prop(500, p2)
m2_1000 <- est_prop(1000, p2)
m2_0 <- est_prop(1300, p2)

Pruebas de Hipotesis

Una vez generados los nuevos datos, procederemos a realizar las pruebas de hipótesis, para conocer si los datos tienen distribución normal, usando el test de Shapiro-Wilk. Para esto, vamos a considerar el sistema de hipótesis planteado inicialmente.

n P- Valor
5 2.2e-16
10 2.2e-16
15 2.2e-16
20 2.2e-16
30 2.2e-16
50 1.935e-12
60 5.829e-11
100 5.1e-08
200 0.000131
500 0.01525

En este caso se observa que el p-valor para muestras de tamaño \(n < 1300\) es menor que el nivel de significancia \(\alpha\) por lo cual, hay evidencia estadística para rechazar la hipótesis nula, es decir que los datos no provienen de una distribución normal. Sin embargo, por medio de experimentación para valores mayores a 1300, el p-valor es mayor que \(\alpha\) lo cual comprueba la teoría expuesta en el _Teorema del Limite Central.

Aquí se puede observar que los histogramas presentan colas a la izquierda para muestras menores o iguales a 60. Sin embargo, a medida que aumenta el tamaño de muestra, los histogramas se empiezan a asemejar al de una distribución normal.

Graficos de normalidad

En los graficos de normalidad se observa que para muestras menores o iguales a 30, los puntos no son cercanos a la diagonal, lo que indica que los datos no provienen de una distribución normal. Por otra parte, a medida que se aumenta el tamaño de la muestra, se puede evidenciar, que los puntos cada vez se ajustan mejor a la diagonal de los percentiles teóricos y los muestrales. Siendo a partir de un tamaño de muestra de 1300 que los puntos se ajustan casi de forma perfecta a la diagonal. Lo cual indica que a partir de este tamaño de muestra, los datos se distribuyen normalmente.