El Teorema del Límite Central (TLC) es uno de los pilares fundamentales de la inferencia estadística. Este teorema establece que, bajo ciertas condiciones, la distribución de la media muestral (o en este caso, la proporción muestral) de una población se aproxima a una distribución normal a medida que aumenta el tamaño de la muestra, independientemente de la distribución subyacente de la población.
En la práctica estadística, se suele considerar que esta aproximación es adecuada cuando el tamaño de la muestra supera las 30 observaciones (n > 30). Sin embargo, esta regla general puede variar dependiendo de las características de la población subyacente, particularmente de su distribución y parámetros.
Este estudio se propone verificar empíricamente la validez del TLC y examinar la precisión de la regla n>30 en diferentes casos, utilizando las simulaciones en R para generar muestras de poblaciones con diferentes proporciones de “plantas enfermas” (50%, 10% y 90%) y se determinará cómo la distribución de las proporciones muestrales se aproxima a la normalidad para diversos tamaños de muestra.
Verificar empíricamente la convergencia de la distribución de proporciones muestrales a la distribución normal, según lo postulado por el Teorema del Límite Central.
Evaluar la precisión y aplicabilidad de la regla general que sugiere una buena aproximación a la normalidad para tamaños de muestra superiores a 30 (n > 30).
Analizar cómo varía la aproximación a la normalidad en función del tamaño de la muestra, considerando muestras desde n = 5 hasta n = 500.
Verificar el impacto de diferentes proporciones poblacionales (50%, 10% y 90% de plantas enfermas) en la velocidad de convergencia a la normalidad.
Determinar la simetría, el sesgo y la variabilidad de las distribuciones de proporciones muestrales para diferentes tamaños de muestra y proporciones poblacionales, aplicando y comparando los métodos estadísticos (prueba de Shapiro-Wilk) y gráficos (gráficos Q-Q) para evaluar la normalidad de las distribuciones de proporciones muestrales.
Este ejercicio explora el Teorema del Límite Central (TLC) utilizando una muestra pequeña de plantas enfermas, iniciando con un lote poblacional de n = 1000.
El código desarrollado en R, muestra la simulación para los tres escenarios (50%, 10% y 90% de plantas enfermas) y generará los análisis y gráficos solicitados.
La generación de una población de 1000 individuos con proporciones de plantas enfermas de 10%, 50% y 90%.
La creación de funciones para obtener muestras aleatorias y calcular la proporción muestral.
La repitición del muestreo en 500 veces para cada tamaño de muestra especificado.
El cálculo estadística de manera descriptiva para las proporciones muestrales.
La realización de la prueba de Shapiro-Wilk para evaluar la normalidad.
Los gráficos Q-Q para visualizar la aproximación a dicha la normalidad, dada por el test anterior.
##
## Resultados para proporción verdadera = 0.5
##
## Tamaño de muestra: 5
## Media de proporciones muestrales: 0.482
## Desviación estándar de proporciones muestrales: 0.2298296
## Prueba de Shapiro-Wilk p-valor: 1.636727e-14
##
## Tamaño de muestra: 10
## Media de proporciones muestrales: 0.4964
## Desviación estándar de proporciones muestrales: 0.1607443
## Prueba de Shapiro-Wilk p-valor: 1.126411e-09
##
## Tamaño de muestra: 15
## Media de proporciones muestrales: 0.4929333
## Desviación estándar de proporciones muestrales: 0.1256072
## Prueba de Shapiro-Wilk p-valor: 9.578472e-08
##
## Tamaño de muestra: 20
## Media de proporciones muestrales: 0.4877
## Desviación estándar de proporciones muestrales: 0.1091216
## Prueba de Shapiro-Wilk p-valor: 1.58929e-06
##
## Tamaño de muestra: 30
## Media de proporciones muestrales: 0.4927333
## Desviación estándar de proporciones muestrales: 0.08899896
## Prueba de Shapiro-Wilk p-valor: 3.951364e-05
##
## Tamaño de muestra: 50
## Media de proporciones muestrales: 0.4926
## Desviación estándar de proporciones muestrales: 0.06982687
## Prueba de Shapiro-Wilk p-valor: 0.0005267744
##
## Tamaño de muestra: 60
## Media de proporciones muestrales: 0.4908667
## Desviación estándar de proporciones muestrales: 0.06604523
## Prueba de Shapiro-Wilk p-valor: 0.005547559
##
## Tamaño de muestra: 100
## Media de proporciones muestrales: 0.491
## Desviación estándar de proporciones muestrales: 0.05128997
## Prueba de Shapiro-Wilk p-valor: 0.02811619
##
## Tamaño de muestra: 200
## Media de proporciones muestrales: 0.49303
## Desviación estándar de proporciones muestrales: 0.03463623
## Prueba de Shapiro-Wilk p-valor: 0.1717753
##
## Tamaño de muestra: 500
## Media de proporciones muestrales: 0.489568
## Desviación estándar de proporciones muestrales: 0.02270357
## Prueba de Shapiro-Wilk p-valor: 0.2665842
##
## Resultados para proporción verdadera = 0.1
##
## Tamaño de muestra: 5
## Media de proporciones muestrales: 0.104
## Desviación estándar de proporciones muestrales: 0.144033
## Prueba de Shapiro-Wilk p-valor: 1.282432e-28
##
## Tamaño de muestra: 10
## Media de proporciones muestrales: 0.106
## Desviación estándar de proporciones muestrales: 0.09686468
## Prueba de Shapiro-Wilk p-valor: 3.386621e-21
##
## Tamaño de muestra: 15
## Media de proporciones muestrales: 0.08773333
## Desviación estándar de proporciones muestrales: 0.06858119
## Prueba de Shapiro-Wilk p-valor: 4.042431e-19
##
## Tamaño de muestra: 20
## Media de proporciones muestrales: 0.093
## Desviación estándar de proporciones muestrales: 0.06503429
## Prueba de Shapiro-Wilk p-valor: 2.470246e-16
##
## Tamaño de muestra: 30
## Media de proporciones muestrales: 0.09786667
## Desviación estándar de proporciones muestrales: 0.05384259
## Prueba de Shapiro-Wilk p-valor: 1.677592e-12
##
## Tamaño de muestra: 50
## Media de proporciones muestrales: 0.09388
## Desviación estándar de proporciones muestrales: 0.04081516
## Prueba de Shapiro-Wilk p-valor: 3.040134e-10
##
## Tamaño de muestra: 60
## Media de proporciones muestrales: 0.09793333
## Desviación estándar de proporciones muestrales: 0.03708296
## Prueba de Shapiro-Wilk p-valor: 4.289085e-07
##
## Tamaño de muestra: 100
## Media de proporciones muestrales: 0.09406
## Desviación estándar de proporciones muestrales: 0.02895848
## Prueba de Shapiro-Wilk p-valor: 0.0001070857
##
## Tamaño de muestra: 200
## Media de proporciones muestrales: 0.09702
## Desviación estándar de proporciones muestrales: 0.02155107
## Prueba de Shapiro-Wilk p-valor: 2.963819e-05
##
## Tamaño de muestra: 500
## Media de proporciones muestrales: 0.096256
## Desviación estándar de proporciones muestrales: 0.01342262
## Prueba de Shapiro-Wilk p-valor: 0.1604399
##
## Resultados para proporción verdadera = 0.9
##
## Tamaño de muestra: 5
## Media de proporciones muestrales: 0.904
## Desviación estándar de proporciones muestrales: 0.1318285
## Prueba de Shapiro-Wilk p-valor: 5.207021e-29
##
## Tamaño de muestra: 10
## Media de proporciones muestrales: 0.8936
## Desviación estándar de proporciones muestrales: 0.09989493
## Prueba de Shapiro-Wilk p-valor: 1.632134e-21
##
## Tamaño de muestra: 15
## Media de proporciones muestrales: 0.8965333
## Desviación estándar de proporciones muestrales: 0.08050431
## Prueba de Shapiro-Wilk p-valor: 2.417876e-17
##
## Tamaño de muestra: 20
## Media de proporciones muestrales: 0.8904
## Desviación estándar de proporciones muestrales: 0.06660866
## Prueba de Shapiro-Wilk p-valor: 6.823018e-15
##
## Tamaño de muestra: 30
## Media de proporciones muestrales: 0.8887333
## Desviación estándar de proporciones muestrales: 0.05998363
## Prueba de Shapiro-Wilk p-valor: 6.586001e-10
##
## Tamaño de muestra: 50
## Media de proporciones muestrales: 0.89148
## Desviación estándar de proporciones muestrales: 0.04233905
## Prueba de Shapiro-Wilk p-valor: 1.310421e-08
##
## Tamaño de muestra: 60
## Media de proporciones muestrales: 0.8887667
## Desviación estándar de proporciones muestrales: 0.04102792
## Prueba de Shapiro-Wilk p-valor: 1.547425e-07
##
## Tamaño de muestra: 100
## Media de proporciones muestrales: 0.89156
## Desviación estándar de proporciones muestrales: 0.03109824
## Prueba de Shapiro-Wilk p-valor: 6.602548e-05
##
## Tamaño de muestra: 200
## Media de proporciones muestrales: 0.89266
## Desviación estándar de proporciones muestrales: 0.02195195
## Prueba de Shapiro-Wilk p-valor: 0.00544748
##
## Tamaño de muestra: 500
## Media de proporciones muestrales: 0.891984
## Desviación estándar de proporciones muestrales: 0.01332918
## Prueba de Shapiro-Wilk p-valor: 0.02830934
## true_proportion sample_size mean sd shapiro_p
## 1 0.5 5 0.48200000 0.22982960 1.636727e-14
## 2 0.5 10 0.49640000 0.16074426 1.126411e-09
## 3 0.5 15 0.49293333 0.12560721 9.578472e-08
## 4 0.5 20 0.48770000 0.10912161 1.589290e-06
## 5 0.5 30 0.49273333 0.08899896 3.951364e-05
## 6 0.5 50 0.49260000 0.06982687 5.267744e-04
## 7 0.5 60 0.49086667 0.06604523 5.547559e-03
## 8 0.5 100 0.49100000 0.05128997 2.811619e-02
## 9 0.5 200 0.49303000 0.03463623 1.717753e-01
## 10 0.5 500 0.48956800 0.02270357 2.665842e-01
## 11 0.1 5 0.10400000 0.14403295 1.282432e-28
## 12 0.1 10 0.10600000 0.09686468 3.386621e-21
## 13 0.1 15 0.08773333 0.06858119 4.042431e-19
## 14 0.1 20 0.09300000 0.06503429 2.470246e-16
## 15 0.1 30 0.09786667 0.05384259 1.677592e-12
## 16 0.1 50 0.09388000 0.04081516 3.040134e-10
## 17 0.1 60 0.09793333 0.03708296 4.289085e-07
## 18 0.1 100 0.09406000 0.02895848 1.070857e-04
## 19 0.1 200 0.09702000 0.02155107 2.963819e-05
## 20 0.1 500 0.09625600 0.01342262 1.604399e-01
## 21 0.9 5 0.90400000 0.13182852 5.207021e-29
## 22 0.9 10 0.89360000 0.09989493 1.632134e-21
## 23 0.9 15 0.89653333 0.08050431 2.417876e-17
## 24 0.9 20 0.89040000 0.06660866 6.823018e-15
## 25 0.9 30 0.88873333 0.05998363 6.586001e-10
## 26 0.9 50 0.89148000 0.04233905 1.310421e-08
## 27 0.9 60 0.88876667 0.04102792 1.547425e-07
## 28 0.9 100 0.89156000 0.03109824 6.602548e-05
## 29 0.9 200 0.89266000 0.02195195 5.447480e-03
## 30 0.9 500 0.89198400 0.01332918 2.830934e-02
Media de las proporciones muestrales, la cual debería aproximarse a 0.1, pero con mayor variabilidad para tamaños de muestra pequeños.
Desviación estándar: Este valor es menor que en el caso de p=0.5, pero siguiendo el mismo patrón de disminución con el aumento de n.
La convergencia a la normalidad será más lenta que para p=0.5. Se podrian implementar tamaños de muestra más grandes (posiblemente n > 50 o n > 100) para ver una buena aproximación a la normalidad.
Media de las proporciones muestrales, la cual debería estar cerca de 0.5 para todos los tamaños de muestra. Dicha precisión aumentará con el tamaño de la muestra.
Desviación estándar, la cual debería disminuir a medida que aumenta el tamaño de la muestra. Se espera una reducción significativa de la variabilidad entre n=5 y n=500.
Test de Normalidad (prueba de Shapiro-Wilk): Para tamaños de muestra pequeños (n < 30), es probable que los p-valores sean bajos, indicando desviaciones de la normalidad. A partir de n=30, se esperan los p-valores más altos, sugiriendo una mejor aproximación a la normalidad.
Media y desviación estándar. El comportamiento mostrado es similar al caso de p=0.1, pero reflejado.
El comportamiento de normalidad también similar al caso de p=0.1, con una convergencia más lenta a la normalidad comparada con p=0.5.
En los gráficos QQ correspondientes a tamaños de muestra pequeños (como 5, 10, 15), es probable observar desviaciones significativas de la línea recta. Esto sugiere que, cuando el tamaño de muestra es pequeño, las proporciones muestrales no siguen una distribución normal.
Las desviaciones pueden ser más notables en las proporciones extremas, es decir, cuando la proporción verdadera es cercana a 0 (p = 0.1) o cercana a 1 (p = 0.9). En estos casos, los puntos tienden a desviarse en las colas del gráfico QQ, lo que indica que hay menos variabilidad de lo que sería esperado en una distribución normal.
A medida que el tamaño de la muestra aumenta (por ejemplo, a partir de tamaños de muestra como 50, 100, 200), el gráfico QQ tiende a alinearse mejor con la línea recta. Esto indica que, para muestras grandes, las proporciones muestrales tienden a aproximarse a una distribución normal, lo cual es una manifestación del Teorema Central del Límite (TCL).
Para muestras grandes, la variabilidad en las proporciones muestrales disminuye y estas se ajustan mejor a la normalidad, lo que se observa en una alineación más cercana de los puntos a la línea en los gráficos QQ.
Para proporciones cercanas a los extremos (p = 0.1 o p = 0.9), incluso con tamaños de muestra más grandes, puede observarse una leve curvatura en los gráficos QQ, especialmente en los extremos. Esto sugiere que las distribuciones muestrales no son perfectamente normales en estos casos, aunque mejoran con tamaños de muestra mayores.
Esto podria ser esperable, ya que, cuando la proporción está cerca de 0 o de 1, los valores muestrales tienden a estar más concentrados cerca de estos límites, lo que introduce una asimetría en la distribución de las proporciones muestrales.
Los valores p del test de Shapiro reflejan lo observado en los gráficos QQ. Para tamaños de muestra pequeños, especialmente en proporciones extremas, los valores p suelen ser bajos, indicando que no podemos asumir normalidad.
A medida que el tamaño de muestra aumenta, los valores p tienden a crecer, lo que sugiere que la normalidad se va cumpliendo mejor para muestras más grandes.
La proporción verdadera p = 0.5 se comporta de manera más cercana a una distribución normal, incluso con tamaños de muestra más pequeños.