El objetivo de esta actividad es verificar y explorar el Teorema del Límite Central a través de simulaciones. La actividad busca demostrar cómo la distribución de la proporción muestral \(\hat{p}\) se aproxima a una distribución normal a medida que aumenta el tamaño de la muestra \(n\), incluso cuando se extraen muestras de una población con una distribución no normal.
1. Generación de una Población de 1,000 Individuos: Generar una población de \(n = 1000\) individuos (plantas), donde el 50% de ellas están enfermas. Esta población se simulará usando una distribución binomial con \(p = 0.5\). posteriormente se derrallara nuevamente todo el problema una distribución binomial con \(p = 0.1\) y \(p = 0.9\)
2. Función para Obtener una Muestra Aleatoria y Calcular \(\hat{p}\): Crear una función en R que permita tomar una muestra aleatoria de la población y calcular la proporción muestral \(\hat{p}\) (el estimador de la proporción de plantas enfermas) para un tamaño de muestra dado \(n\) = 5, 10, 15, 20, 30, 50, 60, 100, 200, 500 .
3. Simulación de 500 Muestras: Repetir el proceso de muestreo 500 veces con un tamaño de muestra específico \(n\) y se analizará el comportamiento de la distribución de los 500 estimadores \(\hat{p}\).
funciones a utilizar:
rbinom() - se utiliza para generar números aleatorios a partir de una distribución binomial.
funtion(){} - personalizadas que pueden realizar tareas específicas.
data.frame() - para crear data frames, una estructura de datos bidimensional
sapply() - aplica una función a cada elemento de una lista o vector y simplifica el resultado a un vector o matriz si es posible
| n | e_poblacion | Des_estandar | Sesgo | Curtosis | Shapiro_pval |
|---|---|---|---|---|---|
| 5 | 0.5076000 | 0.2240595 | 0.4802297 | -0.3720860 | 0.0000000 |
| 10 | 0.4862000 | 0.1534818 | -0.0899129 | -0.1322051 | 0.0000000 |
| 15 | 0.4864000 | 0.1315239 | 0.1500361 | -0.2483009 | 0.0000003 |
| 20 | 0.5051000 | 0.1106502 | 0.0460912 | -0.2006652 | 0.0000015 |
| 30 | 0.4941333 | 0.0900099 | -0.0651780 | 0.2741519 | 0.0000257 |
| 50 | 0.5001600 | 0.0728573 | 0.0021961 | -0.0693675 | 0.0104276 |
| 60 | 0.4961000 | 0.0628129 | -0.0620892 | -0.0622877 | 0.0028760 |
| 100 | 0.4962000 | 0.0482474 | -0.0787607 | -0.1511306 | 0.0660993 |
| 200 | 0.4918500 | 0.0343072 | 0.0539246 | -0.4041526 | 0.0217034 |
| 500 | 0.4949240 | 0.0206232 | -0.0036852 | 0.0078187 | 0.5683287 |
A medida que aumenta el tamaño de muestra \(n\), el sesgo tiende a acercarse a 0, indicando que la distribución de la proporción muestral \(\hat{p}\) se vuelve más simétrica. Para tamaños de muestra pequeños (como \(n = 5\)), el sesgo es alto y variable. Con tamaños de muestra más grandes (como \(n = 500\)), el sesgo se aproxima a 0, indicando una distribución más simétrica.
La desviación estándar disminuye a medida que aumenta el tamaño de muestra \(n\). Esto es consistente con la teoría del límite central, que establece que a medida que el tamaño de muestra aumenta, la distribución de la proporción muestral se vuelve más concentrada alrededor de la media poblacional. Para tamaños de muestra pequeños, hay una mayor variabilidad en las proporciones muestrales, mientras que para tamaños de muestra grandes, la variabilidad es menor.
Para tamaños de Muestra Pequeños a partir de los histogramas es posible establecer que la distribución de \(\hat{p}\) es más dispersa y menos simétrica, con una mayor variabilidad, los gráficos Q-Q muestran desviaciones significativas con respecto a la línea de referencia. Las colas de los gráficos Q-Q se desvían considerablemente, lo que sugiere que la distribución de \(\hat{p}\) no es normal en estos casos.
Para tamaños de Muestra intermedios los histogramas muestran que la distribución de \(\hat{p}\) se vuelve más simétrica y centrada alrededor de 0.5, lo que indica una reducción en la variabilidad y una mejor concentración alrededor del valor esperado, así mismo los gráficos Q-Q muestran una mejor alineación con la línea de referencia, aunque aún se observan algunas desviaciones en los extremos.
Con tamaños de muestra mayores, los histogramas evidencian una distribución mucho más centrada y con menos dispersión, lo que indica una clara tendencia hacia la normalidad, la variabilidad es considerablemente menor, en consecuencia, Los gráficos Q-Q para estos tamaños de muestra muestran una alineación mucho más cercana a la línea de referencia, especialmente en el rango central, lo que indica que la distribución de \(\hat{p}\) es casi normal.
Los resultados confirman que el TLC se cumple: a medida que el tamaño de la muestra \(n\) aumenta, la distribución de \(\hat{p}\) se aproxima cada vez más a una distribución normal. Lo cual es evidente en la mayor simetría, la concentración alrededor del valor esperado, y la mejor alineación en los gráficos Q-Q.
Para tamaños de muestra mayores (a partir de \(n \approx 50\)), la distribución de \(\hat{p}\) se vuelve más normal y las estimaciones más precisas
Generar una población de \(n = 1000\) individuos (plantas), donde el 10% de ellas están enfermas. Esta población se simulará usando una distribución binomial con \(p = 0.1\).
| n2 | e_poblacion2 | Des_estandar2 | Sesgo2 | Curtosis2 | Shapiro_pval2 |
|---|---|---|---|---|---|
| 5 | 0.0920000 | 0.1316460 | 0.6988440 | 1.3619178 | 0.0000000 |
| 10 | 0.0836000 | 0.0828539 | -0.1979388 | 0.5858151 | 0.0000000 |
| 15 | 0.0924000 | 0.0731334 | 0.3518685 | 0.2421516 | 0.0000000 |
| 20 | 0.0958000 | 0.0653521 | -0.0642672 | 0.3905713 | 0.0000000 |
| 30 | 0.0956667 | 0.0528955 | -0.0819226 | -0.0929293 | 0.0000000 |
| 50 | 0.0944800 | 0.0425247 | -0.1298070 | -0.1014889 | 0.0000000 |
| 60 | 0.0923667 | 0.0381471 | 0.2368029 | 0.3680141 | 0.0000001 |
| 100 | 0.0939000 | 0.0286117 | 0.1363081 | -0.3374609 | 0.0000199 |
| 200 | 0.0900400 | 0.0200775 | 0.0019923 | 0.1753550 | 0.0014584 |
| 500 | 0.0928920 | 0.0125273 | -0.0884466 | -0.3783312 | 0.1050598 |
La media de las estimaciones de proporción se aproxima al valor real a medida que el tamaño de muestra aumenta, la desviación estándar disminuye, indicando mayor precisión.
El sesgo disminuye con el aumento del tamaño de muestra, indicando que la distribución de las estimaciones se vuelve más simétrica. La curtosis también tiende a acercarse a 0 con tamaños de muestra más grandes, indicando que la distribución se está aproximando a la normalidad.
Con tamaños de muestra pequeños, el valor p es muy bajo, indicando que las estimaciones no siguen una distribución normal, A medida que el tamaño de muestra aumenta, el valor p tiende a subir. Para n = 500, el valor p es 0.105, lo que indica que no se rechaza la hipótesis nula de normalidad. Esto sugiere que con un tamaño de muestra grande, la distribución de las estimaciones se aproxima a una normalidad, Un valor p alto (mayor que un umbral común, como 0.05) indica que no se rechaza la hipótesis nula de normalidad; es decir, las estimaciones siguen una distribución normal, El nivel de significancia (α=0.05) es el valor límite que se utiliza para decidir si se rechaza o no la hipótesis nula (H₀).
Conforme aumenta el tamaño de la muestra, la distribución de \(\hat{p}\) se aproxima más a una distribución normal, lo que es consistente con el Teorema del Límite Central. Los gráficos Q-Q muestran que esta aproximación es más precisa a partir de tamaños de muestra mayores a 100.
Los gráficos Q-Q para \(n = 200\) y \(n = 500\) muestran una excelente alineación con la línea de referencia, lo que indica que la distribución de \(\hat{p}\) es prácticamente normal. Este resultado está en línea con el Teorema del Límite Central, que predice que la distribución de estimadores muestrales como \(\hat{p}\) se aproxima a una distribución normal conforme \(n\) aumenta.
Generar una población de \(n = 1000\) individuos (plantas), donde el 90% de ellas están enfermas. Esta población se simulará usando una distribución binomial con \(p = 0.9\).
| n3 | e_poblacion3 | Des_estandar3 | Sesgo3 | Curtosis3 | Shapiro_pval3 |
|---|---|---|---|---|---|
| 5 | 0.9080000 | 0.1316460 | -0.6988440 | 1.3619178 | 0.0000000 |
| 10 | 0.9164000 | 0.0828539 | 0.1979388 | 0.5858151 | 0.0000000 |
| 15 | 0.9076000 | 0.0731334 | -0.3518685 | 0.2421516 | 0.0000000 |
| 20 | 0.9042000 | 0.0653521 | 0.0642672 | 0.3905713 | 0.0000000 |
| 30 | 0.9043333 | 0.0528955 | 0.0819226 | -0.0929293 | 0.0000000 |
| 50 | 0.9055200 | 0.0425247 | 0.1298070 | -0.1014889 | 0.0000000 |
| 60 | 0.9076333 | 0.0381471 | -0.2368029 | 0.3680141 | 0.0000001 |
| 100 | 0.9061000 | 0.0286117 | -0.1363081 | -0.3374609 | 0.0000199 |
| 200 | 0.9099600 | 0.0200775 | -0.0019923 | 0.1753550 | 0.0014584 |
| 500 | 0.9071080 | 0.0125273 | 0.0884466 | -0.3783312 | 0.1050598 |
Los resultados obtenidos para las dos poblaciones simuladas (una con 10% y otra con 90% de plantas enfermas) son similares en términos de desviación estándar, sesgo, curtosis, y valores de la prueba de Shapiro.
La distribución binomial para \(p = 0.1\) y \(p = 0.9\) son simétricas una respecto de la otra. Esto significa que la variabilidad de las estimaciones será similar en ambas poblaciones, pero una estará centrada alrededor de 0.1 y la otra alrededor de 0.9.
En una distribución binomial, los valores de \(p\) y \(1 - p\) generan la misma forma de la distribución, simplemente reflejada alrededor de la media. En términos estadísticos, tanto la desviación estándar como la forma de las distribuciones son las mismas para \(p\) y \(1 - p\), por lo cual El sesgo y la curtosis también son muy similares debido a la simetría de las distribuciones binomiales,Lo cual explica por qué, a pesar de tener proporciones distintas, las métricas de variabilidad y forma son similares.
Para tamaños de muestra grandes (\(n = 500\)), la aproximación a la normalidad mejora, lo que explica por qué el valor de \(p\)-valor aumenta, indicando que la suposición de normalidad es valida.
La similitud en los resultados de desviación estándar, sesgo, y curtosis entre las poblaciones con \(p = 0.1\) y \(p = 0.9\) se debe a la simetría inherente en la distribución binomial. El Teorema del Límite Central asegura que, conforme aumentamos el tamaño de muestra, las estimaciones de proporciones (\(\hat{p}\)) tienden a ser más normales y consistentes en ambas distribuciones, lo cual se comprobó en todas las pruebas.
Esto muestra que, aunque el porcentaje de plantas enfermas varía considerablemente entre las dos poblaciones (10% vs 90%), las métricas de forma y dispersión son similares debido a las propiedades de la distribución binomial.