Problema 3: Teorema del Límite Central

Instrucciones:

  1. Realice una simulación en la cual genere una población de n=1000 (Lote), donde el porcentaje de individuos (supongamos plantas) enfermas sea del 50%.

  2. Genere una función que permita: b.1 Obtener una muestra aleatoria de la población y b.2 Calcule el estimador de la proporción muestral pˆ para un tamaño de muestra dado n

  3. Repita el escenario anterior (b) n=500 veces y analice los resultados en cuanto al comportamiento de los 500 resultados del estimador pˆ. ¿Qué tan simétricos o sesgados son los resultados obtenidos? y ¿qué se puede observar en cuanto a la variabilidad?. Realice en su informe un comentario sobre los resultados obtenidos.

  4. Repita los puntos b y c para tamaños de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Compare los resultados obtenidos para los diferentes tamaños de muestra en cuanto a la normalidad. Utilice pruebas de bondad y ajuste (shapiro wilks :shspiro.test()) y métodos gráficos (gráfico de normalidad: qqnorm()). Comente en su informe los resultados obtenidos

  5. Repita toda la simulación (puntos a – d), pero ahora para lotes con 10% de plantas enfermas y de nuevo para lotes con un 90% de plantas enfermas. Concluya sobre los resultados del ejercicio.

Solución punto A, B, C

Plantas enfermas 50%, n=20



¿Qué tan simétricos o sesgados son los resultados obtenidos? y ¿qué se puede observar en cuanto a la variabilidad?

La Desviación estándar del estimador de proporción es: 0.1143357 lo que significa que las estimaciones no están demasiado dispersas, pero tampoco extremadamente concentradas alrededor de la media (0.4957). Es decir,las proporciones muestrales tienen una variabilidad moderada. Adicional, el Coeficiente de asimetría es:0.0231686 lo que permite identificar que los resultados son simétricos.



Solucion punto D

Tamaños de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500

Los resultados presentados corresponden a una simulación realizada con una población de tamaño n=1000, donde el porcentaje de individuos enfermos (probabilidad de éxito) es del 50% (p=0.50). Para cada tamaño de muestra, se han generado 500 estimaciones de la proporción muestral.



Tabla de Estadísticas y Pruebas de Normalidad para Proporciones Muestrales
TamañoMuestra Media DesviacionEstandar CoeficienteAsimetria Varianza PValorShapiro
5 0.4872000 0.2216629 0.1216648 0.0491344 0.0000000
10 0.4918000 0.1605126 0.0723216 0.0257643 0.0000000
15 0.5026667 0.1336736 0.0583581 0.0178686 0.0000003
20 0.4914000 0.1098644 0.0150246 0.0120702 0.0000021
30 0.4942667 0.0910270 -0.2515460 0.0082859 0.0000163
50 0.4987200 0.0702812 -0.0296252 0.0049394 0.0025689
60 0.4971000 0.0593039 0.1067039 0.0035170 0.0021717
100 0.4953800 0.0463763 0.0578529 0.0021508 0.0119587
200 0.4914600 0.0303614 -0.1543575 0.0009218 0.1287405
500 0.4932360 0.0151042 0.0643752 0.0002281 0.0884882

A partir de los resultados anteriores se puede concluir que:

El tamaño de la muestra tiene un impacto notable en la aproximación a la normalidad, como se puede observar en los resultados obtenidos. En muestras pequeñas, los datos muestran mayor variabilidad y asimetría, lo que se refleja en p-valores bajos en la prueba de Shapiro-Wilk y desviaciones en los gráficos QQ.

Los gráficos QQ-Plot muestran que, en tamaños pequeños (como 5, 10 o 15), los puntos tienden a desviarse de la línea de referencia, especialmente en los extremos, indicando una distribución menos normal. A medida que el tamaño de la muestra aumenta, la alineación de los puntos mejora. En tamaños de muestra más grandes, como 200 y 500, los gráficos muestran una clara alineación de los puntos con la línea, lo que indica que la distribución de los datos es mucho más cercana a la normalidad. Adicional, La varianza y la desviación estándar también disminuyen a medida que el tamaño de la muestra aumenta, lo que refleja una mayor estabilidad en las estimaciones conforme el tamaño de muestra crece. Por ejemplo, la varianza baja de 0.0491 en una muestra de tamaño 5 a 0.0002 en una muestra de tamaño 500, y la desviación estándar baja de 0.2217 a 0.0151 en los mismos tamaños, respectivamente.

En la prueba de Shapiro-Wilk,se evalúa la hipótesis nula de que los datos provienen de una distribución normal. Un p-valor bajo (menor que 0.05) indica que podemos rechazar la hipótesis nula, es decir, que los datos no siguen una distribución normal. En contraste, un p-valor mayor a 0.05 sugiere que no hay evidencia suficiente para rechazar la normalidad, es decir, los datos podrían ser consistentes con una distribución normal.Revisando los resultados se identifica que las muestras pequeñas (de tamaño 5 hasta 100), los p-valores son significativamente menores a 0.05, lo que implica que podemos rechazar la hipótesis de normalidad, y los datos no siguen una distribución normal. Sin embargo, para muestras más grandes, como de 200 y 500, los p-valores superan el umbral de 0.05 (0.1287 y 0.0885 respectivamente), lo que indica que no hay evidencia suficiente para rechazar la normalidad. Esto sugiere que estas muestras más grandes se aproximan mucho más a una distribución normal, lo cual es respaldado por otros factores como una menor asimetría y varianza.

Finalmente, el coeficiente de asimetría tiende a disminuir y acercarse a cero a medida que aumenta el tamaño de la muestra, lo que indica que las distribuciones tienden a ser más simétricas. Por ejemplo, para muestras de tamaño 5 y 10, el coeficiente de asimetría es de 0.1217 y 0.0723, respectivamente. Sin embargo, en muestras más grandes, como de 500, el valor de asimetría es de 0.0644, mucho más cercano a cero.

Solucion punto E

Plantas enfermas 90% , n=20



¿Qué tan simétricos o sesgados son los resultados obtenidos? y ¿qué se puede observar en cuanto a la variabilidad?

La Desviación estándar del estimador de proporción es: 0.0593447, revelando que la variabilidad de los datos es baja en relacion con la media la media (0.9105).Esto indica que los valores del estimador de proporción están bastante concentrados alrededor de la media. El Coeficiente de asimetría es:-0.5029778 indicando que tiene una asimetría negativa. Es decir, la distribución de los datos está sesgada hacia la izquierda.


Tamaños de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500

Los resultados presentados corresponden a una simulación realizada con una población de tamaño n=1000, donde el porcentaje de individuos enfermos (probabilidad de éxito) es del 90% (p=0.90). Para cada tamaño de muestra, se han generado 500 estimaciones de la proporción muestral.




Tabla de Estadísticas y Pruebas de Normalidad para Proporciones Muestrales
TamañoMuestra Media DesviacionEstandar CoeficienteAsimetria Varianza PValorShapiro
5 0.9056000 0.1209873 -0.9472612 0.0146379 0.0000000
10 0.9012000 0.0917354 -0.6920256 0.0084154 0.0000000
15 0.9108000 0.0730954 -0.6515760 0.0053429 0.0000000
20 0.9026000 0.0623781 -0.4997926 0.0038910 0.0000000
30 0.9090667 0.0523551 -0.4534852 0.0027411 0.0000000
50 0.9038400 0.0400958 -0.2920838 0.0016077 0.0000000
60 0.9082000 0.0372227 -0.1510374 0.0013855 0.0000003
100 0.9071000 0.0267586 -0.2536923 0.0007160 0.0000070
200 0.9091500 0.0168997 0.1568799 0.0002856 0.0006257
500 0.9079640 0.0091406 -0.0239712 0.0000835 0.0630800

En este caso,también hay una relación entre el tamaño de la muestra y la normalidad. Para tamaños de muestra pequeños (5 a 100), los p-valores extremadamente bajos y la asimetría negativa marcada indican que los datos no siguen una distribución normal. Esto es común en muestras pequeñas, donde las desviaciones de la normalidad son más frecuentes. En muestras más grandes (200 y 500), especialmente para la muestra de tamaño 500, el p-valor de 0.063 indica que no se rechaza la normalidad, lo que sugiere que a medida que el tamaño de la muestra aumenta, los datos se aproximan más a una distribución normal, como se especifica en el Teorema del Límite Central. Los coeficientes de asimetría negativos y elevados en las muestras más pequeñas sugieren un sesgo a la izquierda, mientras que a medida que el tamaño de muestra aumenta, la asimetría se reduce, acercándose a 0, lo que indica una mayor simetría en la distribución de los datos.



##### Plantas enfermas 10%, n=20



¿Qué tan simétricos o sesgados son los resultados obtenidos? y ¿qué se puede observar en cuanto a la variabilidad?

La Desviación estándar del estimador de proporción es relativamente pequeña ( 0.0593447) lo que indica que la variabilidad de los datos es alta en comparación con el tamaño de la muestra. Al analizar el Coeficiente de asimetría es:0.5029778 , se concluye que la distribución de los datos está sesgada hacia la derecha,indicando una asimetría positiva.



Tamaños de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500

Los resultados presentados corresponden a una simulación realizada con una población de tamaño n=1000, donde el porcentaje de individuos enfermos (probabilidad de éxito) es del 10% (p=0.10). Para cada tamaño de muestra, se han generado 500 estimaciones de la proporción muestral.




Tabla de Estadísticas y Pruebas de Normalidad para Proporciones Muestrales
TamañoMuestra Media DesviacionEstandar CoeficienteAsimetria Varianza PValorShapiro
5 0.0944000 0.1209873 0.9472612 0.0146379 0.0000000
10 0.0988000 0.0917354 0.6920256 0.0084154 0.0000000
15 0.0892000 0.0730954 0.6515760 0.0053429 0.0000000
20 0.0974000 0.0623781 0.4997926 0.0038910 0.0000000
30 0.0909333 0.0523551 0.4534852 0.0027411 0.0000000
50 0.0961600 0.0400958 0.2920838 0.0016077 0.0000000
60 0.0918000 0.0372227 0.1510374 0.0013855 0.0000003
100 0.0929000 0.0267586 0.2536923 0.0007160 0.0000070
200 0.0908500 0.0168997 -0.1568799 0.0002856 0.0006257
500 0.0920360 0.0091406 0.0239712 0.0000835 0.0630800

En este caso, se presenta un comportamiento similar a los anteriores. A medida que aumenta el tamaño de la muestra, los datos tienden a ser más simétricos y con menor variabilidad. Esto se observa en la reducción de la asimetría y la varianza. En la muestra de tamaño 500, el p-valor de 0.063 sugiere que los datos pueden ajustarse a una distribución normal, ya que no se rechaza la hipótesis nula. La asimetría cercana a 0 respalda esta conclusión.

En este caso, se presenta un comportamiento similar a los anteriores; En tamaños de muestra pequeños, los datos no siguen una distribución normal, como lo indican los bajos p-valores de la prueba Shapiro-Wilk y los valores de asimetría positivos. Esto refleja un sesgo hacia la derecha y una mayor dispersión en los datos.

A medida que aumenta el tamaño de la muestra, los datos tienden a ser más simétricos y con menor variabilidad. Esto se observa en la reducción de la asimetría y la varianza. En la muestra de tamaño 500, el p-valor de 0.063 sugiere que los datos pueden ajustarse a una distribución normal, ya que no se rechaza la hipótesis nula. La asimetría cercana a 0 respalda esta conclusión.

Conclusión general

A través de los análisis realizados, se observa un claro comportamiento que respalda el Teorema del Límite Central (TLC). Porque a medida que el tamaño de la muestra aumenta, la distribución de las medias muestrales se aproxima a una distribución normal, independientemente de la distribución original de los datos.