PROBLEMA 3

Realice una simulación en la cual genere una población de n=1000 (Lote), donde el porcentaje de individuos (supongamos plantas) enfermas sea del 50%.

##  Estado Proporción
##       0        0.5
##       1        0.5

Genere una función que permita: Obtener una muestra aleatoria de la población y Calcule el estimador de la proporción muestral pˆ para un tamaño de muestra dado n.

## [1] 0.485

Repita el escenario anterior (b) n=500 veces y analice los resultados en cuanto al comportamiento de los 500 resultados del estimador pˆ. ¿Qué tan simétricos o sesgados son los resultados obtenidos? y ¿qué se puede observar en cuanto a la variabilidad?. Realice en su informe un comentario sobre los resultados obtenidos.

## 
##  Shapiro-Wilk normality test
## 
## data:  x200
## W = 0.99514, p-value = 0.1183

## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  x200
## D = 0.040289, p-value = 0.05081

## Descriptive Statistics  
## x200  
## N: 500  
## 
##                       x200
## ----------------- --------
##              Mean     0.50
##           Std.Dev     0.04
##               Min     0.41
##                Q1     0.48
##            Median     0.50
##                Q3     0.52
##               Max     0.61
##               MAD     0.04
##               IQR     0.05
##                CV     0.07
##          Skewness     0.07
##       SE.Skewness     0.11
##          Kurtosis    -0.26
##           N.Valid   500.00
##         Pct.Valid   100.00

Repita los puntos b y c para tamaños de muestra n=, 10, 15, 20, 30, 50, 60, 100, 200, 500. Compare los resultados obtenidos para los diferentes tamaños de muestra en cuanto a la normalidad. Utilice pruebas de bondad y ajuste (shapiro wilks :shspiro.test()) y métodos gráficos (gráfico de normalidad: qqnorm()). Comente en su informe los resultados obtenidos.

## 
##  Shapiro-Wilk normality test
## 
## data:  Mx5
## W = 0.92759, p-value < 2.2e-16

## 
##  Shapiro-Wilk normality test
## 
## data:  Mx10
## W = 0.96527, p-value = 1.055e-14

## 
##  Shapiro-Wilk normality test
## 
## data:  Mx15
## W = 0.97683, p-value = 1.55e-11

## 
##  Shapiro-Wilk normality test
## 
## data:  Mx20
## W = 0.98104, p-value = 3.994e-10

## 
##  Shapiro-Wilk normality test
## 
## data:  Mx30
## W = 0.98823, p-value = 3.441e-07

## 
##  Shapiro-Wilk normality test
## 
## data:  Mx50
## W = 0.99117, p-value = 1.052e-05

## 
##  Shapiro-Wilk normality test
## 
## data:  Mx60
## W = 0.99196, p-value = 2.891e-05

## 
##  Shapiro-Wilk normality test
## 
## data:  Mx100
## W = 0.99547, p-value = 0.004686

## 
##  Shapiro-Wilk normality test
## 
## data:  Mx200
## W = 0.99658, p-value = 0.02845

## 
##  Shapiro-Wilk normality test
## 
## data:  Mx500
## W = 0.9976, p-value = 0.1527

Repita toda la simulación (puntos a – d), pero ahora para lotes con 10% de plantas enfermas y de nuevo para lotes con un 90% de plantas enfermas. Concluya sobre los resultados del ejercicio.

PARA 10% DE PLANTAS ENFERMAS

## 
##  Shapiro-Wilk normality test
## 
## data:  Mx5
## W = 0.70402, p-value < 2.2e-16

## 
##  Shapiro-Wilk normality test
## 
## data:  Mx10
## W = 0.84219, p-value < 2.2e-16

## 
##  Shapiro-Wilk normality test
## 
## data:  Mx15
## W = 0.89746, p-value < 2.2e-16

## 
##  Shapiro-Wilk normality test
## 
## data:  Mx20
## W = 0.92296, p-value < 2.2e-16

## 
##  Shapiro-Wilk normality test
## 
## data:  Mx30
## W = 0.94974, p-value < 2.2e-16

## 
##  Shapiro-Wilk normality test
## 
## data:  Mx50
## W = 0.9701, p-value = 1.754e-13

## 
##  Shapiro-Wilk normality test
## 
## data:  Mx60
## W = 0.97616, p-value = 9.574e-12

## 
##  Shapiro-Wilk normality test
## 
## data:  Mx100
## W = 0.98653, p-value = 5.86e-08

## 
##  Shapiro-Wilk normality test
## 
## data:  Mx200
## W = 0.99302, p-value = 0.0001211

## 
##  Shapiro-Wilk normality test
## 
## data:  Mx500
## W = 0.99598, p-value = 0.01069

PARA 90% DE PLANTAS ENFERMAS

## 
##  Shapiro-Wilk normality test
## 
## data:  Mx5
## W = 0.71479, p-value < 2.2e-16

## 
##  Shapiro-Wilk normality test
## 
## data:  Mx10
## W = 0.84279, p-value < 2.2e-16

## 
##  Shapiro-Wilk normality test
## 
## data:  Mx15
## W = 0.89566, p-value < 2.2e-16

## 
##  Shapiro-Wilk normality test
## 
## data:  Mx20
## W = 0.92625, p-value < 2.2e-16

## 
##  Shapiro-Wilk normality test
## 
## data:  Mx30
## W = 0.95056, p-value < 2.2e-16

## 
##  Shapiro-Wilk normality test
## 
## data:  Mx50
## W = 0.97456, p-value = 3.153e-12

## 
##  Shapiro-Wilk normality test
## 
## data:  Mx60
## W = 0.97677, p-value = 1.483e-11

## 
##  Shapiro-Wilk normality test
## 
## data:  Mx100
## W = 0.98326, p-value = 2.675e-09

## 
##  Shapiro-Wilk normality test
## 
## data:  Mx200
## W = 0.99016, p-value = 3.093e-06

## 
##  Shapiro-Wilk normality test
## 
## data:  Mx500
## W = 0.99603, p-value = 0.01156

CONCLUSIONES

Distribución para diferentes tamaños de muestra:

Para tamaños de muestra pequeños se pudo observar como, la variabilidad es mayor y las distribuciones son menos simétricas. A medida que el tamaño de la muestra aumenta, la distribución de las medias muestrales tiende a ser más simétrica y se aproxima a una normal, lo cual es consistente con el Teorema del Límite Central. Esto se observa en los gráficos Q-Q y los gráficos de distribución, donde las muestras más grandes generalmente muestran mejores ajustes a la normal.

Variabilidad y sesgo:

La variabilidad disminuye conforme aumenta el tamaño de la muestra. Para proporciones más extremas de plantas enfermas (10% o 90%), el ajuste a la normalidad en tamaños de muestra pequeños puede ser menos evidente, pero se estabiliza en tamaños grandes.

Impacto de la proporción de plantas enfermas en la normal:

Incluso para proporciones esperadas tan bajas como 10% o tan altas como 90%, al aumentar el tamaño de muestra, las distribuciones de sus medias comienzan a acercarse a una forma normal, destacando la robustez del teorema del Límite Central.

Este ejercicio muestra eficientemente cómo el tamaño de muestra afecta la precisión de los estimadores estadísticos y cómo los métodos gráficos y pruebas estadísticas se pueden usar para evaluar las suposiciones de normalidad subyacentes al teorema del Límite Central.

PROBLEMA 3

ANDREA BERNAL, DIEGO FORERO

2024-09-10