Paso 1. Se realiza una simulación en la cual genere una población de n=1000 (Lote), donde el porcentaje de individuos (supongamos plantas) enfermas sea del 50%.
lote <- rep(c(0, 1), each = 500) # 0 representa plantas sanas y 1 representa plantas enfermas
Paso 2. Definir la función para obtener una muestra aleatoria y calcular la proporción muestral.
obtener_muestra_y_estimar_proporcion <- function(n, lote) {
muestra <- sample(lote, size = n, replace = FALSE) # Obtener una muestra aleatoria sin reemplazo
proporcion_muestral <- mean(muestra) # Calcular la proporción muestral
return(proporcion_muestral)
}
Paso 3. Se repite el proceso para n=500 veces y se analiza los resultados.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.4500 0.4880 0.5000 0.4993 0.5100 0.5440
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.99718, p-value = 0.5516
Al tener 500 repeticiones se demuestra que los datos siguen un comportamiento muy cercano a una distribución normal (se cumple el teorema del limite central) donde n=500 >30. Los resultados del test de normalidad Shapiro-Wilk (p-value >0.05 ) es decir la hipotesis nula es verdadera.
Paso 4. Se repite para diferentes tamaños de muestra (n=50,10,15,20,30,50,60,100,200,500) y se analiza la normalidad.
## [1] "Tamaño de muestra: 5"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.4000 0.6000 0.5048 0.6000 1.0000
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.92917, p-value = 1.249e-14
## [1] "Tamaño de muestra: 10"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.4000 0.5000 0.4958 0.6000 0.9000
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.96394, p-value = 9.903e-10
## [1] "Tamaño de muestra: 15"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.1333 0.4000 0.4667 0.4983 0.6000 0.9333
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.9745, p-value = 1.196e-07
## [1] "Tamaño de muestra: 20"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.2000 0.4375 0.5000 0.5026 0.6000 0.8000
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.97689, p-value = 4.118e-07
## [1] "Tamaño de muestra: 30"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.2667 0.4333 0.5000 0.4973 0.5667 0.8000
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.98486, p-value = 4.55e-05
## [1] "Tamaño de muestra: 50"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.3000 0.4400 0.5000 0.4952 0.5400 0.7000
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.99143, p-value = 0.005479
## [1] "Tamaño de muestra: 60"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.3167 0.4500 0.5000 0.5018 0.5500 0.6667
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.99121, p-value = 0.004573
## [1] "Tamaño de muestra: 100"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.3600 0.4700 0.5000 0.5018 0.5300 0.6200
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.99256, p-value = 0.01377
## [1] "Tamaño de muestra: 200"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.4100 0.4800 0.5000 0.5004 0.5200 0.5950
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.99473, p-value = 0.08407
## [1] "Tamaño de muestra: 500"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.4540 0.4900 0.5000 0.5002 0.5100 0.5520
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.99649, p-value = 0.3461
Se evidencia que existe una correlación y la proporción del p-value aumenta en función que n (muestra) aumenta, son directamente proporcionales el tamaño de la muestra y el valor de p-value, por esta razon a medida se que simula muestras de mayor tamaño (n>100) el valor se acerca al >0.05 requerido para acepta la hipotesis nula y que la teoria del limite central se compruebe de forma computacional y estadistica.
Paso 5. Se repite la simulación para lotes con 10% y 90% de plantas enfermas
10% de plantas enfermas
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.07200 0.09400 0.10000 0.09974 0.10600 0.12400
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.99007, p-value = 0.001871
## [1] "Tamaño de muestra: 5"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0000 0.0000 0.1108 0.2000 0.6000
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.73176, p-value < 2.2e-16
## [1] "Tamaño de muestra: 10"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0000 0.1000 0.1026 0.2000 0.4000
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.84623, p-value < 2.2e-16
## [1] "Tamaño de muestra: 15"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00000 0.06667 0.06667 0.10080 0.13333 0.40000
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.89774, p-value < 2.2e-16
## [1] "Tamaño de muestra: 20"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0500 0.1000 0.1042 0.1500 0.3000
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.9331, p-value = 3.581e-14
## [1] "Tamaño de muestra: 30"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00000 0.06667 0.10000 0.10093 0.13333 0.26667
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.95389, p-value = 2.199e-11
## [1] "Tamaño de muestra: 50"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0800 0.1000 0.1018 0.1200 0.2200
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.97278, p-value = 5.091e-08
## [1] "Tamaño de muestra: 60"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.01667 0.06667 0.10000 0.09597 0.11667 0.21667
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.97362, p-value = 7.687e-08
## [1] "Tamaño de muestra: 100"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0200 0.0800 0.1000 0.1004 0.1200 0.1900
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.98657, p-value = 0.0001447
## [1] "Tamaño de muestra: 200"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0500 0.0900 0.1000 0.1014 0.1150 0.1700
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.99077, p-value = 0.003224
## [1] "Tamaño de muestra: 500"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.07200 0.09400 0.10000 0.09991 0.10600 0.12800
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.99432, p-value = 0.05989
Cuando la muestra es pequeña menos del 10% de las plantas estan enfermas a medida que aumenta esta muestra el p-value va aumentando y el comportamiento de la data se va acercando al valor esperado (media=0.1 y p-value>0.05), de esta misma manera se evidencia graficamente en el grafico de normalidad como se comporta los quartiles teoricos vs los quartiles del ejemplo.
90% de plantas enfermas
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.8740 0.8940 0.9000 0.8999 0.9060 0.9300
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.99386, p-value = 0.04066
## [1] "Tamaño de muestra: 5"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.2000 0.8000 1.0000 0.9016 1.0000 1.0000
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.69136, p-value < 2.2e-16
## [1] "Tamaño de muestra: 10"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.5000 0.8000 0.9000 0.8964 1.0000 1.0000
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.8421, p-value < 2.2e-16
## [1] "Tamaño de muestra: 15"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.6000 0.8667 0.8667 0.8929 0.9333 1.0000
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.90724, p-value < 2.2e-16
## [1] "Tamaño de muestra: 20"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.7000 0.8500 0.9000 0.8985 0.9500 1.0000
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.92422, p-value = 3.503e-15
## [1] "Tamaño de muestra: 30"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.7000 0.8667 0.9000 0.8971 0.9333 1.0000
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.95085, p-value = 7.728e-12
## [1] "Tamaño de muestra: 50"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.7600 0.8800 0.9000 0.9008 0.9200 1.0000
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.97088, p-value = 2.058e-08
## [1] "Tamaño de muestra: 60"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.8000 0.8833 0.9000 0.8985 0.9167 1.0000
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.97825, p-value = 8.583e-07
## [1] "Tamaño de muestra: 100"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.8200 0.8800 0.9000 0.8979 0.9200 0.9600
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.98069, p-value = 3.441e-06
## [1] "Tamaño de muestra: 200"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.8400 0.8900 0.9000 0.9014 0.9150 0.9550
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.99099, p-value = 0.003853
## [1] "Tamaño de muestra: 500"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.872 0.894 0.900 0.900 0.906 0.924
##
## Shapiro-Wilk normality test
##
## data: resultados
## W = 0.99392, p-value = 0.04268
Cuando la muestra es pequeña mas del 90% de las plantas estan enfermas a medida que aumenta esta muestra el p-value va aumentando y el comportamiento de la data se va acercando al valor esperado (media=0.9 y p-value>0.05), de esta misma manera se evidencia graficamente en el grafico de normalidad como se comporta los quartiles teoricos vs los quartiles del ejemplo.
Se observa que a medida que aumenta el tamaño de la muestra, la distribución de la proporción muestral tiende a aproximarse más a una distribución normal. Esta es una confirmación del Teorema del Límite Central.
Al comparar los resultados entre lotes con diferentes porcentajes de individuos enfermos (50% enfermos vs 10% enfermos vs 90% enfermos), se puede observar cómo cambia la distribución de la proporción muestral. Se evidencia diferencias en la simetría, sesgo y varianza de la distribución conforme cambia la proporcion plantas enfermas/sanas.