Problema 3. Teorema del Límite Central

Paso 1. Se realiza una simulación en la cual genere una población de n=1000 (Lote), donde el porcentaje de individuos (supongamos plantas) enfermas sea del 50%.

lote <- rep(c(0, 1), each = 500) # 0 representa plantas sanas y 1 representa plantas enfermas

Paso 2. Definir la función para obtener una muestra aleatoria y calcular la proporción muestral.

obtener_muestra_y_estimar_proporcion <- function(n, lote) {
  muestra <- sample(lote, size = n, replace = FALSE) # Obtener una muestra aleatoria sin reemplazo
  proporcion_muestral <- mean(muestra) # Calcular la proporción muestral
  return(proporcion_muestral)
}

Paso 3. Se repite el proceso para n=500 veces y se analiza los resultados.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.4500  0.4880  0.5000  0.4993  0.5100  0.5440

## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.99718, p-value = 0.5516

Al tener 500 repeticiones se demuestra que los datos siguen un comportamiento muy cercano a una distribución normal (se cumple el teorema del limite central) donde n=500 >30. Los resultados del test de normalidad Shapiro-Wilk (p-value >0.05 ) es decir la hipotesis nula es verdadera.

Paso 4. Se repite para diferentes tamaños de muestra (n=50,10,15,20,30,50,60,100,200,500) y se analiza la normalidad.

## [1] "Tamaño de muestra: 5"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.4000  0.6000  0.5048  0.6000  1.0000 
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.92917, p-value = 1.249e-14

## [1] "Tamaño de muestra: 10"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.4000  0.5000  0.4958  0.6000  0.9000 
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.96394, p-value = 9.903e-10

## [1] "Tamaño de muestra: 15"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.1333  0.4000  0.4667  0.4983  0.6000  0.9333 
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.9745, p-value = 1.196e-07

## [1] "Tamaño de muestra: 20"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2000  0.4375  0.5000  0.5026  0.6000  0.8000 
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.97689, p-value = 4.118e-07

## [1] "Tamaño de muestra: 30"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2667  0.4333  0.5000  0.4973  0.5667  0.8000 
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.98486, p-value = 4.55e-05

## [1] "Tamaño de muestra: 50"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.3000  0.4400  0.5000  0.4952  0.5400  0.7000 
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.99143, p-value = 0.005479

## [1] "Tamaño de muestra: 60"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.3167  0.4500  0.5000  0.5018  0.5500  0.6667 
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.99121, p-value = 0.004573

## [1] "Tamaño de muestra: 100"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.3600  0.4700  0.5000  0.5018  0.5300  0.6200 
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.99256, p-value = 0.01377

## [1] "Tamaño de muestra: 200"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.4100  0.4800  0.5000  0.5004  0.5200  0.5950 
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.99473, p-value = 0.08407

## [1] "Tamaño de muestra: 500"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.4540  0.4900  0.5000  0.5002  0.5100  0.5520 
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.99649, p-value = 0.3461

Se evidencia que existe una correlación y la proporción del p-value aumenta en función que n (muestra) aumenta, son directamente proporcionales el tamaño de la muestra y el valor de p-value, por esta razon a medida se que simula muestras de mayor tamaño (n>100) el valor se acerca al >0.05 requerido para acepta la hipotesis nula y que la teoria del limite central se compruebe de forma computacional y estadistica.

Paso 5. Se repite la simulación para lotes con 10% y 90% de plantas enfermas

10% de plantas enfermas

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.07200 0.09400 0.10000 0.09974 0.10600 0.12400

## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.99007, p-value = 0.001871
## [1] "Tamaño de muestra: 5"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0000  0.0000  0.1108  0.2000  0.6000 
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.73176, p-value < 2.2e-16

## [1] "Tamaño de muestra: 10"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0000  0.1000  0.1026  0.2000  0.4000 
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.84623, p-value < 2.2e-16

## [1] "Tamaño de muestra: 15"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.00000 0.06667 0.06667 0.10080 0.13333 0.40000 
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.89774, p-value < 2.2e-16

## [1] "Tamaño de muestra: 20"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0500  0.1000  0.1042  0.1500  0.3000 
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.9331, p-value = 3.581e-14

## [1] "Tamaño de muestra: 30"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.00000 0.06667 0.10000 0.10093 0.13333 0.26667 
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.95389, p-value = 2.199e-11

## [1] "Tamaño de muestra: 50"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0800  0.1000  0.1018  0.1200  0.2200 
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.97278, p-value = 5.091e-08

## [1] "Tamaño de muestra: 60"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.01667 0.06667 0.10000 0.09597 0.11667 0.21667 
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.97362, p-value = 7.687e-08

## [1] "Tamaño de muestra: 100"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0200  0.0800  0.1000  0.1004  0.1200  0.1900 
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.98657, p-value = 0.0001447

## [1] "Tamaño de muestra: 200"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0500  0.0900  0.1000  0.1014  0.1150  0.1700 
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.99077, p-value = 0.003224

## [1] "Tamaño de muestra: 500"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.07200 0.09400 0.10000 0.09991 0.10600 0.12800 
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.99432, p-value = 0.05989

Cuando la muestra es pequeña menos del 10% de las plantas estan enfermas a medida que aumenta esta muestra el p-value va aumentando y el comportamiento de la data se va acercando al valor esperado (media=0.1 y p-value>0.05), de esta misma manera se evidencia graficamente en el grafico de normalidad como se comporta los quartiles teoricos vs los quartiles del ejemplo.

90% de plantas enfermas

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.8740  0.8940  0.9000  0.8999  0.9060  0.9300

## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.99386, p-value = 0.04066
## [1] "Tamaño de muestra: 5"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2000  0.8000  1.0000  0.9016  1.0000  1.0000 
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.69136, p-value < 2.2e-16

## [1] "Tamaño de muestra: 10"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.5000  0.8000  0.9000  0.8964  1.0000  1.0000 
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.8421, p-value < 2.2e-16

## [1] "Tamaño de muestra: 15"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.6000  0.8667  0.8667  0.8929  0.9333  1.0000 
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.90724, p-value < 2.2e-16

## [1] "Tamaño de muestra: 20"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.7000  0.8500  0.9000  0.8985  0.9500  1.0000 
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.92422, p-value = 3.503e-15

## [1] "Tamaño de muestra: 30"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.7000  0.8667  0.9000  0.8971  0.9333  1.0000 
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.95085, p-value = 7.728e-12

## [1] "Tamaño de muestra: 50"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.7600  0.8800  0.9000  0.9008  0.9200  1.0000 
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.97088, p-value = 2.058e-08

## [1] "Tamaño de muestra: 60"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.8000  0.8833  0.9000  0.8985  0.9167  1.0000 
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.97825, p-value = 8.583e-07

## [1] "Tamaño de muestra: 100"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.8200  0.8800  0.9000  0.8979  0.9200  0.9600 
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.98069, p-value = 3.441e-06

## [1] "Tamaño de muestra: 200"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.8400  0.8900  0.9000  0.9014  0.9150  0.9550 
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.99099, p-value = 0.003853

## [1] "Tamaño de muestra: 500"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.872   0.894   0.900   0.900   0.906   0.924 
## 
##  Shapiro-Wilk normality test
## 
## data:  resultados
## W = 0.99392, p-value = 0.04268

Cuando la muestra es pequeña mas del 90% de las plantas estan enfermas a medida que aumenta esta muestra el p-value va aumentando y el comportamiento de la data se va acercando al valor esperado (media=0.9 y p-value>0.05), de esta misma manera se evidencia graficamente en el grafico de normalidad como se comporta los quartiles teoricos vs los quartiles del ejemplo.

Conclusiones

Se observa que a medida que aumenta el tamaño de la muestra, la distribución de la proporción muestral tiende a aproximarse más a una distribución normal. Esta es una confirmación del Teorema del Límite Central.

Al comparar los resultados entre lotes con diferentes porcentajes de individuos enfermos (50% enfermos vs 10% enfermos vs 90% enfermos), se puede observar cómo cambia la distribución de la proporción muestral. Se evidencia diferencias en la simetría, sesgo y varianza de la distribución conforme cambia la proporcion plantas enfermas/sanas.