Punto 1:

Punto 1.a: Creación de lote de 1000 individuos, 50% “Enfermas”

lote=c(rep("Sanas",500),rep("enfermas",500))
head(lote,100)
##   [1] "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas"
##  [10] "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas"
##  [19] "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas"
##  [28] "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas"
##  [37] "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas"
##  [46] "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas"
##  [55] "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas"
##  [64] "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas"
##  [73] "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas"
##  [82] "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas"
##  [91] "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas"
## [100] "Sanas"

Punto 1.b: Genere una función que permita obtener una muestra aleatoria de la población y calcule el estimador de la proporción muestral para un tamaño de muestra dado n.

cal_sample <- function(n){
  
  muestra = sample(lote,size = n)
  
  promedio = sum(muestra == "enfermas")/n
  
  return(promedio)
}
cal_sample(n=100)
## [1] 0.43

Punto 1.c: Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto alcomportamiento de los 500 estimadores. ¿Qué tan simétricos son los datos?, ¿Son sesgados y qué pasa en cuanto a variabilidad?

cal_sample(n=150)
## [1] 0.52
estimadores= sapply(rep(150,500),cal_sample)
str(estimadores)
##  num [1:500] 0.487 0.447 0.553 0.507 0.507 ...
hist(estimadores)

mean(estimadores)
## [1] 0.5003467
sd(estimadores)
## [1] 0.03616515

Prueba Shapiro Wilks:

shapiro.test(estimadores)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores
## W = 0.99381, p-value = 0.03894

Análisis: con una muestra de 150, y 500 repeticiones, teniendo por promedio 0.50 y desviación de 0.047, sin embargo, el P-value de la prueba Shapiro-Wilks es de 0.05, la cúal es superior al nivel de significancia del 5%, por lo tanto NO se rechaza la hipótesis nula que dicta en dicha prueba que la distribución de los datos se distribuye NORMAL.

Punto 1.d: Realice los ejercicios completos b y c para tamaños de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores en cuanto a la normalidad. Investigue y utilice pruebas de bondad y ajuste (shapiro wilks) y métodos gráficos (grafico qq de normalidad).

as

cal_sample(n=50)
## [1] 0.58
estimadores= sapply(rep(50,500),cal_sample)

estimadores5= sapply(rep(5,500),cal_sample)
estimadores10= sapply(rep(10,500),cal_sample)
estimadores15= sapply(rep(15,500),cal_sample)
estimadores20= sapply(rep(20,500),cal_sample)
estimadores30= sapply(rep(30,500),cal_sample)
estimadores50= sapply(rep(50,500),cal_sample)
estimadores60= sapply(rep(60,500),cal_sample)
estimadores100= sapply(rep(100,500),cal_sample)
estimadores200= sapply(rep(200,500),cal_sample)
estimadores500= sapply(rep(500,500),cal_sample)

resultados = data.frame(estimadores5,estimadores10,estimadores15,estimadores20,estimadores30,estimadores50,estimadores60,estimadores100,estimadores200,estimadores500)

boxplot(resultados)
abline(h=0.5,col="green",lwd=4)

Análisis boxplot:

Se puede ver que todos los estimadores tienen su promedio cercano al valor del parametro (0.5), sin embargo, al aumentar el tamaño de la muestra, se disminuye la disperción de los datos, esto se evidencia en el tamaño de las cajas, ya que a medida que aumenta el tamaño de la mjuestra, disminuye el tamaño de la caja, y asi mismo, los outliers tambien tienen a disminuir y a estar mas proximos a los cuerpos de las cajas.

Análisis de pruebas de bondad y ajuste

estimadores5

shapiro.test(estimadores5)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores5
## W = 0.93039, p-value = 1.725e-14
qqnorm(estimadores5, pch = 1, frame = FALSE)
qqline(estimadores5, col = "steelblue", lwd = 2)

Se puede ver que la prueba de Shapiro-Wilks y el qq-plot muestran que con una muestra de 5 los datos no se distribuyen normal. Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad

estimadores10

shapiro.test(estimadores10)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores10
## W = 0.96519, p-value = 1.663e-09
qqnorm(estimadores10, pch = 1, frame = FALSE)
qqline(estimadores10, col = "steelblue", lwd = 2)

Se puede ver que la prueba de Shapiro-Wilks y el qq-plot muestran que con una muestra de 10 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad

estimadores15

shapiro.test(estimadores15)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores15
## W = 0.97174, p-value = 3.095e-08
qqnorm(estimadores15, pch = 1, frame = FALSE)
qqline(estimadores15, col = "steelblue", lwd = 2)

Se puede ver que la prueba de Shapiro-Wilks y el qq-plot muestran que con una muestra de 15 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad

estimadores20

shapiro.test(estimadores20)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores20
## W = 0.9806, p-value = 3.261e-06
qqnorm(estimadores20, pch = 1, frame = FALSE)
qqline(estimadores20, col = "steelblue", lwd = 2)

Se puede ver que la prueba de Shapiro-Wilks y el qq-plot muestran que con una muestra de 20 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad

estimadores30

shapiro.test(estimadores30)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores30
## W = 0.9878, p-value = 0.0003447
qqnorm(estimadores30, pch = 1, frame = FALSE)
qqline(estimadores30, col = "steelblue", lwd = 2)

Se puede ver que la prueba de Shapiro-Wilks y el qq-plot muestran que con una muestra de 30 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad

estimadores50

shapiro.test(estimadores50)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores50
## W = 0.99066, p-value = 0.002967
qqnorm(estimadores50, pch = 1, frame = FALSE)
qqline(estimadores50, col = "steelblue", lwd = 2)

Se puede ver que la prueba de Shapiro-Wilks y el qq-plot muestran que con una muestra de 50 los datos no se distribuyen normal,ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad

estimadores60

shapiro.test(estimadores60)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores60
## W = 0.98918, p-value = 0.0009488
qqnorm(estimadores60, pch = 1, frame = FALSE)
qqline(estimadores60, col = "steelblue", lwd = 2)

Se puede ver que la prueba de Shapiro-Wilks y el qq-plot muestran que con una muestra de 60 los datos no se distribuyen normal, ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad

estimadores100

shapiro.test(estimadores100)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores100
## W = 0.99222, p-value = 0.01041
qqnorm(estimadores100, pch = 1, frame = FALSE)
qqline(estimadores100, col = "steelblue", lwd = 2)

Se puede ver que la prueba de Shapiro-Wilks y el qq-plot muestran que con una muestra de 100 los datos no se distribuyen normal, ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad

estimadores200

shapiro.test(estimadores200)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores200
## W = 0.99287, p-value = 0.01776
qqnorm(estimadores200, pch = 1, frame = FALSE)
qqline(estimadores200, col = "steelblue", lwd = 2)

Se puede ver que la prueba de Shapiro-Wilks y el qq-plot muestran que con una muestra de 200 los datos si se distribuyen normal, ya que el P-value es mayor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot si se aproxima graficamente a la línea de normalidad

estimadores500

shapiro.test(estimadores500)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores500
## W = 0.99533, p-value = 0.1384
qqnorm(estimadores500, pch = 1, frame = FALSE)
qqline(estimadores500, col = "steelblue", lwd = 2)

Se puede ver que la prueba de Shapiro-Wilks y el qq-plot muestran que con una muestra de 500 los datos si se distribuyen normal, ya que el P-value es mayor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot si se aproxima graficamente a la línea de normalidad

1.e: Repita toda la simulación (puntos a – d) pero ahora con lotes con 10% y 90% de plantas enfermas. Concluya todo el ejercicio.

Escenario 1: 10% de enfermas

lote10=c(rep("Sanas",900),rep("enfermas",100))
cal_sample10 <- function(n){
  
  muestra = sample(lote10,size = n)
  
  promedio = sum(muestra == "enfermas")/n
  
  return(promedio)
}

Se evidencia que ahora la el estimador del promedio tiende a ser del 10%

  cal_sample10(n=50)
## [1] 0.08
  estimadores10por= sapply(rep(50,500),cal_sample10)

  hist( estimadores10por)

mean(estimadores10por)
## [1] 0.10156
sd(estimadores10por)
## [1] 0.04153332

Prueba Shapiro-Wilks:

shapiro.test(estimadores10por)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores10por
## W = 0.97233, p-value = 4.108e-08

Análisis: con una muestra de 150, y 500 repeticiones, teniendo por promedio 0.10, por otro lado, por otro lado, el P-value de la prueba Shapiro-Wilks es de 0.001, la cúal es inferior al nivel de significancia del 5%, por lo tanto se rechaza la hipótesis nula que dicta en dicha prueba que la distribución de los datos se distribuye NORMAL.

cal_sample10(n=50)
## [1] 0.04
estimadoresE= sapply(rep(50,500),cal_sample10)

estimadoresE5= sapply(rep(5,500),cal_sample10)
estimadoresE10= sapply(rep(10,500),cal_sample10)
estimadoresE15= sapply(rep(15,500),cal_sample10)
estimadoresE20= sapply(rep(20,500),cal_sample10)
estimadoresE30= sapply(rep(30,500),cal_sample10)
estimadoresE50= sapply(rep(50,500),cal_sample10)
estimadoresE60= sapply(rep(60,500),cal_sample10)
estimadoresE100= sapply(rep(100,500),cal_sample10)
estimadoresE200= sapply(rep(200,500),cal_sample10)
estimadoresE500= sapply(rep(500,500),cal_sample10)

resultados = data.frame(estimadoresE5,estimadoresE10,estimadoresE15,estimadoresE20,estimadoresE30,estimadoresE50,estimadoresE60,estimadoresE100,estimadoresE200,estimadoresE500)

boxplot(resultados)
abline(h=0.1,col="green",lwd=4)

Se puede ver nuevamente el mismo comportamiento que en la proporción del 50%, mostrando que cada uno de los estimadores orbita cerca al verdadero valor del parametro (10%), pero se ve una disminución en la dispersion de los datos a medida que aumenta el tamaño de la muestra.

Análisis de pruebas de bondad y ajuste

estimadoresE5

shapiro.test(estimadoresE5)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadoresE5
## W = 0.70905, p-value < 2.2e-16
qqnorm(estimadoresE5, pch = 1, frame = FALSE)
qqline(estimadoresE5, col = "steelblue", lwd = 2)

Shapiro-Wilks y el qq-plot muestran que con una muestra de 50 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad

estimadoresE10

shapiro.test(estimadoresE10)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadoresE10
## W = 0.83827, p-value < 2.2e-16
qqnorm(estimadoresE10, pch = 1, frame = FALSE)
qqline(estimadoresE10, col = "steelblue", lwd = 2)

Shapiro-Wilks y el qq-plot muestran que con una muestra de 10 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad

estimadoresE15

shapiro.test(estimadoresE15)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadoresE15
## W = 0.88993, p-value < 2.2e-16
qqnorm(estimadoresE15, pch = 1, frame = FALSE)
qqline(estimadoresE15, col = "steelblue", lwd = 2)

Shapiro-Wilks y el qq-plot muestran que con una muestra de 15 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad

estimadoresE20

shapiro.test(estimadoresE20)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadoresE20
## W = 0.92425, p-value = 3.526e-15
qqnorm(estimadoresE20, pch = 1, frame = FALSE)
qqline(estimadoresE20, col = "steelblue", lwd = 2)

Shapiro-Wilks y el qq-plot muestran que con una muestra de 20 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad

estimadoresE30

shapiro.test(estimadoresE30)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadoresE30
## W = 0.94391, p-value = 8.255e-13
qqnorm(estimadoresE30, pch = 1, frame = FALSE)
qqline(estimadoresE30, col = "steelblue", lwd = 2)

Shapiro-Wilks y el qq-plot muestran que con una muestra de 30 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad

estimadoresE50

shapiro.test(estimadoresE50)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadoresE50
## W = 0.96361, p-value = 8.661e-10
qqnorm(estimadoresE50, pch = 1, frame = FALSE)
qqline(estimadoresE50, col = "steelblue", lwd = 2)

Shapiro-Wilks y el qq-plot muestran que con una muestra de 50 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad

estimadoresE60

shapiro.test(estimadoresE60)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadoresE60
## W = 0.9801, p-value = 2.441e-06
qqnorm(estimadoresE60, pch = 1, frame = FALSE)
qqline(estimadoresE60, col = "steelblue", lwd = 2)

Shapiro-Wilks y el qq-plot muestran que con una muestra de 60 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad

estimadoresE100

shapiro.test(estimadoresE100)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadoresE100
## W = 0.98301, p-value = 1.394e-05
qqnorm(estimadoresE100, pch = 1, frame = FALSE)
qqline(estimadoresE100, col = "steelblue", lwd = 2)

Shapiro-Wilks y el qq-plot muestran que con una muestra de 100 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad

estimadoresE200

shapiro.test(estimadoresE200)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadoresE200
## W = 0.99143, p-value = 0.005454
qqnorm(estimadoresE200, pch = 1, frame = FALSE)
qqline(estimadoresE200, col = "steelblue", lwd = 2)

Shapiro-Wilks y el qq-plot muestran que con una muestra de 200 los datos si se distribuyen normal.ya que el P-value es mayor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot si se aproxima graficamente a la línea de normalidad

estimadoresE500

shapiro.test(estimadoresE500)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadoresE500
## W = 0.9929, p-value = 0.01818
qqnorm(estimadoresE500, pch = 1, frame = FALSE)
qqline(estimadoresE500, col = "steelblue", lwd = 2)

Shapiro-Wilks y el qq-plot muestran que con una muestra de 500 los datos si se distribuyen normal.ya que el P-value es mayor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot si se aproxima graficamente a la línea de normalidad

Escenario 2: 90% de enfermas

lote90=c(rep("Sanas",100),rep("enfermas",900))
cal_sample90 <- function(n){
  
  muestra = sample(lote90,size = n)
  
  promedio = sum(muestra == "enfermas")/n
  
  return(promedio)
}

Se evidencia que ahora el promedio del estimador es del 90%

cal_sample90(n=50)
## [1] 0.88
estimadores90por= sapply(rep(50,500),cal_sample90)


hist(estimadores90por)

mean(estimadores90por)
## [1] 0.89668
sd(estimadores90por)
## [1] 0.04263112

Prueba Shapiro-wilks:

shapiro.test(estimadores90por)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores90por
## W = 0.96551, p-value = 1.902e-09

Análisis: con una muestra de 50, y 500 repeticiones, tendiendo a tener por promedio 0.90 y desviación de 0.04,el P-value de la prueba Shapiro-Wilks es de 0.001, la cúal es inferior al nivel de significancia del 5%, por lo tanto se rechaza la hipótesis nula que dicta en dicha prueba que la distribución de los datos se distribuye NORMAL.

cal_sample90(n=50)
## [1] 0.88
estimadores2E= sapply(rep(50,500),cal_sample90)

estimadores2E5= sapply(rep(5,500),cal_sample90)
estimadores2E10= sapply(rep(10,500),cal_sample90)
estimadores2E15= sapply(rep(15,500),cal_sample90)
estimadores2E20= sapply(rep(20,500),cal_sample90)
estimadores2E30= sapply(rep(30,500),cal_sample90)
estimadores2E50= sapply(rep(50,500),cal_sample90)
estimadores2E60= sapply(rep(60,500),cal_sample90)
estimadores2E100= sapply(rep(100,500),cal_sample90)
estimadores2E200= sapply(rep(200,500),cal_sample90)
estimadores2E500= sapply(rep(500,500),cal_sample90)

resultados = data.frame(estimadores2E5,estimadores2E10,estimadores2E15,estimadores2E20,estimadores2E30,estimadores2E50,estimadores2E60,estimadores2E100,estimadores2E200,estimadores2E500)

boxplot(resultados)
abline(h=0.9,col="green",lwd=4)

Análisis BoxPlot

Se puede ver nuevamente que todos los estimadores se tienen su media sobre un valor muy cercano al del parametro (90%), sin embargo, a medida que aumenta la muestra, la desviación estandar y por ende, la dispersión de los datos tiende a disminuir.

Conclusión: Análizando el comportamiento de los 3 experimientos, se puede concluir que el efecto que tiene el tamaño de la muestra en la desviación estandar, no depende de la proporción real de casos “enfermos”, mostrando que existe una relación inversa entre el tamaño de la muestra y la desviación estandar.

Análisis pruebas de bondad y ajuste

estimadores2E5

shapiro.test(estimadores2E5)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores2E5
## W = 0.71951, p-value < 2.2e-16
qqnorm(estimadores2E5, pch = 1, frame = FALSE)
qqline(estimadores2E5, col = "steelblue", lwd = 2)

Shapiro-Wilks y el qq-plot muestran que con una muestra de 5 los datos no se distribuyen normal,ya que el P-Value es menor a la significancia.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad

estimadores2E10

shapiro.test(estimadores2E10)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores2E10
## W = 0.83369, p-value < 2.2e-16
qqnorm(estimadores2E10, pch = 1, frame = FALSE)
qqline(estimadores2E10, col = "steelblue", lwd = 2)

Shapiro-Wilks y el qq-plot muestran que con una muestra de 10 los datos no se distribuyen normal,ya que el P-Value es menor a la significancia.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad

estimadores2E15

shapiro.test(estimadores2E15)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores2E15
## W = 0.89249, p-value < 2.2e-16
qqnorm(estimadores2E15, pch = 1, frame = FALSE)
qqline(estimadores2E15, col = "steelblue", lwd = 2)

Shapiro-Wilks y el qq-plot muestran que con una muestra de 15 los datos no se distribuyen normal,ya que el P-Value es menor a la significancia.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad

estimadores2E20

shapiro.test(estimadores2E20)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores2E20
## W = 0.9252, p-value = 4.484e-15
qqnorm(estimadores2E20, pch = 1, frame = FALSE)
qqline(estimadores2E20, col = "steelblue", lwd = 2)

Shapiro-Wilks y el qq-plot muestran que con una muestra de 20 los datos no se distribuyen normal,ya que el P-Value es menor a la significancia.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad

estimadores2E30

shapiro.test(estimadores2E30)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores2E30
## W = 0.94181, p-value = 4.35e-13
qqnorm(estimadores2E30, pch = 1, frame = FALSE)
qqline(estimadores2E30, col = "steelblue", lwd = 2)

Shapiro-Wilks y el qq-plot muestran que con una muestra de 30 los datos no se distribuyen normal,ya que el P-Value es menor a la significancia.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad

estimadores2E50

shapiro.test(estimadores2E50)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores2E50
## W = 0.97263, p-value = 4.732e-08
qqnorm(estimadores2E50, pch = 1, frame = FALSE)
qqline(estimadores2E50, col = "steelblue", lwd = 2)

Shapiro-Wilks y el qq-plot muestran que con una muestra de 50 los datos no se distribuyen normal,ya que el P-Value es menor a la significancia.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad

estimadores2E60

shapiro.test(estimadores2E60)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores2E60
## W = 0.97903, p-value = 1.326e-06
qqnorm(estimadores2E60, pch = 1, frame = FALSE)
qqline(estimadores2E60, col = "steelblue", lwd = 2)

Shapiro-Wilks y el qq-plot muestran que con una muestra de 60 los datos no se distribuyen normal,ya que el P-Value es menor a la significancia.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad

estimadores2E100

shapiro.test(estimadores2E100)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores2E100
## W = 0.97926, p-value = 1.508e-06
qqnorm(estimadores2E100, pch = 1, frame = FALSE)
qqline(estimadores2E100, col = "steelblue", lwd = 2)

Shapiro-Wilks y el qq-plot muestran que con una muestra de 100 los datos no se distribuyen normal,ya que el P-Value es menor a la significancia.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad

estimadores2E200

shapiro.test(estimadores2E200)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores2E200
## W = 0.99228, p-value = 0.01092
qqnorm(estimadores2E200, pch = 1, frame = FALSE)
qqline(estimadores2E200, col = "steelblue", lwd = 2)

Shapiro-Wilks y el qq-plot muestran que con una muestra de 200 los datos si se distribuyen normal.ya que el P-value es mayor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot si se aproxima graficamente a la línea de normalidad

estimadores2E500

shapiro.test(estimadores2E500)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores2E500
## W = 0.99331, p-value = 0.02556
qqnorm(estimadores2E500, pch = 1, frame = FALSE)
qqline(estimadores2E500, col = "steelblue", lwd = 2)

Shapiro-Wilks y el qq-plot muestran que con una muestra de 500 los datos si se distribuyen normal,ya que el P-Value es mayor a la significancia.Por otro lado, el qq-Plot si se aproxima graficamente a la línea de normalidad

** Conclusiones punto 1**

Se puede concluir que al realizar las simulaciones en los diferentes escenarios (50% enfermas, 10% enfermas y 90% enfermas) se pudo evidenciar que existe una relación entre el tamaño de la muestra y la convergencia en el comportamiento de las distribuciones de los datos a una distribución Normal, es de recalcar que esta convergencia hacia la distribución Normal NO depende de las proporciones que se esten usando en el experiemiento (50% enfermas, 10% enfermas y 90% enfermas), ya que en todos los escenarios, cuando se tenian muestras del mas de 200 individuos, los datos se distribuian con distribución normal.

Punto 2.

2.a: Suponga un escenario en el cual usted aplicó tratamientos diferentes a dos lotes y desea analizar si alguno de los dos presenta un mejor desempeño en el control de una plaga presente en ambos al momento inicial. Para ello utilizará como criterio de desempeño el tratamiento que menor % de plantas enfermas presente después de un tiempo de aplicación (es decir, si se presentan o no diferencias en las proporciones de enfermos P1 y P2). Realice una simulación en la cual genere dos poblaciones de N1=1000 (Lote1) y N2=1500 (Lote2), además asuma que el porcentaje de individuos (plantas) enfermas en ambos lotes sea la misma 10% (es decir, sin diferencias entre los tratamientos).

Lote1 = c(rep("sanas",900),rep("enfermas",100))
Lote2 = c(rep("sanas",1350),rep("enfermas",150))

2.b: una función que permita obtener una muestra aleatoria de los lotes y calcule el estimador de la proporción muestral para cada lote (p1 y p2) para un tamaño de muestra dado n1=n2. Calcule la diferencia entre los estimadores p1-p2.

dif_proms <- function(n){
  
  sample1 = sample(Lote1,n)
  sample2 = sample(Lote2,n)
  
  X1 = sum(sample1=="enfermas")/n
  X2 = sum(sample2=="enfermas")/n
  
  diferencia = X1-X2
  return(diferencia)
}

dif_proms(50)
## [1] 0.06

2.c: Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores (diferencias p1-p2). ¿Qué tan simétricos son los datos?, ¿Son siempre cero las diferencias?

dif_proms(n=50)
## [1] 0.02
estimadoresP1P2 = sapply(rep(50,500),dif_proms)


hist(estimadoresP1P2)

Prueba Shapiro-wilks:

shapiro.test(estimadoresP1P2)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadoresP1P2
## W = 0.98694, p-value = 0.0001865

Análisis: Se puede ver que la distribución de las diferencias de proporciones esta centrada en el 0, lo cual indica NO que existe una diferencia entre los individuos “enfermos” de P1 y de P2.

Adicionalemente, se puede ver que con una muestra de 50, el test de shapiro-wilk es del 0.00022, lo cual indica que se rechaza la hipótesis nula, por ende, las diferencias entre proporciones NO se distribuye normal.

2.d: Realice los puntos b y c para tamaños de muestra n1=n2=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores (p1-p2) en cuanto a la normalidad. También analice el comportamiento de las diferencias y evalúe. ¿Considera que es más probable concluir que existen diferencias entre los tratamientos con muestras grandes que pequeñas, es decir, cuál considera usted que es el efecto del tamaño de muestra en el caso de la comparación de proporciones?

p2estimadores5= sapply(rep(5,500),dif_proms)
p2estimadores10= sapply(rep(10,500),dif_proms)
p2estimadores15= sapply(rep(15,500),dif_proms)
p2estimadores20= sapply(rep(20,500),dif_proms)
p2estimadores30= sapply(rep(30,500),dif_proms)
p2estimadores50= sapply(rep(50,500),dif_proms)
p2estimadores60= sapply(rep(60,500),dif_proms)
p2estimadores100= sapply(rep(100,500),dif_proms)
p2estimadores200= sapply(rep(200,500),dif_proms)
p2estimadores500= sapply(rep(500,500),dif_proms)

resultados = data.frame(p2estimadores5,p2estimadores10,p2estimadores15,p2estimadores20,p2estimadores30,p2estimadores50,p2estimadores60,p2estimadores100,p2estimadores200,p2estimadores500)

boxplot(resultados)
abline(h=0.0,col="green",lwd=4)

Análisis de Boxplot

Análisis: Al graficar los estimadores de diferencia de promedios se puede ver nuevamente que la dispersión de los datos tiende a diminuir a medida que aumenta el tamaño de la muestra, lo cual esta alineado con lo encontrado en el punto 1. Por otro lado,se puede ver todos las medias de los estimadores estan sobre línea 0, lo cúal indica que estadisticamente las dos proporciones no son diferentes, y esto hace sentido al análisis, ya que los dos parametros (P1 y P2) son iguales (10%)

Análisis de pruebas de bondad y ajuste

p2estimadores5

shapiro.test(p2estimadores5)
## 
##  Shapiro-Wilk normality test
## 
## data:  p2estimadores5
## W = 0.90967, p-value < 2.2e-16
qqnorm(p2estimadores5, pch = 1, frame = FALSE)
qqline(p2estimadores5, col = "steelblue", lwd = 2)

Shapiro-Wilks y el qq-plot muestran que con una muestra de 5 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad

p2estimadores10

shapiro.test(p2estimadores10)
## 
##  Shapiro-Wilk normality test
## 
## data:  p2estimadores10
## W = 0.94558, p-value = 1.387e-12
qqnorm(p2estimadores10, pch = 1, frame = FALSE)
qqline(p2estimadores10, col = "steelblue", lwd = 2)

Shapiro-Wilks y el qq-plot muestran que con una muestra de 10 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad

p2estimadores15

shapiro.test(p2estimadores15)
## 
##  Shapiro-Wilk normality test
## 
## data:  p2estimadores15
## W = 0.96337, p-value = 7.841e-10
qqnorm(p2estimadores15, pch = 1, frame = FALSE)
qqline(p2estimadores15, col = "steelblue", lwd = 2)

Shapiro-Wilks y el qq-plot muestran que con una muestra de 15 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad

p2estimadores20

shapiro.test(p2estimadores20)
## 
##  Shapiro-Wilk normality test
## 
## data:  p2estimadores20
## W = 0.97536, p-value = 1.852e-07
qqnorm(p2estimadores20, pch = 1, frame = FALSE)
qqline(p2estimadores20, col = "steelblue", lwd = 2)

Shapiro-Wilks y el qq-plot muestran que con una muestra de 20 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad

p2estimadores30

shapiro.test(p2estimadores30)
## 
##  Shapiro-Wilk normality test
## 
## data:  p2estimadores30
## W = 0.98148, p-value = 5.47e-06
qqnorm(p2estimadores30, pch = 1, frame = FALSE)
qqline(p2estimadores30, col = "steelblue", lwd = 2)

Shapiro-Wilks y el qq-plot muestran que con una muestra de 30 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad

p2estimadores50

shapiro.test(p2estimadores50)
## 
##  Shapiro-Wilk normality test
## 
## data:  p2estimadores50
## W = 0.98778, p-value = 0.0003389
qqnorm(p2estimadores50, pch = 1, frame = FALSE)
qqline(p2estimadores50, col = "steelblue", lwd = 2)

Shapiro-Wilks y el qq-plot muestran que con una muestra de 50 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad

p2estimadores60

shapiro.test(p2estimadores60)
## 
##  Shapiro-Wilk normality test
## 
## data:  p2estimadores60
## W = 0.98742, p-value = 0.0002615
qqnorm(p2estimadores60, pch = 1, frame = FALSE)
qqline(p2estimadores60, col = "steelblue", lwd = 2)

Shapiro-Wilks y el qq-plot muestran que con una muestra de 60 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad

p2estimadores100

shapiro.test(p2estimadores100)
## 
##  Shapiro-Wilk normality test
## 
## data:  p2estimadores100
## W = 0.99122, p-value = 0.004623
qqnorm(p2estimadores100, pch = 1, frame = FALSE)
qqline(p2estimadores100, col = "steelblue", lwd = 2)

Shapiro-Wilks y el qq-plot muestran que con una muestra de 100 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad

p2estimadores200

shapiro.test(p2estimadores200)
## 
##  Shapiro-Wilk normality test
## 
## data:  p2estimadores200
## W = 0.99437, p-value = 0.06241
qqnorm(p2estimadores200, pch = 1, frame = FALSE)
qqline(p2estimadores200, col = "steelblue", lwd = 2)

Shapiro-Wilks y el qq-plot muestran que con una muestra de 200 los datos si se distribuyen normal.ya que el P-value es mayor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot si se aproxima graficamente a la línea de normalidad

p2estimadores500

shapiro.test(p2estimadores500)
## 
##  Shapiro-Wilk normality test
## 
## data:  p2estimadores500
## W = 0.99603, p-value = 0.2443
qqnorm(p2estimadores500, pch = 1, frame = FALSE)
qqline(p2estimadores500, col = "steelblue", lwd = 2)

Shapiro-Wilks y el qq-plot muestran que con una muestra de 500 los datos si se distribuyen normal.ya que el P-value es mayor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot si se aproxima graficamente a la línea de normalidad

2.e:Ahora realice nuevamente los puntos a-d bajo un escenario con dos lotes, pero de proporciones de enfermos diferentes (P1=0.1 y P2=0.15), es decir, el tratamiento del lote 1 si presentó un mejor desempeño reduciendo en un 5% el porcentaje de enfermos. Bajo este nuevo escenario compare la distribución de estas diferencias (p1- p2) con las observadas bajo igualdad de condiciones en los lotes. ¿Qué puede concluir? ¿Existen puntos en los cuales es posible que se observen diferencias de p1- p2 bajo ambos escenarios (escenario 1: sin diferencias entre P1 y P2, escenario 2: diferencia de 5%)?

Lote12 = c(rep("sanas",900),rep("enfermas",100))
Lote22 = c(rep("sanas",1275),rep("enfermas",225))
dif_proms2 <- function(n){
  
  sample1 = sample(Lote12,n)
  sample2 = sample(Lote22,n)
  
  X1 = sum(sample1=="enfermas")/n
  X2 = sum(sample2=="enfermas")/n
  
  diferencia = X1-X2
  return(diferencia)
}

mean(dif_proms2(500))
## [1] -0.048
dif_proms(n=50)
## [1] -0.06
estimador = sapply(rep(50,500),dif_proms2)

hist(estimador)

Análisis: Se puede ver que la distribución de las diferencias de proporciones esta centrada a la izquierda del 0, lo cual indica que existe una diferencia entre los individuos “enfermos” de P1 y de P2

DF2estimadores5= sapply(rep(5,500),dif_proms2)
DF2estimadores10= sapply(rep(10,500),dif_proms2)
DF2estimadores15= sapply(rep(15,500),dif_proms2)
DF2estimadores20= sapply(rep(20,500),dif_proms2)
DF2estimadores30= sapply(rep(30,500),dif_proms2)
DF2estimadores50= sapply(rep(50,500),dif_proms2)
DF2estimadores60= sapply(rep(60,500),dif_proms2)
DF2estimadores100= sapply(rep(100,500),dif_proms2)
DF2estimadores200= sapply(rep(200,500),dif_proms2)
DF2estimadores500= sapply(rep(500,500),dif_proms2)

resultados = data.frame(DF2estimadores5,DF2estimadores10,DF2estimadores15,DF2estimadores20,DF2estimadores30,DF2estimadores50,DF2estimadores60,DF2estimadores100,DF2estimadores200,DF2estimadores500)

boxplot(resultados)
abline(h=0.0,col="green",lwd=4)

Análisis BoxPlot

Análisis: Al analizar el gráfico de cajas para los estimadores, se puede ver nuevamente la relación entre el tamaño de la muestra y la dispersión de los datos, sin embargo, se puede ver que las medias de cada uno de los estimadores esta por debajo del 0, lo cual muestra que la proporción de individuos “enfermos” en la P1 es inferior que los “enfermos” de P2.

Análisis pruebas de bondad y ajuste

DF2estimadores5

shapiro.test(DF2estimadores5)
## 
##  Shapiro-Wilk normality test
## 
## data:  DF2estimadores5
## W = 0.90981, p-value < 2.2e-16
qqnorm(DF2estimadores5, pch = 1, frame = FALSE)
qqline(DF2estimadores5, col = "steelblue", lwd = 2)

Shapiro-Wilks y el qq-plot muestran que con una muestra de 5 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad

DF2estimadores10

shapiro.test(DF2estimadores10)
## 
##  Shapiro-Wilk normality test
## 
## data:  DF2estimadores10
## W = 0.96022, p-value = 2.254e-10
qqnorm(DF2estimadores10, pch = 1, frame = FALSE)
qqline(DF2estimadores10, col = "steelblue", lwd = 2)

Shapiro-Wilks y el qq-plot muestran que con una muestra de 10 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad

DF2estimadores15

shapiro.test(DF2estimadores15)
## 
##  Shapiro-Wilk normality test
## 
## data:  DF2estimadores15
## W = 0.97054, p-value = 1.762e-08
qqnorm(DF2estimadores15, pch = 1, frame = FALSE)
qqline(DF2estimadores15, col = "steelblue", lwd = 2)

Shapiro-Wilks y el qq-plot muestran que con una muestra de 15 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad

DF2estimadores20

shapiro.test(DF2estimadores20)
## 
##  Shapiro-Wilk normality test
## 
## data:  DF2estimadores20
## W = 0.97806, p-value = 7.741e-07
qqnorm(DF2estimadores20, pch = 1, frame = FALSE)
qqline(DF2estimadores20, col = "steelblue", lwd = 2)

Shapiro-Wilks y el qq-plot muestran que con una muestra de 20 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad

DF2estimadores30

shapiro.test(DF2estimadores30)
## 
##  Shapiro-Wilk normality test
## 
## data:  DF2estimadores30
## W = 0.98346, p-value = 1.852e-05
qqnorm(DF2estimadores30, pch = 1, frame = FALSE)
qqline(DF2estimadores30, col = "steelblue", lwd = 2)

Shapiro-Wilks y el qq-plot muestran que con una muestra de 30 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad

DF2estimadores50

shapiro.test(DF2estimadores50)
## 
##  Shapiro-Wilk normality test
## 
## data:  DF2estimadores50
## W = 0.98576, p-value = 8.315e-05
qqnorm(DF2estimadores50, pch = 1, frame = FALSE)
qqline(DF2estimadores50, col = "steelblue", lwd = 2)

Shapiro-Wilks y el qq-plot muestran que con una muestra de 50 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad

DF2estimadores60

shapiro.test(DF2estimadores60)
## 
##  Shapiro-Wilk normality test
## 
## data:  DF2estimadores60
## W = 0.9894, p-value = 0.001122
qqnorm(DF2estimadores60, pch = 1, frame = FALSE)
qqline(DF2estimadores60, col = "steelblue", lwd = 2)

Shapiro-Wilks y el qq-plot muestran que con una muestra de 60 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad

DF2estimadores100

shapiro.test(DF2estimadores100)
## 
##  Shapiro-Wilk normality test
## 
## data:  DF2estimadores100
## W = 0.99464, p-value = 0.07825
qqnorm(DF2estimadores100, pch = 1, frame = FALSE)
qqline(DF2estimadores100, col = "steelblue", lwd = 2)

Shapiro-Wilks y el qq-plot muestran que con una muestra de 100 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad

DF2estimadores200

shapiro.test(DF2estimadores200)
## 
##  Shapiro-Wilk normality test
## 
## data:  DF2estimadores200
## W = 0.99496, p-value = 0.1023
qqnorm(DF2estimadores200, pch = 1, frame = FALSE)
qqline(DF2estimadores200, col = "steelblue", lwd = 2)

Shapiro-Wilks y el qq-plot muestran que con una muestra de 200 los datos si se distribuyen normal.ya que el P-value es mayor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot si se aproxima graficamente a la línea de normalidad

DF2estimadores500

shapiro.test(DF2estimadores500)
## 
##  Shapiro-Wilk normality test
## 
## data:  DF2estimadores500
## W = 0.99405, p-value = 0.04774
qqnorm(DF2estimadores500, pch = 1, frame = FALSE)
qqline(DF2estimadores500, col = "steelblue", lwd = 2)

Shapiro-Wilks y el qq-plot muestran que con una muestra de 500 los datos si se distribuyen normal.ya que el P-value es mayor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot si se aproxima graficamente a la línea de normalidad

CONCLUSIONES

Del ejercicio de simulación se pueden concluir los siguientes puntos:

  • El tamaño de la muestra influye en el resultado de las pruebas de bondad y ajuste, de tal manera que al aumentar el tamaño de la muestra, los resultados de qq-plot y de la prueba de Shapiro-Wilks mostraran que los estadisticos de prueba tienden a distribuirse normal.

  • Las proporciones de casos de interes sobre el total de la población no interfieren en los resultados de las simulaciones para normalidad, por ende, no son una variable determinante para dictar si un conjunto de datos se distribuyen normal o no.

  • Se encontrón un patrón en los escenarios de simulación, el cúal indica que con una tamaño de muestra a 200, las pruebas de shapiro-wilks y el análisis por qq-plot muestran una tendencia a que los datos se distribuyan normal.