Taller de simulación en R

Punto 1

El Teorema del Límite Central es uno de los más importantes en la inferencia estadística y habla sobre la convergencia de los estimadores como la proporción muestral a la distribución normal. Algunos autores afirman que esta aproximación es bastante buena a partir del umbral n>30.

Realice una simulación en la cual genere una población de N=1000 (Lote) y además que el porcentaje de individuos (plantas) enfermas sea del 50%.

1000 ceros o unos generados aleatoriamente con la misma probabilidad, el 1 representará a las plantas enfermas

set.seed(1)
Lote=sample(0:1,1000, replace=T)

Genere una función que permita obtener una muestra aleatoria de la población y calcule el estimador de la proporción muestral para un tamaño de muestra dado n.

MuestraLote=function(n){
  return(sample(Lote,n, replace=T))
}

Muestra de 40 plantas del lote

sum(MuestraLote(40))/40

## [1] 0.55

Así el estimador de la proporción muestral para un tamaño de muestra de 40 es 0.55

Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores. ¿Qué tan simétricos son los datos?, ¿Son sesgados y qué pasa en cuanto a variabilidad?

simulNtimes<-vector("numeric",500)
for (i in 1:500) {
  simulNtimes[i]<-sum(MuestraLote(40))/40
}
simulNtimes <- as.numeric(simulNtimes)

hist(simulNtimes,density = 50, main = "Histograma plantas enfermas", 
     xlab = "Estimador", ylab = "Frecuencia")
line = mean(simulNtimes)
abline(v=line, col="red",lwd=3)

Apoyados en el histograma se aprecia una leve asimetria y una media cercana al 0.5. Los lotes se tomaron de 40 individuios al azar,si se hubieran tomado lotes más grandes se esperaba que esta leve asimetria fuese casi nula. Se evidencia que la proporción es insesgada, consecuencia de que en la generación de datos no se asignaron pesos diferentes a plantas enfermas y sanas, por lo que se espera que la mayoría de las proporciones estén al rededor de 0.5.

Si calculamos el estimador de asimetría, tenemos

library(moments)
skewness(simulNtimes)

## [1] 0.09553895

Es consecuente con lo que se observa en la gráfica.

Desviación estándar.

sd(simulNtimes)

## [1] 0.07921956

La desviación estándar es baja, por lo que su variabilidad es baja.

Realice los ejercicios completos b y c para tamaños de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores en cuanto a la normalidad. Investigue y utilice pruebas de bondad y ajuste (shapiro wilks) y métodos gráficos (grafico qq de normalidad).

La siguiente función funcionSimul extrae n valores de la población de 1000 plantas, después calcula la proporción muestral y a continuación lo agrega a la lista simulNtimes, este proceso se repite 500 veces.

funcionSimul=function(n){
 SimulNtimes<-vector("numeric",500)
 for (i in 1:500) {
   simulNtimes[i]<-sum(MuestraLote(n))/n
 }
 #simulNtimes <- gsub(",", "", simulNtimes)   # remove comma
 simulNtimes <- as.numeric(simulNtimes)      # turn into numbers
 hist(simulNtimes,density = 50, main = paste("Histograma plantas enfermas n=", n), 
      xlab = "Estimador", ylab = "Frecuencia")
 line = mean(simulNtimes)
 abline(v=line, col="red",lwd=3)
 qqnorm(simulNtimes, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main=paste("Gráfico QQ n=",n))
 qqline(simulNtimes, col = "red")
 print(paste("Resumen Estadístico n=",n))
 print(summary(simulNtimes))
 print(shapiro.test(simulNtimes))
}

#Vector de los tamaños de muestra
vecMuestra <- c(5,10,15,20,30,50,60,100,200,500)

for (i in vecMuestra) {
  funcionSimul(i)
}

## [1] "Resumen Estadístico n= 5"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.4000  0.6000  0.5152  0.6000  1.0000 
## 
##  Shapiro-Wilk normality test
## 
## data:  simulNtimes
## W = 0.93032, p-value = 1.69e-14

## [1] "Resumen Estadístico n= 10"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.1000  0.4000  0.5000  0.4924  0.6000  0.9000 
## 
##  Shapiro-Wilk normality test
## 
## data:  simulNtimes
## W = 0.96242, p-value = 5.355e-10

## [1] "Resumen Estadístico n= 15"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2000  0.4000  0.4667  0.4937  0.6000  0.8667 
## 
##  Shapiro-Wilk normality test
## 
## data:  simulNtimes
## W = 0.97369, p-value = 7.948e-08

## [1] "Resumen Estadístico n= 20"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2000  0.4000  0.5000  0.4924  0.5500  0.8000 
## 
##  Shapiro-Wilk normality test
## 
## data:  simulNtimes
## W = 0.97853, p-value = 1.003e-06

## [1] "Resumen Estadístico n= 30"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2333  0.4333  0.5000  0.4952  0.5667  0.8000 
## 
##  Shapiro-Wilk normality test
## 
## data:  simulNtimes
## W = 0.98658, p-value = 0.0001458

## [1] "Resumen Estadístico n= 50"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2800  0.4600  0.5000  0.4992  0.5600  0.7200 
## 
##  Shapiro-Wilk normality test
## 
## data:  simulNtimes
## W = 0.99163, p-value = 0.006422

## [1] "Resumen Estadístico n= 60"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.3333  0.4500  0.5000  0.4985  0.5500  0.6833 
## 
##  Shapiro-Wilk normality test
## 
## data:  simulNtimes
## W = 0.98972, p-value = 0.001432

## [1] "Resumen Estadístico n= 100"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.3200  0.4700  0.5000  0.4988  0.5300  0.6900 
## 
##  Shapiro-Wilk normality test
## 
## data:  simulNtimes
## W = 0.99504, p-value = 0.1093

## [1] "Resumen Estadístico n= 200"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.3800  0.4750  0.4950  0.4966  0.5200  0.6150 
## 
##  Shapiro-Wilk normality test
## 
## data:  simulNtimes
## W = 0.9964, p-value = 0.3232

## [1] "Resumen Estadístico n= 500"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.4340  0.4820  0.4970  0.4968  0.5120  0.5600 
## 
##  Shapiro-Wilk normality test
## 
## data:  simulNtimes
## W = 0.99758, p-value = 0.69

Note que para muestras pequeñas para el gráfico QQ se observa un mayor desajuste con la linea recta en los extremos, aún así en el centro el ajuste es bueno, a medida que el valor de n crece se obtiene con mejor precisión una linea recta, y esto se también se evidencia con el incremento del valor p de la prueba Shapiro-Wilk en la que se va aceptando la hipotesis nula de normalidad.

Repita toda la simulación (puntos a – d) pero ahora con lotes con 10% y 90% de plantas enfermas. Concluya todo el ejercicio.

set.seed(0)
LoteCargado = sample(0:1, 1000, replace=TRUE, prob = c(90,10))

Genere una función que permita obtener una muestra aleatoria de la población y calcule el estimador de la proporción muestral para un tamaño de muestra dado n.

MuestraLoteCargado=function(n){
  return(sample(LoteCargado,n, replace=T))
}

Muestra de 40 del Lote cargado

sum(MuestraLoteCargado(40))/40

## [1] 0.175

Así el estimador de la proporción muestral para un tamaño de muestra de 40 es 0.175.

Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores. ¿Qué tan simétricos son los datos?, ¿Son sesgados y qué pasa en cuanto a variabilidad?

simulNtimesc<-vector("numeric",500)
for (i in 1:500) {
  simulNtimesc[i]<-sum(MuestraLoteCargado(40))/40
}


simulNtimesc <- as.numeric(simulNtimesc)      # turn into numbers

hist(simulNtimesc,density = 50, main = "Histograma plantas enfermas", 
     xlab = "Estimador", ylab = "Frecuencia")
linec = mean(simulNtimesc)
abline(v=linec, col="red",lwd=3)

Apoyados en el histograma se aprecia una leve asimetria y una media cercana al 0.1. Los lotes se tomaron de 40 individuos al azar, si se hubieran tomado lotes más grandes se esperaba que esta leve asimetria fuera casi nula. Se evidencia que la proporción es insesgada considerando la carga presente en los datos generados.

Si calculamos el estimador de asimetria tenemos

library(moments)
skewness(simulNtimesc)

## [1] 0.3743154

La asimetría incrementó, lo cual es consecuente con lo que se observa en la gráfica.

Desviación estándar.

sd(simulNtimesc)

## [1] 0.04754715

La desviación estándar incrementó levemente con respecto a los datos equilibrados.

Realice los ejercicios completos b y c para tamaños de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores en cuanto a la normalidad. Investigue y utilice pruebas de bondad y ajuste (shapiro wilks) y métodos gráficos (grafico qq de normalidad).

La siguiente función funcionSimulc extrae n valores de la población de 1000 plantas, después calcula la proporción muestral y a continuación lo agrega a la lista simulNtimesc, este proceso se repite 500 veces.

funcionSimulc=function(n){
  SimulNtimesc<-vector("numeric",500)
  for (i in 1:500) {
    simulNtimesc[i]<-sum(MuestraLoteCargado(n))/n
  }
  #simulNtimes <- gsub(",", "", simulNtimes)   # remove comma
  simulNtimesc <- as.numeric(simulNtimesc)      # turn into numbers
  hist(simulNtimesc,density = 50, main = paste("Histograma plantas enfermas n=", n), 
       xlab = "Estimador", ylab = "Frecuencia")
  linec = mean(simulNtimesc)
  abline(v=linec, col="red",lwd=3)
  qqnorm(simulNtimesc, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main=paste("Gráfico QQ n=",n))
  qqline(simulNtimesc, col = "red")
  print(paste("Resumen Estadístico n=",n))
  print(summary(simulNtimesc))
  print(shapiro.test(simulNtimesc))
}

Vector de los tamaños de muestra

vecMuestrac <- c(5,10,15,20,30,50,60,100,200,500)

for (i in vecMuestrac) {
  funcionSimulc(i)
}

## [1] "Resumen Estadístico n= 5"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0000  0.0000  0.1172  0.2000  0.6000 
## 
##  Shapiro-Wilk normality test
## 
## data:  simulNtimesc
## W = 0.74777, p-value < 2.2e-16

## [1] "Resumen Estadístico n= 10"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   0.000   0.100   0.105   0.200   0.600 
## 
##  Shapiro-Wilk normality test
## 
## data:  simulNtimesc
## W = 0.84434, p-value < 2.2e-16

## [1] "Resumen Estadístico n= 15"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.00000 0.06667 0.13333 0.11040 0.13333 0.33333 
## 
##  Shapiro-Wilk normality test
## 
## data:  simulNtimesc
## W = 0.91155, p-value < 2.2e-16

## [1] "Resumen Estadístico n= 20"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0500  0.1000  0.1086  0.1500  0.3500 
## 
##  Shapiro-Wilk normality test
## 
## data:  simulNtimesc
## W = 0.92736, p-value = 7.779e-15

## [1] "Resumen Estadístico n= 30"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.00000 0.06667 0.10000 0.11400 0.16667 0.30000 
## 
##  Shapiro-Wilk normality test
## 
## data:  simulNtimesc
## W = 0.95997, p-value = 2.049e-10

## [1] "Resumen Estadístico n= 50"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   0.080   0.120   0.109   0.140   0.280 
## 
##  Shapiro-Wilk normality test
## 
## data:  simulNtimesc
## W = 0.97781, p-value = 6.764e-07

## [1] "Resumen Estadístico n= 60"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.01667 0.08333 0.11667 0.11157 0.13333 0.25000 
## 
##  Shapiro-Wilk normality test
## 
## data:  simulNtimesc
## W = 0.97903, p-value = 1.325e-06

## [1] "Resumen Estadístico n= 100"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.03    0.09    0.11    0.11    0.13    0.22 
## 
##  Shapiro-Wilk normality test
## 
## data:  simulNtimesc
## W = 0.98277, p-value = 1.201e-05

## [1] "Resumen Estadístico n= 200"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0500  0.0950  0.1100  0.1099  0.1250  0.1850 
## 
##  Shapiro-Wilk normality test
## 
## data:  simulNtimesc
## W = 0.99309, p-value = 0.02138

## [1] "Resumen Estadístico n= 500"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0720  0.1015  0.1100  0.1103  0.1200  0.1560 
## 
##  Shapiro-Wilk normality test
## 
## data:  simulNtimesc
## W = 0.99527, p-value = 0.1325

Note que para muestras pequeñas para el gráfico QQ se observa un mayor desajuste con la linea recta en los extremos y en la medida que incremente el tamaño de muestra va mejorando la presición de la línea recta, respecto a la hipótesis de normalidad esta al final no se rechaza dado que el sesgo va disminuyendo.

Como conclusión general, se evidencia la teoría planteada en el teorema del límite central, donde el estimador de la proporción para muestras de tamaño grande, converge a la distribución Normal.

Punto 2

La comparación de tratamientos es una práctica fundamental en las ciencias agropecuarias y para esto a nivel estadístico se cuenta con algunas herramientas para apoyar el proceso de toma de decisiones y lograr concluir con algún grado de confianza que los resultados observados en una muestra son representativos y se pueden asociar a los tratamientos y no se deben únicamente al azar. Por medio una simulación validemos algunos de estos resultados.

Suponga un escenario en el cual usted aplicó tratamientos diferentes a dos lotes y desea analizar si alguno de los dos presenta un mejor desempeño en el control de una plaga presente en ambos al momento inicial. Para ello utilizará como criterio de desempeño el tratamiento que menor % de plantas enfermas presente después de un tiempo de aplicación (es decir, si se presentan o no diferencias en las proporciones de enfermos P1 y P2). Realice una simulación en la cual genere dos poblaciones de N1=1000 (Lote1) y N2=1500 (Lote2), además asuma que el porcentaje de individuos (plantas) enfermas en ambos lotes sea la misma 10% (es decir, sin diferencias entre los tratamientos).

Lotes de población 1000 y 1500 respectivamente.

LoteC1000 = sample(0:1, 1000, replace=TRUE, prob = c(90,10))
LoteC1500 = sample(0:1, 1500, replace=TRUE, prob = c(90,10))

Genere una función que permita obtener una muestra aleatoria de los lotes y calcule el estimador de la proporción muestral para cada lote (p1 y p2) para un tamaño de muestra dado n1=n2. Calcule la diferencia entre los estimadores p1-p2.

MuestraLoteCar=function(n,Lote){
  return(sample(Lote,n, replace=T))
} 

p1=sum(MuestraLoteCar(40,LoteC1000))/40
p2=sum(MuestraLoteCar(40,LoteC1500))/40

p1-p2

## [1] -0.075

Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores (diferencias p1-p2). ¿Qué tan simétricos son los datos?, ¿Son siempre cero las diferencias?

simulNtimesCp<-vector("numeric",500)

for (i in 1:500) {
  p1=sum(MuestraLoteCar(40,LoteC1000))/40
  p2=sum(MuestraLoteCar(40,LoteC1500))/40
  simulNtimesCp[i]<-(p1-p2)
}

simulNtimesCp <- as.numeric(simulNtimesCp)      # turn into numbers

hist(simulNtimesCp,density = 50, main = "Histograma de diferencias p1-p2", 
     xlab = "Estimador", ylab = "Frecuencia")
line = mean(simulNtimesCp)
abline(v=line, col="red",lwd=3)

Apoyandonos en el histograma se evidencia simetría en los estimadores calculados. No hay un sesgo notable respecto a la media igual 0. Da un indicio de que al tomar poblaciones de diferente tamaño las muestras que se extraen de ellas de igual tamaño no varian respecto a la proporción de plantas enfermas.

Realice los puntos b y c para tamaños de muestra n1=n2=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores (p1-p2) en cuanto a la normalidad. También analice el comportamiento de las diferencias y evalúe. ¿Considera que es más probable concluir que existen diferencias entre los tratamientos con muestras grandes que pequeñas, es decir, cuál considera usted que es el efecto del tamaño de muestra en el caso de la comparación de proporciones?

funcionSimulCp=function(n){
 SimulNtimesCp<-vector("numeric",500)
 for (i in 1:500) {
   p1=sum(MuestraLoteCar(n,LoteC1000))/n
   p2=sum(MuestraLoteCar(n,LoteC1500))/n
   simulNtimesCp[i]<-p1-p2
 }
 simulNtimesCp <- as.numeric(simulNtimesCp)      # turn into numbers
 hist(simulNtimesCp,density = 50, main = paste("Histograma p1-p2 para n=", n), 
      xlab = "Estimador", ylab = "Frecuencia")
 line = mean(simulNtimesCp)
 abline(v=line, col="red",lwd=3)
 qqnorm(simulNtimesCp, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main=paste("Gráfico QQ n=",n))
 qqline(simulNtimesCp, col = "red")
 print(paste("Resumen Estadístico n=",n))
 print(summary(simulNtimesCp))
 print(shapiro.test(simulNtimesCp))
}

vecMuestraCp <- c(5,10,15,20,30,50,60,100,200,500)

for (i in vecMuestraCp) {
  funcionSimulCp(i)
}

## [1] "Resumen Estadístico n= 5"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -0.6000  0.0000  0.0000  0.0084  0.2000  0.6000 
## 
##  Shapiro-Wilk normality test
## 
## data:  simulNtimesCp
## W = 0.89806, p-value < 2.2e-16

## [1] "Resumen Estadístico n= 10"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -0.4000 -0.1000  0.0000  0.0046  0.1000  0.4000 
## 
##  Shapiro-Wilk normality test
## 
## data:  simulNtimesCp
## W = 0.95604, p-value = 4.733e-11

## [1] "Resumen Estadístico n= 15"
##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
## -0.333333 -0.066667  0.000000  0.001467  0.066667  0.333333 
## 
##  Shapiro-Wilk normality test
## 
## data:  simulNtimesCp
## W = 0.96849, p-value = 6.934e-09

## [1] "Resumen Estadístico n= 20"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -0.3000 -0.0500  0.0000 -0.0072  0.0500  0.3000 
## 
##  Shapiro-Wilk normality test
## 
## data:  simulNtimesCp
## W = 0.97621, p-value = 2.877e-07

## [1] "Resumen Estadístico n= 30"
##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
## -0.233333 -0.066667  0.000000 -0.003867  0.066667  0.233333 
## 
##  Shapiro-Wilk normality test
## 
## data:  simulNtimesCp
## W = 0.98206, p-value = 7.772e-06

## [1] "Resumen Estadístico n= 50"
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.18000 -0.04000  0.00000 -0.00356  0.04000  0.18000 
## 
##  Shapiro-Wilk normality test
## 
## data:  simulNtimesCp
## W = 0.98855, p-value = 0.0005927

## [1] "Resumen Estadístico n= 60"
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.21667 -0.03333  0.00000 -0.00250  0.03333  0.15000 
## 
##  Shapiro-Wilk normality test
## 
## data:  simulNtimesCp
## W = 0.98934, p-value = 0.001073

## [1] "Resumen Estadístico n= 100"
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.13000 -0.03000  0.00000 -0.00106  0.03000  0.15000 
## 
##  Shapiro-Wilk normality test
## 
## data:  simulNtimesCp
## W = 0.99132, p-value = 0.004999

## [1] "Resumen Estadístico n= 200"
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.08500 -0.02125  0.00000 -0.00082  0.02000  0.10500 
## 
##  Shapiro-Wilk normality test
## 
## data:  simulNtimesCp
## W = 0.9953, p-value = 0.135

## [1] "Resumen Estadístico n= 500"
##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
## -0.056000 -0.014000 -0.002000 -0.001468  0.012000  0.050000 
## 
##  Shapiro-Wilk normality test
## 
## data:  simulNtimesCp
## W = 0.99634, p-value = 0.3097

Se observa que a medida que incrementa el tamaño de la muestra la diferencia de la proporción tiene una leve tendencia hacía la izquierda, es posible pensar que si se hace el análisis solo con un tamaño de la muestra, el efecto es causa de la aleatoriedad, pero observando el análisis con varios tamaños de muestra se evidencia que no es causa de la aleatoriedad en una muestra. En conclusión se sospecha que el lote de menor tamaño tiene una tendencia leve hacía proporciones de menor valor.

Ahora realice nuevamente los puntos a-d bajo un escenario con dos lotes, pero de proporciones de enfermos diferentes (P1=0.1 y P2=0.15), es decir, el tratamiento del lote 1 si presentó un mejor desempeño reduciendo en un 5% el porcentaje de enfermos. Bajo este nuevo escenario compare la distribución de estas diferencias (p1-p2) con las observadas bajo igualdad de condiciones en los lotes. ¿Qué puede concluir? ¿Existen puntos en los cuales es posible que se observen diferencias de p1- p2 bajo ambos escenarios (escenario 1: sin diferencias entre P1 y P2, escenario 2: diferencia de 5%)?

Lote2C1000 = sample(0:1, 1000, replace=TRUE, prob = c(90,10))
Lote2C1500 = sample(0:1, 1500, replace=TRUE, prob = c(85,15))

funcionSimul2Cp=function(n){
 simulNtimes2Cp<-vector("numeric",500)
 for (i in 1:500) {
   p1=sum(MuestraLoteCar(n,Lote2C1000))/n
   p2=sum(MuestraLoteCar(n,Lote2C1500))/n
   simulNtimes2Cp[i]<-p1-p2
 }
 simulNtimes2Cp <- as.numeric(simulNtimes2Cp)      # turn into numbers
 hist(simulNtimes2Cp,density = 50, main = paste("Histograma p1-p2 para n=", n), 
      xlab = "Estimador", ylab = "Frecuencia")
 line = mean(simulNtimes2Cp)
 abline(v=line, col="red",lwd=3)
 qqnorm(simulNtimes2Cp, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main=paste("Gráfico QQ n=",n))
 qqline(simulNtimes2Cp, col = "red")
 print(paste("Resumen Estadístico n=",n))
 print(summary(simulNtimes2Cp))
 print(shapiro.test(simulNtimes2Cp))
}

vecMuestra2Cp <- c(5,10,15,20,30,50,60,100,200,500)

for (i in vecMuestra2Cp) {
  funcionSimul2Cp(i)
}

## [1] "Resumen Estadístico n= 5"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -0.6000 -0.2000  0.0000 -0.0404  0.0000  0.6000 
## 
##  Shapiro-Wilk normality test
## 
## data:  simulNtimes2Cp
## W = 0.90727, p-value < 2.2e-16

## [1] "Resumen Estadístico n= 10"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -0.4000 -0.1000 -0.1000 -0.0484  0.0000  0.4000 
## 
##  Shapiro-Wilk normality test
## 
## data:  simulNtimes2Cp
## W = 0.95315, p-value = 1.697e-11

## [1] "Resumen Estadístico n= 15"
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.40000 -0.13333 -0.06667 -0.04840  0.00000  0.40000 
## 
##  Shapiro-Wilk normality test
## 
## data:  simulNtimes2Cp
## W = 0.96586, p-value = 2.207e-09

## [1] "Resumen Estadístico n= 20"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -0.3000 -0.1000 -0.0500 -0.0381  0.0500  0.2500 
## 
##  Shapiro-Wilk normality test
## 
## data:  simulNtimes2Cp
## W = 0.97716, p-value = 4.745e-07

## [1] "Resumen Estadístico n= 30"
##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
## -0.233333 -0.100000 -0.033333 -0.041467  0.008333  0.200000 
## 
##  Shapiro-Wilk normality test
## 
## data:  simulNtimes2Cp
## W = 0.98221, p-value = 8.512e-06

## [1] "Resumen Estadístico n= 50"
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.24000 -0.08000 -0.04000 -0.03356  0.00000  0.20000 
## 
##  Shapiro-Wilk normality test
## 
## data:  simulNtimes2Cp
## W = 0.98922, p-value = 0.0009773

## [1] "Resumen Estadístico n= 60"
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.20000 -0.08333 -0.03333 -0.04163  0.00000  0.13333 
## 
##  Shapiro-Wilk normality test
## 
## data:  simulNtimes2Cp
## W = 0.98988, p-value = 0.001616

## [1] "Resumen Estadístico n= 100"
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.18000 -0.07000 -0.04000 -0.03976 -0.01000  0.13000 
## 
##  Shapiro-Wilk normality test
## 
## data:  simulNtimes2Cp
## W = 0.99287, p-value = 0.01778

## [1] "Resumen Estadístico n= 200"
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.12000 -0.06500 -0.04000 -0.04036 -0.02000  0.06000 
## 
##  Shapiro-Wilk normality test
## 
## data:  simulNtimes2Cp
## W = 0.99449, p-value = 0.06877

## [1] "Resumen Estadístico n= 500"
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.10000 -0.05600 -0.04200 -0.04276 -0.03000  0.01600 
## 
##  Shapiro-Wilk normality test
## 
## data:  simulNtimes2Cp
## W = 0.99591, p-value = 0.2214

Se concluye que hay un sesgo notable con respecto a la media 0, pero se conserva la simetría alrededor de la media muestral.

En el primer escenario, el mayor sesgo respecto a la media fue para el tamaño de muestra igual a 500, aún así fue muy leve. En el segundo escenario se observa un valor de media aproximado a -0.06 en todos los casos, consecuencia de tomar un valor de proporción menor de plantas enfermas en un lote que en otro. Variar el tamaño de la población y el valor de la proporción de plantas enfermas hace que poder concluir hacerca del factor que hace que la media permanezca más estable pueda tornarse ambiguo, pero considerando que en el escenario uno la tendencia de la media de la diferencia de las proporciones era levemente negativa, podríamos sospechar que en el escenario 2 esta tendencia de un valor de media estable se deba a que se tomaron proporciones diferentes de plantas enfermas.

Taller de simulación en R

Alexander León Diaz

7/4/2022

Punto 1

Punto 2