Taller N°2 de simulación en R

R Markdown

1. El Teorema del Limite Central es uno de los mas importantes en la inferencia estadística y habla sobre la convergencia de los estimadores como la proporción muestral a la distribución normal. Algunos autores afirman que esta aproximación es bastante buena a partir del umbral n>30. a. Realice una simulación en la cual genere una población de N=1000 (Lote) y además que el porcentaje de individuos (plantas) enfermas es del 50%.

a. Realice una simulación en la cual genere una población de N=1000 (Lote) y además que el porcentaje de individuos (plantas) enfermas es del 50%.

Para este caso generamos una población con intervalos entre 0 y 1 donde 1 significa que la platan está enferma.

lote=c(rep(1,500),rep(0,500))
table(lote)/1000

## lote
##   0   1 
## 0.5 0.5

b. Genere una función que permita obtener una muestra aleatoria de la población y calcule el estimador de la proporción muestral para un tamaño de muestra dado n.

get_muestras=function(n){
  muestra=sample(lote,size = n)
  return(sum(muestra)/n)
}

get_estimadores=function(x, time){
  estimadores=sapply(rep(x,time), get_muestras)
  return(estimadores)
}

Tomando como ejemplo un tamaño muestral de 20 se obtuvo un estimador de:

get_estimadores(20,1)

## [1] 0.6

c. Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores. ¿Qué tan simétricos son los datos?, ¿Son sesgados y que pasa en cuanto a variabilidad?.

estimadores = get_estimadores(20,500)
hist(estimadores)

summary(estimadores)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2000  0.4000  0.5000  0.4987  0.6000  0.8500

sd(estimadores)

## [1] 0.1187498

Luego de haber realizado la simulación anterior y haber tomado una muestra del 20% de la población y repetir ese ejercicio 500 veces encontramos que la media de los estimadores está en 49.9% y la desviación está en ~11%.

d. Realice los ejercicios completos b y c para tamaños de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores en cuanto a la normalidad. Investigue y utilice pruebas de bondad y ajuste (shapiro wilks) y métodos gráficos (grafico qq de normalidad).

estimadores5 = get_estimadores(5,500)
par(mfrow = c(1, 2))
qqnorm(estimadores5, pch = 1, frame = FALSE, main = "Gráfica QQ normal estimador5")
qqline(estimadores5, col = "steelblue", lwd = 2)
hist(estimadores5, main = "Histograma  estimador5")
abline(v = mean(estimadores5), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores5)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores5
## W = 0.92703, p-value = 7.146e-15

estimadores10 = get_estimadores(10,500)
par(mfrow = c(1, 2))
qqnorm(estimadores10, pch = 1, frame = FALSE, main = "Gráfica QQ normal estimador10")
qqline(estimadores10, col = "steelblue", lwd = 2)
hist(estimadores10, main = "Histograma  estimador10")
abline(v = mean(estimadores10), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores10)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores10
## W = 0.96567, p-value = 2.041e-09

estimadores15 = get_estimadores(15,500)
par(mfrow = c(1, 2))
qqnorm(estimadores15, pch = 1, frame = FALSE, main = "Gráfica QQ normal estimador15")
qqline(estimadores15, col = "steelblue", lwd = 2)
hist(estimadores15, main = "Histograma  estimador15")
abline(v = mean(estimadores15), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores15)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores15
## W = 0.97289, p-value = 5.385e-08

estimadores20 = get_estimadores(20,500)
par(mfrow = c(1, 2))
qqnorm(estimadores20, pch = 1, frame = FALSE, main = "Gráfica QQ normal estimador20")
qqline(estimadores20, col = "steelblue", lwd = 2)
hist(estimadores20, main = "Histograma  estimador20")
abline(v = mean(estimadores20), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores20)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores20
## W = 0.98149, p-value = 5.523e-06

estimadores25 = get_estimadores(25,500)
par(mfrow = c(1, 2))
qqnorm(estimadores25, pch = 1, frame = FALSE, main = "Gráfica QQ normal estimador25")
qqline(estimadores25, col = "steelblue", lwd = 2)
hist(estimadores25, main = "Histograma  estimador25")
abline(v = mean(estimadores25), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores25)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores25
## W = 0.98406, p-value = 2.709e-05

estimadores30 = get_estimadores(30,500)
par(mfrow = c(1, 2))
qqnorm(estimadores30, pch = 1, frame = FALSE, main = "Gráfica QQ normal estimador30")
qqline(estimadores30, col = "steelblue", lwd = 2)
hist(estimadores30, main = "Histograma  estimador30")
abline(v = mean(estimadores30), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores30)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores30
## W = 0.9876, p-value = 0.000299

estimadores50 = get_estimadores(50,500)
par(mfrow = c(1, 2))
qqnorm(estimadores50, pch = 1, frame = FALSE, main = "Gráfica QQ normal estimador50")
qqline(estimadores50, col = "steelblue", lwd = 2)
hist(estimadores50, main = "Histograma  estimador50")
abline(v = mean(estimadores50), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores50)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores50
## W = 0.9888, p-value = 0.0007165

estimadores60 = get_estimadores(60,500)
par(mfrow = c(1, 2))
qqnorm(estimadores60, pch = 1, frame = FALSE, main = "Gráfica QQ normal estimador60")
qqline(estimadores60, col = "steelblue", lwd = 2)
hist(estimadores60, main = "Histograma  estimador60")
abline(v = mean(estimadores60), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores60)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores60
## W = 0.99059, p-value = 0.002802

estimadores100 = get_estimadores(100,500)
par(mfrow = c(1, 2))
qqnorm(estimadores100, pch = 1, frame = FALSE, main = "Gráfica QQ normal estimador100")
qqline(estimadores100, col = "steelblue", lwd = 2)
hist(estimadores100, main = "Histograma  estimador100")
abline(v = mean(estimadores100), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores100)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores100
## W = 0.99328, p-value = 0.02496

estimadores200 = get_estimadores(200,500)
par(mfrow = c(1, 2))
qqnorm(estimadores200, pch = 1, frame = FALSE, main = "Gráfica QQ normal estimador200")
qqline(estimadores200, col = "steelblue", lwd = 2)
hist(estimadores200, main = "Histograma  estimador200")
abline(v = mean(estimadores200), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores200)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores200
## W = 0.99394, p-value = 0.0436

estimadores500 = get_estimadores(500,500)
par(mfrow = c(1, 2))
qqnorm(estimadores500, pch = 1, frame = FALSE, main = "Gráfica QQ normal estimador500")
qqline(estimadores500, col = "steelblue", lwd = 2)
hist(estimadores500, main = "Histograma  estimador500")
abline(v = mean(estimadores500), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores500)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores500
## W = 0.99708, p-value = 0.5158

res=data.frame(mean(estimadores5), mean(estimadores10), mean(estimadores15), mean(estimadores20), mean(estimadores25), mean(estimadores30), mean(estimadores50), mean(estimadores60), mean(estimadores100), mean(estimadores200), mean(estimadores500))
head(res)

##   mean.estimadores5. mean.estimadores10. mean.estimadores15.
## 1             0.5032              0.4934              0.5056
##   mean.estimadores20. mean.estimadores25. mean.estimadores30.
## 1              0.5035             0.50368           0.5057333
##   mean.estimadores50. mean.estimadores60. mean.estimadores100.
## 1             0.50112              0.4976              0.50238
##   mean.estimadores200. mean.estimadores500.
## 1              0.49991             0.500484

Después de hacer la simulación de este ejercicio se pudo observar que los estimadores para una muestra pequeña son dispersos y no continuos, adicional, la media del estimado, aunque se aproxima a la media de la población el valor de P es muy bajo, indicando una probabilidad de ocurrencia mínima que permitiría rechazar a simple vista la hipótesis. Por otra parte, al observar las graficas QQ vemos que para muestras pequeñas los datos son muy dispersos alrededor de la línea de la normal.

También se puede observar que a medida que el numero de muestras aumenta los datos se van ajustando y acercando a la línea de la normal, de igual manera se observa una simetría con relación a una función normal alrededor de la media del parámetro.

Por otra parte, a medida que la cantidad de muestras aumentan el valor P va buscando el valor ideal. A partir del estimado50 se observa que los datos se van ajustando mucho mejor y se ve mas continuos, adicional, en este punto el valor P ha mejorado mucho en comparación con los estimadores 5, 10, 20 y 25.

En este punto vemos una gráfica del estimador con forma simétrica alrededor de la media de población con valores continuos; además, el valor de P a alcanzado un valor relativamente cercano al esperado

e. Repita toda la simulación (puntos a – d) pero ahora con lotes con 10% y 90% de plantas enfermas. Concluya todo el ejercicio.

Simulación lote con 10% de plantas enfermas

lote=c(rep(0,900),rep(1,100))
table(lote)/1000

## lote
##   0   1 
## 0.9 0.1

estimadores5 = get_estimadores(5,500)
par(mfrow = c(1, 2))
qqnorm(estimadores5, pch = 1, frame = FALSE, main = "Gráfica QQ normal estimador5")
qqline(estimadores5, col = "steelblue", lwd = 2)
hist(estimadores5, main = "Histograma  estimador5")
abline(v = mean(estimadores5), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores5)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores5
## W = 0.69837, p-value < 2.2e-16

estimadores10 = get_estimadores(10,500)
par(mfrow = c(1, 2))
qqnorm(estimadores10, pch = 1, frame = FALSE, main = "Gráfica QQ normal estimador10")
qqline(estimadores10, col = "steelblue", lwd = 2)
hist(estimadores10, main = "Histograma  estimador10")
abline(v = mean(estimadores10), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores10)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores10
## W = 0.85004, p-value < 2.2e-16

estimadores15 = get_estimadores(15,500)
par(mfrow = c(1, 2))
qqnorm(estimadores15, pch = 1, frame = FALSE, main = "Gráfica QQ normal estimador15")
qqline(estimadores15, col = "steelblue", lwd = 2)
hist(estimadores15, main = "Histograma  estimador15")
abline(v = mean(estimadores15), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores15)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores15
## W = 0.89488, p-value < 2.2e-16

estimadores20 = get_estimadores(20,500)
par(mfrow = c(1, 2))
qqnorm(estimadores20, pch = 1, frame = FALSE, main = "Gráfica QQ normal estimador20")
qqline(estimadores20, col = "steelblue", lwd = 2)
hist(estimadores20, main = "Histograma  estimador20")
abline(v = mean(estimadores20), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores20)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores20
## W = 0.91881, p-value = 9.3e-16

estimadores25 = get_estimadores(25,500)
par(mfrow = c(1, 2))
qqnorm(estimadores25, pch = 1, frame = FALSE, main = "Gráfica QQ normal estimador25")
qqline(estimadores25, col = "steelblue", lwd = 2)
hist(estimadores25, main = "Histograma  estimador25")
abline(v = mean(estimadores25), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores25)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores25
## W = 0.94033, p-value = 2.797e-13

estimadores30 = get_estimadores(30,500)
par(mfrow = c(1, 2))
qqnorm(estimadores30, pch = 1, frame = FALSE, main = "Gráfica QQ normal estimador30")
qqline(estimadores30, col = "steelblue", lwd = 2)
hist(estimadores30, main = "Histograma  estimador30")
abline(v = mean(estimadores30), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores30)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores30
## W = 0.9489, p-value = 4.04e-12

estimadores50 = get_estimadores(50,500)
par(mfrow = c(1, 2))
qqnorm(estimadores50, pch = 1, frame = FALSE, main = "Gráfica QQ normal estimador50")
qqline(estimadores50, col = "steelblue", lwd = 2)
hist(estimadores50, main = "Histograma  estimador50")
abline(v = mean(estimadores50), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores50)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores50
## W = 0.97159, p-value = 2.877e-08

estimadores60 = get_estimadores(60,500)
par(mfrow = c(1, 2))
qqnorm(estimadores60, pch = 1, frame = FALSE, main = "Gráfica QQ normal estimador60")
qqline(estimadores60, col = "steelblue", lwd = 2)
hist(estimadores60, main = "Histograma  estimador60")
abline(v = mean(estimadores60), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores60)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores60
## W = 0.97653, p-value = 3.401e-07

estimadores100 = get_estimadores(100,500)
par(mfrow = c(1, 2))
qqnorm(estimadores100, pch = 1, frame = FALSE, main = "Gráfica QQ normal estimador100")
qqline(estimadores100, col = "steelblue", lwd = 2)
hist(estimadores100, main = "Histograma  estimador100")
abline(v = mean(estimadores100), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores100)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores100
## W = 0.9872, p-value = 0.000225

estimadores200 = get_estimadores(200,500)
par(mfrow = c(1, 2))
qqnorm(estimadores200, pch = 1, frame = FALSE, main = "Gráfica QQ normal estimador200")
qqline(estimadores200, col = "steelblue", lwd = 2)
hist(estimadores200, main = "Histograma  estimador200")
abline(v = mean(estimadores200), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores200)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores200
## W = 0.98922, p-value = 0.0009814

estimadores500 = get_estimadores(500,500)
par(mfrow = c(1, 2))
qqnorm(estimadores500, pch = 1, frame = FALSE, main = "Gráfica QQ normal estimador500")
qqline(estimadores500, col = "steelblue", lwd = 2)
hist(estimadores500, main = "Histograma  estimador500")
abline(v = mean(estimadores500), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores500)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores500
## W = 0.99366, p-value = 0.03441

res=data.frame(mean(estimadores5), mean(estimadores10), mean(estimadores15), mean(estimadores20), mean(estimadores25), mean(estimadores30), mean(estimadores50), mean(estimadores60), mean(estimadores100), mean(estimadores200), mean(estimadores500))
head(res)

##   mean.estimadores5. mean.estimadores10. mean.estimadores15.
## 1             0.0964              0.1048           0.1046667
##   mean.estimadores20. mean.estimadores25. mean.estimadores30.
## 1              0.0994             0.09848           0.1029333
##   mean.estimadores50. mean.estimadores60. mean.estimadores100.
## 1             0.09848              0.0973               0.0991
##   mean.estimadores200. mean.estimadores500.
## 1              0.10001                0.101

Simulación lote con 90% de plantas enfermas

lote=c(rep(0,100),rep(1,900))
table(lote)/1000

## lote
##   0   1 
## 0.1 0.9

estimadores5 = get_estimadores(5,500)
par(mfrow = c(1, 2))
qqnorm(estimadores5, pch = 1, frame = FALSE, main = "Gráfica QQ normal estimador5")
qqline(estimadores5, col = "steelblue", lwd = 2)
hist(estimadores5, main = "Histograma  estimador5")
abline(v = mean(estimadores5), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores5)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores5
## W = 0.7065, p-value < 2.2e-16

estimadores10 = get_estimadores(10,500)
par(mfrow = c(1, 2))
qqnorm(estimadores10, pch = 1, frame = FALSE, main = "Gráfica QQ normal estimador10")
qqline(estimadores10, col = "steelblue", lwd = 2)
hist(estimadores10, main = "Histograma  estimador10")
abline(v = mean(estimadores10), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores10)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores10
## W = 0.83841, p-value < 2.2e-16

estimadores15 = get_estimadores(15,500)
par(mfrow = c(1, 2))
qqnorm(estimadores15, pch = 1, frame = FALSE, main = "Gráfica QQ normal estimador15")
qqline(estimadores15, col = "steelblue", lwd = 2)
hist(estimadores15, main = "Histograma  estimador15")
abline(v = mean(estimadores15), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores15)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores15
## W = 0.89225, p-value < 2.2e-16

estimadores20 = get_estimadores(20,500)
par(mfrow = c(1, 2))
qqnorm(estimadores20, pch = 1, frame = FALSE, main = "Gráfica QQ normal estimador20")
qqline(estimadores20, col = "steelblue", lwd = 2)
hist(estimadores20, main = "Histograma  estimador20")
abline(v = mean(estimadores20), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores20)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores20
## W = 0.92194, p-value = 1.985e-15

estimadores25 = get_estimadores(25,500)
par(mfrow = c(1, 2))
qqnorm(estimadores25, pch = 1, frame = FALSE, main = "Gráfica QQ normal estimador25")
qqline(estimadores25, col = "steelblue", lwd = 2)
hist(estimadores25, main = "Histograma  estimador25")
abline(v = mean(estimadores25), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores25)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores25
## W = 0.94302, p-value = 6.279e-13

estimadores30 = get_estimadores(30,500)
par(mfrow = c(1, 2))
qqnorm(estimadores30, pch = 1, frame = FALSE, main = "Gráfica QQ normal estimador30")
qqline(estimadores30, col = "steelblue", lwd = 2)
hist(estimadores30, main = "Histograma  estimador30")
abline(v = mean(estimadores30), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores30)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores30
## W = 0.95472, p-value = 2.943e-11

estimadores50 = get_estimadores(50,500)
par(mfrow = c(1, 2))
qqnorm(estimadores50, pch = 1, frame = FALSE, main = "Gráfica QQ normal estimador50")
qqline(estimadores50, col = "steelblue", lwd = 2)
hist(estimadores50, main = "Histograma  estimador50")
abline(v = mean(estimadores50), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores50)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores50
## W = 0.9683, p-value = 6.369e-09

estimadores60 = get_estimadores(60,500)
par(mfrow = c(1, 2))
qqnorm(estimadores60, pch = 1, frame = FALSE, main = "Gráfica QQ normal estimador60")
qqline(estimadores60, col = "steelblue", lwd = 2)
hist(estimadores60, main = "Histograma  estimador60")
abline(v = mean(estimadores60), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores60)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores60
## W = 0.9712, p-value = 2.396e-08

estimadores100 = get_estimadores(100,500)
par(mfrow = c(1, 2))
qqnorm(estimadores100, pch = 1, frame = FALSE, main = "Gráfica QQ normal estimador100")
qqline(estimadores100, col = "steelblue", lwd = 2)
hist(estimadores100, main = "Histograma  estimador100")
abline(v = mean(estimadores100), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores100)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores100
## W = 0.98253, p-value = 1.035e-05

estimadores200 = get_estimadores(200,500)
par(mfrow = c(1, 2))
qqnorm(estimadores200, pch = 1, frame = FALSE, main = "Gráfica QQ normal estimador200")
qqline(estimadores200, col = "steelblue", lwd = 2)
hist(estimadores200, main = "Histograma  estimador200")
abline(v = mean(estimadores200), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores200)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores200
## W = 0.99035, p-value = 0.002317

estimadores500 = get_estimadores(500,500)
par(mfrow = c(1, 2))
qqnorm(estimadores500, pch = 1, frame = FALSE, main = "Gráfica QQ normal estimador500")
qqline(estimadores500, col = "steelblue", lwd = 2)
hist(estimadores500, main = "Histograma  estimador500")
abline(v = mean(estimadores500), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores500)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores500
## W = 0.99422, p-value = 0.0548

res=data.frame(mean(estimadores5), mean(estimadores10), mean(estimadores15), mean(estimadores20), mean(estimadores25), mean(estimadores30), mean(estimadores50), mean(estimadores60), mean(estimadores100), mean(estimadores200), mean(estimadores500))
head(res)

##   mean.estimadores5. mean.estimadores10. mean.estimadores15.
## 1             0.9004              0.9014              0.8992
##   mean.estimadores20. mean.estimadores25. mean.estimadores30.
## 1              0.8987             0.89816           0.9004667
##   mean.estimadores50. mean.estimadores60. mean.estimadores100.
## 1             0.90032           0.9000667               0.9011
##   mean.estimadores200. mean.estimadores500.
## 1               0.9005              0.90052

Conclusiones:

Cuando las muestras son pequeñas no se ve simetría alrededor de la media del lote.
Con muestras pequeñas los datos se dispersan alrededor de la línea de la normal y a medida que aumenta la muestra los datos se van agrupando sobre la línea.
Aunque la media de los estimadores sea muy cercana al valor de la media de la población, para valores de muestra muy pequeños el resultado del p-Value rechazaría cualquier hipótesis, por lo que se recomienda estimar muy bien los tamaños de las muestras y evitar resultados sesgados.

2. La comparación de tratamientos es una practica fundamental en las ciencias agropecuarias y para esto a nivel estadístico se cuenta con algunas herramientas para apoyar el proceso de toma de decisiones y lograr concluir con algún grado de confianza que los resultados observados en una muestra son representativos y se pueden asociar a los tratamientos y no se deben únicamente al azar. Por medio una simulación validemos algunos de estos resultados.

a. Suponga un escenario en el cual usted aplicó tratamientos diferentes a dos lotes y desea analizar si alguno de los dos presenta un mejor desempeño en el control de una plaga presente en ambos al momento inicial. Para ello utilizara como criterio de desempeño el tratamiento que menor % de plantas enfermas presente después de un tiempo de aplicación (es decir si se presentan o no diferencias en las proporciones de enfermos P1 y P2). Realice una simulación en la cual genere dos poblaciones de N1=1000 (Lote1) y N2=1500 (Lote2) además asuma que el porcentaje de individuos (plantas) enfermas en ambos lotes sea la misma 10% (es decir sin diferencias entre los tratamientos).

Simulación lote con 10% de plantas enfermas

lote1=c(rep(0,900),rep(1,100))
table(lote1)/1000

## lote1
##   0   1 
## 0.9 0.1

lote2=c(rep(0,1350),rep(1,150))
table(lote2)/1500

## lote2
##   0   1 
## 0.9 0.1

b. Genere una función que permita obtener una muestra aleatoria de los lotes y calcule el estimador de la proporción muestral para cada lote (p1 y p2) para un tamaño de muestra dado n1=n2. Calcule la diferencia entre los estimadores p1-p2.

get_muestras1=function(n){
  muestra=sample(lote1,size = n)
  return(sum(muestra)/n)
}
get_muestras2=function(n){
  muestra=sample(lote2,size = n)
  return(sum(muestra)/n)
}

*Tomando como ejemplo un tamaño muestral de 100 se obtuvo un estimador para Lote1 de:**

estimador1=sapply(rep(100,100), get_muestras1)
estimador1

##   [1] 0.08 0.08 0.10 0.09 0.09 0.11 0.08 0.10 0.12 0.13 0.12 0.12 0.09 0.13 0.09
##  [16] 0.09 0.11 0.06 0.11 0.07 0.16 0.13 0.11 0.09 0.07 0.11 0.11 0.13 0.13 0.10
##  [31] 0.09 0.08 0.10 0.10 0.07 0.08 0.09 0.13 0.13 0.13 0.15 0.09 0.11 0.11 0.10
##  [46] 0.05 0.05 0.13 0.07 0.08 0.10 0.06 0.09 0.09 0.13 0.09 0.10 0.08 0.16 0.08
##  [61] 0.10 0.08 0.13 0.12 0.07 0.10 0.13 0.14 0.09 0.13 0.13 0.09 0.06 0.11 0.07
##  [76] 0.07 0.12 0.05 0.14 0.10 0.07 0.14 0.09 0.16 0.10 0.09 0.13 0.12 0.12 0.18
##  [91] 0.11 0.11 0.07 0.09 0.08 0.11 0.09 0.10 0.09 0.11

*Tomando como ejemplo un tamaño muestral de 100 se obtuvo un estimador para Lote2 de:**

estimador2=sapply(rep(100,100), get_muestras2)
estimador2

##   [1] 0.05 0.12 0.13 0.17 0.09 0.15 0.06 0.13 0.10 0.06 0.14 0.09 0.12 0.11 0.11
##  [16] 0.11 0.08 0.10 0.06 0.09 0.11 0.09 0.12 0.18 0.17 0.12 0.06 0.10 0.14 0.08
##  [31] 0.15 0.11 0.12 0.11 0.06 0.09 0.11 0.10 0.13 0.16 0.12 0.12 0.10 0.09 0.08
##  [46] 0.14 0.13 0.09 0.14 0.07 0.16 0.09 0.08 0.13 0.11 0.11 0.14 0.14 0.09 0.09
##  [61] 0.11 0.14 0.10 0.11 0.15 0.08 0.19 0.12 0.10 0.11 0.11 0.11 0.05 0.10 0.15
##  [76] 0.14 0.09 0.07 0.15 0.10 0.09 0.12 0.09 0.03 0.07 0.11 0.13 0.11 0.10 0.07
##  [91] 0.12 0.10 0.11 0.10 0.15 0.05 0.14 0.06 0.06 0.08

*La diferencia entre los estimadores es de:**

estimador1-estimador2

##   [1]  0.03 -0.04 -0.03 -0.08  0.00 -0.04  0.02 -0.03  0.02  0.07 -0.02  0.03
##  [13] -0.03  0.02 -0.02 -0.02  0.03 -0.04  0.05 -0.02  0.05  0.04 -0.01 -0.09
##  [25] -0.10 -0.01  0.05  0.03 -0.01  0.02 -0.06 -0.03 -0.02 -0.01  0.01 -0.01
##  [37] -0.02  0.03  0.00 -0.03  0.03 -0.03  0.01  0.02  0.02 -0.09 -0.08  0.04
##  [49] -0.07  0.01 -0.06 -0.03  0.01 -0.04  0.02 -0.02 -0.04 -0.06  0.07 -0.01
##  [61] -0.01 -0.06  0.03  0.01 -0.08  0.02 -0.06  0.02 -0.01  0.02  0.02 -0.02
##  [73]  0.01  0.01 -0.08 -0.07  0.03 -0.02 -0.01  0.00 -0.02  0.02  0.00  0.13
##  [85]  0.03 -0.02  0.00  0.01  0.02  0.11 -0.01  0.01 -0.04 -0.01 -0.07  0.06
##  [97] -0.05  0.04  0.03  0.03

c. Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores (diferencias p1-p2). ¿Qué tan simétricos son los datos?, ¿Son siempre cero las diferencias?

estimador1=sapply(rep(100,500), get_muestras1)
estimador2=sapply(rep(100,500), get_muestras2)
par(mfrow = c(1, 3))
hist(estimador1, main = "Histograma Lote1")
abline(v = mean(estimador1), col="red", lwd=3, lty=2)
hist(estimador2, main = "Histograma  Lote2")
abline(v = mean(estimador2), col="red", lwd=3, lty=2)
hist(estimador1-estimador2, main = "Diferencia Lote1-Lote2")
abline(v = mean(estimador1-estimador2), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))

Luego de repetir el ejercicio 500 veces con una muestra n=100 vemos que los datos muestran una forma simétrica alrededor de la media que en este caso es del 10% para Lote1 y Lote2.

Por otra parte, las diferencias entre los estimadores también muestran un comportamiento simétrico y centrados en 0 sin embargo, cabe resaltar que no siempre la diferencia es 0 pero si muy cercanas a el.

d. Realice los puntos b y c para tamaños de muestra n1=n2=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores (p1-p2) en cuanto a la normalidad. También analice el comportamiento de las diferencias y evalúe. ¿Considera que es más probable concluir que existen diferencias entre los tratamientos con muestras grandes que pequeñas, es decir, cuál considera usted que es el efecto del tamaño de muestra en el caso de la comparación de proporciones?

estimador1=sapply(rep(5,100), get_muestras1)
estimador2=sapply(rep(5,100), get_muestras2)
estimadores5 = estimador1 - estimador2
par(mfrow = c(1, 2))
qqnorm(estimadores5, pch = 1, frame = FALSE, main = "QQ-normal Lot1-Lot2 para N=5")
qqline(estimadores5, col = "steelblue", lwd = 2)
hist(estimadores5, main = "Histograma Lot1-Lot2 para N=5")
abline(v = mean(estimadores5), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores5)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores5
## W = 0.87982, p-value = 1.783e-07

estimador1=sapply(rep(10,100), get_muestras1)
estimador2=sapply(rep(10,100), get_muestras2)
estimadores10 = estimador1 - estimador2
par(mfrow = c(1, 2))
qqnorm(estimadores10, pch = 1, frame = FALSE, main = "QQ-normal Lot1-Lot2 para N=10")
qqline(estimadores10, col = "steelblue", lwd = 2)
hist(estimadores10, main = "Histograma Lot1-Lot2 para N=10")
abline(v = mean(estimadores10), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores10)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores10
## W = 0.93662, p-value = 0.0001206

estimador1=sapply(rep(15,100), get_muestras1)
estimador2=sapply(rep(15,100), get_muestras2)
estimadores15 = estimador1 - estimador2
par(mfrow = c(1, 2))
qqnorm(estimadores15, pch = 1, frame = FALSE, main = "QQ-normal Lot1-Lot2 para N=15")
qqline(estimadores15, col = "steelblue", lwd = 2)
hist(estimadores15, main = "Histograma Lot1-Lot2 para N=15")
abline(v = mean(estimadores15), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores15)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores15
## W = 0.95128, p-value = 0.001008

estimador1=sapply(rep(20,100), get_muestras1)
estimador2=sapply(rep(20,100), get_muestras2)
estimadores15 = estimador1 - estimador2
par(mfrow = c(1, 2))
qqnorm(estimadores20, pch = 1, frame = FALSE, main = "QQ-normal Lot1-Lot2 para N=20")
qqline(estimadores20, col = "steelblue", lwd = 2)
hist(estimadores20, main = "Histograma Lot1-Lot2 para N=20")
abline(v = mean(estimadores20), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores20)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores20
## W = 0.92194, p-value = 1.985e-15

estimador1=sapply(rep(25,100), get_muestras1)
estimador2=sapply(rep(25,100), get_muestras2)
estimadores25 = estimador1 - estimador2
par(mfrow = c(1, 2))
qqnorm(estimadores25, pch = 1, frame = FALSE, main = "QQ-normal Lot1-Lot2 para N=25")
qqline(estimadores25, col = "steelblue", lwd = 2)
hist(estimadores25, main = "Histograma Lot1-Lot2 para N=25")
abline(v = mean(estimadores25), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores25)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores25
## W = 0.96499, p-value = 0.00927

estimador1=sapply(rep(30,100), get_muestras1)
estimador2=sapply(rep(30,100), get_muestras2)
estimadores30 = estimador1 - estimador2
par(mfrow = c(1, 2))
qqnorm(estimadores30, pch = 1, frame = FALSE, main = "QQ-normal Lot1-Lot2 para N=30")
qqline(estimadores30, col = "steelblue", lwd = 2)
hist(estimadores30, main = "Histograma Lot1-Lot2 para N=25")
abline(v = mean(estimadores30), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores30)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores30
## W = 0.97089, p-value = 0.02589

estimador1=sapply(rep(50,100), get_muestras1)
estimador2=sapply(rep(50,100), get_muestras2)
estimadores50 = estimador1 - estimador2
par(mfrow = c(1, 2))
qqnorm(estimadores50, pch = 1, frame = FALSE, main = "QQ-normal Lot1-Lot2 para N=50")
qqline(estimadores50, col = "steelblue", lwd = 2)
hist(estimadores50, main = "Histograma Lot1-Lot2 para N=50")
abline(v = mean(estimadores50), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores50)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores50
## W = 0.95698, p-value = 0.002464

estimador1=sapply(rep(60,100), get_muestras1)
estimador2=sapply(rep(60,100), get_muestras2)
estimadores60 = estimador1 - estimador2
par(mfrow = c(1, 2))
qqnorm(estimadores60, pch = 1, frame = FALSE, main = "QQ-normal Lot1-Lot2 para N=60")
qqline(estimadores60, col = "steelblue", lwd = 2)
hist(estimadores60, main = "Histograma Lot1-Lot2 para N=60")
abline(v = mean(estimadores60), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores60)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores60
## W = 0.98542, p-value = 0.3403

estimador1=sapply(rep(100,100), get_muestras1)
estimador2=sapply(rep(100,100), get_muestras2)
estimadores100 = estimador1 - estimador2
par(mfrow = c(1, 2))
qqnorm(estimadores100, pch = 1, frame = FALSE, main = "QQ-normal Lot1-Lot2 para N=100")
qqline(estimadores100, col = "steelblue", lwd = 2)
hist(estimadores100, main = "Histograma Lot1-Lot2 para N=100")
abline(v = mean(estimadores100), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores100)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores100
## W = 0.98149, p-value = 0.1733

estimador1=sapply(rep(200,100), get_muestras1)
estimador2=sapply(rep(200,100), get_muestras2)
estimadores200 = estimador1 - estimador2
par(mfrow = c(1, 2))
qqnorm(estimadores200, pch = 1, frame = FALSE, main = "QQ-normal Lot1-Lot2 para N=200")
qqline(estimadores200, col = "steelblue", lwd = 2)
hist(estimadores200, main = "Histograma Lot1-Lot2 para N=200")
abline(v = mean(estimadores200), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores200)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores200
## W = 0.98349, p-value = 0.2461

estimador1=sapply(rep(500,100), get_muestras1)
estimador2=sapply(rep(500,100), get_muestras2)
estimadores500 = estimador1 - estimador2
par(mfrow = c(1, 2))
qqnorm(estimadores500, pch = 1, frame = FALSE, main = "QQ-normal Lot1-Lot2 para N=500")
qqline(estimadores500, col = "steelblue", lwd = 2)
hist(estimadores500, main = "Histograma Lot1-Lot2 para N=500")
abline(v = mean(estimadores500), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores500)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores500
## W = 0.98926, p-value = 0.6049

Luego de simular la diferencia de los estimadores para las diferentes muestras se observa que las diferencias presentan una distribución normal centrada con media del parámetro en 0.

Por otra parte, para muestras pequeñas se observa que la diferencia de los estimadores no se centra en 0 pero tampoco supera la media de 0.2 lo cual nos puede ayudar a concluir que las poblaciones no presentan diferencias significativas.

También es posible afirmar que a medida que las muestras aumentan la diferencia tiende a 0 lo cual nos lleva a una interpretación que las poblaciones tienen mucha probabilidad de ser iguales.

Para finalizar es importante concluir que la muestra juega un papel importante al momento de calcular los estimadores, ya que a medida que la muestra aumenta la desviación disminuye; por lo que se recomienda hacer una buena estimación de la muestra para evitar resultados sesgados.

e. Ahora realice nuevamente los puntos a-d bajo un escenario con dos lotes, pero de proporciones de enfermos diferentes (P1=0.1 y P2=0.15), es decir, el tratamiento del lote 1 si presentó un mejor desempeño reduciendo en un 5% el porcentaje de enfermos. Bajo este nuevo escenario compare la distribución de estas diferencias (p1-p2) con las observadas bajo igualdad de condiciones en los lotes. ¿Qué puede concluir? ¿Existen puntos en los cuales es posible que se observen diferencias de p1- p2 bajo ambos escenarios (escenario 1: sin diferencias entre P1 y P2, escenario 2: diferencia de 5%)?

lote1=c(rep(0,900),rep(1,100))
table(lote1)/1000

## lote1
##   0   1 
## 0.9 0.1

lote2=c(rep(0,1275),rep(1,225))
table(lote2)/1500

## lote2
##    0    1 
## 0.85 0.15

estimador1=sapply(rep(5,100), get_muestras1)
estimador2=sapply(rep(5,100), get_muestras2)
estimadores5 = estimador1 - estimador2
par(mfrow = c(1, 2))
qqnorm(estimadores5, pch = 1, frame = FALSE, main = "QQ-normal Lot1-Lot2 para N=5")
qqline(estimadores5, col = "steelblue", lwd = 2)
hist(estimadores5, main = "Histograma Lot1-Lot2 para N=5")
abline(v = mean(estimadores5), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores5)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores5
## W = 0.90155, p-value = 1.674e-06

estimador1=sapply(rep(10,100), get_muestras1)
estimador2=sapply(rep(10,100), get_muestras2)
estimadores10 = estimador1 - estimador2
par(mfrow = c(1, 2))
qqnorm(estimadores10, pch = 1, frame = FALSE, main = "QQ-normal Lote1-Lote2 para N=10")
qqline(estimadores10, col = "steelblue", lwd = 2)
hist(estimadores10, main = "Histograma Lot1-Lot2 para N=10")
abline(v = mean(estimadores10), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores10)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores10
## W = 0.9535, p-value = 0.001421

estimador1=sapply(rep(15,100), get_muestras1)
estimador2=sapply(rep(15,100), get_muestras2)
estimadores15 = estimador1 - estimador2
par(mfrow = c(1, 2))
qqnorm(estimadores15, pch = 1, frame = FALSE, main = "QQ-normal Lot1-Lot2 para N=15")
qqline(estimadores15, col = "steelblue", lwd = 2)
hist(estimadores15, main = "Histograma Lot1-Lot2 para N=15")
abline(v = mean(estimadores15), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores15)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores15
## W = 0.95083, p-value = 0.0009411

estimador1=sapply(rep(20,100), get_muestras1)
estimador2=sapply(rep(20,100), get_muestras2)
estimadores15 = estimador1 - estimador2
par(mfrow = c(1, 2))
qqnorm(estimadores20, pch = 1, frame = FALSE, main = "QQ-normal Lot1-Lot2 para N=20")
qqline(estimadores20, col = "steelblue", lwd = 2)
hist(estimadores20, main = "Histograma Lot1-Lot2 para N=20")
abline(v = mean(estimadores20), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores20)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores20
## W = 0.92194, p-value = 1.985e-15

estimador1=sapply(rep(25,100), get_muestras1)
estimador2=sapply(rep(25,100), get_muestras2)
estimadores25 = estimador1 - estimador2
par(mfrow = c(1, 2))
qqnorm(estimadores25, pch = 1, frame = FALSE, main = "QQ-normal Lot1-Lot2 para N=25")
qqline(estimadores25, col = "steelblue", lwd = 2)
hist(estimadores25, main = "Histograma Lot1-Lot2 para N=25")
abline(v = mean(estimadores25), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores25)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores25
## W = 0.96578, p-value = 0.01061

estimador1=sapply(rep(30,100), get_muestras1)
estimador2=sapply(rep(30,100), get_muestras2)
estimadores30 = estimador1 - estimador2
par(mfrow = c(1, 2))
qqnorm(estimadores30, pch = 1, frame = FALSE, main = "QQ-normal Lot1-Lot2 para N=30")
qqline(estimadores30, col = "steelblue", lwd = 2)
hist(estimadores30, main = "Histograma Lot1-Lot2 para N=25")
abline(v = mean(estimadores30), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores30)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores30
## W = 0.98023, p-value = 0.1385

estimador1=sapply(rep(50,100), get_muestras1)
estimador2=sapply(rep(50,100), get_muestras2)
estimadores50 = estimador1 - estimador2
par(mfrow = c(1, 2))
qqnorm(estimadores50, pch = 1, frame = FALSE, main = "QQ-normal Lot1-Lot2 para N=50")
qqline(estimadores50, col = "steelblue", lwd = 2)
hist(estimadores50, main = "Histograma Lot1-Lot2 para N=50")
abline(v = mean(estimadores50), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores50)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores50
## W = 0.98087, p-value = 0.1554

estimador1=sapply(rep(60,100), get_muestras1)
estimador2=sapply(rep(60,100), get_muestras2)
estimadores60 = estimador1 - estimador2
par(mfrow = c(1, 2))
qqnorm(estimadores60, pch = 1, frame = FALSE, main = "QQ-normal Lot1-Lot2 para N=60")
qqline(estimadores60, col = "steelblue", lwd = 2)
hist(estimadores60, main = "Histograma Lot1-Lot2 para N=60")
abline(v = mean(estimadores60), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores60)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores60
## W = 0.98487, p-value = 0.311

estimador1=sapply(rep(100,100), get_muestras1)
estimador2=sapply(rep(100,100), get_muestras2)
estimadores100 = estimador1 - estimador2
par(mfrow = c(1, 2))
qqnorm(estimadores100, pch = 1, frame = FALSE, main = "QQ-normal Lot1-Lot2 para N=100")
qqline(estimadores100, col = "steelblue", lwd = 2)
hist(estimadores100, main = "Histograma Lot1-Lot2 para N=100")
abline(v = mean(estimadores100), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores100)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores100
## W = 0.98575, p-value = 0.3593

estimador1=sapply(rep(200,100), get_muestras1)
estimador2=sapply(rep(200,100), get_muestras2)
estimadores200 = estimador1 - estimador2
par(mfrow = c(1, 2))
qqnorm(estimadores200, pch = 1, frame = FALSE, main = "QQ-normal Lot1-Lot2 para N=200")
qqline(estimadores200, col = "steelblue", lwd = 2)
hist(estimadores200, main = "Histograma Lot1-Lot2 para N=200")
abline(v = mean(estimadores200), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores200)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores200
## W = 0.98064, p-value = 0.1491

estimador1=sapply(rep(500,100), get_muestras1)
estimador2=sapply(rep(500,100), get_muestras2)
estimadores500 = estimador1 - estimador2
par(mfrow = c(1, 2))
qqnorm(estimadores500, pch = 1, frame = FALSE, main = "QQ-normal Lot1-Lot2 para N=500")
qqline(estimadores500, col = "steelblue", lwd = 2)
hist(estimadores500, main = "Histograma Lot1-Lot2 para N=500")
abline(v = mean(estimadores500), col="red", lwd=3, lty=2)

par(mfrow = c(1, 1))
shapiro.test(estimadores500)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimadores500
## W = 0.97925, p-value = 0.1161

Luego de hacer la simulación en este punto se llega a las mismas conclusiones del punto anterior, a medida que la muestra va aumentando las diferencias van bajando y para muestras pequeñas las diferencias son más relevantes. Dado lo anterior podemos concluir que con muestras pequeñas se presentan resultados sesgados y nos pueden inducir a una hipótesis errada.

3. Con base a los artículos “Statistical Errors: P values, the gold standard of statistical validity, are not as reliable as many scientists assume” & “Statisticians issue warning on P values: Statement aims to halt missteps in the quest for certainty” escriba un resumen (máximo 2 páginas) sobre ambos artículos e incluya en este sus opiniones en cuanto al uso del valor p como criterio de decisión en inferencia estadística.

Se le conoce al valor P como la probabilidad de que ocurra un evento de manera al azar, tomando una premisa como cierta, adicional toma valores entre 0 y 1 es decir, tienen en cuenta un evento, considera una hipótesis nula especifica. Ya que el valor P mide si un resultado observado se puede atribuir al azar. Pero no puede responder a la pregunta real del investigador. Ejemplo: ¿Cuáles son las probabilidades de que una hipótesis sea correcta? Esas posibilidades dependen de que tan fuerte fue el resultado y lo que es mas importante, que tan posible es la hipótesis en primer lugar.

Adicional, los valores P se usan comúnmente para probar y descartar una hipótesis nula, que generalmente establece que no hay diferencia entre dos grupos, o que no hay correlación entre un par de características. Cuando mas pequeño es el valor de P, es menos probable que ocurra por casualidad un conjunto de valores observados, suponiendo que la hipótesis nula sea verdadera. Por lo general, se considera que un valor de P de 0,05 o menos significa que un hallazgo es estadísticamente significativo y justifica su publicación. Pero eso no es necesariamente cierto, señala la declaración de ASA.

Por otra parte, el mal uso del valor P, una prueba común para juzgar la fuerza de la evidencia científica, está contribuyendo a la cantidad de hallazgos de investigación que no se pueden reproducir. Por ejemplo: Motyl, estudiante de doctorado en psicología de la Universidad de Virginia en Charlottesville. Los datos de un estudio de casi 2000 personas parecían mostrar que los políticos moderados veían los tonos grises con mayor precisión que los extremistas de derecha o de izquierda. “La hipótesis era sexy”, dice, “y los datos proporcionaron un apoyo claro”. El valor P, un índice común para la fuerza de la evidencia, fue 0,01, generalmente interpretado como ‘muy significativo’. La publicación en una revista de alto impacto parecía estar al alcance de Motyl. Pero entonces intervino la realidad. Sensible a las controversias sobre la reproducibilidad, Motyl y su asesor, Brian Nosek, decidieron replicar el estudio. Con datos adicionales, el valor P resultó ser 0,59, ni siquiera cerca del nivel de significación convencional, 0,05. El efecto había desaparecido, y con él, los sueños de fama juvenil de Motyl.

Por otra parte, los científicos han señalado una serie de medidas que podrían ayudar a evitar la trampa de pensar en los resultados como significativos o no significativos respecto al p-value, por ejemplo, Cumming cree que los investigadores siempre deben informar los tamaños del efecto y los intervalos de confianza. Estos transmiten la magnitud y la importancia relativa de un efecto y también algunos expertos creen que sería conveniente cambiar el p-value por métodos que aprovechen la regla de bayes.

Dado que el solo valor de p no es concluyente, este debe ser complementado con más evidencias para soportar una hipótesis, indistintamente del valor que este tenga. Es necesario aclarar que ese valor de p conlleva una probabilidad de ocurrencia de eventos catalogados como “falsas alarmas”, que a medida que el valor de p disminuye esa probabilidad de falsa alarma aumenta, por ejemplo, para 0.05 se estima una probabilidad del 29%. Estas particularidades detrás del valor de p causan efecto sobre la probabilidad de replicabilidad de los estudios, es claro que esta probabilidad no corresponde al 99% pero se puede acercar a valores entre el 50% y el 73% para obtener resultados muy significantes. Para concluir, el p-value es una herramienta más, que brinda apoyo y sustento respecto a lo que se quiere indagar, pero muy posiblemente algunas veces se necesita un poco más de exploración para dar continuidad a proyectos y conclusiones mucho más complejas.

Taller N°2 de simulación en R

Arrieta Sanchez Mario José

2022-09-20

R Markdown