Taller 2: Inferencia estadística y simulación

Punto 1

El Teorema del Limite Central es uno de los mas importantes en la inferencia estadística y habla sobre la convergencia de los estimadores como la proporción muestral a la distribución normal. Algunos autores afirman que esta aproximación es bastante buena a partir del umbral n>30.

Punto 1.a

Realice una simulación en la cual genere una población de N=1000 (Lote) y además que el porcentaje de individuos (plantas) enfermas es del 50%.

Anotaciones sobre el punto
A continuación se presenta el código para la creación del lote:
lote1=c(rep("sanas",500), rep("enfermas",500))

Punto 1.b

Genere una función que permita obtener una muestra aleatoria de la población y calcule el estimador de la proporción muestral para un tamaño de muestra dado n.

Anotaciones sobre el punto
A continuación se presenta el código de la función de la muestra, así como su uso en un n=100 y el análisis de proporción muestral. Lo que muestran los resultados del prop.test es que para la muestra da un resultado de 52% de sanas, con un intervalo entre 42% y 62%. La muestra se encuentra cerca al parámetro del 50% con el que está construido el lote y el intervalo de confianza lo contiene.
#función de la muestra
calc_sanas=function(n){
muestra=sample(lote1,size= n)
return(sum(muestra=="sanas"))
}
#calcular una vez
estim=calc_sanas(n=100)
prop.test(x=(estim), n=100, conf.level = 0.95)
## 
##  1-sample proportions test with continuity correction
## 
## data:  (estim) out of 100, null probability 0.5
## X-squared = 0.81, df = 1, p-value = 0.3681
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.4475426 0.6485719
## sample estimates:
##    p 
## 0.55

Punto 1.c

Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores. ¿Qué tan simétricos son los datos?, ¿Son sesgados y que pasa en cuanto a variabilidad?.

Anotaciones sobre el punto

Los datos de la simulación con las 500 veces, permiten observar que los datos no presentan un sesgo. Los resultados del estimador (50.2%) están sobre el parámetro (50%). Adicionalmente, frente a la variabilidad de los datos, aunque habría que definir lo aceptable, en este caso con una desviación estándar de 4.6% y un intervalo entre 40.4% y 60%, podría decir que aunque existe esta no es muy alta.

Respecto con la simetría de los datos, si se observa el histograma el comportamiento de las muestras en esta simulación tiende a tener un comportamiento normal. Lo que tiende a la simetría de los datos.

estimador1=sapply(rep(100,500), calc_sanas)
hist(estimador1)

sd(estimador1/100)
## [1] 0.04918942
boxplot(estimador1/100, main="Estimador con 500 vueltas y n=100")
abline(h=0.5, col="red",lwd= 2)

prop.test(x=mean(estimador1),n=100, conf.level=0.95)
## 
##  1-sample proportions test with continuity correction
## 
## data:  mean(estimador1) out of 100, null probability 0.5
## X-squared = 0, df = 1, p-value = 1
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.4038315 0.5996329
## sample estimates:
##      p 
## 0.5018

Punto 1.d

Realice los ejercicios completos b y c para tamaños de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores en cuanto a la normalidad. Investigue y utilice pruebas de bondad y ajuste (shapiro wilks) y métodos gráficos (grafico qq de normalidad).

Anotaciones sobre el punto

Al realizar la simulación con distintos tamaños de muestra, entre 5 y 500, hay al menos dos conclusiones que se pueden sacar. Una asociada a la variabilidad y los intervalos de confianza y cómo va reduciéndose en la medida en que la muestra se hace más grande, aunque todas las muestras incluyen el parámetro. La segunda, es que la normalidad de los datos también se va presentando en la medida en que la muestra crece, lo que iría en línea para confirmar el teorema del límite central.

En cuanto a la variabilidad y reducción de los intervalos de confianza, el gráfico de cajas y bigotes de las distintas muestras, evidencia que todas incluyen el parámetror pero el intervalo de confianza va reduciéndose en la medida en que la muestra se hace más grande. Lo que podría decirse, como que la muestra se hace más preciso. Otro punto que muestra, es que aunque la reducción del error se presenta siempre que se aumenta la muestra, cuando se llegan a puntos como el salto de un n=200 a uno de 500, la reducción no es tan significativa como entre 5 y 100. Lo que evidencia que si se desea reducir mucho las muestras, el crecimiento del tamaño de muestra debe ser acelerado; lo que puede tener impactos en la viabilidad de hacerlas.

Por su parte, en cuanto a normalidad, lo que muestran las gráficas de qq y el test de Shapiro, es que en la medida en que la muestra crece los datos van teniendo cada vez un comportamiento más normal. Los gráficos de qq en n=5 evidencia mucha dispersión de los datos sobre la línea, mientras que la de 500 se va concentrando sobre la línea. Esto lo demuestra el test de shapiro. En el primer tamaño de muestra es de 1.292e-14 y en el de 500 es de 0.1829 (lo que supera el 0.05 para determinar el comportamiento normal)

est5 = sapply(rep(5,500),calc_sanas)
est10 = sapply(rep(10,500),calc_sanas)
est15 = sapply(rep(15,500),calc_sanas)
est20 = sapply(rep(20,500),calc_sanas)
est30 = sapply(rep(30,500),calc_sanas)
est50 = sapply(rep(50,500),calc_sanas)
est60 = sapply(rep(60,500),calc_sanas)
est100 = sapply(rep(100,500),calc_sanas)
est200 = sapply(rep(200,500),calc_sanas)
est500 = sapply(rep(500,500),calc_sanas)

resd=data.frame(est5/5,est10/10,est15/15,est20/20,est30/30,est50/50,est60/60,est100/100,est200/200,est500/500)
boxplot(resd)
abline(h=0.5, col="red", lwd=2)

hist(est5)

hist(est10)

hist(est15)

hist(est20)

hist(est30)

hist(est50)

hist(est60)

hist(est100)

hist(est200)

hist(est500)

qqnorm(est5, pch = 1)
qqline(est5, col = "steelblue", lwd = 2)

qqnorm(est10, pch = 1)
qqline(est10, col = "green", lwd = 2)

qqnorm(est15, pch = 1)
qqline(est15, col = "blue", lwd = 2)

qqnorm(est20, pch = 1)
qqline(est20, col = "orange", lwd = 2)

qqnorm(est30, pch = 1)
qqline(est30, col = "purple", lwd = 2)

qqnorm(est50, pch = 1)
qqline(est50, col = "red", lwd = 2)

qqnorm(est60, pch = 1)
qqline(est60, col = "pink", lwd = 2)

qqnorm(est100, pch = 1)
qqline(est100, col = "yellow", lwd = 2)

qqnorm(est200, pch = 1)
qqline(est200, col = "brown", lwd = 2)

qqnorm(est500, pch = 1)
qqline(est500, col = "orchid", lwd = 2)

shapiro.test(est5)
## 
##  Shapiro-Wilk normality test
## 
## data:  est5
## W = 0.9302, p-value = 1.64e-14
shapiro.test(est10)
## 
##  Shapiro-Wilk normality test
## 
## data:  est10
## W = 0.96502, p-value = 1.548e-09
shapiro.test(est15)
## 
##  Shapiro-Wilk normality test
## 
## data:  est15
## W = 0.97228, p-value = 3.995e-08
shapiro.test(est20)
## 
##  Shapiro-Wilk normality test
## 
## data:  est20
## W = 0.98165, p-value = 6.074e-06
shapiro.test(est30)
## 
##  Shapiro-Wilk normality test
## 
## data:  est30
## W = 0.98634, p-value = 0.0001236
shapiro.test(est50)
## 
##  Shapiro-Wilk normality test
## 
## data:  est50
## W = 0.98703, p-value = 0.0001987
shapiro.test(est60)
## 
##  Shapiro-Wilk normality test
## 
## data:  est60
## W = 0.99214, p-value = 0.009728
shapiro.test(est100)
## 
##  Shapiro-Wilk normality test
## 
## data:  est100
## W = 0.99463, p-value = 0.07748
shapiro.test(est200)
## 
##  Shapiro-Wilk normality test
## 
## data:  est200
## W = 0.99588, p-value = 0.2157
shapiro.test(est500)
## 
##  Shapiro-Wilk normality test
## 
## data:  est500
## W = 0.99687, p-value = 0.4507

Punto 1.e

Repita toda la simulación (puntos a – d) pero ahora con lotes con 10% y 90% de plantas enfermas. Concluya todo el ejercicio.

Anotaciones sobre el punto
Al hacer la simulación con un lote de enfermas y sanas de 90%, se repite el comportamiento que se expresó en los puntos anteriores en cuanto a variabilidad y normalidad de los datos. En la medida en que las muestras crecen se va teniendo un comportamiento más cercano al normal y se van haciendo más pequeños los intervalos de confiaza, lo que muestra una precisión en la muestra. Como se expuso en el punto de 1.d
##repetir toda la simulación con población de 10% de plantas enfermas
lote2=c(rep("sanas",900), rep("enfermas",100))

#función de la muestra
calc_sanas10=function(n){
  muestra1=sample(lote2,size= n)
  return(sum(muestra1=="sanas"))
}
#calcular una vez
calc_sanas10(n=100)
## [1] 86
#calular 500 veces
estimador2=sapply(rep(100,500), calc_sanas10)
hist(estimador2)

mean(estimador2)/100
## [1] 0.9011
sd(estimador2/100)
## [1] 0.0281171
boxplot(estimador2)

#Estimadores con muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500.

est2.5 = sapply(rep(5,500),calc_sanas10)
est2.10 = sapply(rep(10,500),calc_sanas10)
est2.15 = sapply(rep(15,500),calc_sanas10)
est2.20 = sapply(rep(20,500),calc_sanas10)
est2.30 = sapply(rep(30,500),calc_sanas10)
est2.50 = sapply(rep(50,500),calc_sanas10)
est2.60 = sapply(rep(60,500),calc_sanas10)
est2.100 = sapply(rep(100,500),calc_sanas10)
est2.200 = sapply(rep(200,500),calc_sanas10)
est2.500 = sapply(rep(500,500),calc_sanas10)

resd1=data.frame(est2.5/5,est2.10/10,est2.15/15,est2.20/20,est2.30/30,est2.50/50,est2.60/60,est2.100/100,est2.200/200,est2.500/500)
boxplot(resd1)
abline(h=0.9, col="red", lwd=2)

hist(est2.5)

hist(est2.10)

hist(est2.15)

hist(est2.20)

hist(est2.30)

hist(est2.50)

hist(est2.60)

hist(est2.100)

hist(est2.200)

hist(est2.500)

qqnorm(est2.5, pch = 1)
qqline(est2.5, col = "steelblue", lwd = 2)

qqnorm(est2.10, pch = 1)
qqline(est2.10, col = "green", lwd = 2)

qqnorm(est2.15, pch = 1)
qqline(est2.15, col = "blue", lwd = 2)

qqnorm(est2.20, pch = 1)
qqline(est2.20, col = "orange", lwd = 2)

qqnorm(est2.30, pch = 1)
qqline(est2.30, col = "purple", lwd = 2)

qqnorm(est2.50, pch = 1)
qqline(est2.50, col = "red", lwd = 2)

qqnorm(est2.60, pch = 1)
qqline(est2.60, col = "pink", lwd = 2)

qqnorm(est2.100, pch = 1)
qqline(est2.100, col = "yellow", lwd = 2)

qqnorm(est2.200, pch = 1)
qqline(est2.200, col = "brown", lwd = 2)

qqnorm(est2.500, pch = 1)
qqline(est2.500, col = "orchid", lwd = 2)

shapiro.test(est2.5)
## 
##  Shapiro-Wilk normality test
## 
## data:  est2.5
## W = 0.72444, p-value < 2.2e-16
shapiro.test(est2.10)
## 
##  Shapiro-Wilk normality test
## 
## data:  est2.10
## W = 0.84865, p-value < 2.2e-16
shapiro.test(est2.15)
## 
##  Shapiro-Wilk normality test
## 
## data:  est2.15
## W = 0.89168, p-value < 2.2e-16
shapiro.test(est2.20)
## 
##  Shapiro-Wilk normality test
## 
## data:  est2.20
## W = 0.93066, p-value = 1.852e-14
shapiro.test(est2.30)
## 
##  Shapiro-Wilk normality test
## 
## data:  est2.30
## W = 0.95176, p-value = 1.049e-11
shapiro.test(est2.50)
## 
##  Shapiro-Wilk normality test
## 
## data:  est2.50
## W = 0.97104, p-value = 2.226e-08
shapiro.test(est2.60)
## 
##  Shapiro-Wilk normality test
## 
## data:  est2.60
## W = 0.97564, p-value = 2.137e-07
shapiro.test(est2.100)
## 
##  Shapiro-Wilk normality test
## 
## data:  est2.100
## W = 0.98674, p-value = 0.0001622
shapiro.test(est2.200)
## 
##  Shapiro-Wilk normality test
## 
## data:  est2.200
## W = 0.99025, p-value = 0.002151
shapiro.test(est2.500)
## 
##  Shapiro-Wilk normality test
## 
## data:  est2.500
## W = 0.98969, p-value = 0.001394

Punto 2

La comparación de tratamientos es una practica fundamental en las ciencias agropecuarias y para esto a nivel estadístico se cuenta con algunas herramientas para apoyar el proceso de toma de decisiones y lograr concluir con algún grado de confianza que los resultados observados en una muestra son representativos y se pueden asociar a los tratamientos y no se deben únicamente al azar. Por medio una simulación validemos algunos de estos resultados.

Punto 2.a

Suponga un escenario en el cual usted aplicó tratamientos diferentes a dos lotes y desea analizar si alguno de los dos presenta un mejor desempeño en el control de una plaga presente en ambos al momento inicial. Para ello utilizara como criterio de desempeño el tratamiento que menor % de plantas enfermas presente después de un tiempo de aplicación (es decir si se presentan o no diferencias en las proporciones de enfermos P1 y P2). Realice una simulación en la cual genere dos poblaciones de N1=1000 (Lote1) y N2=1500 (Lote2) además asuma que el porcentaje de individuos (plantas) enfermas en ambos lotes sea la misma 10% (es decir sin diferencias entre los tratamientos).

Anotaciones sobre el punto
A continuación, se presentan los dos lotes con 10% de enfermas, el primero con un N=1000 y otro con N=1500.

A continuación se presenta el código para la creación de los dos lotes con 10% de plantas enfermas.

lotetra1=c(rep("sanas",900),rep("enfermas",100))
lotetra2=c(rep("sanas",1350),rep("enfermas",150))

Punto 2.b

Genere una función que permita obtener una muestra aleatoria de los lotes y calcule el estimador de la proporción muestral para cada lote (p1 y p2) para un tamaño de muestra dado n1=n2. Calcule la diferencia entre los estimadores p1-p2.

Anotaciones sobre el punto
Ahora se presentan las funciones para obtener las muestras aleatorias de ambos lotes. Lo que muestra la comparación de los estimadores que salen de ambas muestras con n=100, es que no hay una diferencia entre ambos lotes en cuanto a la cantidad de plantas enfermas. Esto ya que en en el intervalo de confianza se encuentra contenido el 0.
calc_enfer1 = function(n){
  muestreo1=sample(lotetra1, size=n)
  return(sum(muestreo1=="enfermas"))
}
calc_enfer2=function(n){
  muestreo2=sample(lotetra2, size=n)
  return(sum(muestreo2=="enfermas"))
}

estenf1 <- calc_enfer1(n=100)
estenf2 <- calc_enfer2(n=100)

prop.test(x=c(estenf1,estenf2), n=c(100,100),conf.level = 0.95)
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(estenf1, estenf2) out of c(100, 100)
## X-squared = 0.37375, df = 1, p-value = 0.541
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.06601823  0.14601823
## sample estimates:
## prop 1 prop 2 
##   0.16   0.12

Punto 2.c

Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores (diferencias p1-p2). ¿Qué tan simétricos son los datos?, ¿Son siempre cero las diferencias?.

Anotaciones sobre el punto

Si se observa el comportamiento de la simulación de 500 veces entre ambas muestras, se ve que aunque en el histograma empieza a visualizarse una distribución normal, con el test de Shapiro y gráfico de qq no logran tener un comportamiento normal.

Ahora, en cuanto a la comparación de las proporciones, tal como está construidos los lotes, no hay una diferencia entre ellos. Esto en tanto el intervalo de confianza contiene el 0. Sin embargo, esto no significa que en ciertos casos cuando las muestras dan datos que se alejan del parámetro, el test dé que la probabilidad de que no haya diferencia sea muy baja o que no de cero. Lo que lleva a concluir que aunque no existen diferencias en los lotes, en determinadas muestras la diferencia puedaa no dar cero.

estimacion1=sapply(rep(100,500), calc_enfer1)
estimacion2=sapply(rep(100,500), calc_enfer2)
hist(estimacion1)

mean(estimacion1)
## [1] 10.028
sd(estimacion1)
## [1] 2.849466
boxplot(estimacion1)

hist(estimacion2)

mean(estimacion2)/100
## [1] 0.10078
sd(estimacion2/100)
## [1] 0.02920441
boxplot(estimacion2)

resestim=data.frame(estimacion1,estimacion2,(estimacion1-estimacion2))
prop.test(x=c((mean(estimacion1)),(mean(estimacion2))),n=c(100,100), conf.level=0.95)
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c((mean(estimacion1)), (mean(estimacion2))) out of c(100, 100)
## X-squared = 1.2959e-30, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.08434972  0.08334972
## sample estimates:
##  prop 1  prop 2 
## 0.10028 0.10078
hist(resestim$X.estimacion1...estimacion2.)

boxplot(resestim$estimacion1,resestim$estimacion2,resestim$X.estimacion1...estimacion2.)
abline(h=0, col="red", lwd=1)

qqnorm(estimacion1, pch = 1)
qqline(estimacion1, col = "steelblue", lwd = 2)

qqnorm(estimacion2, pch = 1)
qqline(estimacion2, col = "green", lwd = 2)

shapiro.test(estimacion1)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion1
## W = 0.98637, p-value = 0.000126
shapiro.test(estimacion2)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion2
## W = 0.98704, p-value = 0.0002001

Punto 2.d

Realice los puntos b y c para tamaños de muestra n1=n2=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores (p1-p2) en cuanto a la normalidad. También analice el comportamiento de las diferencias y evalué si. ¿Considera que es mas probable concluir que existen diferencias entre los tratamientos con muestras grandes que pequeñas, es decir cual considera usted que es el efecto del tamaño de muestra en el caso de la comparación de proporciones?.

Anotaciones sobre el punto

En cuanto a los resultados de los estimadores en los distintos tamaños de muestras, se evidencia que al igual que el desarrollo del punto 1, en la medida en que las muestras van aumentando el comportamiento de los distintos indicadores se va acercando más a un comportamiento simétrico.

Ahora bien, esto va en línea con que si las muestrras son más grandes se cuenta con mayor certeza para establecer si existen o no diferencias entre los lotes que se analizan. Las muestras más grandes dan mayor precisión para hacer la comparación. Esto lleva a una tensión en el desarrollo de estos procesos. Si se cuenta con una muestra muy pequeña se aumenta el riesgo de tomar decisiones que no sean apropiadas. Si se cuenta con una muestra muy grande, puede hacer muy dispendioso y costoso (medido en recursos, tiempo, etc.), lo cual puede reducir su viabilidad. Esto lleva a la necesidad de determinar el riesgo que se desea asumir de acuerdo con las condiciones del caso que se quiera hacer.

##ESCENARIO n:5

estenf51 <- calc_enfer1(n=5)
estenf52 <- calc_enfer2(n=5)
prop.test(x=c(estenf51,estenf52), n=c(5,5),conf.level = 0.95)
## Warning in prop.test(x = c(estenf51, estenf52), n = c(5, 5), conf.level = 0.95):
## Chi-squared approximation may be incorrect
## 
##  2-sample test for equality of proportions without continuity correction
## 
## data:  c(estenf51, estenf52) out of c(5, 5)
## X-squared = NaN, df = 1, p-value = NA
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  0 0
## sample estimates:
## prop 1 prop 2 
##      0      0
estimacion51=sapply(rep(5,500), calc_enfer1)
estimacion52=sapply(rep(5,500), calc_enfer2)
hist(estimacion51)

mean(estimacion51/5)
## [1] 0.104
sd(estimacion51/5)
## [1] 0.1383556
boxplot(estimacion51)

hist(estimacion52)

mean(estimacion52)
## [1] 0.46
sd(estimacion52)
## [1] 0.649032
boxplot(estimacion52)

resestim51=data.frame(estimacion51/5,estimacion52/5,((estimacion51/5)-(estimacion52/5)))
prop.test(x=c((mean(estimacion51)),(mean(estimacion52))),n=c(5,5), conf.level=0.95)
## Warning in prop.test(x = c((mean(estimacion51)), (mean(estimacion52))), : Chi-
## squared approximation may be incorrect
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c((mean(estimacion51)), (mean(estimacion52))) out of c(5, 5)
## X-squared = 1.1561e-31, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.3684732  0.3924732
## sample estimates:
## prop 1 prop 2 
##  0.104  0.092
hist(resestim51$X..estimacion51.5.....estimacion52.5..)

boxplot(resestim51$estimacion51, resestim51$estimacion52, resestim51$X.estimacion51...estimacion52.)
abline(h=0, col="red", lwd=1)

qqnorm(estimacion51, pch = 1)
qqline(estimacion51, col = "steelblue", lwd = 2)

qqnorm(estimacion52, pch = 1)
qqline(estimacion52, col = "green", lwd = 2)

shapiro.test(estimacion51)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion51
## W = 0.71536, p-value < 2.2e-16
shapiro.test(estimacion52)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion52
## W = 0.6819, p-value < 2.2e-16
##ESCENARIO n:10
estenf101 <- calc_enfer1(n=10)
estenf102 <- calc_enfer2(n=10)
prop.test(x=c(estenf101,estenf102), n=c(10,10),conf.level = 0.95)
## Warning in prop.test(x = c(estenf101, estenf102), n = c(10, 10), conf.level =
## 0.95): Chi-squared approximation may be incorrect
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(estenf101, estenf102) out of c(10, 10)
## X-squared = 0, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.1859385  0.3859385
## sample estimates:
## prop 1 prop 2 
##    0.1    0.0
estimacion101=sapply(rep(10,500), calc_enfer1)
estimacion102=sapply(rep(10,500), calc_enfer2)
hist(estimacion101)

mean(estimacion101/10)
## [1] 0.1034
sd(estimacion101/10)
## [1] 0.09500786
boxplot(estimacion101)

hist(estimacion102)

mean(estimacion102)
## [1] 1.076
sd(estimacion102)
## [1] 0.985986
boxplot(estimacion102)

resestim101=data.frame(estimacion101/10,estimacion102/10,((estimacion101/10)-(estimacion102/10)))
prop.test(x=c((mean(estimacion101)),(mean(estimacion102))),n=c(10,10), conf.level=0.95)
## Warning in prop.test(x = c((mean(estimacion101)), (mean(estimacion102))), : Chi-
## squared approximation may be incorrect
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c((mean(estimacion101)), (mean(estimacion102))) out of c(10, 10)
## X-squared = 2.0411e-31, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.2776585  0.2692585
## sample estimates:
## prop 1 prop 2 
## 0.1034 0.1076
hist(resestim101$X..estimacion101.10.....estimacion102.10..)

boxplot(resestim101$estimacion101,resestim101$estimacion102,resestim101$X.estimacion101...estimacion102.)
abline(h=0, col="red", lwd=1)

qqnorm(estimacion101, pch = 1)
qqline(estimacion101, col = "steelblue", lwd = 2)

qqnorm(estimacion102, pch = 1)
qqline(estimacion102, col = "green", lwd = 2)

shapiro.test(estimacion101)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion101
## W = 0.85025, p-value < 2.2e-16
shapiro.test(estimacion102)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion102
## W = 0.83344, p-value < 2.2e-16
##ESCENARIO n:15
estenf151 <- calc_enfer1(n=15)
estenf152 <- calc_enfer2(n=15)
prop.test(x=c(estenf151,estenf152), n=c(15,15),conf.level = 0.95)
## Warning in prop.test(x = c(estenf151, estenf152), n = c(15, 15), conf.level =
## 0.95): Chi-squared approximation may be incorrect
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(estenf151, estenf152) out of c(15, 15)
## X-squared = 0, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.3467072  0.2133739
## sample estimates:
##     prop 1     prop 2 
## 0.06666667 0.13333333
estimacion151=sapply(rep(15,500), calc_enfer1)
estimacion152=sapply(rep(15,500), calc_enfer2)
hist(estimacion151)

mean(estimacion151/15)
## [1] 0.102
sd(estimacion151/15)
## [1] 0.07865208
boxplot(estimacion151)

hist(estimacion152)

mean(estimacion152)
## [1] 1.452
sd(estimacion152)
## [1] 1.174075
boxplot(estimacion152)

resestim151=data.frame(estimacion151/15,estimacion152/15,((estimacion151/15)-(estimacion152/15)))
prop.test(x=c((mean(estimacion151)),(mean(estimacion152))),n=c(15,15), conf.level=0.95)
## Warning in prop.test(x = c((mean(estimacion151)), (mean(estimacion152))), : Chi-
## squared approximation may be incorrect
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c((mean(estimacion151)), (mean(estimacion152))) out of c(15, 15)
## X-squared = 5.0681e-31, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.2141215  0.2245215
## sample estimates:
## prop 1 prop 2 
## 0.1020 0.0968
hist(resestim151$X..estimacion151.15.....estimacion152.15..)

boxplot(resestim151$estimacion151,resestim151$estimacion152,resestim151$X..estimacion151.15.....estimacion152.15..)
abline(h=0, col="red", lwd=1)

qqnorm(estimacion151, pch = 1)
qqline(estimacion151, col = "steelblue", lwd = 2)

qqnorm(estimacion152, pch = 1)
qqline(estimacion152, col = "green", lwd = 2)

shapiro.test(estimacion151)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion151
## W = 0.90259, p-value < 2.2e-16
shapiro.test(estimacion152)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion152
## W = 0.89134, p-value < 2.2e-16
##ESCENARIO n:20
estenf201 <- calc_enfer1(n=20)
estenf202 <- calc_enfer2(n=20)
prop.test(x=c(estenf201,estenf202), n=c(20,20),conf.level = 0.95)
## Warning in prop.test(x = c(estenf201, estenf202), n = c(20, 20), conf.level =
## 0.95): Chi-squared approximation may be incorrect
## 
##  2-sample test for equality of proportions without continuity correction
## 
## data:  c(estenf201, estenf202) out of c(20, 20)
## X-squared = 0, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.1350812  0.1350812
## sample estimates:
## prop 1 prop 2 
##   0.05   0.05
estimacion201=sapply(rep(20,500), calc_enfer1)
estimacion202=sapply(rep(20,500), calc_enfer2)
hist(estimacion201)

mean(estimacion201/20)
## [1] 0.1014
sd(estimacion201/20)
## [1] 0.06257693
boxplot(estimacion201)

hist(estimacion202)

mean(estimacion202)
## [1] 1.998
sd(estimacion202)
## [1] 1.321169
boxplot(estimacion202)

resestim201=data.frame(estimacion201/20,estimacion202/20,((estimacion201/20)-(estimacion202/20)))
prop.test(x=c((mean(estimacion201)),(mean(estimacion202))),n=c(20,20), conf.level=0.95)
## Warning in prop.test(x = c((mean(estimacion201)), (mean(estimacion202))), : Chi-
## squared approximation may be incorrect
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c((mean(estimacion201)), (mean(estimacion202))) out of c(20, 20)
## X-squared = 5.2894e-31, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.1864739  0.1894739
## sample estimates:
## prop 1 prop 2 
## 0.1014 0.0999
hist(resestim201$X..estimacion201.20.....estimacion202.20..)

boxplot(resestim201$estimacion201,resestim201$estimacion202,resestim201$X..estimacion201.20.....estimacion202.20..)
abline(h=0, col="red", lwd=1)

qqnorm(estimacion201, pch = 1)
qqline(estimacion201, col = "steelblue", lwd = 2)

qqnorm(estimacion202, pch = 1)
qqline(estimacion202, col = "green", lwd = 2)

shapiro.test(estimacion201)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion201
## W = 0.93113, p-value = 2.1e-14
shapiro.test(estimacion202)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion202
## W = 0.9173, p-value = 6.502e-16
##ESCENARIO n:30
estenf301 <- calc_enfer1(n=30)
estenf302 <- calc_enfer2(n=30)
prop.test(x=c(estenf301,estenf302), n=c(30,30),conf.level = 0.95)
## Warning in prop.test(x = c(estenf301, estenf302), n = c(30, 30), conf.level =
## 0.95): Chi-squared approximation may be incorrect
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(estenf301, estenf302) out of c(30, 30)
## X-squared = 0.26786, df = 1, p-value = 0.6048
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.22510151  0.09176818
## sample estimates:
##     prop 1     prop 2 
## 0.03333333 0.10000000
estimacion301=sapply(rep(30,500), calc_enfer1)
estimacion302=sapply(rep(30,500), calc_enfer2)
hist(estimacion301)

mean(estimacion301/30)
## [1] 0.09906667
sd(estimacion301/30)
## [1] 0.05408307
boxplot(estimacion301)

hist(estimacion302)

mean(estimacion302)
## [1] 2.978
sd(estimacion302)
## [1] 1.561535
boxplot(estimacion302)

resestim301=data.frame(estimacion301/30,estimacion302/30,((estimacion301/30)-(estimacion302/30)))
prop.test(x=c((mean(estimacion301)),(mean(estimacion302))),n=c(30,30), conf.level=0.95)
## Warning in prop.test(x = c((mean(estimacion301)), (mean(estimacion302))), : Chi-
## squared approximation may be incorrect
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c((mean(estimacion301)), (mean(estimacion302))) out of c(30, 30)
## X-squared = 9.3466e-31, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.1516542  0.1512542
## sample estimates:
##     prop 1     prop 2 
## 0.09906667 0.09926667
hist(resestim301$X..estimacion301.30.....estimacion302.30..)

boxplot(resestim301$estimacion301,resestim301$estimacion302,resestim301$X..estimacion301.30.....estimacion302.30..)
abline(h=0, col="red", lwd=1)

qqnorm(estimacion301, pch = 1)
qqline(estimacion301, col = "steelblue", lwd = 2)

qqnorm(estimacion302, pch = 1)
qqline(estimacion302, col = "green", lwd = 2)

shapiro.test(estimacion301)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion301
## W = 0.95475, p-value = 2.978e-11
shapiro.test(estimacion302)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion302
## W = 0.93942, p-value = 2.141e-13
##ESCENARIO n:50
estenf501 <- calc_enfer1(n=50)
estenf502 <- calc_enfer2(n=50)
prop.test(x=c(estenf501,estenf502), n=c(50,50),conf.level = 0.95)
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(estenf501, estenf502) out of c(50, 50)
## X-squared = 3.1476e-32, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.1225879  0.1625879
## sample estimates:
## prop 1 prop 2 
##   0.12   0.10
estimacion501=sapply(rep(50,500), calc_enfer1)
estimacion502=sapply(rep(50,500), calc_enfer2)
hist(estimacion501)

mean(estimacion501/50)
## [1] 0.09928
sd(estimacion501/50)
## [1] 0.03959061
boxplot(estimacion501)

hist(estimacion502)

mean(estimacion502)
## [1] 5.098
sd(estimacion502)
## [1] 2.132015
boxplot(estimacion502)

resestim501=data.frame(estimacion501/50,estimacion502/50,((estimacion501/50)-(estimacion502/50)))
prop.test(x=c((mean(estimacion501)),(mean(estimacion502))),n=c(50,50), conf.level=0.95)
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c((mean(estimacion501)), (mean(estimacion502))) out of c(50, 50)
## X-squared = 8.8608e-32, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.12328  0.11792
## sample estimates:
##  prop 1  prop 2 
## 0.09928 0.10196
hist(resestim501$X..estimacion501.50.....estimacion502.50..)

boxplot(resestim501$estimacion501,resestim501$estimacion502,resestim501$X..estimacion501.50.....estimacion502.50..)
abline(h=0, col="red", lwd=1)

qqnorm(estimacion501, pch = 1)
qqline(estimacion501, col = "steelblue", lwd = 2)

qqnorm(estimacion502, pch = 1)
qqline(estimacion502, col = "green", lwd = 2)

shapiro.test(estimacion501)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion501
## W = 0.9698, p-value = 1.255e-08
shapiro.test(estimacion502)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion502
## W = 0.97723, p-value = 4.944e-07
##ESCENARIO n:60
estenf601 <- calc_enfer1(n=60)
estenf602 <- calc_enfer2(n=60)
prop.test(x=c(estenf601,estenf602), n=c(60,60),conf.level = 0.95)
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(estenf601, estenf602) out of c(60, 60)
## X-squared = 0, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.1365464  0.1032131
## sample estimates:
##     prop 1     prop 2 
## 0.08333333 0.10000000
estimacion601=sapply(rep(60,500), calc_enfer1)
estimacion602=sapply(rep(60,500), calc_enfer2)
hist(estimacion601)

mean(estimacion601/60)
## [1] 0.09956667
sd(estimacion601/60)
## [1] 0.03651074
boxplot(estimacion601)

hist(estimacion602)

mean(estimacion602)
## [1] 5.972
sd(estimacion602)
## [1] 2.375395
boxplot(estimacion602)

resestim601=data.frame(estimacion601/60,estimacion602/60,((estimacion601/60)-(estimacion602/60)))
prop.test(x=c((mean(estimacion601)),(mean(estimacion602))),n=c(60,60), conf.level=0.95)
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c((mean(estimacion601)), (mean(estimacion602))) out of c(60, 60)
## X-squared = 5.9898e-31, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.1071366  0.1072033
## sample estimates:
##     prop 1     prop 2 
## 0.09956667 0.09953333
hist(resestim601$X..estimacion601.60.....estimacion602.60..)

boxplot(resestim601$estimacion601,resestim601$estimacion602,resestim601$X..estimacion601.60.....estimacion602.60..)
abline(h=0, col="red", lwd=1)

qqnorm(estimacion601, pch = 1)
qqline(estimacion601, col = "steelblue", lwd = 2)

qqnorm(estimacion602, pch = 1)
qqline(estimacion602, col = "green", lwd = 2)

shapiro.test(estimacion601)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion601
## W = 0.97408, p-value = 9.654e-08
shapiro.test(estimacion602)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion602
## W = 0.97244, p-value = 4.325e-08
##ESCENARIO n:100
estenf1001 <- calc_enfer1(n=100)
estenf1002 <- calc_enfer2(n=100)
prop.test(x=c(estenf1001,estenf1002), n=c(100,100),conf.level = 0.95)
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(estenf1001, estenf1002) out of c(100, 100)
## X-squared = 0.055556, df = 1, p-value = 0.8137
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.11310802  0.07310802
## sample estimates:
## prop 1 prop 2 
##   0.09   0.11
estimacion1001=sapply(rep(100,500), calc_enfer1)
estimacion1002=sapply(rep(100,500), calc_enfer2)
hist(estimacion1001)

mean(estimacion1001/100)
## [1] 0.10128
sd(estimacion1001/100)
## [1] 0.02779761
boxplot(estimacion1001)

hist(estimacion1002)

mean(estimacion1002)
## [1] 9.962
sd(estimacion1002)
## [1] 2.907484
boxplot(estimacion1002)

resestim1001=data.frame(estimacion1001/100,estimacion1002/100,((estimacion1001/100)-(estimacion1002/100)))
prop.test(x=c((mean(estimacion1001)),(mean(estimacion1002))),n=c(100,100), conf.level=0.95)
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c((mean(estimacion1001)), (mean(estimacion1002))) out of c(100, 100)
## X-squared = 7.8729e-32, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.08331996  0.08663996
## sample estimates:
##  prop 1  prop 2 
## 0.10128 0.09962
hist(resestim1001$X..estimacion1001.100.....estimacion1002.100..)

boxplot(resestim1001$estimacion1001,resestim1001$estimacion1002,resestim1001$X..estimacion1001.100.....estimacion1002.100..)
abline(h=0, col="red", lwd=1)

qqnorm(estimacion1001, pch = 1)
qqline(estimacion1001, col = "steelblue", lwd = 2)

qqnorm(estimacion1002, pch = 1)
qqline(estimacion1002, col = "green", lwd = 2)

shapiro.test(estimacion1001)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion1001
## W = 0.98721, p-value = 0.0002261
shapiro.test(estimacion1002)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion1002
## W = 0.98753, p-value = 0.0002827
##ESCENARIO n:200
estenf2001 <- calc_enfer1(n=200)
estenf2002 <- calc_enfer2(n=200)
prop.test(x=c(estenf2001,estenf2002), n=c(200,200),conf.level = 0.95)
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(estenf2001, estenf2002) out of c(200, 200)
## X-squared = 0.69444, df = 1, p-value = 0.4047
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.09372537  0.03372537
## sample estimates:
## prop 1 prop 2 
##  0.085  0.115
estimacion2001=sapply(rep(200,500), calc_enfer1)
estimacion2002=sapply(rep(200,500), calc_enfer2)
hist(estimacion2001)

mean(estimacion2001/200)
## [1] 0.09874
sd(estimacion2001/200)
## [1] 0.01989734
boxplot(estimacion2001)

hist(estimacion2002)

mean(estimacion2002)
## [1] 19.676
sd(estimacion2002)
## [1] 3.973235
boxplot(estimacion2002)

resestim2001=data.frame(estimacion2001/200,estimacion2002/200,((estimacion2001/200)-(estimacion2002/200)))
prop.test(x=c((mean(estimacion2001)),(mean(estimacion2002))),n=c(200,200), conf.level=0.95)
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c((mean(estimacion2001)), (mean(estimacion2002))) out of c(200, 200)
## X-squared = 3.4684e-34, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.0584207  0.0591407
## sample estimates:
##  prop 1  prop 2 
## 0.09874 0.09838
hist(resestim2001$X..estimacion2001.200.....estimacion2002.200..)

boxplot(resestim2001$estimacion2001,resestim2001$estimacion2002,resestim2001$X..estimacion2001.200.....estimacion2002.200..)
abline(h=0, col="red", lwd=1)

qqnorm(estimacion2001, pch = 1)
qqline(estimacion2001, col = "steelblue", lwd = 2)

qqnorm(estimacion2002, pch = 1)
qqline(estimacion2002, col = "green", lwd = 2)

shapiro.test(estimacion2001)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion2001
## W = 0.99233, p-value = 0.01138
shapiro.test(estimacion2002)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion2002
## W = 0.9923, p-value = 0.01106
##ESCENARIO n:500
estenf5001 <- calc_enfer1(n=500)
estenf5002 <- calc_enfer2(n=500)
prop.test(x=c(estenf5001,estenf5002), n=c(500,500),conf.level = 0.95)
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(estenf5001, estenf5002) out of c(500, 500)
## X-squared = 0.011523, df = 1, p-value = 0.9145
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.0425164  0.0345164
## sample estimates:
## prop 1 prop 2 
##  0.094  0.098
estimacion5001=sapply(rep(500,500), calc_enfer1)
estimacion5002=sapply(rep(500,500), calc_enfer2)
hist(estimacion5001)

mean(estimacion5001/500)
## [1] 0.100412
sd(estimacion5001/500)
## [1] 0.009824015
boxplot(estimacion5001)

hist(estimacion5002)

mean(estimacion5002)
## [1] 50.572
sd(estimacion5002)
## [1] 5.628871
boxplot(estimacion5002)

resestim5001=data.frame(estimacion5001/500,estimacion5002/500,((estimacion5001/500)-(estimacion5002/500)))
prop.test(x=c((mean(estimacion5001)),(mean(estimacion5002))),n=c(500,500), conf.level=0.95)
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c((mean(estimacion5001)), (mean(estimacion5002))) out of c(500, 500)
## X-squared = 7.4007e-31, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.03877992  0.03731592
## sample estimates:
##   prop 1   prop 2 
## 0.100412 0.101144
hist(resestim5001$X..estimacion5001.500.....estimacion5002.500..)

boxplot(resestim5001$estimacion5001,resestim5001$estimacion5002,resestim5001$X..estimacion5001.500.....estimacion5002.500..)
abline(h=0, col="red", lwd=1)

qqnorm(estimacion5001, pch = 1)
qqline(estimacion5001, col = "steelblue", lwd = 2)

qqnorm(estimacion5002, pch = 1)
qqline(estimacion5002, col = "green", lwd = 2)

shapiro.test(estimacion5001)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion5001
## W = 0.9935, p-value = 0.03003
shapiro.test(estimacion5002)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion5002
## W = 0.99321, p-value = 0.02347

Punto 2.e

Ahora realice nuevamente los puntos a-d bajo un escenario con dos lotes pero de proporciones de enfermos diferentes (P1=0.1 y P2=0.15), es decir el tratamiento del lote 1 si presento un mejor desempeño reduciendo en un 5% el porcentaje de enfermos. Bajo este nuevo escenario compare la distribución de estas diferencias (p1-p2) con las observadas bajo igualdad de condiciones en los lotes. ¿Qué puede concluir? ¿Existen puntos en los cuales es posible que se observen diferencias de p1- p2 bajo ambos escenarios (escenario 1: sin diferencias entre P1 y P2, escenario 2: diferencia de 5%)?.

Conclusión

En la medida en que las muestras crecen, se reducen los intervalos de confianza, y permite llegar a conclusiones más precisas sobre las diferencias entre lotes. Esto tiene efecto tanto para los escenarios en donde no existan diferencias como las que no las hay. En el escenario 1 de esta simulación, en donde no hay diferencias, una muestra pequeña puede llevar a inferir que existen diferencias cuando no las hay. En el escenario 2, en donde existe una diferencia de 5%, una muestra pequeña, puede llevar a interpretar que no existe diferencia entre los lotes, cuando si lo hay.

Lo que evidencian estos casos, es que en la medida en que las muestras sean más grandes, mejor interpretación se puede hacer con los estimadores y su relación con el parámetro.

Anotaciones sobre el punto
Si se hace la comparación entre los dos lotes, con diferencias, se evidencia que en un sentido estricto parar un caso de n=100, se debería aceptar que no hay diferencia entre ambos lotes. Sin embargo, que los resultados estén tan cerca al 0 en el positivo y tan alejado el negativo, llevan a la necesidad de tomar con precausión el hallazgo. Aunque en el estándar debería asumirse que no hay diferencias.
lotetra.1=c(rep("sanas",900),rep("enfermas",100))
lotetra.2=c(rep("sanas",1275),rep("enfermas",225))
##PUNTO 2.B CREACIÓN DE FUNCIONES PARA MUESTRA Y DIFERENCIA DE PROPORCIÓN
calc_enfer.1 = function(n){
  muestreo.1=sample(lotetra.1, size=n)
  return(sum(muestreo.1=="enfermas"))
}
calc_enfer.2=function(n){
  muestreo.2=sample(lotetra.2, size=n)
  return(sum(muestreo.2=="enfermas"))
}

estenf.1 <- calc_enfer.1(n=100)
estenf.2 <- calc_enfer.2(n=100)

prop.test(x=c(estenf.1,estenf.2), n=c(100,100),conf.level = 0.95)
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(estenf.1, estenf.2) out of c(100, 100)
## X-squared = 10.961, df = 1, p-value = 0.0009304
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.27174223 -0.06825777
## sample estimates:
## prop 1 prop 2 
##   0.05   0.22
Anotaciones sobre el punto
Al igual que el anterior con una sola muestra, los resultados muestran que en este caso se debería asumir que no hay difererencia.
##PUNTO 2.C REPETIR 500 VECES
estimacion.1=sapply(rep(100,500), calc_enfer.1)
estimacion.2=sapply(rep(100,500), calc_enfer.2)
hist(estimacion.1)

mean(estimacion.1/100)
## [1] 0.10032
sd(estimacion.1/100)
## [1] 0.02789721
boxplot(estimacion.1)

hist(estimacion.2)

mean(estimacion.2/100)
## [1] 0.14846
sd(estimacion.2/100)
## [1] 0.03347341
boxplot(estimacion.2)

resestim.=data.frame(estimacion.1/100,estimacion.2/100,((estimacion.1/100)-(estimacion.2/100)))
prop.test(x=c((mean(estimacion.1)),(mean(estimacion.2))),n=c(100,100), conf.level=0.95)
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c((mean(estimacion.1)), (mean(estimacion.2))) out of c(100, 100)
## X-squared = 0.66778, df = 1, p-value = 0.4138
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.14937322  0.05309322
## sample estimates:
##  prop 1  prop 2 
## 0.10032 0.14846
hist(resestim.$X..estimacion.1.100.....estimacion.2.100..)

boxplot(resestim.$estimacion.1,resestim.$estimacion.2,resestim.$X..estimacion.1.100.....estimacion.2.100..)
abline(h=0, col="red", lwd=1)

qqnorm(estimacion.1, pch = 1)
qqline(estimacion.1, col = "steelblue", lwd = 2)

qqnorm(estimacion.2, pch = 1)
qqline(estimacion.2, col = "green", lwd = 2)

shapiro.test(estimacion.1)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion.1
## W = 0.98386, p-value = 2.385e-05
shapiro.test(estimacion.2)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion.2
## W = 0.98678, p-value = 0.0001674
Anotaciones sobre el punto
## PUNTO 2.C Repetir con n1=n2=5, 10, 15, 20, 30, 50, 60, 100, 200, 500
##ESCENARIO n:5

estenf.51 <- calc_enfer.1(n=5)
estenf.52 <- calc_enfer.2(n=5)
prop.test(x=c(estenf.51,estenf.52), n=c(5,5),conf.level = 0.95)
## Warning in prop.test(x = c(estenf.51, estenf.52), n = c(5, 5), conf.level =
## 0.95): Chi-squared approximation may be incorrect
## 
##  2-sample test for equality of proportions without continuity correction
## 
## data:  c(estenf.51, estenf.52) out of c(5, 5)
## X-squared = 0, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.495836  0.495836
## sample estimates:
## prop 1 prop 2 
##    0.2    0.2
estimacion.51=sapply(rep(5,500), calc_enfer.1)
estimacion.52=sapply(rep(5,500), calc_enfer.2)
hist(estimacion.51)

mean(estimacion.51/5)
## [1] 0.0988
sd(estimacion.51/5)
## [1] 0.1348887
boxplot(estimacion.51)

hist(estimacion.52)

mean(estimacion.52/5)
## [1] 0.1472
sd(estimacion.52/5)
## [1] 0.1527705
boxplot(estimacion.52)

resestim.51=data.frame(estimacion.51/5,estimacion.52/5,((estimacion.51/5)-(estimacion.52/5)))
prop.test(x=c((mean(estimacion.51)),(mean(estimacion.52))),n=c(5,5), conf.level=0.95)
## Warning in prop.test(x = c((mean(estimacion.51)), (mean(estimacion.52))), : Chi-
## squared approximation may be incorrect
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c((mean(estimacion.51)), (mean(estimacion.52))) out of c(5, 5)
## X-squared = 8.995e-32, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.5028208  0.4060208
## sample estimates:
## prop 1 prop 2 
## 0.0988 0.1472
hist(resestim.51$X..estimacion.51.5.....estimacion.52.5..)

boxplot(resestim.51$estimacion.51, resestim.51$estimacion.52, resestim.51$X..estimacion.51.5.....estimacion.52.5..)
abline(h=0, col="red", lwd=1)

qqnorm(estimacion.51, pch = 1)
qqline(estimacion.51, col = "steelblue", lwd = 2)

qqnorm(estimacion.52, pch = 1)
qqline(estimacion.52, col = "green", lwd = 2)

shapiro.test(estimacion.51)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion.51
## W = 0.70315, p-value < 2.2e-16
shapiro.test(estimacion.52)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion.52
## W = 0.79268, p-value < 2.2e-16
##ESCENARIO n:10
estenf.101 <- calc_enfer.1(n=10)
estenf.102 <- calc_enfer.2(n=10)
prop.test(x=c(estenf.101,estenf.102), n=c(10,10),conf.level = 0.95)
## Warning in prop.test(x = c(estenf.101, estenf.102), n = c(10, 10), conf.level =
## 0.95): Chi-squared approximation may be incorrect
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(estenf.101, estenf.102) out of c(10, 10)
## X-squared = 1.3148e-32, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.3770066  0.5770066
## sample estimates:
## prop 1 prop 2 
##    0.3    0.2
estimacion.101=sapply(rep(10,500), calc_enfer.1)
estimacion.102=sapply(rep(10,500), calc_enfer.2)
hist(estimacion.101)

mean(estimacion.101/10)
## [1] 0.1046
sd(estimacion.101/10)
## [1] 0.09173697
boxplot(estimacion.101)

hist(estimacion.102)

mean(estimacion.102/10)
## [1] 0.1486
sd(estimacion.102/10)
## [1] 0.116125
boxplot(estimacion.102)

resestim.101=data.frame(estimacion.101/10,estimacion.102/10,((estimacion.101/10)-(estimacion.102/10)))
prop.test(x=c((mean(estimacion.101)),(mean(estimacion.102))),n=c(10,10), conf.level=0.95)
## Warning in prop.test(x = c((mean(estimacion.101)), (mean(estimacion.102))), :
## Chi-squared approximation may be incorrect
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c((mean(estimacion.101)), (mean(estimacion.102))) out of c(10, 10)
## X-squared = 8.8749e-32, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.3788265  0.2908265
## sample estimates:
## prop 1 prop 2 
## 0.1046 0.1486
hist(resestim.101$X..estimacion.101.10.....estimacion.102.10..)

boxplot(resestim.101$estimacion.101,resestim.101$estimacion.102,resestim.101$X..estimacion.101.10.....estimacion.102.10..)
abline(h=0, col="red", lwd=1)

qqnorm(estimacion.101, pch = 1)
qqline(estimacion.101, col = "steelblue", lwd = 2)

qqnorm(estimacion.102, pch = 1)
qqline(estimacion.102, col = "green", lwd = 2)

shapiro.test(estimacion.101)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion.101
## W = 0.85081, p-value < 2.2e-16
shapiro.test(estimacion.102)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion.102
## W = 0.89414, p-value < 2.2e-16
##ESCENARIO n:15
estenf.151 <- calc_enfer.1(n=15)
estenf.152 <- calc_enfer.2(n=15)
prop.test(x=c(estenf.151,estenf.152), n=c(15,15),conf.level = 0.95)
## Warning in prop.test(x = c(estenf.151, estenf.152), n = c(15, 15), conf.level =
## 0.95): Chi-squared approximation may be incorrect
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(estenf.151, estenf.152) out of c(15, 15)
## X-squared = 0, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.3467072  0.2133739
## sample estimates:
##     prop 1     prop 2 
## 0.06666667 0.13333333
estimacion.151=sapply(rep(15,500), calc_enfer.1)
estimacion.152=sapply(rep(15,500), calc_enfer.2)
hist(estimacion.151)

mean(estimacion.151/15)
## [1] 0.09866667
sd(estimacion.151/15)
## [1] 0.07471761
boxplot(estimacion.151)

hist(estimacion.152)

mean(estimacion.152/15)
## [1] 0.1570667
sd(estimacion.152/15)
## [1] 0.08775545
boxplot(estimacion.152)

resestim.151=data.frame(estimacion.151/15,estimacion.152/15,((estimacion.151/15)-(estimacion.152/15)))
prop.test(x=c((mean(estimacion.151)),(mean(estimacion.152))),n=c(15,15), conf.level=0.95)
## Warning in prop.test(x = c((mean(estimacion.151)), (mean(estimacion.152))), :
## Chi-squared approximation may be incorrect
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c((mean(estimacion.151)), (mean(estimacion.152))) out of c(15, 15)
## X-squared = 1.2814e-31, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.3548789  0.2380789
## sample estimates:
##     prop 1     prop 2 
## 0.09866667 0.15706667
hist(resestim.151$X..estimacion.151.15.....estimacion.152.15..)

boxplot(resestim.151$estimacion.151,resestim.151$estimacion.152,resestim.151$X..estimacion.151.15.....estimacion.152.15..)
abline(h=0, col="red", lwd=1)

qqnorm(estimacion.151, pch = 1)
qqline(estimacion.151, col = "steelblue", lwd = 2)

qqnorm(estimacion.152, pch = 1)
qqline(estimacion.152, col = "green", lwd = 2)

shapiro.test(estimacion.151)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion.151
## W = 0.89954, p-value < 2.2e-16
shapiro.test(estimacion.152)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion.152
## W = 0.93732, p-value = 1.166e-13
##ESCENARIO n:20
estenf.201 <- calc_enfer.1(n=20)
estenf.202 <- calc_enfer.2(n=20)
prop.test(x=c(estenf.201,estenf.202), n=c(20,20),conf.level = 0.95)
## Warning in prop.test(x = c(estenf.201, estenf.202), n = c(20, 20), conf.level =
## 0.95): Chi-squared approximation may be incorrect
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(estenf.201, estenf.202) out of c(20, 20)
## X-squared = 1.7647, df = 1, p-value = 0.184
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.46245503  0.06245503
## sample estimates:
## prop 1 prop 2 
##   0.05   0.25
estimacion.201=sapply(rep(20,500), calc_enfer.1)
estimacion.202=sapply(rep(20,500), calc_enfer.2)
hist(estimacion.201)

mean(estimacion.201/20)
## [1] 0.0981
sd(estimacion.201/20)
## [1] 0.06648481
boxplot(estimacion.201)

hist(estimacion.202)

mean(estimacion.202)
## [1] 2.984
sd(estimacion.202)
## [1] 1.593997
boxplot(estimacion.202)

resestim.201=data.frame(estimacion.201/20,estimacion.202/20,((estimacion.201/20)-(estimacion.202/20)))
prop.test(x=c((mean(estimacion.201)),(mean(estimacion.202))),n=c(20,20), conf.level=0.95)
## Warning in prop.test(x = c((mean(estimacion.201)), (mean(estimacion.202))), :
## Chi-squared approximation may be incorrect
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c((mean(estimacion.201)), (mean(estimacion.202))) out of c(20, 20)
## X-squared = 0.00011166, df = 1, p-value = 0.9916
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.3045098  0.2023098
## sample estimates:
## prop 1 prop 2 
## 0.0981 0.1492
hist(resestim.201$X..estimacion.201.20.....estimacion.202.20..)

boxplot(resestim.201$estimacion.201,resestim.201$estimacion.202,resestim.201$X..estimacion.201.20.....estimacion.202.20..)
abline(h=0, col="red", lwd=1)

qqnorm(estimacion.201, pch = 1)
qqline(estimacion.201, col = "steelblue", lwd = 2)

qqnorm(estimacion.202, pch = 1)
qqline(estimacion.202, col = "green", lwd = 2)

shapiro.test(estimacion.201)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion.201
## W = 0.92597, p-value = 5.454e-15
shapiro.test(estimacion.202)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion.202
## W = 0.95471, p-value = 2.933e-11
##ESCENARIO n:30
estenf.301 <- calc_enfer.1(n=30)
estenf.302 <- calc_enfer.2(n=30)
prop.test(x=c(estenf.301,estenf.302), n=c(30,30),conf.level = 0.95)
## Warning in prop.test(x = c(estenf.301, estenf.302), n = c(30, 30), conf.level =
## 0.95): Chi-squared approximation may be incorrect
## 
##  2-sample test for equality of proportions without continuity correction
## 
## data:  c(estenf.301, estenf.302) out of c(30, 30)
## X-squared = 0, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.1518182  0.1518182
## sample estimates:
## prop 1 prop 2 
##    0.1    0.1
estimacion.301=sapply(rep(30,500), calc_enfer.1)
estimacion.302=sapply(rep(30,500), calc_enfer.2)
hist(estimacion.301)

mean(estimacion.301/30)
## [1] 0.1006
sd(estimacion.301/30)
## [1] 0.05239399
boxplot(estimacion.301)

hist(estimacion.302)

mean(estimacion.302/30)
## [1] 0.1488
sd(estimacion.302/30)
## [1] 0.06453423
boxplot(estimacion.302)

resestim.301=data.frame(estimacion.301/30,estimacion.302/30,((estimacion.301/30)-(estimacion.302/30)))
prop.test(x=c((mean(estimacion.301)),(mean(estimacion.302))),n=c(30,30), conf.level=0.95)
## Warning in prop.test(x = c((mean(estimacion.301)), (mean(estimacion.302))), :
## Chi-squared approximation may be incorrect
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c((mean(estimacion.301)), (mean(estimacion.302))) out of c(30, 30)
## X-squared = 0.030374, df = 1, p-value = 0.8616
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.2482794  0.1518794
## sample estimates:
## prop 1 prop 2 
## 0.1006 0.1488
hist(resestim.301$X..estimacion.301.30.....estimacion.302.30..)

boxplot(resestim.301$estimacion.301,resestim.301$estimacion.302,resestim.301$X..estimacion.301.30.....estimacion.302.30..)
abline(h=0, col="red", lwd=1)

qqnorm(estimacion.301, pch = 1)
qqline(estimacion.301, col = "steelblue", lwd = 2)

qqnorm(estimacion.302, pch = 1)
qqline(estimacion.302, col = "green", lwd = 2)

shapiro.test(estimacion.301)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion.301
## W = 0.9534, p-value = 1.848e-11
shapiro.test(estimacion.302)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion.302
## W = 0.96861, p-value = 7.308e-09
##ESCENARIO n:50
estenf.501 <- calc_enfer.1(n=50)
estenf.502 <- calc_enfer.2(n=50)
prop.test(x=c(estenf.501,estenf.502), n=c(50,50),conf.level = 0.95)
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(estenf.501, estenf.502) out of c(50, 50)
## X-squared = 2.7778, df = 1, p-value = 0.09558
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.25522188  0.01522188
## sample estimates:
## prop 1 prop 2 
##   0.04   0.16
estimacion.501=sapply(rep(50,500), calc_enfer.1)
estimacion.502=sapply(rep(50,500), calc_enfer.2)
hist(estimacion.501)

mean(estimacion.501/50)
## [1] 0.1
sd(estimacion.501/50)
## [1] 0.04035911
boxplot(estimacion.501)

hist(estimacion.502/50)

mean(estimacion.502/50)
## [1] 0.14916
sd(estimacion.502)
## [1] 2.526064
boxplot(estimacion.502)

resestim.501=data.frame(estimacion.501/50,estimacion.502/50,((estimacion.501/50)-(estimacion.502/50)))
prop.test(x=c((mean(estimacion.501)),(mean(estimacion.502))),n=c(50,50), conf.level=0.95)
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c((mean(estimacion.501)), (mean(estimacion.502))) out of c(50, 50)
## X-squared = 0.19492, df = 1, p-value = 0.6589
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.19825344  0.09993344
## sample estimates:
##  prop 1  prop 2 
## 0.10000 0.14916
hist(resestim.501$X..estimacion.501.50.....estimacion.502.50..)

boxplot(resestim.501$estimacion.501,resestim.501$estimacion.502,resestim.501$X..estimacion.501.50.....estimacion.502.50..)
abline(h=0, col="red", lwd=1)

qqnorm(estimacion.501, pch = 1)
qqline(estimacion.501, col = "steelblue", lwd = 2)

qqnorm(estimacion.502, pch = 1)
qqline(estimacion.502, col = "green", lwd = 2)

shapiro.test(estimacion.501)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion.501
## W = 0.96838, p-value = 6.593e-09
shapiro.test(estimacion.502)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion.502
## W = 0.98479, p-value = 4.344e-05
##ESCENARIO n:60
estenf.601 <- calc_enfer.1(n=60)
estenf.602 <- calc_enfer.2(n=60)
prop.test(x=c(estenf.601,estenf.602), n=c(60,60),conf.level = 0.95)
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(estenf.601, estenf.602) out of c(60, 60)
## X-squared = 0.06, df = 1, p-value = 0.8065
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.1832252  0.1165586
## sample estimates:
##    prop 1    prop 2 
## 0.1500000 0.1833333
estimacion.601=sapply(rep(60,500), calc_enfer.1)
estimacion.602=sapply(rep(60,500), calc_enfer.2)
hist(estimacion.601)

mean(estimacion.601/60)
## [1] 0.09736667
sd(estimacion.601/60)
## [1] 0.03724926
boxplot(estimacion.601)

hist(estimacion.602/60)

mean(estimacion.602/60)
## [1] 0.1472667
sd(estimacion.602)
## [1] 2.730571
boxplot(estimacion.602)

resestim.601=data.frame(estimacion.601/60,estimacion.602/60,((estimacion.601/60)-(estimacion.602/60)))
prop.test(x=c((mean(estimacion.601)),(mean(estimacion.602))),n=c(60,60), conf.level=0.95)
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c((mean(estimacion.601)), (mean(estimacion.602))) out of c(60, 60)
## X-squared = 0.30864, df = 1, p-value = 0.5785
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.18347256  0.08367256
## sample estimates:
##     prop 1     prop 2 
## 0.09736667 0.14726667
hist(resestim.601$X..estimacion.601.60.....estimacion.602.60..)

boxplot(resestim.601$estimacion.601,resestim.601$estimacion.602,resestim.601$X..estimacion.601.60.....estimacion.602.60..)
abline(h=0, col="red", lwd=1)

qqnorm(estimacion.601, pch = 1)
qqline(estimacion.601, col = "steelblue", lwd = 2)

qqnorm(estimacion.602, pch = 1)
qqline(estimacion.602, col = "green", lwd = 2)

shapiro.test(estimacion.601)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion.601
## W = 0.97635, p-value = 3.093e-07
shapiro.test(estimacion.602)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion.602
## W = 0.98117, p-value = 4.545e-06
##ESCENARIO n:100
estenf.1001 <- calc_enfer.1(n=100)
estenf.1002 <- calc_enfer.2(n=100)
prop.test(x=c(estenf.1001,estenf.1002), n=c(100,100),conf.level = 0.95)
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(estenf.1001, estenf.1002) out of c(100, 100)
## X-squared = 1.4519, df = 1, p-value = 0.2282
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.17711221  0.03711221
## sample estimates:
## prop 1 prop 2 
##   0.11   0.18
estimacion.1001=sapply(rep(100,500), calc_enfer.1)
estimacion.1002=sapply(rep(100,500), calc_enfer.2)
hist(estimacion.1001)

mean(estimacion.1001/100)
## [1] 0.10106
sd(estimacion.1001/100)
## [1] 0.0273674
boxplot(estimacion.1001)

hist(estimacion.1002)

mean(estimacion.1002/100)
## [1] 0.15008
sd(estimacion.1002/100)
## [1] 0.03382724
boxplot(estimacion.1002)

resestim.1001=data.frame(estimacion.1001/100,estimacion.1002/100,((estimacion.1001/100)-(estimacion.1002/100)))
prop.test(x=c((mean(estimacion.1001)),(mean(estimacion.1002))),n=c(100,100), conf.level=0.95)
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c((mean(estimacion.1001)), (mean(estimacion.1002))) out of c(100, 100)
## X-squared = 0.69332, df = 1, p-value = 0.405
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.15061616  0.05257616
## sample estimates:
##  prop 1  prop 2 
## 0.10106 0.15008
hist(resestim.1001$X..estimacion.1001.100.....estimacion.1002.100..)

boxplot(resestim.1001$estimacion.1001,resestim.1001$estimacion.1002,resestim.1001$X..estimacion.1001.100.....estimacion.1002.100..)
abline(h=0, col="red", lwd=1)

qqnorm(estimacion.1001, pch = 1)
qqline(estimacion.1001, col = "steelblue", lwd = 2)

qqnorm(estimacion.1002, pch = 1)
qqline(estimacion.1002, col = "green", lwd = 2)

shapiro.test(estimacion.1001)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion.1001
## W = 0.98633, p-value = 0.0001221
shapiro.test(estimacion.1002)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion.1002
## W = 0.99087, p-value = 0.003485
##ESCENARIO n:200
estenf.2001 <- calc_enfer.1(n=200)
estenf.2002 <- calc_enfer.2(n=200)
prop.test(x=c(estenf.2001,estenf.2002), n=c(200,200),conf.level = 0.95)
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(estenf.2001, estenf.2002) out of c(200, 200)
## X-squared = 0.86794, df = 1, p-value = 0.3515
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.10302054  0.03302054
## sample estimates:
## prop 1 prop 2 
##  0.100  0.135
estimacion.2001=sapply(rep(200,500), calc_enfer.1)
estimacion.2002=sapply(rep(200,500), calc_enfer.2)
hist(estimacion.2001)

mean(estimacion.2001/200)
## [1] 0.09872
sd(estimacion.2001/200)
## [1] 0.01894676
boxplot(estimacion.2001)

hist(estimacion.2002)

mean(estimacion.2002/200)
## [1] 0.14895
sd(estimacion.2002/200)
## [1] 0.02362549
boxplot(estimacion.2002)

resestim.2001=data.frame(estimacion.2001/200,estimacion.2002/200,((estimacion.2001/200)-(estimacion.2002/200)))
prop.test(x=c((mean(estimacion.2001)),(mean(estimacion.2002))),n=c(200,200), conf.level=0.95)
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c((mean(estimacion.2001)), (mean(estimacion.2002))) out of c(200, 200)
## X-squared = 1.8855, df = 1, p-value = 0.1697
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.11960195  0.01914195
## sample estimates:
##  prop 1  prop 2 
## 0.09872 0.14895
hist(resestim.2001$X..estimacion.2001.200.....estimacion.2002.200..)

boxplot(resestim.2001$estimacion.2001,resestim.2001$estimacion.2002,resestim.2001$X..estimacion.2001.200.....estimacion.2002.200..)
abline(h=0, col="red", lwd=1)

qqnorm(estimacion.2001, pch = 1)
qqline(estimacion.2001, col = "steelblue", lwd = 2)

qqnorm(estimacion.2002, pch = 1)
qqline(estimacion.2002, col = "green", lwd = 2)

shapiro.test(estimacion.2001)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion.2001
## W = 0.99012, p-value = 0.001948
##ESCENARIO n:500
estenf.5001 <- calc_enfer.1(n=500)
estenf.5002 <- calc_enfer.2(n=500)
prop.test(x=c(estenf.5001,estenf.5002), n=c(500,500),conf.level = 0.95)
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(estenf.5001, estenf.5002) out of c(500, 500)
## X-squared = 2.2201, df = 1, p-value = 0.1362
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.07804057  0.01004057
## sample estimates:
## prop 1 prop 2 
##  0.116  0.150
estimacion.5001=sapply(rep(500,500), calc_enfer.1)
estimacion.5002=sapply(rep(500,500), calc_enfer.2)
hist(estimacion.5001)

mean(estimacion.5001/500)
## [1] 0.099772
sd(estimacion.5001/500)
## [1] 0.009268432
boxplot(estimacion.5001)

hist(estimacion.5002)

mean(estimacion.5002/500)
## [1] 0.149916
sd(estimacion.5002/500)
## [1] 0.01291381
boxplot(estimacion.5002)

resestim.5001=data.frame(estimacion.5001/500,estimacion.5002/500,((estimacion.5001/500)-(estimacion.5002/500)))
prop.test(x=c((mean(estimacion.5001)),(mean(estimacion.5002))),n=c(500,500), conf.level=0.95)
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c((mean(estimacion.5001)), (mean(estimacion.5002))) out of c(500, 500)
## X-squared = 5.3036, df = 1, p-value = 0.02128
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.092999612 -0.007288388
## sample estimates:
##   prop 1   prop 2 
## 0.099772 0.149916
hist(resestim.5001$X..estimacion.5001.500.....estimacion.5002.500..)

boxplot(resestim.5001$estimacion.5001,resestim.5001$estimacion.5002,resestim.5001$X..estimacion.5001.500.....estimacion.5002.500..)
abline(h=0, col="red", lwd=1)

qqnorm(estimacion.5001, pch = 1)
qqline(estimacion.5001, col = "steelblue", lwd = 2)

qqnorm(estimacion.5002, pch = 1)
qqline(estimacion.5002, col = "green", lwd = 2)

shapiro.test(estimacion.5001)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion.5001
## W = 0.99419, p-value = 0.05374
shapiro.test(estimacion.5002)
## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion.5002
## W = 0.9942, p-value = 0.05397

Punto 3

Con base a los artículos “Statistical Errors: P values, the gold standard of statistical validity, are not as reliable as many scientists assume” escriba un resumen (máximo 2 paginas) sobre el artículos e incluya en este sus opiniones en cuanto al uso del valor p.

Reseña de: ““Statistical Errors: P values, the gold standard of statistical validity, are not as reliable as many scientists assume” de Regia Nuzo (2014)

El caso de Matt Motyl en 2010, en un estudio sobre extremismo político, muestra la necesidad de pensar y repensar sobre el uso del valor P para evaluar evidencia. En su caso, su evidencia estaba sustentada en un resultado 0.01, que es visto tradicionalmente como muy significativo. Sin embargo, cuando quisieron replicar el estudio, el valor P fue de 0.59, Muy lejos de la significancia del 0.05. El problema no residía en los análisis o datos, estaba en las características del valor P. No resulta ser tan fiable ni objetivo como se supondría mayoritariamente.

Incluso, en 2005 John Ionnidis de la Universidad de Stanford sugirió que la mayoría de los hallazgos publicados son falsos. Lo que implica repensar la forma en que se evalúan los resultados de las investigaciones científicas. Sin embargo, los problemas y críticas de los valores P no es algo nuevo. Desde su creación en 1920 por Ronald Fisher, se ha cuestionado su utilidad. Neyman, por ejemplo, lo consideraba un enfoque “peor que inútil”. Lo paradójico, es que su creador no lo consideraba como una prueba definitiva. En su diseño, estuvo pensado como una prueba informal de juzgar si la evidencia era significativa y ameritaba una segunda mirada. En su propuesta, el valor P debía ser una fase de un proceso para llegar a conclusiones científicas y no el fin del análisis.

Ignorando estas discusiones, distintos autores de manuales y libros de estadística, que combinaba la visión de Fisher sobre un valor P fácil y los sistemas de reglas de Neyman y Pearson. Lo que dio origen al valor de 0.05 como “estadísticamente significativo”. Lo que pueden hacer los valores P es resumir datos asumiendo una hipótesis nula específica, y no logra hacer afirmaciones sobre la realidad que le subyace. Poder dar cuenta de esto, requeriría otros enfoques o información. Un punto esencial, es tener en cuenta las probabilidades de que se dé un efecto real.

Entre más inverosímil es la hipótesis que se someta a prueba, más alta será la posibilidad de tener una falsa alarma aunque sea “estadísticamente significativa”. Las falsas alarmas son complejas cuando se hace uso del valor P. Según cálculos presentados en la lectura, si hay valor P de 0.01, tiene al menos un riesgo de 11% de falsa alarma. Cuando el valor es 0.05 es de al menos el 29%.

Otros de los problemas que puede traer consigo el uso acrítico de los valores P, es que pueden inducir a pensamientos confusos. Puede que el valor sea significativo en el estándar usado, pero el efecto real sea mínimo. Lo que lleve a valorar conclusiones de forma errada. Esto se relaciona con lo que Geoff Cumming valora como la seducción de la importancia. Para esto, plantea que la significancia estadística no es un buen indicador de relevancia práctica. En sus términos “Deberíamos estar preguntandonos, ‘¿Cuánto de un efecto hay?’, no ‘¿Hay un efecto?’”.

Pero quizá, el punto en el que es más complejo con el uso de este valor, es el autoengaño de los investigadores. En este caso, se refieren al “P-hacking” que es la prueba de distintas mediciones hasta lograr el resultado esperado, aunque sea de forma inconsciente. Poder estimar cuál es el impacto del “P-hacking” en las investigaciones, pero Simonsohn considera que es alto. Él ha encontrado en un análisis de estudios de sicología, que muchos reportes dan como resultados de valor P que se agrupan sospechosamente cerca del 0.05. Lo que indicaría que los autores pudieron estar al acecho de valores significativos hasta que los encontraron. Lo que indica que el uso sigue siendo popular.

En cuanto a posibles alternativas que se pueden usar, y se mencionan en la lectura, para ayudar a los investigadores, están: 1) que se informen los tamaños del efecto e intervalos de confianza que logran trasmitir la magnitud e importancia relativa del efecto, lo que el valor P no hace; 2) reemplazar el valor P con modelos bayesianos que piensan la probabilidad como la plausibilidad de un resultado y no en la frecuencia potencial de ese resultado; 3) otros optan por un enfoque en el que se prueben simultáneamente varios métodos con los mismos datos; 4) es que los autores sean transparentes en sus investigaciones y publiquen toco como el tamaño de muestra, las exclusiones de datos y las manipulaciones; y 5) hacer el análisis en dos etapas que permite libertad y flexibilidad en los análisis, y a la vez tiene suficiente rigor para reducir la cantidad de falsas alarmas.

Opiniones sobre el artículo y el valor P luego de la lectura

La importancia que ha ganado el valor P es indiscutible. Incluso, hasta antes de entrar a la maestría, con mi conocimiento sobre estadística y la formación que me dieron en el pregrado, nunca fue puesto en duda su utilidad. Nunca se cuestionó sus límites o problemas para realizar inferencias estadísticas. Lo que me resulta más llamativo, es poder hacer un llamado a complementar las aproximaciones, con distintas herramientas de análisis, con el fin de fomentar una discusión sobre los resultados de las investigaciones. Esto es en favor del conocimiento, ajustado a los datos y los efectos que se quieren analizar.

No por ser un resultado sexy, debe ser utilizado. El afán no debe ser validar las ideas previas que tenemos, ni demostrar de manera espuria un modelo conceptual que no se corresponde con los datos. La tarea está en poder construir análisis que sean lo suficientemente rigurosos para llegar a conclusiones ciertas, y que respondan a las realidades. En este sentido, las alarmas sobre el valor P, no es para desestimar su uso. Es complementarlo y usar distintas herramientas que permitan estudiar los casos desde sus distintas aristas.

Poder contar con las herramientas necesarias, para que la información y resultados de las inferencias sean suficientes para tomar decisiones. El valor P es parte pero no el fin en estos análisis. Replicar los estudios, usar distintas herramientas, transparentar los procesamientos de datos, son solo algunos de los caminos para fomentar las discusiones estadísticas. Es necesario reconocer las posibilidades y límites de las herramientas de análisis que se utilizan. No es dejar de usarlas, es saber que nos dicen y sobre esto, tomar decisiones consientes sobre lo que nos dicen los datos.