Taller 2: Inferencia estadística y simulación

Punto 1

El Teorema del Limite Central es uno de los mas importantes en la inferencia estadística y habla sobre la convergencia de los estimadores como la proporción muestral a la distribución normal. Algunos autores afirman que esta aproximación es bastante buena a partir del umbral n>30.

Punto 1.a

Realice una simulación en la cual genere una población de N=1000 (Lote) y además que el porcentaje de individuos (plantas) enfermas es del 50%.

Anotaciones sobre el punto
A continuación se presenta el código para la creación del lote:

lote1=c(rep("sanas",500), rep("enfermas",500))

Punto 1.b

Genere una función que permita obtener una muestra aleatoria de la población y calcule el estimador de la proporción muestral para un tamaño de muestra dado n.

Anotaciones sobre el punto
A continuación se presenta el código de la función de la muestra, así como su uso en un n=100 y el análisis de proporción muestral. Lo que muestran los resultados del prop.test es que para la muestra da un resultado de 52% de sanas, con un intervalo entre 42% y 62%. La muestra se encuentra cerca al parámetro del 50% con el que está construido el lote y el intervalo de confianza lo contiene.

A continuación se presenta el código de la función de la muestra, así como su uso en un n=100 y el análisis de proporción muestral. Lo que muestran los resultados del prop.test es que para la muestra da un resultado de 52% de sanas, con un intervalo entre 42% y 62%. La muestra se encuentra cerca al parámetro del 50% con el que está construido el lote y el intervalo de confianza lo contiene.

#función de la muestra
calc_sanas=function(n){
muestra=sample(lote1,size= n)
return(sum(muestra=="sanas"))
}
#calcular una vez
estim=calc_sanas(n=100)
prop.test(x=(estim), n=100, conf.level = 0.95)

## 
##  1-sample proportions test with continuity correction
## 
## data:  (estim) out of 100, null probability 0.5
## X-squared = 0.81, df = 1, p-value = 0.3681
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.4475426 0.6485719
## sample estimates:
##    p 
## 0.55

Punto 1.c

Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores. ¿Qué tan simétricos son los datos?, ¿Son sesgados y que pasa en cuanto a variabilidad?.

Anotaciones sobre el punto
Los datos de la simulación con las 500 veces, permiten observar que los datos no presentan un sesgo. Los resultados del estimador (50.2%) están sobre el parámetro (50%). Adicionalmente, frente a la variabilidad de los datos, aunque habría que definir lo aceptable, en este caso con una desviación estándar de 4.6% y un intervalo entre 40.4% y 60%, podría decir que aunque existe esta no es muy alta. Respecto con la simetría de los datos, si se observa el histograma el comportamiento de las muestras en esta simulación tiende a tener un comportamiento normal. Lo que tiende a la simetría de los datos.

Los datos de la simulación con las 500 veces, permiten observar que los datos no presentan un sesgo. Los resultados del estimador (50.2%) están sobre el parámetro (50%). Adicionalmente, frente a la variabilidad de los datos, aunque habría que definir lo aceptable, en este caso con una desviación estándar de 4.6% y un intervalo entre 40.4% y 60%, podría decir que aunque existe esta no es muy alta.

Respecto con la simetría de los datos, si se observa el histograma el comportamiento de las muestras en esta simulación tiende a tener un comportamiento normal. Lo que tiende a la simetría de los datos.

estimador1=sapply(rep(100,500), calc_sanas)
hist(estimador1)

sd(estimador1/100)

## [1] 0.04918942

boxplot(estimador1/100, main="Estimador con 500 vueltas y n=100")
abline(h=0.5, col="red",lwd= 2)

prop.test(x=mean(estimador1),n=100, conf.level=0.95)

## 
##  1-sample proportions test with continuity correction
## 
## data:  mean(estimador1) out of 100, null probability 0.5
## X-squared = 0, df = 1, p-value = 1
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.4038315 0.5996329
## sample estimates:
##      p 
## 0.5018

Punto 1.d

Realice los ejercicios completos b y c para tamaños de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores en cuanto a la normalidad. Investigue y utilice pruebas de bondad y ajuste (shapiro wilks) y métodos gráficos (grafico qq de normalidad).

Anotaciones sobre el punto
Al realizar la simulación con distintos tamaños de muestra, entre 5 y 500, hay al menos dos conclusiones que se pueden sacar. Una asociada a la variabilidad y los intervalos de confianza y cómo va reduciéndose en la medida en que la muestra se hace más grande, aunque todas las muestras incluyen el parámetro. La segunda, es que la normalidad de los datos también se va presentando en la medida en que la muestra crece, lo que iría en línea para confirmar el teorema del límite central. En cuanto a la variabilidad y reducción de los intervalos de confianza, el gráfico de cajas y bigotes de las distintas muestras, evidencia que todas incluyen el parámetror pero el intervalo de confianza va reduciéndose en la medida en que la muestra se hace más grande. Lo que podría decirse, como que la muestra se hace más preciso. Otro punto que muestra, es que aunque la reducción del error se presenta siempre que se aumenta la muestra, cuando se llegan a puntos como el salto de un n=200 a uno de 500, la reducción no es tan significativa como entre 5 y 100. Lo que evidencia que si se desea reducir mucho las muestras, el crecimiento del tamaño de muestra debe ser acelerado; lo que puede tener impactos en la viabilidad de hacerlas. Por su parte, en cuanto a normalidad, lo que muestran las gráficas de qq y el test de Shapiro, es que en la medida en que la muestra crece los datos van teniendo cada vez un comportamiento más normal. Los gráficos de qq en n=5 evidencia mucha dispersión de los datos sobre la línea, mientras que la de 500 se va concentrando sobre la línea. Esto lo demuestra el test de shapiro. En el primer tamaño de muestra es de 1.292e-14 y en el de 500 es de 0.1829 (lo que supera el 0.05 para determinar el comportamiento normal)

Al realizar la simulación con distintos tamaños de muestra, entre 5 y 500, hay al menos dos conclusiones que se pueden sacar. Una asociada a la variabilidad y los intervalos de confianza y cómo va reduciéndose en la medida en que la muestra se hace más grande, aunque todas las muestras incluyen el parámetro. La segunda, es que la normalidad de los datos también se va presentando en la medida en que la muestra crece, lo que iría en línea para confirmar el teorema del límite central.

En cuanto a la variabilidad y reducción de los intervalos de confianza, el gráfico de cajas y bigotes de las distintas muestras, evidencia que todas incluyen el parámetror pero el intervalo de confianza va reduciéndose en la medida en que la muestra se hace más grande. Lo que podría decirse, como que la muestra se hace más preciso. Otro punto que muestra, es que aunque la reducción del error se presenta siempre que se aumenta la muestra, cuando se llegan a puntos como el salto de un n=200 a uno de 500, la reducción no es tan significativa como entre 5 y 100. Lo que evidencia que si se desea reducir mucho las muestras, el crecimiento del tamaño de muestra debe ser acelerado; lo que puede tener impactos en la viabilidad de hacerlas.

Por su parte, en cuanto a normalidad, lo que muestran las gráficas de qq y el test de Shapiro, es que en la medida en que la muestra crece los datos van teniendo cada vez un comportamiento más normal. Los gráficos de qq en n=5 evidencia mucha dispersión de los datos sobre la línea, mientras que la de 500 se va concentrando sobre la línea. Esto lo demuestra el test de shapiro. En el primer tamaño de muestra es de 1.292e-14 y en el de 500 es de 0.1829 (lo que supera el 0.05 para determinar el comportamiento normal)

est5 = sapply(rep(5,500),calc_sanas)
est10 = sapply(rep(10,500),calc_sanas)
est15 = sapply(rep(15,500),calc_sanas)
est20 = sapply(rep(20,500),calc_sanas)
est30 = sapply(rep(30,500),calc_sanas)
est50 = sapply(rep(50,500),calc_sanas)
est60 = sapply(rep(60,500),calc_sanas)
est100 = sapply(rep(100,500),calc_sanas)
est200 = sapply(rep(200,500),calc_sanas)
est500 = sapply(rep(500,500),calc_sanas)

resd=data.frame(est5/5,est10/10,est15/15,est20/20,est30/30,est50/50,est60/60,est100/100,est200/200,est500/500)
boxplot(resd)
abline(h=0.5, col="red", lwd=2)

hist(est5)

hist(est10)

hist(est15)

hist(est20)

hist(est30)

hist(est50)

hist(est60)

hist(est100)

hist(est200)

hist(est500)

qqnorm(est5, pch = 1)
qqline(est5, col = "steelblue", lwd = 2)

qqnorm(est10, pch = 1)
qqline(est10, col = "green", lwd = 2)

qqnorm(est15, pch = 1)
qqline(est15, col = "blue", lwd = 2)

qqnorm(est20, pch = 1)
qqline(est20, col = "orange", lwd = 2)

qqnorm(est30, pch = 1)
qqline(est30, col = "purple", lwd = 2)

qqnorm(est50, pch = 1)
qqline(est50, col = "red", lwd = 2)

qqnorm(est60, pch = 1)
qqline(est60, col = "pink", lwd = 2)

qqnorm(est100, pch = 1)
qqline(est100, col = "yellow", lwd = 2)

qqnorm(est200, pch = 1)
qqline(est200, col = "brown", lwd = 2)

qqnorm(est500, pch = 1)
qqline(est500, col = "orchid", lwd = 2)

shapiro.test(est5)

## 
##  Shapiro-Wilk normality test
## 
## data:  est5
## W = 0.9302, p-value = 1.64e-14

shapiro.test(est10)

## 
##  Shapiro-Wilk normality test
## 
## data:  est10
## W = 0.96502, p-value = 1.548e-09

shapiro.test(est15)

## 
##  Shapiro-Wilk normality test
## 
## data:  est15
## W = 0.97228, p-value = 3.995e-08

shapiro.test(est20)

## 
##  Shapiro-Wilk normality test
## 
## data:  est20
## W = 0.98165, p-value = 6.074e-06

shapiro.test(est30)

## 
##  Shapiro-Wilk normality test
## 
## data:  est30
## W = 0.98634, p-value = 0.0001236

shapiro.test(est50)

## 
##  Shapiro-Wilk normality test
## 
## data:  est50
## W = 0.98703, p-value = 0.0001987

shapiro.test(est60)

## 
##  Shapiro-Wilk normality test
## 
## data:  est60
## W = 0.99214, p-value = 0.009728

shapiro.test(est100)

## 
##  Shapiro-Wilk normality test
## 
## data:  est100
## W = 0.99463, p-value = 0.07748

shapiro.test(est200)

## 
##  Shapiro-Wilk normality test
## 
## data:  est200
## W = 0.99588, p-value = 0.2157

shapiro.test(est500)

## 
##  Shapiro-Wilk normality test
## 
## data:  est500
## W = 0.99687, p-value = 0.4507

Punto 1.e

Repita toda la simulación (puntos a – d) pero ahora con lotes con 10% y 90% de plantas enfermas. Concluya todo el ejercicio.

Anotaciones sobre el punto
Al hacer la simulación con un lote de enfermas y sanas de 90%, se repite el comportamiento que se expresó en los puntos anteriores en cuanto a variabilidad y normalidad de los datos. En la medida en que las muestras crecen se va teniendo un comportamiento más cercano al normal y se van haciendo más pequeños los intervalos de confiaza, lo que muestra una precisión en la muestra. Como se expuso en el punto de 1.d

Al hacer la simulación con un lote de enfermas y sanas de 90%, se repite el comportamiento que se expresó en los puntos anteriores en cuanto a variabilidad y normalidad de los datos. En la medida en que las muestras crecen se va teniendo un comportamiento más cercano al normal y se van haciendo más pequeños los intervalos de confiaza, lo que muestra una precisión en la muestra. Como se expuso en el punto de 1.d

##repetir toda la simulación con población de 10% de plantas enfermas
lote2=c(rep("sanas",900), rep("enfermas",100))

#función de la muestra
calc_sanas10=function(n){
  muestra1=sample(lote2,size= n)
  return(sum(muestra1=="sanas"))
}
#calcular una vez
calc_sanas10(n=100)

## [1] 86

#calular 500 veces
estimador2=sapply(rep(100,500), calc_sanas10)
hist(estimador2)

mean(estimador2)/100

## [1] 0.9011

sd(estimador2/100)

## [1] 0.0281171

boxplot(estimador2)

#Estimadores con muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500.

est2.5 = sapply(rep(5,500),calc_sanas10)
est2.10 = sapply(rep(10,500),calc_sanas10)
est2.15 = sapply(rep(15,500),calc_sanas10)
est2.20 = sapply(rep(20,500),calc_sanas10)
est2.30 = sapply(rep(30,500),calc_sanas10)
est2.50 = sapply(rep(50,500),calc_sanas10)
est2.60 = sapply(rep(60,500),calc_sanas10)
est2.100 = sapply(rep(100,500),calc_sanas10)
est2.200 = sapply(rep(200,500),calc_sanas10)
est2.500 = sapply(rep(500,500),calc_sanas10)

resd1=data.frame(est2.5/5,est2.10/10,est2.15/15,est2.20/20,est2.30/30,est2.50/50,est2.60/60,est2.100/100,est2.200/200,est2.500/500)
boxplot(resd1)
abline(h=0.9, col="red", lwd=2)

hist(est2.5)

hist(est2.10)

hist(est2.15)

hist(est2.20)

hist(est2.30)

hist(est2.50)

hist(est2.60)

hist(est2.100)

hist(est2.200)

hist(est2.500)

qqnorm(est2.5, pch = 1)
qqline(est2.5, col = "steelblue", lwd = 2)

qqnorm(est2.10, pch = 1)
qqline(est2.10, col = "green", lwd = 2)

qqnorm(est2.15, pch = 1)
qqline(est2.15, col = "blue", lwd = 2)

qqnorm(est2.20, pch = 1)
qqline(est2.20, col = "orange", lwd = 2)

qqnorm(est2.30, pch = 1)
qqline(est2.30, col = "purple", lwd = 2)

qqnorm(est2.50, pch = 1)
qqline(est2.50, col = "red", lwd = 2)

qqnorm(est2.60, pch = 1)
qqline(est2.60, col = "pink", lwd = 2)

qqnorm(est2.100, pch = 1)
qqline(est2.100, col = "yellow", lwd = 2)

qqnorm(est2.200, pch = 1)
qqline(est2.200, col = "brown", lwd = 2)

qqnorm(est2.500, pch = 1)
qqline(est2.500, col = "orchid", lwd = 2)

shapiro.test(est2.5)

## 
##  Shapiro-Wilk normality test
## 
## data:  est2.5
## W = 0.72444, p-value < 2.2e-16

shapiro.test(est2.10)

## 
##  Shapiro-Wilk normality test
## 
## data:  est2.10
## W = 0.84865, p-value < 2.2e-16

shapiro.test(est2.15)

## 
##  Shapiro-Wilk normality test
## 
## data:  est2.15
## W = 0.89168, p-value < 2.2e-16

shapiro.test(est2.20)

## 
##  Shapiro-Wilk normality test
## 
## data:  est2.20
## W = 0.93066, p-value = 1.852e-14

shapiro.test(est2.30)

## 
##  Shapiro-Wilk normality test
## 
## data:  est2.30
## W = 0.95176, p-value = 1.049e-11

shapiro.test(est2.50)

## 
##  Shapiro-Wilk normality test
## 
## data:  est2.50
## W = 0.97104, p-value = 2.226e-08

shapiro.test(est2.60)

## 
##  Shapiro-Wilk normality test
## 
## data:  est2.60
## W = 0.97564, p-value = 2.137e-07

shapiro.test(est2.100)

## 
##  Shapiro-Wilk normality test
## 
## data:  est2.100
## W = 0.98674, p-value = 0.0001622

shapiro.test(est2.200)

## 
##  Shapiro-Wilk normality test
## 
## data:  est2.200
## W = 0.99025, p-value = 0.002151

shapiro.test(est2.500)

## 
##  Shapiro-Wilk normality test
## 
## data:  est2.500
## W = 0.98969, p-value = 0.001394

Punto 2

La comparación de tratamientos es una practica fundamental en las ciencias agropecuarias y para esto a nivel estadístico se cuenta con algunas herramientas para apoyar el proceso de toma de decisiones y lograr concluir con algún grado de confianza que los resultados observados en una muestra son representativos y se pueden asociar a los tratamientos y no se deben únicamente al azar. Por medio una simulación validemos algunos de estos resultados.

Punto 2.a

Suponga un escenario en el cual usted aplicó tratamientos diferentes a dos lotes y desea analizar si alguno de los dos presenta un mejor desempeño en el control de una plaga presente en ambos al momento inicial. Para ello utilizara como criterio de desempeño el tratamiento que menor % de plantas enfermas presente después de un tiempo de aplicación (es decir si se presentan o no diferencias en las proporciones de enfermos P1 y P2). Realice una simulación en la cual genere dos poblaciones de N1=1000 (Lote1) y N2=1500 (Lote2) además asuma que el porcentaje de individuos (plantas) enfermas en ambos lotes sea la misma 10% (es decir sin diferencias entre los tratamientos).

Anotaciones sobre el punto
A continuación, se presentan los dos lotes con 10% de enfermas, el primero con un N=1000 y otro con N=1500.

A continuación se presenta el código para la creación de los dos lotes con 10% de plantas enfermas.

lotetra1=c(rep("sanas",900),rep("enfermas",100))
lotetra2=c(rep("sanas",1350),rep("enfermas",150))

Punto 2.b

Genere una función que permita obtener una muestra aleatoria de los lotes y calcule el estimador de la proporción muestral para cada lote (p1 y p2) para un tamaño de muestra dado n1=n2. Calcule la diferencia entre los estimadores p1-p2.

Anotaciones sobre el punto
Ahora se presentan las funciones para obtener las muestras aleatorias de ambos lotes. Lo que muestra la comparación de los estimadores que salen de ambas muestras con n=100, es que no hay una diferencia entre ambos lotes en cuanto a la cantidad de plantas enfermas. Esto ya que en en el intervalo de confianza se encuentra contenido el 0.

calc_enfer1 = function(n){
  muestreo1=sample(lotetra1, size=n)
  return(sum(muestreo1=="enfermas"))
}
calc_enfer2=function(n){
  muestreo2=sample(lotetra2, size=n)
  return(sum(muestreo2=="enfermas"))
}

estenf1 <- calc_enfer1(n=100)
estenf2 <- calc_enfer2(n=100)

prop.test(x=c(estenf1,estenf2), n=c(100,100),conf.level = 0.95)

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(estenf1, estenf2) out of c(100, 100)
## X-squared = 0.37375, df = 1, p-value = 0.541
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.06601823  0.14601823
## sample estimates:
## prop 1 prop 2 
##   0.16   0.12

Punto 2.c

Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores (diferencias p1-p2). ¿Qué tan simétricos son los datos?, ¿Son siempre cero las diferencias?.

Anotaciones sobre el punto
Si se observa el comportamiento de la simulación de 500 veces entre ambas muestras, se ve que aunque en el histograma empieza a visualizarse una distribución normal, con el test de Shapiro y gráfico de qq no logran tener un comportamiento normal. Ahora, en cuanto a la comparación de las proporciones, tal como está construidos los lotes, no hay una diferencia entre ellos. Esto en tanto el intervalo de confianza contiene el 0. Sin embargo, esto no significa que en ciertos casos cuando las muestras dan datos que se alejan del parámetro, el test dé que la probabilidad de que no haya diferencia sea muy baja o que no de cero. Lo que lleva a concluir que aunque no existen diferencias en los lotes, en determinadas muestras la diferencia puedaa no dar cero.

Si se observa el comportamiento de la simulación de 500 veces entre ambas muestras, se ve que aunque en el histograma empieza a visualizarse una distribución normal, con el test de Shapiro y gráfico de qq no logran tener un comportamiento normal.

Ahora, en cuanto a la comparación de las proporciones, tal como está construidos los lotes, no hay una diferencia entre ellos. Esto en tanto el intervalo de confianza contiene el 0. Sin embargo, esto no significa que en ciertos casos cuando las muestras dan datos que se alejan del parámetro, el test dé que la probabilidad de que no haya diferencia sea muy baja o que no de cero. Lo que lleva a concluir que aunque no existen diferencias en los lotes, en determinadas muestras la diferencia puedaa no dar cero.

estimacion1=sapply(rep(100,500), calc_enfer1)
estimacion2=sapply(rep(100,500), calc_enfer2)
hist(estimacion1)

mean(estimacion1)

## [1] 10.028

sd(estimacion1)

## [1] 2.849466

boxplot(estimacion1)

hist(estimacion2)

mean(estimacion2)/100

## [1] 0.10078

sd(estimacion2/100)

## [1] 0.02920441

boxplot(estimacion2)

resestim=data.frame(estimacion1,estimacion2,(estimacion1-estimacion2))
prop.test(x=c((mean(estimacion1)),(mean(estimacion2))),n=c(100,100), conf.level=0.95)

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c((mean(estimacion1)), (mean(estimacion2))) out of c(100, 100)
## X-squared = 1.2959e-30, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.08434972  0.08334972
## sample estimates:
##  prop 1  prop 2 
## 0.10028 0.10078

hist(resestim$X.estimacion1...estimacion2.)

boxplot(resestim$estimacion1,resestim$estimacion2,resestim$X.estimacion1...estimacion2.)
abline(h=0, col="red", lwd=1)

qqnorm(estimacion1, pch = 1)
qqline(estimacion1, col = "steelblue", lwd = 2)

qqnorm(estimacion2, pch = 1)
qqline(estimacion2, col = "green", lwd = 2)

shapiro.test(estimacion1)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion1
## W = 0.98637, p-value = 0.000126

shapiro.test(estimacion2)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion2
## W = 0.98704, p-value = 0.0002001

Punto 2.d

Realice los puntos b y c para tamaños de muestra n1=n2=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores (p1-p2) en cuanto a la normalidad. También analice el comportamiento de las diferencias y evalué si. ¿Considera que es mas probable concluir que existen diferencias entre los tratamientos con muestras grandes que pequeñas, es decir cual considera usted que es el efecto del tamaño de muestra en el caso de la comparación de proporciones?.

Anotaciones sobre el punto
En cuanto a los resultados de los estimadores en los distintos tamaños de muestras, se evidencia que al igual que el desarrollo del punto 1, en la medida en que las muestras van aumentando el comportamiento de los distintos indicadores se va acercando más a un comportamiento simétrico. Ahora bien, esto va en línea con que si las muestrras son más grandes se cuenta con mayor certeza para establecer si existen o no diferencias entre los lotes que se analizan. Las muestras más grandes dan mayor precisión para hacer la comparación. Esto lleva a una tensión en el desarrollo de estos procesos. Si se cuenta con una muestra muy pequeña se aumenta el riesgo de tomar decisiones que no sean apropiadas. Si se cuenta con una muestra muy grande, puede hacer muy dispendioso y costoso (medido en recursos, tiempo, etc.), lo cual puede reducir su viabilidad. Esto lleva a la necesidad de determinar el riesgo que se desea asumir de acuerdo con las condiciones del caso que se quiera hacer.

En cuanto a los resultados de los estimadores en los distintos tamaños de muestras, se evidencia que al igual que el desarrollo del punto 1, en la medida en que las muestras van aumentando el comportamiento de los distintos indicadores se va acercando más a un comportamiento simétrico.

Ahora bien, esto va en línea con que si las muestrras son más grandes se cuenta con mayor certeza para establecer si existen o no diferencias entre los lotes que se analizan. Las muestras más grandes dan mayor precisión para hacer la comparación. Esto lleva a una tensión en el desarrollo de estos procesos. Si se cuenta con una muestra muy pequeña se aumenta el riesgo de tomar decisiones que no sean apropiadas. Si se cuenta con una muestra muy grande, puede hacer muy dispendioso y costoso (medido en recursos, tiempo, etc.), lo cual puede reducir su viabilidad. Esto lleva a la necesidad de determinar el riesgo que se desea asumir de acuerdo con las condiciones del caso que se quiera hacer.

##ESCENARIO n:5

estenf51 <- calc_enfer1(n=5)
estenf52 <- calc_enfer2(n=5)
prop.test(x=c(estenf51,estenf52), n=c(5,5),conf.level = 0.95)

## Warning in prop.test(x = c(estenf51, estenf52), n = c(5, 5), conf.level = 0.95):
## Chi-squared approximation may be incorrect

## 
##  2-sample test for equality of proportions without continuity correction
## 
## data:  c(estenf51, estenf52) out of c(5, 5)
## X-squared = NaN, df = 1, p-value = NA
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  0 0
## sample estimates:
## prop 1 prop 2 
##      0      0

estimacion51=sapply(rep(5,500), calc_enfer1)
estimacion52=sapply(rep(5,500), calc_enfer2)
hist(estimacion51)

mean(estimacion51/5)

## [1] 0.104

sd(estimacion51/5)

## [1] 0.1383556

boxplot(estimacion51)

hist(estimacion52)

mean(estimacion52)

## [1] 0.46

sd(estimacion52)

## [1] 0.649032

boxplot(estimacion52)

resestim51=data.frame(estimacion51/5,estimacion52/5,((estimacion51/5)-(estimacion52/5)))
prop.test(x=c((mean(estimacion51)),(mean(estimacion52))),n=c(5,5), conf.level=0.95)

## Warning in prop.test(x = c((mean(estimacion51)), (mean(estimacion52))), : Chi-
## squared approximation may be incorrect

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c((mean(estimacion51)), (mean(estimacion52))) out of c(5, 5)
## X-squared = 1.1561e-31, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.3684732  0.3924732
## sample estimates:
## prop 1 prop 2 
##  0.104  0.092

hist(resestim51$X..estimacion51.5.....estimacion52.5..)

boxplot(resestim51$estimacion51, resestim51$estimacion52, resestim51$X.estimacion51...estimacion52.)
abline(h=0, col="red", lwd=1)

qqnorm(estimacion51, pch = 1)
qqline(estimacion51, col = "steelblue", lwd = 2)

qqnorm(estimacion52, pch = 1)
qqline(estimacion52, col = "green", lwd = 2)

shapiro.test(estimacion51)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion51
## W = 0.71536, p-value < 2.2e-16

shapiro.test(estimacion52)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion52
## W = 0.6819, p-value < 2.2e-16

##ESCENARIO n:10
estenf101 <- calc_enfer1(n=10)
estenf102 <- calc_enfer2(n=10)
prop.test(x=c(estenf101,estenf102), n=c(10,10),conf.level = 0.95)

## Warning in prop.test(x = c(estenf101, estenf102), n = c(10, 10), conf.level =
## 0.95): Chi-squared approximation may be incorrect

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(estenf101, estenf102) out of c(10, 10)
## X-squared = 0, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.1859385  0.3859385
## sample estimates:
## prop 1 prop 2 
##    0.1    0.0

estimacion101=sapply(rep(10,500), calc_enfer1)
estimacion102=sapply(rep(10,500), calc_enfer2)
hist(estimacion101)

mean(estimacion101/10)

## [1] 0.1034

sd(estimacion101/10)

## [1] 0.09500786

boxplot(estimacion101)

hist(estimacion102)

mean(estimacion102)

## [1] 1.076

sd(estimacion102)

## [1] 0.985986

boxplot(estimacion102)

resestim101=data.frame(estimacion101/10,estimacion102/10,((estimacion101/10)-(estimacion102/10)))
prop.test(x=c((mean(estimacion101)),(mean(estimacion102))),n=c(10,10), conf.level=0.95)

## Warning in prop.test(x = c((mean(estimacion101)), (mean(estimacion102))), : Chi-
## squared approximation may be incorrect

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c((mean(estimacion101)), (mean(estimacion102))) out of c(10, 10)
## X-squared = 2.0411e-31, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.2776585  0.2692585
## sample estimates:
## prop 1 prop 2 
## 0.1034 0.1076

hist(resestim101$X..estimacion101.10.....estimacion102.10..)

boxplot(resestim101$estimacion101,resestim101$estimacion102,resestim101$X.estimacion101...estimacion102.)
abline(h=0, col="red", lwd=1)

qqnorm(estimacion101, pch = 1)
qqline(estimacion101, col = "steelblue", lwd = 2)

qqnorm(estimacion102, pch = 1)
qqline(estimacion102, col = "green", lwd = 2)

shapiro.test(estimacion101)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion101
## W = 0.85025, p-value < 2.2e-16

shapiro.test(estimacion102)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion102
## W = 0.83344, p-value < 2.2e-16

##ESCENARIO n:15
estenf151 <- calc_enfer1(n=15)
estenf152 <- calc_enfer2(n=15)
prop.test(x=c(estenf151,estenf152), n=c(15,15),conf.level = 0.95)

## Warning in prop.test(x = c(estenf151, estenf152), n = c(15, 15), conf.level =
## 0.95): Chi-squared approximation may be incorrect

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(estenf151, estenf152) out of c(15, 15)
## X-squared = 0, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.3467072  0.2133739
## sample estimates:
##     prop 1     prop 2 
## 0.06666667 0.13333333

estimacion151=sapply(rep(15,500), calc_enfer1)
estimacion152=sapply(rep(15,500), calc_enfer2)
hist(estimacion151)

mean(estimacion151/15)

## [1] 0.102

sd(estimacion151/15)

## [1] 0.07865208

boxplot(estimacion151)

hist(estimacion152)

mean(estimacion152)

## [1] 1.452

sd(estimacion152)

## [1] 1.174075

boxplot(estimacion152)

resestim151=data.frame(estimacion151/15,estimacion152/15,((estimacion151/15)-(estimacion152/15)))
prop.test(x=c((mean(estimacion151)),(mean(estimacion152))),n=c(15,15), conf.level=0.95)

## Warning in prop.test(x = c((mean(estimacion151)), (mean(estimacion152))), : Chi-
## squared approximation may be incorrect

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c((mean(estimacion151)), (mean(estimacion152))) out of c(15, 15)
## X-squared = 5.0681e-31, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.2141215  0.2245215
## sample estimates:
## prop 1 prop 2 
## 0.1020 0.0968

hist(resestim151$X..estimacion151.15.....estimacion152.15..)

boxplot(resestim151$estimacion151,resestim151$estimacion152,resestim151$X..estimacion151.15.....estimacion152.15..)
abline(h=0, col="red", lwd=1)

qqnorm(estimacion151, pch = 1)
qqline(estimacion151, col = "steelblue", lwd = 2)

qqnorm(estimacion152, pch = 1)
qqline(estimacion152, col = "green", lwd = 2)

shapiro.test(estimacion151)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion151
## W = 0.90259, p-value < 2.2e-16

shapiro.test(estimacion152)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion152
## W = 0.89134, p-value < 2.2e-16

##ESCENARIO n:20
estenf201 <- calc_enfer1(n=20)
estenf202 <- calc_enfer2(n=20)
prop.test(x=c(estenf201,estenf202), n=c(20,20),conf.level = 0.95)

## Warning in prop.test(x = c(estenf201, estenf202), n = c(20, 20), conf.level =
## 0.95): Chi-squared approximation may be incorrect

## 
##  2-sample test for equality of proportions without continuity correction
## 
## data:  c(estenf201, estenf202) out of c(20, 20)
## X-squared = 0, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.1350812  0.1350812
## sample estimates:
## prop 1 prop 2 
##   0.05   0.05

estimacion201=sapply(rep(20,500), calc_enfer1)
estimacion202=sapply(rep(20,500), calc_enfer2)
hist(estimacion201)

mean(estimacion201/20)

## [1] 0.1014

sd(estimacion201/20)

## [1] 0.06257693

boxplot(estimacion201)

hist(estimacion202)

mean(estimacion202)

## [1] 1.998

sd(estimacion202)

## [1] 1.321169

boxplot(estimacion202)

resestim201=data.frame(estimacion201/20,estimacion202/20,((estimacion201/20)-(estimacion202/20)))
prop.test(x=c((mean(estimacion201)),(mean(estimacion202))),n=c(20,20), conf.level=0.95)

## Warning in prop.test(x = c((mean(estimacion201)), (mean(estimacion202))), : Chi-
## squared approximation may be incorrect

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c((mean(estimacion201)), (mean(estimacion202))) out of c(20, 20)
## X-squared = 5.2894e-31, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.1864739  0.1894739
## sample estimates:
## prop 1 prop 2 
## 0.1014 0.0999

hist(resestim201$X..estimacion201.20.....estimacion202.20..)

boxplot(resestim201$estimacion201,resestim201$estimacion202,resestim201$X..estimacion201.20.....estimacion202.20..)
abline(h=0, col="red", lwd=1)

qqnorm(estimacion201, pch = 1)
qqline(estimacion201, col = "steelblue", lwd = 2)

qqnorm(estimacion202, pch = 1)
qqline(estimacion202, col = "green", lwd = 2)

shapiro.test(estimacion201)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion201
## W = 0.93113, p-value = 2.1e-14

shapiro.test(estimacion202)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion202
## W = 0.9173, p-value = 6.502e-16

##ESCENARIO n:30
estenf301 <- calc_enfer1(n=30)
estenf302 <- calc_enfer2(n=30)
prop.test(x=c(estenf301,estenf302), n=c(30,30),conf.level = 0.95)

## Warning in prop.test(x = c(estenf301, estenf302), n = c(30, 30), conf.level =
## 0.95): Chi-squared approximation may be incorrect

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(estenf301, estenf302) out of c(30, 30)
## X-squared = 0.26786, df = 1, p-value = 0.6048
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.22510151  0.09176818
## sample estimates:
##     prop 1     prop 2 
## 0.03333333 0.10000000

estimacion301=sapply(rep(30,500), calc_enfer1)
estimacion302=sapply(rep(30,500), calc_enfer2)
hist(estimacion301)

mean(estimacion301/30)

## [1] 0.09906667

sd(estimacion301/30)

## [1] 0.05408307

boxplot(estimacion301)

hist(estimacion302)

mean(estimacion302)

## [1] 2.978

sd(estimacion302)

## [1] 1.561535

boxplot(estimacion302)

resestim301=data.frame(estimacion301/30,estimacion302/30,((estimacion301/30)-(estimacion302/30)))
prop.test(x=c((mean(estimacion301)),(mean(estimacion302))),n=c(30,30), conf.level=0.95)

## Warning in prop.test(x = c((mean(estimacion301)), (mean(estimacion302))), : Chi-
## squared approximation may be incorrect

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c((mean(estimacion301)), (mean(estimacion302))) out of c(30, 30)
## X-squared = 9.3466e-31, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.1516542  0.1512542
## sample estimates:
##     prop 1     prop 2 
## 0.09906667 0.09926667

hist(resestim301$X..estimacion301.30.....estimacion302.30..)

boxplot(resestim301$estimacion301,resestim301$estimacion302,resestim301$X..estimacion301.30.....estimacion302.30..)
abline(h=0, col="red", lwd=1)

qqnorm(estimacion301, pch = 1)
qqline(estimacion301, col = "steelblue", lwd = 2)

qqnorm(estimacion302, pch = 1)
qqline(estimacion302, col = "green", lwd = 2)

shapiro.test(estimacion301)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion301
## W = 0.95475, p-value = 2.978e-11

shapiro.test(estimacion302)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion302
## W = 0.93942, p-value = 2.141e-13

##ESCENARIO n:50
estenf501 <- calc_enfer1(n=50)
estenf502 <- calc_enfer2(n=50)
prop.test(x=c(estenf501,estenf502), n=c(50,50),conf.level = 0.95)

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(estenf501, estenf502) out of c(50, 50)
## X-squared = 3.1476e-32, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.1225879  0.1625879
## sample estimates:
## prop 1 prop 2 
##   0.12   0.10

estimacion501=sapply(rep(50,500), calc_enfer1)
estimacion502=sapply(rep(50,500), calc_enfer2)
hist(estimacion501)

mean(estimacion501/50)

## [1] 0.09928

sd(estimacion501/50)

## [1] 0.03959061

boxplot(estimacion501)

hist(estimacion502)

mean(estimacion502)

## [1] 5.098

sd(estimacion502)

## [1] 2.132015

boxplot(estimacion502)

resestim501=data.frame(estimacion501/50,estimacion502/50,((estimacion501/50)-(estimacion502/50)))
prop.test(x=c((mean(estimacion501)),(mean(estimacion502))),n=c(50,50), conf.level=0.95)

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c((mean(estimacion501)), (mean(estimacion502))) out of c(50, 50)
## X-squared = 8.8608e-32, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.12328  0.11792
## sample estimates:
##  prop 1  prop 2 
## 0.09928 0.10196

hist(resestim501$X..estimacion501.50.....estimacion502.50..)

boxplot(resestim501$estimacion501,resestim501$estimacion502,resestim501$X..estimacion501.50.....estimacion502.50..)
abline(h=0, col="red", lwd=1)

qqnorm(estimacion501, pch = 1)
qqline(estimacion501, col = "steelblue", lwd = 2)

qqnorm(estimacion502, pch = 1)
qqline(estimacion502, col = "green", lwd = 2)

shapiro.test(estimacion501)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion501
## W = 0.9698, p-value = 1.255e-08

shapiro.test(estimacion502)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion502
## W = 0.97723, p-value = 4.944e-07

##ESCENARIO n:60
estenf601 <- calc_enfer1(n=60)
estenf602 <- calc_enfer2(n=60)
prop.test(x=c(estenf601,estenf602), n=c(60,60),conf.level = 0.95)

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(estenf601, estenf602) out of c(60, 60)
## X-squared = 0, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.1365464  0.1032131
## sample estimates:
##     prop 1     prop 2 
## 0.08333333 0.10000000

estimacion601=sapply(rep(60,500), calc_enfer1)
estimacion602=sapply(rep(60,500), calc_enfer2)
hist(estimacion601)

mean(estimacion601/60)

## [1] 0.09956667

sd(estimacion601/60)

## [1] 0.03651074

boxplot(estimacion601)

hist(estimacion602)

mean(estimacion602)

## [1] 5.972

sd(estimacion602)

## [1] 2.375395

boxplot(estimacion602)

resestim601=data.frame(estimacion601/60,estimacion602/60,((estimacion601/60)-(estimacion602/60)))
prop.test(x=c((mean(estimacion601)),(mean(estimacion602))),n=c(60,60), conf.level=0.95)

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c((mean(estimacion601)), (mean(estimacion602))) out of c(60, 60)
## X-squared = 5.9898e-31, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.1071366  0.1072033
## sample estimates:
##     prop 1     prop 2 
## 0.09956667 0.09953333

hist(resestim601$X..estimacion601.60.....estimacion602.60..)

boxplot(resestim601$estimacion601,resestim601$estimacion602,resestim601$X..estimacion601.60.....estimacion602.60..)
abline(h=0, col="red", lwd=1)

qqnorm(estimacion601, pch = 1)
qqline(estimacion601, col = "steelblue", lwd = 2)

qqnorm(estimacion602, pch = 1)
qqline(estimacion602, col = "green", lwd = 2)

shapiro.test(estimacion601)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion601
## W = 0.97408, p-value = 9.654e-08

shapiro.test(estimacion602)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion602
## W = 0.97244, p-value = 4.325e-08

##ESCENARIO n:100
estenf1001 <- calc_enfer1(n=100)
estenf1002 <- calc_enfer2(n=100)
prop.test(x=c(estenf1001,estenf1002), n=c(100,100),conf.level = 0.95)

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(estenf1001, estenf1002) out of c(100, 100)
## X-squared = 0.055556, df = 1, p-value = 0.8137
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.11310802  0.07310802
## sample estimates:
## prop 1 prop 2 
##   0.09   0.11

estimacion1001=sapply(rep(100,500), calc_enfer1)
estimacion1002=sapply(rep(100,500), calc_enfer2)
hist(estimacion1001)

mean(estimacion1001/100)

## [1] 0.10128

sd(estimacion1001/100)

## [1] 0.02779761

boxplot(estimacion1001)

hist(estimacion1002)

mean(estimacion1002)

## [1] 9.962

sd(estimacion1002)

## [1] 2.907484

boxplot(estimacion1002)

resestim1001=data.frame(estimacion1001/100,estimacion1002/100,((estimacion1001/100)-(estimacion1002/100)))
prop.test(x=c((mean(estimacion1001)),(mean(estimacion1002))),n=c(100,100), conf.level=0.95)

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c((mean(estimacion1001)), (mean(estimacion1002))) out of c(100, 100)
## X-squared = 7.8729e-32, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.08331996  0.08663996
## sample estimates:
##  prop 1  prop 2 
## 0.10128 0.09962

hist(resestim1001$X..estimacion1001.100.....estimacion1002.100..)

boxplot(resestim1001$estimacion1001,resestim1001$estimacion1002,resestim1001$X..estimacion1001.100.....estimacion1002.100..)
abline(h=0, col="red", lwd=1)

qqnorm(estimacion1001, pch = 1)
qqline(estimacion1001, col = "steelblue", lwd = 2)

qqnorm(estimacion1002, pch = 1)
qqline(estimacion1002, col = "green", lwd = 2)

shapiro.test(estimacion1001)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion1001
## W = 0.98721, p-value = 0.0002261

shapiro.test(estimacion1002)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion1002
## W = 0.98753, p-value = 0.0002827

##ESCENARIO n:200
estenf2001 <- calc_enfer1(n=200)
estenf2002 <- calc_enfer2(n=200)
prop.test(x=c(estenf2001,estenf2002), n=c(200,200),conf.level = 0.95)

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(estenf2001, estenf2002) out of c(200, 200)
## X-squared = 0.69444, df = 1, p-value = 0.4047
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.09372537  0.03372537
## sample estimates:
## prop 1 prop 2 
##  0.085  0.115

estimacion2001=sapply(rep(200,500), calc_enfer1)
estimacion2002=sapply(rep(200,500), calc_enfer2)
hist(estimacion2001)

mean(estimacion2001/200)

## [1] 0.09874

sd(estimacion2001/200)

## [1] 0.01989734

boxplot(estimacion2001)

hist(estimacion2002)

mean(estimacion2002)

## [1] 19.676

sd(estimacion2002)

## [1] 3.973235

boxplot(estimacion2002)

resestim2001=data.frame(estimacion2001/200,estimacion2002/200,((estimacion2001/200)-(estimacion2002/200)))
prop.test(x=c((mean(estimacion2001)),(mean(estimacion2002))),n=c(200,200), conf.level=0.95)

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c((mean(estimacion2001)), (mean(estimacion2002))) out of c(200, 200)
## X-squared = 3.4684e-34, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.0584207  0.0591407
## sample estimates:
##  prop 1  prop 2 
## 0.09874 0.09838

hist(resestim2001$X..estimacion2001.200.....estimacion2002.200..)

boxplot(resestim2001$estimacion2001,resestim2001$estimacion2002,resestim2001$X..estimacion2001.200.....estimacion2002.200..)
abline(h=0, col="red", lwd=1)

qqnorm(estimacion2001, pch = 1)
qqline(estimacion2001, col = "steelblue", lwd = 2)

qqnorm(estimacion2002, pch = 1)
qqline(estimacion2002, col = "green", lwd = 2)

shapiro.test(estimacion2001)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion2001
## W = 0.99233, p-value = 0.01138

shapiro.test(estimacion2002)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion2002
## W = 0.9923, p-value = 0.01106

##ESCENARIO n:500
estenf5001 <- calc_enfer1(n=500)
estenf5002 <- calc_enfer2(n=500)
prop.test(x=c(estenf5001,estenf5002), n=c(500,500),conf.level = 0.95)

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(estenf5001, estenf5002) out of c(500, 500)
## X-squared = 0.011523, df = 1, p-value = 0.9145
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.0425164  0.0345164
## sample estimates:
## prop 1 prop 2 
##  0.094  0.098

estimacion5001=sapply(rep(500,500), calc_enfer1)
estimacion5002=sapply(rep(500,500), calc_enfer2)
hist(estimacion5001)

mean(estimacion5001/500)

## [1] 0.100412

sd(estimacion5001/500)

## [1] 0.009824015

boxplot(estimacion5001)

hist(estimacion5002)

mean(estimacion5002)

## [1] 50.572

sd(estimacion5002)

## [1] 5.628871

boxplot(estimacion5002)

resestim5001=data.frame(estimacion5001/500,estimacion5002/500,((estimacion5001/500)-(estimacion5002/500)))
prop.test(x=c((mean(estimacion5001)),(mean(estimacion5002))),n=c(500,500), conf.level=0.95)

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c((mean(estimacion5001)), (mean(estimacion5002))) out of c(500, 500)
## X-squared = 7.4007e-31, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.03877992  0.03731592
## sample estimates:
##   prop 1   prop 2 
## 0.100412 0.101144

hist(resestim5001$X..estimacion5001.500.....estimacion5002.500..)

boxplot(resestim5001$estimacion5001,resestim5001$estimacion5002,resestim5001$X..estimacion5001.500.....estimacion5002.500..)
abline(h=0, col="red", lwd=1)

qqnorm(estimacion5001, pch = 1)
qqline(estimacion5001, col = "steelblue", lwd = 2)

qqnorm(estimacion5002, pch = 1)
qqline(estimacion5002, col = "green", lwd = 2)

shapiro.test(estimacion5001)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion5001
## W = 0.9935, p-value = 0.03003

shapiro.test(estimacion5002)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion5002
## W = 0.99321, p-value = 0.02347

Punto 2.e

Ahora realice nuevamente los puntos a-d bajo un escenario con dos lotes pero de proporciones de enfermos diferentes (P1=0.1 y P2=0.15), es decir el tratamiento del lote 1 si presento un mejor desempeño reduciendo en un 5% el porcentaje de enfermos. Bajo este nuevo escenario compare la distribución de estas diferencias (p1-p2) con las observadas bajo igualdad de condiciones en los lotes. ¿Qué puede concluir? ¿Existen puntos en los cuales es posible que se observen diferencias de p1- p2 bajo ambos escenarios (escenario 1: sin diferencias entre P1 y P2, escenario 2: diferencia de 5%)?.

Conclusión
En la medida en que las muestras crecen, se reducen los intervalos de confianza, y permite llegar a conclusiones más precisas sobre las diferencias entre lotes. Esto tiene efecto tanto para los escenarios en donde no existan diferencias como las que no las hay. En el escenario 1 de esta simulación, en donde no hay diferencias, una muestra pequeña puede llevar a inferir que existen diferencias cuando no las hay. En el escenario 2, en donde existe una diferencia de 5%, una muestra pequeña, puede llevar a interpretar que no existe diferencia entre los lotes, cuando si lo hay. Lo que evidencian estos casos, es que en la medida en que las muestras sean más grandes, mejor interpretación se puede hacer con los estimadores y su relación con el parámetro.

En la medida en que las muestras crecen, se reducen los intervalos de confianza, y permite llegar a conclusiones más precisas sobre las diferencias entre lotes. Esto tiene efecto tanto para los escenarios en donde no existan diferencias como las que no las hay. En el escenario 1 de esta simulación, en donde no hay diferencias, una muestra pequeña puede llevar a inferir que existen diferencias cuando no las hay. En el escenario 2, en donde existe una diferencia de 5%, una muestra pequeña, puede llevar a interpretar que no existe diferencia entre los lotes, cuando si lo hay.

Lo que evidencian estos casos, es que en la medida en que las muestras sean más grandes, mejor interpretación se puede hacer con los estimadores y su relación con el parámetro.

Anotaciones sobre el punto
Si se hace la comparación entre los dos lotes, con diferencias, se evidencia que en un sentido estricto parar un caso de n=100, se debería aceptar que no hay diferencia entre ambos lotes. Sin embargo, que los resultados estén tan cerca al 0 en el positivo y tan alejado el negativo, llevan a la necesidad de tomar con precausión el hallazgo. Aunque en el estándar debería asumirse que no hay diferencias.

Si se hace la comparación entre los dos lotes, con diferencias, se evidencia que en un sentido estricto parar un caso de n=100, se debería aceptar que no hay diferencia entre ambos lotes. Sin embargo, que los resultados estén tan cerca al 0 en el positivo y tan alejado el negativo, llevan a la necesidad de tomar con precausión el hallazgo. Aunque en el estándar debería asumirse que no hay diferencias.

lotetra.1=c(rep("sanas",900),rep("enfermas",100))
lotetra.2=c(rep("sanas",1275),rep("enfermas",225))
##PUNTO 2.B CREACIÓN DE FUNCIONES PARA MUESTRA Y DIFERENCIA DE PROPORCIÓN
calc_enfer.1 = function(n){
  muestreo.1=sample(lotetra.1, size=n)
  return(sum(muestreo.1=="enfermas"))
}
calc_enfer.2=function(n){
  muestreo.2=sample(lotetra.2, size=n)
  return(sum(muestreo.2=="enfermas"))
}

estenf.1 <- calc_enfer.1(n=100)
estenf.2 <- calc_enfer.2(n=100)

prop.test(x=c(estenf.1,estenf.2), n=c(100,100),conf.level = 0.95)

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(estenf.1, estenf.2) out of c(100, 100)
## X-squared = 10.961, df = 1, p-value = 0.0009304
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.27174223 -0.06825777
## sample estimates:
## prop 1 prop 2 
##   0.05   0.22

Anotaciones sobre el punto
Al igual que el anterior con una sola muestra, los resultados muestran que en este caso se debería asumir que no hay difererencia.

##PUNTO 2.C REPETIR 500 VECES
estimacion.1=sapply(rep(100,500), calc_enfer.1)
estimacion.2=sapply(rep(100,500), calc_enfer.2)
hist(estimacion.1)

mean(estimacion.1/100)

## [1] 0.10032

sd(estimacion.1/100)

## [1] 0.02789721

boxplot(estimacion.1)

hist(estimacion.2)

mean(estimacion.2/100)

## [1] 0.14846

sd(estimacion.2/100)

## [1] 0.03347341

boxplot(estimacion.2)

resestim.=data.frame(estimacion.1/100,estimacion.2/100,((estimacion.1/100)-(estimacion.2/100)))
prop.test(x=c((mean(estimacion.1)),(mean(estimacion.2))),n=c(100,100), conf.level=0.95)

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c((mean(estimacion.1)), (mean(estimacion.2))) out of c(100, 100)
## X-squared = 0.66778, df = 1, p-value = 0.4138
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.14937322  0.05309322
## sample estimates:
##  prop 1  prop 2 
## 0.10032 0.14846

hist(resestim.$X..estimacion.1.100.....estimacion.2.100..)

boxplot(resestim.$estimacion.1,resestim.$estimacion.2,resestim.$X..estimacion.1.100.....estimacion.2.100..)
abline(h=0, col="red", lwd=1)

qqnorm(estimacion.1, pch = 1)
qqline(estimacion.1, col = "steelblue", lwd = 2)

qqnorm(estimacion.2, pch = 1)
qqline(estimacion.2, col = "green", lwd = 2)

shapiro.test(estimacion.1)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion.1
## W = 0.98386, p-value = 2.385e-05

shapiro.test(estimacion.2)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion.2
## W = 0.98678, p-value = 0.0001674

Anotaciones sobre el punto

## PUNTO 2.C Repetir con n1=n2=5, 10, 15, 20, 30, 50, 60, 100, 200, 500
##ESCENARIO n:5

estenf.51 <- calc_enfer.1(n=5)
estenf.52 <- calc_enfer.2(n=5)
prop.test(x=c(estenf.51,estenf.52), n=c(5,5),conf.level = 0.95)

## Warning in prop.test(x = c(estenf.51, estenf.52), n = c(5, 5), conf.level =
## 0.95): Chi-squared approximation may be incorrect

## 
##  2-sample test for equality of proportions without continuity correction
## 
## data:  c(estenf.51, estenf.52) out of c(5, 5)
## X-squared = 0, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.495836  0.495836
## sample estimates:
## prop 1 prop 2 
##    0.2    0.2

estimacion.51=sapply(rep(5,500), calc_enfer.1)
estimacion.52=sapply(rep(5,500), calc_enfer.2)
hist(estimacion.51)

mean(estimacion.51/5)

## [1] 0.0988

sd(estimacion.51/5)

## [1] 0.1348887

boxplot(estimacion.51)

hist(estimacion.52)

mean(estimacion.52/5)

## [1] 0.1472

sd(estimacion.52/5)

## [1] 0.1527705

boxplot(estimacion.52)

resestim.51=data.frame(estimacion.51/5,estimacion.52/5,((estimacion.51/5)-(estimacion.52/5)))
prop.test(x=c((mean(estimacion.51)),(mean(estimacion.52))),n=c(5,5), conf.level=0.95)

## Warning in prop.test(x = c((mean(estimacion.51)), (mean(estimacion.52))), : Chi-
## squared approximation may be incorrect

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c((mean(estimacion.51)), (mean(estimacion.52))) out of c(5, 5)
## X-squared = 8.995e-32, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.5028208  0.4060208
## sample estimates:
## prop 1 prop 2 
## 0.0988 0.1472

hist(resestim.51$X..estimacion.51.5.....estimacion.52.5..)

boxplot(resestim.51$estimacion.51, resestim.51$estimacion.52, resestim.51$X..estimacion.51.5.....estimacion.52.5..)
abline(h=0, col="red", lwd=1)

qqnorm(estimacion.51, pch = 1)
qqline(estimacion.51, col = "steelblue", lwd = 2)

qqnorm(estimacion.52, pch = 1)
qqline(estimacion.52, col = "green", lwd = 2)

shapiro.test(estimacion.51)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion.51
## W = 0.70315, p-value < 2.2e-16

shapiro.test(estimacion.52)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion.52
## W = 0.79268, p-value < 2.2e-16

##ESCENARIO n:10
estenf.101 <- calc_enfer.1(n=10)
estenf.102 <- calc_enfer.2(n=10)
prop.test(x=c(estenf.101,estenf.102), n=c(10,10),conf.level = 0.95)

## Warning in prop.test(x = c(estenf.101, estenf.102), n = c(10, 10), conf.level =
## 0.95): Chi-squared approximation may be incorrect

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(estenf.101, estenf.102) out of c(10, 10)
## X-squared = 1.3148e-32, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.3770066  0.5770066
## sample estimates:
## prop 1 prop 2 
##    0.3    0.2

estimacion.101=sapply(rep(10,500), calc_enfer.1)
estimacion.102=sapply(rep(10,500), calc_enfer.2)
hist(estimacion.101)

mean(estimacion.101/10)

## [1] 0.1046

sd(estimacion.101/10)

## [1] 0.09173697

boxplot(estimacion.101)

hist(estimacion.102)

mean(estimacion.102/10)

## [1] 0.1486

sd(estimacion.102/10)

## [1] 0.116125

boxplot(estimacion.102)

resestim.101=data.frame(estimacion.101/10,estimacion.102/10,((estimacion.101/10)-(estimacion.102/10)))
prop.test(x=c((mean(estimacion.101)),(mean(estimacion.102))),n=c(10,10), conf.level=0.95)

## Warning in prop.test(x = c((mean(estimacion.101)), (mean(estimacion.102))), :
## Chi-squared approximation may be incorrect

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c((mean(estimacion.101)), (mean(estimacion.102))) out of c(10, 10)
## X-squared = 8.8749e-32, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.3788265  0.2908265
## sample estimates:
## prop 1 prop 2 
## 0.1046 0.1486

hist(resestim.101$X..estimacion.101.10.....estimacion.102.10..)

boxplot(resestim.101$estimacion.101,resestim.101$estimacion.102,resestim.101$X..estimacion.101.10.....estimacion.102.10..)
abline(h=0, col="red", lwd=1)

qqnorm(estimacion.101, pch = 1)
qqline(estimacion.101, col = "steelblue", lwd = 2)

qqnorm(estimacion.102, pch = 1)
qqline(estimacion.102, col = "green", lwd = 2)

shapiro.test(estimacion.101)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion.101
## W = 0.85081, p-value < 2.2e-16

shapiro.test(estimacion.102)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion.102
## W = 0.89414, p-value < 2.2e-16

##ESCENARIO n:15
estenf.151 <- calc_enfer.1(n=15)
estenf.152 <- calc_enfer.2(n=15)
prop.test(x=c(estenf.151,estenf.152), n=c(15,15),conf.level = 0.95)

## Warning in prop.test(x = c(estenf.151, estenf.152), n = c(15, 15), conf.level =
## 0.95): Chi-squared approximation may be incorrect

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(estenf.151, estenf.152) out of c(15, 15)
## X-squared = 0, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.3467072  0.2133739
## sample estimates:
##     prop 1     prop 2 
## 0.06666667 0.13333333

estimacion.151=sapply(rep(15,500), calc_enfer.1)
estimacion.152=sapply(rep(15,500), calc_enfer.2)
hist(estimacion.151)

mean(estimacion.151/15)

## [1] 0.09866667

sd(estimacion.151/15)

## [1] 0.07471761

boxplot(estimacion.151)

hist(estimacion.152)

mean(estimacion.152/15)

## [1] 0.1570667

sd(estimacion.152/15)

## [1] 0.08775545

boxplot(estimacion.152)

resestim.151=data.frame(estimacion.151/15,estimacion.152/15,((estimacion.151/15)-(estimacion.152/15)))
prop.test(x=c((mean(estimacion.151)),(mean(estimacion.152))),n=c(15,15), conf.level=0.95)

## Warning in prop.test(x = c((mean(estimacion.151)), (mean(estimacion.152))), :
## Chi-squared approximation may be incorrect

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c((mean(estimacion.151)), (mean(estimacion.152))) out of c(15, 15)
## X-squared = 1.2814e-31, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.3548789  0.2380789
## sample estimates:
##     prop 1     prop 2 
## 0.09866667 0.15706667

hist(resestim.151$X..estimacion.151.15.....estimacion.152.15..)

boxplot(resestim.151$estimacion.151,resestim.151$estimacion.152,resestim.151$X..estimacion.151.15.....estimacion.152.15..)
abline(h=0, col="red", lwd=1)

qqnorm(estimacion.151, pch = 1)
qqline(estimacion.151, col = "steelblue", lwd = 2)

qqnorm(estimacion.152, pch = 1)
qqline(estimacion.152, col = "green", lwd = 2)

shapiro.test(estimacion.151)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion.151
## W = 0.89954, p-value < 2.2e-16

shapiro.test(estimacion.152)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion.152
## W = 0.93732, p-value = 1.166e-13

##ESCENARIO n:20
estenf.201 <- calc_enfer.1(n=20)
estenf.202 <- calc_enfer.2(n=20)
prop.test(x=c(estenf.201,estenf.202), n=c(20,20),conf.level = 0.95)

## Warning in prop.test(x = c(estenf.201, estenf.202), n = c(20, 20), conf.level =
## 0.95): Chi-squared approximation may be incorrect

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(estenf.201, estenf.202) out of c(20, 20)
## X-squared = 1.7647, df = 1, p-value = 0.184
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.46245503  0.06245503
## sample estimates:
## prop 1 prop 2 
##   0.05   0.25

estimacion.201=sapply(rep(20,500), calc_enfer.1)
estimacion.202=sapply(rep(20,500), calc_enfer.2)
hist(estimacion.201)

mean(estimacion.201/20)

## [1] 0.0981

sd(estimacion.201/20)

## [1] 0.06648481

boxplot(estimacion.201)

hist(estimacion.202)

mean(estimacion.202)

## [1] 2.984

sd(estimacion.202)

## [1] 1.593997

boxplot(estimacion.202)

resestim.201=data.frame(estimacion.201/20,estimacion.202/20,((estimacion.201/20)-(estimacion.202/20)))
prop.test(x=c((mean(estimacion.201)),(mean(estimacion.202))),n=c(20,20), conf.level=0.95)

## Warning in prop.test(x = c((mean(estimacion.201)), (mean(estimacion.202))), :
## Chi-squared approximation may be incorrect

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c((mean(estimacion.201)), (mean(estimacion.202))) out of c(20, 20)
## X-squared = 0.00011166, df = 1, p-value = 0.9916
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.3045098  0.2023098
## sample estimates:
## prop 1 prop 2 
## 0.0981 0.1492

hist(resestim.201$X..estimacion.201.20.....estimacion.202.20..)

boxplot(resestim.201$estimacion.201,resestim.201$estimacion.202,resestim.201$X..estimacion.201.20.....estimacion.202.20..)
abline(h=0, col="red", lwd=1)

qqnorm(estimacion.201, pch = 1)
qqline(estimacion.201, col = "steelblue", lwd = 2)

qqnorm(estimacion.202, pch = 1)
qqline(estimacion.202, col = "green", lwd = 2)

shapiro.test(estimacion.201)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion.201
## W = 0.92597, p-value = 5.454e-15

shapiro.test(estimacion.202)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion.202
## W = 0.95471, p-value = 2.933e-11

##ESCENARIO n:30
estenf.301 <- calc_enfer.1(n=30)
estenf.302 <- calc_enfer.2(n=30)
prop.test(x=c(estenf.301,estenf.302), n=c(30,30),conf.level = 0.95)

## Warning in prop.test(x = c(estenf.301, estenf.302), n = c(30, 30), conf.level =
## 0.95): Chi-squared approximation may be incorrect

## 
##  2-sample test for equality of proportions without continuity correction
## 
## data:  c(estenf.301, estenf.302) out of c(30, 30)
## X-squared = 0, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.1518182  0.1518182
## sample estimates:
## prop 1 prop 2 
##    0.1    0.1

estimacion.301=sapply(rep(30,500), calc_enfer.1)
estimacion.302=sapply(rep(30,500), calc_enfer.2)
hist(estimacion.301)

mean(estimacion.301/30)

## [1] 0.1006

sd(estimacion.301/30)

## [1] 0.05239399

boxplot(estimacion.301)

hist(estimacion.302)

mean(estimacion.302/30)

## [1] 0.1488

sd(estimacion.302/30)

## [1] 0.06453423

boxplot(estimacion.302)

resestim.301=data.frame(estimacion.301/30,estimacion.302/30,((estimacion.301/30)-(estimacion.302/30)))
prop.test(x=c((mean(estimacion.301)),(mean(estimacion.302))),n=c(30,30), conf.level=0.95)

## Warning in prop.test(x = c((mean(estimacion.301)), (mean(estimacion.302))), :
## Chi-squared approximation may be incorrect

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c((mean(estimacion.301)), (mean(estimacion.302))) out of c(30, 30)
## X-squared = 0.030374, df = 1, p-value = 0.8616
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.2482794  0.1518794
## sample estimates:
## prop 1 prop 2 
## 0.1006 0.1488

hist(resestim.301$X..estimacion.301.30.....estimacion.302.30..)

boxplot(resestim.301$estimacion.301,resestim.301$estimacion.302,resestim.301$X..estimacion.301.30.....estimacion.302.30..)
abline(h=0, col="red", lwd=1)

qqnorm(estimacion.301, pch = 1)
qqline(estimacion.301, col = "steelblue", lwd = 2)

qqnorm(estimacion.302, pch = 1)
qqline(estimacion.302, col = "green", lwd = 2)

shapiro.test(estimacion.301)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion.301
## W = 0.9534, p-value = 1.848e-11

shapiro.test(estimacion.302)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion.302
## W = 0.96861, p-value = 7.308e-09

##ESCENARIO n:50
estenf.501 <- calc_enfer.1(n=50)
estenf.502 <- calc_enfer.2(n=50)
prop.test(x=c(estenf.501,estenf.502), n=c(50,50),conf.level = 0.95)

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(estenf.501, estenf.502) out of c(50, 50)
## X-squared = 2.7778, df = 1, p-value = 0.09558
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.25522188  0.01522188
## sample estimates:
## prop 1 prop 2 
##   0.04   0.16

estimacion.501=sapply(rep(50,500), calc_enfer.1)
estimacion.502=sapply(rep(50,500), calc_enfer.2)
hist(estimacion.501)

mean(estimacion.501/50)

## [1] 0.1

sd(estimacion.501/50)

## [1] 0.04035911

boxplot(estimacion.501)

hist(estimacion.502/50)

mean(estimacion.502/50)

## [1] 0.14916

sd(estimacion.502)

## [1] 2.526064

boxplot(estimacion.502)

resestim.501=data.frame(estimacion.501/50,estimacion.502/50,((estimacion.501/50)-(estimacion.502/50)))
prop.test(x=c((mean(estimacion.501)),(mean(estimacion.502))),n=c(50,50), conf.level=0.95)

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c((mean(estimacion.501)), (mean(estimacion.502))) out of c(50, 50)
## X-squared = 0.19492, df = 1, p-value = 0.6589
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.19825344  0.09993344
## sample estimates:
##  prop 1  prop 2 
## 0.10000 0.14916

hist(resestim.501$X..estimacion.501.50.....estimacion.502.50..)

boxplot(resestim.501$estimacion.501,resestim.501$estimacion.502,resestim.501$X..estimacion.501.50.....estimacion.502.50..)
abline(h=0, col="red", lwd=1)

qqnorm(estimacion.501, pch = 1)
qqline(estimacion.501, col = "steelblue", lwd = 2)

qqnorm(estimacion.502, pch = 1)
qqline(estimacion.502, col = "green", lwd = 2)

shapiro.test(estimacion.501)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion.501
## W = 0.96838, p-value = 6.593e-09

shapiro.test(estimacion.502)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion.502
## W = 0.98479, p-value = 4.344e-05

##ESCENARIO n:60
estenf.601 <- calc_enfer.1(n=60)
estenf.602 <- calc_enfer.2(n=60)
prop.test(x=c(estenf.601,estenf.602), n=c(60,60),conf.level = 0.95)

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(estenf.601, estenf.602) out of c(60, 60)
## X-squared = 0.06, df = 1, p-value = 0.8065
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.1832252  0.1165586
## sample estimates:
##    prop 1    prop 2 
## 0.1500000 0.1833333

estimacion.601=sapply(rep(60,500), calc_enfer.1)
estimacion.602=sapply(rep(60,500), calc_enfer.2)
hist(estimacion.601)

mean(estimacion.601/60)

## [1] 0.09736667

sd(estimacion.601/60)

## [1] 0.03724926

boxplot(estimacion.601)

hist(estimacion.602/60)

mean(estimacion.602/60)

## [1] 0.1472667

sd(estimacion.602)

## [1] 2.730571

boxplot(estimacion.602)

resestim.601=data.frame(estimacion.601/60,estimacion.602/60,((estimacion.601/60)-(estimacion.602/60)))
prop.test(x=c((mean(estimacion.601)),(mean(estimacion.602))),n=c(60,60), conf.level=0.95)

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c((mean(estimacion.601)), (mean(estimacion.602))) out of c(60, 60)
## X-squared = 0.30864, df = 1, p-value = 0.5785
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.18347256  0.08367256
## sample estimates:
##     prop 1     prop 2 
## 0.09736667 0.14726667

hist(resestim.601$X..estimacion.601.60.....estimacion.602.60..)

boxplot(resestim.601$estimacion.601,resestim.601$estimacion.602,resestim.601$X..estimacion.601.60.....estimacion.602.60..)
abline(h=0, col="red", lwd=1)

qqnorm(estimacion.601, pch = 1)
qqline(estimacion.601, col = "steelblue", lwd = 2)

qqnorm(estimacion.602, pch = 1)
qqline(estimacion.602, col = "green", lwd = 2)

shapiro.test(estimacion.601)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion.601
## W = 0.97635, p-value = 3.093e-07

shapiro.test(estimacion.602)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion.602
## W = 0.98117, p-value = 4.545e-06

##ESCENARIO n:100
estenf.1001 <- calc_enfer.1(n=100)
estenf.1002 <- calc_enfer.2(n=100)
prop.test(x=c(estenf.1001,estenf.1002), n=c(100,100),conf.level = 0.95)

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(estenf.1001, estenf.1002) out of c(100, 100)
## X-squared = 1.4519, df = 1, p-value = 0.2282
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.17711221  0.03711221
## sample estimates:
## prop 1 prop 2 
##   0.11   0.18

estimacion.1001=sapply(rep(100,500), calc_enfer.1)
estimacion.1002=sapply(rep(100,500), calc_enfer.2)
hist(estimacion.1001)

mean(estimacion.1001/100)

## [1] 0.10106

sd(estimacion.1001/100)

## [1] 0.0273674

boxplot(estimacion.1001)

hist(estimacion.1002)

mean(estimacion.1002/100)

## [1] 0.15008

sd(estimacion.1002/100)

## [1] 0.03382724

boxplot(estimacion.1002)

resestim.1001=data.frame(estimacion.1001/100,estimacion.1002/100,((estimacion.1001/100)-(estimacion.1002/100)))
prop.test(x=c((mean(estimacion.1001)),(mean(estimacion.1002))),n=c(100,100), conf.level=0.95)

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c((mean(estimacion.1001)), (mean(estimacion.1002))) out of c(100, 100)
## X-squared = 0.69332, df = 1, p-value = 0.405
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.15061616  0.05257616
## sample estimates:
##  prop 1  prop 2 
## 0.10106 0.15008

hist(resestim.1001$X..estimacion.1001.100.....estimacion.1002.100..)

boxplot(resestim.1001$estimacion.1001,resestim.1001$estimacion.1002,resestim.1001$X..estimacion.1001.100.....estimacion.1002.100..)
abline(h=0, col="red", lwd=1)

qqnorm(estimacion.1001, pch = 1)
qqline(estimacion.1001, col = "steelblue", lwd = 2)

qqnorm(estimacion.1002, pch = 1)
qqline(estimacion.1002, col = "green", lwd = 2)

shapiro.test(estimacion.1001)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion.1001
## W = 0.98633, p-value = 0.0001221

shapiro.test(estimacion.1002)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion.1002
## W = 0.99087, p-value = 0.003485

##ESCENARIO n:200
estenf.2001 <- calc_enfer.1(n=200)
estenf.2002 <- calc_enfer.2(n=200)
prop.test(x=c(estenf.2001,estenf.2002), n=c(200,200),conf.level = 0.95)

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(estenf.2001, estenf.2002) out of c(200, 200)
## X-squared = 0.86794, df = 1, p-value = 0.3515
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.10302054  0.03302054
## sample estimates:
## prop 1 prop 2 
##  0.100  0.135

estimacion.2001=sapply(rep(200,500), calc_enfer.1)
estimacion.2002=sapply(rep(200,500), calc_enfer.2)
hist(estimacion.2001)

mean(estimacion.2001/200)

## [1] 0.09872

sd(estimacion.2001/200)

## [1] 0.01894676

boxplot(estimacion.2001)

hist(estimacion.2002)

mean(estimacion.2002/200)

## [1] 0.14895

sd(estimacion.2002/200)

## [1] 0.02362549

boxplot(estimacion.2002)

resestim.2001=data.frame(estimacion.2001/200,estimacion.2002/200,((estimacion.2001/200)-(estimacion.2002/200)))
prop.test(x=c((mean(estimacion.2001)),(mean(estimacion.2002))),n=c(200,200), conf.level=0.95)

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c((mean(estimacion.2001)), (mean(estimacion.2002))) out of c(200, 200)
## X-squared = 1.8855, df = 1, p-value = 0.1697
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.11960195  0.01914195
## sample estimates:
##  prop 1  prop 2 
## 0.09872 0.14895

hist(resestim.2001$X..estimacion.2001.200.....estimacion.2002.200..)

boxplot(resestim.2001$estimacion.2001,resestim.2001$estimacion.2002,resestim.2001$X..estimacion.2001.200.....estimacion.2002.200..)
abline(h=0, col="red", lwd=1)

qqnorm(estimacion.2001, pch = 1)
qqline(estimacion.2001, col = "steelblue", lwd = 2)

qqnorm(estimacion.2002, pch = 1)
qqline(estimacion.2002, col = "green", lwd = 2)

shapiro.test(estimacion.2001)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion.2001
## W = 0.99012, p-value = 0.001948

##ESCENARIO n:500
estenf.5001 <- calc_enfer.1(n=500)
estenf.5002 <- calc_enfer.2(n=500)
prop.test(x=c(estenf.5001,estenf.5002), n=c(500,500),conf.level = 0.95)

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(estenf.5001, estenf.5002) out of c(500, 500)
## X-squared = 2.2201, df = 1, p-value = 0.1362
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.07804057  0.01004057
## sample estimates:
## prop 1 prop 2 
##  0.116  0.150

estimacion.5001=sapply(rep(500,500), calc_enfer.1)
estimacion.5002=sapply(rep(500,500), calc_enfer.2)
hist(estimacion.5001)

mean(estimacion.5001/500)

## [1] 0.099772

sd(estimacion.5001/500)

## [1] 0.009268432

boxplot(estimacion.5001)

hist(estimacion.5002)

mean(estimacion.5002/500)

## [1] 0.149916

sd(estimacion.5002/500)

## [1] 0.01291381

boxplot(estimacion.5002)

resestim.5001=data.frame(estimacion.5001/500,estimacion.5002/500,((estimacion.5001/500)-(estimacion.5002/500)))
prop.test(x=c((mean(estimacion.5001)),(mean(estimacion.5002))),n=c(500,500), conf.level=0.95)

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c((mean(estimacion.5001)), (mean(estimacion.5002))) out of c(500, 500)
## X-squared = 5.3036, df = 1, p-value = 0.02128
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.092999612 -0.007288388
## sample estimates:
##   prop 1   prop 2 
## 0.099772 0.149916

hist(resestim.5001$X..estimacion.5001.500.....estimacion.5002.500..)

boxplot(resestim.5001$estimacion.5001,resestim.5001$estimacion.5002,resestim.5001$X..estimacion.5001.500.....estimacion.5002.500..)
abline(h=0, col="red", lwd=1)

qqnorm(estimacion.5001, pch = 1)
qqline(estimacion.5001, col = "steelblue", lwd = 2)

qqnorm(estimacion.5002, pch = 1)
qqline(estimacion.5002, col = "green", lwd = 2)

shapiro.test(estimacion.5001)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion.5001
## W = 0.99419, p-value = 0.05374

shapiro.test(estimacion.5002)

## 
##  Shapiro-Wilk normality test
## 
## data:  estimacion.5002
## W = 0.9942, p-value = 0.05397

Punto 3

Con base a los artículos “Statistical Errors: P values, the gold standard of statistical validity, are not as reliable as many scientists assume” escriba un resumen (máximo 2 paginas) sobre el artículos e incluya en este sus opiniones en cuanto al uso del valor p.

Reseña de: ““Statistical Errors: P values, the gold standard of statistical validity, are not as reliable as many scientists assume” de Regia Nuzo (2014)

El caso de Matt Motyl en 2010, en un estudio sobre extremismo político, muestra la necesidad de pensar y repensar sobre el uso del valor P para evaluar evidencia. En su caso, su evidencia estaba sustentada en un resultado 0.01, que es visto tradicionalmente como muy significativo. Sin embargo, cuando quisieron replicar el estudio, el valor P fue de 0.59, Muy lejos de la significancia del 0.05. El problema no residía en los análisis o datos, estaba en las características del valor P. No resulta ser tan fiable ni objetivo como se supondría mayoritariamente.

Incluso, en 2005 John Ionnidis de la Universidad de Stanford sugirió que la mayoría de los hallazgos publicados son falsos. Lo que implica repensar la forma en que se evalúan los resultados de las investigaciones científicas. Sin embargo, los problemas y críticas de los valores P no es algo nuevo. Desde su creación en 1920 por Ronald Fisher, se ha cuestionado su utilidad. Neyman, por ejemplo, lo consideraba un enfoque “peor que inútil”. Lo paradójico, es que su creador no lo consideraba como una prueba definitiva. En su diseño, estuvo pensado como una prueba informal de juzgar si la evidencia era significativa y ameritaba una segunda mirada. En su propuesta, el valor P debía ser una fase de un proceso para llegar a conclusiones científicas y no el fin del análisis.

Ignorando estas discusiones, distintos autores de manuales y libros de estadística, que combinaba la visión de Fisher sobre un valor P fácil y los sistemas de reglas de Neyman y Pearson. Lo que dio origen al valor de 0.05 como “estadísticamente significativo”. Lo que pueden hacer los valores P es resumir datos asumiendo una hipótesis nula específica, y no logra hacer afirmaciones sobre la realidad que le subyace. Poder dar cuenta de esto, requeriría otros enfoques o información. Un punto esencial, es tener en cuenta las probabilidades de que se dé un efecto real.

Entre más inverosímil es la hipótesis que se someta a prueba, más alta será la posibilidad de tener una falsa alarma aunque sea “estadísticamente significativa”. Las falsas alarmas son complejas cuando se hace uso del valor P. Según cálculos presentados en la lectura, si hay valor P de 0.01, tiene al menos un riesgo de 11% de falsa alarma. Cuando el valor es 0.05 es de al menos el 29%.

Otros de los problemas que puede traer consigo el uso acrítico de los valores P, es que pueden inducir a pensamientos confusos. Puede que el valor sea significativo en el estándar usado, pero el efecto real sea mínimo. Lo que lleve a valorar conclusiones de forma errada. Esto se relaciona con lo que Geoff Cumming valora como la seducción de la importancia. Para esto, plantea que la significancia estadística no es un buen indicador de relevancia práctica. En sus términos “Deberíamos estar preguntandonos, ‘¿Cuánto de un efecto hay?’, no ‘¿Hay un efecto?’”.

Pero quizá, el punto en el que es más complejo con el uso de este valor, es el autoengaño de los investigadores. En este caso, se refieren al “P-hacking” que es la prueba de distintas mediciones hasta lograr el resultado esperado, aunque sea de forma inconsciente. Poder estimar cuál es el impacto del “P-hacking” en las investigaciones, pero Simonsohn considera que es alto. Él ha encontrado en un análisis de estudios de sicología, que muchos reportes dan como resultados de valor P que se agrupan sospechosamente cerca del 0.05. Lo que indicaría que los autores pudieron estar al acecho de valores significativos hasta que los encontraron. Lo que indica que el uso sigue siendo popular.

En cuanto a posibles alternativas que se pueden usar, y se mencionan en la lectura, para ayudar a los investigadores, están: 1) que se informen los tamaños del efecto e intervalos de confianza que logran trasmitir la magnitud e importancia relativa del efecto, lo que el valor P no hace; 2) reemplazar el valor P con modelos bayesianos que piensan la probabilidad como la plausibilidad de un resultado y no en la frecuencia potencial de ese resultado; 3) otros optan por un enfoque en el que se prueben simultáneamente varios métodos con los mismos datos; 4) es que los autores sean transparentes en sus investigaciones y publiquen toco como el tamaño de muestra, las exclusiones de datos y las manipulaciones; y 5) hacer el análisis en dos etapas que permite libertad y flexibilidad en los análisis, y a la vez tiene suficiente rigor para reducir la cantidad de falsas alarmas.

Opiniones sobre el artículo y el valor P luego de la lectura

La importancia que ha ganado el valor P es indiscutible. Incluso, hasta antes de entrar a la maestría, con mi conocimiento sobre estadística y la formación que me dieron en el pregrado, nunca fue puesto en duda su utilidad. Nunca se cuestionó sus límites o problemas para realizar inferencias estadísticas. Lo que me resulta más llamativo, es poder hacer un llamado a complementar las aproximaciones, con distintas herramientas de análisis, con el fin de fomentar una discusión sobre los resultados de las investigaciones. Esto es en favor del conocimiento, ajustado a los datos y los efectos que se quieren analizar.

No por ser un resultado sexy, debe ser utilizado. El afán no debe ser validar las ideas previas que tenemos, ni demostrar de manera espuria un modelo conceptual que no se corresponde con los datos. La tarea está en poder construir análisis que sean lo suficientemente rigurosos para llegar a conclusiones ciertas, y que respondan a las realidades. En este sentido, las alarmas sobre el valor P, no es para desestimar su uso. Es complementarlo y usar distintas herramientas que permitan estudiar los casos desde sus distintas aristas.

Poder contar con las herramientas necesarias, para que la información y resultados de las inferencias sean suficientes para tomar decisiones. El valor P es parte pero no el fin en estos análisis. Replicar los estudios, usar distintas herramientas, transparentar los procesamientos de datos, son solo algunos de los caminos para fomentar las discusiones estadísticas. Es necesario reconocer las posibilidades y límites de las herramientas de análisis que se utilizan. No es dejar de usarlas, es saber que nos dicen y sobre esto, tomar decisiones consientes sobre lo que nos dicen los datos.

Taller Unidad 2

Juan Sebastián Henao Aguirre

2022-09-01