Taller Simulacion Unidad 2

El Teorema del Límite Central es uno de los más importantes en la inferencia estadística y habla sobre la convergencia de los estimadores como la proporción muestral a la distribución normal. Algunos autores afirman que esta aproximación es bastante buena a partir del umbral n>30.

Realice una simulación en la cual genere una población de N=1000 (Lote) y además que el porcentaje de individuos (plantas) enfermas sea del 50%

Poblacion=c(rep("Enfermo",500),rep("Sano",500))
table(Poblacion)

## Poblacion
## Enfermo    Sano 
##     500     500

#b. Genere una función que permita obtener una muestra aleatoria de la población y calcule el estimador de la proporción muestral para un tamaño de muestra dado n

Calulo_estimador=function(n){
 Muestra=sample(Poblacion,size=n)
Pgorro=sum(Muestra=="Enfermo")/n #Estimador
return(Pgorro)
}
Calulo_estimador(n=10) #Tamaño de muestra n

## [1] 0.4

#c. Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores. ¿Qué tan simétricos son los datos?, ¿Son sesgados y qué pasa en cuanto a variabilidad?

pgorromuestras=sapply(rep(10,500),Calulo_estimador) #cantidad de muestras=500 tamaño muestra=10
hist(pgorromuestras)
abline(v=0.5,col="red",lwd=4)

media_estimadores=mean(pgorromuestras)
desviacion_estimadores=sd(pgorromuestras)
desviacion_teorica=sqrt((0.5*0.5)/10) 
media_poblacion=0.5
data.frame(media_poblacion,media_estimadores,desviacion_teorica,desviacion_estimadores)

media_poblacion	media_estimadores	desviacion_teorica	desviacion_estimadores
0.5	0.5088	0.1581139	0.1552119

#####
###
#
#la media de los estimadores resulta ser cercana al valor del parametro, esto muestra que comienza a darse una convergencia. 
#mediante la grafica se observa una tendencia a agruparse a ambos lados del parametro sin embargo dada la cantidad de muestras en la simulación se observa mayor proporcion por debajo del parametro
#La desviación de la simulación resulta cercana a la teorica que es bastante grande superando el 15%


#d. Realice los ejercicios completos b y c para tamaños de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores en cuanto a la normalidad. Investigue y utilice pruebas de bondad y ajuste (shapiro wilks) y métodos gráficos (grafico qq de normalidad).

tamaño_muestra=c(5,10,15,20,30,50,60,100,200,500)
comp_media_estimadores=1:10
comp_desviacion_estimadores=1:10
comp_Pvalue=1:10
comp_desv_teorica=1:10

for (i in 1:10){
  pgorromuestras=sapply(rep(tamaño_muestra[i],500),Calulo_estimador) #cantidad de muestras=500 tamaño muestra=i
  comp_media_estimadores[i]=mean(pgorromuestras)
  comp_desviacion_estimadores[i]=sd(pgorromuestras)
  comp_Pvalue[i]=(shapiro.test(pgorromuestras))[[2]]
  comp_desv_teorica[i]=sqrt((0.5*0.5)/tamaño_muestra[i])
}

plot(comp_media_estimadores,type="b",main="Media de los estimadores segun tamaño de muestra",xlab="tamaño de muestra")
abline(h=0.5,col="red",lwd=4)

plot(comp_desviacion_estimadores,type="b",main="Desviación de los estimadores segun tamaño de muestra",xlab="tamaño de muestra")
lines(comp_desv_teorica,col="red",type="b")

plot(comp_Pvalue,type="b",main="P-Value segun tamaño de muestra",xlab="tamaño de muestra")

hist(pgorromuestras)
abline(v=0.5,col="red",lwd=4)

qqnorm(pgorromuestras)
qqline(pgorromuestras,col="red",lwd=3)

Repita toda la simulación (puntos a – d) pero ahora con lotes con 10% y 90% de plantas enfermas. Concluya todo el ejercicio

#Con poblacion de enfermos 10%
Poblacion=c(rep("Enfermo",100),rep("Sano",900))
table(Poblacion)

## Poblacion
## Enfermo    Sano 
##     100     900

for (i in 1:10){
  pgorromuestras=sapply(rep(tamaño_muestra[i],500),Calulo_estimador) #cantidad de muestras=500 tamaño muestra=i
  comp_media_estimadores[i]=mean(pgorromuestras)
  comp_desviacion_estimadores[i]=sd(pgorromuestras)
  comp_Pvalue[i]=(shapiro.test(pgorromuestras))[[2]]
  comp_desv_teorica[i]=sqrt((0.9*0.1)/tamaño_muestra[i])
}

plot(comp_media_estimadores,type="b")
abline(h=0.1,col="red",lwd=4)

plot(comp_desviacion_estimadores,type="b")
lines(comp_desv_teorica,col="red",type="b")

plot(comp_Pvalue,type="b")

hist(pgorromuestras)
abline(v=0.1,col="red",lwd=4)

qqnorm(pgorromuestras)
qqline(pgorromuestras,col="red",lwd=3)

#Con población de enfermos 90%
Poblacion=c(rep("Enfermo",900),rep("Sano",100))
table(Poblacion)

## Poblacion
## Enfermo    Sano 
##     900     100

for (i in 1:10){
  pgorromuestras=sapply(rep(tamaño_muestra[i],500),Calulo_estimador) #cantidad de muestras=500 tamaño muestra=i
  comp_media_estimadores[i]=mean(pgorromuestras)
  comp_desviacion_estimadores[i]=sd(pgorromuestras)
  comp_Pvalue[i]=(shapiro.test(pgorromuestras))[[2]]
  comp_desv_teorica[i]=sqrt((0.1*0.9)/tamaño_muestra[i])
}

plot(comp_media_estimadores,type="b")
abline(h=0.9,col="red",lwd=4)

plot(comp_desviacion_estimadores,type="b")
lines(comp_desv_teorica,col="red",type="b")

plot(comp_Pvalue,type="b")

hist(pgorromuestras)
abline(v=0.9,col="red",lwd=4)

qqnorm(pgorromuestras)
qqline(pgorromuestras,col="red",lwd=3)

###
##
#cONCLUSIONES#
# A medida que se incrementa el tamaño de la muestra:
# - la media de los estimadores converge hacia la el valor del parametro
# - la desviación de los estimadores se hace mas pequeña
# - el PValue se incrementa, lo cual permite predecir que se acercaria con una      muestra mas grande a un valor p mayor al nivel de significancia con lo cual no se podria rechazar la hipotesis de que los datos no siguen una distribución normal
# - El cambio de la proporción de enfermos solo modifica el parametro alrededor del cual convergen los resultados

La comparación de tratamientos es una práctica fundamental en las ciencias agropecuarias y para esto a nivel estadístico se cuenta con algunas herramientas para apoyar el proceso de toma de decisiones y lograr concluir con algún grado de confianza que los resultados observados en una muestra son representativos y se pueden asociar a los tratamientos y no se deben únicamente al azar. Por medio una simulación validemos algunos de estos resultados

Suponga un escenario en el cual usted aplicó tratamientos diferentes a dos lotes y desea analizar si alguno de los dos presenta un mejor desempeño en el control de una plaga presente en ambos al momento inicial. Para ello utilizará como criterio de desempeño el tratamiento que menor % de plantas enfermas presente después de un tiempo de aplicación (es decir, si se presentan o no diferencias en las proporciones de enfermos P1 y P2). Realice una simulación en la cual genere dos poblaciones de N1=1000 (Lote1) y N2=1500 (Lote2), además asuma que el porcentaje de individuos (plantas) enfermas en ambos lotes sea la misma 10% (es decir, sin diferencias entre los tratamientos).

Lote1=c(rep("Enfermo",100),rep("Sano",900))
Lote2=c(rep("Enfermo",150),rep("Sano",1350))
table(Lote1)

## Lote1
## Enfermo    Sano 
##     100     900

table(Lote2)

## Lote2
## Enfermo    Sano 
##     150    1350

#b. Genere una función que permita obtener una muestra aleatoria de los lotes y calcule el estimador de la proporción muestral para cada lote (p1 y p2) para un tamaño de muestra dado n1=n2. Calcule la diferencia entre los estimadores p1-p2

Calulo_difestimadores=function(n){
 n1=n
 n2=n1
  Muestra1=sample(Lote1,size=n1)
p1=sum(Muestra1=="Enfermo")/n1
Muestra2=sample(Lote2,size=n2)
p2=sum(Muestra2=="Enfermo")/n2
diferencia_p=(p1-p2)
return(diferencia_p)
}
n1=60
Calulo_difestimadores(n=n1)

## [1] -0.06666667

#c. Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores (diferencias p1-p2). ¿Qué tan simétricos son los datos?, ¿Son siempre cero las diferencias?

dif_p=sapply(rep(n1,500),Calulo_difestimadores)
summary(dif_p)

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.13333 -0.03333  0.00000 -0.00100  0.03333  0.15000

hist(dif_p)
abline(v=0,col="red",lwd=4)

###
##
# Los datos bajo el tamaño de muestra planteado no muestran suficiente simetria alrededor del parametro
# Las diferencia no siempre son cero, a lo largo de las muestras toma diferentes valores y en el resumen de los datos se evidencia que el valor de la media es diferente de cero


#d. Realice los puntos b y c para tamaños de muestra n1=n2=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores (p1-p2) en cuanto a la normalidad. También analice el comportamiento de las diferencias y evalúe. ¿Considera que es más probable concluir que existen diferencias entre los tratamientos con muestras grandes que pequeñas, es decir, cuál considera usted que es el efecto del tamaño de muestra en el caso de la comparación de proporciones?

for (i in 1:10){
  dif_p=sapply(rep(tamaño_muestra[i],500),Calulo_difestimadores) #cantidad de muestras=500 tamaño muestra=i
  comp_media_estimadores[i]=mean(dif_p)
  comp_desviacion_estimadores[i]=sd(dif_p)
  comp_Pvalue[i]=(shapiro.test(dif_p))[[2]]
  comp_desv_teorica[i]=sqrt((0.5*0.5)/tamaño_muestra[i])
}

plot(comp_media_estimadores,type="b")
abline(h=0,col="red",lwd=4)

plot(comp_desviacion_estimadores,type="b")
lines(comp_desv_teorica,col="red",type="b")

plot(comp_Pvalue,type="b")

hist(dif_p)
abline(v=0,col="red",lwd=4)

qqnorm(dif_p)
qqline(dif_p,col="red",lwd=3)

###
##
# se puede concluir que una muestra de mayor tamaño brinda mayor certeza al momento de afirmar que no existen diferncias entre ambas poblaciones con base en las muestras modeladas 


#e. Ahora realice nuevamente los puntos a-d bajo un escenario con dos lotes, pero de proporciones de enfermos diferentes (P1=0.1 y P2=0.15), es decir, el tratamiento del lote 1 si presentó un mejor desempeño reduciendo en un 5% el porcentaje de enfermos. Bajo este nuevo escenario compare la distribución de estas diferencias (p1-p2) con las observadas bajo igualdad de condiciones en los lotes. ¿Qué puede concluir? ¿Existen puntos en los cuales es posible que se observen diferencias de p1- p2 bajo ambos escenarios (escenario 1: sin diferencias entre P1 y P2, escenario 2: diferencia de 5%)?

Lote1=c(rep("Enfermo",100),rep("Sano",900))
Lote2=c(rep("Enfermo",225),rep("Sano",1275))
table(Lote1)

## Lote1
## Enfermo    Sano 
##     100     900

table(Lote2)

## Lote2
## Enfermo    Sano 
##     225    1275

P1=sum(Lote1=="Enfermo")/(sum(Lote1=="Sano")+sum(Lote1=="Enfermo"))
P2=sum(Lote2=="Enfermo")/(sum(Lote2=="Sano")+sum(Lote2=="Enfermo"))


for (i in 1:10){
  dif_p=sapply(rep(tamaño_muestra[i],500),Calulo_difestimadores) #cantidad de muestras=500 tamaño muestra=i
  comp_media_estimadores[i]=mean(dif_p)
  comp_desviacion_estimadores[i]=sd(dif_p)
  comp_Pvalue[i]=(shapiro.test(dif_p))[[2]]
  comp_desv_teorica[i]=sqrt((0.5*0.5)/tamaño_muestra[i])
}

plot(comp_media_estimadores,type="b")
abline(h=-0.05,col="red",lwd=4)

plot(comp_desviacion_estimadores,type="b")
lines(comp_desv_teorica,col="red",type="b")

plot(comp_Pvalue,type="b")

hist(dif_p)
abline(v=-0.05,col="red",lwd=4)

qqnorm(dif_p)
qqline(dif_p,col="red",lwd=3)

###
##
#
#Es completamente normal encontrar durante la modelación muestras con diferencias del resultado de p2-p1 en ambos escenarios.la unica diferencia entre ambos escenarios es que mientras la proporcion es igual, el resultado convergera hacia el cero, mientras que en el otro caso el resultado convergerá hacia la diferencia de los parametros.

Con base a los artículos “Statistical Errors: P values, the gold standard of statistical validity, are not as reliable as many scientists assume” & “Statisticians issue warning on P values: Statement aims to halt missteps in the quest for certainty” escriba un resumen (máximo 2 páginas) sobre ambos artículos e incluya en este sus opiniones en cuanto al uso del valor p como criterio de decisión en inferencia estadística.

De acuerdo con el autor del articulo, se indica que el valor P, que lleva nueve decadas de existencia; no es tan fiable ni tan objetivo como suponen la mayoria de cientificos, lo cual lleva actualmente a pensar en otras manera de cómo se deben evaluar los resultados.

Ronald Fisher introdujo el Valor P en los años 20s, pensandolo como una forma de juzgar si la evidencia es significativa. para esto se plantea una hipotesis nula a refutar, y suponiendo que fuera cierta se calculan las posibilidades de obtener resultados extremos, cuanto mas pequeño el valor, mayor probabilidad de la hipotesis nula fuera falsa. En su momento fisher pensaba que no solo el proceso numerico llevaria a las conclusiones cientificas sino que era importante una mezcla de los datos con el conocimiento del contexto.con el pasar del tiempo, dada la facilidad de concluir con base en este valor, se ha llevado a utilizar para todo tipo de hipotesis, que en algunos casos son tan complejas que poca relación tienen con la naturaleza de los datos y el problema

Siendo conscientes de las limitaciones y el uso errado del valor p muchos autores han realizado propuesta sobre alternativas que pueden ser mas efectivas; Cumming cree que los investigadores deben informar los tamaños del efecto y los intervalos de confianza ya que estos transmiten lo que un valor p no:la magnitud y la importancia relativa del efecto.

Taller Simulacion Unidad 2

Will Castaño

30/3/2022