Taller de inferencia estadística y simulacion

Punto 1. El Teorema del Límite Central es uno de los más importantes en la inferencia estadística y habla obre la convergencia de los estimadores como la proporción muestral a la distribución normal. Algunos autores afirman que esta aproximación es bastante buena a partir del umbral n>30.
a)	Realice una simulación en la cual genere una población de N=1000 (Lote) y además que el porcentaje de individuos (plantas) enfermas sea del 50%.

Creación de Lote

lote=c(rep("enfermo",500),rep("sana",500))
prop.test(x = 500, n=1000, conf.level = 0.9)

## 
##  1-sample proportions test without continuity correction
## 
## data:  500 out of 1000, null probability 0.5
## X-squared = 0, df = 1, p-value = 1
## alternative hypothesis: true p is not equal to 0.5
## 90 percent confidence interval:
##  0.4740277 0.5259723
## sample estimates:
##   p 
## 0.5

#sample(lote)
#lote

Punto 1.
b)	Genere una función que permita obtener una muestra aleatoria de la población y calcule el estimador de la proporción muestral para un tamaño de muestra dado n.

calc_p_gorro=function(n){
  
  muestra=sample(lote,size = n)
  p_gorro=sum(muestra=="enfermo")/n
  return(p_gorro)
  
}

n = 500
calc_p_gorro(500)

## [1] 0.516

Punto 1
c)	Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores. ¿Qué tan simétricos son los datos?, ¿Son sesgados y qué pasa en cuanto a variabilidad?

posibles_p_gorro=sapply(rep(500,500), calc_p_gorro)
media= mean(posibles_p_gorro)
sd(posibles_p_gorro)

## [1] 0.0156361

#summary(posibles_p_gorro)
par(mfrow = c(2, 2))
hist(posibles_p_gorro)
abline(v=media,col="blue",lwd=4)

qqnorm(posibles_p_gorro, pch = 2, col = "blue")
qqline(posibles_p_gorro)

Punto 1
d)	Realice los ejercicios completos b y c para tamaños de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores en cuanto a la normalidad. Investigue y utilice pruebas de bondad y ajuste (shapiro wilks) y métodos gráficos (grafico qq de normalidad)

test_posibles_p_gorro = function(m,i){
par(mfrow = c(1, 2))
posibles_p_gorro=sapply(rep(m,i), calc_p_gorro)
media= mean(posibles_p_gorro)
hist(posibles_p_gorro,main="Hist medias muestrales  muestras",ylab = m,xlab = i)
abline(v=media,col="blue",lwd=4)
qqnorm(posibles_p_gorro, pch = 2, col = "blue",ylab = m,xlab = i )
qqline(posibles_p_gorro)

}

test_posibles_p_gorro(5,500)

test_posibles_p_gorro(10,500)

test_posibles_p_gorro(15,500)

test_posibles_p_gorro(30,500)

test_posibles_p_gorro(50,500)

test_posibles_p_gorro(60,500)

test_posibles_p_gorro(100,500)

test_posibles_p_gorro(200,500)

test_posibles_p_gorro(500,500)

Punto 1
e)	Repita toda la simulación (puntos a – d) pero ahora con lotes con 10% y 90% de plantas enfermas. Concluya todo el ejercicio.

lote=c(rep("enfermo",100),rep("sana",900))
test_posibles_p_gorro(5,500)

lote=c(rep("enfermo",100),rep("sana",900))
test_posibles_p_gorro(10,500)

lote=c(rep("enfermo",100),rep("sana",900))
test_posibles_p_gorro(15,500)

lote=c(rep("enfermo",100),rep("sana",900))
test_posibles_p_gorro(30,500)

lote=c(rep("enfermo",100),rep("sana",900))
test_posibles_p_gorro(50,500)

lote=c(rep("enfermo",100),rep("sana",900))
test_posibles_p_gorro(60,500)

lote=c(rep("enfermo",100),rep("sana",900))
test_posibles_p_gorro(100,500)

lote=c(rep("enfermo",100),rep("sana",900))
test_posibles_p_gorro(200,500)

lote=c(rep("enfermo",100),rep("sana",900))
test_posibles_p_gorro(500,500)

###

Al revisar cada uno de los resultados en conjunto, validando cada uno de los escenarios entre los cuales se varia la proporción de la muestra se evidencia que al usar un tamaño de muestra más grande la distribución de proporción se acerca a una distribución normal. Es decir que entre un numero mas alto de muestra tenga, se parece mas a la distribución normal. Al tomar una muestra y analizar que la proporción es igual a 0.1, cuando n=500, nos sugiere un valor p de aproximadamente 0.2, y con este resultado no rechazaríamos H0, por tal motivo es posible distribuirse de forma aproximadamente normal.

Punto 2 La comparación de tratamientos es una práctica fundamental en las ciencias agropecuarias y para esto a nivel estadístico se cuenta con algunas herramientas para apoyar el proceso de toma de decisiones y lograr concluir con algún grado de confianza que los resultados observados en una muestra son representativos y se pueden asociar a los tratamientos y no se deben únicamente al azar. Por medio una simulación validemos algunos de estos resultados.
a)	Suponga un escenario en el cual usted aplicó tratamientos diferentes a dos lotes y desea analizar si alguno de los dos presenta un mejor desempeño en el control de una plaga presente en ambos al momento inicial. Para ello utilizará como criterio de desempeño el tratamiento que menor % de plantas enfermas presente después de un tiempo de aplicación (es decir, si se presentan o no diferencias en las proporciones de enfermos P1 y P2). Realice una simulación en la cual genere dos poblaciones de N1=1000 (Lote1) y N2=1500 (Lote2), además asuma que el porcentaje de individuos (plantas) enfermas en ambos lotes sea la misma 10% (es decir, sin diferencias entre los tratamientos).

Punto 2 La comparación de tratamientos es una práctica fundamental en las ciencias agropecuarias y para esto a nivel estadístico se cuenta con algunas herramientas para apoyar el proceso de toma de decisiones y lograr concluir con algún grado de confianza que los resultados observados en una muestra son representativos y se pueden asociar a los tratamientos y no se deben únicamente al azar. Por medio una simulación validemos algunos de estos resultados.

Suponga un escenario en el cual usted aplicó tratamientos diferentes a dos lotes y desea analizar si alguno de los dos presenta un mejor desempeño en el control de una plaga presente en ambos al momento inicial. Para ello utilizará como criterio de desempeño el tratamiento que menor % de plantas enfermas presente después de un tiempo de aplicación (es decir, si se presentan o no diferencias en las proporciones de enfermos P1 y P2). Realice una simulación en la cual genere dos poblaciones de N1=1000 (Lote1) y N2=1500 (Lote2), además asuma que el porcentaje de individuos (plantas) enfermas en ambos lotes sea la misma 10% (es decir, sin diferencias entre los tratamientos).

lote1=c(rep("enfermo",100),rep("sanos",900))
lote2=c(rep("enfermo",150),rep("sanos",1350))

P1=100/1000
P2=150/1500

Punto 2
b)	Genere una función que permita obtener una muestra aleatoria de los lotes y calcule el estimador de la proporción muestral para cada lote (p1 y p2) para un tamaño de muestra dado n1=n2. xalcule la diferencia entre los estimadores p1-p2.

calc_dif_p=function(n1){
  n2=n1
  muestra1=sample(lote1,n1)
  p1=sum(muestra1=="enfermo")/n1
  muestra2=sample(lote2,n2)
  p2=sum(muestra2=="enfermo")/n2
  
  dif_p=p1-p2
  return(dif_p)
}
calc_dif_p(n1 = 60)

## [1] 0.1

Punto 2
c)	Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores (diferencias p1-p2). ¿Qué tan simétricos son los datos?, ¿Son siempre cero las diferencias?

dif_p=sapply(rep(60,500), calc_dif_p)
table(dif_p==0)

## 
## FALSE  TRUE 
##   445    55

summary(dif_p)

##       Min.    1st Qu.     Median       Mean    3rd Qu.       Max. 
## -0.1666667 -0.0333333  0.0000000 -0.0001333  0.0333333  0.1666667

#Histograma Estimación Proporción (P=0.5) t= 60 Rep=,500

hist(dif_p)
abline(v=mean(dif_p),col="blue",lwd=4)
abline(v=0.5,col="red",lwd=4)

Podemos analizar respecto a la información presentada anteriormente y el histograma generado que si usamos muestra de tamaño igual a 60, Se toma el valor P teórico cercano al p^ estimado que puede estar relacionado a una coincidencia, debido a que se está trabajando un n>30, pero aún no se debe afirmar que, por teorema de límite central, el p^ estimado converge al P real.

Punto 2
d)	Realice los puntos b y c para tamaños de muestra n1=n2=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores (p1-p2) en cuanto a la normalidad. También analice el comportamiento de las diferencias y evalúe. ¿Considera que es más probable concluir que existen diferencias entre los tratamientos con muestras grandes que pequeñas, es decir, cuál considera usted que es el efecto del tamaño de muestra en el caso de la comparación de proporciones? Simulación 10% plantas Enfermas - 500 Estimadores

Punto 2

Realice los puntos b y c para tamaños de muestra n1=n2=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores (p1-p2) en cuanto a la normalidad. También analice el comportamiento de las diferencias y evalúe. ¿Considera que es más probable concluir que existen diferencias entre los tratamientos con muestras grandes que pequeñas, es decir, cuál considera usted que es el efecto del tamaño de muestra en el caso de la comparación de proporciones? Simulación 10% plantas Enfermas - 500 Estimadores

## [1] 1

poblacion=1000;
porc_categoria1=90/100
porc_categoria2=1-porc_categoria1

lote=c(rep("Enferma",poblacion*porc_categoria1),rep("Sana",poblacion*porc_categoria2))
lote=sample(lote)



#B
proporcion_muestral=function(tam_muestra){
  muestra=sample(lote,size = tam_muestra)
  prop_muestral=sum(muestra=="Enferma")/tam_muestra
  return(prop_muestral)
}


#C
comportamiento=function(muestra,repeticiones){
  posibles_comportamientos=sapply(rep(muestra,repeticiones), proporcion_muestral)
  return(posibles_comportamientos)
}

library(plotly)

## Loading required package: ggplot2

## Warning in as.POSIXlt.POSIXct(Sys.time()): unable to identify current timezone 'H':
## please set environment variable 'TZ'

## 
## Attaching package: 'plotly'

## The following object is masked from 'package:ggplot2':
## 
##     last_plot

## The following object is masked from 'package:stats':
## 
##     filter

## The following object is masked from 'package:graphics':
## 
##     layout

vector=c(10,15,20,30,50,60,100,200,500)
grafica=function(vector){
  fig <- plot_ly(
    type='histogram',
    x=~comportamiento(5,500),
    name=paste("muestra=",5,"de 500 estimadores"),
    bingroup=1)
  for(i in vector){
    fig <- fig %>% add_trace(
      type='histogram',
      x=~comportamiento(i,500),
      name=paste("muestra=",i,"de 500 estimadores"),
      bingroup=1)
  }
  fig <- fig %>% layout(
    barmode="overlay",
    bargap=0.3)
  return (fig)
}
grafica(vector)

Punto 2
e)	Ahora realice nuevamente los puntos a-d bajo un escenario con dos lotes, pero de proporciones de enfermos diferentes (P1=0.1 y P2=0.15), es decir, el tratamiento del lote 1 si presentó un mejor desempeño reduciendo en un 5% el porcentaje de enfermos. Bajo este nuevo escenario compare la distribución de estas diferencias (p1-p2) con las observadas bajo igualdad de condiciones en los lotes. ¿Qué puede concluir? ¿Existen puntos en los cuales es posible que se observen diferencias de p1- p2 bajo ambos escenarios (escenario 1: sin diferencias entre P1 y P2, escenario 2: diferencia de 5%)?

Punto 2

Ahora realice nuevamente los puntos a-d bajo un escenario con dos lotes, pero de proporciones de enfermos diferentes (P1=0.1 y P2=0.15), es decir, el tratamiento del lote 1 si presentó un mejor desempeño reduciendo en un 5% el porcentaje de enfermos. Bajo este nuevo escenario compare la distribución de estas diferencias (p1-p2) con las observadas bajo igualdad de condiciones en los lotes. ¿Qué puede concluir? ¿Existen puntos en los cuales es posible que se observen diferencias de p1- p2 bajo ambos escenarios (escenario 1: sin diferencias entre P1 y P2, escenario 2: diferencia de 5%)?

N1=1000
N2=1500

porc_categoria1a=10/100
porc_categoria2a=1-porc_categoria1a

porc_categoria1b=15/100
porc_categoria2b=1-porc_categoria1b

lote1=c(rep("Enferma",N1*porc_categoria1a),rep("Sana",N1*porc_categoria2a))
lote1=sample(lote1)


lote2=c(rep("Enferma",N2*porc_categoria1b),rep("Sana",N2*porc_categoria2b))
lote2=sample(lote2)

proporcion_muestral1=function(tam_muestra){
  muestra=sample(lote1,size = tam_muestra)
  prop_muestral=sum(muestra=="Enferma")/tam_muestra
  return(prop_muestral)
}


proporcion_muestral2=function(tam_muestra){
  muestra=sample(lote2,size = tam_muestra)
  prop_muestral=sum(muestra=="Enferma")/tam_muestra
  return(prop_muestral)
}


diferencia=(proporcion_muestral1(50)-proporcion_muestral2(50))
diferencia

## [1] -0.04

comportamiento1=function(muestra1,repeticiones){
  posibles_comportamientos=sapply(rep(muestra1,repeticiones), proporcion_muestral1)
  return(posibles_comportamientos)
}

comportamiento2=function(muestra2,repeticiones){
  posibles_comportamientos=sapply(rep(muestra2,repeticiones), proporcion_muestral2)
  return(posibles_comportamientos)
}

fun_dif=function(muestra,repeticiones){
  diferencia=(comportamiento1(muestra,repeticiones)-comportamiento2(muestra,repeticiones))
  return (diferencia)
}

diferencia=fun_dif(50,500)
table(diferencia==0)

## 
## FALSE  TRUE 
##   445    55

hist(diferencia,freq=F)
lines(density(diferencia),lw=3,col="red")
abline(v=mean(diferencia),col="blue",lwd=3)

qqnorm(diferencia)
qqline(diferencia,col="red",lwd=3)

shapiro.test(x = diferencia)

## 
##  Shapiro-Wilk normality test
## 
## data:  diferencia
## W = 0.98988, p-value = 0.001612

Punto 3
a)	Con base a los artículos “Statistical Errors: P values, the gold standard of statistical validity, are not as reliable as many scientists assume” & “Statisticians issue warning on P values: Statement aims to halt missteps in the quest for certainty” escriba un resumen (máximo 2 páginas) sobre ambos artículos e incluya en este sus opiniones en cuanto al uso del valor p como criterio de decisión en inferencia estadística.

Punto 3

Con base a los artículos “Statistical Errors: P values, the gold standard of statistical validity, are not as reliable as many scientists assume” & “Statisticians issue warning on P values: Statement aims to halt missteps in the quest for certainty” escriba un resumen (máximo 2 páginas) sobre ambos artículos e incluya en este sus opiniones en cuanto al uso del valor p como criterio de decisión en inferencia estadística.

Taller de inferencia estadística y simulacion

Michael Steven Morales Firaya

28/3/2022

Creación de Lote