Taller - Simulación

Inferencia estadística y simulación

Emerson Trujillo Sierra

22/Marzo/2022

Pregunta 1

El Teorema del Límite Central es uno de los más importantes en la inferencia estadística y habla sobre la convergencia de los estimadores como la proporción muestral a la distribución normal. Algunos autores
afirman que esta aproximación es bastante buena a partir del umbral n>30.

Realice una simulación en la cual genere una población de N=1000 (Lote) y además que el porcentaje de individuos (plantas) enfermas sea del 50%.

    lote=c(rep("enfermo",500),rep("sano",500))

Genere una función que permita obtener una muestra aleatoria de la población y calcule el estimador de la proporción muestral para un tamaño de muestra dado n.

## se toman las muestras
calc_p_gorro=function(n){
muestra=sample(lote,size = n)
p_gorro=sum(muestra=="enfermo")/n
return(p_gorro)

}
calc_p_gorro(n = 5)

## [1] 0.8

Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores. ¿Qué tan simétricos son los datos?, ¿Son sesgados y qué pasa en cuanto a variabilidad?

library(moments)
posibles_p_gorro=sapply(rep(100,10000), calc_p_gorro)
hist(posibles_p_gorro)

plot(density(posibles_p_gorro), las=1, ylab = "Densidad", main = "")

mean(posibles_p_gorro) ##Promedio

## [1] 0.499992

sd(posibles_p_gorro)  ## Desviación Estandar

## [1] 0.04794507

summary(posibles_p_gorro)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.32    0.47    0.50    0.50    0.53    0.68

skewness(posibles_p_gorro)

## [1] -0.04191646

El resultado de asimetria es cerca a cero, se puede decir que es levemente asimetrica. Entre mas alta sea la muestra, da valores mas cercano valor real y la desviación estandar es más baja. Se evidencia que hay poca dispersión en los datos.

sqrt((0.5*0.5)/100)

## [1] 0.05

Realice los ejercicios completos b y c para tamaños de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores en cuanto a la normalidad. Investigue y utilice pruebas de bondad y ajuste (shapiro wilks) y métodos gráficos (grafico qq de normalidad).

require(fitdistrplus)
posibles_p_gorro1=sapply(rep(5,10000), calc_p_gorro)
posibles_p_gorro2=sapply(rep(10,10000), calc_p_gorro)
posibles_p_gorro3=sapply(rep(15,10000), calc_p_gorro)
posibles_p_gorro4=sapply(rep(20,10000), calc_p_gorro)
posibles_p_gorro5=sapply(rep(30,10000), calc_p_gorro)
posibles_p_gorro6=sapply(rep(50,10000), calc_p_gorro)
posibles_p_gorro7=sapply(rep(60,10000), calc_p_gorro)
posibles_p_gorro8=sapply(rep(100,10000), calc_p_gorro)
posibles_p_gorro9=sapply(rep(200,10000), calc_p_gorro)
posibles_p_gorro10=sapply(rep(500,10000), calc_p_gorro)
##n=5
hist(posibles_p_gorro1)

Ajuste1=fitdistr(posibles_p_gorro1, "normal")
Ajuste1

##       mean           sd     
##   0.496460000   0.219844191 
##  (0.002198442) (0.001554533)

summary(posibles_p_gorro1)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.4000  0.4000  0.4965  0.6000  1.0000

##n=10
hist(posibles_p_gorro2)

Ajuste2=fitdistr(posibles_p_gorro2, "normal")
Ajuste2

##       mean           sd     
##   0.499320000   0.159879760 
##  (0.001598798) (0.001130521)

summary(posibles_p_gorro2)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.4000  0.5000  0.4993  0.6000  1.0000

##n=15
hist(posibles_p_gorro3)

Ajuste3=fitdistr(posibles_p_gorro3, "normal")
Ajuste3

##        mean            sd     
##   0.5016400000   0.1298579538 
##  (0.0012985795) (0.0009182344)

summary(posibles_p_gorro3)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.06667 0.40000 0.53333 0.50164 0.60000 0.93333

##n=20
hist(posibles_p_gorro4)

Ajuste4=fitdistr(posibles_p_gorro4, "normal")
Ajuste4

##       mean           sd     
##   0.501360000   0.110191426 
##  (0.001101914) (0.000779171)

summary(posibles_p_gorro4)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.1500  0.4500  0.5000  0.5014  0.6000  0.9000

##n=30
hist(posibles_p_gorro5)

Ajuste5=fitdistr(posibles_p_gorro5, "normal")
Ajuste5

##        mean            sd     
##   0.5008733333   0.0906685880 
##  (0.0009066859) (0.0006411237)

summary(posibles_p_gorro5)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2000  0.4333  0.5000  0.5009  0.5667  0.8000

##n=50
hist(posibles_p_gorro6)

Ajuste6=fitdistr(posibles_p_gorro6, "normal")
Ajuste6

##        mean            sd     
##   0.5004280000   0.0686339334 
##  (0.0006863393) (0.0004853152)

summary(posibles_p_gorro6)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2400  0.4600  0.5000  0.5004  0.5400  0.7200

##n=60
hist(posibles_p_gorro7)

Ajuste7=fitdistr(posibles_p_gorro7, "normal")
Ajuste7

##        mean            sd     
##   0.4989550000   0.0621882641 
##  (0.0006218826) (0.0004397374)

summary(posibles_p_gorro7)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2667  0.4500  0.5000  0.4990  0.5333  0.7333

##n=100
hist(posibles_p_gorro8)

Ajuste8=fitdistr(posibles_p_gorro8, "normal")
Ajuste8

##        mean            sd     
##   0.4999620000   0.0465740116 
##  (0.0004657401) (0.0003293280)

summary(posibles_p_gorro8)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.33    0.47    0.50    0.50    0.53    0.67

##n=200
hist(posibles_p_gorro9)

Ajuste9=fitdistr(posibles_p_gorro9, "normal")
Ajuste9

##        mean            sd     
##   0.4999930000   0.0312263503 
##  (0.0003122635) (0.0002208036)

summary(posibles_p_gorro9)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.375   0.480   0.500   0.500   0.520   0.615

qqnorm(posibles_p_gorro9)
qqline(posibles_p_gorro9,col="red",lwd=3)

##n=500
hist(posibles_p_gorro10)
abline(v=mean(posibles_p_gorro10), col="green", lwd=3)

Ajuste10=fitdistr(posibles_p_gorro10, "normal")
Ajuste10

##        mean            sd     
##   0.4998168000   0.0157855642 
##  (0.0001578556) (0.0001116208)

summary(posibles_p_gorro10)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.4300  0.4900  0.5000  0.4998  0.5100  0.5600

qqnorm(posibles_p_gorro10)
qqline(posibles_p_gorro10,col="red",lwd=3)

Repita toda la simulación (puntos a – d) pero ahora con lotes con 10% y 90% de plantas enfermas. Concluya todo el ejercicio.

## Punto a*************************************************************  

 lote1=c(rep("enfermo",100),rep("sano",900))

## Punto b*************************************************************

  ## se toman las muestras
calc_p_gorro1=function(n){
muestra1=sample(lote1,size = n)
p_gorro1=sum(muestra1=="enfermo")/n
return(p_gorro1)
}
 
 
##Punto c*************************************************************

posibles_p_gorrob_n100=sapply(rep(100,10000), calc_p_gorro1)
hist(posibles_p_gorrob_n100)

mean(posibles_p_gorrob_n100) ##Promedio

## [1] 0.100099

sd(posibles_p_gorrob_n100)  ## Desviación Estandar

## [1] 0.02845595

summary(posibles_p_gorrob_n100)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0100  0.0800  0.1000  0.1001  0.1200  0.2100

##Punto d*************************************************************
posibles_p_gorrob1=sapply(rep(5,10000), calc_p_gorro1)
posibles_p_gorrob2=sapply(rep(10,10000), calc_p_gorro1)
posibles_p_gorrob3=sapply(rep(15,10000), calc_p_gorro1)
posibles_p_gorrob4=sapply(rep(20,10000), calc_p_gorro1)
posibles_p_gorrob5=sapply(rep(30,10000), calc_p_gorro1)
posibles_p_gorrob6=sapply(rep(50,10000), calc_p_gorro1)
posibles_p_gorrob7=sapply(rep(60,10000), calc_p_gorro1)
posibles_p_gorrob8=sapply(rep(100,10000), calc_p_gorro1)
posibles_p_gorrob9=sapply(rep(200,10000), calc_p_gorro1)
posibles_p_gorrob10=sapply(rep(500,10000), calc_p_gorro1)
##n=5
hist(posibles_p_gorrob1)

Ajuste1=fitdistr(posibles_p_gorrob1, "normal")
Ajuste1

##        mean            sd     
##   0.0994000000   0.1325731496 
##  (0.0013257315) (0.0009374337)

summary(posibles_p_gorrob1)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0000  0.0000  0.0994  0.2000  0.8000

##n=10
hist(posibles_p_gorrob2)

Ajuste2=fitdistr(posibles_p_gorrob2, "normal")
Ajuste2

##        mean            sd     
##   0.1013100000   0.0956832478 
##  (0.0009568325) (0.0006765827)

summary(posibles_p_gorrob2)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0000  0.1000  0.1013  0.2000  0.6000

##n=15
hist(posibles_p_gorrob3)

Ajuste3=fitdistr(posibles_p_gorrob3, "normal")
Ajuste3

##        mean            sd     
##   0.1003000000   0.0774820338 
##  (0.0007748203) (0.0005478807)

summary(posibles_p_gorrob3)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.00000 0.06667 0.06667 0.10030 0.13333 0.46667

##n=20
hist(posibles_p_gorrob4)

Ajuste4=fitdistr(posibles_p_gorrob4, "normal")
Ajuste4

##        mean            sd     
##   0.0992900000   0.0664416729 
##  (0.0006644167) (0.0004698136)

summary(posibles_p_gorrob4)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.00000 0.05000 0.10000 0.09929 0.15000 0.40000

##n=30
hist(posibles_p_gorrob5)

Ajuste5=fitdistr(posibles_p_gorrob5, "normal")
Ajuste5

##        mean            sd     
##   0.0993166667   0.0544985193 
##  (0.0005449852) (0.0003853627)

summary(posibles_p_gorrob5)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.00000 0.06667 0.10000 0.09932 0.13333 0.33333

##n=50
hist(posibles_p_gorrob6)

Ajuste6=fitdistr(posibles_p_gorrob6, "normal")
Ajuste6

##        mean            sd     
##   0.0994360000   0.0414970108 
##  (0.0004149701) (0.0002934282)

summary(posibles_p_gorrob6)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.00000 0.06000 0.10000 0.09944 0.12000 0.28000

##n=60
hist(posibles_p_gorrob7)

Ajuste7=fitdistr(posibles_p_gorrob7, "normal")
Ajuste7

##        mean            sd     
##   0.1005150000   0.0377047934 
##  (0.0003770479) (0.0002666132)

summary(posibles_p_gorrob7)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.00000 0.06667 0.10000 0.10051 0.11667 0.25000

##n=100
hist(posibles_p_gorro8)

Ajuste8=fitdistr(posibles_p_gorro8, "normal")
Ajuste8

##        mean            sd     
##   0.4999620000   0.0465740116 
##  (0.0004657401) (0.0003293280)

summary(posibles_p_gorro8)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.33    0.47    0.50    0.50    0.53    0.67

##n=200
hist(posibles_p_gorrob9)

Ajuste9=fitdistr(posibles_p_gorrob9, "normal")
Ajuste9

##        mean            sd     
##   0.1000400000   0.0189960101 
##  (0.0001899601) (0.0001343221)

summary(posibles_p_gorrob9)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.030   0.085   0.100   0.100   0.115   0.170

##n=500
hist(posibles_p_gorrob10)

Ajuste10=fitdistr(posibles_p_gorrob10, "normal")
Ajuste10

##        mean            sd     
##   9.998900e-02   9.520561e-03 
##  (9.520561e-05) (6.732053e-05)

summary(posibles_p_gorrob10)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.06400 0.09400 0.10000 0.09999 0.10600 0.13400

sqrt((0.1*0.9)/500)

## [1] 0.01341641

Conclusión del punto 1

Se puede observar que las muestras tomadas de la población, en su mayoría tienden a la distribución normal, cada vez que son consideradas muestras para n>30. En el ejercicio, mostraba algunas variaciones en las muestras pequeñas (n<30) con respecto a la tendencia a la normalidad. Es importante observar que, la media poblacional es muy parecida a la media muestral, sobre todo cuando tomamos la muestra de n = 500. Podemos percibir que tomando una sala muestra de la población podríamos inferir de manera general en la población.

Pregunta 2

La comparación de tratamientos es una práctica fundamental en las ciencias agropecuarias y para esto a nivel estadístico se cuenta con algunas herramientas para apoyar el proceso de toma de decisiones y lograr concluir con algún grado de confianza que los resultados observados en una muestra son representativos y se pueden asociar a los tratamientos y no se deben únicamente al azar. Por medio una simulación validemos algunos de estos resultados.

Suponga un escenario en el cual usted aplicó tratamientos diferentes a dos lotes y desea analizar si alguno de los dos presenta un mejor desempeño en el control de una plaga presente en ambos al momento inicial. Para ello utilizará como criterio de desempeño el tratamiento que menor % de plantas enfermas presente después de un tiempo de aplicación (es decir, si se presentan o no diferencias en las proporciones de enfermos P1 y P2). Realice una simulación en la cual genere dos poblaciones de N1=1000 (Lote1) y N2=1500 (Lote2), además asuma que el porcentaje de individuos (plantas) enfermas en ambos lotes sea la misma 10% (es decir, sin diferencias entre los tratamientos).

lote_N1=c(rep("enfermas",100),rep("sanas",900))
lote_N2=c(rep("enfermas",150),rep("sanas",1350))

b.Genere una función que permita obtener una muestra aleatoria de los lotes y calcule el estimador de la proporción muestral para cada lote (p1 y p2) para un tamaño de muestra dado n1=n2. Calcule la diferencia entre los estimadores p1-p2.

## se toman las muestras y las diferencias de las dos muestras.
calcdif_p_gorro=function(n1){
n2=n1
muestraN1=sample(lote_N1,size = n1)
muestraN2=sample(lote_N2,size = n2)
p_gorroN1=sum(muestraN1=="enfermas")/n1
p_gorroN2=sum(muestraN2=="enfermas")/n2
Dif_p_gorro = p_gorroN1-p_gorroN2
return(Dif_p_gorro)
}
calcdif_p_gorro(n1 = 5)

## [1] 0

La diferencia entre p1 y p2 tienden a cero, lo que podria intuir que el comportamiento de los datos es muy parecidos pero no totalmnete iguales.

Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores (diferencias p1-p2). ¿Qué tan simétricos son los datos?, ¿Son siempre cero las diferencias?

dif_p=sapply(rep(300,5000),calcdif_p_gorro)
table(dif_p != 0)

## 
## FALSE  TRUE 
##   303  4697

summary(dif_p)

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.08667 -0.01333  0.00000 -0.00030  0.01333  0.07667

hist(dif_p)
abline(v=mean(dif_p), col="green", lwd=3)

qqnorm(dif_p)
qqline(dif_p,col="red",lwd=3)

Las diferencias siempre están cerca a cero, por eso en cuanto a la simetría se puede decir que es levemente asimétrica. Entre mas alta sea la muestra, da valores mas cercano valor real y la desviación estandar es más baja. Se evidencia que hay poca dispersión en los datos.

Realice los puntos b y c para tamaños de muestra n1=n2=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores (p1-p2) en cuanto a la normalidad. También analice el comportamiento de las diferencias y evalúe. ¿Considera que es más probable concluir que existen diferencias entre los tratamientos con muestras grandes que pequeñas, es decir, cuál considera usted que es el efecto del tamaño de muestra en el caso de la comparación de proporciones?

dif_p_n5=sapply(rep(5,10000),calcdif_p_gorro)
dif_p_n10=sapply(rep(10,10000),calcdif_p_gorro)
dif_p_n15=sapply(rep(15,10000),calcdif_p_gorro)
dif_p_n20=sapply(rep(20,10000),calcdif_p_gorro)
dif_p_n30=sapply(rep(30,10000),calcdif_p_gorro)
dif_p_n50=sapply(rep(50,10000),calcdif_p_gorro)
dif_p_n60=sapply(rep(60,10000),calcdif_p_gorro)
dif_p_n100=sapply(rep(100,10000),calcdif_p_gorro)
dif_p_n200=sapply(rep(200,10000),calcdif_p_gorro)
dif_p_n500=sapply(rep(500,10000),calcdif_p_gorro)
##n=5
hist(dif_p_n5)

Ajuste1=fitdistr(dif_p_n5, "normal")
Ajuste1

##        mean            sd     
##   -0.000900000    0.187603811 
##  ( 0.001876038) ( 0.001326559)

summary(dif_p_n5)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  -8e-01  -2e-01   0e+00  -9e-04   2e-01   8e-01

##n=10
hist(dif_p_n10)

Ajuste2=fitdistr(dif_p_n10, "normal")
Ajuste2

##        mean            sd     
##   0.0000400000   0.1344023750 
##  (0.0013440237) (0.0009503683)

summary(dif_p_n10)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  -6e-01  -1e-01   0e+00   4e-05   1e-01   6e-01

##n=15
hist(dif_p_n15)

Ajuste3=fitdistr(dif_p_n15, "normal")
Ajuste3

##        mean             sd      
##   -0.0001800000    0.1087196744 
##  ( 0.0010871967) ( 0.0007687642)

summary(dif_p_n15)

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.53333 -0.06667  0.00000 -0.00018  0.06667  0.46667

##n=20
hist(dif_p_n20)

Ajuste4=fitdistr(dif_p_n20, "normal")
Ajuste4

##        mean            sd     
##   0.0006950000   0.0925054970 
##  (0.0009250550) (0.0006541126)

summary(dif_p_n20)

##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
## -0.450000 -0.050000  0.000000  0.000695  0.050000  0.400000

##n=30
hist(dif_p_n30)

Ajuste5=fitdistr(dif_p_n30, "normal")
Ajuste5

##        mean             sd      
##   -0.0005233333    0.0774026522 
##  ( 0.0007740265) ( 0.0005473194)

summary(dif_p_n30)

##       Min.    1st Qu.     Median       Mean    3rd Qu.       Max. 
## -0.3333333 -0.0666667  0.0000000 -0.0005233  0.0333333  0.3000000

##n=50
hist(dif_p_n50)

Ajuste6=fitdistr(dif_p_n50, "normal")
Ajuste6

##        mean            sd     
##   0.0005180000   0.0586495667 
##  (0.0005864957) (0.0004147151)

summary(dif_p_n50)

##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
## -0.200000 -0.040000  0.000000  0.000518  0.040000  0.220000

##n=60
hist(dif_p_n60)

Ajuste7=fitdistr(dif_p_n60, "normal")
Ajuste7

##        mean             sd      
##   -0.0005433333    0.0530150326 
##  ( 0.0005301503) ( 0.0003748729)

summary(dif_p_n60)

##       Min.    1st Qu.     Median       Mean    3rd Qu.       Max. 
## -0.1833333 -0.0333333  0.0000000 -0.0005433  0.0333333  0.2166667

##n=100
hist(dif_p_n100)

Ajuste8=fitdistr(dif_p_n100, "normal")
Ajuste8

##        mean             sd      
##   -0.0000230000    0.0406818076 
##  ( 0.0004068181) ( 0.0002876638)

summary(dif_p_n100)

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -1.5e-01 -3.0e-02  0.0e+00 -2.3e-05  3.0e-02  1.7e-01

##n=200
hist(dif_p_n200)

Ajuste9=fitdistr(dif_p_n200, "normal")
Ajuste9

##        mean            sd     
##   0.0004130000   0.0274463919 
##  (0.0002744639) (0.0001940753)

summary(dif_p_n200)

##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
## -0.115000 -0.020000  0.000000  0.000413  0.020000  0.100000

##n=500
hist(dif_p_n500)

Ajuste10=fitdistr(dif_p_n500, "normal")
Ajuste10

##        mean            sd     
##   0.0001196000   0.0143790436 
##  (0.0001437904) (0.0001016752)

summary(dif_p_n500)

##       Min.    1st Qu.     Median       Mean    3rd Qu.       Max. 
## -0.0620000 -0.0100000  0.0000000  0.0001196  0.0100000  0.0620000

qqnorm(dif_p_n500)
qqline(dif_p_n500,col="red",lwd=3)

se puede observar que, a medida que aumenta la muestra las diferencias se van reduciendo.

e.Ahora realice nuevamente los puntos a-d bajo un escenario con dos lotes, pero de proporciones de enfermos diferentes (P1=0.1 y P2=0.15), es decir, el tratamiento del lote 1 si presentó un mejor desempeño reduciendo en un 5% el porcentaje de enfermos. Bajo este nuevo escenario compare la distribución de estas diferencias (p1-p2) con las observadas bajo igualdad de condiciones en los lotes. ¿Qué puede concluir? ¿Existen puntos en los cuales es posible que se observen diferencias de p1- p2 bajo ambos escenarios (escenario 1: sin diferencias entre P1 y P2, escenario 2: diferencia de 5%)?

## Punto a************************************************************* 

lote_N1=c(rep("enfermas",100),rep("sanas",900))
lote_N2=c(rep("enfermas",225),rep("sanas",1275))


## Punto b*************************************************************  

## se toman las muestras y las diferencias de las dos muestras.
calcdif_p_gorro=function(n1){
n2=n1
muestraN1=sample(lote_N1,size = n1)
muestraN2=sample(lote_N2,size = n2)
p_gorroN1=sum(muestraN1=="enfermas")/n1
p_gorroN2=sum(muestraN2=="enfermas")/n2
Dif_p_gorro = p_gorroN1-p_gorroN2
return(Dif_p_gorro)
}
calcdif_p_gorro(n1 = 5)

## [1] 0

## Punto c************************************************************* 

dif_p=sapply(rep(300,5000),calcdif_p_gorro)
table(dif_p != 0)

## 
## FALSE  TRUE 
##    28  4972

##dif_p
summary(dif_p)

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.13000 -0.06667 -0.05000 -0.05020 -0.03333  0.04333

hist(dif_p)

## Punto d************************************************************* 

dif_p_n5=sapply(rep(5,10000),calcdif_p_gorro)
dif_p_n10=sapply(rep(10,10000),calcdif_p_gorro)
dif_p_n15=sapply(rep(15,10000),calcdif_p_gorro)
dif_p_n20=sapply(rep(20,10000),calcdif_p_gorro)
dif_p_n30=sapply(rep(30,10000),calcdif_p_gorro)
dif_p_n50=sapply(rep(50,10000),calcdif_p_gorro)
dif_p_n60=sapply(rep(60,10000),calcdif_p_gorro)
dif_p_n100=sapply(rep(100,10000),calcdif_p_gorro)
dif_p_n200=sapply(rep(200,10000),calcdif_p_gorro)
dif_p_n500=sapply(rep(500,10000),calcdif_p_gorro)
##n=5
hist(dif_p_n5)

Ajuste1=fitdistr(dif_p_n5, "normal")
Ajuste1

##        mean            sd     
##   -0.048300000    0.209473411 
##  ( 0.002094734) ( 0.001481201)

summary(dif_p_n5)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -1.0000 -0.2000  0.0000 -0.0483  0.0000  0.6000

##n=10
hist(dif_p_n10)

Ajuste2=fitdistr(dif_p_n10, "normal")
Ajuste2

##        mean            sd     
##   -0.050540000    0.148100332 
##  ( 0.001481003) ( 0.001047227)

summary(dif_p_n10)

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.70000 -0.10000  0.00000 -0.05054  0.00000  0.50000

##n=15
hist(dif_p_n15)

Ajuste3=fitdistr(dif_p_n15, "normal")
Ajuste3

##        mean             sd      
##   -0.0513266667    0.1209509357 
##  ( 0.0012095094) ( 0.0008552523)

summary(dif_p_n15)

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.53333 -0.13333 -0.06667 -0.05133  0.00000  0.46667

##n=20
hist(dif_p_n20)

Ajuste4=fitdistr(dif_p_n20, "normal")
Ajuste4

##        mean             sd      
##   -0.0483350000    0.1034479472 
##  ( 0.0010344795) ( 0.0007314874)

summary(dif_p_n20)

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.50000 -0.10000 -0.05000 -0.04834  0.00000  0.35000

##n=30
hist(dif_p_n30)

Ajuste5=fitdistr(dif_p_n30, "normal")
Ajuste5

##        mean             sd      
##   -0.0506766667    0.0845418234 
##  ( 0.0008454182) ( 0.0005978010)

summary(dif_p_n30)

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.40000 -0.10000 -0.06667 -0.05068  0.00000  0.26667

##n=50
hist(dif_p_n50)

Ajuste6=fitdistr(dif_p_n50, "normal")
Ajuste6

##        mean             sd      
##   -0.0500100000    0.0643720428 
##  ( 0.0006437204) ( 0.0004551791)

summary(dif_p_n50)

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.28000 -0.10000 -0.04000 -0.05001  0.00000  0.16000

##n=60
hist(dif_p_n60)

Ajuste7=fitdistr(dif_p_n60, "normal")
Ajuste7

##        mean             sd      
##   -0.0495233333    0.0584883228 
##  ( 0.0005848832) ( 0.0004135749)

summary(dif_p_n60)

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.28333 -0.08333 -0.05000 -0.04952 -0.01667  0.18333

##n=100
hist(dif_p_n100)

Ajuste8=fitdistr(dif_p_n100, "normal")
Ajuste8

##        mean             sd      
##   -0.0503750000    0.0450849129 
##  ( 0.0004508491) ( 0.0003187985)

summary(dif_p_n100)

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.21000 -0.08000 -0.05000 -0.05038 -0.02000  0.13000

##n=200
hist(dif_p_n200)

Ajuste9=fitdistr(dif_p_n200, "normal")
Ajuste9

##        mean             sd      
##   -0.0501385000    0.0302181786 
##  ( 0.0003021818) ( 0.0002136748)

summary(dif_p_n200)

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.16000 -0.07000 -0.05000 -0.05014 -0.03000  0.06500

##n=500
hist(dif_p_n500)
abline(v=mean(dif_p_n500), col="green", lwd=3)

Ajuste10=fitdistr(dif_p_n500, "normal")
Ajuste10

##        mean             sd      
##   -0.0502122000    0.0161171515 
##  ( 0.0001611715) ( 0.0001139655)

summary(dif_p_n500)

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.11600 -0.06200 -0.05000 -0.05021 -0.04000  0.01000

qqnorm(dif_p_n500)
qqline(dif_p_n500,col="red",lwd=3)

Conclusión del punto 2

Se puede observar, que es probable que existan diferencias en los tratamientos de las plantas, cuando las proporcionalidades de las poblaciones son diferentes. La diferencia permanece casi constante, ya que la mediana y la media de las diferencias entre p1 y p2 permanecen casi constantes, esto quiere decir que para cualquier tamaño de la muestra la diferencias no tienden a reducirse.

Pregunta 3

3.Con base a los artículos “Statistical Errors: P values, the gold standard of statistical validity, are not as reliable as many scientists assume” & “Statisticians issue warning on P values: Statement aims to halt missteps in the quest for certainty” escriba un resumen (máximo 2 páginas) sobre ambos artículos e incluya en este sus opiniones en cuanto al uso del valor p como criterio de decisión en inferencia estadística.

RESUMEN ARTÍCULO “STATISTICAL ERRORS”

Resumen del artículo Scientific method: Statistical errors - P values, the ‘gold standard’ of statistical validity, are not as reliable as many scientists assume.

Este artículo, muestra algunas falencias que tiene el valor p, que no es tan fiable ni tan objetivo como suponen la mayoría de los científicos.

La ironía es que cuando el estadístico británico Ronald Fisher introdujo el valor P en la década de 1920, no pretendía que fuera una prueba definitiva. Lo pensó simplemente como una forma informal de juzgar si la evidencia era significativa en el sentido antiguo: digno de una segunda mirada. La idea era realizar un experimento y luego ver si los resultados eran consistentes con lo que podría producir el azar. Los investigadores primero establecerían una ‘hipótesis nula’ que querían refutar, como que no hubiera correlación o diferencia entre dos grupos. A continuación, harían el papel de abogado del diablo y, suponiendo que esta hipótesis nula fuera cierta, calcularían las posibilidades de obtener resultados al menos tan extremos como los que realmente se observaron. Esta probabilidad fue la P valor. Cuanto más pequeño era, sugirió Fisher, mayor era la probabilidad de que la hipótesis nula fuera falsa.

El valor P nunca tuvo la intención de usarse de la forma en que se usa hoy.

Para muchos científicos, esto es especialmente preocupante a la luz de los problemas de reproducibilidad. Al mismo tiempo, los estadísticos están buscando mejores formas de pensar sobre los datos, para ayudar a los científicos a evitar perder información importante o actuar sobre falsas alarmas. Los estadísticos han señalado una serie de medidas que podrían ayudar. Para evitar la trampa de pensar en los resultados como significativos o no significativos, por ejemplo, Cumming cree que los investigadores siempre deben informar los tamaños del efecto y los intervalos de confianza. Éstos transmiten lo que no hace un valor P: la magnitud e importancia relativa de un efecto.

En términos más generales, los investigadores deben darse cuenta de los límites de las estadísticas convencionales, dice Goodman. En su lugar, deberían traer a su análisis elementos de juicio científico sobre la plausibilidad de una hipótesis y limitaciones del estudio que normalmente están desterradas a la sección de discusión: resultados de experimentos idénticos o similares, mecanismos propuestos, conocimiento clínico, etc. El estadístico Richard Royall de la Escuela de Salud Pública Johns Hopkins Bloomberg en Baltimore, Maryland, dijo que hay tres preguntas que un científico podría querer hacer después de un estudio: “¿Cuál es la evidencia?” ‘¿Qué debo creer?’ ¿Y qué debería hacer?’ Un método no puede responder a todas estas preguntas, dice Goodman: “Los números son donde la discusión científica debe comenzar, no terminar”.

En síntesis: El uso de valores p durante casi un siglo ha generado una falsa sensación de certeza y una crisis de reproducibilidad en varias disciplinas científicas. Hoy existe una determinación creciente para reformar los métodos estadísticos usados en ciencia, aunque no hay acuerdo sobre qué medidas concretas deberían tomarse. El mal uso de los valores p ha generado una falsa necesidad de certidumbre. Tanto los científicos como el público general deberían aprender a manejar e interpretar resultados inciertos.

Es importante reformar los métodos científicos, para ser más exactos a la hora de tomar decisiones. En este caso, se debería confiar más en los intervalos de confianza, podría acercarnos más a resultados no erróneos, pero teniendo en cuenta que, se debe hacer pruebas paralelas con otros métodos estadísticos para mitigar el error, y así minimizar la incertidumbre.

Referencias:

https://www.nature.com/articles/506150a

https://www.investigacionyciencia.es/revistas/investigacion-y-ciencia/el-reino-de-los-pterosaurios-786/el-problema-de-la-significacin-estadstica-18065

##***********************************