1. El Teorema del Límite Central es uno de los más importantes en la inferencia estadística y habla sobre la convergencia de los estimadores como la proporción muestral a la distribución normal. Algunos autores afirman que esta aproximación es bastante buena a partir del umbral n>30.

  1. Realice una simulación en la cual genere una población de N=1000 (Lote) y además que el porcentaje de individuos (plantas) enfermas sea del 50%.
poblacion=c(rep("enfermo",500),rep("sano",500))
poblacion=sample(poblacion)
#poblacion

b.Genere una función que permita obtener una muestra aleatoria de la población y calcule el estimador de la proporción muestral para un tamaño de muestra dado n.

calcula_p_gorro=function(n){

muestra=sample(poblacion,size = n)
p_gorro=sum(muestra=="enfermo")/n
return(p_gorro)

}

calcula_p_gorro(n=5)
## [1] 0.4

c.Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores. ¿Qué tan simétricos son los datos?, ¿Son sesgados y qué pasa en cuanto a variabilidad?

require(ggplot2)
posibles_p_gorro=sapply(rep(100,500), calcula_p_gorro)

hist(posibles_p_gorro)
abline(v=0.5,col="red",lwd=4)

mean(posibles_p_gorro)
## [1] 0.49926
median(posibles_p_gorro)
## [1] 0.5
sd(posibles_p_gorro)
## [1] 0.04792751
sqrt((0.5*0.5)/100)
## [1] 0.05
summary(posibles_p_gorro)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.3500  0.4700  0.5000  0.4993  0.5300  0.6600

d.Realice los ejercicios completos b y c para tamaños de muestra n=5, 10, 15, 20, 30, 50,60, 100, 200, 500. Y compare los resultados de los estimadores en cuanto a la normalidad. Investigue y utilice pruebas de bondad y ajuste (shapiro wilks) y métodos gráficos (grafico qq de normalidad).

Interpretación: Se puede ver que cuando la muestra es muy pequeña, en estas se rechazara la H0 lo cual, nos indica que los datos no son simetricos, ademas, de que los mismos son muy variables, lo que se manifiesta con una desviación estandar alta. Sin embargo, a media que la muestra se incrementa esta le da mucho mas sentido a el estudio y al analisis de los datos, al permitir ver los mismos mas cercanos a la realidad.Es decir, que entre mayor sea la muestra, los datos presentan normalidad y menos variabilidad.

require(ggplot2)
require(ggpubr)
# n=5: 

posibles_p_gorro_n5=sapply(rep(5,500), calcula_p_gorro)

hist(posibles_p_gorro_n5)
abline(v=0.5,col="red",lwd=4)

mean(posibles_p_gorro_n5)
## [1] 0.5072
median(posibles_p_gorro_n5)
## [1] 0.6
sd(posibles_p_gorro_n5)
## [1] 0.2222768
summary(posibles_p_gorro_n5)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.4000  0.6000  0.5072  0.6000  1.0000
shapiro.test(posibles_p_gorro_n5)
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_n5
## W = 0.92852, p-value = 1.052e-14
ggqqplot(posibles_p_gorro_n5)

# n=10
require(ggplot2)
require(ggpubr)

posibles_p_gorro_n10=sapply(rep(10,500), calcula_p_gorro)

hist(posibles_p_gorro_n10)
abline(v=0.5,col="red",lwd=4)

sd(posibles_p_gorro_n10)
## [1] 0.1568605
summary(posibles_p_gorro_n10)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.100   0.400   0.500   0.498   0.600   0.900
shapiro.test(posibles_p_gorro_n10)
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_n10
## W = 0.96349, p-value = 8.23e-10
ggqqplot(posibles_p_gorro_n10)

# n=15

require(ggplot2)
require(ggpubr)
posibles_p_gorro_n15=sapply(rep(15,500), calcula_p_gorro)

hist(posibles_p_gorro_n15)
abline(v=0.5,col="red",lwd=4)

sd(posibles_p_gorro_n15)
## [1] 0.1268357
summary(posibles_p_gorro_n15)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.1333  0.4000  0.4667  0.5027  0.6000  0.9333
shapiro.test(posibles_p_gorro_n15)
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_n15
## W = 0.97291, p-value = 5.434e-08
ggqqplot(posibles_p_gorro_n15)

# n=20

require(ggplot2)
require(ggpubr)

posibles_p_gorro_n20=sapply(rep(20,500), calcula_p_gorro)

hist(posibles_p_gorro_n20)
abline(v=0.5,col="red",lwd=4)

sd(posibles_p_gorro_n20)
## [1] 0.1059668
summary(posibles_p_gorro_n20)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.1000  0.4500  0.5000  0.5043  0.6000  0.8000
shapiro.test(posibles_p_gorro_n20)
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_n20
## W = 0.97922, p-value = 1.479e-06
ggqqplot(posibles_p_gorro_n20)

# n=30:

require(ggplot2)
require(ggpubr)
posibles_p_gorro_n30=sapply(rep(30,500), calcula_p_gorro)

hist(posibles_p_gorro_n30)
abline(v=0.5,col="red",lwd=4)

sd(posibles_p_gorro_n30)
## [1] 0.08828014
summary(posibles_p_gorro_n30)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2000  0.4667  0.5000  0.5076  0.5667  0.7667
shapiro.test(posibles_p_gorro_n30)
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_n30
## W = 0.98655, p-value = 0.0001424
ggqqplot(posibles_p_gorro_n30)

# n=50
require(ggplot2)
require(ggpubr)
posibles_p_gorro_n50=sapply(rep(50,500), calcula_p_gorro)

hist(posibles_p_gorro_n50)
abline(v=0.5,col="red",lwd=4)

sd(posibles_p_gorro_n50)
## [1] 0.07099743
summary(posibles_p_gorro_n50)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2800  0.4400  0.5000  0.4941  0.5400  0.7200
shapiro.test(posibles_p_gorro_n50)
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_n50
## W = 0.9913, p-value = 0.004909
ggqqplot(posibles_p_gorro_n50)

# n=60
require(ggplot2)
require(ggpubr)
posibles_p_gorro_n60=sapply(rep(60,500), calcula_p_gorro)

hist(posibles_p_gorro_n60)
abline(v=0.5,col="red",lwd=4)

sd(posibles_p_gorro_n60)
## [1] 0.06301328
summary(posibles_p_gorro_n60)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.3167  0.4500  0.5000  0.5024  0.5500  0.6833
shapiro.test(posibles_p_gorro_n60)
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_n60
## W = 0.98992, p-value = 0.00166
ggqqplot(posibles_p_gorro_n60)

# n= 100
require(ggplot2)
require(ggpubr)
posibles_p_gorro_n100=sapply(rep(100,500), calcula_p_gorro)

hist(posibles_p_gorro_n100)
abline(v=0.5,col="red",lwd=4)

sd(posibles_p_gorro_n100)
## [1] 0.04456188
summary(posibles_p_gorro_n100)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.3800  0.4700  0.5000  0.5009  0.5300  0.6200
shapiro.test(posibles_p_gorro_n100)
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_n100
## W = 0.99268, p-value = 0.01519
ggqqplot(posibles_p_gorro_n100)

# n= 200
require(ggplot2)
require(ggpubr)
posibles_p_gorro_n200=sapply(rep(200,500), calcula_p_gorro)

hist(posibles_p_gorro_n200)
abline(v=0.5,col="red",lwd=4)

sd(posibles_p_gorro_n200)
## [1] 0.03230444
summary(posibles_p_gorro_n200)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.4150  0.4750  0.5000  0.4989  0.5200  0.6100
shapiro.test(posibles_p_gorro_n200)
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_n200
## W = 0.99489, p-value = 0.09643
ggqqplot(posibles_p_gorro_n200)

# n=500
require(ggplot2)
require(ggpubr)
posibles_p_gorro_n500=sapply(rep(500,500), calcula_p_gorro)

hist(posibles_p_gorro_n500)
abline(v=0.5,col="red",lwd=4)

sd(posibles_p_gorro_n500)
## [1] 0.01514259
summary(posibles_p_gorro_n500)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.4600  0.4900  0.5000  0.4997  0.5100  0.5500
shapiro.test(posibles_p_gorro_n500)
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_n500
## W = 0.99539, p-value = 0.1462
ggqqplot(posibles_p_gorro_n500)

e.Repita toda la simulación (puntos a – d) pero ahora con lotes con 10% y 90% de plantas enfermas. Concluya todo el ejercicio.

P=10%

  1. Realice una simulación en la cual genere una población de N=1000 (Lote) y además que el porcentaje de individuos (plantas) enfermas sea del 10%.
poblacion_10=c(rep("enfermo",100),rep("sano",900))
poblacion_10=sample(poblacion_10)
#poblacion_10

b.Genere una función que permita obtener una muestra aleatoria de la población y calcule el estimador de la proporción muestral para un tamaño de muestra dado n.

calcula_p_gorro_10=function(n){

muestra_10=sample(poblacion_10,size = n)
p_gorro_10=sum(muestra_10=="enfermo")/n
return(p_gorro_10)

}

calcula_p_gorro_10(n=5)
## [1] 0

c.Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores. ¿Qué tan simétricos son los datos?, ¿Son sesgados y qué pasa en cuanto a variabilidad?

require(ggplot2)
posibles_p_gorro_10=sapply(rep(100,500), calcula_p_gorro_10)

hist(posibles_p_gorro_10)
abline(v=0.1,col="red",lwd=4)

mean(posibles_p_gorro_10)
## [1] 0.10052
median(posibles_p_gorro_10)
## [1] 0.1
sd(posibles_p_gorro_10)
## [1] 0.02751807
sqrt((0.1*0.9)/100)
## [1] 0.03
summary(posibles_p_gorro_10)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0200  0.0800  0.1000  0.1005  0.1200  0.1900

d.Realice los ejercicios completos b y c para tamaños de muestra n=5, 10, 15, 20, 30, 50,60, 100, 200, 500. Y compare los resultados de los estimadores en cuanto a la normalidad. Investigue y utilice pruebas de bondad y ajuste (shapiro wilks) y métodos gráficos (grafico qq de normalidad).

-Interpretación:Para este ejercicio se puede ver que para muestras muy pequeñas no existe normalidad, ya que los datos son asimetricos y esto se muestra con las graficas. Ademas, de que en las pruebas de shapiro rechazan la hipotesis nula al recibir valores p muy pequeños. Por otro lado, a medida que se incrementa la muestra se puede encontrar un poco mas de normalidad desde la muestra n=50, pero en estas todavia la parte visual no es completamente acertiva, ya que el valor p sigue rechazando la hipotesis nula. En la muestra n=500 todavia se rechaza la H0, ya que esta sigue dando un valor menor al 0.05, lo que nos puede decir que necesitaria una muestra mucho mayor a 500 para aceptar la H0 y mostrar normalidad.

#n=5
require(ggplot2)
require(ggpubr)
posibles_p_gorro_10_n5=sapply(rep(5,500), calcula_p_gorro_10)

hist(posibles_p_gorro_10_n5)
abline(v=0.1,col="red",lwd=4)

sd(posibles_p_gorro_10_n5)
## [1] 0.1338943
summary(posibles_p_gorro_10_n5)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0000  0.0000  0.0896  0.2000  0.8000
shapiro.test(posibles_p_gorro_10_n5)
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_10_n5
## W = 0.667, p-value < 2.2e-16
ggqqplot(posibles_p_gorro_10_n5)

## [1] 0.1053919
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0000  0.1000  0.1074  0.2000  0.5000
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_10_n10
## W = 0.84715, p-value < 2.2e-16

## [1] 0.07833618
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.00000 0.06667 0.06667 0.10040 0.13333 0.40000
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_10_n15
## W = 0.89744, p-value < 2.2e-16

## [1] 0.06646951
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0500  0.1000  0.0992  0.1500  0.3500
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_10_n20
## W = 0.92777, p-value = 8.647e-15

## [1] 0.05521739
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.00000 0.06667 0.10000 0.10440 0.13333 0.33333
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_10_n30
## W = 0.95516, p-value = 3.44e-11

## [1] 0.04101203
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0800  0.1000  0.1008  0.1200  0.2400
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_10_n50
## W = 0.97349, p-value = 7.231e-08

## [1] 0.03657837
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.01667 0.06667 0.10000 0.10090 0.11667 0.23333
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_10_n60
## W = 0.97747, p-value = 5.622e-07

## [1] 0.01931453
## [1] 0.0212132
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0400  0.0900  0.1000  0.1011  0.1100  0.1650
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_10_n200
## W = 0.98808, p-value = 0.0004219

#n=500
require(ggplot2)
require(ggpubr)
posibles_p_gorro_10_n500=sapply(rep(500,500), calcula_p_gorro_10)

hist(posibles_p_gorro_10_n500)
abline(v=0.1,col="red",lwd=4)

sd(posibles_p_gorro_10_n500)
## [1] 0.008793581
sqrt((0.1*0.9)/500)
## [1] 0.01341641
summary(posibles_p_gorro_10_n500)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.07200 0.09400 0.10000 0.09967 0.10600 0.12800
shapiro.test(posibles_p_gorro_10_n500)
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_10_n500
## W = 0.99211, p-value = 0.009488
ggqqplot(posibles_p_gorro_10_n500)

P=90%

  1. Realice una simulación en la cual genere una población de N=1000 (Lote) y además que el porcentaje de individuos (plantas) enfermas sea del 90%.
poblacion_90=c(rep("enfermo",900),rep("sano",100))
poblacion_90=sample(poblacion_90)
#poblacion_90

b.Genere una función que permita obtener una muestra aleatoria de la población y calcule el estimador de la proporción muestral para un tamaño de muestra dado n.

calcula_p_gorro_90=function(n){

muestra_90=sample(poblacion_90,size = n)
p_gorro_90=sum(muestra_90=="enfermo")/n
return(p_gorro_90)

}

calcula_p_gorro_90(n=5)
## [1] 0.6

c.Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores. ¿Qué tan simétricos son los datos?, ¿Son sesgados y qué pasa en cuanto a variabilidad?

require(ggplot2)
posibles_p_gorro_90=sapply(rep(100,500), calcula_p_gorro_90)

hist(posibles_p_gorro_90)
abline(v=0.9,col="red",lwd=4)

mean(posibles_p_gorro_90)
## [1] 0.90022
median(posibles_p_gorro_90)
## [1] 0.9
sd(posibles_p_gorro_90)
## [1] 0.0288134
sqrt((0.9*0.1)/100)
## [1] 0.03
summary(posibles_p_gorro_90)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.8100  0.8800  0.9000  0.9002  0.9200  0.9700

d.Realice los ejercicios completos b y c para tamaños de muestra n=5, 10, 15, 20, 30, 50,60, 100, 200, 500. Y compare los resultados de los estimadores en cuanto a la normalidad. Investigue y utilice pruebas de bondad y ajuste (shapiro wilks) y métodos gráficos (grafico qq de normalidad).

#n=5
require(ggplot2)
require(ggpubr)
posibles_p_gorro_90_n5=sapply(rep(5,500), calcula_p_gorro_90)

hist(posibles_p_gorro_90_n5)
abline(v=0.9,col="red",lwd=4)

sd(posibles_p_gorro_90_n5)
## [1] 0.1342931
summary(posibles_p_gorro_90_n5)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.4000  0.8000  1.0000  0.9012  1.0000  1.0000
shapiro.test(posibles_p_gorro_90_n5)
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_90_n5
## W = 0.70362, p-value < 2.2e-16
ggqqplot(posibles_p_gorro_90_n5)

## [1] 0.08453361
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.5000  0.9000  0.9000  0.9094  1.0000  1.0000
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_90_n10
## W = 0.82583, p-value < 2.2e-16

## [1] 0.07495564
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.6667  0.8667  0.9333  0.9013  0.9333  1.0000
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_90_n15
## W = 0.89931, p-value < 2.2e-16

## [1] 0.06627288
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.6000  0.8500  0.9000  0.9013  0.9500  1.0000
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_90_n20
## W = 0.91582, p-value = 4.596e-16

## [1] 0.05195857
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.6667  0.8667  0.9000  0.8981  0.9333  1.0000
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_90_n30
## W = 0.95049, p-value = 6.849e-12

## [1] 0.04153903
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.7600  0.8800  0.9000  0.8994  0.9200  1.0000
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_90_n50
## W = 0.97219, p-value = 3.834e-08

## [1] 0.03801411
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.7667  0.8833  0.9000  0.9002  0.9333  0.9833
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_90_n60
## W = 0.97812, p-value = 8.01e-07

## [1] 0.0187926
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.8150  0.8850  0.9000  0.8996  0.9150  0.9500
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_90_n200
## W = 0.98778, p-value = 0.0003382

#n=500
require(ggplot2)
require(ggpubr)
posibles_p_gorro_90_n500=sapply(rep(500,500), calcula_p_gorro_90)

hist(posibles_p_gorro_90_n500)
abline(v=0.9,col="red",lwd=4)

sd(posibles_p_gorro_90_n500)
## [1] 0.009305478
summary(posibles_p_gorro_90_n500)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.8720  0.8940  0.9000  0.8997  0.9060  0.9260
shapiro.test(posibles_p_gorro_90_n500)
## 
##  Shapiro-Wilk normality test
## 
## data:  posibles_p_gorro_90_n500
## W = 0.99419, p-value = 0.05376
ggqqplot(posibles_p_gorro_90_n500)

2. La comparación de tratamientos es una práctica fundamental en las ciencias agropecuarias y para esto a nivel estadístico se cuenta con algunas herramientas para apoyar el proceso de toma de decisiones y lograr concluir con algún grado de confianza que los resultados observados en una muestra son representativos y se pueden asociar a los tratamientos y no se deben únicamente al azar. Por medio una simulación validemos algunos de estos resultados.

a.Suponga un escenario en el cual usted aplicó tratamientos diferentes a dos lotes y desea analizar si alguno de los dos presenta un mejor desempeño en el control de una plaga presente en ambos al momento inicial. Para ello utilizará como criterio de desempeño el tratamiento que menor % de plantas enfermas presente después de un tiempo de aplicación (es decir, si se presentan o no diferencias en las proporciones de enfermos P1 y P2). Realice una simulación en la cual genere dos poblaciones de N1=1000 (Lote1) y N2=1500 (Lote2), además asuma que el porcentaje de individuos (plantas) enfermas en ambos lotes sea la misma 10% (es decir, sin diferencias entre los tratamientos).

lote_1=c(rep("enfermo",100),rep("sano",900))
lote_1=sample(lote_1)
#lote_1

lote_2=c(rep("enfermo",150),rep("sano",1350))
lote_2=sample(lote_2)
#lote_2

b.Genere una función que permita obtener una muestra aleatoria de los lotes y calcule el estimador de la proporción muestral para cada lote (p1 y p2) para un tamaño de muestra dado n1=n2. Calcule la diferencia entre los estimadores p1-p2.

-Interpretación: Al realizar la muestra en los dos lotes podemos ver que los resultados de p1 y p2 son diferentes. En este caso #p1=0.05 y #p2=0.1, lo cual nos da una diferencia del 5%. Esta diferencia, se debe a que se estan sacando muestras y que no se esta analizando toda la población.

calcula_diferencia_p=function(n1){
#n1=60
n2=n1

muestra_1=sample(lote_1,n1)
p1=sum(muestra_1=="enfermo")/n1


muestra_2=sample(lote_2,n2)
p2=sum(muestra_2=="enfermo")/n2

data.frame(p1,p2)

diferencia_p=p1-p2
return(diferencia_p)

}

calcula_diferencia_p(n1=60)
## [1] 0.05

c.Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores (diferencias p1-p2). ¿Qué tan simétricos son los datos?, ¿Son siempre cero las diferencias?

-Interpretación: Se muestra que existe simetria en los datos y que en los mismos, entre mas grande sea la muestra mejor son los resultados y se pueden ver de mejor manera las diferencias entre las muestras de los lotes. Las diferencias no son necesariamente siempre cero, ya que lo podemos ver con los cuartiles y los datos de extremos, en donde los mismos varian.

diferencia_p=sapply(rep(400,500),calcula_diferencia_p)
summary(diferencia_p)
##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
## -0.042500 -0.010000  0.000000  0.000505  0.010000  0.045000
hist(diferencia_p)

shapiro.test(diferencia_p)
## 
##  Shapiro-Wilk normality test
## 
## data:  diferencia_p
## W = 0.99446, p-value = 0.06735

d.Realice los puntos b y c para tamaños de muestra n1=n2=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores (p1-p2) en cuanto a la normalidad. También analice el comportamiento de las diferencias y evalúe. ¿Considera que es más probable concluir que existen diferencias entre los tratamientos con muestras grandes que pequeñas, es decir, cuál considera usted que es el efecto del tamaño de muestra en el caso de la comparación de proporciones?

-Interpretación: En cuanto a la normalidad se ve que con muestras muy pequeñas realmente no existe normalidad nisiquiera en la grafica, como lo muestra la grafica n=5. Al aumentar las muestras vemos que en las graficas se ve normalidad, pero en las pruebas de shapiro se puede notar que la unica que no rechaza la H0, es la muestra de n=500. Es mas probable ver diferencias con muestras mas grandes ya que esta detecta mas facil las mismas. Además, que se ve claramemte que en la ultima grafica los valores tienden a cero, mostrando que en este caso los parametros fueron los mismos para los dos lotes.

# n1=n2=5

diferencia_p_n5=sapply(rep(5,500),calcula_diferencia_p)
summary(diferencia_p_n5)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -0.6000  0.0000  0.0000  0.0084  0.2000  0.6000
hist(diferencia_p_n5)

shapiro.test(diferencia_p_n5)
## 
##  Shapiro-Wilk normality test
## 
## data:  diferencia_p_n5
## W = 0.87988, p-value < 2.2e-16
# n1=n2=10

diferencia_p_n10=sapply(rep(10,500),calcula_diferencia_p)
summary(diferencia_p_n10)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -0.4000 -0.1000  0.0000 -0.0122  0.1000  0.4000
hist(diferencia_p_n10)

shapiro.test(diferencia_p_n10)
## 
##  Shapiro-Wilk normality test
## 
## data:  diferencia_p_n10
## W = 0.95155, p-value = 9.785e-12
# n1=n2=15

diferencia_p_n15=sapply(rep(15,500),calcula_diferencia_p)
summary(diferencia_p_n15)
##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
## -0.400000 -0.066667  0.000000 -0.002933  0.066667  0.333333
hist(diferencia_p_n15)

shapiro.test(diferencia_p_n15)
## 
##  Shapiro-Wilk normality test
## 
## data:  diferencia_p_n15
## W = 0.96609, p-value = 2.435e-09
# n1=n2=20

diferencia_p_n20=sapply(rep(20,500),calcula_diferencia_p)
summary(diferencia_p_n20)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -0.3000 -0.0500  0.0000  0.0027  0.0500  0.2500
hist(diferencia_p_n20)

shapiro.test(diferencia_p_n20)
## 
##  Shapiro-Wilk normality test
## 
## data:  diferencia_p_n20
## W = 0.9754, p-value = 1.886e-07
# n1=n2=30

diferencia_p_n30=sapply(rep(30,500),calcula_diferencia_p)
summary(diferencia_p_n30)
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.26667 -0.06667  0.00000 -0.00020  0.06667  0.23333
hist(diferencia_p_n30)

shapiro.test(diferencia_p_n30)
## 
##  Shapiro-Wilk normality test
## 
## data:  diferencia_p_n30
## W = 0.98305, p-value = 1.426e-05
# n1=n2=50

diferencia_p_n50=sapply(rep(50,500),calcula_diferencia_p)
summary(diferencia_p_n50)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -0.1600 -0.0400  0.0000  0.0058  0.0400  0.1600
hist(diferencia_p_n50)

shapiro.test(diferencia_p_n50)
## 
##  Shapiro-Wilk normality test
## 
## data:  diferencia_p_n50
## W = 0.98442, p-value = 3.407e-05
# n1=n2=60

diferencia_p_n60=sapply(rep(60,500),calcula_diferencia_p)
summary(diferencia_p_n60)
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.15000 -0.03333  0.00000  0.00020  0.03333  0.18333
hist(diferencia_p_n60)

shapiro.test(diferencia_p_n60)
## 
##  Shapiro-Wilk normality test
## 
## data:  diferencia_p_n60
## W = 0.99017, p-value = 0.002022
# n1=n2=100

diferencia_p_n100=sapply(rep(100,500),calcula_diferencia_p)
summary(diferencia_p_n100)
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.15000 -0.03000  0.00000 -0.00172  0.03000  0.12000
hist(diferencia_p_n100)

shapiro.test(diferencia_p_n100)
## 
##  Shapiro-Wilk normality test
## 
## data:  diferencia_p_n100
## W = 0.99242, p-value = 0.0122
# n1=n2=200

diferencia_p_n200=sapply(rep(200,500),calcula_diferencia_p)
summary(diferencia_p_n200)
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.08000 -0.02000  0.00000 -0.00089  0.01500  0.07000
hist(diferencia_p_n200)

shapiro.test(diferencia_p_n200)
## 
##  Shapiro-Wilk normality test
## 
## data:  diferencia_p_n200
## W = 0.99369, p-value = 0.03533
# n1=n2=500

diferencia_p_n500=sapply(rep(500,500),calcula_diferencia_p)
summary(diferencia_p_n500)
##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
## -0.038000 -0.010000  0.000000 -0.000536  0.010000  0.040000
hist(diferencia_p_n500)

shapiro.test(diferencia_p_n500)
## 
##  Shapiro-Wilk normality test
## 
## data:  diferencia_p_n500
## W = 0.99191, p-value = 0.008027

e.Ahora realice nuevamente los puntos a-d bajo un escenario con dos lotes, pero de proporciones de enfermos diferentes (P1=0.1 y P2=0.15), es decir, el tratamiento del lote 1 si presentó un mejor desempeño reduciendo en un 5% el porcentaje de enfermos. Bajo este nuevo escenario compare la distribución de estas diferencias (p1-p2) con las observadas bajo igualdad de condiciones en los lotes. ¿Qué puede concluir? ¿Existen puntos en los cuales es posible que se observen diferencias de p1- p2 bajo ambos escenarios (escenario 1: sin diferencias entre P1 y P2, escenario 2: diferencia de 5%)?

lote_1_0.1=c(rep("enfermo",100),rep("sano",900))
lote_2_0.15=c(rep("enfermo",225),rep("sano",1275))

P1_0.1= 100/1000
P2_0.15=225/1500

b.Genere una función que permita obtener una muestra aleatoria de los lotes y calcule el estimador de la proporción muestral para cada lote (p1 y p2) para un tamaño de muestra dado n1=n2. Calcule la diferencia entre los estimadores p1-p2.

-Interpretación: Al realizar la muestra en los dos lotes podemos ver que los resultados de p1 y p2 son diferentes. En este caso #p1=0.12 y #p2=0.25, lo cual nos da una diferencia del 13% a favor de p1, diciendonos que en este caso, el tratamiento de p1 fue mejor que el realizado en p2.

calcula_diferencia_p_2caso=function(n1c){
#n1c=60
n2c=n1c

muestra_1_0.1=sample(lote_1_0.1,n1c)
p1_0.1=sum(muestra_1_0.1=="enfermo")/n1c


muestra_2_0.15=sample(lote_2_0.15,n2c)
p2_0.15=sum(muestra_2_0.15=="enfermo")/n2c

data.frame(p1_0.1,p2_0.15)

diferencia_p_2caso=p1_0.1-p2_0.15  
return(diferencia_p_2caso)

}

calcula_diferencia_p_2caso(n1c=60)
## [1] 0.03333333

c.Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores (diferencias p1-p2). ¿Qué tan simétricos son los datos?, ¿Son siempre cero las diferencias?

-Interpretación: Se muestra que existe simetria en los datos y que en los mismos, entre mas grande sea la muestra mejor son los resultados y se pueden ver de mejor manera las diferencias entre las muestras de los lotes. Las diferencias no son necesariamente siempre cero, ya que lo podemos ver con los cuartiles y los datos de extremos, donde los mismos varian. Además, al ser los parametros diferentes este esta tendiendo mas hacia la diferencia real la cual va dirigia hacia p1 y al esta ser -0.13, podemos ver que en la grafica se empieza a alejar mas del cero y se va mas hacia este valor.

diferencia_p_2caso=sapply(rep(400,500),calcula_diferencia_p_2caso)
summary(diferencia_p_2caso)
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.12000 -0.06250 -0.05000 -0.04986 -0.03750  0.00250
hist(diferencia_p_2caso)

shapiro.test(diferencia_p_2caso)
## 
##  Shapiro-Wilk normality test
## 
## data:  diferencia_p_2caso
## W = 0.99443, p-value = 0.06547

d.Realice los puntos b y c para tamaños de muestra n1=n2=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores (p1-p2) en cuanto a la normalidad. También analice el comportamiento de las diferencias y evalúe. ¿Considera que es más probable concluir que existen diferencias entre los tratamientos con muestras grandes que pequeñas, es decir, cuál considera usted que es el efecto del tamaño de muestra en el caso de la comparación de proporciones?

-Interpretación: Se puede ver variabilidad en muestras muy pequeñas y en las graficas no se muestra normalidad, por otro lado, cuando se aumentan la cantidad de las muestras se puede ver que los datos se comportan de manera mas normal; pero, al utilizar las pruebas de shapiro se ve que en cuanto al valor p todavia se rechaza hipotesis nula en todas las muestras menores de 500. En la ultima muestra de 500 repetida 500 veces, se muestra normalidad en cuanto a grafica y prueba de shapiro. En cuanto a las diferencias en muestras grandes, si considero que al aumentar las muestras se permite ver de mejor manera las diferencias; especialmente en parametros diferentes. En este caso, al aumentar las muestras se puede ver que:

  1. Al los lotes ser diferentes y en este caso estar a favor de p1. En las graficas se empieza mostrar como esta se va alejando de cero y se acerca mas al valor de la diferencia de p1-p2; mostrando que el tratamiento de p1 si fue mas efectivo.
# n1=n2=5

diferencia_p_n5_2caso=sapply(rep(5,500),calcula_diferencia_p_2caso)
summary(diferencia_p_n5_2caso)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -0.8000 -0.2000  0.0000 -0.0556  0.0000  0.8000
hist(diferencia_p_n5_2caso)

shapiro.test(diferencia_p_n5_2caso)
## 
##  Shapiro-Wilk normality test
## 
## data:  diferencia_p_n5_2caso
## W = 0.91455, p-value = 3.424e-16
# n1=n2=10

diferencia_p_n10_2caso=sapply(rep(10,500),calcula_diferencia_p_2caso)
summary(diferencia_p_n10_2caso)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -0.4000 -0.2000  0.0000 -0.0494  0.1000  0.4000
hist(diferencia_p_n10_2caso)

shapiro.test(diferencia_p_n10_2caso)
## 
##  Shapiro-Wilk normality test
## 
## data:  diferencia_p_n10_2caso
## W = 0.95698, p-value = 6.661e-11
# n1=n2=15

diferencia_p_n15_2caso=sapply(rep(15,500),calcula_diferencia_p_2caso)
summary(diferencia_p_n15_2caso)
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.40000 -0.13333 -0.06667 -0.04960  0.06667  0.26667
hist(diferencia_p_n15_2caso)

shapiro.test(diferencia_p_n15_2caso)
## 
##  Shapiro-Wilk normality test
## 
## data:  diferencia_p_n15_2caso
## W = 0.96787, p-value = 5.265e-09
# n1=n2=20

diferencia_p_n20_2caso=sapply(rep(20,500),calcula_diferencia_p_2caso)
summary(diferencia_p_n20_2caso)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -0.4000 -0.1000 -0.0500 -0.0482  0.0000  0.2500
hist(diferencia_p_n20_2caso)

shapiro.test(diferencia_p_n20_2caso)
## 
##  Shapiro-Wilk normality test
## 
## data:  diferencia_p_n20_2caso
## W = 0.97846, p-value = 9.667e-07
# n1=n2=30

diferencia_p_n30_2caso=sapply(rep(30,500),calcula_diferencia_p_2caso)
summary(diferencia_p_n30_2caso)
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.30000 -0.10000 -0.03333 -0.04600  0.00000  0.23333
hist(diferencia_p_n30_2caso)

shapiro.test(diferencia_p_n30_2caso)
## 
##  Shapiro-Wilk normality test
## 
## data:  diferencia_p_n30_2caso
## W = 0.98444, p-value = 3.454e-05
# n1=n2=50

diferencia_p_n50_2caso=sapply(rep(50,500),calcula_diferencia_p_2caso)
summary(diferencia_p_n50_2caso)
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.22000 -0.10000 -0.04000 -0.04996  0.00000  0.16000
hist(diferencia_p_n50_2caso)

shapiro.test(diferencia_p_n50_2caso)
## 
##  Shapiro-Wilk normality test
## 
## data:  diferencia_p_n50_2caso
## W = 0.99048, p-value = 0.002576
# n1=n2=60

diferencia_p_n60_2caso=sapply(rep(60,500),calcula_diferencia_p_2caso)
summary(diferencia_p_n60_2caso)
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.25000 -0.08333 -0.05000 -0.05327 -0.01667  0.15000
hist(diferencia_p_n60_2caso)

shapiro.test(diferencia_p_n60_2caso)
## 
##  Shapiro-Wilk normality test
## 
## data:  diferencia_p_n60_2caso
## W = 0.99152, p-value = 0.005866
# n1=n2=100

diferencia_p_n100_2caso=sapply(rep(100,500),calcula_diferencia_p_2caso)
summary(diferencia_p_n100_2caso)
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.19000 -0.08000 -0.05000 -0.04914 -0.02000  0.07000
hist(diferencia_p_n100_2caso)

shapiro.test(diferencia_p_n100_2caso)
## 
##  Shapiro-Wilk normality test
## 
## data:  diferencia_p_n100_2caso
## W = 0.99202, p-value = 0.008811
# n1=n2=200

diferencia_p_n200_2caso=sapply(rep(200,500),calcula_diferencia_p_2caso)
summary(diferencia_p_n200_2caso)
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.13500 -0.06625 -0.05000 -0.04885 -0.03000  0.03000
hist(diferencia_p_n200_2caso)

shapiro.test(diferencia_p_n200_2caso)
## 
##  Shapiro-Wilk normality test
## 
## data:  diferencia_p_n200_2caso
## W = 0.9948, p-value = 0.08912
# n1=n2=500

diferencia_p_n500_2caso=sapply(rep(500,500),calcula_diferencia_p_2caso)
summary(diferencia_p_n500_2caso)
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.09400 -0.06200 -0.05000 -0.04955 -0.03800 -0.00200
hist(diferencia_p_n500_2caso)

shapiro.test(diferencia_p_n500_2caso)
## 
##  Shapiro-Wilk normality test
## 
## data:  diferencia_p_n500_2caso
## W = 0.99494, p-value = 0.1004

3. Con base al articulo “Statistical Errors: P values, the gold standard of statistical validity, are not as reliable as many scientists assume” escriba un resumen (máximo 2 páginas) sobre ambos artículos e incluya en este sus opiniones en cuanto al uso del valor p como criterio de decisión en inferencia estadística.

                        ERRORES ESTADÍSTICOS

“Valor p, el estándar de oro para validar estadísticamente, no son tan confiables como muchos científicos piensan”.

Para empezar, Ronald Fisher quien introdujo la idea del valor p, al crearlo no lo hizo para que fuera utilizado de manera definitiva si no, como un punto de inicio que ayudara en las investigaciones. Para esto se debía establecer una Hipótesis la cual se estaba buscando desaprobar, en este caso llamada Hipótesis nula (H0). Luego, asumiendo que esta hipótesis era real, entonces calcular cual era la probabilidad de obtener resultados extremos a los observados. Esta probabilidad es lo que llamamos valor p. El resultado decía que, si el valor p era muy pequeño, entonces indicaba que la H0 era falsa.

Esta teoría fue muy criticada por diferentes matemáticos los cuales introdujeron la idea de una hipótesis alternativa. Por otro lado, investigadores al no ser matemáticos o estadísticos crearon un sistema hibrido que metió el valor P de Fisher en el sistema basado en reglas riguroso de Neyman y Pearson. Fue entonces cuando un valor P de 0,05 se consagró como “estadísticamente significativo”.

Después de diferentes investigaciones, se vio que exactamente lo que Fisher decía acerca de no tomar el resultado del valor p como un definitivo, fue cierto, ya que este omite mucha información la cual puede alejar a las personas de datos importantes en cualquier investigación y volver esta misma un P-hacking, que es moldear el estudio de acuerdo a conveniencia, lo cual no es la idea si se desea obtener información real.

Es importante incorporar conocimiento y experiencia sobre el mundo a las conclusiones y calcular como las probabilidades cambian cada vez que llega nueva evidencia. Es por esto, que es significativo realizar un buen análisis exploratorio y uso de diferentes métodos; ya que como Goodman dijo: “Un método no puede responder a todas las preguntas. Es por esto que los números es donde la discusión científica debe comenzar, no terminar”.

Para terminar, la decisión de usar cualquier tipo de valor significativo, ya sea 0.01 o 0.05, dependerá siempre de quienes estén realizando la investigación; y esta decisión se deberá basar en diferentes métodos y conocimientos tales como la experiencia, la intuición y demás. Los resultados no son siempre lo que parecen si los mismos no vienen soportados por métodos y factores que hacen parte del problema y probablemente de la solución.