I. TALLER DE SIMULACIÓN

PUNTO 1:

a.Realice una simulación en la cual genere una población de N=1000 (Lote) y además que el porcentaje de individuos (plantas) enfermas sea del 60%.

lote=c(rep("enfermo",500),rep("sana",500))
lote=sample(lote)
lote
##    [1] "sana"    "sana"    "enfermo" "sana"    "enfermo" "sana"    "enfermo"
##    [8] "sana"    "sana"    "enfermo" "enfermo" "sana"    "enfermo" "enfermo"
##   [15] "enfermo" "enfermo" "sana"    "sana"    "enfermo" "enfermo" "enfermo"
##   [22] "enfermo" "enfermo" "enfermo" "sana"    "sana"    "enfermo" "sana"   
##   [29] "sana"    "enfermo" "sana"    "sana"    "sana"    "sana"    "enfermo"
##   [36] "sana"    "sana"    "enfermo" "enfermo" "sana"    "enfermo" "sana"   
##   [43] "sana"    "sana"    "enfermo" "enfermo" "sana"    "sana"    "sana"   
##   [50] "sana"    "enfermo" "sana"    "enfermo" "enfermo" "sana"    "enfermo"
##   [57] "enfermo" "sana"    "enfermo" "enfermo" "enfermo" "enfermo" "enfermo"
##   [64] "enfermo" "enfermo" "enfermo" "enfermo" "sana"    "enfermo" "enfermo"
##   [71] "sana"    "sana"    "sana"    "sana"    "sana"    "sana"    "sana"   
##   [78] "enfermo" "sana"    "sana"    "sana"    "sana"    "sana"    "enfermo"
##   [85] "sana"    "enfermo" "sana"    "enfermo" "enfermo" "sana"    "enfermo"
##   [92] "enfermo" "enfermo" "enfermo" "enfermo" "sana"    "sana"    "enfermo"
##   [99] "sana"    "sana"    "sana"    "sana"    "sana"    "sana"    "sana"   
##  [106] "enfermo" "enfermo" "enfermo" "sana"    "sana"    "sana"    "sana"   
##  [113] "sana"    "enfermo" "enfermo" "sana"    "enfermo" "enfermo" "enfermo"
##  [120] "sana"    "sana"    "enfermo" "sana"    "sana"    "sana"    "enfermo"
##  [127] "enfermo" "sana"    "enfermo" "sana"    "sana"    "sana"    "sana"   
##  [134] "sana"    "sana"    "sana"    "enfermo" "sana"    "enfermo" "sana"   
##  [141] "sana"    "sana"    "sana"    "enfermo" "enfermo" "enfermo" "sana"   
##  [148] "sana"    "sana"    "sana"    "sana"    "enfermo" "enfermo" "sana"   
##  [155] "sana"    "sana"    "sana"    "enfermo" "sana"    "enfermo" "sana"   
##  [162] "enfermo" "sana"    "enfermo" "enfermo" "sana"    "enfermo" "sana"   
##  [169] "enfermo" "enfermo" "enfermo" "sana"    "sana"    "enfermo" "sana"   
##  [176] "sana"    "sana"    "enfermo" "sana"    "sana"    "sana"    "enfermo"
##  [183] "enfermo" "sana"    "sana"    "sana"    "enfermo" "enfermo" "sana"   
##  [190] "enfermo" "enfermo" "sana"    "enfermo" "enfermo" "enfermo" "sana"   
##  [197] "enfermo" "enfermo" "sana"    "sana"    "sana"    "enfermo" "enfermo"
##  [204] "enfermo" "enfermo" "enfermo" "sana"    "sana"    "enfermo" "sana"   
##  [211] "sana"    "sana"    "enfermo" "enfermo" "sana"    "sana"    "enfermo"
##  [218] "enfermo" "enfermo" "enfermo" "enfermo" "sana"    "sana"    "enfermo"
##  [225] "enfermo" "sana"    "enfermo" "enfermo" "enfermo" "enfermo" "sana"   
##  [232] "sana"    "sana"    "enfermo" "sana"    "sana"    "enfermo" "sana"   
##  [239] "enfermo" "enfermo" "sana"    "sana"    "enfermo" "sana"    "enfermo"
##  [246] "enfermo" "sana"    "enfermo" "sana"    "sana"    "sana"    "enfermo"
##  [253] "sana"    "sana"    "sana"    "enfermo" "sana"    "sana"    "enfermo"
##  [260] "sana"    "sana"    "sana"    "enfermo" "enfermo" "sana"    "enfermo"
##  [267] "enfermo" "sana"    "sana"    "enfermo" "enfermo" "enfermo" "enfermo"
##  [274] "enfermo" "enfermo" "sana"    "enfermo" "sana"    "enfermo" "enfermo"
##  [281] "enfermo" "enfermo" "sana"    "sana"    "sana"    "enfermo" "sana"   
##  [288] "sana"    "enfermo" "sana"    "sana"    "sana"    "enfermo" "sana"   
##  [295] "enfermo" "enfermo" "sana"    "enfermo" "enfermo" "enfermo" "enfermo"
##  [302] "sana"    "enfermo" "enfermo" "enfermo" "sana"    "sana"    "sana"   
##  [309] "enfermo" "sana"    "enfermo" "enfermo" "sana"    "sana"    "enfermo"
##  [316] "sana"    "sana"    "enfermo" "sana"    "enfermo" "enfermo" "enfermo"
##  [323] "sana"    "sana"    "enfermo" "sana"    "sana"    "enfermo" "enfermo"
##  [330] "sana"    "sana"    "enfermo" "enfermo" "sana"    "enfermo" "sana"   
##  [337] "enfermo" "enfermo" "sana"    "sana"    "sana"    "enfermo" "enfermo"
##  [344] "sana"    "enfermo" "sana"    "enfermo" "sana"    "sana"    "sana"   
##  [351] "sana"    "sana"    "enfermo" "sana"    "enfermo" "enfermo" "sana"   
##  [358] "sana"    "sana"    "enfermo" "sana"    "sana"    "sana"    "enfermo"
##  [365] "enfermo" "sana"    "sana"    "sana"    "sana"    "enfermo" "sana"   
##  [372] "sana"    "enfermo" "enfermo" "sana"    "sana"    "sana"    "enfermo"
##  [379] "sana"    "enfermo" "enfermo" "sana"    "sana"    "enfermo" "enfermo"
##  [386] "sana"    "enfermo" "sana"    "sana"    "enfermo" "enfermo" "enfermo"
##  [393] "sana"    "sana"    "enfermo" "enfermo" "sana"    "sana"    "sana"   
##  [400] "enfermo" "sana"    "sana"    "sana"    "sana"    "sana"    "sana"   
##  [407] "enfermo" "sana"    "enfermo" "enfermo" "sana"    "sana"    "enfermo"
##  [414] "sana"    "sana"    "sana"    "enfermo" "enfermo" "enfermo" "sana"   
##  [421] "sana"    "enfermo" "sana"    "enfermo" "enfermo" "enfermo" "enfermo"
##  [428] "enfermo" "sana"    "sana"    "enfermo" "sana"    "sana"    "sana"   
##  [435] "sana"    "sana"    "sana"    "sana"    "sana"    "enfermo" "sana"   
##  [442] "sana"    "sana"    "enfermo" "enfermo" "enfermo" "sana"    "enfermo"
##  [449] "enfermo" "enfermo" "enfermo" "sana"    "sana"    "sana"    "enfermo"
##  [456] "sana"    "enfermo" "enfermo" "enfermo" "enfermo" "sana"    "sana"   
##  [463] "sana"    "sana"    "enfermo" "enfermo" "sana"    "sana"    "enfermo"
##  [470] "sana"    "sana"    "enfermo" "sana"    "sana"    "sana"    "enfermo"
##  [477] "sana"    "sana"    "enfermo" "sana"    "enfermo" "enfermo" "sana"   
##  [484] "enfermo" "enfermo" "sana"    "sana"    "enfermo" "enfermo" "sana"   
##  [491] "sana"    "sana"    "enfermo" "enfermo" "sana"    "enfermo" "enfermo"
##  [498] "enfermo" "enfermo" "enfermo" "enfermo" "sana"    "sana"    "sana"   
##  [505] "enfermo" "enfermo" "enfermo" "enfermo" "sana"    "sana"    "sana"   
##  [512] "sana"    "enfermo" "sana"    "sana"    "enfermo" "enfermo" "enfermo"
##  [519] "enfermo" "enfermo" "enfermo" "enfermo" "enfermo" "enfermo" "enfermo"
##  [526] "enfermo" "sana"    "enfermo" "sana"    "sana"    "sana"    "enfermo"
##  [533] "enfermo" "sana"    "enfermo" "sana"    "sana"    "enfermo" "sana"   
##  [540] "enfermo" "sana"    "sana"    "sana"    "sana"    "enfermo" "sana"   
##  [547] "enfermo" "enfermo" "sana"    "enfermo" "enfermo" "enfermo" "enfermo"
##  [554] "sana"    "enfermo" "sana"    "enfermo" "sana"    "sana"    "enfermo"
##  [561] "enfermo" "enfermo" "sana"    "sana"    "enfermo" "enfermo" "enfermo"
##  [568] "enfermo" "sana"    "sana"    "sana"    "enfermo" "enfermo" "enfermo"
##  [575] "sana"    "enfermo" "enfermo" "sana"    "sana"    "sana"    "sana"   
##  [582] "sana"    "sana"    "enfermo" "sana"    "sana"    "sana"    "sana"   
##  [589] "sana"    "sana"    "enfermo" "sana"    "enfermo" "enfermo" "enfermo"
##  [596] "sana"    "sana"    "enfermo" "enfermo" "enfermo" "sana"    "enfermo"
##  [603] "enfermo" "sana"    "sana"    "enfermo" "sana"    "sana"    "enfermo"
##  [610] "enfermo" "sana"    "sana"    "enfermo" "sana"    "enfermo" "sana"   
##  [617] "sana"    "sana"    "sana"    "sana"    "sana"    "enfermo" "enfermo"
##  [624] "sana"    "enfermo" "sana"    "enfermo" "sana"    "enfermo" "sana"   
##  [631] "enfermo" "sana"    "enfermo" "enfermo" "sana"    "enfermo" "enfermo"
##  [638] "enfermo" "sana"    "sana"    "enfermo" "enfermo" "sana"    "sana"   
##  [645] "sana"    "enfermo" "sana"    "sana"    "sana"    "enfermo" "sana"   
##  [652] "sana"    "enfermo" "enfermo" "sana"    "enfermo" "enfermo" "enfermo"
##  [659] "enfermo" "enfermo" "enfermo" "sana"    "enfermo" "sana"    "enfermo"
##  [666] "sana"    "enfermo" "enfermo" "enfermo" "enfermo" "enfermo" "enfermo"
##  [673] "sana"    "sana"    "enfermo" "enfermo" "enfermo" "sana"    "enfermo"
##  [680] "enfermo" "sana"    "sana"    "sana"    "enfermo" "sana"    "enfermo"
##  [687] "sana"    "sana"    "enfermo" "enfermo" "enfermo" "enfermo" "enfermo"
##  [694] "enfermo" "enfermo" "enfermo" "enfermo" "sana"    "enfermo" "enfermo"
##  [701] "sana"    "sana"    "sana"    "sana"    "sana"    "sana"    "sana"   
##  [708] "enfermo" "enfermo" "sana"    "enfermo" "enfermo" "enfermo" "sana"   
##  [715] "sana"    "sana"    "sana"    "enfermo" "enfermo" "sana"    "sana"   
##  [722] "enfermo" "sana"    "sana"    "enfermo" "enfermo" "enfermo" "sana"   
##  [729] "enfermo" "sana"    "enfermo" "sana"    "enfermo" "enfermo" "enfermo"
##  [736] "sana"    "enfermo" "enfermo" "enfermo" "sana"    "enfermo" "enfermo"
##  [743] "enfermo" "enfermo" "enfermo" "sana"    "sana"    "sana"    "sana"   
##  [750] "enfermo" "sana"    "sana"    "enfermo" "sana"    "enfermo" "enfermo"
##  [757] "enfermo" "enfermo" "enfermo" "enfermo" "sana"    "sana"    "enfermo"
##  [764] "sana"    "enfermo" "enfermo" "sana"    "sana"    "enfermo" "enfermo"
##  [771] "sana"    "enfermo" "enfermo" "sana"    "enfermo" "enfermo" "enfermo"
##  [778] "sana"    "sana"    "enfermo" "sana"    "sana"    "sana"    "sana"   
##  [785] "enfermo" "enfermo" "enfermo" "sana"    "sana"    "sana"    "enfermo"
##  [792] "enfermo" "sana"    "enfermo" "sana"    "sana"    "enfermo" "sana"   
##  [799] "sana"    "sana"    "sana"    "enfermo" "enfermo" "sana"    "enfermo"
##  [806] "enfermo" "sana"    "sana"    "enfermo" "enfermo" "enfermo" "enfermo"
##  [813] "enfermo" "enfermo" "sana"    "enfermo" "enfermo" "enfermo" "enfermo"
##  [820] "enfermo" "sana"    "enfermo" "enfermo" "enfermo" "enfermo" "sana"   
##  [827] "enfermo" "sana"    "enfermo" "enfermo" "sana"    "enfermo" "sana"   
##  [834] "enfermo" "sana"    "enfermo" "sana"    "enfermo" "enfermo" "enfermo"
##  [841] "enfermo" "sana"    "enfermo" "sana"    "enfermo" "sana"    "sana"   
##  [848] "enfermo" "enfermo" "sana"    "sana"    "enfermo" "sana"    "sana"   
##  [855] "sana"    "sana"    "sana"    "enfermo" "sana"    "enfermo" "enfermo"
##  [862] "sana"    "sana"    "enfermo" "enfermo" "sana"    "sana"    "sana"   
##  [869] "sana"    "enfermo" "enfermo" "sana"    "sana"    "sana"    "sana"   
##  [876] "enfermo" "sana"    "enfermo" "enfermo" "enfermo" "sana"    "enfermo"
##  [883] "sana"    "enfermo" "sana"    "sana"    "enfermo" "enfermo" "enfermo"
##  [890] "sana"    "enfermo" "enfermo" "enfermo" "sana"    "enfermo" "enfermo"
##  [897] "sana"    "enfermo" "sana"    "enfermo" "enfermo" "sana"    "sana"   
##  [904] "sana"    "sana"    "sana"    "sana"    "enfermo" "sana"    "enfermo"
##  [911] "sana"    "enfermo" "sana"    "sana"    "enfermo" "sana"    "enfermo"
##  [918] "enfermo" "enfermo" "enfermo" "sana"    "enfermo" "sana"    "sana"   
##  [925] "enfermo" "sana"    "sana"    "enfermo" "sana"    "enfermo" "enfermo"
##  [932] "enfermo" "enfermo" "sana"    "sana"    "sana"    "sana"    "sana"   
##  [939] "sana"    "sana"    "enfermo" "enfermo" "enfermo" "sana"    "sana"   
##  [946] "enfermo" "enfermo" "enfermo" "sana"    "sana"    "enfermo" "sana"   
##  [953] "sana"    "sana"    "sana"    "enfermo" "sana"    "enfermo" "enfermo"
##  [960] "sana"    "sana"    "sana"    "enfermo" "sana"    "enfermo" "enfermo"
##  [967] "enfermo" "enfermo" "sana"    "enfermo" "enfermo" "enfermo" "enfermo"
##  [974] "sana"    "enfermo" "enfermo" "sana"    "enfermo" "sana"    "sana"   
##  [981] "enfermo" "sana"    "enfermo" "enfermo" "sana"    "sana"    "enfermo"
##  [988] "enfermo" "enfermo" "enfermo" "sana"    "enfermo" "enfermo" "sana"   
##  [995] "sana"    "enfermo" "enfermo" "sana"    "enfermo" "sana"

b.Genere una función que permita obtener una muestra aleatoria de la población y calcule el estimador de la proporción muestral para un tamaño de muestra dado n.

calc_p_var=function(n){
muestra=sample(lote,size = n)
p_var=sum(muestra=="enfermo")/n
return(p_var)
}
calc_p_var(n = 500)
## [1] 0.488

c.Repita el escenario anterior (b) 10.000 veces y analice los resultados en cuanto al comportamiento de los 10.000 estimadores. ¿Qué tan simétricos son los datos?, ¿Son sesgados y qué pasa en cuanto a variabilidad?

Pp_var=sapply(rep(500,10000), calc_p_var)
hist(Pp_var)
mean(Pp_var)
## [1] 0.499941
line = mean(Pp_var)
abline(v=line, col="red", lwd=3)

library(moments)
skewness(Pp_var)
## [1] 0.0005407916
kurtosis(Pp_var)
## [1] 2.899375
variance= function (Pp_var)   
  sum((Pp_var-mean(Pp_var))^2)/(length(Pp_var)-1) 

variance(Pp_var)
## [1] 0.0002485258

Análisis Punto C Se observa una simetria leve por la cercania a 0 y una curtosis positiva indica que los datos presentan valores atípicos más extremos por lo que es mas puntiaguda en la media, adicional con una varianza tan pequeña indica una baja dispersión En resumen concentración alta, centralización y Distribución puntiaguda.

d. Realice los ejercicios completos b y c para tamaños de muestra n=5, 10, 15, 20, 30, 60, 60, 100, 200, 500. Y compare los resultados de los estimadores en cuanto a la normalidad. Investigue y utilice pruebas de bondad y ajuste (shapiro wilks) y métodos gráficos (grafico qq de normalidad).

N=5

require(car)
Pp_var_5 = sapply(rep(500, 5), calc_p_var)
par(mfrow=c(1,3))
hist(Pp_var_5, las=1, ylab = "Frecuencia", main = "", col = "white")
plot(density(Pp_var_5), las=1, ylab = "Densidad", main = "")
qqPlot(Pp_var_5, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 5 1
Swn=shapiro.test(Pp_var_5)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  Pp_var_5
## W = 0.7449, p-value = 0.02668

N=10

Pp_var_10 = sapply(rep(500, 10), calc_p_var)
par(mfrow=c(1,3))
hist(Pp_var_10, las=1, ylab = "Frecuencia", main = "", col = "white")
plot(density(Pp_var_10), las=1, ylab = "Densidad", main = "")
qqPlot(Pp_var_10, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 9 6
Swn=shapiro.test(Pp_var_10)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  Pp_var_10
## W = 0.88294, p-value = 0.141

N=15

Pp_var_15 = sapply(rep(500, 15), calc_p_var)
par(mfrow=c(1,3))
hist(Pp_var_15, las=1, ylab = "Frecuencia", main = "", col = "white")
plot(density(Pp_var_15), las=1, ylab = "Densidad", main = "")
qqPlot(Pp_var_15, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 15 10
Swn=shapiro.test(Pp_var_15)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  Pp_var_15
## W = 0.94577, p-value = 0.4605

N=20

Pp_var_20 = sapply(rep(500, 20), calc_p_var)
par(mfrow=c(1,3))
hist(Pp_var_20, las=1, ylab = "Frecuencia", main = "", col = "white")
plot(density(Pp_var_20), las=1, ylab = "Densidad", main = "")
qqPlot(Pp_var_20, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1]  1 15
Swn=shapiro.test(Pp_var_20)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  Pp_var_20
## W = 0.97938, p-value = 0.9258

N=30

Pp_var_30 = sapply(rep(500, 30), calc_p_var)
par(mfrow=c(1,3))
hist(Pp_var_30, las=1, ylab = "Frecuencia", main = "", col = "white")
plot(density(Pp_var_30), las=1, ylab = "Densidad", main = "")
qqPlot(Pp_var_30, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 15 17
Swn=shapiro.test(Pp_var_30)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  Pp_var_30
## W = 0.96749, p-value = 0.4729

N=50

Pp_var_50 = sapply(rep(500, 50), calc_p_var)
par(mfrow=c(1,3))
hist(Pp_var_50, las=1, ylab = "Frecuencia", main = "", col = "white")
plot(density(Pp_var_50), las=1, ylab = "Densidad", main = "")
qqPlot(Pp_var_50, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 17 28
Swn=shapiro.test(Pp_var_50)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  Pp_var_50
## W = 0.98976, p-value = 0.9404

N=60

Pp_var_60 = sapply(rep(500, 60), calc_p_var)
par(mfrow=c(1,3))
hist(Pp_var_60, las=1, ylab = "Frecuencia", main = "", col = "white")
plot(density(Pp_var_60), las=1, ylab = "Densidad", main = "")
qqPlot(Pp_var_60, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1]  2 12
Swn=shapiro.test(Pp_var_60)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  Pp_var_60
## W = 0.98298, p-value = 0.5666

N=100

Pp_var_100 = sapply(rep(500, 100), calc_p_var)
par(mfrow=c(1,3))
hist(Pp_var_100, las=1, ylab = "Frecuencia", main = "", col = "white")
plot(density(Pp_var_100), las=1, ylab = "Densidad", main = "")
qqPlot(Pp_var_100, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 51 58
Swn=shapiro.test(Pp_var_100)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  Pp_var_100
## W = 0.98797, p-value = 0.5056

N=200

Pp_var_200 = sapply(rep(500, 200), calc_p_var)
par(mfrow=c(1,3))
hist(Pp_var_200, las=1, ylab = "Frecuencia", main = "", col = "white")
plot(density(Pp_var_200), las=1, ylab = "Densidad", main = "")
qqPlot(Pp_var_200, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 29 12
Swn=shapiro.test(Pp_var_200)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  Pp_var_200
## W = 0.99166, p-value = 0.3076

N=500

Pp_var_500 = sapply(rep(500, 500), calc_p_var)
par(mfrow=c(1,3))
hist(Pp_var_500, las=1, ylab = "Frecuencia", main = "", col = "white")
plot(density(Pp_var_500), las=1, ylab = "Densidad", main = "")
qqPlot(Pp_var_500, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 191  32
Swn=shapiro.test(Pp_var_500)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  Pp_var_500
## W = 0.99608, p-value = 0.2533

Análisis: Se puede dar indicacion que para los diferentes valores muestrales se observan mejores comportamientos con mayor tendencia a la distribución normal en muestras mas grandes especificamente al revisar los graficos de histogramas, densidad y de qqnormalidad, y en el caso de las pruebas de Shapiro -Wilk los p valores son diferentes en rangos de 0,7 a 0,02 aproximadamente, por lo anterior ninguno tiene un comportamiento por debajo de 0,01.

e.Repita toda la simulación (puntos a – d) pero ahora con lotes con 10% y 90% de plantas enfermas. Concluya todo el ejercicio.

LOTE 10%

lote_2 = c(rep("Enfermo", 100), rep("Sana",900))
lote_2 = sample(lote_2)

MUESTRA

calc_p_var_2 = function(n){
muestra_2 = sample(lote_2, size = n)
p_var_2 = sum(muestra_2 == "Enfermo")/n
return(p_var_2)
}
calc_p_var_2(n=500)
## [1] 0.102

ESCENARIO SIMULACIÓN 10K

Pp_var_2 = sapply(rep(500, 10000), calc_p_var_2)
hist(Pp_var_2)
line_2 = mean(Pp_var_2)
abline(v=line_2, col="red", lwd=3)

library(moments)
skewness(Pp_var_2)
## [1] -0.02597753
kurtosis(Pp_var_2)
## [1] 2.913904
variance= function (Pp_var_2)   
sum((Pp_var_2-mean(Pp_var_2))^2)/(length(Pp_var_2)-1) 
variance(Pp_var_2)
## [1] 9.04695e-05

Análisis: Se observa una simetria leve por la cercania a 0 y una curtosis positiva indica que los datos presentan valores atípicos más extremos por lo que es mas puntiaguda en la media, adicional con una varianza tan pequeña indica una muy baja dispersión.

MUESTRAS N=5

require(car)
Pp_var_5_2 = sapply(rep(500, 5), calc_p_var_2)
par(mfrow=c(1,3))
hist(Pp_var_5_2, las=1, ylab = "Frecuencia", main = "", col = "white")
plot(density(Pp_var_5_2), las=1, ylab = "Densidad", main = "")
qqPlot(Pp_var_5_2, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 4 1
Swn<-shapiro.test(Pp_var_5_2)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  Pp_var_5_2
## W = 0.94673, p-value = 0.7138

N=10

Pp_var_10_2 = sapply(rep(500, 10), calc_p_var_2)
par(mfrow=c(1,3))
hist(Pp_var_10_2, las=1, ylab = "Frecuencia", main = "", col = "white")
plot(density(Pp_var_10_2), las=1, ylab = "Densidad", main = "")
qqPlot(Pp_var_10_2, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 10  6
Swn<-shapiro.test(Pp_var_10_2)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  Pp_var_10_2
## W = 0.97075, p-value = 0.8977

N=20

Pp_var_20_2 = sapply(rep(500, 20), calc_p_var_2)
par(mfrow=c(1,3))
hist(Pp_var_20_2, las=1, ylab = "Frecuencia", main = "", col = "white")
plot(density(Pp_var_20_2), las=1, ylab = "Densidad", main = "")
qqPlot(Pp_var_20_2, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 20 10
Swn<-shapiro.test(Pp_var_20_2)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  Pp_var_20_2
## W = 0.9431, p-value = 0.2742

N=30

Pp_var_30_2 = sapply(rep(500, 30), calc_p_var_2)
par(mfrow=c(1,3))
hist(Pp_var_30_2, las=1, ylab = "Frecuencia", main = "", col = "white")
plot(density(Pp_var_30_2), las=1, ylab = "Densidad", main = "")
qqPlot(Pp_var_30_2, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1]  9 17
Swn<-shapiro.test(Pp_var_30_2)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  Pp_var_30_2
## W = 0.97821, p-value = 0.7763

N=50

Pp_var_50_2 = sapply(rep(500, 50), calc_p_var_2)
par(mfrow=c(1,3))
hist(Pp_var_50_2, las=1, ylab = "Frecuencia", main = "", col = "white")
plot(density(Pp_var_50_2), las=1, ylab = "Densidad", main = "")
qqPlot(Pp_var_50_2, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 19 50
Swn<-shapiro.test(Pp_var_50_2)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  Pp_var_50_2
## W = 0.97027, p-value = 0.2373

N=60

Pp_var_60_2 = sapply(rep(500, 60), calc_p_var_2)
par(mfrow=c(1,3))
hist(Pp_var_60_2, las=1, ylab = "Frecuencia", main = "", col = "white")
plot(density(Pp_var_60_2), las=1, ylab = "Densidad", main = "")
qqPlot(Pp_var_60_2, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 29 36
Swn<-shapiro.test(Pp_var_60_2)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  Pp_var_60_2
## W = 0.97037, p-value = 0.1522

N=100

Pp_var_100_2 = sapply(rep(500, 100), calc_p_var_2)
par(mfrow=c(1,3))
hist(Pp_var_100_2, las=1, ylab = "Frecuencia", main = "", col = "white")
plot(density(Pp_var_100_2), las=1, ylab = "Densidad", main = "")
qqPlot(Pp_var_100_2, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1]  3 80
Swn<-shapiro.test(Pp_var_100_2)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  Pp_var_100_2
## W = 0.97378, p-value = 0.04331

N=200

Pp_var_200_2 = sapply(rep(500, 200), calc_p_var_2)
par(mfrow=c(1,3))
hist(Pp_var_200_2, las=1, ylab = "Frecuencia", main = "", col = "white")
plot(density(Pp_var_200_2), las=1, ylab = "Densidad", main = "")
qqPlot(Pp_var_200_2, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1]  33 130
Swn<-shapiro.test(Pp_var_200_2)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  Pp_var_200_2
## W = 0.98939, p-value = 0.1455

N=500

Pp_var_500_2 = sapply(rep(500, 500), calc_p_var_2)
par(mfrow=c(1,3))
hist(Pp_var_500_2, las=1, ylab = "Frecuencia", main = "", col = "white")
plot(density(Pp_var_500_2), las=1, ylab = "Densidad", main = "")
qqPlot(Pp_var_500_2, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 499 226
Swn<-shapiro.test(Pp_var_500_2)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  Pp_var_500_2
## W = 0.99418, p-value = 0.05333

LOTE 90%

lote_3 = c(rep("Enfermo", 900), rep("Sana",100))
lote_3 = sample(lote_3)

MUESTRA

calc_p_var_3 = function(n){
muestra_3 = sample(lote_3, size = n)
p_var_3 = sum(muestra_3 == "Enfermo")/n
return(p_var_3)
}

calc_p_var_3(n=500)
## [1] 0.898

ESCENARIO 10K

Pp_var_3 = sapply(rep(500, 10000), calc_p_var_3)
hist(Pp_var_3)
line_3 = mean(Pp_var_3)
abline(v=line_3, col="red", lwd=3)

library(moments)
skewness(Pp_var_3)
## [1] 0.05096943
kurtosis(Pp_var_3)
## [1] 2.980326
variance= function (Pp_var_3)   
sum((Pp_var_3-mean(Pp_var_3))^2)/(length(Pp_var_3)-1)
variance(Pp_var_3)
## [1] 8.935552e-05

Análisis: Se observa una simetria leve por la cercania a 0 y una curtosis positiva indica que los datos presentan valores atípicos más extremos por lo que es mas puntiaguda en la media, adicional con una varianza tan pequeña indica una muy baja dispersión.

MUESTRAS N=5

require(car)
Pp_var_5_3 = sapply(rep(500, 5), calc_p_var_2)
par(mfrow=c(1,3))
hist(Pp_var_5_3, las=1, ylab = "Frecuencia", main = "", col = "white")
plot(density(Pp_var_5_3), las=1, ylab = "Densidad", main = "")
qqPlot(Pp_var_5_3, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 2 1
Swn=shapiro.test(Pp_var_5_3)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  Pp_var_5_3
## W = 0.82108, p-value = 0.119

N=10

Pp_var_10_3 = sapply(rep(500, 10), calc_p_var_2)
par(mfrow=c(1,3))
hist(Pp_var_10_3, las=1, ylab = "Frecuencia", main = "", col = "white")
plot(density(Pp_var_10_3), las=1, ylab = "Densidad", main = "")
qqPlot(Pp_var_10_3, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 9 4
Swn=shapiro.test(Pp_var_10_3)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  Pp_var_10_3
## W = 0.90833, p-value = 0.2697

N=20

Pp_var_20_3 = sapply(rep(500, 20), calc_p_var_2)
par(mfrow=c(1,3))
hist(Pp_var_20_3, las=1, ylab = "Frecuencia", main = "", col = "white")
plot(density(Pp_var_20_3), las=1, ylab = "Densidad", main = "")
qqPlot(Pp_var_20_3, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 11 19
Swn=shapiro.test(Pp_var_20_3)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  Pp_var_20_3
## W = 0.98172, p-value = 0.9544

N=30

Pp_var_30_3 = sapply(rep(500, 30), calc_p_var_2)
par(mfrow=c(1,3))
hist(Pp_var_30_3, las=1, ylab = "Frecuencia", main = "", col = "white")
plot(density(Pp_var_30_3), las=1, ylab = "Densidad", main = "")
qqPlot(Pp_var_30_3, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 14 20
Swn=shapiro.test(Pp_var_30_3)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  Pp_var_30_3
## W = 0.95872, p-value = 0.2872

N=50

Pp_var_50_3 = sapply(rep(500, 50), calc_p_var_2)
par(mfrow=c(1,3))
hist(Pp_var_50_3, las=1, ylab = "Frecuencia", main = "", col = "white")
plot(density(Pp_var_50_3), las=1, ylab = "Densidad", main = "")
qqPlot(Pp_var_50_3, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 41  7
Swn=shapiro.test(Pp_var_50_3)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  Pp_var_50_3
## W = 0.98683, p-value = 0.8465

N=100

Pp_var_100_3 = sapply(rep(500, 100), calc_p_var_2)
par(mfrow=c(1,3))
hist(Pp_var_100_3, las=1, ylab = "Frecuencia", main = "", col = "white")
plot(density(Pp_var_100_3), las=1, ylab = "Densidad", main = "")
qqPlot(Pp_var_100_3, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 68  2
Swn=shapiro.test(Pp_var_100_3)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  Pp_var_100_3
## W = 0.97827, p-value = 0.09745

N=200

Pp_var_200_3 = sapply(rep(500, 200), calc_p_var_2)
par(mfrow=c(1,3))
hist(Pp_var_200_3, las=1, ylab = "Frecuencia", main = "", col = "white")
plot(density(Pp_var_200_3), las=1, ylab = "Densidad", main = "")
qqPlot(Pp_var_200_3, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 115  30
Swn=shapiro.test(Pp_var_200_3)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  Pp_var_200_3
## W = 0.98698, p-value = 0.06337

N=500

Pp_var_500_3 = sapply(rep(500, 500), calc_p_var_2)
par(mfrow=c(1,3))
hist(Pp_var_500_3, las=1, ylab = "Frecuencia", main = "", col = "white")
plot(density(Pp_var_500_3), las=1, ylab = "Densidad", main = "")
qqPlot(Pp_var_500_3, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")

## [1] 461 127
Swn=shapiro.test(Pp_var_500_3)
Swn
## 
##  Shapiro-Wilk normality test
## 
## data:  Pp_var_500_3
## W = 0.99345, p-value = 0.02886

Análisis Punto e En general los comportamientos de las graficas son variables sin embargo a mayor cantidad de muestras se observa en los graficos de densidad comportamientos mas cercanos a la linea qq, en el caso de los Pvalue no esta por debajo de 0,02 exceptuando el caso de N500 que evidencia un valor demasiado pequeño que llevaria a afirmar que en ese caso no se evidencia normalidad.

PUNTO 2: a.Suponga un escenario en el cual usted aplicó tratamientos diferentes a dos lotes y desea analizar si alguno de los dos presenta un mejor desempeño en el control de una plaga presente en ambos al momento inicial. Para ello utilizará como criterio de desempeño el tratamiento que menor % de plantas enfermas presente después de un tiempo de aplicación (es decir, si se presentan o no diferencias en las proporciones de enfermos P1 y P2). Realice una simulación en la cual genere dos poblaciones de N1=1000 (Lote1) y N2=1600 (Lote2), además asuma que el porcentaje de individuos (plantas) enfermas en ambos lotes sea la misma 10% (es decir, sin diferencias entre los tratamientos).

N1 = c(rep("Enfermo", 100), rep("Sana",900))
N1 = sample(N1)
N2 = c(rep("Enfermo", 160), rep("Sana",1360))
N2 = sample(N2)

b.Genere una función que permita obtener una muestra aleatoria de los lotes y calcule el estimador de la proporción muestral para cada lote (p1 y p2) para un tamaño de muestra dado n1=n2. Calcule la diferencia entre los estimadores p1-p2.

calc_p_var_N1 = function(n){
muestra = sample(N1, size = n)
p_var_N1 = sum(muestra == "Enfermo")/n
return(p_var_N1)
}

x1 = calc_p_var_N1(n=400) *400

p1 = x1 / 400

calc_p_var_N2 = function(n){
muestra = sample(N2, size = n)
p_var_N2 = sum(muestra == "Enfermo")/n
return(p_var_N2)
}

x2 = calc_p_var_N2(n=400) *400

p2 = x2 / 400
dife= p1 - p2
dife
## [1] -0.0225

Análisis Punto b: La diferencia entre los estimadores tiene un comportamiento cercano a cero sin embargo no se puede concluir que el comportamiento es completamente igual.

c. Repita el escenario anterior (b) 10000 veces y analice los resultados en cuanto al comportamiento de los 10000 estimadores (diferencias p1-p2). ¿Qué tan simétricos son los datos?, ¿Son siempre cero las diferencias?

simulacion_N1 = sapply(rep(400, 10000), calc_p_var_N1)
simulacion_N2= sapply(rep(400, 10000), calc_p_var_N2)
dif_p1_p2=simulacion_N1-simulacion_N2
par(mfrow=c(1,3))
hist(simulacion_N1)
hist(simulacion_N2)
hist(dif_p1_p2)
abline(v=mean(dif_p1_p2), col="red", lwd=3)

library(moments)
skewness(dif_p1_p2)
## [1] 0.02193687
kurtosis(dif_p1_p2)
## [1] 2.998518
variance <- function (dif_p1_p2)   
  sum((dif_p1_p2-mean(dif_p1_p2))^2)/(length(dif_p1_p2)-1) #escrita como una funcion
variance(dif_p1_p2)
## [1] 0.0003068367

Análisis: Se percibe una baja asimetria, la curtosis es positiva por lo que los extremos son largos y alta concentración en la media, y adicional una varianza cercana a cero por lo que hay alta concentración de los datos .

d. Realice los puntos b y c para tamaños de muestra n1=n2=5, 10, 15, 20, 30, 60, 60, 100, 200, 600. Y compare los resultados de los estimadores (p1-p2) en cuanto a la normalidad. También analice el comportamiento de las diferencias y evalúe. ¿Considera que es más probable concluir que existen diferencias entre los tratamientos con muestras grandes que pequeñas, es decir, cuál considera usted que es el efecto del tamaño de muestra en el caso de la comparación de proporciones?

N=5

p_var_5_N1 = sapply(rep(400, 5), calc_p_var_N1)
p_var_5_N2 = sapply(rep(400, 5), calc_p_var_N2)
par(mfrow=c(1,2))
hist(p_var_5_N1, las=1, ylab = "Frecuencia", main = "", col = "white")
hist(p_var_5_N2, las=1, ylab = "Frecuencia", main = "", col = "white")

dif_p1_p2_5 = p_var_5_N1 - p_var_5_N2
hist(dif_p1_p2_5, las=1, ylab = "Frecuencia", main = "", col = "white")
line_5 = mean(dif_p1_p2_5)
abline(v=line_5, col="red", lwd=3)

N=10

p_var_10_N1 = sapply(rep(400, 10), calc_p_var_N1)
p_var_10_N2 = sapply(rep(400, 10), calc_p_var_N2)
par(mfrow=c(1,2))
hist(p_var_10_N1, las=1, ylab = "Frecuencia", main = "", col = "white")
hist(p_var_10_N2, las=1, ylab = "Frecuencia", main = "", col = "white")

dif_p1_p2_10 = p_var_10_N1 - p_var_10_N2
hist(dif_p1_p2_10, las=1, ylab = "Frecuencia", main = "", col = "white")
line_10 = mean(dif_p1_p2_10)
abline(v=line_10, col="red", lwd=3)

N=15

p_var_15_N1 = sapply(rep(400, 15), calc_p_var_N1)
p_var_15_N2 = sapply(rep(400, 15), calc_p_var_N2)
par(mfrow=c(1,2))
hist(p_var_15_N1, las=1, ylab = "Frecuencia", main = "", col = "white")
hist(p_var_15_N2, las=1, ylab = "Frecuencia", main = "", col = "white")

dif_p1_p2_15 = p_var_15_N1 - p_var_15_N2
hist(dif_p1_p2_15, las=1, ylab = "Frecuencia", main = "", col = "white")
line_15 = mean(dif_p1_p2_15)
abline(v=line_15, col="red", lwd=3)

N=20

p_var_20_N1 = sapply(rep(400, 20), calc_p_var_N1)
p_var_20_N2 = sapply(rep(400, 20), calc_p_var_N2)
par(mfrow=c(1,2))
hist(p_var_20_N1, las=1, ylab = "Frecuencia", main = "", col = "white")
hist(p_var_20_N2, las=1, ylab = "Frecuencia", main = "", col = "white")

dif_p1_p2_20 = p_var_20_N1 - p_var_20_N2
hist(dif_p1_p2_20, las=1, ylab = "Frecuencia", main = "", col = "white")
line_20 = mean(dif_p1_p2_20)
abline(v=line_20, col="red", lwd=3)

N=30

p_var_30_N1 = sapply(rep(400, 30), calc_p_var_N1)
p_var_30_N2 = sapply(rep(400, 30), calc_p_var_N2)
par(mfrow=c(1,2))
hist(p_var_30_N1, las=1, ylab = "Frecuencia", main = "", col = "white")
hist(p_var_30_N2, las=1, ylab = "Frecuencia", main = "", col = "white")

dif_p1_p2_30 = p_var_30_N1 - p_var_30_N2
hist(dif_p1_p2_30, las=1, ylab = "Frecuencia", main = "", col = "white")
line_30 = mean(dif_p1_p2_30)
abline(v=line_30, col="red", lwd=3)

N=60

p_var_60_N1 = sapply(rep(400, 60), calc_p_var_N1)
p_var_60_N2 = sapply(rep(400, 60), calc_p_var_N2)
par(mfrow=c(1,2))
hist(p_var_60_N1, las=1, ylab = "Frecuencia", main = "", col = "white")
hist(p_var_60_N2, las=1, ylab = "Frecuencia", main = "", col = "white")

dif_p1_p2_60 = p_var_60_N1 - p_var_60_N2
hist(dif_p1_p2_60, las=1, ylab = "Frecuencia", main = "", col = "white")
line_60 = mean(dif_p1_p2_60)
abline(v=line_60, col="red", lwd=3)

N=60

p_var_60_N1 = sapply(rep(400, 60), calc_p_var_N1)
p_var_60_N2 = sapply(rep(400, 60), calc_p_var_N2)
par(mfrow=c(1,2))
hist(p_var_60_N1, las=1, ylab = "Frecuencia", main = "", col = "white")
hist(p_var_60_N2, las=1, ylab = "Frecuencia", main = "", col = "white")

dif_p1_p2_60 = p_var_60_N1 - p_var_60_N2
hist(dif_p1_p2_60, las=1, ylab = "Frecuencia", main = "", col = "white")
line_60 = mean(dif_p1_p2_60)
abline(v=line_60, col="red", lwd=3)

N=100

p_var_100_N1 = sapply(rep(400, 100), calc_p_var_N1)
p_var_100_N2 = sapply(rep(400, 100), calc_p_var_N2)
par(mfrow=c(1,2))
hist(p_var_100_N1, las=1, ylab = "Frecuencia", main = "", col = "white")
hist(p_var_100_N2, las=1, ylab = "Frecuencia", main = "", col = "white")

dif_p1_p2_100 = p_var_100_N1 - p_var_100_N2
hist(dif_p1_p2_100, las=1, ylab = "Frecuencia", main = "", col = "white")
line_100 = mean(dif_p1_p2_100)
abline(v=line_100, col="red", lwd=3)

N=200

p_var_200_N1 = sapply(rep(400, 200), calc_p_var_N1)
p_var_200_N2 = sapply(rep(400, 200), calc_p_var_N2)
par(mfrow=c(1,2))
hist(p_var_200_N1, las=1, ylab = "Frecuencia", main = "", col = "white")
hist(p_var_200_N2, las=1, ylab = "Frecuencia", main = "", col = "white")

dif_p1_p2_200 = p_var_200_N1 - p_var_200_N2
hist(dif_p1_p2_200, las=1, ylab = "Frecuencia", main = "", col = "white")
line_200 = mean(dif_p1_p2_200)
abline(v=line_200, col="red", lwd=3)

N=500

p_var_500_N1 = sapply(rep(400, 500), calc_p_var_N1)
p_var_500_N2 = sapply(rep(400, 500), calc_p_var_N2)
par(mfrow=c(1,2))
hist(p_var_500_N1, las=1, ylab = "Frecuencia", main = "", col = "white")
hist(p_var_500_N2, las=1, ylab = "Frecuencia", main = "", col = "white")

dif_p1_p2_500 = p_var_500_N1 - p_var_500_N2
hist(dif_p1_p2_500, las=1, ylab = "Frecuencia", main = "", col = "white")
line_500 = mean(dif_p1_p2_500)
abline(v=line_500, col="red", lwd=3)

Análisis Punto d: El comportamiento muestra es similar en general sin embargo se evidencian algunas diferencias en muestras mas pequeñas, las diferencias tambien disminuyen a medida que se incrementa el tamaño de la muestra.

e.Ahora realice nuevamente los puntos a-d bajo un escenario con dos lotes, pero de proporciones de enfermos diferentes (P1=0.1 y P2=0.15), es decir, el tratamiento del lote 1 si presentó un mejor desempeño reduciendo en un 5% el porcentaje de enfermos. Bajo este nuevo escenario compare la distribución de estas diferencias (p1- p2) con las observadas bajo igualdad de condiciones en los lotes. ¿Qué puede concluir? ¿Existen puntos en los cuales es posible que se observen diferencias de p1- p2 bajo ambos escenarios (escenario 1: sin diferencias entre P1 y P2, escenario 2: diferencia de 5%)?

N1_2 = c(rep("Enfermo", 100), rep("Sana",900))
N1_2 = sample(N1_2)
N2_2 = c(rep("Enfermo", 225), rep("Sana",1275))
N2_2 = sample(N2_2)
calc_p_var_N1_2 = function(n){
muestra_2 = sample(N1_2, size = n)
p_var_N1_2 = sum(muestra_2 == "Enfermo")/n
return(p_var_N1_2)
}

x1_2 = calc_p_var_N1_2(n=400) *400

p1_2 = x1_2 / 400
calc_p_var_N2_2 = function(n){
muestra_3 = sample(N2_2, size = n)
p_var_N2_2 = sum(muestra_3 == "Enfermo")/n
return(p_var_N2_2)
}

x2_2 = calc_p_var_N2_2(n=400) *400

p2_2 = x2_2 / 400
dife_2= p1_2 - p2_2
dife_2
## [1] -0.0325

Análisis: La diferencia entre ambos estimadores p1_2 y p2_2 tienden a cero, por lo que se podría pensar que el comportamiento de los datos son muy parecidos pero no exactamente iguales.

simulacion_N1_2 = sapply(rep(400, 10000), calc_p_var_N1_2)
simulacion_N2_2= sapply(rep(400, 10000), calc_p_var_N2_2)
dif_p1_p2_2=simulacion_N1_2-simulacion_N2_2
par(mfrow=c(1,3))
hist(simulacion_N1_2)
hist(simulacion_N2_2)
hist(dif_p1_p2_2)
abline(v=mean(dif_p1_p2_2), col="red", lwd=3)

N=5

p_var_5_N1_2 = sapply(rep(400, 5), calc_p_var_N1_2)
p_var_5_N2_2 = sapply(rep(400, 5), calc_p_var_N2_2)
par(mfrow=c(1,2))
hist(p_var_5_N1_2, las=1, ylab = "Frecuencia", main = "", col = "white")
hist(p_var_5_N2_2, las=1, ylab = "Frecuencia", main = "", col = "white")

dif_p1_p2_5_2 = p_var_5_N1_2 - p_var_5_N2_2
hist(dif_p1_p2_5_2, las=1, ylab = "Frecuencia", main = "", col = "white")
line_5_2 = mean(dif_p1_p2_5_2)
abline(v=line_5_2, col="red", lwd=3)

N=10

p_var_10_N1_2 = sapply(rep(400, 10), calc_p_var_N1_2)
p_var_10_N2_2 = sapply(rep(400, 10), calc_p_var_N2_2)
par(mfrow=c(1,2))
hist(p_var_10_N1_2, las=1, ylab = "Frecuencia", main = "", col = "white")
hist(p_var_10_N2_2, las=1, ylab = "Frecuencia", main = "", col = "white")

dif_p1_p2_10_2 = p_var_10_N1_2 - p_var_10_N2_2
hist(dif_p1_p2_10_2, las=1, ylab = "Frecuencia", main = "", col = "white")
line_10_2 = mean(dif_p1_p2_10_2)
abline(v=line_10_2, col="red", lwd=3)

N=15

p_var_15_N1_2 = sapply(rep(400, 15), calc_p_var_N1_2)
p_var_15_N2_2 = sapply(rep(400, 15), calc_p_var_N2_2)
par(mfrow=c(1,2))
hist(p_var_15_N1_2, las=1, ylab = "Frecuencia", main = "", col = "white")
hist(p_var_15_N2_2, las=1, ylab = "Frecuencia", main = "", col = "white")

dif_p1_p2_15_2 = p_var_15_N1_2 - p_var_15_N2_2
hist(dif_p1_p2_15_2, las=1, ylab = "Frecuencia", main = "", col = "white")
line_15_2 = mean(dif_p1_p2_15_2)
abline(v=line_15_2, col="red", lwd=3)

N=20

p_var_20_N1_2 = sapply(rep(400, 20), calc_p_var_N1_2)
p_var_20_N2_2 = sapply(rep(400, 20), calc_p_var_N2_2)
par(mfrow=c(1,2))
hist(p_var_20_N1_2, las=1, ylab = "Frecuencia", main = "", col = "white")
hist(p_var_20_N2_2, las=1, ylab = "Frecuencia", main = "", col = "white")

dif_p1_p2_20_2 = p_var_20_N1_2 - p_var_20_N2_2
hist(dif_p1_p2_20_2, las=1, ylab = "Frecuencia", main = "", col = "white")
line_20_2 = mean(dif_p1_p2_20_2)
abline(v=line_20_2, col="red", lwd=3)

N=30

p_var_30_N1_2 = sapply(rep(400, 30), calc_p_var_N1_2)
p_var_30_N2_2 = sapply(rep(400, 30), calc_p_var_N2_2)
par(mfrow=c(1,2))
hist(p_var_30_N1_2, las=1, ylab = "Frecuencia", main = "", col = "white")
hist(p_var_30_N2_2, las=1, ylab = "Frecuencia", main = "", col = "white")

dif_p1_p2_30_2 = p_var_30_N1_2 - p_var_30_N2_2
hist(dif_p1_p2_30_2, las=1, ylab = "Frecuencia", main = "", col = "white")
line_30_2 = mean(dif_p1_p2_30_2)
abline(v=line_30_2, col="red", lwd=3)

N=50

p_var_50_N1_2 = sapply(rep(400, 50), calc_p_var_N1_2)
p_var_50_N2_2 = sapply(rep(400, 50), calc_p_var_N2_2)
par(mfrow=c(1,2))
hist(p_var_50_N1_2, las=1, ylab = "Frecuencia", main = "", col = "white")
hist(p_var_50_N2_2, las=1, ylab = "Frecuencia", main = "", col = "white")

dif_p1_p2_50_2 = p_var_50_N1_2 - p_var_50_N2_2
hist(dif_p1_p2_50_2, las=1, ylab = "Frecuencia", main = "", col = "white")
line_50_2 = mean(dif_p1_p2_50_2)
abline(v=line_50_2, col="red", lwd=3)

N=60

p_var_60_N1_2 = sapply(rep(400, 60), calc_p_var_N1_2)
p_var_60_N2_2 = sapply(rep(400, 60), calc_p_var_N2_2)
par(mfrow=c(1,2))
hist(p_var_60_N1_2, las=1, ylab = "Frecuencia", main = "", col = "white")
hist(p_var_60_N2_2, las=1, ylab = "Frecuencia", main = "", col = "white")

dif_p1_p2_60_2 = p_var_60_N1_2 - p_var_60_N2_2
hist(dif_p1_p2_60_2, las=1, ylab = "Frecuencia", main = "", col = "white")
line_60_2 = mean(dif_p1_p2_60_2)
abline(v=line_60_2, col="red", lwd=3)

N=100

p_var_100_N1_2 = sapply(rep(400, 100), calc_p_var_N1_2)
p_var_100_N2_2 = sapply(rep(400, 100), calc_p_var_N2_2)
par(mfrow=c(1,2))
hist(p_var_100_N1_2, las=1, ylab = "Frecuencia", main = "", col = "white")
hist(p_var_100_N2_2, las=1, ylab = "Frecuencia", main = "", col = "white")

dif_p1_p2_100_2 = p_var_100_N1_2 - p_var_100_N2_2
hist(dif_p1_p2_100_2, las=1, ylab = "Frecuencia", main = "", col = "white")
line_100_2 = mean(dif_p1_p2_100_2)
abline(v=line_100_2, col="red", lwd=3)

N=200

p_var_200_N1_2 = sapply(rep(400, 200), calc_p_var_N1_2)
p_var_200_N2_2 = sapply(rep(400, 200), calc_p_var_N2_2)
par(mfrow=c(1,2))
hist(p_var_200_N1_2, las=1, ylab = "Frecuencia", main = "", col = "white")
hist(p_var_200_N2_2, las=1, ylab = "Frecuencia", main = "", col = "white")

dif_p1_p2_200_2 = p_var_200_N1_2 - p_var_200_N2_2
hist(dif_p1_p2_200_2, las=1, ylab = "Frecuencia", main = "", col = "white")
line_200_2 = mean(dif_p1_p2_200_2)
abline(v=line_200_2, col="red", lwd=3)

N=500

p_var_500_N1_2 = sapply(rep(400, 500), calc_p_var_N1_2)
p_var_500_N2_2 = sapply(rep(400, 500), calc_p_var_N2_2)
par(mfrow=c(1,2))
hist(p_var_500_N1_2, las=1, ylab = "Frecuencia", main = "", col = "white")
hist(p_var_500_N2_2, las=1, ylab = "Frecuencia", main = "", col = "white")

dif_p1_p2_500_2 = p_var_500_N1_2 - p_var_500_N2_2
hist(dif_p1_p2_500_2, las=1, ylab = "Frecuencia", main = "", col = "white")
line_500_2 = mean(dif_p1_p2_500_2)
abline(v=line_500_2, col="red", lwd=3)

Analisis Punto e: En general los comportamientos son similares al parecer las diferencias de los tratamientos tienden a comportarse en su promedio de los p1_2 y p2_2 relativamente constantes.

PUNTO 3

a.Con base a los artículos “Statistical Errors: P values, the gold standard of statistical validity, are not as reliable as many scientists assume” & “Statisticians issue warning on P values: Statement aims to halt missteps in the quest for certainty” escriba un resumen (máximo 2 páginas) sobre ambos artículos e incluya en este sus opiniones en cuanto al uso del valor p como criterio de decisión en inferencia estadística.

Resumen del artículo

Statistical Errors: P values, the ‘gold standard’ of statistical validity, are not as reliable as many scientists asume – Errores estadísticos: los valores de p, el “estándar de oro” de la validez estadística, no es tan confiable como muchos científicos asumen

Del articulo inicialmente podemos extraer que el valor P es una medida que en muchos casos puede carecer de confiabilidad, llevando a potenciales interpretaciones erróneas o a inferencias ligeras o limitadas a la hora de rechazar una hipótesis nula.

El autor Ronald Fisher pretendía que el valor P fuera parte de un proceso para combinar conocimientos previos que permitieran llegar a conclusiones con rigor científico, sin embargo, con el pasar del tiempo se ha venido presentando las evidencias de que este valor no es concluyente y que el mismo no tiene la capacidad de lograr una afirmación sobre las realidades subyacentes.

Desde los autores Motyl y Nosek se han venido observando errores y confusiones en el uso de este valor, pues se llegaron a conclusiones a apresuradas solo porque el estimador presento valores que aparentemente confirmaban la hipótesis, sin embargo, para esta investigación en el campo de la política era necesario una mayor cantidad de pruebas con nuevas muestras y una mayor representatividad.

Existen otras Investigaciones que han utilizado este valor de maneras equivocadas generando conclusiones desacertadas, problemas de replicabilidad en los hallazgos obtenidos, y en muchos casos sesgos, estas investigaciones se han presentado en diferentes campos e incluso se plantea que en una muestra de artículos publicados de manera reciente este valor aún sigue siendo muy popular.

Muy a pesar de lo anterior el proceso de reforma ha tenido dificultades y no ha sido tan ágil de lo que se esperaba que pudiera suceder ante la evidencia, se indica que existe una cultura muy fuerte en el uso y enseñanza de la estadística que se ha replicado tanto en el análisis de los datos como en las interpretaciones de estos.

Actualmente es importante entender las debilidades en función del tamaño muestral y el uso de los promedios muestrales frente a los poblacionales, de igual manera comprender las falencias frente a la alta sensibilidad al ruido de los datos y a la presencia considerable de los valores atípicos, por lo que se recomienda poder realizar análisis basados en la complementación de este valor junto con otros estimadores o en algunos otros casos sustituir su uso con otras técnicas como enfoque bayesiano que permite que los observadores puedan incorporar lo que saben sobre el contexto en sus conclusiones y pueda gestionarse el cambio probabilístico.