Primer Punto

1. El Teorema del Límite Central es uno de los más importantes en la inferencia estadística y habla sobre la convergencia de los estimadores como la proporción muestral a la distribución normal. Algunos autores afirman que esta aproximación es bastante buena a partir del umbral n>30.

library(moments)
library(car)
## Loading required package: carData
  1. Realice una simulación en la cual genere una población de N=1000 (Lote) y además que el porcentaje de individuos (plantas) enfermas sea del 50%.
lote=c(rep("enferma",500),rep("sana",500))
lote = sample(lote)
  1. Genere una función que permita obtener una muestra aleatoria de la población y calcule el estimador de la proporción muestral para un tamaño de muestra dado n.
calc_p_gorro=function(n){
muestra=sample(lote,size = n)
p_gorro=sum(muestra=="enferma")/n
return(p_gorro)
}
calc_p_gorro(n = 100)
## [1] 0.49
  1. Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores. ¿Qué tan simétricos son los datos?, ¿Son sesgados y qué pasa en cuanto a variabilidad?
rep_p_gorro=sapply(rep(100,500), calc_p_gorro)
summary(rep_p_gorro)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.3400  0.4700  0.5000  0.5011  0.5300  0.6800
hist(rep_p_gorro)
line = mean(rep_p_gorro)
abline(v=line, col="blue", lwd=3)

skewness(rep_p_gorro)
## [1] 0.07493155
sd(rep_p_gorro)
## [1] 0.05092367

Analisis: Como observamos grafica y mediante el test de asimetria podemos concluir que tenemos una distribución simetrica entorno al calculo de la distribución, otra caracteristica que nos permite inferir normalidad son los valores de media y mediana practicamente iguales, un rango intercuartilico bajo y una baja desviacion estandar=0.04629

  1. Realice los ejercicios completos b y c para tamaños de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores en cuanto a la normalidad. Investigue y utilice pruebas de bondad y ajuste (shapiro wilks) y métodos gráficos (grafico qq de normalidad).

n=5

p_gorro_5 = sapply(rep(5,500), calc_p_gorro)
par(mfrow=c(1,3))
hist(p_gorro_5, las=1, ylab = "Frecuencia", main = "", col = "gray")
plot(density(p_gorro_5), las=1, ylab = "Densidad", main = "")
qqPlot(p_gorro_5,las=1)

## [1] 36 69
shap5=shapiro.test(p_gorro_5)
shap5
## 
##  Shapiro-Wilk normality test
## 
## data:  p_gorro_5
## W = 0.92722, p-value = 7.513e-15

n=10

p_gorro_10 = sapply(rep(10,500), calc_p_gorro)
par(mfrow=c(1,3))
hist(p_gorro_10, las=1, ylab = "Frecuencia", main = "", col = "gray")
plot(density(p_gorro_10), las=1, ylab = "Densidad", main = "")
qqPlot(p_gorro_10,las=1)

## [1] 472 130
shap10=shapiro.test(p_gorro_10)
shap10
## 
##  Shapiro-Wilk normality test
## 
## data:  p_gorro_10
## W = 0.95849, p-value = 1.169e-10

n=15

p_gorro_15 = sapply(rep(15,500), calc_p_gorro)
par(mfrow=c(1,3))
hist(p_gorro_15, las=1, ylab = "Frecuencia", main = "", col = "gray")
plot(density(p_gorro_15), las=1, ylab = "Densidad", main = "")
qqPlot(p_gorro_15,las=1)

## [1] 257 436
shap15=shapiro.test(p_gorro_15)
shap15
## 
##  Shapiro-Wilk normality test
## 
## data:  p_gorro_15
## W = 0.97522, p-value = 1.724e-07

n=20

p_gorro_20 = sapply(rep(20,500), calc_p_gorro)
par(mfrow=c(1,3))
hist(p_gorro_20, las=1, ylab = "Frecuencia", main = "", col = "gray")
plot(density(p_gorro_20), las=1, ylab = "Densidad", main = "")
qqPlot(p_gorro_20,las=1)

## [1] 106 271
shap20=shapiro.test(p_gorro_20)
shap20
## 
##  Shapiro-Wilk normality test
## 
## data:  p_gorro_20
## W = 0.98159, p-value = 5.832e-06

n=30

p_gorro_30 = sapply(rep(30,500), calc_p_gorro)
par(mfrow=c(1,3))
hist(p_gorro_30, las=1, ylab = "Frecuencia", main = "", col = "gray")
plot(density(p_gorro_30), las=1, ylab = "Densidad", main = "")
qqPlot(p_gorro_30,las=1)

## [1] 230  27
shap30=shapiro.test(p_gorro_30)
shap30
## 
##  Shapiro-Wilk normality test
## 
## data:  p_gorro_30
## W = 0.98434, p-value = 3.245e-05

n=50

p_gorro_50 = sapply(rep(50,500), calc_p_gorro)
par(mfrow=c(1,3))
hist(p_gorro_50, las=1, ylab = "Frecuencia", main = "", col = "gray")
plot(density(p_gorro_50), las=1, ylab = "Densidad", main = "")
qqPlot(p_gorro_50,las=1)

## [1] 252 417
shap50=shapiro.test(p_gorro_50)
shap50
## 
##  Shapiro-Wilk normality test
## 
## data:  p_gorro_50
## W = 0.9904, p-value = 0.002422

n=60

p_gorro_60 = sapply(rep(60,500), calc_p_gorro)
par(mfrow=c(1,3))
hist(p_gorro_60, las=1, ylab = "Frecuencia", main = "", col = "gray")
plot(density(p_gorro_60), las=1, ylab = "Densidad", main = "")
qqPlot(p_gorro_60,las=1)

## [1] 299 410
shap60=shapiro.test(p_gorro_60)
shap60
## 
##  Shapiro-Wilk normality test
## 
## data:  p_gorro_60
## W = 0.99175, p-value = 0.007091

n=100

p_gorro_100 = sapply(rep(100,500), calc_p_gorro)
par(mfrow=c(1,3))
hist(p_gorro_100, las=1, ylab = "Frecuencia", main = "", col = "gray")
plot(density(p_gorro_100), las=1, ylab = "Densidad", main = "")
qqPlot(p_gorro_100,las=1)

## [1] 172 196
shap100=shapiro.test(p_gorro_100)
shap100
## 
##  Shapiro-Wilk normality test
## 
## data:  p_gorro_100
## W = 0.99341, p-value = 0.02775

n=200

p_gorro_200 = sapply(rep(200,500), calc_p_gorro)
par(mfrow=c(1,3))
hist(p_gorro_200, las=1, ylab = "Frecuencia", main = "", col = "gray")
plot(density(p_gorro_200), las=1, ylab = "Densidad", main = "")
qqPlot(p_gorro_200,las=1)

## [1] 454 141
shap200=shapiro.test(p_gorro_200)
shap200
## 
##  Shapiro-Wilk normality test
## 
## data:  p_gorro_200
## W = 0.99465, p-value = 0.07905

n=500

p_gorro_500 = sapply(rep(500,500), calc_p_gorro)
par(mfrow=c(1,3))
hist(p_gorro_500, las=1, ylab = "Frecuencia", main = "", col = "gray")
plot(density(p_gorro_500), las=1, ylab = "Densidad", main = "")
qqPlot(p_gorro_500,las=1)

## [1] 414  93
shap500=shapiro.test(p_gorro_500)
shap500
## 
##  Shapiro-Wilk normality test
## 
## data:  p_gorro_500
## W = 0.99266, p-value = 0.01493

Analisis Podemos observar que a medidad que crece la muestra, se logra normalidad en el calculo de la proporción, en este ejercicio sucede especialmente cuando la muestra seleccionada equipara la proporción buscada.

  1. Repita toda la simulación (puntos a – d) pero ahora con lotes con 10% y 90% de plantas enfermas. Concluya todo el ejercicio.
# lote con 10% de plantas enfermas
lote2=c(rep("enferma",100),rep("sana",900))
lote2 = sample(lote2)
# lote con 90% de plantas enfermas
lote3=c(rep("enferma",900),rep("sana",100))
lote3 = sample(lote3)
#Se define la función para el lote2
calc_p_gorro2=function(n){
muestra=sample(lote2,size = n)
p_gorro=sum(muestra=="enferma")/n
return(p_gorro)
}

n=5

p_gorro2_5 = sapply(rep(5,500), calc_p_gorro2)
par(mfrow=c(1,3))
hist(p_gorro2_5, las=1, ylab = "Frecuencia", main = "", col = "gray")
plot(density(p_gorro2_5), las=1, ylab = "Densidad", main = "")
qqPlot(p_gorro2_5,las=1)

## [1] 233   1
shap2_5=shapiro.test(p_gorro2_5)
shap2_5
## 
##  Shapiro-Wilk normality test
## 
## data:  p_gorro2_5
## W = 0.70704, p-value < 2.2e-16

n=50

p_gorro2_50 = sapply(rep(50,500), calc_p_gorro2)
par(mfrow=c(1,3))
hist(p_gorro2_50, las=1, ylab = "Frecuencia", main = "", col = "gray")
plot(density(p_gorro2_50), las=1, ylab = "Densidad", main = "")
qqPlot(p_gorro2_50,las=1)

## [1] 36 92
shap2_50=shapiro.test(p_gorro2_50)
shap2_50
## 
##  Shapiro-Wilk normality test
## 
## data:  p_gorro2_50
## W = 0.97367, p-value = 7.87e-08

n=100

p_gorro2_100 = sapply(rep(100,500), calc_p_gorro2)
par(mfrow=c(1,3))
hist(p_gorro2_100, las=1, ylab = "Frecuencia", main = "", col = "gray")
plot(density(p_gorro2_100), las=1, ylab = "Densidad", main = "")
qqPlot(p_gorro2_100,las=1)

## [1] 347 236
shap2_100=shapiro.test(p_gorro2_100)
shap2_100
## 
##  Shapiro-Wilk normality test
## 
## data:  p_gorro2_100
## W = 0.98349, p-value = 1.879e-05

n=300

p_gorro2_300 = sapply(rep(300,500), calc_p_gorro2)
par(mfrow=c(1,3))
hist(p_gorro2_300, las=1, ylab = "Frecuencia", main = "", col = "gray")
plot(density(p_gorro2_300), las=1, ylab = "Densidad", main = "")
qqPlot(p_gorro2_300,las=1)

## [1]  63 429
shap2_300=shapiro.test(p_gorro2_300)
shap2_300
## 
##  Shapiro-Wilk normality test
## 
## data:  p_gorro2_300
## W = 0.98669, p-value = 0.0001573

n=500

p_gorro2_500 = sapply(rep(500,500), calc_p_gorro2)
par(mfrow=c(1,3))
hist(p_gorro2_500, las=1, ylab = "Frecuencia", main = "", col = "gray")
plot(density(p_gorro2_500), las=1, ylab = "Densidad", main = "")
qqPlot(p_gorro2_500,las=1)

## [1] 195 270
shap2_500=shapiro.test(p_gorro2_500)
shap2_500
## 
##  Shapiro-Wilk normality test
## 
## data:  p_gorro2_500
## W = 0.99341, p-value = 0.02778

Ahora iniciamos con Lote 3

#Se define la función para el lote3
calc_p_gorro3=function(n){
muestra=sample(lote3,size = n)
p_gorro=sum(muestra=="enferma")/n
return(p_gorro)
}

n=5

p_gorro3_5 = sapply(rep(5,500), calc_p_gorro3)
par(mfrow=c(1,3))
hist(p_gorro3_5, las=1, ylab = "Frecuencia", main = "", col = "gray")
plot(density(p_gorro3_5), las=1, ylab = "Densidad", main = "")
qqPlot(p_gorro3_5,las=1)

## [1] 47 92
shap3_5=shapiro.test(p_gorro3_5)
shap3_5
## 
##  Shapiro-Wilk normality test
## 
## data:  p_gorro3_5
## W = 0.69812, p-value < 2.2e-16

n=50

p_gorro3_50 = sapply(rep(50,500), calc_p_gorro3)
par(mfrow=c(1,3))
hist(p_gorro3_50, las=1, ylab = "Frecuencia", main = "", col = "gray")
plot(density(p_gorro3_50), las=1, ylab = "Densidad", main = "")
qqPlot(p_gorro3_50,las=1)

## [1] 348  15
shap3_50=shapiro.test(p_gorro3_50)
shap3_50
## 
##  Shapiro-Wilk normality test
## 
## data:  p_gorro3_50
## W = 0.9689, p-value = 8.328e-09

n=100

p_gorro3_100 = sapply(rep(100,500), calc_p_gorro3)
par(mfrow=c(1,3))
hist(p_gorro3_100, las=1, ylab = "Frecuencia", main = "", col = "gray")
plot(density(p_gorro3_100), las=1, ylab = "Densidad", main = "")
qqPlot(p_gorro3_100,las=1)

## [1] 250 262
shap3_100=shapiro.test(p_gorro3_100)
shap3_100
## 
##  Shapiro-Wilk normality test
## 
## data:  p_gorro3_100
## W = 0.98598, p-value = 9.668e-05

n=300

p_gorro3_300 = sapply(rep(300,500), calc_p_gorro3)
par(mfrow=c(1,3))
hist(p_gorro3_300, las=1, ylab = "Frecuencia", main = "", col = "gray")
plot(density(p_gorro3_300), las=1, ylab = "Densidad", main = "")
qqPlot(p_gorro3_300,las=1)

## [1] 200 356
shap3_300=shapiro.test(p_gorro3_300)
shap3_300
## 
##  Shapiro-Wilk normality test
## 
## data:  p_gorro3_300
## W = 0.98777, p-value = 0.0003374

n=500

p_gorro3_500 = sapply(rep(500,500), calc_p_gorro3)
par(mfrow=c(1,3))
hist(p_gorro3_500, las=1, ylab = "Frecuencia", main = "", col = "gray")
plot(density(p_gorro3_500), las=1, ylab = "Densidad", main = "")
qqPlot(p_gorro3_500,las=1)

## [1] 394 288
shap3_500=shapiro.test(p_gorro3_500)
shap3_500
## 
##  Shapiro-Wilk normality test
## 
## data:  p_gorro3_500
## W = 0.99246, p-value = 0.01263

Analisis Podemos observar que a medidad que crece la muestra, se aproxima a ser normalidad en el calculo de la proporción, en este ejercicio sucede especialmente cuando la muestra se incrementa, se reduce la dispersión.

Segundo Punto

2. La comparación de tratamientos es una práctica fundamental en las ciencias agropecuarias y para esto a nivel estadístico se cuenta con algunas herramientas para apoyar el proceso de toma de decisiones y lograr concluir con algún grado de confianza que los resultados observados en una muestra son representativos y se pueden asociar a los tratamientos y no se deben únicamente al azar. Por medio una simulación validemos algunos de estos resultados.

  1. Suponga un escenario en el cual usted aplicó tratamientos diferentes a dos lotes y desea analizar si alguno de los dos presenta un mejor desempeño en el control de una plaga presente en ambos al momento inicial. Para ello utilizará como criterio de desempeño el tratamiento que menor % de plantas enfermas presente después de un tiempo de aplicación (es decir, si se presentan o no diferencias en las proporciones de enfermos P1 y P2). Realice una simulación en la cual genere dos poblaciones de N1=1000 (Lote1) y N2=1500 (Lote2), además asuma que el porcentaje de individuos (plantas) enfermas en ambos lotes sea la misma 10% (es decir, sin diferencias entre los tratamientos).
L1 = c(rep("Enferma", 100), rep("Sana",900))
L1 = sample(L1)
L2 = c(rep("Enferma", 150), rep("Sana",1350))
L2 = sample(L2)
  1. Genere una función que permita obtener una muestra aleatoria de los lotes y calcule el estimador de la proporción muestral para cada lote (p1 y p2) para un tamaño de muestra dado n1=n2. Calcule la diferencia entre los estimadores p1-p2.
calc_p_gorro_L1 = function(n){
muestra = sample(L1, size = n)
p_gorro_L1 = sum(muestra == "Enferma")/n
return(p_gorro_L1)
}

x1 = calc_p_gorro_L1(n=400) *400

p1 = x1 / 400
calc_p_gorro_L2 = function(n){
muestra = sample(L2, size = n)
p_gorro_L2 = sum(muestra == "Enferma")/n
return(p_gorro_L2)
}

x2 = calc_p_gorro_L2(n=400) *400

p2 = x2 / 400
dif= p1 - p2
diferenciaAB=data.frame("estimadorA"=p1,
                        "estimadorB"=p2,
                         "Diferencia p1-p2"=dif)
diferenciaAB
##   estimadorA estimadorB Diferencia.p1.p2
## 1      0.095     0.0925           0.0025
  1. Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores (diferencias p1-p2). ¿Qué tan simétricos son los datos?, ¿Son siempre cero las diferencias?
simulacion_L1 = sapply(rep(500, 10000), calc_p_gorro_L1)
simulacion_L2= sapply(rep(500, 10000), calc_p_gorro_L2)
dif_p1_p2=simulacion_L1-simulacion_L2
par(mfrow=c(1,3))
hist(simulacion_L1,main='Lote 1 100/1000')
hist(simulacion_L2,main='Lote 2 150/1500')
hist(dif_p1_p2,main='Diferencias entre proporciones')
abline(v=mean(dif_p1_p2), col="blue", lwd=3)

resumen=data.frame("simetria_dif"=skewness(dif_p1_p2),
                   "media_dif"=mean(dif_p1_p2),
                   "sd_dif"=mean(dif_p1_p2))
resumen
##   simetria_dif media_dif    sd_dif
## 1  -0.01041102 -4.18e-05 -4.18e-05

Analisis Podemos observar que las distribución de la diferencias es simetrica alrededor de 0, con media 0 y una desviación cercana a 0.

  1. Realice los puntos b y c para tamaños de muestra n1=n2=5, 50, 100, 200, 500. Y compare los resultados de los estimadores (p1-p2) en cuanto a la normalidad. También analice el comportamiento de las diferencias y evalúe. ¿Considera que es más probable concluir que existen diferencias entre los tratamientos con muestras grandes que pequeñas, es decir, cuál considera usted que es el efecto del tamaño de muestra en el caso de la comparación de proporciones?

n=5

p_gorro_5_L1 = sapply(rep(5, 500), calc_p_gorro_L1)
p_gorro_5_L2 = sapply(rep(5, 500), calc_p_gorro_L2)
par(mfrow=c(1,2))
hist(p_gorro_5_L1, las=1, ylab = "Frecuencia", main = "", col = "lightcyan")
hist(p_gorro_5_L2, las=1, ylab = "Frecuencia", main = "", col = "honeydew")

dif_p1_p2_5 = p_gorro_5_L1 - p_gorro_5_L2
hist(dif_p1_p2_5, las=1, ylab = "Frecuencia", main = "", col = "ivory")
line_5 = mean(dif_p1_p2_5)
abline(v=line_5, col="blue", lwd=3)

resumen_5=data.frame("simetria_dif"=skewness(dif_p1_p2_5),
                   "media_dif"=mean(dif_p1_p2_5),
                   "sd_dif"=mean(dif_p1_p2_5))
resumen_5
##   simetria_dif media_dif sd_dif
## 1    0.2577661    0.0088 0.0088

n=50

p_gorro_50_L1 = sapply(rep(50, 500), calc_p_gorro_L1)
p_gorro_50_L2 = sapply(rep(50, 500), calc_p_gorro_L2)
par(mfrow=c(1,2))
hist(p_gorro_50_L1, las=1, ylab = "Frecuencia", main = "", col = "lightcyan")
hist(p_gorro_50_L2, las=1, ylab = "Frecuencia", main = "", col = "honeydew")

dif_p1_p2_50 = p_gorro_50_L1 - p_gorro_50_L2
hist(dif_p1_p2_50, las=1, ylab = "Frecuencia", main = "", col = "ivory")
line_5 = mean(dif_p1_p2_50)
abline(v=line_5, col="blue", lwd=3)

resumen_50=data.frame("simetria_dif"=skewness(dif_p1_p2_50),
                   "media_dif"=mean(dif_p1_p2_50),
                   "sd_dif"=mean(dif_p1_p2_50))
resumen_50
##   simetria_dif media_dif   sd_dif
## 1  -0.06617217  -0.00356 -0.00356

n=100

p_gorro_100_L1 = sapply(rep(100, 500), calc_p_gorro_L1)
p_gorro_100_L2 = sapply(rep(100, 500), calc_p_gorro_L2)
par(mfrow=c(1,2))
hist(p_gorro_100_L1, las=1, ylab = "Frecuencia", main = "", col = "lightcyan")
hist(p_gorro_100_L2, las=1, ylab = "Frecuencia", main = "", col = "honeydew")

dif_p1_p2_100 = p_gorro_100_L1 - p_gorro_100_L2
hist(dif_p1_p2_100, las=1, ylab = "Frecuencia", main = "", col = "ivory")
line_5 = mean(dif_p1_p2_100)
abline(v=line_5, col="blue", lwd=3)

resumen_100=data.frame("simetria_dif"=skewness(dif_p1_p2_100),
                   "media_dif"=mean(dif_p1_p2_100),
                   "sd_dif"=mean(dif_p1_p2_100))
resumen_100
##   simetria_dif media_dif  sd_dif
## 1    0.1419731   0.00074 0.00074

n=200

p_gorro_200_L1 = sapply(rep(200, 500), calc_p_gorro_L1)
p_gorro_200_L2 = sapply(rep(200, 500), calc_p_gorro_L2)
par(mfrow=c(1,2))
hist(p_gorro_200_L1, las=1, ylab = "Frecuencia", main = "", col = "lightcyan")
hist(p_gorro_200_L2, las=1, ylab = "Frecuencia", main = "", col = "honeydew")

dif_p1_p2_200 = p_gorro_200_L1 - p_gorro_200_L2
hist(dif_p1_p2_200, las=1, ylab = "Frecuencia", main = "", col = "ivory")
line_5 = mean(dif_p1_p2_200)
abline(v=line_5, col="blue", lwd=3)

resumen_200=data.frame("simetria_dif"=skewness(dif_p1_p2_200),
                   "media_dif"=mean(dif_p1_p2_200),
                   "sd_dif"=mean(dif_p1_p2_200))
resumen_200
##   simetria_dif media_dif  sd_dif
## 1    0.1672385   0.00028 0.00028

n=500

p_gorro_500_L1 = sapply(rep(500, 500), calc_p_gorro_L1)
p_gorro_500_L2 = sapply(rep(500, 500), calc_p_gorro_L2)
par(mfrow=c(1,2))
hist(p_gorro_500_L1, las=1, ylab = "Frecuencia", main = "", col = "lightcyan")
hist(p_gorro_500_L2, las=1, ylab = "Frecuencia", main = "", col = "honeydew")

dif_p1_p2_500 = p_gorro_500_L1 - p_gorro_500_L2
hist(dif_p1_p2_500, las=1, ylab = "Frecuencia", main = "", col = "ivory")
line_5 = mean(dif_p1_p2_500)
abline(v=line_5, col="blue", lwd=3)

resumen_500=data.frame("simetria_dif"=skewness(dif_p1_p2_500),
                   "media_dif"=mean(dif_p1_p2_500),
                   "sd_dif"=mean(dif_p1_p2_500))
resumen_500
##   simetria_dif media_dif    sd_dif
## 1  -0.04866633 -0.000456 -0.000456

Analisis Se presenta consistencia en los resultados a lo largo de las de las diferentes muestras, manteniendo la diferencia cercana cero y la distribución de estas simetrica, alrededor de cero.

  1. Ahora realice nuevamente los puntos a-d bajo un escenario con dos lotes, pero de proporciones de enfermos diferentes (P1=0.1 y P2=0.15), es decir, el tratamiento del lote 1 si presentó un mejor desempeño reduciendo en un 5% el porcentaje de enfermos. Bajo este nuevo escenario compare la distribución de estas diferencias (p1-p2) con las observadas bajo igualdad de condiciones en los lotes. ¿Qué puede concluir? ¿Existen puntos en los cuales es posible que se observen diferencias de p1- p2 bajo ambos escenarios (escenario 1: sin diferencias entre P1 y P2, escenario 2: diferencia de 5%)?
L1_2 = c(rep("Enferma", 100), rep("Sana",900))
L1_2 = sample(L1_2)
L2_2 = c(rep("Enferma", 225), rep("Sana",1275))
L2_2 = sample(L2_2)
calc_p_gorro_L1_2 = function(n){
muestra_2 = sample(L1_2, size = n)
p_gorro_L1_2 = sum(muestra_2 == "Enferma")/n
return(p_gorro_L1_2)
}

x1_2 = calc_p_gorro_L1_2(n=400) *400

p1_2 = x1_2 / 400
calc_p_gorro_L2_2 = function(n){
muestra_3 = sample(L2_2, size = n)
p_gorro_L2_2 = sum(muestra_3 == "Enferma")/n
return(p_gorro_L2_2)
}

x2_2 = calc_p_gorro_L2_2(n=400) *400

p2_2 = x2_2 / 400
dif_2= p1_2 - p2_2
resumen_e=data.frame("P1_10%"=p1_2,
                     "P2_16%"=p2_2,
                     "difP1-P2"=dif_2)
resumen_e
##   P1_10. P2_16. difP1.P2
## 1  0.095   0.14   -0.045

Analisis Se observan las proporciones propuestas y por ende su diferencia esperada.

simulacion_L1_2 = sapply(rep(500, 1000), calc_p_gorro_L1_2)
simulacion_L2_2= sapply(rep(500, 1000), calc_p_gorro_L2_2)
dif_p1_p2_2=simulacion_L1_2-simulacion_L2_2
par(mfrow=c(1,3))
hist(simulacion_L1_2)
hist(simulacion_L2_2)
hist(dif_p1_p2_2)
abline(v=mean(dif_p1_p2_2), col="blue", lwd=3)

Para efectos practicos, se realizara n=50 ; n=500

n=50

p_gorro_50_L1_2 = sapply(rep(50, 500), calc_p_gorro_L1_2)
p_gorro_50_L2_2 = sapply(rep(50, 500), calc_p_gorro_L2_2)
par(mfrow=c(1,2))
hist(p_gorro_50_L1_2, las=1, ylab = "Frecuencia", main = "", col = "lightcyan")
hist(p_gorro_50_L2_2, las=1, ylab = "Frecuencia", main = "", col = "honeydew")

dif2_p1_p2_50 = p_gorro_50_L1_2 - p_gorro_50_L2_2
hist(dif2_p1_p2_50, las=1, ylab = "Frecuencia", main = "", col = "ivory")
line_5 = mean(dif2_p1_p2_50)
abline(v=line_5, col="blue", lwd=3)

resumen2_50=data.frame("simetria_dif"=skewness(dif2_p1_p2_50),
                   "media_dif"=mean(dif2_p1_p2_50),
                   "sd_dif"=mean(dif2_p1_p2_50))
resumen2_50
##   simetria_dif media_dif   sd_dif
## 1  -0.05002068  -0.05268 -0.05268

n=500

p_gorro_500_L1_2 = sapply(rep(500, 10000), calc_p_gorro_L1_2)
p_gorro_500_L2_2 = sapply(rep(500, 10000), calc_p_gorro_L2_2)
par(mfrow=c(1,2))
hist(p_gorro_500_L1_2, las=1, ylab = "Frecuencia", main = "", col = "lightcyan")
hist(p_gorro_500_L2_2, las=1, ylab = "Frecuencia", main = "", col = "honeydew")

dif2_p1_p2_500 = p_gorro_500_L1_2 - p_gorro_500_L2_2
hist(dif2_p1_p2_500, las=1, ylab = "Frecuencia", main = "", col = "ivory")
line_5 = mean(dif2_p1_p2_500)
abline(v=line_5, col="blue", lwd=3)

resumen2_500=data.frame("simetria_dif"=skewness(dif2_p1_p2_500),
                   "media_dif"=mean(dif2_p1_p2_500),
                   "sd_dif"=mean(dif2_p1_p2_500))
resumen2_500
##   simetria_dif  media_dif     sd_dif
## 1  -0.03565732 -0.0498086 -0.0498086

Analisis Se observa que a medida que se incrementa la muestra, la diferencia se hace consistente alrededor del 5%, la simetria se cumple y la desviación tambien se mantiene cercana a cero. Siendo consistente la observación de la diferencia esperada.