lote=c(rep("Sanas",500),rep("enfermas",500))
head(lote,100)
## [1] "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas"
## [10] "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas"
## [19] "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas"
## [28] "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas"
## [37] "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas"
## [46] "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas"
## [55] "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas"
## [64] "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas"
## [73] "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas"
## [82] "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas"
## [91] "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas" "Sanas"
## [100] "Sanas"
cal_sample <- function(n){
muestra = sample(lote,size = n)
promedio = sum(muestra == "enfermas")/n
return(promedio)
}
cal_sample(n=100)
## [1] 0.43
cal_sample(n=150)
## [1] 0.52
estimadores= sapply(rep(150,500),cal_sample)
str(estimadores)
## num [1:500] 0.487 0.447 0.553 0.507 0.507 ...
hist(estimadores)
mean(estimadores)
## [1] 0.5003467
sd(estimadores)
## [1] 0.03616515
Prueba Shapiro Wilks:
shapiro.test(estimadores)
##
## Shapiro-Wilk normality test
##
## data: estimadores
## W = 0.99381, p-value = 0.03894
Análisis: con una muestra de 150, y 500 repeticiones, teniendo por promedio 0.50 y desviación de 0.047, sin embargo, el P-value de la prueba Shapiro-Wilks es de 0.05, la cúal es superior al nivel de significancia del 5%, por lo tanto NO se rechaza la hipótesis nula que dicta en dicha prueba que la distribución de los datos se distribuye NORMAL.
as
cal_sample(n=50)
## [1] 0.58
estimadores= sapply(rep(50,500),cal_sample)
estimadores5= sapply(rep(5,500),cal_sample)
estimadores10= sapply(rep(10,500),cal_sample)
estimadores15= sapply(rep(15,500),cal_sample)
estimadores20= sapply(rep(20,500),cal_sample)
estimadores30= sapply(rep(30,500),cal_sample)
estimadores50= sapply(rep(50,500),cal_sample)
estimadores60= sapply(rep(60,500),cal_sample)
estimadores100= sapply(rep(100,500),cal_sample)
estimadores200= sapply(rep(200,500),cal_sample)
estimadores500= sapply(rep(500,500),cal_sample)
resultados = data.frame(estimadores5,estimadores10,estimadores15,estimadores20,estimadores30,estimadores50,estimadores60,estimadores100,estimadores200,estimadores500)
boxplot(resultados)
abline(h=0.5,col="green",lwd=4)
Análisis boxplot:
Se puede ver que todos los estimadores tienen su promedio cercano al valor del parametro (0.5), sin embargo, al aumentar el tamaño de la muestra, se disminuye la disperción de los datos, esto se evidencia en el tamaño de las cajas, ya que a medida que aumenta el tamaño de la mjuestra, disminuye el tamaño de la caja, y asi mismo, los outliers tambien tienen a disminuir y a estar mas proximos a los cuerpos de las cajas.
Análisis de pruebas de bondad y ajuste
estimadores5
shapiro.test(estimadores5)
##
## Shapiro-Wilk normality test
##
## data: estimadores5
## W = 0.93039, p-value = 1.725e-14
qqnorm(estimadores5, pch = 1, frame = FALSE)
qqline(estimadores5, col = "steelblue", lwd = 2)
Se puede ver que la prueba de Shapiro-Wilks y el qq-plot muestran que
con una muestra de 5 los datos no se distribuyen normal. Por otro lado,
el qq-Plot no se aproxima graficamente a la línea de normalidad
estimadores10
shapiro.test(estimadores10)
##
## Shapiro-Wilk normality test
##
## data: estimadores10
## W = 0.96519, p-value = 1.663e-09
qqnorm(estimadores10, pch = 1, frame = FALSE)
qqline(estimadores10, col = "steelblue", lwd = 2)
Se puede ver que la prueba de Shapiro-Wilks y el qq-plot muestran que
con una muestra de 10 los datos no se distribuyen normal.ya que el
P-value es menor a la significancia de la prueba de bonda y ajuste.Por
otro lado, el qq-Plot no se aproxima graficamente a la línea de
normalidad
estimadores15
shapiro.test(estimadores15)
##
## Shapiro-Wilk normality test
##
## data: estimadores15
## W = 0.97174, p-value = 3.095e-08
qqnorm(estimadores15, pch = 1, frame = FALSE)
qqline(estimadores15, col = "steelblue", lwd = 2)
Se puede ver que la prueba de Shapiro-Wilks y el qq-plot muestran que
con una muestra de 15 los datos no se distribuyen normal.ya que el
P-value es menor a la significancia de la prueba de bonda y ajuste.Por
otro lado, el qq-Plot no se aproxima graficamente a la línea de
normalidad
estimadores20
shapiro.test(estimadores20)
##
## Shapiro-Wilk normality test
##
## data: estimadores20
## W = 0.9806, p-value = 3.261e-06
qqnorm(estimadores20, pch = 1, frame = FALSE)
qqline(estimadores20, col = "steelblue", lwd = 2)
Se puede ver que la prueba de Shapiro-Wilks y el qq-plot muestran que
con una muestra de 20 los datos no se distribuyen normal.ya que el
P-value es menor a la significancia de la prueba de bonda y ajuste.Por
otro lado, el qq-Plot no se aproxima graficamente a la línea de
normalidad
estimadores30
shapiro.test(estimadores30)
##
## Shapiro-Wilk normality test
##
## data: estimadores30
## W = 0.9878, p-value = 0.0003447
qqnorm(estimadores30, pch = 1, frame = FALSE)
qqline(estimadores30, col = "steelblue", lwd = 2)
Se puede ver que la prueba de Shapiro-Wilks y el qq-plot muestran que
con una muestra de 30 los datos no se distribuyen normal.ya que el
P-value es menor a la significancia de la prueba de bonda y ajuste.Por
otro lado, el qq-Plot no se aproxima graficamente a la línea de
normalidad
estimadores50
shapiro.test(estimadores50)
##
## Shapiro-Wilk normality test
##
## data: estimadores50
## W = 0.99066, p-value = 0.002967
qqnorm(estimadores50, pch = 1, frame = FALSE)
qqline(estimadores50, col = "steelblue", lwd = 2)
Se puede ver que la prueba de Shapiro-Wilks y el qq-plot muestran que
con una muestra de 50 los datos no se distribuyen normal,ya que el
P-value es menor a la significancia de la prueba de bonda y ajuste.Por
otro lado, el qq-Plot no se aproxima graficamente a la línea de
normalidad
estimadores60
shapiro.test(estimadores60)
##
## Shapiro-Wilk normality test
##
## data: estimadores60
## W = 0.98918, p-value = 0.0009488
qqnorm(estimadores60, pch = 1, frame = FALSE)
qqline(estimadores60, col = "steelblue", lwd = 2)
Se puede ver que la prueba de Shapiro-Wilks y el qq-plot muestran que
con una muestra de 60 los datos no se distribuyen normal, ya que el
P-value es menor a la significancia de la prueba de bonda y ajuste.Por
otro lado, el qq-Plot no se aproxima graficamente a la línea de
normalidad
estimadores100
shapiro.test(estimadores100)
##
## Shapiro-Wilk normality test
##
## data: estimadores100
## W = 0.99222, p-value = 0.01041
qqnorm(estimadores100, pch = 1, frame = FALSE)
qqline(estimadores100, col = "steelblue", lwd = 2)
Se puede ver que la prueba de Shapiro-Wilks y el qq-plot muestran que
con una muestra de 100 los datos no se distribuyen normal, ya que el
P-value es menor a la significancia de la prueba de bonda y ajuste.Por
otro lado, el qq-Plot no se aproxima graficamente a la línea de
normalidad
estimadores200
shapiro.test(estimadores200)
##
## Shapiro-Wilk normality test
##
## data: estimadores200
## W = 0.99287, p-value = 0.01776
qqnorm(estimadores200, pch = 1, frame = FALSE)
qqline(estimadores200, col = "steelblue", lwd = 2)
Se puede ver que la prueba de Shapiro-Wilks y el qq-plot muestran que
con una muestra de 200 los datos si se distribuyen normal, ya que el
P-value es mayor a la significancia de la prueba de bonda y ajuste.Por
otro lado, el qq-Plot si se aproxima graficamente a la línea de
normalidad
estimadores500
shapiro.test(estimadores500)
##
## Shapiro-Wilk normality test
##
## data: estimadores500
## W = 0.99533, p-value = 0.1384
qqnorm(estimadores500, pch = 1, frame = FALSE)
qqline(estimadores500, col = "steelblue", lwd = 2)
Se puede ver que la prueba de Shapiro-Wilks y el qq-plot muestran que con una muestra de 500 los datos si se distribuyen normal, ya que el P-value es mayor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot si se aproxima graficamente a la línea de normalidad
lote10=c(rep("Sanas",900),rep("enfermas",100))
cal_sample10 <- function(n){
muestra = sample(lote10,size = n)
promedio = sum(muestra == "enfermas")/n
return(promedio)
}
Se evidencia que ahora la el estimador del promedio tiende a ser del 10%
cal_sample10(n=50)
## [1] 0.08
estimadores10por= sapply(rep(50,500),cal_sample10)
hist( estimadores10por)
mean(estimadores10por)
## [1] 0.10156
sd(estimadores10por)
## [1] 0.04153332
Prueba Shapiro-Wilks:
shapiro.test(estimadores10por)
##
## Shapiro-Wilk normality test
##
## data: estimadores10por
## W = 0.97233, p-value = 4.108e-08
Análisis: con una muestra de 150, y 500 repeticiones, teniendo por promedio 0.10, por otro lado, por otro lado, el P-value de la prueba Shapiro-Wilks es de 0.001, la cúal es inferior al nivel de significancia del 5%, por lo tanto se rechaza la hipótesis nula que dicta en dicha prueba que la distribución de los datos se distribuye NORMAL.
cal_sample10(n=50)
## [1] 0.04
estimadoresE= sapply(rep(50,500),cal_sample10)
estimadoresE5= sapply(rep(5,500),cal_sample10)
estimadoresE10= sapply(rep(10,500),cal_sample10)
estimadoresE15= sapply(rep(15,500),cal_sample10)
estimadoresE20= sapply(rep(20,500),cal_sample10)
estimadoresE30= sapply(rep(30,500),cal_sample10)
estimadoresE50= sapply(rep(50,500),cal_sample10)
estimadoresE60= sapply(rep(60,500),cal_sample10)
estimadoresE100= sapply(rep(100,500),cal_sample10)
estimadoresE200= sapply(rep(200,500),cal_sample10)
estimadoresE500= sapply(rep(500,500),cal_sample10)
resultados = data.frame(estimadoresE5,estimadoresE10,estimadoresE15,estimadoresE20,estimadoresE30,estimadoresE50,estimadoresE60,estimadoresE100,estimadoresE200,estimadoresE500)
boxplot(resultados)
abline(h=0.1,col="green",lwd=4)
Se puede ver nuevamente el mismo comportamiento que en la proporción del
50%, mostrando que cada uno de los estimadores orbita cerca al verdadero
valor del parametro (10%), pero se ve una disminución en la dispersion
de los datos a medida que aumenta el tamaño de la muestra.
Análisis de pruebas de bondad y ajuste
estimadoresE5
shapiro.test(estimadoresE5)
##
## Shapiro-Wilk normality test
##
## data: estimadoresE5
## W = 0.70905, p-value < 2.2e-16
qqnorm(estimadoresE5, pch = 1, frame = FALSE)
qqline(estimadoresE5, col = "steelblue", lwd = 2)
Shapiro-Wilks y el qq-plot muestran que con una muestra de 50 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad
estimadoresE10
shapiro.test(estimadoresE10)
##
## Shapiro-Wilk normality test
##
## data: estimadoresE10
## W = 0.83827, p-value < 2.2e-16
qqnorm(estimadoresE10, pch = 1, frame = FALSE)
qqline(estimadoresE10, col = "steelblue", lwd = 2)
Shapiro-Wilks y el qq-plot muestran que con una muestra de 10 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad
estimadoresE15
shapiro.test(estimadoresE15)
##
## Shapiro-Wilk normality test
##
## data: estimadoresE15
## W = 0.88993, p-value < 2.2e-16
qqnorm(estimadoresE15, pch = 1, frame = FALSE)
qqline(estimadoresE15, col = "steelblue", lwd = 2)
Shapiro-Wilks y el qq-plot muestran que con una muestra de 15 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad
estimadoresE20
shapiro.test(estimadoresE20)
##
## Shapiro-Wilk normality test
##
## data: estimadoresE20
## W = 0.92425, p-value = 3.526e-15
qqnorm(estimadoresE20, pch = 1, frame = FALSE)
qqline(estimadoresE20, col = "steelblue", lwd = 2)
Shapiro-Wilks y el qq-plot muestran que con una muestra de 20 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad
estimadoresE30
shapiro.test(estimadoresE30)
##
## Shapiro-Wilk normality test
##
## data: estimadoresE30
## W = 0.94391, p-value = 8.255e-13
qqnorm(estimadoresE30, pch = 1, frame = FALSE)
qqline(estimadoresE30, col = "steelblue", lwd = 2)
Shapiro-Wilks y el qq-plot muestran que con una muestra de 30 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad
estimadoresE50
shapiro.test(estimadoresE50)
##
## Shapiro-Wilk normality test
##
## data: estimadoresE50
## W = 0.96361, p-value = 8.661e-10
qqnorm(estimadoresE50, pch = 1, frame = FALSE)
qqline(estimadoresE50, col = "steelblue", lwd = 2)
Shapiro-Wilks y el qq-plot muestran que con una muestra de 50 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad
estimadoresE60
shapiro.test(estimadoresE60)
##
## Shapiro-Wilk normality test
##
## data: estimadoresE60
## W = 0.9801, p-value = 2.441e-06
qqnorm(estimadoresE60, pch = 1, frame = FALSE)
qqline(estimadoresE60, col = "steelblue", lwd = 2)
Shapiro-Wilks y el qq-plot muestran que con una muestra de 60 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad
estimadoresE100
shapiro.test(estimadoresE100)
##
## Shapiro-Wilk normality test
##
## data: estimadoresE100
## W = 0.98301, p-value = 1.394e-05
qqnorm(estimadoresE100, pch = 1, frame = FALSE)
qqline(estimadoresE100, col = "steelblue", lwd = 2)
Shapiro-Wilks y el qq-plot muestran que con una muestra de 100 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad
estimadoresE200
shapiro.test(estimadoresE200)
##
## Shapiro-Wilk normality test
##
## data: estimadoresE200
## W = 0.99143, p-value = 0.005454
qqnorm(estimadoresE200, pch = 1, frame = FALSE)
qqline(estimadoresE200, col = "steelblue", lwd = 2)
Shapiro-Wilks y el qq-plot muestran que con una muestra de 200 los datos si se distribuyen normal.ya que el P-value es mayor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot si se aproxima graficamente a la línea de normalidad
estimadoresE500
shapiro.test(estimadoresE500)
##
## Shapiro-Wilk normality test
##
## data: estimadoresE500
## W = 0.9929, p-value = 0.01818
qqnorm(estimadoresE500, pch = 1, frame = FALSE)
qqline(estimadoresE500, col = "steelblue", lwd = 2)
Shapiro-Wilks y el qq-plot muestran que con una muestra de 500 los datos si se distribuyen normal.ya que el P-value es mayor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot si se aproxima graficamente a la línea de normalidad
lote90=c(rep("Sanas",100),rep("enfermas",900))
cal_sample90 <- function(n){
muestra = sample(lote90,size = n)
promedio = sum(muestra == "enfermas")/n
return(promedio)
}
Se evidencia que ahora el promedio del estimador es del 90%
cal_sample90(n=50)
## [1] 0.88
estimadores90por= sapply(rep(50,500),cal_sample90)
hist(estimadores90por)
mean(estimadores90por)
## [1] 0.89668
sd(estimadores90por)
## [1] 0.04263112
Prueba Shapiro-wilks:
shapiro.test(estimadores90por)
##
## Shapiro-Wilk normality test
##
## data: estimadores90por
## W = 0.96551, p-value = 1.902e-09
Análisis: con una muestra de 50, y 500 repeticiones, tendiendo a tener por promedio 0.90 y desviación de 0.04,el P-value de la prueba Shapiro-Wilks es de 0.001, la cúal es inferior al nivel de significancia del 5%, por lo tanto se rechaza la hipótesis nula que dicta en dicha prueba que la distribución de los datos se distribuye NORMAL.
cal_sample90(n=50)
## [1] 0.88
estimadores2E= sapply(rep(50,500),cal_sample90)
estimadores2E5= sapply(rep(5,500),cal_sample90)
estimadores2E10= sapply(rep(10,500),cal_sample90)
estimadores2E15= sapply(rep(15,500),cal_sample90)
estimadores2E20= sapply(rep(20,500),cal_sample90)
estimadores2E30= sapply(rep(30,500),cal_sample90)
estimadores2E50= sapply(rep(50,500),cal_sample90)
estimadores2E60= sapply(rep(60,500),cal_sample90)
estimadores2E100= sapply(rep(100,500),cal_sample90)
estimadores2E200= sapply(rep(200,500),cal_sample90)
estimadores2E500= sapply(rep(500,500),cal_sample90)
resultados = data.frame(estimadores2E5,estimadores2E10,estimadores2E15,estimadores2E20,estimadores2E30,estimadores2E50,estimadores2E60,estimadores2E100,estimadores2E200,estimadores2E500)
boxplot(resultados)
abline(h=0.9,col="green",lwd=4)
Análisis BoxPlot
Se puede ver nuevamente que todos los estimadores se tienen su media sobre un valor muy cercano al del parametro (90%), sin embargo, a medida que aumenta la muestra, la desviación estandar y por ende, la dispersión de los datos tiende a disminuir.
Conclusión: Análizando el comportamiento de los 3 experimientos, se puede concluir que el efecto que tiene el tamaño de la muestra en la desviación estandar, no depende de la proporción real de casos “enfermos”, mostrando que existe una relación inversa entre el tamaño de la muestra y la desviación estandar.
Análisis pruebas de bondad y ajuste
estimadores2E5
shapiro.test(estimadores2E5)
##
## Shapiro-Wilk normality test
##
## data: estimadores2E5
## W = 0.71951, p-value < 2.2e-16
qqnorm(estimadores2E5, pch = 1, frame = FALSE)
qqline(estimadores2E5, col = "steelblue", lwd = 2)
Shapiro-Wilks y el qq-plot muestran que con una muestra de 5 los datos no se distribuyen normal,ya que el P-Value es menor a la significancia.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad
estimadores2E10
shapiro.test(estimadores2E10)
##
## Shapiro-Wilk normality test
##
## data: estimadores2E10
## W = 0.83369, p-value < 2.2e-16
qqnorm(estimadores2E10, pch = 1, frame = FALSE)
qqline(estimadores2E10, col = "steelblue", lwd = 2)
Shapiro-Wilks y el qq-plot muestran que con una muestra de 10 los datos no se distribuyen normal,ya que el P-Value es menor a la significancia.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad
estimadores2E15
shapiro.test(estimadores2E15)
##
## Shapiro-Wilk normality test
##
## data: estimadores2E15
## W = 0.89249, p-value < 2.2e-16
qqnorm(estimadores2E15, pch = 1, frame = FALSE)
qqline(estimadores2E15, col = "steelblue", lwd = 2)
Shapiro-Wilks y el qq-plot muestran que con una muestra de 15 los datos no se distribuyen normal,ya que el P-Value es menor a la significancia.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad
estimadores2E20
shapiro.test(estimadores2E20)
##
## Shapiro-Wilk normality test
##
## data: estimadores2E20
## W = 0.9252, p-value = 4.484e-15
qqnorm(estimadores2E20, pch = 1, frame = FALSE)
qqline(estimadores2E20, col = "steelblue", lwd = 2)
Shapiro-Wilks y el qq-plot muestran que con una muestra de 20 los datos no se distribuyen normal,ya que el P-Value es menor a la significancia.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad
estimadores2E30
shapiro.test(estimadores2E30)
##
## Shapiro-Wilk normality test
##
## data: estimadores2E30
## W = 0.94181, p-value = 4.35e-13
qqnorm(estimadores2E30, pch = 1, frame = FALSE)
qqline(estimadores2E30, col = "steelblue", lwd = 2)
Shapiro-Wilks y el qq-plot muestran que con una muestra de 30 los datos no se distribuyen normal,ya que el P-Value es menor a la significancia.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad
estimadores2E50
shapiro.test(estimadores2E50)
##
## Shapiro-Wilk normality test
##
## data: estimadores2E50
## W = 0.97263, p-value = 4.732e-08
qqnorm(estimadores2E50, pch = 1, frame = FALSE)
qqline(estimadores2E50, col = "steelblue", lwd = 2)
Shapiro-Wilks y el qq-plot muestran que con una muestra de 50 los datos
no se distribuyen normal,ya que el P-Value es menor a la
significancia.Por otro lado, el qq-Plot no se aproxima graficamente a la
línea de normalidad
estimadores2E60
shapiro.test(estimadores2E60)
##
## Shapiro-Wilk normality test
##
## data: estimadores2E60
## W = 0.97903, p-value = 1.326e-06
qqnorm(estimadores2E60, pch = 1, frame = FALSE)
qqline(estimadores2E60, col = "steelblue", lwd = 2)
Shapiro-Wilks y el qq-plot muestran que con una muestra de 60 los datos
no se distribuyen normal,ya que el P-Value es menor a la
significancia.Por otro lado, el qq-Plot no se aproxima graficamente a la
línea de normalidad
estimadores2E100
shapiro.test(estimadores2E100)
##
## Shapiro-Wilk normality test
##
## data: estimadores2E100
## W = 0.97926, p-value = 1.508e-06
qqnorm(estimadores2E100, pch = 1, frame = FALSE)
qqline(estimadores2E100, col = "steelblue", lwd = 2)
Shapiro-Wilks y el qq-plot muestran que con una muestra de 100 los datos
no se distribuyen normal,ya que el P-Value es menor a la
significancia.Por otro lado, el qq-Plot no se aproxima graficamente a la
línea de normalidad
estimadores2E200
shapiro.test(estimadores2E200)
##
## Shapiro-Wilk normality test
##
## data: estimadores2E200
## W = 0.99228, p-value = 0.01092
qqnorm(estimadores2E200, pch = 1, frame = FALSE)
qqline(estimadores2E200, col = "steelblue", lwd = 2)
Shapiro-Wilks y el qq-plot muestran que con una muestra de 200 los datos si se distribuyen normal.ya que el P-value es mayor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot si se aproxima graficamente a la línea de normalidad
estimadores2E500
shapiro.test(estimadores2E500)
##
## Shapiro-Wilk normality test
##
## data: estimadores2E500
## W = 0.99331, p-value = 0.02556
qqnorm(estimadores2E500, pch = 1, frame = FALSE)
qqline(estimadores2E500, col = "steelblue", lwd = 2)
Shapiro-Wilks y el qq-plot muestran que con una muestra de 500 los datos si se distribuyen normal,ya que el P-Value es mayor a la significancia.Por otro lado, el qq-Plot si se aproxima graficamente a la línea de normalidad
** Conclusiones punto 1**
Se puede concluir que al realizar las simulaciones en los diferentes escenarios (50% enfermas, 10% enfermas y 90% enfermas) se pudo evidenciar que existe una relación entre el tamaño de la muestra y la convergencia en el comportamiento de las distribuciones de los datos a una distribución Normal, es de recalcar que esta convergencia hacia la distribución Normal NO depende de las proporciones que se esten usando en el experiemiento (50% enfermas, 10% enfermas y 90% enfermas), ya que en todos los escenarios, cuando se tenian muestras del mas de 200 individuos, los datos se distribuian con distribución normal.
Lote1 = c(rep("sanas",900),rep("enfermas",100))
Lote2 = c(rep("sanas",1350),rep("enfermas",150))
dif_proms <- function(n){
sample1 = sample(Lote1,n)
sample2 = sample(Lote2,n)
X1 = sum(sample1=="enfermas")/n
X2 = sum(sample2=="enfermas")/n
diferencia = X1-X2
return(diferencia)
}
dif_proms(50)
## [1] 0.06
dif_proms(n=50)
## [1] 0.02
estimadoresP1P2 = sapply(rep(50,500),dif_proms)
hist(estimadoresP1P2)
Prueba Shapiro-wilks:
shapiro.test(estimadoresP1P2)
##
## Shapiro-Wilk normality test
##
## data: estimadoresP1P2
## W = 0.98694, p-value = 0.0001865
Análisis: Se puede ver que la distribución de las diferencias de proporciones esta centrada en el 0, lo cual indica NO que existe una diferencia entre los individuos “enfermos” de P1 y de P2.
Adicionalemente, se puede ver que con una muestra de 50, el test de shapiro-wilk es del 0.00022, lo cual indica que se rechaza la hipótesis nula, por ende, las diferencias entre proporciones NO se distribuye normal.
p2estimadores5= sapply(rep(5,500),dif_proms)
p2estimadores10= sapply(rep(10,500),dif_proms)
p2estimadores15= sapply(rep(15,500),dif_proms)
p2estimadores20= sapply(rep(20,500),dif_proms)
p2estimadores30= sapply(rep(30,500),dif_proms)
p2estimadores50= sapply(rep(50,500),dif_proms)
p2estimadores60= sapply(rep(60,500),dif_proms)
p2estimadores100= sapply(rep(100,500),dif_proms)
p2estimadores200= sapply(rep(200,500),dif_proms)
p2estimadores500= sapply(rep(500,500),dif_proms)
resultados = data.frame(p2estimadores5,p2estimadores10,p2estimadores15,p2estimadores20,p2estimadores30,p2estimadores50,p2estimadores60,p2estimadores100,p2estimadores200,p2estimadores500)
boxplot(resultados)
abline(h=0.0,col="green",lwd=4)
Análisis de Boxplot
Análisis: Al graficar los estimadores de diferencia de promedios se puede ver nuevamente que la dispersión de los datos tiende a diminuir a medida que aumenta el tamaño de la muestra, lo cual esta alineado con lo encontrado en el punto 1. Por otro lado,se puede ver todos las medias de los estimadores estan sobre línea 0, lo cúal indica que estadisticamente las dos proporciones no son diferentes, y esto hace sentido al análisis, ya que los dos parametros (P1 y P2) son iguales (10%)
Análisis de pruebas de bondad y ajuste
p2estimadores5
shapiro.test(p2estimadores5)
##
## Shapiro-Wilk normality test
##
## data: p2estimadores5
## W = 0.90967, p-value < 2.2e-16
qqnorm(p2estimadores5, pch = 1, frame = FALSE)
qqline(p2estimadores5, col = "steelblue", lwd = 2)
Shapiro-Wilks y el qq-plot muestran que con una muestra de 5 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad
p2estimadores10
shapiro.test(p2estimadores10)
##
## Shapiro-Wilk normality test
##
## data: p2estimadores10
## W = 0.94558, p-value = 1.387e-12
qqnorm(p2estimadores10, pch = 1, frame = FALSE)
qqline(p2estimadores10, col = "steelblue", lwd = 2)
Shapiro-Wilks y el qq-plot muestran que con una muestra de 10 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad
p2estimadores15
shapiro.test(p2estimadores15)
##
## Shapiro-Wilk normality test
##
## data: p2estimadores15
## W = 0.96337, p-value = 7.841e-10
qqnorm(p2estimadores15, pch = 1, frame = FALSE)
qqline(p2estimadores15, col = "steelblue", lwd = 2)
Shapiro-Wilks y el qq-plot muestran que con una muestra de 15 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad
p2estimadores20
shapiro.test(p2estimadores20)
##
## Shapiro-Wilk normality test
##
## data: p2estimadores20
## W = 0.97536, p-value = 1.852e-07
qqnorm(p2estimadores20, pch = 1, frame = FALSE)
qqline(p2estimadores20, col = "steelblue", lwd = 2)
Shapiro-Wilks y el qq-plot muestran que con una muestra de 20 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad
p2estimadores30
shapiro.test(p2estimadores30)
##
## Shapiro-Wilk normality test
##
## data: p2estimadores30
## W = 0.98148, p-value = 5.47e-06
qqnorm(p2estimadores30, pch = 1, frame = FALSE)
qqline(p2estimadores30, col = "steelblue", lwd = 2)
Shapiro-Wilks y el qq-plot muestran que con una muestra de 30 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad
p2estimadores50
shapiro.test(p2estimadores50)
##
## Shapiro-Wilk normality test
##
## data: p2estimadores50
## W = 0.98778, p-value = 0.0003389
qqnorm(p2estimadores50, pch = 1, frame = FALSE)
qqline(p2estimadores50, col = "steelblue", lwd = 2)
Shapiro-Wilks y el qq-plot muestran que con una muestra de 50 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad
p2estimadores60
shapiro.test(p2estimadores60)
##
## Shapiro-Wilk normality test
##
## data: p2estimadores60
## W = 0.98742, p-value = 0.0002615
qqnorm(p2estimadores60, pch = 1, frame = FALSE)
qqline(p2estimadores60, col = "steelblue", lwd = 2)
Shapiro-Wilks y el qq-plot muestran que con una muestra de 60 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad
p2estimadores100
shapiro.test(p2estimadores100)
##
## Shapiro-Wilk normality test
##
## data: p2estimadores100
## W = 0.99122, p-value = 0.004623
qqnorm(p2estimadores100, pch = 1, frame = FALSE)
qqline(p2estimadores100, col = "steelblue", lwd = 2)
Shapiro-Wilks y el qq-plot muestran que con una muestra de 100 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad
p2estimadores200
shapiro.test(p2estimadores200)
##
## Shapiro-Wilk normality test
##
## data: p2estimadores200
## W = 0.99437, p-value = 0.06241
qqnorm(p2estimadores200, pch = 1, frame = FALSE)
qqline(p2estimadores200, col = "steelblue", lwd = 2)
Shapiro-Wilks y el qq-plot muestran que con una muestra de 200 los datos si se distribuyen normal.ya que el P-value es mayor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot si se aproxima graficamente a la línea de normalidad
p2estimadores500
shapiro.test(p2estimadores500)
##
## Shapiro-Wilk normality test
##
## data: p2estimadores500
## W = 0.99603, p-value = 0.2443
qqnorm(p2estimadores500, pch = 1, frame = FALSE)
qqline(p2estimadores500, col = "steelblue", lwd = 2)
Shapiro-Wilks y el qq-plot muestran que con una muestra de 500 los datos si se distribuyen normal.ya que el P-value es mayor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot si se aproxima graficamente a la línea de normalidad
Lote12 = c(rep("sanas",900),rep("enfermas",100))
Lote22 = c(rep("sanas",1275),rep("enfermas",225))
dif_proms2 <- function(n){
sample1 = sample(Lote12,n)
sample2 = sample(Lote22,n)
X1 = sum(sample1=="enfermas")/n
X2 = sum(sample2=="enfermas")/n
diferencia = X1-X2
return(diferencia)
}
mean(dif_proms2(500))
## [1] -0.048
dif_proms(n=50)
## [1] -0.06
estimador = sapply(rep(50,500),dif_proms2)
hist(estimador)
Análisis: Se puede ver que la distribución de las diferencias de proporciones esta centrada a la izquierda del 0, lo cual indica que existe una diferencia entre los individuos “enfermos” de P1 y de P2
DF2estimadores5= sapply(rep(5,500),dif_proms2)
DF2estimadores10= sapply(rep(10,500),dif_proms2)
DF2estimadores15= sapply(rep(15,500),dif_proms2)
DF2estimadores20= sapply(rep(20,500),dif_proms2)
DF2estimadores30= sapply(rep(30,500),dif_proms2)
DF2estimadores50= sapply(rep(50,500),dif_proms2)
DF2estimadores60= sapply(rep(60,500),dif_proms2)
DF2estimadores100= sapply(rep(100,500),dif_proms2)
DF2estimadores200= sapply(rep(200,500),dif_proms2)
DF2estimadores500= sapply(rep(500,500),dif_proms2)
resultados = data.frame(DF2estimadores5,DF2estimadores10,DF2estimadores15,DF2estimadores20,DF2estimadores30,DF2estimadores50,DF2estimadores60,DF2estimadores100,DF2estimadores200,DF2estimadores500)
boxplot(resultados)
abline(h=0.0,col="green",lwd=4)
Análisis BoxPlot
Análisis: Al analizar el gráfico de cajas para los estimadores, se puede ver nuevamente la relación entre el tamaño de la muestra y la dispersión de los datos, sin embargo, se puede ver que las medias de cada uno de los estimadores esta por debajo del 0, lo cual muestra que la proporción de individuos “enfermos” en la P1 es inferior que los “enfermos” de P2.
Análisis pruebas de bondad y ajuste
DF2estimadores5
shapiro.test(DF2estimadores5)
##
## Shapiro-Wilk normality test
##
## data: DF2estimadores5
## W = 0.90981, p-value < 2.2e-16
qqnorm(DF2estimadores5, pch = 1, frame = FALSE)
qqline(DF2estimadores5, col = "steelblue", lwd = 2)
Shapiro-Wilks y el qq-plot muestran que con una muestra de 5 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad
DF2estimadores10
shapiro.test(DF2estimadores10)
##
## Shapiro-Wilk normality test
##
## data: DF2estimadores10
## W = 0.96022, p-value = 2.254e-10
qqnorm(DF2estimadores10, pch = 1, frame = FALSE)
qqline(DF2estimadores10, col = "steelblue", lwd = 2)
Shapiro-Wilks y el qq-plot muestran que con una muestra de 10 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad
DF2estimadores15
shapiro.test(DF2estimadores15)
##
## Shapiro-Wilk normality test
##
## data: DF2estimadores15
## W = 0.97054, p-value = 1.762e-08
qqnorm(DF2estimadores15, pch = 1, frame = FALSE)
qqline(DF2estimadores15, col = "steelblue", lwd = 2)
Shapiro-Wilks y el qq-plot muestran que con una muestra de 15 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad
DF2estimadores20
shapiro.test(DF2estimadores20)
##
## Shapiro-Wilk normality test
##
## data: DF2estimadores20
## W = 0.97806, p-value = 7.741e-07
qqnorm(DF2estimadores20, pch = 1, frame = FALSE)
qqline(DF2estimadores20, col = "steelblue", lwd = 2)
Shapiro-Wilks y el qq-plot muestran que con una muestra de 20 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad
DF2estimadores30
shapiro.test(DF2estimadores30)
##
## Shapiro-Wilk normality test
##
## data: DF2estimadores30
## W = 0.98346, p-value = 1.852e-05
qqnorm(DF2estimadores30, pch = 1, frame = FALSE)
qqline(DF2estimadores30, col = "steelblue", lwd = 2)
Shapiro-Wilks y el qq-plot muestran que con una muestra de 30 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad
DF2estimadores50
shapiro.test(DF2estimadores50)
##
## Shapiro-Wilk normality test
##
## data: DF2estimadores50
## W = 0.98576, p-value = 8.315e-05
qqnorm(DF2estimadores50, pch = 1, frame = FALSE)
qqline(DF2estimadores50, col = "steelblue", lwd = 2)
Shapiro-Wilks y el qq-plot muestran que con una muestra de 50 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad
DF2estimadores60
shapiro.test(DF2estimadores60)
##
## Shapiro-Wilk normality test
##
## data: DF2estimadores60
## W = 0.9894, p-value = 0.001122
qqnorm(DF2estimadores60, pch = 1, frame = FALSE)
qqline(DF2estimadores60, col = "steelblue", lwd = 2)
Shapiro-Wilks y el qq-plot muestran que con una muestra de 60 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad
DF2estimadores100
shapiro.test(DF2estimadores100)
##
## Shapiro-Wilk normality test
##
## data: DF2estimadores100
## W = 0.99464, p-value = 0.07825
qqnorm(DF2estimadores100, pch = 1, frame = FALSE)
qqline(DF2estimadores100, col = "steelblue", lwd = 2)
Shapiro-Wilks y el qq-plot muestran que con una muestra de 100 los datos no se distribuyen normal.ya que el P-value es menor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot no se aproxima graficamente a la línea de normalidad
DF2estimadores200
shapiro.test(DF2estimadores200)
##
## Shapiro-Wilk normality test
##
## data: DF2estimadores200
## W = 0.99496, p-value = 0.1023
qqnorm(DF2estimadores200, pch = 1, frame = FALSE)
qqline(DF2estimadores200, col = "steelblue", lwd = 2)
Shapiro-Wilks y el qq-plot muestran que con una muestra de 200 los datos si se distribuyen normal.ya que el P-value es mayor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot si se aproxima graficamente a la línea de normalidad
DF2estimadores500
shapiro.test(DF2estimadores500)
##
## Shapiro-Wilk normality test
##
## data: DF2estimadores500
## W = 0.99405, p-value = 0.04774
qqnorm(DF2estimadores500, pch = 1, frame = FALSE)
qqline(DF2estimadores500, col = "steelblue", lwd = 2)
Shapiro-Wilks y el qq-plot muestran que con una muestra de 500 los datos si se distribuyen normal.ya que el P-value es mayor a la significancia de la prueba de bonda y ajuste.Por otro lado, el qq-Plot si se aproxima graficamente a la línea de normalidad
Del ejercicio de simulación se pueden concluir los siguientes puntos:
El tamaño de la muestra influye en el resultado de las pruebas de bondad y ajuste, de tal manera que al aumentar el tamaño de la muestra, los resultados de qq-plot y de la prueba de Shapiro-Wilks mostraran que los estadisticos de prueba tienden a distribuirse normal.
Las proporciones de casos de interes sobre el total de la población no interfieren en los resultados de las simulaciones para normalidad, por ende, no son una variable determinante para dictar si un conjunto de datos se distribuyen normal o no.
Se encontrón un patrón en los escenarios de simulación, el cúal indica que con una tamaño de muestra a 200, las pruebas de shapiro-wilks y el análisis por qq-plot muestran una tendencia a que los datos se distribuyan normal.