lote=c(rep("Enfermo",500),rep("Sana",500))
calc_p_gorro = function(n){
muestra = sample(lote, size = n)
p_gorro = sum(muestra == "Enfermo")/n
return(p_gorro)
}
calc_p_gorro(n=100)
## [1] 0.44
posibles_p_gorro = sapply(rep(100, 500), calc_p_gorro)
summary(posibles_p_gorro)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.3500 0.4700 0.5000 0.5016 0.5300 0.6500
hist(posibles_p_gorro)
line = mean(posibles_p_gorro)
abline(v=0.50, col="red", lwd=4)
De acuerdo con los indicadores calculados mediante la función Summary, vemos como la media y la mediana tienen un valor cercano, que permite inferir que los datos analizados no presentan tanta dispersión, pero la distribución noe s completamente simética debido a la que se puede observar en el histograma posibles_p_gorro.
require(car)
## Loading required package: car
## Warning: package 'car' was built under R version 4.1.3
## Loading required package: carData
## Warning: package 'carData' was built under R version 4.1.3
posibles_p_gorro_5 = sapply(rep(5, 500), calc_p_gorro)
par(mfrow=c(1,3))
hist(posibles_p_gorro_5, las=1, ylab = "Frecuencia", main = "", col = "blue")
plot(density(posibles_p_gorro_5), las=1, ylab = "Densidad", main = "", col ="blue")
qqPlot(posibles_p_gorro_5, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
## [1] 7 20
shapiro.test(posibles_p_gorro_5)
##
## Shapiro-Wilk normality test
##
## data: posibles_p_gorro_5
## W = 0.92621, p-value = 5.798e-15
require(car)
posibles_p_gorro_10 = sapply(rep(10, 500), calc_p_gorro)
par(mfrow=c(1,3))
hist(posibles_p_gorro_10, las=1, ylab = "Frecuencia", main = "", col = "blue")
plot(density(posibles_p_gorro_10), las=1, ylab = "Densidad", main = "", col ="blue")
qqPlot(posibles_p_gorro_10, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
## [1] 81 153
shapiro.test(posibles_p_gorro_10)
##
## Shapiro-Wilk normality test
##
## data: posibles_p_gorro_10
## W = 0.9607, p-value = 2.711e-10
require(car)
posibles_p_gorro_15 = sapply(rep(15, 500), calc_p_gorro)
par(mfrow=c(1,3))
hist(posibles_p_gorro_15, las=1, ylab = "Frecuencia", main = "", col = "blue")
plot(density(posibles_p_gorro_15), las=1, ylab = "Densidad", main = "", col ="blue")
qqPlot(posibles_p_gorro_15, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
## [1] 99 234
shapiro.test(posibles_p_gorro_15)
##
## Shapiro-Wilk normality test
##
## data: posibles_p_gorro_15
## W = 0.97074, p-value = 1.932e-08
require(car)
posibles_p_gorro_20 = sapply(rep(20, 500), calc_p_gorro)
par(mfrow=c(1,3))
hist(posibles_p_gorro_20, las=1, ylab = "Frecuencia", main = "", col = "blue")
plot(density(posibles_p_gorro_20), las=1, ylab = "Densidad", main = "", col ="blue")
qqPlot(posibles_p_gorro_20, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
## [1] 479 76
shapiro.test(posibles_p_gorro_20)
##
## Shapiro-Wilk normality test
##
## data: posibles_p_gorro_20
## W = 0.98103, p-value = 4.202e-06
require(car)
posibles_p_gorro_30 = sapply(rep(30, 500), calc_p_gorro)
par(mfrow=c(1,3))
hist(posibles_p_gorro_30, las=1, ylab = "Frecuencia", main = "", col = "blue")
plot(density(posibles_p_gorro_30), las=1, ylab = "Densidad", main = "", col ="blue")
qqPlot(posibles_p_gorro_30, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
## [1] 121 308
shapiro.test(posibles_p_gorro_30)
##
## Shapiro-Wilk normality test
##
## data: posibles_p_gorro_30
## W = 0.97999, p-value = 2.292e-06
require(car)
posibles_p_gorro_50 = sapply(rep(50, 500), calc_p_gorro)
par(mfrow=c(1,3))
hist(posibles_p_gorro_50, las=1, ylab = "Frecuencia", main = "", col = "blue")
plot(density(posibles_p_gorro_50), las=1, ylab = "Densidad", main = "", col ="blue")
qqPlot(posibles_p_gorro_50, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
## [1] 155 219
shapiro.test(posibles_p_gorro_50)
##
## Shapiro-Wilk normality test
##
## data: posibles_p_gorro_50
## W = 0.99033, p-value = 0.002289
require(car)
posibles_p_gorro_60 = sapply(rep(60, 500), calc_p_gorro)
par(mfrow=c(1,3))
hist(posibles_p_gorro_60, las=1, ylab = "Frecuencia", main = "", col = "blue")
plot(density(posibles_p_gorro_60), las=1, ylab = "Densidad", main = "", col ="blue")
qqPlot(posibles_p_gorro_60, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
## [1] 24 378
shapiro.test(posibles_p_gorro_60)
##
## Shapiro-Wilk normality test
##
## data: posibles_p_gorro_60
## W = 0.99187, p-value = 0.007812
require(car)
posibles_p_gorro_100 = sapply(rep(100, 500), calc_p_gorro)
par(mfrow=c(1,3))
hist(posibles_p_gorro_100, las=1, ylab = "Frecuencia", main = "", col = "blue")
plot(density(posibles_p_gorro_100), las=1, ylab = "Densidad", main = "", col ="blue")
qqPlot(posibles_p_gorro_100, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
## [1] 179 12
shapiro.test(posibles_p_gorro_100)
##
## Shapiro-Wilk normality test
##
## data: posibles_p_gorro_100
## W = 0.99493, p-value = 0.09988
require(car)
posibles_p_gorro_200 = sapply(rep(200, 500), calc_p_gorro)
par(mfrow=c(1,3))
hist(posibles_p_gorro_200, las=1, ylab = "Frecuencia", main = "", col = "blue")
plot(density(posibles_p_gorro_200), las=1, ylab = "Densidad", main = "", col ="blue")
qqPlot(posibles_p_gorro_200, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
## [1] 460 317
shapiro.test(posibles_p_gorro_200)
##
## Shapiro-Wilk normality test
##
## data: posibles_p_gorro_200
## W = 0.99573, p-value = 0.192
require(car)
posibles_p_gorro_500 = sapply(rep(500, 500), calc_p_gorro)
par(mfrow=c(1,3))
hist(posibles_p_gorro_500, las=1, ylab = "Frecuencia", main = "", col = "blue")
plot(density(posibles_p_gorro_500), las=1, ylab = "Densidad", main = "", col ="blue")
qqPlot(posibles_p_gorro_500, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
## [1] 202 214
shapiro.test(posibles_p_gorro_500)
##
## Shapiro-Wilk normality test
##
## data: posibles_p_gorro_500
## W = 0.99439, p-value = 0.06326
En la mayoria de las muestras aleatorias realizadas, teniendo en cuenta la forma de las gráficos, se puede inferir que se presenta una distribución normal y la mayoria de los puntos de las muestras se encuentra dentro de los intervalos de confianza.
lote1=c(rep("Enfermo",100),rep("Sana",900))
lote2=c(rep("Enfermo",150),rep("Sana",1350))
calc_diferencia=function(m){
lote1sample=sample(lote1,m)
p1=sum(lote1sample=="Enfermo")/m
lote2sample=sample(lote2,m)
p2=sum(lote2sample=="Enfermo")/m
diferenciap=p1-p2
return(diferenciap)
}
calc_diferencia(m=250)
## [1] 0
simula_lote=sapply(rep(250,500),calc_diferencia)
summary(simula_lote)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.080000 -0.016000 0.000000 0.001864 0.020000 0.076000
hist(simula_lote)
line=mean(simula_lote)
abline(v=0.0, col="red", lwd=4)
De acuerdo con la lectura, el valor p fue considerado en su momento el estandar como criterio de decisión sobre si la inferencia a cerca de un conjunto de datos era correcta, y fue un factor determinante en sus casi 9 decadas desde su implementación. Sin embargo, con el paso del tiempo y nuevos estudios relacionados con la estadísitica, se ha identificado que existen otros factores que tambien se deben tener en cuenta para garantizar un correcto análisis de los datos y no basarse unicamente en un solo calculo que puede conllevar a conclusiones erroneos que difieran de la realidad de la situación analizada.
El objetivo del valor p es que permite un indicador apriori sobre los resultados que son productos del azar o de aquellos resultados que son estadisticamente significativos, mediante un único calculo. Lo anaterio conlleva a que la relevancia pese sobre un único argumento.El autor plantea que el valor p puede ser un indcador de apoyo para la comprensión del conjunto de datos, pero que en adición, es necesario utilizar criterios adicionales de soporte como por ejemplo los intervalos de confianza o métodos bayesianos, entre otros. La correlación de estas difrentes medidas e indicadores permiten tener un mejor sustento para garantizar
Para concluir, al momento de realizar un análisis exploratorio de los datos es necesario identificar el contexto en el cual se generan los datos a analizar y contar con el apoyo de un experto de la situación que se esta analizando, el cual nos puede brindar orientaciones sobre si los indicadores o medidas que se realizan pueden ser posibles, y en adición utilizar diferentes indicadores estadísticos que permitan una mejor comrpensión de los datos y de la situación de estudio.