lote=c(rep("enfermo",500),rep("sana",500))
Este sera un ejercicio en el cual se supone que se conoce la distribución real de la población para posteriormente mediane simulación ver que tanto nos aproximamos a esta realidad.
calc_p_gorro=function(n){
muestra=sample(lote,size = n)
# porcentaje de plantas enfermas
p_gorro=sum(muestra=="enfermo")/n
return(p_gorro)
}
En este caso nuestro estimador de interes será el porcentaje de plantas enfermas dentro de la población, tomaremos diferentes muestras para analizar como es el comportamiento del estimador en relación al parametro de la población, para diferentes tamaños de muestras.
Ejemplo n=5
calc_p_gorro(n = 5)
## [1] 0.2
# muestra de de tamaño 100, repitiendose 500 veces
posibles_p_gorro=sapply(rep(500,500), calc_p_gorro)
hist(posibles_p_gorro)
mean(posibles_p_gorro)
## [1] 0.499688
sd(posibles_p_gorro)
## [1] 0.016522
se evidencia que el estimador presenta un comportamiento cuya función de probabilidad se asemeja a una distribución normal, no presentan sesgos pues estan centrados en el parametro que conocemos que es de 50% (0.5), los posibles valores del estimador presentan desviación baja es decir la variabilidad no es alta y se acercan al valor real, nos daria una buena aproximación.
H0: el porcentaje de plantas enfermas sigue una distribución normal.
H1: el porcentaje de plantas enfermas no sigue una distribución normal.
Nivel de significancia: 0.05 (Hipotético).
Gráficos Cuantil-Cuantil (Q-Q plots): Un gráfico Cuantil-Cuantil permite observar cuan cerca está la distribución de un conjunto de datos a alguna distribución ideal
posibles_p_gorro=sapply(rep(5,500), calc_p_gorro)
require(car)
## Loading required package: car
## Loading required package: carData
par(mfrow=c(1,3))
hist(posibles_p_gorro, xlab = "Porcentaje de plantas enfermas", ylab = "Frecuencia", las=1, main = "", col = "gray")
plot(density(posibles_p_gorro), xlab = "Porcentaje de plantas enfermas", ylab = "Densidad", las=1, main = "")
qqPlot(posibles_p_gorro, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales", las=1,main="")
## [1] 15 119
Graficamente se puede ver que se rechaza la hipotesis nula, la grafica q-q no sigue el comportamiento de una distribución normal ideal, no sigue la linea de referencia.
Valor medio y desviación estandar
mean(posibles_p_gorro)
## [1] 0.4872
sd(posibles_p_gorro)
## [1] 0.2238221
Si bien se acerca el valor medio a 0,5 que es el valor real la desviación estandar de los datos es muy alta, lo cual refuerza el rechazo de la hipotesis nula.
shapiro.test(posibles_p_gorro)
##
## Shapiro-Wilk normality test
##
## data: posibles_p_gorro
## W = 0.92495, p-value = 4.205e-15
La hipotesis nula es que se asemejan a una distribución normal, con un nivel de certeza de 0.95, es decir el margen de error es de 0.05, se puede ver que el p value es menor a este, por lo tanto se rechaza la hipotesis de que se asemeja a una función normal
posibles_p_gorro=sapply(rep(10,500), calc_p_gorro)
require(car)
par(mfrow=c(1,3))
hist(posibles_p_gorro, xlab = "Porcentaje de plantas enfermas", ylab = "Frecuencia", las=1, main = "", col = "gray")
plot(density(posibles_p_gorro), xlab = "Porcentaje de plantas enfermas", ylab = "Densidad", las=1, main = "")
qqPlot(posibles_p_gorro, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales", las=1,main="")
## [1] 46 193
Graficamente se puede ver que se rechaza la hipotesis nula, la grafica q-q no sigue el comportamiento de una distribución normal ideal, no sigue la linea de referencia.
Valor medio y desviación estandar
mean(posibles_p_gorro)
## [1] 0.506
sd(posibles_p_gorro)
## [1] 0.1594203
Si bien se acerca el valor medio a 0,5 que es el valor real la desviación estandar de los datos es muy alta, lo cual refuerza el rechazo de la hipotesis nula.
shapiro.test(posibles_p_gorro)
##
## Shapiro-Wilk normality test
##
## data: posibles_p_gorro
## W = 0.96442, p-value = 1.21e-09
Comportamiento similar al escenario anterior, se rechaza la hipotesis nula, con el test shapiro
## [1] 34 314
Graficamente se puede ver que se rechaza la hipotesis nula, la grafica q-q no sigue el comportamiento de una distribución normal ideal, no sigue la linea de referencia.
Valor medio y desviación estandar
## [1] 0.5004
## [1] 0.1297783
##
## Shapiro-Wilk normality test
##
## data: posibles_p_gorro
## W = 0.97435, p-value = 1.108e-07
omportamiento similar al escenario anterior, se rechaza la hipotesis nula, con el test shapiro
## [1] 178 291
Graficamente se puede ver que se rechaza la hipotesis nula, la grafica q-q no sigue el comportamiento de una distribución normal ideal, no sigue la linea de referencia
Valor medio y desviación estandar
## [1] 0.4997
## [1] 0.1103143
Si bien se acerca el valor medio a 0,5 que es el valor real la desviación estandar de los datos es muy alta, lo cual refuerza el rechazo de la hipotesis nula. Cade vez que se aumenta el tamaño de la muestra se disminuye la desviación estandar.
posibles_p_gorro=sapply(rep(30,500), calc_p_gorro)
require(car)
par(mfrow=c(1,3))
hist(posibles_p_gorro, xlab = "Porcentaje de plantas enfermas", ylab = "Frecuencia", las=1, main = "", col = "gray")
plot(density(posibles_p_gorro), xlab = "Porcentaje de plantas enfermas", ylab = "Densidad", las=1, main = "")
qqPlot(posibles_p_gorro, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales", las=1,main="")
## [1] 127 290
Graficamente se puede ver que se rechaza la hipotesis nula, la grafica q-q no sigue el comportamiento de una distribución normal ideal, no sigue la linea de referencia
##
## Shapiro-Wilk normality test
##
## data: posibles_p_gorro
## W = 0.98658, p-value = 0.0001451
omportamiento similar al escenario anterior, se rechaza la hipotesis nula, con el test shapiro
## [1] 177 208
Graficamente se puede ver que se rechaza la hipotesis nula, la grafica q-q no sigue el comportamiento de una distribución normal ideal, no sigue la linea de referencia
##
## Shapiro-Wilk normality test
##
## data: posibles_p_gorro
## W = 0.98745, p-value = 0.0002673
omportamiento similar al escenario anterior, se rechaza la hipotesis nula, con el test shapiro
## [1] 68 373
Graficamente se puede ver que se rechaza la hipotesis nula, la grafica q-q no sigue el comportamiento de una distribución normal ideal, no sigue la linea de referencia
##
## Shapiro-Wilk normality test
##
## data: posibles_p_gorro
## W = 0.99324, p-value = 0.02423
Comportamiento similar al escenario anterior, se rechaza la hipotesis nula, con el test shapiro. Aunque cada vez que aumentamos el tamaño de la muestra nos acercamos a que sea superior a nuestro margen de error de 0,05, par poder aceptar la hipotesis.
## [1] 383 441
Graficamente se puede ver que NO SE RECHAZA la hipotesis nula, la grafica q-q sigue el comportamiento de una distribución normal ideal, no sigue la linea de referencia
##
## Shapiro-Wilk normality test
##
## data: posibles_p_gorro
## W = 0.99353, p-value = 0.03077
En esta ocasión pero el método de Shapiro podemos ver que el p Value es mayor a 0,05, por lo tanto NO PODEMOS rechazar la hipotesis nula que la población de plantas enfermas sigue una distribución normal.
## [1] 428 42
Graficamente se puede ver que NO SE RECHAZA la hipotesis nula, la grafica q-q sigue el comportamiento de una distribución normal ideal, no sigue la linea de referencia
##
## Shapiro-Wilk normality test
##
## data: posibles_p_gorro
## W = 0.99522, p-value = 0.1265
En esta ocasión por el método de Shapiro podemos ver que el p Value es mayor a 0,05, por lo tanto NO PODEMOS rechazar la hipotesis nula que la población de plantas enfermas sigue una distribución normal.
Para un tamaño de muestras n=500 y n=200 tanto gráficamente como numéricamente se puede llegar a comprobar que el porcentaje de plantas enfermas sigue el comportamiento de una distribución normal.
Vemos como coincide también con un valor medio cercanos al valor real y una deviación estándar menor.
## [1] 0.50022
## [1] 0.01612401
##Lote 10 % Enfermas
lote=c(rep("enfermo",100),rep("sana",900))
calc_p_gorro=function(n){
muestra=sample(lote,size = n)
# porcentaje de plantas enfermas
p_gorro=sum(muestra=="enfermo")/n
return(p_gorro)
}
H0: el porcentaje de plantas enfermas sigue una distribución normal.
H1: el porcentaje de plantas enfermas no sigue una distribución normal.
Nivel de significancia: 0.05 (Hipotético).
posibles_p_gorro=sapply(rep(10,500), calc_p_gorro)
require(car)
par(mfrow=c(1,3))
hist(posibles_p_gorro, xlab = "Porcentaje de plantas enfermas", ylab = "Frecuencia", las=1, main = "", col = "gray")
plot(density(posibles_p_gorro), xlab = "Porcentaje de plantas enfermas", ylab = "Densidad", las=1, main = "")
qqPlot(posibles_p_gorro, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales", las=1,main="")
## [1] 327 498
Graficamente se puede ver que SE RECHAZA la hipotesis nula, la grafica q-q no sigue el comportamiento de una distribución normal ideal, no sigue la linea de referencia. Incluso para el mismo tamaño de muestra la desciación a una distribución normal es mucho mayor que cuando la proporción de enfermas era del 50%.
##
## Shapiro-Wilk normality test
##
## data: posibles_p_gorro
## W = 0.8279, p-value < 2.2e-16
La hipotesis nula es que se asemejan a una distribución normal, con un nivel de certeza de 0.95, es decir el margen de error es de 0.05, se puede ver que el p value es menor a este, por lo tanto se rechaza la hipotesis de que se asemeja a una función normal
## [1] 82 434
Graficamente se puede ver que SE RECHAZA la hipotesis nula, la grafica q-q no sigue el comportamiento de una distribución normal ideal, no sigue la linea de referencia. Incluso para el mismo tamaño de muestra la desciación a una distribución normal es mucho mayor que cuando la proporción de enfermas era del 50%.
##
## Shapiro-Wilk normality test
##
## data: posibles_p_gorro
## W = 0.89337, p-value < 2.2e-16
dado el valor p, se rechaza la hipotesis nula, en mucho menor a 0.05
posibles_p_gorro=sapply(rep(20,500), calc_p_gorro)
require(car)
par(mfrow=c(1,3))
hist(posibles_p_gorro, xlab = "Porcentaje de plantas enfermas", ylab = "Frecuencia", las=1, main = "", col = "gray")
plot(density(posibles_p_gorro), xlab = "Porcentaje de plantas enfermas", ylab = "Densidad", las=1, main = "")
qqPlot(posibles_p_gorro, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales", las=1,main="")
## [1] 29 84
Graficamente se puede ver que SE RECHAZA la hipotesis nula, la grafica q-q no sigue el comportamiento de una distribución normal ideal, no sigue la linea de referencia. Incluso para el mismo tamaño de muestra la desciación a una distribución normal es mucho mayor que cuando la proporción de enfermas era del 50%.
##
## Shapiro-Wilk normality test
##
## data: posibles_p_gorro
## W = 0.93502, p-value = 6.087e-14
La hipotesis nula es que se asemejan a una distribución normal, con un nivel de certeza de 0.95, es decir el margen de error es de 0.05, se puede ver que el p value es menor a este, por lo tanto se rechaza la hipotesis de que se asemeja a una función normal
## [1] 458 90
Graficamente se puede ver que SE RECHAZA la hipotesis nula, la grafica q-q no sigue el comportamiento de una distribución normal ideal, no sigue la linea de referencia. Incluso para el mismo tamaño de muestra la desciación a una distribución normal es mucho mayor que cuando la proporción de enfermas era del 50%.
##
## Shapiro-Wilk normality test
##
## data: posibles_p_gorro
## W = 0.94787, p-value = 2.889e-12
dado el valor p, se rechaza la hipotesis nula, en mucho menor a 0.05
## [1] 223 44
Graficamente se puede ver que SE RECHAZA la hipotesis nula, la grafica q-q no sigue el comportamiento de una distribución normal ideal, no sigue la linea de referencia. Incluso para el mismo tamaño de muestra la desciación a una distribución normal es mucho mayor que cuando la proporción de enfermas era del 50%.
##
## Shapiro-Wilk normality test
##
## data: posibles_p_gorro
## W = 0.97432, p-value = 1.088e-07
dado el valor p, se rechaza la hipotesis nula, en mucho menor a 0.05
## [1] 28 204
Graficamente se puede ver que SE RECHAZA la hipotesis nula, la grafica q-q no sigue el comportamiento de una distribución normal ideal, no sigue la linea de referencia. Incluso para el mismo tamaño de muestra la desciación a una distribución normal es mucho mayor que cuando la proporción de enfermas era del 50%.
##
## Shapiro-Wilk normality test
##
## data: posibles_p_gorro
## W = 0.97752, p-value = 5.782e-07
dado el valor p, se rechaza la hipotesis nula, en mucho menor a 0.05
## [1] 366 50
Graficamente se puede ver que SE RECHAZA la hipotesis nula, la grafica q-q no sigue el comportamiento de una distribución normal ideal, no sigue la linea de referencia. Incluso para el mismo tamaño de muestra la desciación a una distribución normal es mucho mayor que cuando la proporción de enfermas era del 50%.
##
## Shapiro-Wilk normality test
##
## data: posibles_p_gorro
## W = 0.97534, p-value = 1.833e-07
dado el valor p, se rechaza la hipotesis nula, en mucho menor a 0.05
## [1] 210 335
Graficamente se puede ver que SE RECHAZA la hipotesis nula, la grafica q-q no sigue el comportamiento de una distribución normal ideal, no sigue la linea de referencia. Incluso para el mismo tamaño de muestra la desciación a una distribución normal es mucho mayor que cuando la proporción de enfermas era del 50%.
##
## Shapiro-Wilk normality test
##
## data: posibles_p_gorro
## W = 0.98306, p-value = 1.435e-05
dado el valor p, se rechaza la hipotesis nula, en mucho menor a 0.05
## [1] 169 435
Graficamente se puede ver que SE RECHAZA la hipotesis nula, la grafica q-q no sigue el comportamiento de una distribución normal ideal, no sigue la linea de referencia. Incluso para el mismo tamaño de muestra la desciación a una distribución normal es mucho mayor que cuando la proporción de enfermas era del 50%.
##
## Shapiro-Wilk normality test
##
## data: posibles_p_gorro
## W = 0.99191, p-value = 0.008047
dado el valor p, se rechaza la hipotesis nula, en mucho menor a 0.05.
Lo interesante es que en el caso en que la proporción enfermos-sanos era 50%-50%, para una muestra n=200 nos dio como resultado que no se rechazaba la hipotesis, pero cuando la proporción de enfermos es menor 10%, para el mismo tamaño de muesra se rechaza la hipotesis. Lo que se puede concluir es que cuando la proporción que estamos buscando caracterizar es muy pequeña en la población requeriremos tamaños mayores de muestras para poder tener una caracterización adecuada.
## [1] 488 366
Graficamente se puede ver que SE RECHAZA la hipotesis nula, la grafica q-q no sigue el comportamiento de una distribución normal ideal, sigue la linea de referencia.
##
## Shapiro-Wilk normality test
##
## data: posibles_p_gorro
## W = 0.99434, p-value = 0.06067
Se rechaza la hipotesis nula,esto nos permite concluir que para tener una caracterización adecuada cuando la proporción de plantas enfermas es pequeña, requeriremos muestras cada vez mas grandes.
##Lote 90 % Enfermas
lote=c(rep("enfermo",900),rep("sana",100))
calc_p_gorro=function(n){
muestra=sample(lote,size = n)
# porcentaje de plantas enfermas
p_gorro=sum(muestra=="enfermo")/n
return(p_gorro)
}
H0: el porcentaje de plantas enfermas sigue una distribución normal.
H1: el porcentaje de plantas enfermas no sigue una distribución normal.
Nivel de significancia: 0.05 (Hipotético).
## [1] 172 161
Graficamente se puede ver que SE RECHAZA la hipotesis nula, la grafica q-q no sigue el comportamiento de una distribución normal ideal, no sigue la linea de referencia.
##
## Shapiro-Wilk normality test
##
## data: posibles_p_gorro
## W = 0.83791, p-value < 2.2e-16
La hipotesis nula es que se asemejan a una distribución normal, con un nivel de certeza de 0.95, es decir el margen de error es de 0.05, se puede ver que el p value es menor a este, por lo tanto se rechaza la hipotesis de que se asemeja a una función normal
## [1] 242 345
Graficamente se puede ver que SE RECHAZA la hipotesis nula, la grafica q-q no sigue el comportamiento de una distribución normal ideal, no sigue la linea de referencia.
shapiro.test(posibles_p_gorro)
##
## Shapiro-Wilk normality test
##
## data: posibles_p_gorro
## W = 0.90738, p-value < 2.2e-16
por el valor inferior a 0,05 de p, se rechaza la hipotesis.
## [1] 95 247
Graficamente se puede ver que SE RECHAZA la hipotesis nula, la grafica q-q no sigue el comportamiento de una distribución normal ideal, no sigue la linea de referencia.
shapiro.test(posibles_p_gorro)
##
## Shapiro-Wilk normality test
##
## data: posibles_p_gorro
## W = 0.9525, p-value = 1.354e-11
Se rechaza la hipotesis
## [1] 18 45
Graficamente se puede ver que SE RECHAZA la hipotesis nula, la grafica q-q no sigue el comportamiento de una distribución normal ideal, no sigue la linea de referencia.
shapiro.test(posibles_p_gorro)
##
## Shapiro-Wilk normality test
##
## data: posibles_p_gorro
## W = 0.97594, p-value = 2.492e-07
Se rechaza la hipotesis
## [1] 223 230
Graficamente se puede ver que SE RECHAZA la hipotesis nula, la grafica q-q no sigue el comportamiento de una distribución normal ideal, no sigue la linea de referencia.
shapiro.test(posibles_p_gorro)
##
## Shapiro-Wilk normality test
##
## data: posibles_p_gorro
## W = 0.98657, p-value = 0.0001444
Se rechaza la hipotesis
## [1] 32 206
Graficamente se puede ver que SE RECHAZA la hipotesis nula, la grafica q-q no sigue el comportamiento de una distribución normal ideal, no sigue la linea de referencia.
shapiro.test(posibles_p_gorro)
##
## Shapiro-Wilk normality test
##
## data: posibles_p_gorro
## W = 0.98563, p-value = 7.609e-05
Se rechaza la hipotesis
## [1] 133 13
Graficamente se puede ver que NO SE RECHAZA la hipotesis nula, la grafica q-q sigue el comportamiento de una distribución normal ideal, no sigue la linea de referencia.
shapiro.test(posibles_p_gorro)
##
## Shapiro-Wilk normality test
##
## data: posibles_p_gorro
## W = 0.99128, p-value = 0.004842
Pero númericamente SE RECHAZA la hipotesis, se puede ver que en los casos extremos donde las proporciones estan muy desvalanceadas caso (10% enfermas y 90% enfermas), se requiere muestras mas grande para poder obtener una caracterización adecuada.
tiempo de aplicación (es decir, si se presentan o no diferencias en las proporciones de enfermos P1 y P2). Realice una simulación en la cual genere dos poblaciones de N1=1000 (Lote1) y N2=1500 (Lote2), además asuma que el porcentaje de individuos (plantas) enfermas en ambos lotes sea la misma 10% (es decir, sin diferencias entre los tratamientos).
#Lote de población N1 y N2
loteN1 = c(rep("Enfermo", 100), rep("Sana",900))
loteN2 = c(rep("Enfermo", 150), rep("Sana",1350))
##Generar muestras de lote1 (n1) y lote 2 (n2)
calc_dif_p=function(n1){
n2=n1
muestra1=sample(loteN1,n1)
p1=sum(muestra1=="Enfermo")/n1
muestra2=sample(loteN2,n2)
p2=sum(muestra2=="Enfermo")/n2
dif_p=p1-p2
return(dif_p)
}
ejemplo:
calc_dif_p(n1=100)
## [1] -0.04
## para una tamaño de muestra n1=n2=300
dif_p=sapply(rep(300,500), calc_dif_p)
table(dif_p==0)
##
## FALSE TRUE
## 467 33
summary(dif_p)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.073333 -0.013333 0.003333 0.001687 0.016667 0.066667
hist(dif_p)
abline(v=mean(dif_p), col="red", lwd=3)
Cuando representamos una distribución podemos analizar su nivel de simetría: una distribución es simétrica si en relación a un valor central la distribución se distribuye un 50% a la derecha y otro 50% a la izquierda, presentando una forma similar a ambos lados del valor central.
Podemos decir que no es perfectamente simetrica dado que la media y mediana no tienen el mismo valor. Como se indica en la tabla y en la distribución las diferencias no siempre son cero, aunque la realidad de la población si lo es.
dif_p=sapply(rep(5,500), calc_dif_p)
table(dif_p==0)
##
## FALSE TRUE
## 256 244
require(car)
par(mfrow=c(1,3))
hist(dif_p, xlab = " diferencia Porcentaje % desempeño ", ylab = "Frecuencia", las=1, main = "", col = "gray")
abline(v=mean(dif_p), col="red", lwd=3)
plot(density(dif_p), xlab = " diferencia Porcentaje % desempeño ", ylab = "Densidad", las=1, main = "")
qqPlot(dif_p, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales", las=1,main="")
## [1] 286 15
evaluar normalidad
H0: la diferencias de los porcentajes de desempeño sigue una distribución normal
H1: la diferencias de los porcentajes de desempeño sigue una distribución normal
Nivel de significancia: 0.05 (Hipotético).
shapiro.test(dif_p)
##
## Shapiro-Wilk normality test
##
## data: dif_p
## W = 0.89167, p-value < 2.2e-16
dif_p=sapply(rep(10,500), calc_dif_p)
table(dif_p==0)
##
## FALSE TRUE
## 339 161
require(car)
par(mfrow=c(1,3))
hist(dif_p, xlab = " diferencia Porcentaje % desempeño ", ylab = "Frecuencia", las=1, main = "", col = "gray")
abline(v=mean(dif_p), col="red", lwd=3)
plot(density(dif_p), xlab = " diferencia Porcentaje % desempeño ", ylab = "Densidad", las=1, main = "")
qqPlot(dif_p, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales", las=1,main="")
## [1] 422 71
evaluar normalidad
H0: la diferencias de los porcentajes de desempeño sigue una distribución normal
H1: la diferencias de los porcentajes de desempeño sigue una distribución normal
Nivel de significancia: 0.05 (Hipotético).
shapiro.test(dif_p)
##
## Shapiro-Wilk normality test
##
## data: dif_p
## W = 0.94946, p-value = 4.847e-12
Se rechaza la hipotesis
dif_p=sapply(rep(15,500), calc_dif_p)
table(dif_p==0)
##
## FALSE TRUE
## 353 147
require(car)
par(mfrow=c(1,3))
hist(dif_p, xlab = " diferencia Porcentaje % desempeño ", ylab = "Frecuencia", las=1, main = "", col = "gray")
abline(v=mean(dif_p), col="red", lwd=3)
plot(density(dif_p), xlab = " diferencia Porcentaje % desempeño ", ylab = "Densidad", las=1, main = "")
qqPlot(dif_p, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales", las=1,main="")
## [1] 211 125
evaluar normalidad
H0: la diferencias de los porcentajes de desempeño sigue una distribución normal
H1: la diferencias de los porcentajes de desempeño sigue una distribución normal
Nivel de significancia: 0.05 (Hipotético).
shapiro.test(dif_p)
##
## Shapiro-Wilk normality test
##
## data: dif_p
## W = 0.96313, p-value = 7.113e-10
Se rechaza la hipotesis
##
## FALSE TRUE
## 400 100
## [1] 49 72
evaluar normalidad
H0: la diferencias de los porcentajes de desempeño sigue una distribución normal
H1: la diferencias de los porcentajes de desempeño sigue una distribución normal
Nivel de significancia: 0.05 (Hipotético).
##
## Shapiro-Wilk normality test
##
## data: dif_p
## W = 0.97545, p-value = 1.938e-07
Se rechaza la hipotesis
dif_p=sapply(rep(30,500), calc_dif_p)
table(dif_p==0)
##
## FALSE TRUE
## 402 98
require(car)
par(mfrow=c(1,3))
hist(dif_p, xlab = " diferencia Porcentaje % desempeño ", ylab = "Frecuencia", las=1, main = "", col = "gray")
abline(v=mean(dif_p), col="red", lwd=3)
plot(density(dif_p), xlab = " diferencia Porcentaje % desempeño ", ylab = "Densidad", las=1, main = "")
qqPlot(dif_p, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales", las=1,main="")
## [1] 226 356
evaluar normalidad
H0: la diferencias de los porcentajes de desempeño sigue una distribución normal
H1: la diferencias de los porcentajes de desempeño sigue una distribución normal
Nivel de significancia: 0.05 (Hipotético).
shapiro.test(dif_p)
##
## Shapiro-Wilk normality test
##
## data: dif_p
## W = 0.97893, p-value = 1.253e-06
Se rechaza la hipotesis
##
## FALSE TRUE
## 452 48
## [1] 196 145
evaluar normalidad
H0: la diferencias de los porcentajes de desempeño sigue una distribución normal
H1: la diferencias de los porcentajes de desempeño sigue una distribución normal
Nivel de significancia: 0.05 (Hipotético).
##
## Shapiro-Wilk normality test
##
## data: dif_p
## W = 0.9858, p-value = 8.528e-05
Se rechaza la hipotesis
Pero es claro que a medida que aumentamos el tamaño de la muestra nos acercamos a no rechazar la hipotesis.
##
## FALSE TRUE
## 457 43
## [1] 206 61
evaluar normalidad
H0: la diferencias de los porcentajes de desempeño sigue una distribución normal
H1: la diferencias de los porcentajes de desempeño sigue una distribución normal
Nivel de significancia: 0.05 (Hipotético).
##
## Shapiro-Wilk normality test
##
## data: dif_p
## W = 0.99279, p-value = 0.01665
Se rechaza la hipotesis
##
## FALSE TRUE
## 468 32
## [1] 234 122
Graficamente podriamos afirmar que sigue una distribución normal, y para muestras n1=n2 superiores a 200 se esta logrando simetria en los distribución con un margen de error pequeño.
evaluar normalidad
H0: la diferencias de los porcentajes de desempeño sigue una distribución normal
H1: la diferencias de los porcentajes de desempeño sigue una distribución normal
Nivel de significancia: 0.05 (Hipotético).
##
## Shapiro-Wilk normality test
##
## data: dif_p
## W = 0.99425, p-value = 0.05617
NO se rechaza la hipotesis
##
## FALSE TRUE
## 475 25
## [1] 441 56
Graficamente podriamos afirmar que sigue una distribución normal, y para muestras n1=n2 superiores a 200 se esta logrando simetria en los distribución con un margen de error pequeño.
evaluar normalidad
H0: la diferencias de los porcentajes de desempeño sigue una distribución normal
H1: la diferencias de los porcentajes de desempeño sigue una distribución normal
Nivel de significancia: 0.05 (Hipotético).
##
## Shapiro-Wilk normality test
##
## data: dif_p
## W = 0.99611, p-value = 0.2591
No se rechaza la hipotesis
##Conclusión
Se puede observar que a medida que aumentamos los tamaños de las muestras en las mismas proporción en las dos poblaciones de plantas con tratamientos, se mejora la simetría en los resultados, con una media muy ajustada a 0% que es la realidad, además los datos tienen poca dispersión lo cual nos da señales que para muestras mayores o iguales a 200 plantas podríamos lograr buena inferencia sobre la población.
#Lote de población N1 y N2
loteN1 = c(rep("Enfermo", 100), rep("Sana",900))
loteN2 = c(rep("Enfermo", 225), rep("Sana",1275))
##Generar muestras de lote1 (n1) y lote 2 (n2)
calc_dif_p=function(n1){
n2=n1
muestra1=sample(loteN1,n1)
p1=sum(muestra1=="Enfermo")/n1
muestra2=sample(loteN2,n2)
p2=sum(muestra2=="Enfermo")/n2
dif_p=p1-p2
return(dif_p)
}
dif_p=sapply(rep(15,500), calc_dif_p)
table(dif_p==0)
##
## FALSE TRUE
## 403 97
require(car)
par(mfrow=c(1,3))
hist(dif_p, xlab = " diferencia Porcentaje % desempeño ", ylab = "Frecuencia", las=1, main = "", col = "gray")
abline(v=mean(dif_p), col="red", lwd=3)
plot(density(dif_p), xlab = " diferencia Porcentaje % desempeño ", ylab = "Densidad", las=1, main = "")
qqPlot(dif_p, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales", las=1,main="")
## [1] 45 244
##
## Shapiro-Wilk normality test
##
## data: dif_p
## W = 0.97011, p-value = 1.446e-08
Se rechaza la hipotesis graficamente y númericamente.
##
## FALSE TRUE
## 439 61
## [1] 114 206
##
## Shapiro-Wilk normality test
##
## data: dif_p
## W = 0.98696, p-value = 0.00019
Se rechaza la hipotesis graficamente y númericamente.
##
## FALSE TRUE
## 451 49
## [1] 94 268
##
## Shapiro-Wilk normality test
##
## data: dif_p
## W = 0.98677, p-value = 0.0001666
Se rechaza la hipotesis graficamente y númericamente.
##
## FALSE TRUE
## 478 22
## [1] 412 279
##
## Shapiro-Wilk normality test
##
## data: dif_p
## W = 0.99241, p-value = 0.01209
Se rechaza la hipotesis graficamente y númericamente.
##
## FALSE TRUE
## 494 6
## [1] 381 336
##
## Shapiro-Wilk normality test
##
## data: dif_p
## W = 0.99394, p-value = 0.04333
Se rechaza la hipotesis graficamente y númericamente.
##
## FALSE
## 500
## [1] 106 160
##
## Shapiro-Wilk normality test
##
## data: dif_p
## W = 0.99639, p-value = 0.3194
Se rechaza la hipotesis graficamente y númericamente.
Cuando se presenta diferencia en las proporciones de efectividad de los tratamientos en cada población, requerimos muestras mas grandes para lograr una inferencia mejor, para el caso de proporciones 10% -15 %, requeriamos muestras mayores a 500 plantas, caso diferente cuando la proporciones eran iguales 10%-10% donde era suficiente desde una muestra mayor a 200 plantas.
Resumen: Matt Motyl un estudiante de doctorado dentro de su investigación planteo que los políticos de izquierda o de derecha tienden a ser extremistas y ver el mundo en tonos de negro o blanco, al contrario, los de centro tienen den a ver o analizar el mundo en tonos grises, su estudio se baso en los resultados de 2000 personas. Su hipotesis tomaba fuerza pues los estudios numéricos del valor p eran 0.01, lo cual se considera muy significativo. Lo curioso es que el estudio se repitió con información extra y el valor P resulto ser de 0,59, lejos del valor de significancia [1]. ¿qué sucedió? ¿cambio la situación analizada? ¿fueron manipulados mal los datos? Lo cierto es que no tiene que ver con los datos o con el análisis matemático. Es la interpretación que se le da al valor P como certero e incuestionable.
La verdad es que la hipotesis de Motyl sobre los políticos de izquierda o derecha, nos aplica a todos, cuando las personas buscamos respuestas a algo, queremos respuestas del tipo (SI, NO), (Se rechaza, no se rechaza), (Pertences , no pertenece) y así muchos ejemplos en diferentes contextos donde buscamos respuestas, buscamos un indicador mágico que nos ayude a dar claridad de los problemas con respuestas binarias, no nos gusta los matices. En esto radica la tergiversación que se le ha dado al valor P como el “estándar de oro” en la valides estadística. En parte como se indica en [1], el valor P a tenido muchas criticas y se le considera como los mosquitos molestos e imposibles de aplastar, considero en parte por la tendencia de las personas a buscar indicadores incuestionables y sin matices.
Cuando el estadístico británico Ronald Fisher introdujo el valor P en la década de 1920, no pretendía que fuera una prueba definitiva. Lo pensó simplemente como una forma informal de juzgar si la evidencia era significativa pero sujeto a revisión que involucra combinación de datos y conocimiento previo, para finalmente si llegar a una conclusión científica. En muchos estudios científicos se ha utilizado únicamente el valor P para validar hipotesis, lo cual esta causando que muchos estudios e inferencias realizadas requieran ser revaluadas. No es sorpresa que la la Asociación Estadounidense de Estadística (ASA, por sus siglas en inglés) aconseja a los investigadores que eviten sacar conclusiones científicas o tomar decisiones políticas basándose únicamente en los valores P [2]. Retomando el ejemplo de Motyl cuando obtuvo el resultado de P igual a 0,01 no significaba que pudiera un 1% de probabilidad de que su resultado fuera una falsa alarma, El valor P no puede decir esto: todo lo que puede hacer es resumir los datos asumiendo una hipótesis nula específica, no puede hacer afirmaciones sobre la realidad.
Considero que es importante tener conciencia del contexto de donde se toman los datos, realizar exploración de datos y evaluar que tan plausible es la hipotesis que voy a validar, el valor P no nos dará la plausibilidad de la hipotesis. Una buena exploración de datos, conocimiento del contexto y una hipotesis plausible nos darán buenos resultados de inferencia cuando utilizamos el valor P para validar nuestra hipotesis. Lo que en realidad obtuvo Motyl con su valor de P de 0,01 es que tenia un chance de tener hasta un 11% de falsos positivos, eso asumiendo que efectivamente su hipotesis tenía un efecto real.
La conciencia sobre utilizar el valor P como única herramienta de validación de hipotesis viene creciendo, aunque no al ritmo deseado, en parte por la cultura arraigada de los científicos de buscar respuestas con un solo indicador, en parte influye como se viene enseñando estadística, seguramente con el interés cada vez mas grande en explorar información oculta en gran cantidad de datos, con las diferentes herramientas que nos pone al servicio la ciencia de datos, se logrará el objetivo de transformar el valor de P como la única herramienta de valoración de valides.
Referencias: [1] “Statistical Errors: P values, the gold standard of statistical validity, are not as reliable as many scientists assume” [2] “Statisticians issue warning on P values: Statement aims to halt missteps in the quest for certainty”