Inferencia estadística y simulación
El Teorema del Límite Central es uno de los más importantes en la inferencia estadística y habla sobre la convergencia de los estimadores como la proporción muestral a la distribución normal. Algunos autores afirman que esta aproximación es bastante buena a partir del umbral n>30.
a. Realice una simulación en la cual genere una población de N=1000 (Lote) y además que el porcentaje de individuos (plantas) enfermas sea del 50%.
Se genera una tabla de 1 y 0, donde los 1 representan las plantas enfermas
knitr::opts_chunk$set(warning = TRUE, message = TRUE)
pob=c(rep(x = 1,500),rep(x = 0,500))
b. Genere una función que permita obtener una muestra aleatoria de la población y calcule el estimador de la proporción muestral para un tamaño de muestra dado n.
Muestra_plantas_enfermas=function(n_muestra){
pob=c(rep(x = 1,500),rep(x = 0,500))
return(sum(sample(pob,size = n_muestra))/n_muestra)
}
Muestra_plantas_enfermas(n_muestra = 100)
## [1] 0.48
c. Repita el escenario anterior 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores. ¿Qué tan simétricos son los datos?, ¿Son sesgados y qué pasa en cuanto a variabilidad?
En el histograma se observa simetría, lo cual se confirma con los resultados de la mediana y la media. si bien se observa esta simetria, se encuentra una variabilidad de al menos (+-) 15% donde incluso hacia el lado izquierdo puede tener hasta un 20%.
require(moments)
## Loading required package: moments
Muestra_plantas_enfermas(n_muestra = 200)
## [1] 0.505
simulacion_muestra1=sapply(rep(100,500), Muestra_plantas_enfermas)
summary(simulacion_muestra1)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.3400 0.4700 0.5000 0.5009 0.5300 0.6300
var(simulacion_muestra1)
## [1] 0.002151293
skewness(simulacion_muestra1)
## [1] -0.01877324
kurtosis(simulacion_muestra1)
## [1] 2.985311
hist(simulacion_muestra1)
abline(v=0.5,col="red",lwd=5)
d. Realice los ejercicios completos b y c para tamaños de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores en cuanto a la normalidad. Investigue y utilice pruebas de bondad y ajuste (shapiro wilks) y métodos gráficos (grafico qq de normalidad).
la simulación realizada con diferentes tamaños de muestra indica que los tamaños de muestra menores tiene una mayor dispersión de los datos, mayores diferencias entre la media y mediana. Una vez se aplica el test de shapiro wilks solo las muestras de tamaño de 200 y 500 tienen un valor p superior a 0.05, lo cual indica que tienen una distribución normal. Los gráficos qq generados indicarían que ninguna tiene una distribución normal, lo cual puede estar afectado por el tamaño de las muestras y que el test espera que los valores sean continuos lo cual no sucede en los conjuntos generados.
## [1] 0.5
## [1] 0.4 0.4 0.4 0.6 0.6 0.2 0.2 0.4 0.6 0.2 0.2 0.4 0.4 0.4 0.6 0.4 0.6 0.8
## [19] 0.4 0.4 0.8 0.4 0.6 0.2 0.4 0.4 0.8 0.6 0.6 0.4 0.6 0.4 0.2 0.6 0.6 0.6
## [37] 0.2 0.4 0.6 0.2 0.6 0.8 0.6 0.6 0.4 0.2 0.6 0.4 0.4 0.2 0.2 0.2 0.6 0.4
## [55] 0.4 0.4 0.2 0.8 0.2 1.0 0.6 0.4 0.4 0.2 0.8 0.6 0.2 0.6 0.8 0.6 0.4 0.6
## [73] 0.4 0.6 0.6 0.6 0.4 0.6 0.4 0.2 0.6 0.2 0.6 0.4 0.6 0.4 0.6 0.2 0.8 0.4
## [91] 0.4 0.8 0.6 1.0 0.0 0.6 0.8 0.8 0.4 0.2 0.2 0.2 0.8 0.6 0.4 0.6 0.6 0.6
## [109] 0.4 0.4 0.8 0.4 0.6 0.4 0.4 0.6 0.6 0.6 0.6 0.6 0.0 0.2 0.4 0.8 0.0 0.2
## [127] 0.8 0.6 0.6 0.8 0.6 0.6 0.8 1.0 0.6 0.8 0.2 0.0 0.8 0.8 0.2 0.6 0.0 0.8
## [145] 0.4 0.2 0.4 0.4 0.6 0.4 0.4 1.0 0.6 0.6 0.4 0.8 0.4 0.6 0.0 0.6 0.6 0.6
## [163] 0.2 0.2 0.4 0.4 0.4 0.8 0.6 0.4 0.8 1.0 0.4 0.6 0.6 0.8 0.6 0.4 0.8 0.6
## [181] 0.2 0.4 0.8 0.6 0.2 0.6 0.6 0.4 0.8 0.4 0.6 0.6 0.4 0.8 0.2 0.6 0.4 0.0
## [199] 0.6 1.0 0.4 0.4 0.2 0.6 0.0 0.8 0.8 0.2 0.4 0.6 0.4 0.6 0.4 0.4 0.2 0.6
## [217] 0.6 0.2 0.2 0.2 0.4 0.6 0.6 0.8 0.4 0.6 0.6 0.6 0.2 0.0 0.6 0.6 0.4 0.6
## [235] 0.4 0.6 0.4 0.6 0.6 0.4 0.2 0.6 0.8 0.4 0.6 0.2 0.2 0.6 0.2 1.0 0.6 0.4
## [253] 0.6 0.4 0.4 0.2 0.4 0.2 0.4 0.8 0.4 0.4 0.6 0.8 0.4 0.4 0.2 0.4 0.2 0.4
## [271] 0.6 0.6 0.2 0.8 0.8 0.2 0.4 0.6 0.4 0.6 0.6 0.6 0.4 0.4 0.8 0.4 0.4 0.8
## [289] 0.4 0.6 0.4 0.6 0.8 0.4 0.4 0.6 0.2 0.6 0.8 0.4 0.2 0.6 1.0 1.0 0.6 0.4
## [307] 0.6 0.4 0.4 0.6 0.2 0.4 0.2 0.4 0.2 0.6 0.6 0.4 0.4 0.6 0.4 0.4 0.6 0.6
## [325] 0.2 0.4 0.4 0.6 0.4 0.6 0.6 0.4 0.8 0.4 0.2 0.6 0.4 0.6 0.6 0.4 0.8 0.6
## [343] 0.6 0.6 0.2 0.6 0.4 0.2 0.8 0.2 0.4 0.8 0.6 0.4 0.4 0.6 0.0 0.4 0.4 0.2
## [361] 0.8 0.8 0.4 0.8 0.6 0.2 0.8 0.4 0.2 0.4 0.0 0.4 0.6 0.4 0.6 0.2 0.6 0.8
## [379] 0.4 0.6 0.2 0.2 0.6 0.4 0.4 0.0 0.8 0.8 0.2 0.6 0.8 0.6 0.2 0.6 0.4 0.2
## [397] 0.8 0.8 0.2 0.6 0.6 0.6 0.4 0.2 0.6 0.8 0.4 0.6 0.2 0.2 0.6 0.4 0.8 0.8
## [415] 0.6 0.4 0.2 0.6 0.4 0.6 0.4 0.6 0.6 0.6 0.6 0.2 1.0 0.6 0.8 0.4 0.6 0.4
## [433] 0.4 0.6 0.6 0.2 0.2 0.4 0.4 0.2 0.2 0.6 0.6 0.6 0.4 0.6 0.6 0.6 0.6 0.6
## [451] 0.4 0.2 0.4 0.4 0.8 0.6 0.4 0.2 0.8 0.4 0.6 0.4 0.4 0.6 0.6 1.0 0.6 0.6
## [469] 0.4 0.4 0.4 0.6 1.0 0.6 0.6 0.4 0.2 0.4 0.2 0.6 0.2 0.6 0.4 0.6 0.2 0.2
## [487] 0.8 0.6 0.8 0.4 0.8 0.6 0.6 0.2 0.2 0.2 1.0 0.6 0.8 0.2
## simulacion_muestra1 simulacion_muestra2 simulacion_muestra3
## Min. :0.0000 Min. :0.1000 Min. :0.1333
## 1st Qu.:0.4000 1st Qu.:0.4000 1st Qu.:0.4000
## Median :0.4000 Median :0.5000 Median :0.5333
## Mean :0.4908 Mean :0.5022 Mean :0.4957
## 3rd Qu.:0.6000 3rd Qu.:0.6000 3rd Qu.:0.6000
## Max. :1.0000 Max. :0.9000 Max. :0.9333
## simulacion_muestra4 simulacion_muestra5 simulacion_muestra6
## Min. :0.1500 Min. :0.2667 Min. :0.2200
## 1st Qu.:0.4500 1st Qu.:0.4333 1st Qu.:0.4600
## Median :0.5000 Median :0.5000 Median :0.5000
## Mean :0.5009 Mean :0.5018 Mean :0.4968
## 3rd Qu.:0.5500 3rd Qu.:0.5667 3rd Qu.:0.5400
## Max. :0.8000 Max. :0.7333 Max. :0.7000
## simulacion_muestra7 simulacion_muestra8 simulacion_muestra9
## Min. :0.3333 Min. :0.3400 Min. :0.4050
## 1st Qu.:0.4500 1st Qu.:0.4600 1st Qu.:0.4800
## Median :0.5000 Median :0.5000 Median :0.5000
## Mean :0.4999 Mean :0.4976 Mean :0.5024
## 3rd Qu.:0.5333 3rd Qu.:0.5300 3rd Qu.:0.5250
## Max. :0.6667 Max. :0.6500 Max. :0.5950
## simulacion_muestra10
## Min. :0.4380
## 1st Qu.:0.4900
## Median :0.5000
## Mean :0.4995
## 3rd Qu.:0.5100
## Max. :0.5420
##
## Shapiro-Wilk normality test
##
## data: simulacion_muestra1
## W = 0.92337, p-value = 2.827e-15
##
## Shapiro-Wilk normality test
##
## data: simulacion_muestra2
## W = 0.96206, p-value = 4.639e-10
##
## Shapiro-Wilk normality test
##
## data: simulacion_muestra3
## W = 0.97415, p-value = 1.001e-07
##
## Shapiro-Wilk normality test
##
## data: simulacion_muestra4
## W = 0.98064, p-value = 3.33e-06
##
## Shapiro-Wilk normality test
##
## data: simulacion_muestra5
## W = 0.9802, p-value = 2.584e-06
##
## Shapiro-Wilk normality test
##
## data: simulacion_muestra6
## W = 0.98752, p-value = 0.0002812
##
## Shapiro-Wilk normality test
##
## data: simulacion_muestra7
## W = 0.9891, p-value = 0.0008969
##
## Shapiro-Wilk normality test
##
## data: simulacion_muestra8
## W = 0.99421, p-value = 0.05447
##
## Shapiro-Wilk normality test
##
## data: simulacion_muestra9
## W = 0.99509, p-value = 0.1138
##
## Shapiro-Wilk normality test
##
## data: simulacion_muestra10
## W = 0.99482, p-value = 0.09112
e. Repita toda la simulación (puntos a – d) pero ahora con lotes con 10% y 90% de plantas enfermas. Concluya todo el ejercicio.
Ambas simulaciones demuestran la importancia del tamaño de la muestra, mayores tamaños tienen resultados donde hay una mayor confluencia entre la media y la mediana, reducción de la variabilidad. Solo los mayores tamaños de muestra pasan el test de normalidad de shapiro, lo cual confirma los resultados anteriormente mencionados.
Muestra_plantas_enfermas2=function(n_muestra){
pob=c(rep(x = 1,900),rep(x = 0,100))
return(sum(sample(pob,size = n_muestra))/n_muestra)
}
Muestra_plantas_enfermas2(n_muestra = 100)
## [1] 0.89
simulacion_muestra_e=sapply(rep(500,100), Muestra_plantas_enfermas2)
summary(simulacion_muestra_e)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.8780 0.8940 0.9000 0.9002 0.9060 0.9240
skewness(simulacion_muestra_e)
## [1] 0.1613152
kurtosis(simulacion_muestra_e)
## [1] 3.091437
hist(simulacion_muestra_e)
abline(v=0.9,col="red",lwd=5)
##Simular el ejercicio con diferentes tamaños de muestra##
simulacion_muestrae1=sapply(rep(5,500), Muestra_plantas_enfermas2)
simulacion_muestrae2=sapply(rep(10,500), Muestra_plantas_enfermas2)
simulacion_muestrae3=sapply(rep(15,500), Muestra_plantas_enfermas2)
simulacion_muestrae4=sapply(rep(20,500), Muestra_plantas_enfermas2)
simulacion_muestrae5=sapply(rep(30,500), Muestra_plantas_enfermas2)
simulacion_muestrae6=sapply(rep(50,500), Muestra_plantas_enfermas2)
simulacion_muestrae7=sapply(rep(60,500), Muestra_plantas_enfermas2)
simulacion_muestrae8=sapply(rep(100,500), Muestra_plantas_enfermas2)
simulacion_muestrae9=sapply(rep(200,500), Muestra_plantas_enfermas2)
simulacion_muestrae10=sapply(rep(500,500), Muestra_plantas_enfermas2)
Tabla_simulaciones_e=data.frame(simulacion_muestrae1,simulacion_muestrae2,simulacion_muestrae3,simulacion_muestrae4,simulacion_muestrae5,simulacion_muestrae6,simulacion_muestrae7,simulacion_muestrae8,simulacion_muestrae9,simulacion_muestrae10)
summary(Tabla_simulaciones_e)
## simulacion_muestrae1 simulacion_muestrae2 simulacion_muestrae3
## Min. :0.4000 Min. :0.5000 Min. :0.6000
## 1st Qu.:0.8000 1st Qu.:0.8000 1st Qu.:0.8667
## Median :1.0000 Median :0.9000 Median :0.9333
## Mean :0.8984 Mean :0.8982 Mean :0.9009
## 3rd Qu.:1.0000 3rd Qu.:1.0000 3rd Qu.:0.9333
## Max. :1.0000 Max. :1.0000 Max. :1.0000
## simulacion_muestrae4 simulacion_muestrae5 simulacion_muestrae6
## Min. :0.600 Min. :0.7667 Min. :0.7600
## 1st Qu.:0.850 1st Qu.:0.8667 1st Qu.:0.8600
## Median :0.900 Median :0.9000 Median :0.9000
## Mean :0.905 Mean :0.8978 Mean :0.8974
## 3rd Qu.:0.950 3rd Qu.:0.9333 3rd Qu.:0.9200
## Max. :1.000 Max. :1.0000 Max. :0.9800
## simulacion_muestrae7 simulacion_muestrae8 simulacion_muestrae9
## Min. :0.7667 Min. :0.8000 Min. :0.8250
## 1st Qu.:0.8833 1st Qu.:0.8800 1st Qu.:0.8900
## Median :0.9000 Median :0.9000 Median :0.9000
## Mean :0.8998 Mean :0.8994 Mean :0.9004
## 3rd Qu.:0.9333 3rd Qu.:0.9200 3rd Qu.:0.9150
## Max. :0.9833 Max. :0.9800 Max. :0.9600
## simulacion_muestrae10
## Min. :0.8680
## 1st Qu.:0.8940
## Median :0.9000
## Mean :0.8998
## 3rd Qu.:0.9060
## Max. :0.9320
fest_norme1=shapiro.test(simulacion_muestrae1)
fest_norme2=shapiro.test(simulacion_muestrae2)
fest_norme3=shapiro.test(simulacion_muestrae3)
fest_norme4=shapiro.test(simulacion_muestrae4)
fest_norme5=shapiro.test(simulacion_muestrae5)
fest_norme6=shapiro.test(simulacion_muestrae6)
fest_norme7=shapiro.test(simulacion_muestrae7)
fest_norme8=shapiro.test(simulacion_muestrae8)
fest_norme9=shapiro.test(simulacion_muestrae9)
fest_norme10=shapiro.test(simulacion_muestrae10)
fest_norme1;fest_norme2;fest_norme3;fest_norme4;fest_norme5;fest_norme6;fest_norme7;fest_norme8;fest_norme9;fest_norme10
##
## Shapiro-Wilk normality test
##
## data: simulacion_muestrae1
## W = 0.71461, p-value < 2.2e-16
##
## Shapiro-Wilk normality test
##
## data: simulacion_muestrae2
## W = 0.84174, p-value < 2.2e-16
##
## Shapiro-Wilk normality test
##
## data: simulacion_muestrae3
## W = 0.8964, p-value < 2.2e-16
##
## Shapiro-Wilk normality test
##
## data: simulacion_muestrae4
## W = 0.91688, p-value = 5.893e-16
##
## Shapiro-Wilk normality test
##
## data: simulacion_muestrae5
## W = 0.95364, p-value = 2.011e-11
##
## Shapiro-Wilk normality test
##
## data: simulacion_muestrae6
## W = 0.96914, p-value = 9.288e-09
##
## Shapiro-Wilk normality test
##
## data: simulacion_muestrae7
## W = 0.97258, p-value = 4.629e-08
##
## Shapiro-Wilk normality test
##
## data: simulacion_muestrae8
## W = 0.98311, p-value = 1.479e-05
##
## Shapiro-Wilk normality test
##
## data: simulacion_muestrae9
## W = 0.99119, p-value = 0.00449
##
## Shapiro-Wilk normality test
##
## data: simulacion_muestrae10
## W = 0.99481, p-value = 0.08983
prueba_grafica1=qqnorm(simulacion_muestrae1,
main = "Distribucion de residuos muestra e1")
qqline(simulacion_muestra1, col = 2)
prueba_grafica2=qqnorm(simulacion_muestrae2,
main = "Distribucion de residuos muestra e2")
qqline(simulacion_muestra1, col = 2)
prueba_grafica3=qqnorm(simulacion_muestrae3,
main = "Distribucion de residuos muestra e3")
qqline(simulacion_muestra1, col = 2)
prueba_grafica4=qqnorm(simulacion_muestrae4,
main = "Distribucion de residuos muestra e4")
qqline(simulacion_muestra1, col = 2)
prueba_grafica5=qqnorm(simulacion_muestrae5,
main = "Distribucion de residuos muestra e5")
qqline(simulacion_muestra1, col = 2)
prueba_grafica6=qqnorm(simulacion_muestra6,
main = "Distribucion de residuos muestra e6")
qqline(simulacion_muestra1, col = 2)
prueba_grafica7=qqnorm(simulacion_muestra7,
main = "Distribucion de residuos muestra e7")
qqline(simulacion_muestra1, col = 2)
prueba_grafica8=qqnorm(simulacion_muestra8,
main = "Distribucion de residuos muestra e7")
qqline(simulacion_muestra1, col = 2)
prueba_grafica9=qqnorm(simulacion_muestra9,
main = "Distribucion de residuos muestra e9")
qqline(simulacion_muestra1, col = 2)
prueba_grafica10=qqnorm(simulacion_muestra10,
main = "Distribucion de residuos muestra e10")
qqline(simulacion_muestra1, col = 2)
2. La comparación de tratamientos es una práctica fundamental en las ciencias agropecuarias y para esto a nivel estadístico se cuenta con algunas herramientas para apoyar el proceso de toma de decisiones y lograr concluir con algún grado de confianza que los resultados observados en una muestra son representativos y se pueden asociar a los tratamientos y no se deben únicamente al azar. Por medio una simulación validemos algunos de estos resultados.
a Suponga un escenario en el cual usted aplicó tratamientos diferentes a dos lotes y desea analizar si alguno de los dos presenta un mejor desempeño en el control de una plaga presente en ambos al momento inicial. Para ello utilizará como criterio de desempeño el tratamiento que menor % de plantas enfermas presente después de un tiempo de aplicación (es decir, si se presentan o no diferencias en las proporciones de enfermos P1 y P2). Realice una simulación en la cual genere dos poblaciones de N1=1000 (Lote1) y N2=1500 (Lote2), además asuma que el porcentaje de individuos (plantas) enfermas en ambos lotes sea la misma 10% (es decir, sin diferencias entre los tratamientos).
lote1=c(rep("enfermo",100),rep("sanos",900))
lote2=c(rep("enfermo",150),rep("sanos",1350))
P1=100/1000
P2=150/1500
b. Genere una función que permita obtener una muestra aleatoria de los lotes y calcule el estimador de la proporción muestral para cada lote (p1 y p2) para un tamaño de muestra dado n1=n2. Calcule la diferencia entre los estimadores p1-p2.
calc_dif_p=function(n1){
#n1=60
n2=n1
muestra1=sample(lote1,n1)
p1=sum(muestra1=="enfermo")/n1
muestra2=sample(lote2,n2)
p2=sum(muestra2=="enfermo")/n2
dif_p=p1-p2
return(dif_p)
}
calc_dif_p(n1 = 60)
## [1] 0.01666667
c Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores (diferencias p1-p2). ¿Qué tan simétricos son los datos?, ¿Son siempre cero las diferencias?
De acuerdo al histograma los datos son simetricos, sin tendencia a irse hacia uno de los dos extremos. En cuanto a las diferencis, no siempre son cero, de hecho con una muestra de 100 y una repetición de 15.000 veces, solo el 10% de las veces la diferencia es cero.
dif_p=sapply(rep(100,15000), calc_dif_p)
table(dif_p==0)
##
## FALSE TRUE
## 13489 1511
summary(dif_p)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.16000 -0.03000 0.00000 0.00001 0.03000 0.16000
hist(dif_p)
d. Realice los puntos b y c para tamaños de muestra n1=n2=5, 10, 15, 20, 30, 50, 60, 100,200, 500. Y compare los resultados de los estimadores (p1-p2) en cuanto a la normalidad. También analice el comportamiento de las diferencias y evalúe. ¿Considera que es más probable concluir que existen diferencias entre los tratamientos con muestras grandes que pequeñas, es decir, cuál considera usted que es el efecto del tamaño de muestra en el caso de la comparación de proporciones?
A pesar de incrementar el tamaño de la muestra no se observa que esto tenga una influencia sobre la normalidad del conjunto de datos asociados entre las diferencias de los valores de p1 y p2, basados en los resultados de los gráficos de normalidad y el test de shapiro.
El tamaño de la muestra tiene un impacto alto sobre la comparación de proporciones, porque generan un efecto sobre el intervalo de confianza sobre el cual se realiza el análisis sobre la existencia de una diferencia o no entre resultados de proporciones. Entre menor sea el tamaño aumenta el riesgo de introducir sesgos en la evaluación de la hipótesis nula. De acuerdo a lo anterior, es más probable concluir la existencia de diferencias entre dos proporciones con muestras más grandes.Ejemplo. EN la simulación con tamaño de muestra 500 se tiene que el 95% de las observaciones presentan diferencias entre los valores de p, pero el intervalo generado se encuentra en un rango del (+-) 4% frente al rango del 40% de la simulación con la muestra más pequeña.
dif_p1=sapply(rep(5,5000), calc_dif_p)
table(dif_p1==0)
##
## FALSE TRUE
## 2689 2311
summary(dif_p1)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -1.00000 -0.20000 0.00000 0.00728 0.20000 0.80000
hist(dif_p1)
shapiro.test(dif_p1)
##
## Shapiro-Wilk normality test
##
## data: dif_p1
## W = 0.90373, p-value < 2.2e-16
prueba_grafica_2_1=qqnorm(dif_p1,
main = "Distribucion de residuos muestra 1")
qqline(dif_p1, col = 2)
dif_p2=sapply(rep(10,5000), calc_dif_p)
table(dif_p2==0)
##
## FALSE TRUE
## 3419 1581
summary(dif_p2)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.7000 -0.1000 0.0000 0.0044 0.1000 0.5000
hist(dif_p2)
shapiro.test(dif_p2)
##
## Shapiro-Wilk normality test
##
## data: dif_p2
## W = 0.95053, p-value < 2.2e-16
prueba_grafica_2_2=qqnorm(dif_p2,
main = "Distribucion de residuos muestra 3")
qqline(dif_p2, col = 2)
dif_p3=sapply(rep(15,5000), calc_dif_p)
table(dif_p3==0)
##
## FALSE TRUE
## 3769 1231
summary(dif_p3)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.4666667 -0.0666667 0.0000000 0.0005733 0.0666667 0.4000000
hist(dif_p3)
shapiro.test(dif_p3)
##
## Shapiro-Wilk normality test
##
## data: dif_p3
## W = 0.96906, p-value < 2.2e-16
prueba_grafica_2_3=qqnorm(dif_p3,
main = "Distribucion de residuos muestra 3")
qqline(dif_p3, col = 2)
dif_p4=sapply(rep(20,5000), calc_dif_p)
table(dif_p4==0)
##
## FALSE TRUE
## 3882 1118
summary(dif_p4)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.30000 -0.05000 0.00000 0.00153 0.05000 0.40000
hist(dif_p4)
shapiro.test(dif_p4)
##
## Shapiro-Wilk normality test
##
## data: dif_p4
## W = 0.97487, p-value < 2.2e-16
prueba_grafica_2_4=qqnorm(dif_p4,
main = "Distribucion de residuos muestra 4")
qqline(dif_p4, col = 2)
dif_p5=sapply(rep(30,5000), calc_dif_p)
table(dif_p5==0)
##
## FALSE TRUE
## 4168 832
summary(dif_p5)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.26667 -0.06667 0.00000 -0.00024 0.06667 0.30000
hist(dif_p5)
shapiro.test(dif_p5)
##
## Shapiro-Wilk normality test
##
## data: dif_p5
## W = 0.98402, p-value < 2.2e-16
prueba_grafica_2_5=qqnorm(dif_p5,
main = "Distribucion de residuos muestra 5")
qqline(dif_p5, col = 2)
dif_p6=sapply(rep(50,5000), calc_dif_p)
table(dif_p6==0)
##
## FALSE TRUE
## 4352 648
summary(dif_p6)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.260000 -0.040000 0.000000 0.000144 0.040000 0.220000
hist(dif_p6)
shapiro.test(dif_p6)
##
## Shapiro-Wilk normality test
##
## data: dif_p6
## W = 0.9897, p-value < 2.2e-16
prueba_grafica_2_6=qqnorm(dif_p6,
main = "Distribucion de residuos muestra 6")
qqline(dif_p6, col = 2)
dif_p7=sapply(rep(60,5000), calc_dif_p)
table(dif_p7==0)
##
## FALSE TRUE
## 4374 626
summary(dif_p7)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.1833333 -0.0333333 0.0000000 0.0003633 0.0333333 0.2000000
hist(dif_p7)
shapiro.test(dif_p7)
##
## Shapiro-Wilk normality test
##
## data: dif_p7
## W = 0.9915, p-value < 2.2e-16
prueba_grafica_2_7=qqnorm(dif_p7,
main = "Distribucion de residuos muestra 7")
qqline(dif_p7, col = 2)
dif_p8=sapply(rep(100,5000), calc_dif_p)
table(dif_p8==0)
##
## FALSE TRUE
## 4523 477
summary(dif_p8)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.180000 -0.030000 0.000000 0.001136 0.030000 0.140000
hist(dif_p8)
shapiro.test(dif_p8)
##
## Shapiro-Wilk normality test
##
## data: dif_p8
## W = 0.99449, p-value = 6.592e-13
prueba_grafica_2_8=qqnorm(dif_p8,
main = "Distribucion de residuos muestra 8")
qqline(dif_p8, col = 2)
dif_p9=sapply(rep(200,5000), calc_dif_p)
table(dif_p9==0)
##
## FALSE TRUE
## 4641 359
summary(dif_p9)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.115000 -0.020000 0.000000 0.000132 0.020000 0.095000
hist(dif_p9)
shapiro.test(dif_p9)
##
## Shapiro-Wilk normality test
##
## data: dif_p9
## W = 0.99674, p-value = 5.563e-09
prueba_grafica_2_9=qqnorm(dif_p9,
main = "Distribucion de residuos muestra 9")
qqline(dif_p9, col = 2)
dif_p10=sapply(rep(500,5000), calc_dif_p)
table(dif_p10==0)
##
## FALSE TRUE
## 4738 262
summary(dif_p10)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -6.60e-02 -1.00e-02 0.00e+00 -4.24e-05 1.00e-02 4.80e-02
hist(dif_p10)
shapiro.test(dif_p10)
##
## Shapiro-Wilk normality test
##
## data: dif_p10
## W = 0.99798, p-value = 4.163e-06
prueba_grafica_2_10=qqnorm(dif_p10,
main = "Distribucion de residuos muestra 10")
qqline(dif_p10, col = 2)
e. Ahora realice nuevamente los puntos a-d bajo un escenario con dos lotes, pero de proporciones de enfermos diferentes (P1=0.1 y P2=0.15), es decir, el tratamiento del lote 1 si presentó un mejor desempeño reduciendo en un 5% el porcentaje de enfermos. Bajo este nuevo escenario compare la distribución de estas diferencias (p1- p2) con las observadas bajo igualdad de condiciones en los lotes. ¿Qué puede concluir? ¿Existen puntos en los cuales es posible que se observen diferencias de p1- p2 bajo ambos escenarios (escenario 1: sin diferencias entre P1 y P2, escenario 2: diferencia de 5%)?
Resultados: Se puede concluir que podemos tener mejores opciones para evaluar las diferencias con muestras más grandes, sin importar el tipo de hipótesis que estemos evaluando. En el primer ejercicio la evaluación era que no existieran diferencias entre los dos lotes mientras que en esta nueva simulación se busca que la diferencia fuera del 5%. En todos los puntos se podrían observar diferencias, lo que cambia es la confianza que podemos tener en esas pruebas a partir del intervalo generado, muestras más grandes nos permiten tener intervalos que contengan valores donde podamos encontrar la verdadera diferencia entre las proporciones.
##
## FALSE
## 5000
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.60000 -0.20000 0.00000 -0.00496 0.20000 0.80000
##
## Shapiro-Wilk normality test
##
## data: dif_p1e
## W = 0.90164, p-value < 2.2e-16
##
## FALSE
## 5000
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.50000 -0.10000 0.00000 0.00106 0.10000 0.50000
##
## Shapiro-Wilk normality test
##
## data: dif_p2e
## W = 0.95231, p-value < 2.2e-16
##
## FALSE
## 5000
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.4666667 -0.0666667 0.0000000 -0.0008133 0.0666667 0.4000000
##
## Shapiro-Wilk normality test
##
## data: dif_p3e
## W = 0.96739, p-value < 2.2e-16
##
## FALSE
## 5000
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.30000 -0.05000 0.00000 -0.00222 0.05000 0.35000
##
## Shapiro-Wilk normality test
##
## data: dif_p4e
## W = 0.97631, p-value < 2.2e-16
##
## FALSE
## 5000
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.266667 -0.066667 0.000000 -0.001067 0.066667 0.333333
##
## Shapiro-Wilk normality test
##
## data: dif_p5e
## W = 0.98415, p-value < 2.2e-16
##
## FALSE
## 5000
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.200000 -0.040000 0.000000 -0.000828 0.040000 0.200000
##
## Shapiro-Wilk normality test
##
## data: dif_p6e
## W = 0.98996, p-value < 2.2e-16
##
## FALSE
## 5000
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.2333333 -0.0333333 0.0000000 0.0004533 0.0333333 0.1666667
##
## Shapiro-Wilk normality test
##
## data: dif_p7e
## W = 0.9913, p-value < 2.2e-16
##
## FALSE
## 5000
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.14000 -0.03000 0.00000 -0.00089 0.03000 0.14000
##
## Shapiro-Wilk normality test
##
## data: dif_p8e
## W = 0.99448, p-value = 6.365e-13
##
## FALSE
## 5000
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.100000 -0.020000 0.000000 -0.000356 0.020000 0.100000
##
## Shapiro-Wilk normality test
##
## data: dif_p9e
## W = 0.99668, p-value = 4.023e-09
##
## FALSE
## 5000
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.0520000 -0.0100000 0.0000000 0.0001072 0.0100000 0.0480000
##
## Shapiro-Wilk normality test
##
## data: dif_p10e
## W = 0.99801, p-value = 4.837e-06
3 Con base a los artículos “Statistical Errors: P values, the gold standard of statistical validity, are not as reliable as many scientists assume” & “Statisticians issue warning on P values: Statement aims to halt missteps in the quest for certainty” escriba un resumen (máximo 2 páginas) sobre ambos artículos e incluya en este sus opiniones en cuanto al uso del valor p como criterio de decisión en inferencia estadística.
Los artículos “Statistical Errors: P values, the gold standard of statistical validity, are not as reliable as many scientists assume” y “Statisticians issue warning on P values: Statement aims to halt missteps in the quest for certainty”, explican el surgimiento del valor P como prueba estadística y la forma en que se convirtió en una prueba ampliamente usada por la comunidad científica para validar la hipótesis de investigación o contundencia de los resultados, lo cual ha generado en la actualidad dilemas éticos sobre su uso. De acuerdo con los artículos, enfocarse solo en el valor P ha desviado la mirada hacia otras pruebas o análisis complementarios que no solamente entregarían análisis y conclusiones más robustas, sino que también contribuirían a evitar confusiones basadas exclusivamente en el análisis de P. Uno de estos ejemplos, es separar u omitir el efecto y lo más importante el tamaño del efecto. Uno de los investigadores citados plantea que la verdadera pregunta que deberían realizar los estudios es: Cuánto efecto existe. Las confusiones no solo se generan por basar y “sobredimensionar” conclusiones o resultados basados, sino que pueden existir casos donde se cruzan barreras éticas, alterando los datos para conseguir una significancia estadística y lograr demostrar “resultados”. Esta actividad consciente o inconsciente ha sido denominada p-hacking. No es claro cuan extendida o generalizada es esta práctica, pero algunas cifras citadas en el estudio demuestran indicios que puede ser algo serio, al encontrarse evidencia que muchos artículos reportan resultados con valores de P extrañamente agrupados sobre el valor de 0.05, valor de referencia para la “significancia estadística”. Esto tiene potenciales efectos negativos sobre las decisiones que se toman basados en estos estudios, como la aprobación de fármacos, políticas publicas y decisiones personales basadas en la “evidencia” de la ciencia. Los autores de los artículos proponen algunas medidas para corregir estas practicas referenciadas anteriormente. Algunas de estas medias son: informar los tamaños de los efectos y los intervalos de confianza. Algunas vertientes sugieren incluir en sus conclusiones sus conocimientos específicos y calcular como cambian las probabilidades a partir que se incorpora nueva evidencia, basados en el marco de Bayes. Otros abogan por un enfoque más experimental, donde se utilicen diferentes enfoques para analizar los datos, en donde la posible divergencia de resultados exigiría nuevos métodos de abordaje que permitan una mejor comprensión de la realidad. En cuanto a la transparencia y ética de las investigaciones, las medidas van relacionadas con la inclusión de la información exhaustiva sobre la fuente y calidad de los datos, así como de los procesos de transformación a los cuales estos se someten.
Finalmente, ambos artículos concluyen que un paso positivo es tener el tema en el centro del debate y empezar a reconocerlo como un problema real, lo cual no solucionará automáticamente el problema o permitirá soluciones en el corto plazo, pero si empieza a generar consciencia en la comunidad científica. El avance de la estadística, ciencia de datos y poder computacional permite realizar múltiples tipos de análisis que antes no eran posibles, lo cual permite a los investigadores contar con muchas más herramientas para poder generar conclusiones basadas en diferentes herramientas y no basarse en una sola prueba o herramienta. Otro aspecto fundamental es la inclusión de equipos interdisciplinarios que permitan formular análisis más robustos y la inclusión de diversas técnicas.