a. Realice una simulación en la cual genere una población de \(N=1000\) (Lote) y además que el porcentaje de individuos (plantas) enfermas sea del \(50\%\).
A continuación se muestra la población \(N1\) de tamaño 1000, producto de juntar 2 vectores de igual tamaño que contienen 500 ceros para indicar plantas sanas y 500 unos para indicar plantas enfermas, teniendo un \(50\%\) de plantas enfermas en la población (es decir un parámetro de proporción \(P=0.5\)).
N1 <- c(rep(0,500),rep(1,500))
b. Genere una función que permita obtener una muestra aleatoria de la población y calcule el estimador de la proporción muestral para un tamaño de muestra dado n.
Dada la población \(N1\) entonces generamos la función muestra que recibe un tamaño de muestra nn:
muestra <- function(nn){
muestra <- sample(N1,nn)
estimador <- sum(muestra)/nn
print(estimador)
}
library(gridExtra)
library(grid)
library(ggplot2)
library(lattice)
Como la muestra es un vector de ceros y unos, entonces la suma será semejante al conteo de número de unos (plantas enfermas) en la muestra, y al dividirlo por el tamaño de muestra, da como resultado la estimación de la proporción de plantas enfermas que, en este caso con un tamaño de muestra \(nn=30\) fue del 43.33%.
muestra(30)
## [1] 0.4333333
c. Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores. ¿Qué tan simétricos son los datos?, ¿Son sesgados y qué pasa en cuanto a variabilidad?
Ahora, con un tamaño de muestra igual a 30, repetiremos el ejercicio anterior 500 veces y lo guardaremos en el vector estimadores:
estimadores <- c()
for (i in 1:500) {
estimadores[i] <- muestra(30)
}
Un histograma de las estimaciones nos muestra la distribución resultante:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.233 0.433 0.500 0.499 0.567 0.733
## [1] "Desviación estándar: 0.085"
En los gráficos anteriores se presenta el comportamiento de las estimaciones de \(P\) al repetir 500 veces el muestreo con \(n=30\). Se observa que la mayoría de estimaciones obtenidas están alrededor del 0.5. Además, que la media y mediana son 0.500 y 0.499 las cuales son bastantes cercanas para indicar que la distribución de estimaciones es simetrica. También se puede observar que las estimaciones no son sesgadas dado que las estimaciones se centran al rededor del valor poblacional \(P=0.5\). Respecto a la variabilidad de las estimaciones, se observa que están en el rango comprendido por los valores 0.23 y 0.73, con una desviación estándar de 0.085 indicando que la mayoría de las estimaciones estás dispersas, más o menos 0.085 unidades al rededor de la media 0.5.
d. Realice los ejercicios completos b y c para tamanos de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores en cuanto a la normalidad. Investigue y utilice pruebas de bondad y ajuste (shapiro wilks) y métodos gráficos (grafico qq de normalidad).
Para resolver este punto, se utilizan los ciclos for para realizar las 500 estimaciones para cada tamaño de muestra. A continuación se muestran los resultados sobre el comportamiento de las estimaciones, lo p-valores resultado de la prueba Shapiro-Wilk y los gráficos de QQ-plots para normalidad:
En el gráfico anterior se puede observar cómo la distribucion de las estimaciones tiende a tener una menor dispersión de los datos y se centra alrededor del parámetro poblacional \(0.5\), representado por la linea roja.
## [1] 0.000 0.000 0.000 0.000 0.000 0.002 0.006 0.013 0.291 0.022
Antes de comentar el resultado, se plantea las hipótesis de la prueba Shapiro-Wilk.
\[ H_0: Las \, estimaciones \, provienen \, de \, una \, distribución \, Normal. \\ VS \\ H_1: Las \, estimaciones \,NO \, provienen \, de \, una \, distribución \, Normal. \]
Entonces, con un valor de significancia previa - generalmente de - 5% o de 1% \((\alpha= 0.05,\alpha= 0.01)\), se decidirá rechazar o no rechazar la hipótesis nula \(H_0\), de manera que: Si el p-valor de la prueba es menor a \(\alpha\) entonces se rechazará \(H_0\), y por el contrario, si el p-valor de la prueba es mayor a \(\alpha\) entonces NO se rechaza \(H_0\).
Ahora bien las pruebas de shapiro wilk asociadas a las estimaciones con Tamano de muestra 100 200 y 500 fueron aquellas que arrojaron p-valores mayores. Más especificamente, con una significancia del 5% se asumen como distribuciones normales aquellos vector de estimaciones que fueron simulados con tamaños de muestra 100, 200 y 500.
qqplots <- grid.arrange(grobs=graficos,ncol=4, heigths= c(4,4,4,4), widths=c(4,4,4,4))
Respecto a los QQ-plots, se puede observar como a medida que el tamaño de muestra aumenta se forma una recta entre los valores teóricos y los valores de las estimaciones. Gráficamente, un qqplot que forme la gráfica \(y=x\) representa evidencia gráfica a favor de la normalidad, por tanto, la normalidad de las estimaciones se evidencia gráficamente para tamanos de muestra mayores o iguales a 50.
e. Repita toda la simulación (puntos a – d) pero ahora con lotes con 10% y 90% de plantas enfermas. Concluya todo el ejercicio.
Se puede observar que para las distribuciones cuando las muestras son menores, tienden a ser asimétricas hacia el valor poblacional real, y a medida que aumenta el tamaño de muestra, las distribuciones disminuyen la variabilidad y se centran alrededor del parámetro asociado \(P=0.1\) y \(P=0.9\) respectivamente.
## n= 5 n= 10 n= 15 n= 20 n= 30 n= 50 n= 60 n= 100 n= 200 n= 500
## P-value P=0.1 0 0 0 0 0 0 0 0 0.000 0.010
## P-value P=0.9 0 0 0 0 0 0 0 0 0.004 0.119
En este caso, se puede observar que todos los p-valores dieron por debajo de 0.05, por lo tanto, con una significancia del 5%, el test shapiro wilk rechaza la hipótesis de normalidad de las estimaciones de P en todos los escenarios simulados.
Sin embargo en los gráficos se observa un comportamiento aparentemente Normal, para las estimaciones simuladas con un tamaño de muestra mayor a 200.
a. Realice una simulación en la cual genere dos poblaciones de N1=1000 (Lote1) y N2=1500 (Lote2), además asuma que el porcentaje de individuos (plantas) enfermas en ambos lotes sea la misma 10% (es decir, sin diferencias entre los tratamientos).
Pob1 <- c(rep(0,900),rep(1,100))
Pob2 <- c(rep(0,1350),rep(1,150))
b. Genere una función que permita obtener una muestra aleatoria de los lotes y calcule el estimador de la proporción muestral para cada lote (p1 y p2) para un tamaño de muestra dado n1=n2. Calcule la diferencia entre los estimadores p1-p2.
fun_dif <- function(nn){
n1 = n2 = nn
dif <- sum(sample(Pob1,n1))/n1 - sum(sample(Pob2,n2))/n2
print(dif)
}
c. Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores (diferencias p1-p2). ¿Qué tan simétricos son los datos?, ¿Son siempre cero las diferencias?
En teoría, a pesar de ser tamaños de lotes diferentes, los parámetros de proporción de plantas enfermas son los mismos \(P_1=P_2=0.1\) por tanto se espera que las diferencias entre las estimaciones sean igual a cero. Ahora bien, aplicando la simulación para un tamaño de muestra \(n_1=n_2=100\) se muestran a continuación los resultados de las diferencias entre las estimaciones:
## Indicadores
## min -0.120
## max 0.120
## media 0.002
## mediana 0.000
## Desv. Est. 0.040
Se puede observar que las diferencias tienen una media de 0.002, una mediana de 0.00 dando evidencia de lo nombrado en el parrafo anterior, y además, dada la cercania entre la media y la mediana se puede decir que la distribución de los datos es simetrica, lo cual también se aprecia en los gráficos del histográma y el diagrama de cajas y alambres, en donde los valores de las diferencias se centran al rededor del cero. Para dar respuesta a si siempre dan cero las diferencias, se observa que la diferencia mínima obtenida fue de -0.120 y la máxima fue de 0.120, es decir que hubo un rango entre las diferencias alrededor del cero que alcanzo más o menos 0.12 aproximadamente, por tanto no siempre fueron cero.
d. Realice los puntos b y c para tamaños de muestra n1=n2=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores (p1-p2) en cuanto a la normalidad. También analice el comportamiento de las diferencias y evalúe. ¿Considera que es más probable concluir que existen diferencias entre los tratamientos con muestras grandes que pequeñas, es decir, cuál considera usted que es el efecto del tamaño de muestra en el caso de la comparación de proporciones?
Al igual que en el ejercicio número 1, en el diagrama de cajas y alambres se observa que las diferencias entre las estimaciones tienden a tener una menor variabilidad, lo cual se observa también en las estimaciones de los mínimos, máximos y desviaciones estándar. En este caso las medidas de tendencia central estuvieron constantemente alrededor del cero; por ejemplo, la mediana (Q2) igual a cero indica que el 50% de las diferencias estimadas estuvieron por debajo de cero y en contraste el 50% restante estuvieron por encima del cero bajo todos los escenarios simulados.
## min max Q2 media Sd Shapiro p_v
## n= 5 -0.6000 0.6000 0 0.0160 0.1901 0.0000
## n= 10 -0.5000 0.4000 0 0.0014 0.1354 0.0000
## n= 15 -0.3333 0.3333 0 -0.0089 0.1120 0.0000
## n= 20 -0.2500 0.3000 0 -0.0004 0.0929 0.0000
## n= 30 -0.2667 0.2667 0 0.0043 0.0790 0.0000
## n= 50 -0.1600 0.1600 0 0.0030 0.0597 0.0002
## n= 60 -0.1667 0.1500 0 0.0012 0.0539 0.0021
## n= 100 -0.1500 0.1200 0 0.0000 0.0408 0.0009
## n= 200 -0.0650 0.1000 0 0.0001 0.0268 0.0317
## n= 500 -0.0380 0.0560 0 0.0005 0.0142 0.0559
Respecto a la normalidad, con una significancia del 5% las hipótesis a favor de la normalidad de las diferencias se dieron para tamaños de muestra \(n= 200\) y \(n= 500\).
e. Ahora realice nuevamente los puntos a-d bajo un escenario con dos lotes, pero de proporciones de enfermos diferentes (P1=0.1 y P2=0.15). Bajo este nuevo escenario compare la distribución de estas diferencias (p1-p2) con las observadas bajo igualdad de condiciones en los lotes. ¿Qué puede concluir? ¿Existen puntos en los cuales es posible que se observen diferencias de p1- p2 bajo ambos escenarios (escenario 1: sin diferencias entre P1 y P2, escenario 2: diferencia de 5%)?
Teniendo en cuenta los parámetros definidos, en este escenario habrá una diferencia de \(P1-P2= -0.05\) por tanto, es de esperarse que las estimaciones de las diferencias se centren alrededor de dicho valor.
En el diagrama de cajas y alambres se observa un comportamiento similar bajo las condiciones de \(P_1-P_2=0\), sin embargo las medidas de tendencia central tienden hacia \(-0.05\) (linea azul), en particular la distribución se concentra con menor variabilidad en tamaños de muestra \(n=50\) o mayores.
Es posible que bajo un escenario con igualdad de proporciones, se detectan diferencias entre los porcentajes de plantas enfermas, y especialmente es más probable que esto ocurra bajo un escenario donde los tamaños de muestra son menores, dado que habrá mayor variabilidad y por lo tanto, mayor incentidumbre derivada del azar.
## min max Q2 media sd Shapiro p_v
## n= 5 -0.8000 0.6000 0.0000 -0.0340 0.2074 0.0000
## n= 10 -0.5000 0.4000 0.0000 -0.0432 0.1429 0.0000
## n= 15 -0.4000 0.3333 -0.0667 -0.0487 0.1220 0.0000
## n= 20 -0.3500 0.2500 -0.0500 -0.0441 0.0983 0.0000
## n= 30 -0.3333 0.2667 -0.0667 -0.0533 0.0879 0.0000
## n= 50 -0.2600 0.1400 -0.0400 -0.0492 0.0647 0.0036
## n= 60 -0.2333 0.1333 -0.0500 -0.0502 0.0607 0.0156
## n= 100 -0.2000 0.0700 -0.0400 -0.0466 0.0446 0.0113
## n= 200 -0.1400 0.0350 -0.0500 -0.0498 0.0295 0.0754
## n= 500 -0.0940 -0.0060 -0.0480 -0.0486 0.0159 0.2305
Los artículos “Statistical Errors: P values, the gold standard of statistical validity, are not as reliable as many scientists assume” y “Statisticians issue warning on P values: Statement aims to halt missteps in the quest for certainty”, publicados en el 2014 y en el 2016 respectivamente, expresan críticas sobre lo que consideran un uso inadecuado del P-valor, medida que se usa como herramienta estándar para la toma de decisiones en pruebas de hipótesis estadísticas.
Según los artículos, se puede definir el P-valor como una medida para conocer la probabilidad de obtener resultado como el observado, es decir como el obtenido en la muestra, bajo la asunción de que la hipótesis nula es verdadera. Esto significa que mientras menor es el p-valor resultante también es menos probable que los datos muestreados respalden la hipótesis nula planteada. Sin embargo, los artículos señalan algunas ocasiones que en publicaciones científicas se expresan resultados con p-valores de forma incorrecta, bien que no se desarticulan con otra información estadística o práctica (relativa al contexto), o bien que se abusa del alcance inferencial de esta medida.
Cuando se un investigador se enfrenta a experimentos es importante preguntarse si la hipótesis de investigación planteada es plausible y aporta al entorno científico. En ese sentdo, antes de plantear una hipótesis es importante saber qué tan lógica o posible es la hipótesis que se quiere plantear y también expresar las experiencias previas frente al experimento que se va a realizar y para mitigar un posible sesgo.
Por otro lado, hablando del alcance, hay que tener en cuenta que el p-valor por definición, recomienda que tan cercana es la posibilidad de que mis datos respalden una hipótesis, sin embargo, no define que tan grande es la distancia entre las dos hipótesis o si la significancia estadística se alinea con el tamaño real o práctico de la diferencia. Ejemplo de esto se muestra en el estudio sobre personas que conocían a sus parejas en el metro y las afirmaciones sobre que eran más felices, puesto que aun obteniendo un p-valor cercano a cero, la diferencia entre las proporciones estimadas de las dos poblaciones equivalía solo a un par de decimales (5,48% VS 5,64%). Con esto se quiere dar a entender que las diferencias estadísticas no siempre significan una importancia en la realidad.
Pero entonces ¿Los artículos recomiendan no usar el p-valor?, la respuesta es No. Sugieren seguir usándolo, pero hacen el llamado a no utilizarlo como una receta única y rigurosa, sino más bien como Fisher lo pensaba: El p-valor como parte de un proceso fluido que aporte a dar respuesta a preguntas de carácter científico.
Finalmente, señalan la importancia de tener en cuenta en los resultados unas especificaciones técnicas propias del ámbito estadístico que enriquecen la discusión y además marcan los alcances de las conclusiones, como el tamaño y forma la muestra, los intervalos de confianza e instrumentos de medición, puesto que estos datos adicionales aportan a la transparencia del estudio y generan una discusión parcial entorno a los alcances de las conclusiones, la validez del experimento y la reproducibilidad del mismo.