## [1] 0 1 1 0 1 1 1 1 1 1 1 0 0 1 0 1 0 1 0 1 1 0 0 1 0 0 0 0 1 1 0 0 0 0 0 0 0 0
## [39] 0 1 1 1 1 1 1 1 1 1 1 1 0 0 1 0 1 0 1 0 1 0 0 1 1 0 1 0 0 0 1 0 1 1 0 1 1 1
## [1] "Para un tamaño de muestra de 33 se obtuvo un estimador de 0.454545454545455"
| Tamaño.Población | Tamaño.Muestra | Media | Límite.Inferior | Límite.Superior | p.Value | Probabilidad.de.Éxito | Intérvalo.de.Confianza |
|---|---|---|---|---|---|---|---|
| 10000 | 406 | 0.5007192 | 0.4515928 | 0.5484072 | 1 | 0.5 | 95% |
| Tamaño.Muestra | Media.Estimador | P.value |
|---|---|---|
| 5 | 0.5032 | 6.73e-15 |
| 10 | 0.511 | 5.19e-10 |
| 15 | 0.499733333333333 | 7.02e-08 |
| 20 | 0.5043 | 2.5e-06 |
| 30 | 0.5006 | 1.17e-05 |
| 50 | 0.49432 | 0.00177 |
| 60 | 0.497933333333333 | 0.00182 |
| 100 | 0.49564 | 0.031 |
| 200 | 0.49968 | 0.0767 |
| 500 | 0.49884 | 0.615 |
| Tamaño.Muestra | Media.Estimador | P.value |
|---|---|---|
| 5 | 0.104 | 5.47e-28 |
| 10 | 0.0964 | 1.63e-22 |
| 15 | 0.1028 | 9.95e-19 |
| 20 | 0.1035 | 1.15e-15 |
| 30 | 0.0955333333333333 | 8.67e-12 |
| 50 | 0.09736 | 4.01e-07 |
| 60 | 0.0991 | 2.44e-07 |
| 100 | 0.10036 | 3.96e-05 |
| 200 | 0.1012 | 0.00869 |
| 500 | 0.099456 | 0.0229 |
| Tamaño.Muestra | Media.Estimador | P.value |
|---|---|---|
| 5 | 0.896 | 2.74e-28 |
| 10 | 0.9036 | 2.09e-22 |
| 15 | 0.900533333333333 | 1.19e-17 |
| 20 | 0.9036 | 2.75e-15 |
| 30 | 0.900866666666667 | 5.01e-12 |
| 50 | 0.90016 | 4.58e-08 |
| 60 | 0.900666666666667 | 3.31e-09 |
| 100 | 0.90072 | 1.59e-06 |
| 200 | 0.89783 | 0.00131 |
| 500 | 0.900072 | 0.0056 |
Los valores pequeños de muestras no arrojan simetría alrededor de la media de la población.
Mientras las muestras sean más pequeñas el estimador tendrá menos valores continuos, lo que se refleja en vanos dentro de una gráfica.
Lo mismo sucede con el valor de P, en la medida que las muestras sean más pequeñas este valor se aleja mucho más del valor esperado, de las simulaciones encontramos valores de hasta 3.33e-28 lo que definitivamente rechazaría cualquier hipótesis.
A medida que aumentan las muestras el valor de P se acerca más a un valor óptimo que permitiría aceptar la hipótesis planteada.
Gráficamente, los resultados con muestras más pequeñas se dispersan alrededor de la línea teórica de la normal; mientras que cuando las muestras son mayores estos valores se agrupan sobre la línea teórica de la normal.
Aunque la media del parámetro sea muy cercana al valor de la media de la población, para valores de muestra muy pequeños el resultado del p-Value rechazaría cualquier hipótesis, por lo que se recomienda estimar muy bien los tamaños de las muestras y evitar resultados sesgados.
## [1] 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 1 0 0 1 0 0 0 0 0 1
## [39] 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0
## [1] "Estimador de la población N1 es: 0.105"
## [1] 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 1 0 0 1 0 0 0 0 0 1 0
## [39] 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0
## [1] "Estimador de la población N2 es: 0.1125"
## [1] "El cálculo del estimador para N1 es: 0.085 El cálculo del estimador para N2 es: 0.105 Y la diferencia entre ambos es de: -0.02"
3. Con base a los artículos “Statistical Errors: P values, the gold standard of statistical validity, are not as reliable as many scientists assume” & “Statisticians issue warning on P values: Statement aims to halt missteps in the quest for certainty” escriba un resumen (máximo 2 páginas) sobre ambos artículos e incluya en este sus opiniones en cuanto al uso del valor p como criterio de decisión en inferencia estadística.
En relación con el artículo debemos iniciar con la especificación de cuáles son los valores esperados o estimados para un óptimo resultado de los cálculos del p-value; dicho esto, son considerados resultados estadísticamente significantes valores de p entre 0.01 y 0.05, mientras más pequeño sea este valor las probabilidades de rechazar la hipótesis nula aumenta; pero, los resultados de cualquier estudio realizado no deben ser tomados a la ligera y deben ser soportados por más evidencia.
Esto último, cobra gran sentido al momento de replicar los eventos; destacamos para ello los resultados de Matt Motyl et al indicados en [1] donde se obtuvieron valores muy significantes, con evidencia de 0.01 pero al momento de replicar el estudio con información adicional se obtuvieron resultados del orden de 0.59, demasiado alejados de lo esperado. También resalta que esta evidencia corresponde a la naturaleza del valor de p, complementando que “el valor de p no realiza su trabajo, porque no puede” [1].
Dentro del artículo se relaciona una anotación muy importante entorno a la utilización de p-value por parte del estadístico Ronald Fisher el cual indica que dicho resultado no representa una prueba definitiva, sino que es una manera simple e informal para validar la significancia de los resultados. Fisher detalla que el objetivo es ejecutar un experimento y validar si los resultados sobre una muestra son consistentes.
Es por eso que las conclusiones no solamente se deben basar en los resultados obtenidos del valor de p, que podrían inducir a afirmaciones falsas. Lo que permite por el contrario es resumir los datos basados en una hipótesis especificada.
Dado que el solo valor de p no es concluyente, este debe ser complementado con más evidencias para soportar una hipótesis, indistintamente del valor que este tenga. Es necesario aclarar que ese valor de p conlleva una probabilidad de ocurrencia de eventos catalogados como “falsas alarmas”, que a medida que el valor de p disminuye esa probabilidad de falsa alarma aumenta, por ejemplo, para 0.05 se estima una probabilidad del 29%.
Estas particularidades detrás del valor de p causan efecto sobre la probabilidad de replicabilidad de los estudios, es claro que esta probabilidad no corresponde al 99% pero se puede acercar a valores entre el 50% y el 73% para obtener resultados muy significantes.
Por otra parte, Geoff Cummin anota que la significancia no es un indicador práctico; sino que en su lugar deberíamos cuestionarnos sobre ¿Cuándo efecto existe?, por ello propone complementar los resultados con el tamaño de los efectos y los intervalos de confianza y alejarse un poco de la simple premisa si los resultados son o no significativos.
Uri Simonsohn acuña el término p-hacking, que resulta del hecho de intentar múltiples cosas hasta obtener el resultado deseado.
Al igual que otros autores, concordamos en emplear múltiples métodos para el mismo conjunto de datos con la finalidad de obtener más evidencias para complementar los resultados de los cálculos del valor de p. El objeto de este análisis múltiple es comprender un poco más a fondo la realidad del comportamiento de los datos bajo estudio. Por ello, se considera relevante destacar todas las consideraciones o asunciones, tamaño de las muestras y cualquier exclusión involucrada.
También concordamos en un análisis exploratorio de dos etapas, enfocado en realizar dos pequeños análisis exploratorios de los datos con la finalidad de identificar particularidades potencialmente interesantes sin la necesidad de preocuparnos sobre las falsas alarmas [1]. Teniendo como base estos dos análisis podemos conducir el estudio a confirmar estos comportamientos identificados en las muestras tomadas.
[1] R. Nuzzo. "Statistical errors: P values, the 'gold standard' of statistical validity, are not as reliable as many scientists assume." Nature, vol. 506, no. 7487, pp. 150+, 13 Feb. 2014. Consultado Mar. 02, 2022. Disponible en: link.gale.com/apps/doc/A362064378/HRCA?u=anon~69369c4d&sid=googleScholar&xid=33e82427.