STATISTICAL ERRORS: P values, the “gold standard” of statistical validity, are not as reliable as many scientists asume

Motyl, un estudiante de doctorado realizó un estudio donde al parecer los políticos neutrales (de centro) miraban con mayor precisión los tonos grises que los políticos extremistas de derecha o izquierda. El valor-p había resultado de 0.01, un valor muy significativo. Pero con datos adicionales el valor p llegaba a 0.59, muy alejado del nivel convencional de significancia 0.05.

El problema radicaba en que el valor p no era tan confiable ni objetivo como la mayoría de científicos asumen, y giró una serie de críticas del uso que se le estaba dando, a tal punto que se generó una serie de incertidumbres sobre estudios anteriores donde el valor p había sido utilizado como parámetro indiscutible para generar conclusiones, lo cual llevó a repensar la manera de evaluar esos resultados.

El punto es que, cuando el concepto de valor p se introdujo a la estadística no fue mencionado como un validador definitivo; sino como una manera no formal de mirar a priori si la evidencia era o no significativa, pero era simplemente con el objetivo de tener un entendimiento general, y que debería validarse con otros métodos complementarios.

Se realizó un experimento, donde se estableció una hipótesis nula H0 (no hay correlación o diferencia entre dos grupos), que se pretendía rechazar. Se concluye que entre más pequeño el valor de la probabilidad mayor era a su vez la probabilidad de rechazar la H0. Pero fue planteado como un acercamiento y no una determinación definitiva para establecer el rechazo o no de la hipótesis nula; a partir de esto se generó unas discusiones entre científicos, donde le quitaban relevancia al valor p e introducían otros conceptos estadísticos más robustos para tal fin. En esas discusiones otros científicos, la mayoría sin conocimiento estadístico profundo, articularon los conceptos de valor p con los otros conceptos estadísticos y nace la denominación de valor p de 0.05 como un valor estadísticamente significativo, sin embargo, ese nunca fue el fin del uso que se le ha dado al valor p a lo largo del tiempo.

Ahora bien, a partir de toda la discusión generada, ¿cuál es el verdadero significado del valor p?. Lo que hace es que, a partir de una cantidad de datos, los sintetiza acorde a una hipótesis nula planteada, pero no tiene el alcance de rechazar o aceptar dicha hipótesis, y para esto se necesita mayor información, y es relacionada con la información que antecede el hecho, con la finalidad de no tomar conclusiones drásticas sin antes haber examinado todo el panorama.

Se ha generado una precaución de cómo los valores p pueden fomentar razonamientos confusos, principalmente asociado a desenfocarse del impacto real que muestran los datos, por ejemplo, concluir que las personas que conocen a sus cónyuges en línea tienen menos probabilidades de divorcio, pero a la hora de examinar los datos se tiene que las relaciones de cónyuges conocidos en línea sólo redujeron la tasa de divorcio de 7.67% a 5.95%, lo cual no es tan significante como el hecho de aceptar la hipótesis como lo plantea el valor p, lo que infiere es que no se debería preguntar si hay un efecto, sino qué tan relevante ha sido ese efecto, lo cual no nos proporciona el valor p. 

A pesar de estas discusiones, hoy en día aún se sigue usando el valor p como un parámetro definitivo en la toma de decisiones, sin embargo, otros planteamientos recomiendan complementarlo con los intervalos de confianza y los tamaños de los efectos, con esto se garantizaría lo que el valor p no puede garantizar, qué tan relevante en magnitud e importancia ha sido el efecto.

Desde mi punto de vista, a la hora de realizar un análisis de datos se deben considerar todas las alternativas posibles con la finalidad de tener un entendimiento general del comportamiento de los mismos, y se debe garantizar que si se acepta o rechaza una hipótesis, también se debe conocer la magnitud y relevancia de esa aceptación o rechazo, de lo contrario se prestaría para interpretaciones erróneos y tergiversadas; por lo cual considero fundamental lo planteado por el estadista Richard Royall, en el sentido de realizar esas tres preguntas después de un estudio: ¿Cuál es la evidencia? ¿Qué debería creer? Y ¿Qué debería hacer?, para responder no sólo debemos adoptar un método estadístico sino una articulación de varios que nos guiará a una mejor interpretación de resultados.