Probabilidad e Inferencia Estadística

Taller de Simulación en R

1. El Teorema del límite Central:

Es uno de los más importantes en la inferencia estadística y habla sobre la convergencia de los estimadores como la proporción muestral a la distribución normal. Algunos autores afirman que esta aproximación es bastante buena a partir del umbral N>30.

a. Realice una simulación

Realice una simulación en la cual genere una población de N=1000 (lote) y además que el porcentaje de individuos (plantas) enfermas sea el 50%.

Sim = function(Tot = 1000, Enf = 0.5, San = 0.5) {
  E = round(Tot * Enf, 0) #Redondear a cero cifras decimales
  S = round(Tot * San, 0) #Redondear a cero cifras decimales
  Poblacion = c(rep("Enfermo", E), rep("Sana",S))
  print(paste("Lote Generado de tamaño: ", Tot, " Enfermos: ",E,"Sanos: ",S))
  return(Poblacion)
}

Lote = Sim(Tot = 1000, Enf = 0.5, San = 0.5)
## [1] "Lote Generado de tamaño:  1000  Enfermos:  500 Sanos:  500"

b. Genere una función

Que permita obtener una muestra aleatoria de la población y calcule el estimador de la proporción muestral para un tamaño de muestra dado n.

MuAle01 = function(Pob, Tam, Con) {
  if (Tam<=length(Pob)) {
    muestra = sample(x = Pob, size = Tam)
    P_muestra = sum(muestra == Con)/Tam
    return(P_muestra)
  }
  else {
    print("Error: el tamaño de la muestra supera el tamaño de la población.")
    return(-1)
  }
}

n=1200
muestra = MuAle01 (Pob= Lote, Tam = n, Con = "Enfermo")
## [1] "Error: el tamaño de la muestra supera el tamaño de la población."
print(paste("Para una muestra de tamaño: ", n, "se obtuvo un ^P =",muestra))
## [1] "Para una muestra de tamaño:  1200 se obtuvo un ^P = -1"
n = 300
muestra = MuAle01 (Pob = Lote, Tam = n, Con = "Enfermo")

print(paste("Para una muestra de tamaño:", n, "un estimador de la proporción =",muestra))
## [1] "Para una muestra de tamaño: 300 un estimador de la proporción = 0.503333333333333"

c. Repita el escenario anterior (b) 500 veces

Y analice los resultados en cuento al comportamiento de los 500 estimadores. ¿Qué tan simétricos son los datos?, ¿Son sesgados y qué pasa en cuanto a variabilidad?

Gen_Mue_Iter = function(Pob, Tam, Con, Iter) {
  if (Tam<=length(Pob)) {
    mue_iter = array(NA,Iter)
    for (i in 1:Iter) {
      mue_iter[i] = MuAle01 (Pob, Tam, Con)
    }
    return(mue_iter)
  }
  else {
    print("Error: el tamaño de la muestra supera el tamaño de la población.")
    return(-1)
  }
}


iter = 500
P_muestras = Gen_Mue_Iter (Pob = Lote, Tam = n, Con = "Enfermo",Iter = iter)

hist(P_muestras, main ="Histograma 500 iteraciones",
     xlab="Probabilidad de las muestras", ylab="Frecuencia", las=1,
     font.axis=4)
line = mean(P_muestras)

abline (v=line, lwd = 4, lty = 2, col="darkblue")

min <- min(P_muestras, na.rm = TRUE)
q1 <- quantile(P_muestras, probs = 0.25, na.rm = TRUE)
media <- mean.default(P_muestras, na.rm = TRUE)
mediana <- median.default(P_muestras, na.rm = TRUE)
var <- var(P_muestras, na.rm = TRUE)
desvest <- sd(P_muestras, na.rm = TRUE)
q3 <- quantile(P_muestras, probs = 0.75, na.rm = TRUE)
max <- max(P_muestras, na.rm = TRUE)
s <- skewness(P_muestras)
c <- kurtosis(P_muestras)

descrt <- round(as.numeric(c(min, q1, media, mediana,
                                     var, desvest, q3, max, s, c)),4)
nombres <- c("Mínimo", "Q1", "Media",  "Mediana", "Varianza", 
             "Desviación", "Q3", "Máximo", "Simetría", "Curtosis")
descr2 <- as.data.frame(rbind(nombres,descrt))
descr2

El parámetro P=0.5 para los individuos enfermos y al obtener el comportamiento de los 500 estimadores con n=300, obtiene un estimador promedio cercano al parámetro. Los datos son simétricos, la media= 0.512 y la mediana de 0.5, con coeficiente de simetría -0.2123 negativa o a la izquierda. En La gráfica del histograma se observa que no es completamente simétrica, ya que el coeficiente de asimetría es diferente de cero. De otro lado se observa que la varianza está muy cerca de ser cero.

d. Realice los ejercicios completos b y c

Para tamaños de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores en cuanto a la normalidad. Investigue y utilice pruebas de bondad y ajuste (shapiro wilks) y métodos gráficos (grafico qq de normalidad).

t_Muestras = c(10,15,20,30,50,60,100,200,500)
iter = 500

for (i in 1:length(t_Muestras)) {
  P_muestras = Gen_Mue_Iter (Pob = Lote, Tam = t_Muestras[i], Con = "Enfermo",Iter = iter)
  par(mfrow=c(1,3))
  hist(P_muestras, las=1, ylab = "Frecuencia", title = t_Muestras[i], 
       main = paste("Muestra de tamaño:", t_Muestras[i]), col = "gold2", las=1,
       font.axis=4)
  abline(v=mean(P_muestras), col="darkblue", lwd=3)
  plot(density(P_muestras), las=1, ylab = "Densidad", main = "")
  qqPlot(P_muestras, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="qq-normalidad")
  print(paste('Para una muestra de tamaño: ', t_Muestras[i])) 
  print(shapiro.test(P_muestras))
  
} 

## [1] "Para una muestra de tamaño:  10"
## 
##  Shapiro-Wilk normality test
## 
## data:  P_muestras
## W = 0.9624, p-value = 5.304e-10

## [1] "Para una muestra de tamaño:  15"
## 
##  Shapiro-Wilk normality test
## 
## data:  P_muestras
## W = 0.97286, p-value = 5.297e-08

## [1] "Para una muestra de tamaño:  20"
## 
##  Shapiro-Wilk normality test
## 
## data:  P_muestras
## W = 0.97999, p-value = 2.286e-06

## [1] "Para una muestra de tamaño:  30"
## 
##  Shapiro-Wilk normality test
## 
## data:  P_muestras
## W = 0.98453, p-value = 3.679e-05

## [1] "Para una muestra de tamaño:  50"
## 
##  Shapiro-Wilk normality test
## 
## data:  P_muestras
## W = 0.99093, p-value = 0.003675

## [1] "Para una muestra de tamaño:  60"
## 
##  Shapiro-Wilk normality test
## 
## data:  P_muestras
## W = 0.99195, p-value = 0.008285

## [1] "Para una muestra de tamaño:  100"
## 
##  Shapiro-Wilk normality test
## 
## data:  P_muestras
## W = 0.99334, p-value = 0.02634

## [1] "Para una muestra de tamaño:  200"
## 
##  Shapiro-Wilk normality test
## 
## data:  P_muestras
## W = 0.99518, p-value = 0.1223

## [1] "Para una muestra de tamaño:  500"
## 
##  Shapiro-Wilk normality test
## 
## data:  P_muestras
## W = 0.99434, p-value = 0.06087

Al calcular los estimadores incrementando el tamaño de la muestra se puede observar como los estimadores están muy cerca del valor del Parámetro P= 0.5, cada vez que incrementamos los datos (n) en la muestra el error disminuye, y la varianza con un (n mayor) es menor, como también disminuye la simetría. En las gráficas de densidad se observa que esta se va ajustando a una normal, la gráfica de qq-normalidad se van ajustando a la diagonal.

e. Repita toda la simulación (puntos a - b)

Pero ahora con lotes con 10% y 90% de plantas enfermas. Concluya el ejercicio.

Lote 10% Enfermos

Lote02 = Sim(Tot = 1000, Enf = 0.1, San = 0.9)
## [1] "Lote Generado de tamaño:  1000  Enfermos:  100 Sanos:  900"
n02 = 300
muestra = MuAle01 (Pob = Lote02, Tam = n02, Con = "Enfermo")

print(paste("Para una muestra de tamaño:", n02, "un estimador de la proporción =",muestra))
## [1] "Para una muestra de tamaño: 300 un estimador de la proporción = 0.103333333333333"

## [1] "Para una muestra de tamaño:  10"
## 
##  Shapiro-Wilk normality test
## 
## data:  P_muestras
## W = 0.82611, p-value < 2.2e-16

## [1] "Para una muestra de tamaño:  15"
## 
##  Shapiro-Wilk normality test
## 
## data:  P_muestras
## W = 0.88991, p-value < 2.2e-16

## [1] "Para una muestra de tamaño:  20"
## 
##  Shapiro-Wilk normality test
## 
## data:  P_muestras
## W = 0.92046, p-value = 1.385e-15

## [1] "Para una muestra de tamaño:  30"
## 
##  Shapiro-Wilk normality test
## 
## data:  P_muestras
## W = 0.95103, p-value = 8.207e-12

## [1] "Para una muestra de tamaño:  50"
## 
##  Shapiro-Wilk normality test
## 
## data:  P_muestras
## W = 0.97064, p-value = 1.84e-08

## [1] "Para una muestra de tamaño:  60"
## 
##  Shapiro-Wilk normality test
## 
## data:  P_muestras
## W = 0.97709, p-value = 4.586e-07

## [1] "Para una muestra de tamaño:  100"
## 
##  Shapiro-Wilk normality test
## 
## data:  P_muestras
## W = 0.98413, p-value = 2.833e-05

## [1] "Para una muestra de tamaño:  200"
## 
##  Shapiro-Wilk normality test
## 
## data:  P_muestras
## W = 0.9896, p-value = 0.001304

## [1] "Para una muestra de tamaño:  500"
## 
##  Shapiro-Wilk normality test
## 
## data:  P_muestras
## W = 0.99163, p-value = 0.006401

Lote 90% Enfermos

Lote03 = Sim(Tot = 1000, Enf = 0.9, San = 0.1)
## [1] "Lote Generado de tamaño:  1000  Enfermos:  900 Sanos:  100"
n03 = 300
muestra = MuAle01 (Pob = Lote03, Tam = n03, Con = "Enfermo")

print(paste("Para una muestra de tamaño:", n03, "un estimador de la proporción =",muestra))
## [1] "Para una muestra de tamaño: 300 un estimador de la proporción = 0.91"

## [1] "Para una muestra de tamaño:  10"
## 
##  Shapiro-Wilk normality test
## 
## data:  P_muestras
## W = 0.83748, p-value < 2.2e-16

## [1] "Para una muestra de tamaño:  15"
## 
##  Shapiro-Wilk normality test
## 
## data:  P_muestras
## W = 0.9052, p-value < 2.2e-16

## [1] "Para una muestra de tamaño:  20"
## 
##  Shapiro-Wilk normality test
## 
## data:  P_muestras
## W = 0.92443, p-value = 3.691e-15

## [1] "Para una muestra de tamaño:  30"
## 
##  Shapiro-Wilk normality test
## 
## data:  P_muestras
## W = 0.9566, p-value = 5.787e-11

## [1] "Para una muestra de tamaño:  50"
## 
##  Shapiro-Wilk normality test
## 
## data:  P_muestras
## W = 0.96485, p-value = 1.443e-09

## [1] "Para una muestra de tamaño:  60"
## 
##  Shapiro-Wilk normality test
## 
## data:  P_muestras
## W = 0.97869, p-value = 1.096e-06

## [1] "Para una muestra de tamaño:  100"
## 
##  Shapiro-Wilk normality test
## 
## data:  P_muestras
## W = 0.98594, p-value = 9.36e-05

## [1] "Para una muestra de tamaño:  200"
## 
##  Shapiro-Wilk normality test
## 
## data:  P_muestras
## W = 0.99026, p-value = 0.002173

## [1] "Para una muestra de tamaño:  500"
## 
##  Shapiro-Wilk normality test
## 
## data:  P_muestras
## W = 0.99471, p-value = 0.08265

Al realizar las pruebas de los con proporciones del 10% y del 90% de los lotes 01 y 02, se observa que los Estimadores en ambos casos están muy cercanos a los valores de los parámetros P=0.1, P=0.9. Al igual que los anteriores casos a medida que se va incrementando (n), los estimadores se van acercando al Parámetro. Las gráficas de densidad van adoptando la forma de una normal y las gráficas de qq-normalidad, los puntos muestrales se van ajustando a la diagonal de una normal.

2. La comparación de tratamientos

Es una practica fundamental en las ciencias agropecuarias y para esto a nivel estadístico se cuenta con algunas herramientas para apoyar el proceso de toma de dicisiones y lograr concluir con algún grado de confianza que los resultados observados en una muestra son representativos y se pueden asociar a los tratamientos y no se deben únicamente al azar.Por medio de una simulación validemos algunos de estos resultados.

a. Suponga un escenario

En el cual usted aplicó tratamientos diferentes a dos lotes y desea analizar si alguno de los dos presenta un mejor desempeño en el control de una plaga presente en ambos al momento inicial. Para ello utilizará como criterio de desempeño el tratamiento de menor % de plantas enfermas presente después de un tiempo de aplicación (es decir, si se presenta o no diferencias en las proporciones de enfermos P1 y P2). Realice una simulación en la cual genere dos poblaciones de N1=1000 (lote 1) y N2=1500 (lote2), además asuma que el porcentaje de individuos (plantas) enfermas en ambos lotes se la misma 10 (es decir, sin diferencias entre los tratamientos).

Lote 01

Lote_01 <- Sim(Tot = 1000, Enf = 0.1, San = 0.9)
## [1] "Lote Generado de tamaño:  1000  Enfermos:  100 Sanos:  900"

Lote 02

Lote_02 <- Sim(Tot = 1500, Enf = 0.1, San = 0.9)
## [1] "Lote Generado de tamaño:  1500  Enfermos:  150 Sanos:  1350"

b. Genere una función que permita obtener una muestra aleatoria de los lotes

Y calcule es estimador de la proporción muestral para cada lote (P1 y P2) para tamaño de muestra dado n1=n2. Calcule la diferencia entre los estimadores p1-p2.

## [1] "Para una muestra de tamaño: 300 de los lostes 1 y 2, se obtuvo un estimador de la proporción = -0.02"

c. Repita el escenario anterior (b) 500 veces

Y analice los resultados en cuanto al comportamiento de los 500 estimadores (diferencias p1-p2). ¿Qué tan simétricos son los datos?. ¿Son siempre cero las diferencias?.

Cuando (n=300), en esta simulación la media y la mediana es igual a cero, pero hay una simetría de -0.1865 negativa o la izquierda.

d. Realice los puntos b y c para tamaños de muestra

n1=n2 = 5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores (p1-p2) en cuanto a la normalidad. También analice el comportamiento de las diferencias y evalúe. ¿Considera que es más probable concluir que existen diferencias entre los tratamientos con muestras grandes que pequeñas, es decir, cual considera usted que es el efecto del tamaño de muestra en el caso de la comparación de proporciones?

## [1] "Para una muestra de tamaño:  10"
## 
##  Shapiro-Wilk normality test
## 
## data:  P_muestras_P1P2
## W = 0.94651, p-value = 1.866e-12

## [1] "Para una muestra de tamaño:  15"
## 
##  Shapiro-Wilk normality test
## 
## data:  P_muestras_P1P2
## W = 0.96088, p-value = 2.915e-10

## [1] "Para una muestra de tamaño:  20"
## 
##  Shapiro-Wilk normality test
## 
## data:  P_muestras_P1P2
## W = 0.97324, p-value = 6.38e-08

## [1] "Para una muestra de tamaño:  30"
## 
##  Shapiro-Wilk normality test
## 
## data:  P_muestras_P1P2
## W = 0.98051, p-value = 3.09e-06

## [1] "Para una muestra de tamaño:  50"
## 
##  Shapiro-Wilk normality test
## 
## data:  P_muestras_P1P2
## W = 0.98753, p-value = 0.0002832

## [1] "Para una muestra de tamaño:  60"
## 
##  Shapiro-Wilk normality test
## 
## data:  P_muestras_P1P2
## W = 0.98813, p-value = 0.0004364

## [1] "Para una muestra de tamaño:  100"
## 
##  Shapiro-Wilk normality test
## 
## data:  P_muestras_P1P2
## W = 0.99086, p-value = 0.003475

## [1] "Para una muestra de tamaño:  200"
## 
##  Shapiro-Wilk normality test
## 
## data:  P_muestras_P1P2
## W = 0.99257, p-value = 0.01384

## [1] "Para una muestra de tamaño:  500"
## 
##  Shapiro-Wilk normality test
## 
## data:  P_muestras_P1P2
## W = 0.9956, p-value = 0.173

En estadistica, el Test de Shapiro-Wilk se usa para contrastar la normalidad de un conjunto de datos. Se plantea como una hipótesis nula que una muestra \(x_{1}, ...,x_{n}\) proviene de una población normalmente distribuida. Es considerada uno de los Test más potentes para el contraste de normalidad.

Interpretación: Siendo la hipótesis nula que la población está distribuida normalmente, si el p-valor es menor a alfa (nivel de significancia) entonces la hipótesis nula es rechazada (se concluye que los datos no vienen de una distribución normal). Si el p-valor es mayor a alfa, se concluye que no se puede rechazar dicha hipótesis.

e. Ahora realice nuevamente los puntos a-d

Bajo un escenario con dos lotes, pero de proporciones de enfermos diferentes (P1=0.1 y P2=0.15), es decir, el tratamiento del lote 1 si presentó un mejor desempeño reduciendo en un 5% el porcentaje de enfermos. Bajo este nuevo escenario compare la distribución de estas diferencias (p1-p2) con las observadas bajo igualdad de condiciones en los lotes. ¿Que puede concluir? ¿Existen puntos en los cuales es posible que se observen diferencias de p1-p2 bajo ambos escenarios (escenario 1: sin diferencias entre P1 y P2, escenario 2:diferencia de 5%)?.

Lote 01

Lote_01_e <- Sim(Tot = 1000, Enf = 0.1, San = 0.9)
## [1] "Lote Generado de tamaño:  1000  Enfermos:  100 Sanos:  900"

Lote 02

Lote_02_e <- Sim(Tot = 1500, Enf = 0.15, San = 0.85)
## [1] "Lote Generado de tamaño:  1500  Enfermos:  225 Sanos:  1275"
n = 300
muestra_P1P2_2 =  MuAle_P1P2 (Pob1 = Lote_01_e,Pob2 = Lote_02_e, Tam = n, Con = "Enfermo")

print(paste("Para una muestra de tamaño:", n, "Para una muestra de tamaño:", n, "de los lostes 1 y 2, un estimador de la proporción =",muestra_P1P2_2))
## [1] "Para una muestra de tamaño: 300 Para una muestra de tamaño: 300 de los lostes 1 y 2, un estimador de la proporción = -0.0266666666666667"

## [1] "Para una muestra de tamaño:  10"
## 
##  Shapiro-Wilk normality test
## 
## data:  P_muestras_P1P2
## W = 0.95711, p-value = 6.973e-11

## [1] "Para una muestra de tamaño:  15"
## 
##  Shapiro-Wilk normality test
## 
## data:  P_muestras_P1P2
## W = 0.97046, p-value = 1.695e-08

## [1] "Para una muestra de tamaño:  20"
## 
##  Shapiro-Wilk normality test
## 
## data:  P_muestras_P1P2
## W = 0.97738, p-value = 5.355e-07

## [1] "Para una muestra de tamaño:  30"
## 
##  Shapiro-Wilk normality test
## 
## data:  P_muestras_P1P2
## W = 0.98484, p-value = 4.506e-05

## [1] "Para una muestra de tamaño:  50"
## 
##  Shapiro-Wilk normality test
## 
## data:  P_muestras_P1P2
## W = 0.98539, p-value = 6.486e-05

## [1] "Para una muestra de tamaño:  60"
## 
##  Shapiro-Wilk normality test
## 
## data:  P_muestras_P1P2
## W = 0.98437, p-value = 3.297e-05

## [1] "Para una muestra de tamaño:  100"
## 
##  Shapiro-Wilk normality test
## 
## data:  P_muestras_P1P2
## W = 0.99246, p-value = 0.01259

## [1] "Para una muestra de tamaño:  200"
## 
##  Shapiro-Wilk normality test
## 
## data:  P_muestras_P1P2
## W = 0.99608, p-value = 0.253

## [1] "Para una muestra de tamaño:  500"
## 
##  Shapiro-Wilk normality test
## 
## data:  P_muestras_P1P2
## W = 0.99448, p-value = 0.06835

En los escenarios 1 (sin diferencias entre P1 y P2) y el escenario 2 (diferencia de 5%),

Observando las imágenes de los dos escenarios es notable en la gráfica de densidad un pequeño mejor desempeño en el escenario 2 como también se ve reflejado en la gráfica de qq-normalidad. Como es tan pequeña la mejoría se recomienda realizar otros pruebas de normalidad para llegar a una conclusión con mayor solidez y que los resultados no sean producto del azar.

3. Con base al articulo “Statistical Errors:P values, the gold standar of statistical validity, are not as reliable as many scientists assume”

Escriba un resumen (máximo 2 páginas) sobre el artículo e incluya en este sus opiniones en cuanto al uso del valor p como criterio de decisión en inferencia estadística.

Regina Nuzo publicó en Nature, el artículo titulado “Statistical Errors:P values, the gold standar of statistical validity, are not as reliable as many scientists assume” publicado en 12 de febrero de 2014. Narra cómo en 2010 Matt Motyl, estudiante de doctorado en psicología de la Universidad de Virginia estuvo al borde de alcanzar la gloría científica. Cuando afirmaba haber descubierto que los políticos de extrema veían el mundo en blanco y negro.

Según Motyl, los resultados fueron “claros como el agua”, con una base de datos de 2000 personas, aseguraba demostrar que los políticos moderados veían los tonos grises con mayor precisión que los extremistas de derecha o izquierda.

Para inferir utilizó como estimación y contraste el P-valor a partir del nivel de significancia de limitados en la zona de aceptación y de rechazo de la hipótesis. Para el caso en mención el P-valor, fue 0.01, que generalmente se interpreta como muy significativo. La meta, la publicación de en una revista de alto impacto.

Reaccionando a las críticas, sobre la reproducibilidad, Motyl y su asesor, Brian Nosek, tomaron la decisión de replicar el estudio con datos adicionales, obteniendo un P-valor de 0.59, un poco más allá del nivel de significancia convencional, del 0.05.

El problema no estaba en los datos, ni en los análisis de Motyl. Se encontraba en la naturaleza del estimador, sorprendente y resbaladiza, el P-valor. No siendo tan confiable ni tan objetivo como suponen la mayoría de los científicos. Dice Stephen Ziliak, economista de la Universidad Roosevelt en Chicago, crítico frecuente de la forma en se usan las estadísticas “Los P-valores no están haciendo su trabajo, porque no pueden”.

Los P-valor siempre han tenido críticas, en casi 9 décadas de existencia. Lo irónico es que cuando Ronal Fisher introdujo el P-valor en la década de 1920, sólo pretendía que fuera una prueba más y no una definitiva. El paso inicial para una segunda mirada. La idea era realizar un experimento y luego ver si los resultados eran consistentes con lo que podría producir el azar. Cuanto más pequeño mayor era la probabilidad de que la hipótesis nula fuera falsa. Se suele decir que los valores altos de P-valor no permiten rechazar \(H_{0}\), mientras que valores bajos p si permiten rechazar la \(H_{0}\).

El P-valor nunca tuvo la intención de usarse de la forma en que se usa hoy. Tales prácticas tienen el efecto de convertir los descubrimientos de los estudios exploratorios que deben tratarse con escepticismo, en lo que parecen explicaciones sólidas, pero se desvanecen en la replicación.

El P-valor no representa la probabilidad de que la hipótesis nula sea cierta: como hemos dicho, partimos del supuesto de que la hipótesis nula es cierta y es bajo ese supuesto en el que calculamos el P-valor.

En la decimotercera edición de Métodos estadísticos para investigadores, Fisher realizó la siguiente aclaración sobre los P-valores “el P-valor indica la fuerza de la evidencia contra la hipótesis nula… y los contrastes de significación deben utilizarse como ayuda para el juicio, y no deben confundirse con pruebas de aceptación automática, o funciones de decisión.

En 2016, la American Statistical Association (ASA) publicó una declaración sobre los P-valores, elaborada por un grupo de más de dos docenas de expertos (Wasserstein, Lazar, and others 2016). Aunque hubo discusiones controvertidas sobre muchos temas, el informe de consenso de la ASA incluye la siguiente declaración: “El uso generalizado de la ’significación estadística’ (generalmente interpretada como p<0.05) como una licencia para hacer una afirmación de un hallazgo científico (o verdad implícita) conduce a una considerable distorsión del proceso científico”.

Algunos de los comentarios más relevantes inciden en que la significación estadística no puede tomarse como evidencia de que la hipótesis de investigación sea cierta; ni proporciona la probabilidad de la hipótesis, por lo que no hay base para estudiar la replicación y tampoco nos proporciona evidencias verificables de replicación.

Para evitar malas interpretaciones y ayudar en la toma de decisiones, muchos estadísticos sugieren utilizar el enfoque bayesiano, tanto en la realización de test estadísticos (test bayesianos) como en el cálculo de intervalos de confianza y el uso del factor de Bayes (Gelman et al. 2013), (Casella and Berger 1987).