Punto 1.

El Teorema del Límite Central es uno de los más importantes en la inferencia estadística y habla sobre la convergencia de los estimadores como la proporción muestral a la distribución normal. Algunos autores afirman que esta aproximación es bastante buena a partir del umbral n>30.

  1. Realice una simulación en la cual genere una población de N=1000 (Lote) y además que el porcentaje de individuos (plantas) enfermas sea del 50%.

En este caso se generan una muestra de plantas y una variable x categorica que representa estado de salud de la planta, donde 0 representa una planta Sana y 1 representa una planta enferma.

poblacion_plantas=c(rep(x=1,5000),rep(x=0,5000))
#poblacion_plantas

Vamos a sacar una muestra de la población, mediante una función que permita extraer un tamaño de muestra n.

estimador_enfermas=function(n){
    return(sum(sample(poblacion_plantas,size=n))/n)
  }
  1. Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores. ¿Qué tan simétricos son los datos?, ¿Son sesgados y qué pasa en cuanto a variabilidad?
estimadores=sapply(rep(9,500),estimador_enfermas)
#estimadores
summary(estimadores)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.1111  0.3333  0.4444  0.4933  0.5556  0.8889
hist(estimadores, main = "Histograma", ylab = "Frecuencia", col ="lightblue", xlab = "Estimador",xlim = c(0,1))
abline(v=0.5,col="red",lwd=4)

¿Qué tan simétricos son los datos?

En el histograma se nota claramente que para 500 muestras de n=10 plantas se consiguen valores cercanos entre la mediana y la media; sin embargo, la distribución no es del todo simetrica, cada vez que nos acercamos mas y mas a los extremos de la distribución de datos no hay una simetria visiblemente marcada.

¿Son sesgados y qué pasa en cuanto a variabilidad?

Respecto al sesgo en el estimador, podemos observar que no existe un sesgo muy alto el estimador muestra una carcania al que el 50% de las plantas estan enfermas.

Para estudiar la variabilidad calculamos la varianza y la desviación estandar:

var(estimadores) 
## [1] 0.02625498
sd(estimadores)
## [1] 0.1620339

En estos valores se puede observar que la dispersión de los datos es supremamente baja y que en el segundo cuartil se encuentra la mayoria de los resultados.

  1. Realice los ejercicios completos b y c para tamaños de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores en cuanto a la normalidad. Investigue y utilice pruebas de bondad y ajuste (shapiro wilks) y métodos gráficos (grafico qq de normalidad).
N=c(5,10,15,20,30,50,60,100,200,500,1000,9000)

layout(matrix(c(1:1), nrow=2, byrow=FALSE))
#layout.show(12) # Muestra las doce particiones

for(i in N) {
estimadores=sapply(rep(i,500),estimador_enfermas)
print("RESUMEN ESTADISTICO")
print(summary(estimadores))
hist(estimadores, main = paste("Histograma n=",i), ylab = "Frecuencia", col = "lightblue", xlab = "Estimador",xlim = c(0,1))
abline(v=0.5,col="red",lwd=4)
legend(x = "topleft", legend = c("Desviación Standar=",sd(estimadores), "Shapiro Wilks", shapiro.test(estimadores)), title = "Estadísticos")
qqnorm(estimadores, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
qqline(estimadores, col = "red")
}
## [1] "RESUMEN ESTADISTICO"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.4000  0.6000  0.5116  0.6000  1.0000

## [1] "RESUMEN ESTADISTICO"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.4000  0.5000  0.4896  0.6000  1.0000

## [1] "RESUMEN ESTADISTICO"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2000  0.4000  0.5333  0.5049  0.6000  0.8667

## [1] "RESUMEN ESTADISTICO"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.1500  0.4500  0.5000  0.5023  0.5500  0.8000

## [1] "RESUMEN ESTADISTICO"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2667  0.4333  0.5000  0.5047  0.5667  0.8000

## [1] "RESUMEN ESTADISTICO"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.3000  0.4600  0.5000  0.5029  0.5600  0.7200

## [1] "RESUMEN ESTADISTICO"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.3000  0.4500  0.5000  0.4989  0.5333  0.6833

## [1] "RESUMEN ESTADISTICO"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.3600  0.4700  0.5000  0.4976  0.5300  0.6500

## [1] "RESUMEN ESTADISTICO"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.4000  0.4750  0.5000  0.4969  0.5200  0.6150

## [1] "RESUMEN ESTADISTICO"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.4460  0.4855  0.5000  0.4996  0.5120  0.5640

## [1] "RESUMEN ESTADISTICO"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.4560  0.4910  0.5020  0.5016  0.5120  0.5440

## [1] "RESUMEN ESTADISTICO"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.4953  0.4988  0.4999  0.5000  0.5011  0.5041

  1. Repita toda la simulación (puntos a – d) pero ahora con lotes con 10% y 90% de plantas enfermas. Concluya todo el ejercicio.
layout(matrix(c(1:1), nrow=2, byrow=FALSE))
#layout.show(12) # Muestra las doce particiones


poblacion_plantas1=c(rep(x=1,9000),rep(x=0,1000))
#poblacion_plantas1

estimador_enfermas1=function(n){
    return(sum(sample(poblacion_plantas1,size=n))/n)
}
N=c(5,10,15,20,30,50,60,100,200,500,1000,9000)
for(i in N) {
estimadores1=sapply(rep(i,500),estimador_enfermas1)
print("RESUMEN ESTADISTICO")
print(summary(estimadores))
hist(estimadores1, main = paste("Histograma n=",i), ylab = "Frecuencia", col = "lightblue", xlab = "Estimador",xlim = c(0.2,1.1))
abline(v=0.9,col="red",lwd=2)
legend(x = "topleft", legend = c("Desviación Standar=",sd(estimadores), "Shapiro Wilks", shapiro.test(estimadores1)), title = "Estadísticos")
qqnorm(estimadores1, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
qqline(estimadores1, col = "red")
}
## [1] "RESUMEN ESTADISTICO"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.4953  0.4988  0.4999  0.5000  0.5011  0.5041

## [1] "RESUMEN ESTADISTICO"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.4953  0.4988  0.4999  0.5000  0.5011  0.5041

## [1] "RESUMEN ESTADISTICO"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.4953  0.4988  0.4999  0.5000  0.5011  0.5041

## [1] "RESUMEN ESTADISTICO"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.4953  0.4988  0.4999  0.5000  0.5011  0.5041

## [1] "RESUMEN ESTADISTICO"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.4953  0.4988  0.4999  0.5000  0.5011  0.5041

## [1] "RESUMEN ESTADISTICO"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.4953  0.4988  0.4999  0.5000  0.5011  0.5041

## [1] "RESUMEN ESTADISTICO"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.4953  0.4988  0.4999  0.5000  0.5011  0.5041

## [1] "RESUMEN ESTADISTICO"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.4953  0.4988  0.4999  0.5000  0.5011  0.5041

## [1] "RESUMEN ESTADISTICO"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.4953  0.4988  0.4999  0.5000  0.5011  0.5041

## [1] "RESUMEN ESTADISTICO"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.4953  0.4988  0.4999  0.5000  0.5011  0.5041

## [1] "RESUMEN ESTADISTICO"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.4953  0.4988  0.4999  0.5000  0.5011  0.5041

## [1] "RESUMEN ESTADISTICO"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.4953  0.4988  0.4999  0.5000  0.5011  0.5041

A medida que se aumentan la cantidad de muestras en visible como mejora considerablemente la dispersión de los datos, cada vez es mas y mas notorio que se aproxima mejor a una distribución normal. Cuando se toman mucho mas muestras n=9000 la desviación estandar es supremamente pequeña 0.0016.. que implica que casi todos los datos se encuentran en la media 0.9.

Aproximandose muchisimo al valor medio de que tiene la poblacion de lote generado para la simulación y ello puede ser verificado por el buen ajuste de los graficos qq de normalidad.

Es claro y evidente que el aumento considerable de muestras hace que el valor medio del estadistico de la muestra se acerque mucho masal valor medio de la población.

Punto 2

La comparación de tratamientos es una práctica fundamental en las ciencias agropecuarias y para esto a nivel estadístico se cuenta con algunas herramientas para apoyar el proceso de toma de decisiones y lograr concluir con algún grado de confianza que los resultados observados en una muestra son representativos y se pueden asociar a los tratamientos y no se deben únicamente al azar. Por medio una simulación validemos algunos de estos resultados.

  1. Suponga un escenario en el cual usted aplicó tratamientos diferentes a dos lotes y desea analizar si alguno de los dos presenta un mejor desempeño en el control de una plaga presente en ambos al momento inicial. Para ello utilizará como criterio de desempeño el tratamiento que menor % de plantas enfermas presente después de un tiempo de aplicación (es decir, si se presentan o no diferencias en las proporciones de enfermos P1 y P2). Realice una simulación en la cual genere dos poblaciones de N1=1000 (Lote1) y N2=1500 (Lote2), además asuma que el porcentaje de individuos (plantas) enfermas en ambos lotes sea la misma 10% (es decir, sin diferencias entre los tratamientos.
N1=c(rep(x=1,100),rep(x=0,900))
N2=c(rep(x=1,150),rep(x=0,1350))
  1. Genere una función que permita obtener una muestra aleatoria de los lotes y calcule el estimador de la proporción muestral para cada lote (p1 y p2) para un tamaño de muestra dado n1=n2. Calcule la diferencia entre los estimadores p1-p2.
diferencias_de_p=function(m){
  p_1=(sum(sample(N1,size=m))/m)
  p_2=(sum(sample(N2,size=m))/m)
  dif_p=p_1-p_2
  return(dif_p)
}


diferencias_de_ps=sapply(rep(40,1000),diferencias_de_p)
print("RESUMEN ESTADISTICO")
## [1] "RESUMEN ESTADISTICO"
summary(diferencias_de_ps)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -0.2250 -0.0500  0.0000 -0.0024  0.0500  0.2000
hist(diferencias_de_ps, main = "Histograma", ylab = "Frecuencia", col = "red", xlab=expression(paste(Delta,"P")),xlim = c(-0.3,0.3))

  1. Realice los puntos b y c para tamaños de muestra n1=n2=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores (p1-p2) en cuanto a la normalidad. También analice el comportamiento de las diferencias y evalúe. ¿Considera que es más probable concluir que existen diferencias entre los tratamientos con muestras grandes que pequeñas, es decir, cuál considera usted que es el efecto del tamaño de muestra en el caso de la comparación de proporciones?
layout(matrix(c(1:1), nrow=2, byrow=FALSE))
#layout.show(12) # Muestra las doce particiones

N=c(5,10,15,20,30,50,60,100,200,500,800)
for(i in N){
diferencias_de_ps1=sapply(rep(i,1000),diferencias_de_p)
print("RESUMEN ESTADISTICO")
print(summary(diferencias_de_ps1))
hist(diferencias_de_ps1, main = paste("Histograma n=",i), ylab = "Frecuencia", col = "red", xlab=expression(paste(Delta,"P")),xlim = c(-0.5,0.5))
legend(x = "topleft", legend = c("Desviación Standar=",sd(estimadores), "Shapiro Wilks", shapiro.test(diferencias_de_ps1)), title = "Estadísticos")
qqnorm(diferencias_de_ps1, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
qqline(diferencias_de_ps1, col = "red")
}
## [1] "RESUMEN ESTADISTICO"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  -0.800   0.000   0.000   0.011   0.200   0.600

## [1] "RESUMEN ESTADISTICO"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  -4e-01  -1e-01   0e+00  -2e-04   1e-01   5e-01

## [1] "RESUMEN ESTADISTICO"
##       Min.    1st Qu.     Median       Mean    3rd Qu.       Max. 
## -0.4000000 -0.0666667  0.0000000 -0.0007333  0.0666667  0.4000000

## [1] "RESUMEN ESTADISTICO"
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.30000 -0.05000  0.00000  0.00235  0.05000  0.35000

## [1] "RESUMEN ESTADISTICO"
##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
## -0.266667 -0.033333  0.000000  0.002733  0.066667  0.233333

## [1] "RESUMEN ESTADISTICO"
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.18000 -0.04000  0.00000  0.00092  0.04000  0.18000

## [1] "RESUMEN ESTADISTICO"
##       Min.    1st Qu.     Median       Mean    3rd Qu.       Max. 
## -0.1666667 -0.0333333  0.0000000 -0.0007167  0.0333333  0.1500000

## [1] "RESUMEN ESTADISTICO"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -0.1400 -0.0300  0.0000 -0.0006  0.0300  0.1400

## [1] "RESUMEN ESTADISTICO"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -0.0900 -0.0150  0.0000 -0.0006  0.0150  0.0800

## [1] "RESUMEN ESTADISTICO"
##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
## -0.054000 -0.008000  0.001000  0.001134  0.012000  0.052000

## [1] "RESUMEN ESTADISTICO"
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.02625 -0.00625  0.00000 -0.00018  0.00500  0.02500

  1. Ahora realice nuevamente los puntos a-d bajo un escenario con dos lotes, pero de proporciones de enfermos diferentes (P1=0.1 y P2=0.15), es decir, el tratamiento del lote 1 si presentó un mejor desempeño reduciendo en un 5% el porcentaje de enfermos. Bajo este nuevo escenario compare la distribución de estas diferencias (p1-p2) con las observadas bajo igualdad de condiciones en los lotes.
N_1=c(rep(x=1,100),rep(x=0,900))
N_2=c(rep(x=1,225),rep(x=0,1275))

diferencias2_de_p=function(m){
  p_1=(sum(sample(N_1,size=m))/m)
  p_2=(sum(sample(N_2,size=m))/m)
  dif_p=p_2-p_1
  return(dif_p)
}

layout(matrix(c(1:1), nrow=2, byrow=FALSE))
#layout.show(12) # Muestra las doce particiones

N=c(5,10,15,20,30,50,60,100,200,500,800)
for(i in N){
diferencias_de_ps2=sapply(rep(i,1000),diferencias2_de_p)
print("RESUMEN ESTADISTICO")
print(summary(diferencias_de_ps2))
hist(diferencias_de_ps2, main = paste("Histograma n=",i), ylab = "Frecuencia", col = "green", xlab=expression(paste(Delta,"P")),xlim = c(-0.2,0.2))
legend(x = "topleft", legend = c("Desviación Standar=",sd(estimadores), "Shapiro Wilks", shapiro.test(diferencias_de_ps2)), title = "Estadísticos")
qqnorm(diferencias_de_ps2, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
qqline(diferencias_de_ps2, col = "red")
}
## [1] "RESUMEN ESTADISTICO"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  -0.600   0.000   0.000   0.051   0.200   0.800

## [1] "RESUMEN ESTADISTICO"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -0.4000  0.0000  0.0000  0.0503  0.1000  0.5000

## [1] "RESUMEN ESTADISTICO"
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.33333 -0.06667  0.06667  0.04720  0.13333  0.40000

## [1] "RESUMEN ESTADISTICO"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -0.3000  0.0000  0.0500  0.0548  0.1125  0.4500

## [1] "RESUMEN ESTADISTICO"
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.16667  0.00000  0.03333  0.04687  0.10000  0.30000

## [1] "RESUMEN ESTADISTICO"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -0.1800  0.0000  0.0500  0.0491  0.1000  0.2800

## [1] "RESUMEN ESTADISTICO"
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.18333  0.01667  0.05000  0.05043  0.08333  0.31667

## [1] "RESUMEN ESTADISTICO"
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.10000  0.02000  0.05000  0.04917  0.08000  0.20000

## [1] "RESUMEN ESTADISTICO"
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.04500  0.03000  0.05000  0.05121  0.07000  0.14500

## [1] "RESUMEN ESTADISTICO"
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.01800  0.04000  0.05000  0.04983  0.06200  0.10200

## [1] "RESUMEN ESTADISTICO"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.01250 0.04375 0.05000 0.04966 0.05500 0.08375

¿Qué puede concluir? ¿Existen puntos en los cuales es posible que se observen diferencias de p1- p2 bajo ambos escenarios (escenario 1: sin diferencias entre P1 y P2, escenario 2: diferencia de 5%)?

Para una baja cantidad de muestras n1=n2<30 se observa que no existen diferencias considerables entre p1 y p2 pero a medidad que crece considerablemente la cantidad de muestras se hace claro la diferencia de p1-p2 de un 5%. En este sgundo escenario se puede ver claramente que si se tomas dos poblaciones y de ellas se sacan las muestras tambien es posible conseguir a medida que las muestra sean mas significativas que se aproxime los promedios a los promedios de la población.

  1. Con base a los artículos “Statistical Errors: P values, the gold standard of statistical validity, are not as reliable as many scientists assume” & “Statisticians issue warning on P values: Statement aims to halt missteps in the quest for certainty” escriba un resumen (máximo 2 páginas) sobre ambos artículos e incluya en este sus opiniones en cuanto al uso del valor p como criterio de decisión en inferencia estadística.

El artículo muestra un ejemplo claro de una escasa comprensión conceptual de un parámetro estadístico usado para la determinación de conclusiones bajo la aprobación de alguna hipótesis en problemas concretos de investigación. Se muestra claramente cómo la investigación realizada por Motyl y su asesor Brian Nosek, arrojaba conclusiones desafortunadas y poco precisas sobre la validación de una hipótesis que los políticos moderados veían los tonos grises con mayor precisión que los extremistas de derecha o de izquierda. Es decir; que la tendencia o posición política podría llegar a sesgar la percepción visual de un tono de color algo que a la luz de la primera revisión sonaba bastante atractivo pues los datos eran el sustento mas fuerte para validar la hipótesis ya mencionada.

Sin embargo, y aun cuando el tratamiento estadístico y el valor P, permitían afirmar la veracidad de la hipótesis la reproducibilidad del experimento resulto por llevar el estudio completamente a pique. No existía reproducción alguna del mismo resultado al realizar sistemáticamente repetitividad del mismo. Entonces que puede estar mal ¿es acaso la interpretación del valor de P? ¿el desconocimiento del contexto en el que se desarrollan los experimentos que puede generar sesgos para la interpretación de resultados?

Sin duda las respuestas a las preguntas anteriores tiene mucho que ver con lo que le sucedió a Motyl y Nosek, aunque en este caso fueron prudente a la luz de sus primeros resultados y prefirieron realizar un número mayor de pruebas sacando otras muestras antes que correr a concluir y publicar en alguna revista científica los resultados de su investigación, preocupa un poco más cuan cantidad de investigaciones no tuvieron esta precaución y terminaron publicando resultados que no corresponden con la realidad.

El significado del estadístico de valor P suele ser muy confuso, y en general no se puede explicar con una definición concreta que lo deje totalmente claro. Pero en si mismo para comprender un poco el valor P, es necesario solucionar algunas cuestiones previas; por ejemplo, cuando queremos emprender un estudio es imposible censar a toda la población y es por ello que recurrimos a elegir una muestra representativa de la población para la cual el promedio este muy próximo al promedio de la población.

Pero la elección de la muestra trae consigo el problema del azar, si se hace representativa podrimos garantizar que el valor medio esta muy próximo al valor de la población, pero, aun así y por el mismo motivo, no podemos nunca estar seguros de que la conclusión que se extraiga con las muestras se cumpla en la población a la que no podemos acceder en su globalidad. Ello es una pésima noticia, sin embargo, la buena noticia es que el azar se puede reducir al máximo y medir el efecto o ruido que adiciona a la medición de la variable de interés. A esto se le denomina contraste de hipótesis.

En todo estudio estadístico se define una hipótesis nula H0, que por convenio se considera ciertas mientras no se demuestre lo contrario y adicionalmente se define una hipótesis alternativa que suele ser la negación de la hipótesis H0. Ahora, garantizando que la muestra no tiene grandes diferencias con la población se calcula la probabilidad de que el valor sea muy diferente al valor promedio de la muestra hallado, generalmente se realiza usando una distribución de probabilidad. Si la probabilidad es alta, diremos que la diferencia se debe al azar y que no es probable que se cumpla en la población. Pero si la probabilidad de obtener este valor por azar es muy baja, podremos decir que, probablemente, sí existe una diferencia real. Dicho de otro modo, rechazaremos la hipótesis nula y abrazaremos la alternativa. Y es esto lo que significa el valor P.

Por convenio suele establecerse que si este valor de probabilidad es menor del 5% es lo suficientemente improbable que se deba al azar como para rechazar con una seguridad razonable la H0 y afirmar que la diferencia es real. Cuando es mayor al 5%, no se podrá negar que la diferencia observada sea obra del azar. En general el valor de p es simplemente la cuantificación de la probabilidad de que la diferencia de resultado se deba al azar. Pero existe demasiada confusión sobre el significado de p, entre ellos:

• El valor de p significa la probabilidad de que la hipótesis sea cierta. • Un valor de p<0,05 significa que la hipótesis nula es falsa o por el contrario p>0,05 significa que la hipótesis nula sea cierta. • En cuanto mas pequeño sea el valor de p, mas fiable es el resultado del estudio.

Esta ultima es sin duda la confusión mas grande que tiene el estudio de Motyl y Nosek.