El Teorema del Límite Central es uno de los más importantes en la inferencia estadística y habla sobre la convergencia de los estimadores como la proporción muestral a la distribución normal. Algunos autores afirman que esta aproximación es bastante buena a partir del umbral n>30.
En este caso se generan una muestra de plantas y una variable x categorica que representa estado de salud de la planta, donde 0 representa una planta Sana y 1 representa una planta enferma.
poblacion_plantas=c(rep(x=1,5000),rep(x=0,5000))
#poblacion_plantas
Vamos a sacar una muestra de la población, mediante una función que permita extraer un tamaño de muestra n.
estimador_enfermas=function(n){
return(sum(sample(poblacion_plantas,size=n))/n)
}
estimadores=sapply(rep(9,500),estimador_enfermas)
#estimadores
summary(estimadores)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.1111 0.3333 0.4444 0.4933 0.5556 0.8889
hist(estimadores, main = "Histograma", ylab = "Frecuencia", col ="lightblue", xlab = "Estimador",xlim = c(0,1))
abline(v=0.5,col="red",lwd=4)
¿Qué tan simétricos son los datos?
En el histograma se nota claramente que para 500 muestras de n=10 plantas se consiguen valores cercanos entre la mediana y la media; sin embargo, la distribución no es del todo simetrica, cada vez que nos acercamos mas y mas a los extremos de la distribución de datos no hay una simetria visiblemente marcada.
¿Son sesgados y qué pasa en cuanto a variabilidad?
Respecto al sesgo en el estimador, podemos observar que no existe un sesgo muy alto el estimador muestra una carcania al que el 50% de las plantas estan enfermas.
Para estudiar la variabilidad calculamos la varianza y la desviación estandar:
var(estimadores)
## [1] 0.02625498
sd(estimadores)
## [1] 0.1620339
En estos valores se puede observar que la dispersión de los datos es supremamente baja y que en el segundo cuartil se encuentra la mayoria de los resultados.
N=c(5,10,15,20,30,50,60,100,200,500,1000,9000)
layout(matrix(c(1:1), nrow=2, byrow=FALSE))
#layout.show(12) # Muestra las doce particiones
for(i in N) {
estimadores=sapply(rep(i,500),estimador_enfermas)
print("RESUMEN ESTADISTICO")
print(summary(estimadores))
hist(estimadores, main = paste("Histograma n=",i), ylab = "Frecuencia", col = "lightblue", xlab = "Estimador",xlim = c(0,1))
abline(v=0.5,col="red",lwd=4)
legend(x = "topleft", legend = c("Desviación Standar=",sd(estimadores), "Shapiro Wilks", shapiro.test(estimadores)), title = "Estadísticos")
qqnorm(estimadores, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
qqline(estimadores, col = "red")
}
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.4000 0.6000 0.5116 0.6000 1.0000
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.4000 0.5000 0.4896 0.6000 1.0000
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.2000 0.4000 0.5333 0.5049 0.6000 0.8667
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.1500 0.4500 0.5000 0.5023 0.5500 0.8000
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.2667 0.4333 0.5000 0.5047 0.5667 0.8000
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.3000 0.4600 0.5000 0.5029 0.5600 0.7200
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.3000 0.4500 0.5000 0.4989 0.5333 0.6833
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.3600 0.4700 0.5000 0.4976 0.5300 0.6500
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.4000 0.4750 0.5000 0.4969 0.5200 0.6150
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.4460 0.4855 0.5000 0.4996 0.5120 0.5640
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.4560 0.4910 0.5020 0.5016 0.5120 0.5440
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.4953 0.4988 0.4999 0.5000 0.5011 0.5041
layout(matrix(c(1:1), nrow=2, byrow=FALSE))
#layout.show(12) # Muestra las doce particiones
poblacion_plantas1=c(rep(x=1,9000),rep(x=0,1000))
#poblacion_plantas1
estimador_enfermas1=function(n){
return(sum(sample(poblacion_plantas1,size=n))/n)
}
N=c(5,10,15,20,30,50,60,100,200,500,1000,9000)
for(i in N) {
estimadores1=sapply(rep(i,500),estimador_enfermas1)
print("RESUMEN ESTADISTICO")
print(summary(estimadores))
hist(estimadores1, main = paste("Histograma n=",i), ylab = "Frecuencia", col = "lightblue", xlab = "Estimador",xlim = c(0.2,1.1))
abline(v=0.9,col="red",lwd=2)
legend(x = "topleft", legend = c("Desviación Standar=",sd(estimadores), "Shapiro Wilks", shapiro.test(estimadores1)), title = "Estadísticos")
qqnorm(estimadores1, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
qqline(estimadores1, col = "red")
}
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.4953 0.4988 0.4999 0.5000 0.5011 0.5041
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.4953 0.4988 0.4999 0.5000 0.5011 0.5041
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.4953 0.4988 0.4999 0.5000 0.5011 0.5041
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.4953 0.4988 0.4999 0.5000 0.5011 0.5041
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.4953 0.4988 0.4999 0.5000 0.5011 0.5041
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.4953 0.4988 0.4999 0.5000 0.5011 0.5041
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.4953 0.4988 0.4999 0.5000 0.5011 0.5041
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.4953 0.4988 0.4999 0.5000 0.5011 0.5041
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.4953 0.4988 0.4999 0.5000 0.5011 0.5041
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.4953 0.4988 0.4999 0.5000 0.5011 0.5041
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.4953 0.4988 0.4999 0.5000 0.5011 0.5041
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.4953 0.4988 0.4999 0.5000 0.5011 0.5041
A medida que se aumentan la cantidad de muestras en visible como mejora considerablemente la dispersión de los datos, cada vez es mas y mas notorio que se aproxima mejor a una distribución normal. Cuando se toman mucho mas muestras n=9000 la desviación estandar es supremamente pequeña 0.0016.. que implica que casi todos los datos se encuentran en la media 0.9.
Aproximandose muchisimo al valor medio de que tiene la poblacion de lote generado para la simulación y ello puede ser verificado por el buen ajuste de los graficos qq de normalidad.
Es claro y evidente que el aumento considerable de muestras hace que el valor medio del estadistico de la muestra se acerque mucho masal valor medio de la población.
La comparación de tratamientos es una práctica fundamental en las ciencias agropecuarias y para esto a nivel estadístico se cuenta con algunas herramientas para apoyar el proceso de toma de decisiones y lograr concluir con algún grado de confianza que los resultados observados en una muestra son representativos y se pueden asociar a los tratamientos y no se deben únicamente al azar. Por medio una simulación validemos algunos de estos resultados.
N1=c(rep(x=1,100),rep(x=0,900))
N2=c(rep(x=1,150),rep(x=0,1350))
diferencias_de_p=function(m){
p_1=(sum(sample(N1,size=m))/m)
p_2=(sum(sample(N2,size=m))/m)
dif_p=p_1-p_2
return(dif_p)
}
diferencias_de_ps=sapply(rep(40,1000),diferencias_de_p)
print("RESUMEN ESTADISTICO")
## [1] "RESUMEN ESTADISTICO"
summary(diferencias_de_ps)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.2250 -0.0500 0.0000 -0.0024 0.0500 0.2000
hist(diferencias_de_ps, main = "Histograma", ylab = "Frecuencia", col = "red", xlab=expression(paste(Delta,"P")),xlim = c(-0.3,0.3))
layout(matrix(c(1:1), nrow=2, byrow=FALSE))
#layout.show(12) # Muestra las doce particiones
N=c(5,10,15,20,30,50,60,100,200,500,800)
for(i in N){
diferencias_de_ps1=sapply(rep(i,1000),diferencias_de_p)
print("RESUMEN ESTADISTICO")
print(summary(diferencias_de_ps1))
hist(diferencias_de_ps1, main = paste("Histograma n=",i), ylab = "Frecuencia", col = "red", xlab=expression(paste(Delta,"P")),xlim = c(-0.5,0.5))
legend(x = "topleft", legend = c("Desviación Standar=",sd(estimadores), "Shapiro Wilks", shapiro.test(diferencias_de_ps1)), title = "Estadísticos")
qqnorm(diferencias_de_ps1, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
qqline(diferencias_de_ps1, col = "red")
}
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.800 0.000 0.000 0.011 0.200 0.600
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -4e-01 -1e-01 0e+00 -2e-04 1e-01 5e-01
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.4000000 -0.0666667 0.0000000 -0.0007333 0.0666667 0.4000000
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.30000 -0.05000 0.00000 0.00235 0.05000 0.35000
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.266667 -0.033333 0.000000 0.002733 0.066667 0.233333
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.18000 -0.04000 0.00000 0.00092 0.04000 0.18000
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.1666667 -0.0333333 0.0000000 -0.0007167 0.0333333 0.1500000
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.1400 -0.0300 0.0000 -0.0006 0.0300 0.1400
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.0900 -0.0150 0.0000 -0.0006 0.0150 0.0800
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.054000 -0.008000 0.001000 0.001134 0.012000 0.052000
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.02625 -0.00625 0.00000 -0.00018 0.00500 0.02500
N_1=c(rep(x=1,100),rep(x=0,900))
N_2=c(rep(x=1,225),rep(x=0,1275))
diferencias2_de_p=function(m){
p_1=(sum(sample(N_1,size=m))/m)
p_2=(sum(sample(N_2,size=m))/m)
dif_p=p_2-p_1
return(dif_p)
}
layout(matrix(c(1:1), nrow=2, byrow=FALSE))
#layout.show(12) # Muestra las doce particiones
N=c(5,10,15,20,30,50,60,100,200,500,800)
for(i in N){
diferencias_de_ps2=sapply(rep(i,1000),diferencias2_de_p)
print("RESUMEN ESTADISTICO")
print(summary(diferencias_de_ps2))
hist(diferencias_de_ps2, main = paste("Histograma n=",i), ylab = "Frecuencia", col = "green", xlab=expression(paste(Delta,"P")),xlim = c(-0.2,0.2))
legend(x = "topleft", legend = c("Desviación Standar=",sd(estimadores), "Shapiro Wilks", shapiro.test(diferencias_de_ps2)), title = "Estadísticos")
qqnorm(diferencias_de_ps2, xlab="Cuantiles teóricos", ylab="Cuantiles muestrales",las=1,main="")
qqline(diferencias_de_ps2, col = "red")
}
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.600 0.000 0.000 0.051 0.200 0.800
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.4000 0.0000 0.0000 0.0503 0.1000 0.5000
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.33333 -0.06667 0.06667 0.04720 0.13333 0.40000
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.3000 0.0000 0.0500 0.0548 0.1125 0.4500
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.16667 0.00000 0.03333 0.04687 0.10000 0.30000
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.1800 0.0000 0.0500 0.0491 0.1000 0.2800
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.18333 0.01667 0.05000 0.05043 0.08333 0.31667
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.10000 0.02000 0.05000 0.04917 0.08000 0.20000
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.04500 0.03000 0.05000 0.05121 0.07000 0.14500
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.01800 0.04000 0.05000 0.04983 0.06200 0.10200
## [1] "RESUMEN ESTADISTICO"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.01250 0.04375 0.05000 0.04966 0.05500 0.08375
¿Qué puede concluir? ¿Existen puntos en los cuales es posible que se observen diferencias de p1- p2 bajo ambos escenarios (escenario 1: sin diferencias entre P1 y P2, escenario 2: diferencia de 5%)?
Para una baja cantidad de muestras n1=n2<30 se observa que no existen diferencias considerables entre p1 y p2 pero a medidad que crece considerablemente la cantidad de muestras se hace claro la diferencia de p1-p2 de un 5%. En este sgundo escenario se puede ver claramente que si se tomas dos poblaciones y de ellas se sacan las muestras tambien es posible conseguir a medida que las muestra sean mas significativas que se aproxime los promedios a los promedios de la población.
El artículo muestra un ejemplo claro de una escasa comprensión conceptual de un parámetro estadístico usado para la determinación de conclusiones bajo la aprobación de alguna hipótesis en problemas concretos de investigación. Se muestra claramente cómo la investigación realizada por Motyl y su asesor Brian Nosek, arrojaba conclusiones desafortunadas y poco precisas sobre la validación de una hipótesis que los políticos moderados veían los tonos grises con mayor precisión que los extremistas de derecha o de izquierda. Es decir; que la tendencia o posición política podría llegar a sesgar la percepción visual de un tono de color algo que a la luz de la primera revisión sonaba bastante atractivo pues los datos eran el sustento mas fuerte para validar la hipótesis ya mencionada.
Sin embargo, y aun cuando el tratamiento estadístico y el valor P, permitían afirmar la veracidad de la hipótesis la reproducibilidad del experimento resulto por llevar el estudio completamente a pique. No existía reproducción alguna del mismo resultado al realizar sistemáticamente repetitividad del mismo. Entonces que puede estar mal ¿es acaso la interpretación del valor de P? ¿el desconocimiento del contexto en el que se desarrollan los experimentos que puede generar sesgos para la interpretación de resultados?
Sin duda las respuestas a las preguntas anteriores tiene mucho que ver con lo que le sucedió a Motyl y Nosek, aunque en este caso fueron prudente a la luz de sus primeros resultados y prefirieron realizar un número mayor de pruebas sacando otras muestras antes que correr a concluir y publicar en alguna revista científica los resultados de su investigación, preocupa un poco más cuan cantidad de investigaciones no tuvieron esta precaución y terminaron publicando resultados que no corresponden con la realidad.
El significado del estadístico de valor P suele ser muy confuso, y en general no se puede explicar con una definición concreta que lo deje totalmente claro. Pero en si mismo para comprender un poco el valor P, es necesario solucionar algunas cuestiones previas; por ejemplo, cuando queremos emprender un estudio es imposible censar a toda la población y es por ello que recurrimos a elegir una muestra representativa de la población para la cual el promedio este muy próximo al promedio de la población.
Pero la elección de la muestra trae consigo el problema del azar, si se hace representativa podrimos garantizar que el valor medio esta muy próximo al valor de la población, pero, aun así y por el mismo motivo, no podemos nunca estar seguros de que la conclusión que se extraiga con las muestras se cumpla en la población a la que no podemos acceder en su globalidad. Ello es una pésima noticia, sin embargo, la buena noticia es que el azar se puede reducir al máximo y medir el efecto o ruido que adiciona a la medición de la variable de interés. A esto se le denomina contraste de hipótesis.
En todo estudio estadístico se define una hipótesis nula H0, que por convenio se considera ciertas mientras no se demuestre lo contrario y adicionalmente se define una hipótesis alternativa que suele ser la negación de la hipótesis H0. Ahora, garantizando que la muestra no tiene grandes diferencias con la población se calcula la probabilidad de que el valor sea muy diferente al valor promedio de la muestra hallado, generalmente se realiza usando una distribución de probabilidad. Si la probabilidad es alta, diremos que la diferencia se debe al azar y que no es probable que se cumpla en la población. Pero si la probabilidad de obtener este valor por azar es muy baja, podremos decir que, probablemente, sí existe una diferencia real. Dicho de otro modo, rechazaremos la hipótesis nula y abrazaremos la alternativa. Y es esto lo que significa el valor P.
Por convenio suele establecerse que si este valor de probabilidad es menor del 5% es lo suficientemente improbable que se deba al azar como para rechazar con una seguridad razonable la H0 y afirmar que la diferencia es real. Cuando es mayor al 5%, no se podrá negar que la diferencia observada sea obra del azar. En general el valor de p es simplemente la cuantificación de la probabilidad de que la diferencia de resultado se deba al azar. Pero existe demasiada confusión sobre el significado de p, entre ellos:
• El valor de p significa la probabilidad de que la hipótesis sea cierta. • Un valor de p<0,05 significa que la hipótesis nula es falsa o por el contrario p>0,05 significa que la hipótesis nula sea cierta. • En cuanto mas pequeño sea el valor de p, mas fiable es el resultado del estudio.
Esta ultima es sin duda la confusión mas grande que tiene el estudio de Motyl y Nosek.