1 - El Teorema del Limite Central es uno de los mas importantes en la inferencia estadística y habla sobre la convergencia de los estimadores como la proporción muestral a la distribución normal. Algunos autores afirman que esta aproximación es bastante buena a partir del umbral n>30.
a - Creaciòn del espacio muestreal del conjunto de dato.
Para crear el conjunto muestreal de N=1000 de las 3 poblaciones, usamos las constantes n1=500, n2=900 y n3=100 de la forma (plantas enfermas = 0):
Lote de 90% plantas enfermas:
lote90 = c(rep(1, n3), rep(0, n2))
Lote de 50% plantas enfermas:
lote50 = c(rep(1, n1), rep(0, n1))
Lote de 10% plantas enfermas:
lote90 = c(rep(1, n2), rep(0, n3))
b - Genere una función que permita obtener una muestra aleatoria de la población y calcule el estimador de la proporción muestral para un tamaño de muestra dado n.
poblacion <- function(s, lote) {
muestra <- sample(lote, size = s)
return(sum(muestra == 0) / s)
}
estimadores <- function(lotes, n){
m = array(NA, n)
for(k in 1:n){
m[k] <- poblacion(n, lotes)
}
return(m)
} c - Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores. ¿Qué tan simétricos son los datos?, ¿Son sesgados y que pasa en cuanto a variabilidad?.
* Al observar la grafica de estimación de 500, se observa que la media de la muestra tiende a 0.5 que es la media real del Lote del 50% de plantas enfermas. Por lo cuál a mayor estimación, la media tiende al valor real muestreal concentrando los datos al rededor de la misma haciendo que la desviacion estandard tienda a cero. La grafica presenta una distribución normal y simétrica.
d - Realice los ejercicios completos b y c para tamaños de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores en cuanto a la normalidad. Investigue y utilice pruebas de bondad y ajuste (shapiro wilks) y métodos gráficos (grafico qq de normalidad).
El test de Shapiro-Wilk se usa para contrastar si un conjunto de datos siguen un comportamiento de una distribución normal en muestras compuestas por menos de 50 elementos, donde p-value representa la significancia relacionado con un intervalo de confianza de 5% (0,05) para el rechazo o aceptación de las siguientes hipótesis estadísticas:
* La desviacion estandard (sd) es inversamente proporcional al crecimiento de la muestra. A mayor cantidad de datos hace que la desviación estandar disminuya.
* Apartir de la estimación 30 es posible observar, en la curvar de densidad, el comportamiento normal asimetrico o simetrico del conjunto de datos del estimador.
* Los estimadores son variables aleatorias; por tanto, siguen las reglas de las variables aleatorias. Por lo cuál, el estimador es confiable cuando su representación en conjuntos de datos es bastante grande.
2 - La comparación de tratamientos es una practica fundamental en las ciencias agropecuarias y para esto a nivel estadístico se cuenta con algunas herramientas para apoyar el proceso de toma de decisiones y lograr concluir con algún grado de confianza que los resultados observados en una muestra son representativos y se pueden asociar a los tratamientos y no se deben únicamente al azar. Por medio una simulación validemos algunos de estos resultados.
a - Suponga un escenario en el cual usted aplicó tratamientos diferentes a dos lotes y desea analizar si alguno de los dos presenta un mejor desempeño en el control de una plaga presente en ambos al momento inicial. Para ello utilizara como criterio de desempeño el tratamiento que menor % de plantas enfermas presente después de un tiempo de aplicación (es decir si se presentan o no diferencias en las proporciones de enfermos P1 y P2). Realice una simulación en la cual genere dos poblaciones de N1=1000 (Lote1) y N2=1500 (Lote2) además asuma que el porcentaje de individuos (plantas) enfermas en ambos lotes sea la misma 10% (es decir sin diferencias entre los tratamientos).
Se crea los espacios muestreales P1 y P2 donde:
Lote P1 con el 10% de plantas enfermas con N=1000 individios:
P1 = c(rep(1, 900), rep(0, 100))
Lote P2 con el 10% de plantas enfermas con N=1500 individuos:
P2 = c(rep(1, 1350), rep(0, 150))
b - Genere una función que permita obtener una muestra aleatoria de los lotes y calcule el estimador de la proporción muestral para cada lote (p1 y p2) para un tamaño de muestra dado n1=n2. Calcule la diferencia entre los estimadores p1-p2.
muestra_plob <- function(s, lote1, lote2) {
muestra1 <- sample(lote1, size = s)
muestra2 <- sample(lote2, size = s)
P1 <- sum(muestra1 == 0) / s
P2 <- sum(muestra2 == 0) / s
P1P2 <- P1 - P2
List <- list(P1 = P1, P2 = P2, P1P2 = P1P2)
return(List)
}
estimadores_plob <- function(n, lote1, lote2){
m0 <- array(NA, n)
m1 <- array(NA, n)
m2 <- array(NA, n)
for(k in 1:n){
list <- muestra_plob(n, lote1, lote2)
m0[k] <- list$P1
m1[k] <- list$P2
m2[k] <- list$P1P2
}
m <- list(P1 = m0, P2 = m1, P1P2 = m2 )
return(m)
} c - Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores (diferencias p1-p2). ¿Qué tan simétricos son los datos?, ¿Son siempre cero las diferencias?.
* En el estimador 500, la curva resultantes de la operación P1-P2 es continua y de aproximación simétrica, de igual forma, al observar la grafica QQ muestra una discontinuidad a los extremos de la curva de distribución.
d - Realice los puntos b y c para tamaños de muestra n1=n2=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores (p1-p2) en cuanto a la normalidad. También analice el comportamiento de las diferencias y evalué si. ¿Considera que es mas probable concluir que existen diferencias entre los tratamientos con muestras grandes que pequeñas, es decir cual considera usted que es el efecto del tamaño de muestra en el caso de la comparación de proporciones?
e - Ahora realice nuevamente los puntos a-d bajo un escenario con dos lotes pero de proporciones de enfermos diferentes (P1=0.1 y P2=0.15), es decir el tratamiento del lote 1 si presento un mejor desempeño reduciendo en un 5% el porcentaje de enfermos. Bajo este nuevo escenario compare la distribución de estas diferencias (p1-p2) con las observadas bajo igualdad de condiciones en los lotes. ¿Qué puede concluir? ¿Existen puntos en los cuales es posible que se observen diferencias de p1-p2 bajo ambos escenarios (escenario 1: sin diferencias entre P1 y P2, escenario 2: diferencia de 5%)
* La diferencia de la proporción de la muestra real es P1-P2 = 0.1 - 0.15 = -0.05 = -5%. Cuando realizamos P1-P2 en la simulación del estimador 500 (estimador con mayor representación de caracteristicas de lo datos), observamos que la media tambien esta al rededor de -0.05 igual que la muestra real.
* La simulación del estimador en la muestra de P1, tiene un comportamiento menos normal que P2 y P1-P2, debido a que la muestra tiene una menor proporcion de plantas enfermas, de igual forma, P1 (Histograma) muestra mas discontinuidades que en la demás representaciones.
3 - Con base a los artículos “Statistical Errors: P values, the gold standard of statistical validity, are not as reliable as many scientists assume” escriba un resumen (máximo 2 paginas) sobre el artículos e incluya en este sus opiniones en cuanto al uso del valor p.
En un estudio realizado por Matt Motyl en el 2010, sobre de como los extremistas políticos ven el mundo, en un estudio de 2000 personas, el valor P para esta prueba fue del 0.01 (su interpretación actual muy significativo). El estudio genero controversia, por tal motivo Motyl y Brian Nosek, decidieron replicar el estudio. Con datos adicionales, el valor de P resultó ser de 0.59, ni siquiera comparado al valor convencional 0.05, lo cual hizo que los efectos de motivación por esta investigación se perdiera. Por tal motivo los científicos concluyen que el valor de P no esta confiable como se pensaba. En el 2005, el epidemiólogo John Ioannidis, de la Universidad de Stanford, sugirió que muchos de los resultados publicado hasta la fecha son falso, por lo tanto, los estadísticos están buscado las mejores forma de evaluar datos.
Un investigador sugirió rebautizar la metodología con el nombre de “prueba de inferencia de hipótesis estadística”. Cuando el estadístico británico Ronald Fisher introdujo el valor P en la década de 1920, no pretendía que fuera una prueba definitiva. Pretendía que fuera simplemente una forma informal de juzgar si las pruebas eran significativas y dignas de una segunda mirada. La idea era llevar a cabo un experimento y ver si los resultados eran coherentes. Los investigadores establecían primero una “hipótesis nula” que querían refutar. Suponiendo que la hipótesis nula fuera cierta, calculaban la probabilidad de obtener resultados al menos como los observados.
A pesar de la aparente precisión del valor P, Fisher pretendía que fuera sólo una parte de un proceso fluido y no numérico que mezclaba datos y conocimientos previos para llegar a conclusiones científicas. Pero pronto se vio envuelto en un movimiento para que la toma de decisiones basada en la evidencia fuera lo más rigurosa y objetiva posible. Este movimiento fue encabezado a finales de la década de 1920 por los acérrimos rivales de Fisher, el matemático polaco Jerzy Neyman y el estadístico británico Egon Pearson, que introdujeron un marco alternativo para el análisis de datos que incluía la potencia estadística, los falsos positivos, los falsos negativos, dejando de lado el valor P. Otros investigadores perdieron la paciencia y empezaron a escribir manuales de estadística y crearon un sistema híbrido que mezcla el valor P de Fisher, fácil de calcular, en el sistema basado en reglas de Neyman y Pearson. Fue entonces cuando un valor P de 0,05 se consagró como “estadísticamente significativo”.
Retomando el trabajo de Matt Motyl sobre como los extremistas políticos ven el mundo, un valor P de 0,01 corresponde a una probabilidad de falsa alarma de al menos el 11%, dependiendo de la probabilidad subyacente de que haya un efecto verdadero; un valor P de 0,05 eleva esa probabilidad de al menos el 29%. Por lo tanto, el hallazgo de Motyl tenía más de una probabilidad entre diez de ser una falsa alarma. Asimismo, la probabilidad de replicar su resultado original no era del 99%, sino de algo más cercano al 73%, o sólo del 50%, si quería otro resultado “muy significativo”.
A pesar de las críticas de valor P, la reforma ha sido lenta. “El marco básico de la estadística no ha cambiado prácticamente desde que Fisher, Neyman y Pearson lo introdujeron”, dice Goodman. En la actualidad, Ioannidis está estudiando la base de datos de PubMed en busca de información sobre cómo los autores de muchos campos utilizan los valores P y otras pruebas estadísticas.. Cualquier reforma tendría que arrasar con una cultura arraigada. Tendría que cambiar la forma en que se enseña la estadística, cómo se realiza el análisis de datos y cómo se comunican e interpretan los resultados. Pero al menos los investigadores están admitiendo que tienen un problema.
En términos más generales, los investigadores deben darse cuenta de los límites de la estadística convencional, afirma Goodman. En su lugar, deben introducir en sus análisis elementos de juicio científico sobre la plausibilidad de una hipótesis y las limitaciones del estudio que normalmente se destierran a la sección de discusión: resultados de experimentos idénticos o similares, mecanismos propuestos, conocimientos clínicos, etc.