Inferencia Estadística y Simulación

  1. El Teorema del Límite Central es uno de los más importantes en la inferencia estadística y habla sobre la convergencia de los estimadores como la proporción muestral a la distribución normal. Algunos autores afirman que esta aproximación es bastante buena a partir del umbral n>30.
##  [1] 0 1 1 0 1 1 1 1 1 1 1 0 0 1 0 1 0 1 0 1 1 0 0 1 0 0 0 0 1 1 0 0 0 0 0 0 0 0
## [39] 0 1 1 1 1 1 1 1 1 1 1 1 0 0 1 0 1 0 1 0 1 0 0 1 1 0 1 0 0 0 1 0 1 1 0 1 1 1
## [1] "Para un tamaño de muestra de 33 se obtuvo un estimador de 0.454545454545455"

Resultados de la Muestra
Tamaño.Población Tamaño.Muestra Media Límite.Inferior Límite.Superior p.Value Probabilidad.de.Éxito Intérvalo.de.Confianza
10000 406 0.5007192 0.4515928 0.5484072 1 0.5 95%
Como se puede apreciar tanto en la figura como en la tabla anterior, la media calculada para la muestra corresponde a la limitación que se tiene para la población, es decir, 50% de plantas enfermas.
También se puede identificar que a causa de la limitación de la población los límites del intérvalo de confanza son próximos a la media de la población. Estos límites se encuentran definidos por el área sombreada en rojo.
En las simulaciones ejecutadas se han encontrado en la mayoría de los casos valores de p-Value superiores al 0.6*, es decir que en todos los casos se ha aceptado la hipótesis nula, que implica que el 50% de plantas están enfermas.
*Esto está supeditado al tamaño de la muestra y a la muestra como tal, puede diferir en algunas ocasiones al ser aleatoria.
  • Realice los ejercicios completos b y c para tamaños de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores en cuanto a la normalidad. Investigue y utilice pruebas de bondad y ajuste (shapiro wilks) y métodos gráficos (grafico qq de normalidad).
Comparación de resultados P value
Tamaño.Muestra Media.Estimador P.value
5 0.5032 6.73e-15
10 0.511 5.19e-10
15 0.499733333333333 7.02e-08
20 0.5043 2.5e-06
30 0.5006 1.17e-05
50 0.49432 0.00177
60 0.497933333333333 0.00182
100 0.49564 0.031
200 0.49968 0.0767
500 0.49884 0.615
Como se observa en los resultados, los valores del estimador para una muestra pequeña no son continuos, la media del estimador, aunque se aproxima a la media de la población el valor de P es muy bajo, indicando una probabilidad de ocurrencia mínima que permitiría rechazar a primera vista la hipótesis. También podemos apreciar que la gráfica qq los valores se encuentran dispersos alrededor de la línea teórica de la normal para muestras pequeñas.
A medida que el número de muestras aumenta, se aprecia como poco a poco los valores se acercan la línea teórica de la normal, además, se generan valores del estimador alrededor de la media de la población. En el mismo sentido, se observa cierta simetría en relación a una función normal alrededor de la media del parámetro. La proyección es que a medida que la muestra va aumentando el valor de P va a seguir acercándose a un valor ideal.
Con un número de muestras de 60 sobre la población, se observa una gráfica mucho más continua y uniforme al valor de la media de la población. El valor de P en este punto ha mejorado ampliamente comparándolo con la primera muestra de 5.
Los cambios alrededor del valor de P siguen siendo continuos y los valores del estimador siguen su alineación con la línea teórica de la normal en la medida que aumenta el número de muestras.
En este punto vemos una gráfica del estimador con forma simétrica alrededor de la media de población con valores continuos; además, el valor de P a alcanzado un valor relativamente cercano al esperado, con un valor alrededor de 0.25.
  • Repita toda la simulación (puntos a – d) pero ahora con lotes con 10% y 90% de plantas enfermas. Concluya todo el ejercicio.
10 % de plantas enfermas:
Comparación de resultados P value para 10% de Plantas Enfermas
Tamaño.Muestra Media.Estimador P.value
5 0.104 5.47e-28
10 0.0964 1.63e-22
15 0.1028 9.95e-19
20 0.1035 1.15e-15
30 0.0955333333333333 8.67e-12
50 0.09736 4.01e-07
60 0.0991 2.44e-07
100 0.10036 3.96e-05
200 0.1012 0.00869
500 0.099456 0.0229
90 % de plantas enfermas:
Comparación de resultados P value para 90% de Plantas Enfermas
Tamaño.Muestra Media.Estimador P.value
5 0.896 2.74e-28
10 0.9036 2.09e-22
15 0.900533333333333 1.19e-17
20 0.9036 2.75e-15
30 0.900866666666667 5.01e-12
50 0.90016 4.58e-08
60 0.900666666666667 3.31e-09
100 0.90072 1.59e-06
200 0.89783 0.00131
500 0.900072 0.0056

Conclusiones Punto 1

  • Los valores pequeños de muestras no arrojan simetría alrededor de la media de la población.

  • Mientras las muestras sean más pequeñas el estimador tendrá menos valores continuos, lo que se refleja en vanos dentro de una gráfica.

  • Lo mismo sucede con el valor de P, en la medida que las muestras sean más pequeñas este valor se aleja mucho más del valor esperado, de las simulaciones encontramos valores de hasta 3.33e-28 lo que definitivamente rechazaría cualquier hipótesis.

  • A medida que aumentan las muestras el valor de P se acerca más a un valor óptimo que permitiría aceptar la hipótesis planteada.

  • Gráficamente, los resultados con muestras más pequeñas se dispersan alrededor de la línea teórica de la normal; mientras que cuando las muestras son mayores estos valores se agrupan sobre la línea teórica de la normal.

  • Aunque la media del parámetro sea muy cercana al valor de la media de la población, para valores de muestra muy pequeños el resultado del p-Value rechazaría cualquier hipótesis, por lo que se recomienda estimar muy bien los tamaños de las muestras y evitar resultados sesgados.

  1. La comparación de tratamientos es una práctica fundamental en las ciencias agropecuarias y para esto a nivel estadístico se cuenta con algunas herramientas para apoyar el proceso de toma de decisiones y lograr concluir con algún grado de confianza que los resultados observados en una muestra son representativos y se pueden asociar a los tratamientos y no se deben únicamente al azar. Por medio una simulación validemos algunos de estos resultados.
  • Suponga un escenario en el cual usted aplicó tratamientos diferentes a dos lotes y desea analizar si alguno de los dos presenta un mejor desempeño en el control de una plaga presente en ambos al momento inicial. Para ello utilizará como criterio de desempeño el tratamiento que menor % de plantas enfermas presente después de un tiempo de aplicación (es decir, si se presentan o no diferencias en las proporciones de enfermos P1 y P2). Realice una simulación en la cual genere dos poblaciones de N1=1000 (Lote1) y N2=1500 (Lote2), además asuma que el porcentaje de individuos (plantas) enfermas en ambos lotes sea la misma 10% (es decir, sin diferencias entre los tratamientos).
##  [1] 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 1 0 0 1 0 0 0 0 0 1
## [39] 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0
## [1] "Estimador de la población N1 es: 0.105"
##  [1] 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 1 0 0 1 0 0 0 0 0 1 0
## [39] 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0
## [1] "Estimador de la población N2 es: 0.1125"
  • Genere una función que permita obtener una muestra aleatoria de los lotes y calcule el estimador de la proporción muestral para cada lote (p1 y p2) para un tamaño de muestra dado n1=n2. Calcule la diferencia entre los estimadores p1-p2.
## [1] "El cálculo del estimador para N1 es: 0.085 El cálculo del estimador para N2 es: 0.105 Y la diferencia entre ambos es de: -0.02"
  • Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores (diferencias p1-p2). ¿Qué tan simétricos son los datos?, ¿Son siempre cero las diferencias?

Como se observa en las gráficas anteriores, los resultados para N1 presentan forma simétrica al rededor de la media (10% o 0.1), esto se debe al tamaño de la muestra escogida (n = 400), lo mismo aplica para N2. Para que las gráficas sean continuas es necesario ampliar el tamaño de la muestra o la población.
La diferencia entre los estimadores de N1 - N2 también son simétricos, los valores se encuentran centrados en cero (0) sin embargo no son siempre cero (0), esto debido a que son poblaciones distintas y por efecto mismo de la toma de muestras sobre una población. Sin embargo se encontraron diferencias muy pequeñas, tamaños en el orden de 0.03.
  • Realice los puntos b y c para tamaños de muestra n1=n2=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores (p1-p2) en cuanto a la normalidad. También analice el comportamiento de las diferencias y evalúe. ¿Considera que es más probable concluir que existen diferencias entre los tratamientos con muestras grandes que pequeñas, es decir, cuál considera usted que es el efecto del tamaño de muestra en el caso de la comparación de proporciones?

Como se observa en las gráficas anteriores los resultados de la diferencia presentarían una forma de distribución normal, centrada con media del parámetro en cero (0).
Para valores muy pequeños de muestra (n=5, 10, 15) se observa que la diferencia entre las dos poblaciones es alta, ~0.3; esto nos pudiera llevar a una conclusión errada en el sentido que la diferencia encontrada es significativa, indicando que las poblaciones tienen mucha probabilidad de ser diferentes, aún conociendo de principio lo contrario.
A medida que aumentamos en tamaño de la muestra (n=200, 500) identificamos que la diferencia entre estas poblaciones es pequeña ~0.025 lo cuál nos lleva a una correcta interpretación que las poblaciones tienen mucha probabilidad de ser iguales.
El efecto del tamaño de la muestra n, nos puede inducir a errores en la interpretación de los resultados cuando dicho valor es muy pequeño, por tanto, es recomendable realizar una buena estimación del tamaño de la muestra para evitar resultados sesgados.
  • Ahora realice nuevamente los puntos a-d bajo un escenario con dos lotes, pero de proporciones de enfermos diferentes (P1=0.1 y P2=0.15), es decir, el tratamiento del lote 1 si presentó un mejor desempeño reduciendo en un 5% el porcentaje de enfermos. Bajo este nuevo escenario compare la distribución de estas diferencias (p1-p2) con las observadas bajo igualdad de condiciones en los lotes. ¿Qué puede concluir? ¿Existen puntos en los cuales es posible que se observen diferencias de p1- p2 bajo ambos escenarios (escenario 1: sin diferencias entre P1 y P2, escenario 2: diferencia de 5%)?

  • A medida que disminuye el tamaño de la muestra las diferencias son más marcadas, se observan valores ~+/-0.6, mientras que para tamaños de muestra grandes las diferencias se reducen entre ~0.075 a ~0.025.
  • Al igual que para el punto anterior, tamaños pequeños de números de muestra presentan resultados sesgados y nos inducen a una hipótesis errada, mientras que muestras más grandes nos acercan al resultado esperado.
  • Con respecto a los resultados podemos concluir que la hipótesis es válida, es decir, que se presentó un mejor desempeño reduciendo en un 5% el porcentaje de plantas enfermas. El histográma evidencia una distribución normal con media en ~-0.05, indicando que el el tratamiento en el lote 1 presentó mejores resultados que en lote 2.
  • 3. Con base a los artículos “Statistical Errors: P values, the gold standard of statistical validity, are not as reliable as many scientists assume” & “Statisticians issue warning on P values: Statement aims to halt missteps in the quest for certainty” escriba un resumen (máximo 2 páginas) sobre ambos artículos e incluya en este sus opiniones en cuanto al uso del valor p como criterio de decisión en inferencia estadística.

    En relación con el artículo debemos iniciar con la especificación de cuáles son los valores esperados o estimados para un óptimo resultado de los cálculos del p-value; dicho esto, son considerados resultados estadísticamente significantes valores de p entre 0.01 y 0.05, mientras más pequeño sea este valor las probabilidades de rechazar la hipótesis nula aumenta; pero, los resultados de cualquier estudio realizado no deben ser tomados a la ligera y deben ser soportados por más evidencia.

    Esto último, cobra gran sentido al momento de replicar los eventos; destacamos para ello los resultados de Matt Motyl et al indicados en [1] donde se obtuvieron valores muy significantes, con evidencia de 0.01 pero al momento de replicar el estudio con información adicional se obtuvieron resultados del orden de 0.59, demasiado alejados de lo esperado. También resalta que esta evidencia corresponde a la naturaleza del valor de p, complementando que “el valor de p no realiza su trabajo, porque no puede” [1].

    Dentro del artículo se relaciona una anotación muy importante entorno a la utilización de p-value por parte del estadístico Ronald Fisher el cual indica que dicho resultado no representa una prueba definitiva, sino que es una manera simple e informal para validar la significancia de los resultados. Fisher detalla que el objetivo es ejecutar un experimento y validar si los resultados sobre una muestra son consistentes.

    Es por eso que las conclusiones no solamente se deben basar en los resultados obtenidos del valor de p, que podrían inducir a afirmaciones falsas. Lo que permite por el contrario es resumir los datos basados en una hipótesis especificada.

    Dado que el solo valor de p no es concluyente, este debe ser complementado con más evidencias para soportar una hipótesis, indistintamente del valor que este tenga. Es necesario aclarar que ese valor de p conlleva una probabilidad de ocurrencia de eventos catalogados como “falsas alarmas”, que a medida que el valor de p disminuye esa probabilidad de falsa alarma aumenta, por ejemplo, para 0.05 se estima una probabilidad del 29%.

    Estas particularidades detrás del valor de p causan efecto sobre la probabilidad de replicabilidad de los estudios, es claro que esta probabilidad no corresponde al 99% pero se puede acercar a valores entre el 50% y el 73% para obtener resultados muy significantes.

    Por otra parte, Geoff Cummin anota que la significancia no es un indicador práctico; sino que en su lugar deberíamos cuestionarnos sobre ¿Cuándo efecto existe?, por ello propone complementar los resultados con el tamaño de los efectos y los intervalos de confianza y alejarse un poco de la simple premisa si los resultados son o no significativos.

    Uri Simonsohn acuña el término p-hacking, que resulta del hecho de intentar múltiples cosas hasta obtener el resultado deseado.

    Al igual que otros autores, concordamos en emplear múltiples métodos para el mismo conjunto de datos con la finalidad de obtener más evidencias para complementar los resultados de los cálculos del valor de p. El objeto de este análisis múltiple es comprender un poco más a fondo la realidad del comportamiento de los datos bajo estudio. Por ello, se considera relevante destacar todas las consideraciones o asunciones, tamaño de las muestras y cualquier exclusión involucrada.

    También concordamos en un análisis exploratorio de dos etapas, enfocado en realizar dos pequeños análisis exploratorios de los datos con la finalidad de identificar particularidades potencialmente interesantes sin la necesidad de preocuparnos sobre las falsas alarmas [1]. Teniendo como base estos dos análisis podemos conducir el estudio a confirmar estos comportamientos identificados en las muestras tomadas.

    [1] R. Nuzzo. "Statistical errors: P values, the 'gold standard' of statistical validity, are not as reliable as many scientists assume." Nature, vol. 506, no. 7487, pp. 150+, 13 Feb. 2014. Consultado Mar. 02, 2022. Disponible en: link.gale.com/apps/doc/A362064378/HRCA?u=anon~69369c4d&sid=googleScholar&xid=33e82427.