Pontificia Universidad Javeriana Cali

Curso: Métodos y simulación estadística

Tema: Teorema del Límite Central

INTRODUCCIÓN

Según la teoría estadística investigada sobre el Teorema del Límite Central destacan cuatro aspectos fundamentales para la compresión del mismo:

  1. Sin importar la distribución de la población el teorema las medias muestrales tienen una distribución normal. Es decir que la forma de la distribución muestral tiende a ser acampanada a medida que se incrementa el tamaño muestral, y aproximadamente normal, independientemente de la forma de la distribución en la población

  2. Que la media de esa distribución de las medias muestrales coinciden con las medias de la población, es decir las medias muestrales están apuntando o se están centrando en el valor de interés. Es decir que la media de la distribución muestral es igual a la media de la población, e igual a la media de una muestra cuando el tamaño de la muestra tiende al infinito

  3. Que la varianza de esa distribución de las medias muestrales, está relacionada con la varianza de población a medida que aumenta el tamaño de la muestra, es decir que n sea más grande esta variabilidad disminuye, eso hace que la distribución de las medias muestrales este mucho más concentradas alrededor del miu. La varianza de la distribución muestral es menor que la de la población (cuando n > 1).

En resumen el Teorema del Límite Central nos sirve para saber si la distribución de probabilidad de los promedios de las muestras de una población se comportan como una distribución normal.

Inferencia estadística y simulación

El Teorema del Límite Central es uno de los más importantes en la inferencia estadística y habla sobre la convergencia de los estimadores como la proporción muestral a la distribución normal. Algunos autores afirman que esta aproximación es bastante buena a partir del umbral n>30.

Punto 1

a. Realice una simulación en la cual genere una población de \(N=1000\) (Lote) y además que el porcentaje de individuos (plantas) enfermas sea del \(50\%\).

A continuación se muestra la población \(N1\) de Tamano 1000, producto de juntar 2 vectores de igual Tamano que contienen 500 ceros para indicar plantas sanas y 500 unos para indicar plantas enfermas, teniendo un \(50\%\) de plantas enfermas en la población (es decir un parámetro de proporción \(P=0.5\)).

N1 <- c(rep(0,500),rep(1,500))

b. Genere una función que permita obtener una muestra aleatoria de la población y calcule el estimador de la proporción muestral para un tamaño de muestra dado n.

Dada la población \(N1\) entonces generamos la función muestra que recibe un tamaño de muestra nn:

muestra <- function(nn){
  
  muestra <- sample(N1,nn)
  estimador <- sum(muestra)/nn
  print(estimador)  
}

Como la muestra es un vector de ceros y unos, entonces la suma será semejante al conteo de número de unos (plantas enfermas) en la muestra, y al dividirlo por el tamaño de muestra, da como resultado la estimación de la proporción de plantas enfermas, que en este caso, con un tamaño de muestra \(nn=30\) fue del 63,3%.

muestra(30)  
## [1] 0.6333333

c. Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores. ¿Qué tan simétricos son los datos?, ¿Son sesgados y qué pasa en cuanto a variabilidad?

Ahora, con un tamaño de muestra igual a 30, repetiremos el ejercicio anterior 500 veces y lo guardaremos en el vector estimadores:

estimadores <- c()

for (i in 1:500) {
    estimadores[i] <- muestra(30)
}

Un histograma de las estimaciones nos muestra la distribución resultante:

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.233   0.433   0.500   0.499   0.567   0.733
## [1] "Desviación estándar: 0.09"

En los gráficos anteriores se presenta el comportamiento de las estimaciones de \(P\) al repetir 500 veces el muestreo con \(n=30\). Se observa que la mayoría de estimaciones obtenidas están alrededor del 0.5. Además, que la mediana y media son 0.500 y 0.499 las cuales son bastantes cercanas para indicar que la distribución de estimaciones es simetrica, así mismo se puede observar que las estimaciones no son sesgadas puesto que las estimaciones se centran al rededor del valor poblacional \(P=0.5\). Respecto a la variabilidad de las estimaciones, se observa que están en el rango comprendido por los valores 0.23 y 0.73, con una desviación estándar de 0.091 indicando que la mayoría de las estimaciones estás dispersas más o menos 0.091 unidades al rededor de la media 0.5.

d. Realice los ejercicios completos b y c para tamanos de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores en cuanto a la normalidad. Investigue y utilice pruebas de bondad y ajuste (shapiro wilks) y métodos gráficos (grafico qq de normalidad).

Para resolver este punto, se utilizan los ciclos for para realizar las 500 estimaciones para cada Tamano de muestra. A continuación se muestran los resultados sobre el comportamiento de las estimaciones, lo p-valores resultado de la prueba Shapiro-Wilk y los gráficos de QQ-plots para normalidad:

En el gráfico anterior se puede observar cómo la distribucion de las estimaciones tiende a tener una menor dispersión de los datos y se centra alrededor del parámetro poblacional \(0.5\), representado por la linea roja.

##  [1] 0.000 0.000 0.000 0.000 0.000 0.000 0.024 0.093 0.097 0.279

Antes de comentar el resultado, se plantea las hipótesis de la prueba Shapiro-Wilk.

\[ H_0: Las \, estimaciones \, provienen \, de \, una \, distribución \, Normal. \\ VS \\ H_1: Las \, estimaciones \,NO \, provienen \, de \, una \, distribución \, Normal. \]

Entonces, con un valor de significancia previa - generalmente de - 5% o de 1% \((\alpha= 0.05,\alpha= 0.01)\), se decidirá rechazar o no rechazar la hipótesis nula \(H_0\), de manera que: Si el p-valor de la prueba es menor a \(\alpha\) entonces se rechazará \(H_0\), y por el contrario, si el p-valor de la prueba es mayor a \(\alpha\) entonces NO se rechaza \(H_0\).

Ahora bien las pruebas de shapiro wilk asociadas a las estimaciones con tamaño de muestra 100 200 y 500 fueron aquellas que arrojaron p-valores mayores. Más especificamente, con una significancia del 5% se asumen como distribuciones normales aquellos vector de estimaciones que fueron simulados con tamaños de muestra 100, 200 y 500.

  qqplots <- grid.arrange(grobs=graficos,ncol=4, heigths= c(4,4,4,4), widths=c(4,4,4,4))

Respecto a los QQ-plots, se puede observar como a medida que el tamaño de muestra aumenta se forma una recta entre los valores teóricos y los valores ordenados de las estimaciones. Gráficamente, un qqplot que forme la gráfica \(y=x\) representa evidencia gráfica a favor de la normalidad, por tanto, la normalidad de las estimaciones se evidencia gráficamente para tamaños de muestra mayores o iguales a 50.

e. Repita toda la simulación (puntos a – d) pero ahora con lotes con 10% y 90% de plantas enfermas. Concluya todo el ejercicio.

Se puede observar que para las distribuciones cuando las muestras son menores, tienden a ser asimetricas hacia el valor poblacional real, y a medida que aumenta el tamaño de muestra, las distribuciones disminuyen la variabilidad y se centran alrededor del parámetro asociado \(P=0.1\) y \(P=0.9\) respectivamente.

##               n= 5 n= 10 n= 15 n= 20 n= 30 n= 50 n= 60 n= 100 n= 200 n= 500
## P-value P=0.1    0     0     0     0     0     0     0      0  0.001  0.004
## P-value P=0.9    0     0     0     0     0     0     0      0  0.000  0.030

En este caso, se puede observar que todos los p-valores dieron por debajo de 0.05, por lo tanto, con una significancia del 5%, se rechaza la hipótesis de normalidad de las estimaciones de P en todos los escenarios simulados. Sin embargo en los gráficos que se presentan a continuación, se observa un comportamiento aparentemente Normal para las estimaciones simuladas con un tamaño de muestra mayor a 200.

Punto 2

a. Realice una simulación en la cual genere dos poblaciones de N1=1000 (Lote1) y N2=1500 (Lote2), además asuma que el porcentaje de individuos (plantas) enfermas en ambos lotes sea la misma 10% (es decir, sin diferencias entre los tratamientos).

Pob1 <-  c(rep(0,900),rep(1,100))
Pob2 <-  c(rep(0,1350),rep(1,150))

b. Genere una función que permita obtener una muestra aleatoria de los lotes y calcule el estimador de la proporción muestral para cada lote (p1 y p2) para un tamaño de muestra dado n1=n2. Calcule la diferencia entre los estimadores p1-p2.

fun_dif <- function(nn){

  n1 = n2 = nn
  dif <- sum(sample(Pob1,n1))/n1 - sum(sample(Pob2,n2))/n2
  print(dif)

}

c. Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores (diferencias p1-p2). ¿Qué tan simétricos son los datos?, ¿Son siempre cero las diferencias?

En teoría, a pesar de ser tamaños de lotes diferentes, los parámetros de proporción de plantas enfermas son los mismos \(P_1=P_2=0.1\) por tanto se espera que las diferencias entre las estimaciones sean igual a cero. Ahora bien, aplicando la simulación para un tamaño de muestra \(n_1=n_2=100\) se muestran a continuación los resultados de las diferencias entre las estimaciones:

##            Indicadores
## min             -0.160
## max              0.110
## media           -0.001
## mediana          0.000
## Desv. Est.       0.042

Se puede observar que las diferencias tienen una media de -0.001, una mediana de 0.00 dando evidencia de lo nombrado en el parrafo anterior, y además, dada la cercania entre la media y la mediana se puede decir que la distribución de los datos es simetrica, lo cual también se aprecia en los gráficos del histográma y el diagrama de cajas, en donde los valores de las diferencias se centran al rededor del cero. Para dar respuesta a si siempre dan cero las diferencias, se observa que la diferencia mínima obtenida fue de -0.16 y la máxima fue de 0.11, es decir que hubo un rango entre las diferencias alrededor de estos valores, por tanto no siempre fueron cero.

d. Realice los puntos b y c para tamaños de muestra n1=n2=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores (p1-p2) en cuanto a la normalidad. También analice el comportamiento de las diferencias y evalúe. ¿Considera que es más probable concluir que existen diferencias entre los tratamientos con muestras grandes que pequeñas, es decir, cuál considera usted que es el efecto del tamaño de muestra en el caso de la comparación de proporciones?

Al igual que en el ejercicio número 1, en el diagrama de cajas se observa que las diferencias entre las estimaciones tienden a tener una menor variabilidad. lo cual se observa también en las estimaciones de los mínimos, máximos y desviaciones estándar. En este caso las medidas de tendencia estuvieron constantemente alrededor del cero, por ejemplo, la mediana igual a cero indica que el 50% de las diferencias estimadas estuvieron por debajo de cero y en contraste el 50% restante estuvieron por encima del cero bajo todos los escenarios simulados.

##            min   max Q2   media     Sd Shapiro p_v
## n= 5   -0.6000 0.800  0  0.0052 0.1875      0.0000
## n= 10  -0.4000 0.400  0 -0.0048 0.1315      0.0000
## n= 15  -0.2667 0.400  0  0.0055 0.1126      0.0000
## n= 20  -0.3000 0.250  0  0.0018 0.0942      0.0000
## n= 30  -0.2333 0.200  0 -0.0014 0.0767      0.0000
## n= 50  -0.1800 0.180  0 -0.0023 0.0551      0.0001
## n= 60  -0.1500 0.200  0 -0.0027 0.0527      0.0002
## n= 100 -0.1200 0.100  0 -0.0007 0.0418      0.0008
## n= 200 -0.0850 0.075  0 -0.0018 0.0284      0.0402
## n= 500 -0.0400 0.042  0  0.0008 0.0144      0.4078

Respecto a la normalidad, con una significancia del 5% las hipótesis a favor de la normalidad de las diferencias se dieron para tamaños de muestra \(n= 200\) y \(n= 500\).

e. Ahora realice nuevamente los puntos a-d bajo un escenario con dos lotes, pero de proporciones de enfermos diferentes (P1=0.1 y P2=0.15). Bajo este nuevo escenario compare la distribución de estas diferencias (p1-p2) con las observadas bajo igualdad de condiciones en los lotes. ¿Qué puede concluir? ¿Existen puntos en los cuales es posible que se observen diferencias de p1- p2 bajo ambos escenarios (escenario 1: sin diferencias entre P1 y P2, escenario 2: diferencia de 5%)?

Teniendo en cuenta los parámetros definidos, en este escenario habrá una diferencia de \(P1-P2= -0.05\) por tanto, es de esperarse que las estimaciones de las diferencias se centren alrededor de dicho valor.

En el diagrama de cajas se observa un comportamiento similar que en bajo las condiciones de \(P_1-P_2=0\) sin embargo las medidas de tendencia central tienden a \(-0.05\) (linea azul), y en particular las distribuciones concentran con menos variabilidad en tamaños de muestra \(n=50\) o mayores. Ahora bien, es posible que bajo el escenario de igualdad de proporciones, se puedan detectar diferencias entre los porcentajes de plantas enfermas, por que no simepre las diferencias fueron 0, especialmente es más posibles que esto ocurra bajo escenarios donde los tamaños de muestra son menores, dado que habrá mayor variabilidad por tanto mayor incentidumbre dada por el azar.

##            min     max      Q2   media     sd Shapiro p_v
## n= 5   -0.6000  0.6000  0.0000 -0.0516 0.2072      0.0000
## n= 10  -0.5000  0.4000  0.0000 -0.0328 0.1433      0.0000
## n= 15  -0.4000  0.2667 -0.0667 -0.0377 0.1141      0.0000
## n= 20  -0.3000  0.2500 -0.0500 -0.0632 0.1003      0.0000
## n= 30  -0.2333  0.2000 -0.0333 -0.0482 0.0836      0.0000
## n= 50  -0.2400  0.1600 -0.0400 -0.0476 0.0675      0.0026
## n= 60  -0.2667  0.1167 -0.0500 -0.0482 0.0601      0.0002
## n= 100 -0.1600  0.0600 -0.0500 -0.0494 0.0415      0.0057
## n= 200 -0.1500  0.0600 -0.0500 -0.0496 0.0303      0.0553
## n= 500 -0.0980 -0.0040 -0.0500 -0.0499 0.0159      0.4353

Punto 3

Con base a los artículos “Statistical Errors: P values, the gold standard of statistical validity, are not as reliable as many scientists assume” & “Statisticians issue warning on P values: Statement aims to halt missteps in the quest for certainty” escriba un resumen (máximo 2 páginas) sobre ambos artículos e incluya en este sus opiniones en cuanto al uso del valor p como criterio de decisión en inferencia estadística.

Entendiendo el significado del p-valor

A continuación, se presenta un resumen y opinión sobre los ensayos “Statistical Errors: P values, the gold standard of statistical validity, are not as reliable as many scientists assume” & “Statisticians issue warning on P values: Statement aims to halt missteps in the quest for certainty”, publicados en el 2014 y en el 2016 respectivamente. Estos dos artículos contienen críticas sobre lo que se considera un uso inadecuado del p-valor, medida que se usa como herramienta estándar, ampliamente utilizada en la toma de decisiones en las pruebas de hipótesis estadísticas.

Primero me gustaría expresar que, según los artículos, se puede definir el p-valor como una medida para conocer la probabilidad de obtener el resultado como el observado (es decir como el obtenido en la muestra), bajo la asunción de que la hipótesis nula es verdadera; así pues, a menor sea el p-valor resultante es menos probable que los datos muestreados respalden la hipótesis nula planteada. Sin embargo, los artículos expresan algunas ocasiones que involucran publicaciones científicas donde expresan resultados con p-valores de forma incorrecta, que tienen que ver con la desarticulación de otra información importante propiamente estadística o práctica y el abuzo del alcance inferencial de esta medida.

En un inicio, al enfrentarnos a experimentos es importante preguntarnos si la hipótesis de investigación que se estoy planteando sea plausible y aporte al entorno científico que me encuentro, es decir, considero de carácter poco serio descubrir si hay diferencias entre la percepción a matices grises entre personas pertenecientes a partidos políticos menos y más extremistas, puesto que se entiende científicamente que la percepción de los colores está dada por capacidades cognitivas más que por pertenecer a un partido político u otro. Por lo tanto, creo que antes de plantear las hipótesis es importante saber qué tan lógica o posible es la hipótesis que quiero plantear y también expresar las experiencias previas frente al experimento que quiero realizar. Por otro lado, aunque el experimento nombrado obtuvo un p-valor = 0.01 que indica una significancia estadística, los problemas de reproducibilidad estuvieron presentes, y al intentar hacerlo se obtuvo un p-valor mucho mayor.

Por otro lado, hablando del alcance, hay que tener en cuenta que el p-valor por definición, recomienda que tan cercana es la posibilidad de que mis datos respalden una hipótesis, sin embargo, no me define que tan grande es la distancia entre mis dos hipótesis y si la significancia estadística se alinea con el tamaño real o práctico de la diferencia. Ejemplo de esto se muestra en el estudio que hacían sobre personas que conocían a sus parejas en el metro y las afirmaciones sobre que eran más felices, puesto que aun obteniendo un p-valor cercano a cero, la diferencia entre las proporciones estimadas entre las dos poblaciones solo era por un par de decimales (5,48% VS 5,64%). Con esto se quiere dar a entender que las diferencias estadísticas no siempre significan una importancia en la realidad.

Pero entonces ¿Los artículos recomiendan no usar el p-valor?, la respuesta es que No. Es decir, nos sugieren seguir usándolos, pero como lo exponen los artículos, el llamado es que no se utilicen como una receta única y rigurosa, sino más bien como Fisher lo pensaba: El p-valor como parte de un proceso fluido que aporte a dar respuesta a preguntas de carácter científico.

Finalmente, comparto el llamado que hacen ambos artículos para tener en cuenta en los resultados referentes unas especificaciones técnicas propias del ámbito estadístico que enriquecen la discusión y además marcan los alcances de las conclusiones, tales especificaciones tienen que ver con el tamaño y forma de tomar la muestra, los intervalos de confianza e instrumentos de medición, puesto que estos datos adicionales aportan a la transparencia del estudio y generan una discusión parcial entorno a los alcances de las conclusiones, la validez del experimento y la reproducibilidad del mismo.

Referencias Bibliográficas

[1] R. Nuzzo. “Statistical Errors: P values, the gold standard of statistical validity, are not as reliable as many scientists assume”. 152 Nature, Vol 506, p. 150-152, (2014). [En línea]. Disponible en https://www.nature.com/articles/506150a. Acceso: Septiembre 2022.

[2] M. Baker. “Statisticians issue warning on P values: Statement aims to halt missteps in the quest for certainty”. Nature, vol. 531, p. 151, (2016).[En línea]. Disponible en https://go.gale.com/ps/i.do?p=AONE&u=googlescholar&id=GALE|A445983358&v=2.1&it=r&sid=AONE&asid=aa54f68d Acceso: Septiembre 2022.