El promedio y su tendencia a la distribución normal

inspirado en la clase de Metodos cuantitativos del Dr. Oscar fontanelli

Author

Tidyverso

Published

January 14, 2023

Introducción

La medida evidentemente preferida para abordar casi cualquier tema que implique un resumen agregado es la media o promedio, es un mantra utilizado en cualquier conversación para hacer referencia a aquello que es más probable de observar, dado lo hasta ahora observado. Es la primer medida resumen que nos gustaría conocer sobre algún fenómeno y a partir de la cual conjeturamos lo que puede llegar a pasar.

En la vida cotidiana, son escasos los escenarios en que alguien aporta un promedio obtenido de la completitud de los eventos realizados, se remiten a lo que hasta ahora ellos han podido observar, que asumiendo un horizonte finito de conocimiento individual e inconmensurabilidad en el mundo real, el promedio mencionado hace referencia a una pequeña muestra de la realidad.

Sin embargo, este hecho no le quita validez al dato presentado, siempre que este provenga de observaciones aleatorias y quien lo presenta no tenga evidentes intereses especulativos en el mismo, podemos confiar en el promedio como medida de posición y se vuelve importante entonces, estudiar y tratar de entender comportamientos que con un altísimo grado de probabilidad se presentan entre la media posible (casi siempre muestral) y la media poblacional.

Teorema central del límite (TCL)

Dado que existe una cantidad de bibliografía lo significativamente grande como para no querer revisar ninguna, el objetivo aquí es transmitir desde el punto de vista empírico y esencialmente visual, cual es la importancia de este teorema en los análisis estadísticos que realicen.
Yendo a los límites de la simplificación, lo que nos garantiza el TCL es lo siguiente:

No importa la distribución de probabilidad de la población de la que obtengas tu muestra, si tu muestra es lo suficientemente grande, puedes asumir que la distribución de probabilidad de tu variable aleatoria es normal

Verificaremos esto a través de dos ejemplos a partir de datos ficticios en los que la distribución de probabilidad del dato poblacional se aleja y mucho de un comportamiento normal, obtendremos muestras de esa población y verificaremos cómo se comporta la distribución de probabilidad de la muestra a medida que el tamaño de la muestra crece.

Ejemplo 1.

Suponga que obtenemos datos del porcentaje de aprobación de la gestión presidencial, y que además sabemos que los datos poblacionales responden al siguiente gráfico:

Viendo el histograma, es fácil y atinado concluir que los datos poblacionales no responden a una distribución normal, en realidad responden a una distribución uniforme en que todos los datos desde 0 hasta 100 tienen la misma probabilidad de aparecer.
Serán estos los datos poblacionales de los cuales obtendremos muestras de diferentes tamaños, calcularemos la media de la muestra y verificaremos el comportamiento de la distribución de probabilidad de dichas medias.

Algorítmicamente debemos:

  • Obtener una muestra de tamaño arbitrario n
  • Calcular la media de la muestra obtenida
  • Realizar los dos pasos anteriores 500 veces y guardar la media de cada muestra en un vector que llamaremos vector de medias
  • Graficar el histograma del vector de medias

Verificaremos que en la medida en que el n de las muestras tiende a infinito, el histograma graficado será cada vez más parecido a una normal.

Muestra de n = 3.

Independientemente de la complejidad del proceso algorítmico el cual en abstracto debiera estar claro, observe como para muestras de tamaño 3 el histograma se parece significativamente al comportamiento de una distribución normal

Muestra de n = 10.

Realizamos el mismo proceso que con las muestras de tamaño 3 pero incrementamos el tamaño a 10, se observa un mejor ajuste del histograma a la distribución normal teórica (es posible afirmar esto a partir del área sombreada del histograma que se sale del contorno de la distribución normal teórica y el rango de valores más acotado en el eje x).

Muestra de n = 100.

Incrementando el tamaño de la muestra a 100, el ajuste del histograma a la distribución normal teórica es mucho mayor, lo cual nos permite afirmar que, las medidas resumen de una variable aleatoria establecidas a través de una muestra, se aproximan tendencialmente a una distribución normal en la medida en que el tamaño de la muestra crezca.

Es relevante observar que en la medida en que incrementamos el tamaño de la muestra, el eje x toma un rango menor de valores, lo que quiere decir que las medias obtenidas con muestras más grandes están más próximas a la media poblacional.

Ejemplo 2.

Modifiquemos el comportamiento de la distribución de probabilidad poblacional al siguiente

Una vez más es evidente el comportamiento alejado de una distribución normal de los datos poblacionales, realicemos exactamente el mismo ejercicio que en el Ejemplo 1 y verifiquemos lo que sucede.

Muestra de n = 5.

Muestra de n = 30.

Muestra de n = 250.

Con estos dos ejemplos, queda en evidencia la independencia de la distribución de probabilidad de las muestras que obtenemos y a partir de las cuales establecemos medidas resumen y estadísticos, con respecto a la distribución de probabilidad poblacional siempre que la muestra obtenida sea lo suficientemente grande.