1. La inferencia estadística

Introducción

En estadística no siempre es posible recopilar la información de todas las personas de una comunidad, mucho menos de un país o del planeta entero. En nuestros análisis, sin embargo, estamos interesados en encontrar información para el conjunto de la población, así que debemos de contar con herramientas que nos permitan conocer si la estimación puntual de la muestra que tenemos a disposición puede extrapolarse al conjunto de la población. Bienvenidos/as a la estadística inferencial.

Para entender mejor qué se hace en la estadística inferencial, pensemos que si queremos obtener información de la población de una ciudad como Madrid o Barcelona, sería imposible entrevistar a todos sus habitantes. Ante este reto, la solución es dividir al conjunto de población (Population) en submuestras (Samples). Imaginemos que, por cuestiones de presupuesto, solo puedo entrevistar a 1.000 habitantes: la solución pasa por dividir la población en muestras, y cada una de estas muestras tendrá 1.000 habitantes (de las cuales yo elijo solo una muestra).

NOTA: La selección de la muestra es trascendental, y se debe respetar la representatividad de cada grupo poblacional, sexos, etcétera, en función del tipo de encuesta que se haga. Es decir, que si por ejemplo en la población solo el 50% de los habitantes tiene más de 40 años, en mi encuesta no pueden aparecer el 100% de los entrevistados con edades superiores a los 50 años.

Cada muestra poblacional cuenta con una serie de estadísticos, es decir, una media, una mediana, una desviación típica o estándar… Ahora bien, como investigadores lo que nos interesa es saber los estadísticos del conjunto de la población, y no de la muestra elegida. Y para ello hacemos la inferencia, es decir: proyectar a partir de la información que tenemos en una muestra la del conjunto de la población.

Sin embargo, como investigadores no nos interesa conocer los estadísticos de esta muestra, sino la del conjunto de la población a partir de esta muestra. Es lo que se conoce como inferencia. Para ello, se hace uso de una distribución de probabilidad muy importante en el mundo de la estadística: la distribución muestral (sampling distribution).

Ejemplo 1.

Supongamos que estamos interesados en conocer la estatura media de las mujeres estadounidenses. A este valor poblacional se le conoce como μ, es decir, la media del conjunto de toda la población, con tamaño N. Podríamos calcularlo como:

\[ μ = \frac{x_1+x_2+...+x_N}{N} \]

El segundo de los estadísticos descriptivos que solemos usar en la inferencia estadística es la desviación estándar, es decir, la dispersión media de una variable, en este caso la altura. Para el conjunto de la población se calcularía como:

\[ σ = \sqrt{\frac{\sum_{i=1}^N(x_i-μ)}{N}} \]

Pero siendo realistas, es imposible medir la estatura de todas las mujeres de un país como Estados Unidos. De hecho, es imposible hacerlo ni siquiera para poblaciones muchísimo más pequeñas. Así que debemos proceder con la inferencia, es decir, derivar de una muestra los valores asociados al conjunto de una población. Para ello se propone hacer muestras aleatorias, por ejemplo, de 1.000 mujeres en cada uno de los estados de Estados Unidos. De esta forma tendríamos diferentes muestras, tal que:

\[ x_{AL,1},x_{AL,2},...x_{AL,1000}\\ x_{NC,1},x_{NC,2},...x_{NC,1000}\\ x_{WY,1},x_{WY,2},...x_{WY,1000} \]

De cada uno de estos subconjuntos podríamos obtener la distribución de muestreo, esperándose que la media de las medias de la muestra esté alrededor de la verdadera población:

\[ media\ (\bar x)≈μ \]

¿Y qué ocurre con la desviación estándar (SD) de nuestra distribución? La desviación de los valores medios de las muestras será menor que la del conjunto poblacional. ¿Por qué? Porque las medias nos dan valores ya “suavizados”: es decir, no encontraremos ninguna media con valor igual a dos metros, cuando ese valor sí será visible en el conjunto de la población:

\[ SD(\bar x) < \sigma \]

El Teorema Central del Límite (TCL)

Uno de los teoremas más importantes para la estadística inferencial es el conocido como teorema central del límite. Para comprenderlo, es necesario entender qué es la distribución poblacional/muestral, es decir, cómo se distribuyen los individuos a lo largo de los diferentes valores que toma una variable cualquiera \(x_i\). De todas las posibilidades existentes de distribución, la normal es la que más ventajas otorga a la hora de realizar inferencia ya que muchas pruebas estadísticas, como el famoso método de los mínimos cuadrados ordinarios requieren de normalidad, además de facilitar el cálculo de probabilidades.

Pero es complejo encontrar muestras normales cuando los datos se toman de forma aleatoria. Sin embargo, el TCL nos dice que no siempre es necesaria esa normalidad. Concretamente, el TCL nos dice que a medida que se incrementa el tamaño de la muestra, la distribución se acercará a una normal. O dicho de otra forma: si la muestra es suficientemente grande, la distribución de las medias muestrales seguirá aproximadamente una distribución normal. Concretamente, el tamaño de la muestra debe ser superior a 30, independientemente de la forma de la distribución observada.

Otra de las propiedades esenciales del TCL es que si la muestra sigue una distribución normal, la media poblacional y la media muestral serán iguales, y la varianza de las medias muestrales será igual a \(\sigma^2 / n\), también llamado “Error estándar” (SE):

\[ \bar x \sim N (mean = \mu, SE=\frac{\sigma}{\sqrt n})\]

NOTA: En caso de desconocer el valor \(\sigma\), es decir, la desviación típica poblacional, podemos emplear el valor \(S\), es decir, la desviación muestral.

Condiciones para poder cumplir el TCL:

  • Las observaciones de muestras deben ser independientes.

  • En el caso de tener un muestreo sin reemplazo, el número de individuos en nuestra muestra no puede ser superior al 10% del conjunto de la población. Esto es así ya que a medida que aumentamos el número muestral, mayor es la probabilidad de que en la muestra comiencen a aparecer miembros que tienen parentesco entre sí, y por tanto no seon independientes unos de otros.

  • Si la distribución de la población no es normal, cuanto más sesgada sea la distribución de la población, mayor será el tamaño de la muestra que necesitamos para aplicar el teorema del límite central. Esto ocurre porque al incrementar el tamaño muestral, se reduce el error estándar, lo que quiere decir que la distribución comienza a condensarse alrededor de la media, siendo cada vez más unimodal y simétrica.

    Para distribuciones moderadamente sesgadas, n mayor que 30 es una regla de oro ampliamente usada.

Ejemplo 2

Imaginemos una población de una ciudad de 6.250.000 habitantes, y que tiene una distribución de los salarios ligeramente sesgada a la derecha. La media de ingresos de la población es de 30.000 euros, y una desviación típica de 20.000 dólares.

Ahora bien, estos datos suelen ser desconocidos para los investigadores, así que sería razonable que dividiéramos la muestra y realizáramos entrevistas a un conjunto de la población. Por ejemplo, podríamos dividir la población en 10.000 muestras aleatorias, de tamaño \(n = 625\). ¿Cuál es la distribución más probable de cualquiera de estas muestras?

Dado que se trata de un número muestral elevado (625), podemos asumir que su distribución será cercana a la normal. Siguiendo el TCL, la media de las muestras deberá ser igual que la media poblacional:

\[ media\ (\bar x)≈μ = 30.000€ \]

y la varianza de la muestra será igual al error estándar, de tal forma que:

\[ SE=\frac{S}{\sqrt n} = \frac{20.000}{625}=800€ \]

de tal forma que tendremos:

\[ \bar x \sim N (30.000€, 800€)\]

Fuentes:

  • Gujarati, D. N., & López, Y. M. (2006). Principios de econometría (Vol. 3). McGraw
  • Hill. - Inferential Statistics, curso creado por Mine Çetinkaya-Rundel, profesora de la Duke University.https://www.coursera.org/learn/inferential-statistics-intro