2. La distribución normal

Introducción

La distribución normal, o campana de Gauss, es la más importante de todas las distribuciones de probabilidad. Se trata de una distribución que toma una forma continua entre los valores \(]- \infty, + \infty[\). Estos valores extremos nos dan a entender que pueden existir tanto elementos muy diferenciados entre sí, como la inexistencia de límites teóricos en la aparición de errores de medición.

El otro aspecto teórico es que en la distribución normal los valores se aglutinan principalmente en torno a su media, conformando una especie de pirámide con una mayor densidad de observaciones en los valores centrales (la media y sus valores próximos), decreciendo según nos alejamos hacia los extremos. Por tanto, es lógico que la distribución normal quede explicada tanto en su valor medio, como en su dispersión. Es decir, en su media \(\mu\) y su desviación típica \(\sigma\):

\[X \sim N[\mu; \sigma] \]

De la distribución normal también sabemos su función de densidad, que no es otra que:

\[f(x)=y=\frac{e^{-\frac{(x-\mu)^2}{2\sigma^2}}}{\sigma\sqrt{2\pi}} \] Si realizamos la primera derivada e igualamos a cero, obtendremos que \(y'=0\) si \(X=\mu\) o si \(X=\infty\). Con la segunda derivada siendo negativa cuando \(X=\mu\), confirmamos que la media es el valor más repetido, es decir, la moda. Además, en la distribución normal los puntos de inflexión se encuentran en los valores \(X=\mu \pm \sigma\), y se trata de una función simétrica dado que \(f(\mu+a)=f(\mu-a)\).

La distribución normal tipificada

Para reducir la complejidad de trabajar con la distribución normal, se suele emplear una distribución tipicada, o estandarizada. Esto quiere decir que otorgamos los valores \(\mu = 0\) y \(\sigma = 1\), lo que nos da una gráfica de estas características:

# Sucesión numérica (-10,10) aumentando cada 0.01.
x <- seq(-10, 10, by = 0.01)

# Valores estandarizados de la distribución normal
y <- dnorm(x, mean = 0, sd = 1)

Teóricamente, podemos definir esta función de distribución de forma que:

\[f(x)=\frac{e^{-\frac{x^2}{2}}}{\sqrt{2\pi}} \]

Pero a este resultado también puede llegarse mediante una variable \(z\) del tipo \(z=x-\mu/\sigma\), con lo que tendríamos que:

\[f(x)=y=\frac{e^{-\frac{(x-\mu)^2}{2\sigma^2}}}{\sigma\sqrt{2\pi}}=\frac{e^{-\frac{z^2}{2}}}{\sqrt{2\pi}}\]

Es decir: tanto \(f(x)\) como \(f(z)\) cuentan con una distribución normal de media 0 y desviación típica igual a 1. Esta distribución de \(z\) es la función de densidad más sencilla que existe para el cálculo de probabilidades con muestras normales, y evita que tengamos que realizar cálculo de integrales para encontrar la probabilidad de hallar un determinado valor dentro de nuestra muestra.

Intervalos de confianza para la media

Denominamos intervalo de confianza al rango plausible de valores para un parámetro de poblacional, es decir, aquellos números entre los cuales se estima que estará un valor desconocido respecto a un parámetro poblacional. Esto tiene sentido ya que facilita el análisis estadístico: sería imposible determinar con total precisión que un valor obtenido con inferencia corresponde con el poblacional, pero sin embargo sí podemos acercarnos a un intervalo que, con mayor o menor posibilidad de acierto, incorporará ese valor poblacional.

Pero, ¿sobre qué valor vamos a lanzar nuestra “red” de valores? Sin duda, nuestra mejor conjetura para encontrar los valores plausibles de una población desconocida con distribución normal es usando la media, que se sitúa en el centro de nuestra distribución. Pero además, con el TCL sabemos que bajo ciertas conjeturas podemos trabajar con distribuciones no normales como si lo fueran. De ahí que los intervalos de confianza se construyen alrededor del valor medio, identificado como \(\bar x\).

Recordemos que el Teorema Central del Límite (CLT) se refiere a la distribución de las estimaciones puntuales y que, dadas ciertas condiciones, esta distribución será casi normal. Estas condiciones son:

  • \(1\) El tamaño de la muestra es suficientemente grande (n ≥ 30 o mayor si los datos están considerablemente sesgados). Cuanto mayor sea el tamaño de la muestra (n) -sin exceder el 10% del tamaño poblacional-, menos importante será la forma de la distribución, es decir, cuando n es muy grande la distribución muestral será casi normal independientemente de la forma de la distribución poblacional.

  • \(2\) Las observaciones de la muestra son independientes

Siendo así, la distribución de la media de la muestra será casi normal (en caso de que no lo fuera en origen), centrada en la verdadera media de la población y con un error estándar (SE) como la desviación estándar dividido por la raíz de la población: \[ \bar{x} \sim N(mean=\mu,\ SE=\frac{\sigma}{\sqrt{n}}) \]

Calculando el intervalo de confianza

El intervalo de confianza para una media poblacional puede ser calculado como la media muestral, más o menos un margen de error calculado como la función de densidad multiplicado por el error estándar de la muestra. A raíz de lo explicado anteriormente, para la distribución normal, el valor z es la función de densidad más sencilla que existe, y por tanto diremos que el intervalo de confianza es igual a:

\[IC=punto\ de\ estimación\ \pm z^* \times SE\\ IC =\bar{x} \pm z^* \frac{\sigma}{\sqrt{n}}\]

Para construir intervalos de confianza de esta forma recordemos que, o bien la distribución poblacional es normal, o bien se siguen los criterios necesarios para garantizar la TCL.

En la fórmula anterior, \(z^*\) corresponde a los puntos de corte de la distribución normal estándar, de forma que se consigue capturar el porcentaje medio de los datos dado un nivel de confianza esperado, conocido como \(\alpha\). Cada investigador puede determinar el valor de \(\alpha\) que considere, aunque estadísticamente existe una regla que suele seguirse: la regla 68, 95, 99,7.

¿Por qué estos valores? Porque, de forma inversa, corresponden al valor \(z\) como \(1,2,3\), de forma que se obtiene el valor de sumar la media muestral a una, dos o tres veces el error estándar muestral:

  • \(IC=0,68 = \bar x \pm 1SE\)

  • \(IC=0,95 =\bar x \pm 2 SE\)

  • \(IC=0,997 =\bar x \pm 3SE\)

Es decir, por ejemplo, para el 95% de las muestras aleatorias, la media desconocida de la población verdadera va a estar dentro de dos errores estándar de la media de esa muestra. O dicho de otra forma, el intervalo de confianza del 95% se puede construir aproximadamente como la media de nuestra muestra, más o menos dos errores estándar (únicamente para muestras con distribución normal y aleatorias). El número de errores estándar es lo que se conoce como el margen de error.

Esta regla de oro no es exacta. Para encontrar los valores exactos podemos utilizar las tablas estadísticas de los manuales, o el comando “qnorm” en R, indicando para cada caso el porcentaje poblacional que queda a cada lado del intervalo de confianza y tomando el valor en positivo:

qnorm(0.16) #los errores estándar para un intervalo de confianza igual al 68% (100% - 16% - 16%) = 0.99
## [1] -0.9944579
qnorm(0.05) #los errores estándar para un intervalo de confianza igual al 90% (100% - 5% - 5%) = 1,65
## [1] -1.644854
qnorm(0.025) #los errores estándar para un intervalo de confianza igual al 95% (100% - 2,5% - 2,5%) = 1,96
## [1] -1.959964
qnorm(0.0015) #los errores estándar para un intervalo de confianza igual al 99.7% (100% - 0,15% - 0,15%) = 2,96
## [1] -2.967738

Problema:

En un estudio sobre 124 parejas, se encontró que el 64.5% giran la cabeza hacia la derecha al besarse. El error estándar asociado a esta estimación es aproximadamente del 4%. ¿Cuál de las siguientes respuestas es falsa?

  • A) Un tamaño de muestra más alto produciría un error estándar menor.

    Sabemos que esto siempre es cierto. Lo hemos visto en el teorema del límite central. Conceptualmente esto se debe a que cuanto más altos sean los tamaños de muestra, menos variables serán sus estimaciones de puntos de esas muestras.

    Matemáticamente hablando, el error estándar es siempre el valor de \(\sigma\) sobre la raíz cuadrada de \(n\), de modo que \(n\) y el error estándar van a ser inversamente proporcionales. Si \(n\) sube, el error estándar va a bajar. Esta afirmación, por tanto, es correcta.

  • B) El margen de error para un intervalo de confianza del 95% para un porcentaje de besadores que giraron la cabeza hacia la derecha es aproximadamente del 8%.

    Decíamos que el margen de error para un intervalo de confianza del 95% será aproximadamente dos veces el error estandar, que en este caso es igual al 4%.

    Por lo tanto, esta opción también es correcta.

  • C) El intervalo de confianza del 95% para el porcentaje de besadores que giran la cabeza hacia la derecha es aproximadamente 64,5% más / menos 4%.

    Como hemos establecido en el punto anterior, el intervalo de confianza del 95% se calculaba como la media estimada más/menos dos veces el error estándar, que es de 4%. En este caso, por tanto, deberíamos hablar de 64,5% más/menos 8%, y no más/menos 4%.

    Otra forma de hacer correcto este ejercicio es hablando de un intervalo de confianza del 64,5%, y mantener el más/menos 4%.

    Sea como sea, el planteamiento es erróneo tal y como está escrito.

  • D) El intervalo de confianza del 99,7% para el porcentaje de besadores que giraron su cabeza hacia la derecha, es aproximadamente 64,5% más o menos 12%.

    Por el mismo motivo que antes, y como hemos explicado en el apartado teórico, un intervalo de confianza del 99,7% se consigue como resultado de la media estimada más / menos tres veces el error estándar (4% * 3).

    Esta opción también es correcta.

Fuentes:

  • Gujarati, D. N., & López, Y. M. (2006). Principios de econometría (Vol. 3). McGraw