Sesión 12 - Distribución normal e intervalos de confianza.

Durante esta sesión vamos a revisar ejemplos de uso de la distribución normal, y vamos a realizar un ejemplo rápido para calcular el intervalo de confianza de una campaña publicitaria.

Parte 1. Repaso de funciones de la distribución normal.

Para trabajar con la distribución normal, tenemos 3 funciones principales:

  1. rnorm(), para simular observaciones provenientes de una variable aleatoria que distribuye de manera normal.

  2. pnorm(), para obtener el valor de la probabilidad que se acumula hasta un valor q de la variable aleatoria.

  3. qnorm(), para obtener el valor de la variable aleatoria hasta el cual se acumula cierta probabilidad o proporción.

Estas funciones tienen los siguientes argumentos:

  • mean, el valor de la media de la distribución normal.

  • sd, el valor de la desviación estándar.

  • p, el valor de la probabilidad acumulada hasta el cual se obtiene el valor q.

  • q, el valor de la variable aleatoria hasta el cual se acumula la probabilidad p.

Ejemplo

Vamos a simular tres distintas poblaciones. Para el presente ejemplo, simularemos las calificaciones de 3 exámenes estandarizados diferentes aplicados a 100,000 estudiantes.

A continuación, guardamos los datos en una tibble para graficar:

Nota: Uso pivot_longer() solo para graficar. Si quieres saber como funciona te recomiendo visitar este enlace donde explico su funcionamiento en la segunda imágen.

Hacemos la gráfica de las poblaciones simuladas:

En la gráfica anterior podemos visualizar las tres poblaciones generadas mediante simulación. La roja y la azul tienen la misma abertura, aunque estan centradas en diferentes medias; la verde está centrada en una media menor y está mas delgada, lo cual se debe a que tiene una desviación estándar (dispersión) menor. De aquí se concluye que la media es el valor que da la posición a la curva normal, mientras que la desviación estándar (dispersión) es la que nos dá la apertura (gordura) de la curva.

Uso de qnorm() y pnorm().

A continuación veremos como utilizar las funciones qnorm() y pnorm().

Ejemplo de qnorm()

  • qnorm() - Siguiendo el ejemplo del exámen, la función nos dará el valor de las calificaciones para el cual tenemos x% de las observaciones
## [1] 2.53272
## [1] 7.46728

Ejemplo de pnorm()

En el contexto del exámen, dada la calificacion (el valor de la variable aleatoria) vamos a sacar la proporcion de alumnos que obtivieron ese valor de calificación o uno mas bajo.

Supongamos que queremos obtener la proporción de alumnos que obtuvieron una calificación igual o menor a 7.46728:

## [1] 0.95

El resultado de arriba es la proporción de alumnos que obtuvieron una calificación menor o igual a 7.46728. Igualmente, esta es la probabilidad de obtener al azar un exámen con una calificación menor o igual a 7.46728.

Cálculo de los intervalos de confianza

Definición: La distribucion muestral es la distribucion que resulta de considerar todas las muestras posibles que pueden ser tomadas de una poblacion.

Ejemplo de Whiskas.

( A petición del hermano de Ariadna ) supongamos que queremos comprobar el slogan de Whiskas de que 9 de cada 10 gatos prefieren whiskas.

Supongamos que somos el dios de los gatos y creamos 1 Millón de gatos, y que definimos que a 9 de cada 10 de esos gatos les va a gustar el Whiskas. Para crear esos gatos, utilizamos el siguiente código:

Ahora, olvidemos que sabemos como está construida la población.

Obtenemos una muestra de tamaño 1,000 de esos gatos, y “entrevistamos” a estos 1,000 gatos para ver si les gusta el whiskas.

## [1] 0.888

En este caso, vemos que el whiskas les gusta al 88.8 % de los gatos de la muestra, por lo que podriamos pensar que los dueños de whiskas estan haciendo publicidad engañosa.

Ahora, hay que sacar los intervalos de confianza con el siguiente método:

  1. Defino el nivel de confianza de mi intervalo de confianza (típicamente 90, 95 o 99%, nunca 100%).

  2. Obtengo el error estándar.

  3. Obtengo el intervalo superior y el inferior de intervalo.

Paso 1) Defino mi nivel de confianza.

El nivel de confianza es algo que define el investigador o que se define antes de hacer una investigación. En este caso, utilizaremos el nivel de confianza del 95% por ser el más común.

Ahora, con este valor, tenemos que escoger el valor de las desviaciones estándar que encierran al 95% de todos los casos posibles.

Recordemos que:

  • A 1 desviación estándar se encierra al 68.3% de la probabilidad.

  • A 2 desviaciones estándar se encierra el 95.4% de la probabilidad.

  • A 3 desviaciones estándar se encierra el 99.7% de la probabilidad total.

Dado que nosotros queremos encerrar solo al 95% de todos los casos posibles, necesitamos un valor menor a 2 desviaciones estándar. Buscando en la literatura (wikipedia) vemos que el valor de desviaciones estándar que encierran al 95% de los casos posibles es el de 1.959964, que redondeando nos dá 1.96 desviaciones estándar. Este número lo utilizaremos más adelante.

Paso 2) Obtener el error estándar.

El error estándar es un número que se calcula con la siguiente fórmula:

\[{\displaystyle SE_{\bar {x}}\ ={\frac {s}{\sqrt {n}}}}\] FUENTE: https://es.wikipedia.org/wiki/Error_estándar

Donde:

  • \(SE_{\bar {x}}\), es el error estándar del estimador muestral (de la proporción de gatos a los que les gusta el whiskas).

  • \(s\), es la desviación estándar de la muestra.

  • \(n\), es el tamaño de la muestra (1,000 gatos).

Calculamos:

## [1] 0.009977753

El error estándar es igual a 0.0099778.

Paso 3) . Obtengo el intervalo superior y el inferior del intervalo.

Para obtener el valor superior e inferior del intervalo de confianza al 95%, habrá que multiplicar el error estándar (que en este caso actuará como la desviación estándar) por el valor de 1.96 que conseguimos en el paso 1, y esto se lo sumamos y restamos a la estimación de la media:

## # A tibble: 1 x 5
##   lim_inf prop_gatos_gustan_whiskas lim_sup      ee margen
##     <dbl>                     <dbl>   <dbl>   <dbl>  <dbl>
## 1   0.868                     0.888   0.908 0.00998 0.0196

Entonces, podemos concluir que el promedio de gatos a los que les gusta el whiskas es de 88.8 % +- 0.0195564 % con intervalos de confianza de (0.8684436% a 0.9075564%) al 95% de confianza.

Como el valor del 90% (el verdadero valor con el que creamos a los gatos) se encuentra dentro de este intervalo de confianza y del margen de error, no podemos acusar a los dueños de whiskas de publicidad engañosa.

Hasta aquí termina el procedimiento de obtener un intervalo de confianza.

Ahora, repasemos conceptos que no dejamos claros dentro del procedimiento anterior:

1) La distribución muestral y el error estándar.

(Esto es extra para explicar de donde vienen ciertos conceptos explicados arriba).

Vamos a crear la distribución muestral. La distribución muestral es la distribución de probabilidad que resultaría de realizar muchas veces un ejercicio de muestreo.

Recordando del ejercicio anterior:

## [1] 0.888

Este código nos da una muestra de los gatos, de tamaño mil, y luego saca el promedio de los gatos a los que les gusta el whiskas. Si modificamos el argumento reps = 1 a, por ejemplo, reps = 10000, tendriamos diez mil proporciones de diez mil muestras de gatos a los que les gusta el whiskas:

## # A tibble: 10,000 x 2
##    replicate promedio_gatos_gusta_whiskas
##        <int>                        <dbl>
##  1         1                        0.894
##  2         2                        0.895
##  3         3                        0.901
##  4         4                        0.886
##  5         5                        0.904
##  6         6                        0.897
##  7         7                        0.899
##  8         8                        0.905
##  9         9                        0.902
## 10        10                        0.883
## # … with 9,990 more rows

Entonces, de la tabla anterior, tenemos que la columna replicate almacena el número de cada uno de los ejercicios de muestreo, y la columna promedio_gatos_gusta_whiskas guarda el promedio de cada una de estas muestras.

El resultado de la proporción de cada una de las muestras es una variable aleatoria (porque el resultado cambia por el azar) y por lo tanto, al repetirse multiples veces, tiene una distribución de probabilidad. Por el teorema del límite central sabemos que estos resultados muestrales distribuyen de manera normal y la gráfica de los posibles resultados que pudimos haber obtenido son los siguientes:

Esta gráfica de arriba ejemplifica las posibles proporciones de los gatos a los que les gusta el whiskas. Va a haber muestras en donde solo al 87% les gusta el whiskas y otras donde a más del 93% les gusta el whiskas, pero la probabilidad de tener ests muestras es muy pequeña.

Esta es, entonces, la distribución muestral; la distribución de los resultados obtenidos por multiples muestras de un estadístico que nos interesa (en este caso, la proporción de gatos a los que les gusta el whiskas, pero podría ser la proporción de personas que van a votar por un candidato o el promedio de pitufresas contagiadas con chocofresa en una parcela de la aldea de los pitufos).

La estimación de la media de la población podemos obtenerla sacando la media de la distribución muestral:

Y para concluir, el error estándar es, entonces, la desviación estándar de esta distribución muestral de posibles resultados:

Como vemos, es muy similar al calculado arriba.

El error estándar es una medida de lo dispersos que pueden estar los resultados de nuestros muestreos: entre más pequeño sea este, es mejor. Igualmente, este error nos sirve para cuantificar la incertidumbre de nuestras estimaciones y para construir nuestros intervalos de confianza (como igual vimos arriba).

Cuando no podemos sacar la distribución muestral, podemos simplemente aplicar la fórmula del error estándar:

\[{\displaystyle SE_{\bar {x}}\ ={\frac {s}{\sqrt {n}}}}\]

Donde:

  • \(SE_{\bar {x}}\), es el error estándar del estimador muestral.

  • \(s\), es la desviación estándar de la muestra.

  • \(n\), es el tamaño de la muestra.

(Esta fórmula también la usamos arriba).