Distribuciones muestrales

Maestría en Gobierno y Políticas Públicas

Diego Solís Delgadillo

Introducción

  • Las encuestas de salida son utilizadas para proyectar al ganador de una elección
  • Estas encuestas toman en cuenta solo a miles de electores entre millones de votantes
  • Dichas predicciones generalmente son correctas

  • ¿Por qué podemos predecir lo que sucede con toda la población con una muestra?

¿Cómo saber cuántas esferas rojas y blancas hay en el recipiente?

¿Cómo saber cuántas esferas hay de cada color?

  • Podemos contar todas las esferas rojas y blancas
    • Sería un proceso costoso
  • Una alternativa es tomar una muestra

Muestra

  • Tomamos una muestra de 50 esferas
  • Obtenemos 17 esferas rojas (34%)
  • Es una estimación de la proporción de esferas rojas en el recipiente

  • Imaginemos que repetimos el ejercicio
  • ¿Obtendremos nuevamente 17 esferas rojas?

Important

  • Muy posiblemente obtendremos resultados distintos

Repetición de la muestra

  • Le pedimos a 33 personas que repitan el ejercicio
    • Seleccionan 50 esferas cada uno
    • Registran el resultado
    • Devuelven las esferas al recipiente

Resultado

  • Los resultados están contenidos en el paquete moderndive
# A tibble: 6 × 4
  group            replicate red_balls prop_red
  <chr>                <int>     <int>    <dbl>
1 Ilyas, Yohan             1        21     0.42
2 Morgan, Terrance         2        17     0.34
3 Martin, Thomas           3        21     0.42
4 Clark, Frank             4        21     0.42
5 Riddhi, Karina           5        18     0.36
6 Andrew, Tyler            6        19     0.38

Distribución de los resultados

  • Las diferentes proporciones muestran la variación muestral

Tomando 1000 muestras (n=50)

# A tibble: 50,000 × 3
# Groups:   replicate [1,000]
   replicate ball_ID color
       <int>   <int> <chr>
 1         1     992 white
 2         1    1795 white
 3         1    1006 white
 4         1     389 white
 5         1    1149 white
 6         1    1247 white
 7         1    1573 white
 8         1     756 white
 9         1     911 white
10         1    1211 white
# ℹ 49,990 more rows

Proporciones 1000 muestras

# A tibble: 1,000 × 3
   replicate  rojo prop_rojo
       <int> <int>     <dbl>
 1         1    14      0.28
 2         2    17      0.34
 3         3    17      0.34
 4         4    15      0.3 
 5         5    18      0.36
 6         6    16      0.32
 7         7    17      0.34
 8         8    15      0.3 
 9         9    22      0.44
10        10    21      0.42
# ℹ 990 more rows

Visualización 1000 muestras

Distribuciones muestrales

  • Las distribuciones muestrales muestra cómo varían las estadísticas entre muestras

  • Para una encuesta de salida la variable aleatoria toma el valor de las opciones electorales

Caso Estados Unidos

  • Un votante elige entre Joe Biden o Donald Trump (la variables binarias)
    • Las proporciones recibidas por cada candidato van a variar entre encuestas de salida
    • ⚠️ Porque están basadas en diferentes electores

Tamaño de la muestra

  • Utilizamos tres tamaños 25, 50 y 100

Desviación estándar

  • Conforme aumenta el tamaño de la muestra la variación es más pequeña
  • Los valores se centran más cercanos a la media
  • La variación puede medirse con la desviación estándar

Desviación estándar

  • Es la cantidad de variación es una variable numérica con respecto a su media

Desviación estándar

virtual_prop_red_25 %>%
summarize(sd = sd(prop_red))
# A tibble: 1 × 1
      sd
   <dbl>
1 0.0893
virtual_prop_red_50 %>%
summarize(sd = sd(prop_red))
# A tibble: 1 × 1
      sd
   <dbl>
1 0.0685
virtual_prop_red_100 %>%
summarize(sd = sd(prop_red))
# A tibble: 1 × 1
      sd
   <dbl>
1 0.0479

Terminología

Población

  • El conjunto de individuos u observaciones en las que estamos interesados
  • La población se denota utilizando la letra \(N\)
  • En el ejercicio de las esferas el total de esferas (2400) en el recipiente

Parámetro poblacional

  • Es la cantidad numérica (media, proporción) de la población que nos es desconocida
  • Cuando nos interesa la media se denota como \(\mu\)
  • Cuando nos interesa la proporción es \(p\)

Terminología

Censo

  • Es un conteo exhaustivo de todos los individuos u observaciones
  • En nuestro ejemplo, contar todas las esferas del recipiente
  • Los censos son caros en términos de tiempo, energía y dinero

Muestra

  • Es un subconjunto de la población
  • Se denota con la letra \(n\) para distinguirlo de la población \(N\)

Terminología

Estimador

  • Es un estadístico obtenido de una muestra que estima el parámetro desconocido
  • En nuestro ejemplo, es la proporción de la muestra en el recipiente
  • Es un nuestra mejor conjetura del número de esferas rojas en el recipiente
  • Para distinguirlo de la proporción poblacional \(p\) lo denominamos \(\hat{p}\)

Muestra representativa

  • Una muestra es representativa si se asemeja a la población

Terminología

Generalización

  • Es la capacidad de generalizar desde la muestra a la población
  • Es como preguntarse si \(\hat{p}\) es una buena estimación de \(p\)

Muestra sesgada

  • Ocurre cuando algunos individuos u oberservaciones tienen mayores posibilidades de ser incluidos en la muestra
  • La muestra evita el sesgo cuando todos tienen la misma posibilidad de ser seleccionados

Terminología

Muestra aleatoria

  • Si nuestras observaciones son seleccionadas al azar
  • Todos tienen la misma probabilidad de ser seleccionados

Variación distribución muestral

Error Estándar

  • El error estándar es la desviación estándar de la distribución muestral
  • Cuantifica cuánto varían los estimadores

Important

  • Conforme aumenta el tamaño de la muestra disminuye el error estándar

Ruido

  • Si la muestra está sesgada tendremos un estimador sesgado
  • Pero aún sin sesgo podemos tener un estimador que es diferentes al parámetro
    • Simplemente por ruido (por aleatoriedad de la muestra)

Error estándar

  • El error estándar nos dice qué tan lejos está una observación de la media del estimador
  • 📌 Si el estimador no está sesgado, este es igual al valor verdadero

Precisión

Error estándar pequeño

  • Si el error estándar es pequeño
    • Los estimadores están muy cerca uno del otro
    • El estimador es relativamente preciso
    • Hay poca variación muestral

Teorema de Límite Central

  • Parte de una hipotética repetición infinita de muestras

La distribución muestral toma la forma de una distribución normal

  • La distribución de la media muestral de una variable aleatoria se aproxima a una distribución normal conforme aumenta el tamaño de la muestra

Important

  • El valor medio de la distribución muestral será igual al valor poblacional

Teorema de Límite Central

Tip

  • El valor verdadero es 37.5%

Encuestas

  • En la práctica las encuestadoras no levantan mil encuestas
  • Tampoco produciarán un estimador perfecto

Important

  • Siempre habrá un error causado por la variación muestral

Tip

  • Por eso las encuestas se reportan con cierta incertidumbre
  • Por ejemplo \(\pm 2.5\)

Intervalos de confianza

Maestría en Gobierno y Políticas Públicas

Diego Solís Delgadillo

Estadística inferencial

  • Permite ir de pequeñas muestras a información sobre la población

Punto estimado e intervalo

Punto estimado

  • Es un solo número que es la mejor conjetura del parámetro

Intervalo estimado

  • Es un intervalo de números posibles

Ejemplo

  • 73% de los estadounidenses creen en el infierno

Intervalos de confianza

  • Es un rango de posibles valores

Intervalos al 95%

  • En una distribución normal a 1.96 desviaciones estándar se encuentra el 95% de las observaciones
  • Por tanto, a 1.96 errores estándar se encuentra el 95% de los estimadores

¿Cómo lo construimos?

  • Tomamos nuestro estimador y sumamos (y restamos) 1.96 por el valor del error estándar

Interpretación

Cómo NO interpretar el intervalo

Hay un 95% de probabilidad de que dentro del intervalo esté el valor verdadero

¿Cómo interpretar el intervalo?

Si no hay sesgo y repetimos nuestro estimador infinitamente, el valor del parámetro estará dentro del intervalo el 95% de las veces{style=“color: #3399ff”}

Intervalo para la proporción

Distribución muestral de proporciones

  • Muestra los posibles valores de proporción
  • Se aproxima a una distribución normal (cuando \(n\) es mayor a 15)
  • Su media es igual a la proporción de la población

Important

  • Su error estándar se expresa como \[ se= \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \]
  • Donde \(\hat{p}\) es la proporción estimada y \(n\) el número de observaciones

Margen de error e intervalo de confianza

Margen de error

\(Puntuación Z * ErrorEstandar\)

Intervalo de confianza

\(PuntoEstimado \pm MargenError\)

Intervalo al 95%

Para un intervalo de confianza de 95%

\[ \hat{p} \pm 1.96(se) \]

Ejemplo

  • Una encuesta pregunta si los consumidores estarían de acuerdo en subir los precios de la gasolina para proteger al ambiente
  • Hay una muestra de 1,321 personas

  • 637 están a favor del aumento de los precios

  • ¿Cómo construir un intervalo de confianza de 95%?

Ejemplo

  1. Estimamos la proporción:

\[ \hat{p}= \frac{637}{1,321}= 0.468 \]

  1. Calculamos el error estándar \[ se= \sqrt{\frac{0.468(1-0.468)}{1,321}}=0.0135 \]

.3 Para un intervalo de confianza de 95% la puntuación Z es 1.96

\[ 0.468 \pm 1.96(0.0135) \]

Resultado

  • Límite inferior= 0.442
  • Límite Superior= 0.494

Intervalo de confianza al 99%

  • Si quisiéramos un intervalo de confianza de 99%
  • Tomamos la puntuación Z que llega a ese nivel de confianza
  • Ese valor es 2.58

\[ \hat{p} \pm 2.58(se) \]

Efecto del tamaño de la muestra

Important

  • La estimación es más precisa entre más grande sea la muestra

\[ se= \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \]

Note

  • Entre más grande es la muestra (denominador) más pequeño es el error estándar
  • Entre más pequeño es el error estándar más pequeño es el margen de error

Intervalo de confianza para medias

  • La media de la muestra \(\bar{x}\) es el mejor estimador de la media poblacional \(\mu\)

  • El error estándar de la distribución de medias se expresa como

\[ se= \frac{s}{\sqrt{n}} \]

Note

  • Donde \(s\) es la desviación estándar de la muestra
  • Y \(n\) el tamaño de la muestra

Ejemplo

  • Tenemos una muestra de 1,298 personas
  • En promedio pasan 3.09 hrs viendo televisión
  • La desviación estándar es de 2.87.
  • Crear un intervalo de confianza de 95%

Ejemplo

  1. Calcular el error estándar \[ se= \frac{2.87}{\sqrt{1,298}}= 0.0797 \]
  2. Sumar y restar de punto estimado \[ \bar{x} \pm 1.96(se) \]

\[ 3.09 \pm 1.96(0.0797) \]

Resultado

  • Límite inferior 2.93
  • Límite superior 3.24
image/svg+xml