Distribuciones muestrales

Estadística para las Ciencias Sociales

Diego Solís Delgadillo

Introducción

  • Las encuestas de salida son utilizadas para proyectar al ganador de una elección
  • Estas encuestas toman en cuenta solo a miles de electores entre millones de votantes
  • Dichas predicciones generalmente son correctas

  • ¿Por qué podemos predecir lo que sucede con toda la población con una muestra?

¿Cómo saber cuántas esferas rojas y blancas hay en el recipiente?

¿Cómo saber cuántas esferas hay de cada color?

  • Podemos contar todas las esferas rojas y blancas
    • Sería un proceso costoso
  • Una alternativa es tomar una muestra

Muestra

  • Tomamos una muestra de 50 esferas
  • Obtenemos 17 esferas rojas (34%)
  • Es una estimación de la proporción de esferas rojas en el recipiente

  • Imaginemos que repetimos el ejercicio
  • ¿Obtendremos nuevamente 17 esferas rojas?

Important

  • Muy posiblemente obtendremos resultados distintos

Repetición de la muestra

  • Le pedimos a 33 personas que repitan el ejercicio
    • Seleccionan 50 esferas cada uno
    • Registran el resultado
    • Devuelven las esferas al recipiente

Resultado

  • Los resultados están contenidos en el paquete moderndive
library(moderndive)
tactile_prop_red
# A tibble: 6 × 4
  group            replicate red_balls prop_red
  <chr>                <int>     <int>    <dbl>
1 Ilyas, Yohan             1        21     0.42
2 Morgan, Terrance         2        17     0.34
3 Martin, Thomas           3        21     0.42
4 Clark, Frank             4        21     0.42
5 Riddhi, Karina           5        18     0.36
6 Andrew, Tyler            6        19     0.38

Distribución de los resultados

  • Creamos un histograma de las proporciones
library(tidyverse)

ggplot(tactile_prop_red, aes(x = prop_red)) +
geom_histogram(binwidth = 0.05, boundary = 0.4, color = "white") +
labs(x = "Proporción de esferas rojas",
title = "Distribución de 33 proporciones de esferas rojas", y="Frecuencia")+theme_minimal()

Distribución de los resultados

  • Las diferentes proporciones muestran la variación muestral

Muestreo virtual

  • El paquete moderndive contiene toda la información del recipiente
  • Podemos extraer muestras de esa base
# A tibble: 2,400 × 2
   ball_ID color
     <int> <chr>
 1       1 white
 2       2 white
 3       3 white
 4       4 red  
 5       5 white
 6       6 white
 7       7 red  
 8       8 white
 9       9 red  
10      10 white
# ℹ 2,390 more rows

Muestreo virtual

Note

  • Con la instrucción rep_sample_n() podemos indicar el tamaño de nuestra muestra
muestra <- bowl %>% rep_sample_n(size = 50)
muestra
# A tibble: 50 × 3
# Groups:   replicate [1]
   replicate ball_ID color
       <int>   <int> <chr>
 1         1    2042 red  
 2         1     410 red  
 3         1    1667 red  
 4         1    1329 white
 5         1    1710 white
 6         1    1994 white
 7         1      31 red  
 8         1    1418 red  
 9         1    1205 red  
10         1    1645 white
# ℹ 40 more rows

Proporción rojas

Note

  • Creamos una variable booleana llamada “rojas”
muestra %>%
mutate(rojas = (color == "red"))
# A tibble: 50 × 4
# Groups:   replicate [1]
   replicate ball_ID color rojas
       <int>   <int> <chr> <lgl>
 1         1    2042 red   TRUE 
 2         1     410 red   TRUE 
 3         1    1667 red   TRUE 
 4         1    1329 white FALSE
 5         1    1710 white FALSE
 6         1    1994 white FALSE
 7         1      31 red   TRUE 
 8         1    1418 red   TRUE 
 9         1    1205 red   TRUE 
10         1    1645 white FALSE
# ℹ 40 more rows

Proporción rojas

Cálculo de la proporción

  • Sumamos el número de rojas
  • Calculamos la proporción
    • Dividiendo entre 50

muestra %>%
mutate(rojas = color == "red") %>%
summarize(num_roj = sum(rojas)) %>%
mutate(prop_roj = num_red / 50)
# A tibble: 1 × 3
  replicate num_roj prop_roj
      <int>   <int>    <dbl>
1         1      21     0.42

Repitiendo 33 veces la muestra

Repetición de muestra

  • Podemos repetir el ejercicio en el argumento reps
muestras <- bowl %>%
rep_sample_n(size = 50, reps = 33)
muestras
# A tibble: 1,650 × 3
# Groups:   replicate [33]
   replicate ball_ID color
       <int>   <int> <chr>
 1         1    1669 white
 2         1      25 red  
 3         1    1532 red  
 4         1    1451 red  
 5         1     915 red  
 6         1     677 white
 7         1     773 white
 8         1     508 red  
 9         1    1389 red  
10         1    1831 white
# ℹ 1,640 more rows

Repitiendo 33 veces la muestra

Proporción para cada muestra

  • Podemos calcular la proporción media por muestra
  • Utilizamos dplyr para esto
prop_rojas <- muestras %>%
group_by(replicate) %>%
summarize(rojas = sum(color == "red")) %>%
mutate(prop_roj = rojas / 50)
# A tibble: 33 × 3
   replicate rojas prop_roj
       <int> <int>    <dbl>
 1         1    19     0.38
 2         2    22     0.44
 3         3    18     0.36
 4         4    13     0.26
 5         5    13     0.26
 6         6    15     0.3 
 7         7    24     0.48
 8         8    13     0.26
 9         9    15     0.3 
10        10    18     0.36
# ℹ 23 more rows

Visualización de las proporciones

ggplot(virtual_prop_red, aes(x = prop_red)) +
geom_histogram(binwidth = 0.05, boundary = 0.4, color = "white") +
labs(x = "Proporción de esferas rojas",
title = "Distribución de 33 muestras")+theme_minimal()

Repitiendo el ejercicio 1000 veces

muestras_1000 <- bowl %>%
rep_sample_n(size = 50, reps = 1000)
muestras_1000
# A tibble: 50,000 × 3
# Groups:   replicate [1,000]
   replicate ball_ID color
       <int>   <int> <chr>
 1         1    1068 red  
 2         1    1514 white
 3         1    1260 white
 4         1     454 red  
 5         1    1916 white
 6         1     741 white
 7         1     645 white
 8         1     875 white
 9         1    1936 red  
10         1    1148 red  
# ℹ 49,990 more rows

Proporciones 1000 muestras

prop_rojas_1000 <- muestras_1000 %>%
group_by(replicate) %>%
summarize(rojo = sum(color == "red")) %>%
mutate(prop_rojo= rojo / 50)

prop_rojas_1000
# A tibble: 1,000 × 3
   replicate  rojo prop_rojo
       <int> <int>     <dbl>
 1         1    21      0.42
 2         2    20      0.4 
 3         3    26      0.52
 4         4    19      0.38
 5         5    19      0.38
 6         6    14      0.28
 7         7    15      0.3 
 8         8    17      0.34
 9         9    20      0.4 
10        10    20      0.4 
# ℹ 990 more rows

Visualización 1000 muestras

ggplot(prop_rojas_1000, aes(x = prop_rojo)) +
geom_histogram(binwidth = 0.05, boundary = 0.4, color = "white") +
labs(x = "Proporción de esferas rojas",
title = "Distribución para mil muestras")+
theme_minimal()

Distribuciones muestrales

  • Las distribuciones muestrales muestra cómo varían las estadísticas entre muestras

  • Para una encuesta de salida la variable aleatoria toma el valor de las opciones electorales

Caso Estados Unidos

  • Un votante elige entre Joe Biden o Donald Trump (la variables binarias)
    • Las proporciones recibidas por cada candidato van a variar entre encuestas de salida
    • ⚠️ Porque están basadas en diferentes electores

Tamaño de la muestra

  • Utilizamos tres tamaños 25, 50 y 100

Desviación estándar

  • Conforme aumenta el tamaño de la muestra la variación es más pequeña
  • Los valores se centran más cercanos a la media
  • La variación puede medirse con la desviación estándar

Desviación estándar

  • Es la cantidad de variación es una variable numérica con respecto a su media

Desviación estándar

virtual_prop_red_25 %>%
summarize(sd = sd(prop_red))
# A tibble: 1 × 1
      sd
   <dbl>
1 0.0948
virtual_prop_red_50 %>%
summarize(sd = sd(prop_red))
# A tibble: 1 × 1
      sd
   <dbl>
1 0.0670
virtual_prop_red_100 %>%
summarize(sd = sd(prop_red))
# A tibble: 1 × 1
      sd
   <dbl>
1 0.0483

Terminología

Población

  • El conjunto de individuos u observaciones en las que estamos interesados
  • La población se denota utilizando la letra \(N\)
  • En el ejercicio de las esferas el total de esferas (2400) en el recipiente

Parámetro poblacional

  • Es la cantidad numérica (media, proporción) de la población que nos es desconocida
  • Cuando nos interesa la media se denota como \(\mu\)
  • Cuando nos interesa la proporción es \(p\)

Terminología

Censo

  • Es un conteo exhaustivo de todos los individuos u observaciones
  • En nuestro ejemplo, contar todas las esferas del recipiente
  • Los censos son caros en términos de tiempo, energía y dinero

Muestra

  • Es un subconjunto de la población
  • Se denota con la letra \(n\) para distinguirlo de la población \(N\)

Terminología

Estimador

  • Es un estadístico obtenido de una muestra que estima el parámetro desconocido
  • En nuestro ejemplo, es la proporción de la muestra en el recipiente
  • Es un nuestra mejor conjetura del número de esferas rojas en el recipiente
  • Para distinguirlo de la proporción poblacional \(p\) lo denominamos \(\hat{p}\)

Muestra representativa

  • Una muestra es representativa si se asemeja a la población

Terminología

Generalización

  • Es la capacidad de generalizar desde la muestra a la población
  • Es como preguntarse si \(\hat{p}\) es una buena estimación de \(p\)

Muestra sesgada

  • Ocurre cuando algunos individuos u oberservaciones tienen mayores posibilidades de ser incluidos en la muestra
  • La muestra evita el sesgo cuando todos tienen la misma posibilidad de ser seleccionados

Terminología

Muestra aleatoria

  • Si nuestras observaciones son seleccionadas al azar
  • Todos tienen la misma probabilidad de ser seleccionados

Variación distribución muestral

Error Estándar

  • El error estándar es la desviación estándar de la distribución muestral
  • Cuantifica cuánto varían los estimadores

Important

  • Conforme aumenta el tamaño de la muestra disminuye el error estándar

Ruido

  • Si la muestra está sesgada tendremos un estimador sesgado
  • Pero aún sin sesgo podemos tener un estimador que es diferentes al parámetro
    • Simplemente por ruido (por aleatoriedad de la muestra)

Error estándar

  • El error estándar nos dice qué tan lejos está una observación de la media del estimador
  • 📌 Si el estimador no está sesgado, este es igual al valor verdadero

Precisión

Error estándar pequeño

  • Si el error estándar es pequeño
    • Los estimadores están muy cerca uno del otro
    • El estimador es relativamente preciso
    • Hay poca variación muestral

Teorema de Límite Central

  • Parte de una hipotética repetición infinita de muestras

La distribución muestral toma la forma de una distribución normal

  • La distribución de la media muestral de una variable aleatoria se aproxima a una distribución normal conforme aumenta el tamaño de la muestra

Important

  • El valor medio de la distribución muestral será igual al valor poblacional

Teorema de Límite Central

Tip

  • El valor verdadero es 37.5%

Encuestas

  • En la práctica las encuestadoras no levantan mil encuestas
  • Tampoco produciarán un estimador perfecto

Important

  • Siempre habrá un error causado por la variación muestral

Tip

  • Por eso las encuestas se reportan con cierta incertidumbre
  • Por ejemplo \(\pm 2.5\)