s06-distribuciones-muestrales

Distribuciones muestrales

Estadística para las Ciencias Sociales

Diego Solís Delgadillo

Introducción

Las encuestas de salida son utilizadas para proyectar al ganador de una elección
Estas encuestas toman en cuenta solo a miles de electores entre millones de votantes
Dichas predicciones generalmente son correctas

¿Por qué podemos predecir lo que sucede con toda la población con una muestra?

¿Cómo saber cuántas esferas rojas y blancas hay en el recipiente?

¿Cómo saber cuántas esferas hay de cada color?

Podemos contar todas las esferas rojas y blancas
- Sería un proceso costoso
Una alternativa es tomar una muestra

Muestra

Tomamos una muestra de 50 esferas
Obtenemos 17 esferas rojas (34%)
Es una estimación de la proporción de esferas rojas en el recipiente

Imaginemos que repetimos el ejercicio
¿Obtendremos nuevamente 17 esferas rojas?

Important

Muy posiblemente obtendremos resultados distintos

Repetición de la muestra

Le pedimos a 33 personas que repitan el ejercicio
- Seleccionan 50 esferas cada uno
- Registran el resultado
- Devuelven las esferas al recipiente

Resultado

Los resultados están contenidos en el paquete moderndive

library(moderndive)
tactile_prop_red

# A tibble: 6 × 4
  group            replicate red_balls prop_red
  <chr>                <int>     <int>    <dbl>
1 Ilyas, Yohan             1        21     0.42
2 Morgan, Terrance         2        17     0.34
3 Martin, Thomas           3        21     0.42
4 Clark, Frank             4        21     0.42
5 Riddhi, Karina           5        18     0.36
6 Andrew, Tyler            6        19     0.38

Distribución de los resultados

Creamos un histograma de las proporciones

library(tidyverse)

ggplot(tactile_prop_red, aes(x = prop_red)) +
geom_histogram(binwidth = 0.05, boundary = 0.4, color = "white") +
labs(x = "Proporción de esferas rojas",
title = "Distribución de 33 proporciones de esferas rojas", y="Frecuencia")+theme_minimal()

Distribución de los resultados

Las diferentes proporciones muestran la variación muestral

Muestreo virtual

El paquete moderndive contiene toda la información del recipiente
Podemos extraer muestras de esa base

# A tibble: 2,400 × 2
   ball_ID color
     <int> <chr>
 1       1 white
 2       2 white
 3       3 white
 4       4 red  
 5       5 white
 6       6 white
 7       7 red  
 8       8 white
 9       9 red  
10      10 white
# ℹ 2,390 more rows

Muestreo virtual

Note

Con la instrucción rep_sample_n() podemos indicar el tamaño de nuestra muestra

muestra <- bowl %>% rep_sample_n(size = 50)
muestra

# A tibble: 50 × 3
# Groups:   replicate [1]
   replicate ball_ID color
       <int>   <int> <chr>
 1         1    2042 red  
 2         1     410 red  
 3         1    1667 red  
 4         1    1329 white
 5         1    1710 white
 6         1    1994 white
 7         1      31 red  
 8         1    1418 red  
 9         1    1205 red  
10         1    1645 white
# ℹ 40 more rows

Proporción rojas

Note

Creamos una variable booleana llamada “rojas”

muestra %>%
mutate(rojas = (color == "red"))

# A tibble: 50 × 4
# Groups:   replicate [1]
   replicate ball_ID color rojas
       <int>   <int> <chr> <lgl>
 1         1    2042 red   TRUE 
 2         1     410 red   TRUE 
 3         1    1667 red   TRUE 
 4         1    1329 white FALSE
 5         1    1710 white FALSE
 6         1    1994 white FALSE
 7         1      31 red   TRUE 
 8         1    1418 red   TRUE 
 9         1    1205 red   TRUE 
10         1    1645 white FALSE
# ℹ 40 more rows

Proporción rojas

Cálculo de la proporción

Sumamos el número de rojas
Calculamos la proporción
- Dividiendo entre 50


muestra %>%
mutate(rojas = color == "red") %>%
summarize(num_roj = sum(rojas)) %>%
mutate(prop_roj = num_red / 50)

# A tibble: 1 × 3
  replicate num_roj prop_roj
      <int>   <int>    <dbl>
1         1      21     0.42

Repitiendo 33 veces la muestra

Repetición de muestra

Podemos repetir el ejercicio en el argumento reps

muestras <- bowl %>%
rep_sample_n(size = 50, reps = 33)
muestras

# A tibble: 1,650 × 3
# Groups:   replicate [33]
   replicate ball_ID color
       <int>   <int> <chr>
 1         1    1669 white
 2         1      25 red  
 3         1    1532 red  
 4         1    1451 red  
 5         1     915 red  
 6         1     677 white
 7         1     773 white
 8         1     508 red  
 9         1    1389 red  
10         1    1831 white
# ℹ 1,640 more rows

Repitiendo 33 veces la muestra

Proporción para cada muestra

Podemos calcular la proporción media por muestra
Utilizamos dplyr para esto

prop_rojas <- muestras %>%
group_by(replicate) %>%
summarize(rojas = sum(color == "red")) %>%
mutate(prop_roj = rojas / 50)

# A tibble: 33 × 3
   replicate rojas prop_roj
       <int> <int>    <dbl>
 1         1    19     0.38
 2         2    22     0.44
 3         3    18     0.36
 4         4    13     0.26
 5         5    13     0.26
 6         6    15     0.3 
 7         7    24     0.48
 8         8    13     0.26
 9         9    15     0.3 
10        10    18     0.36
# ℹ 23 more rows

Visualización de las proporciones

ggplot(virtual_prop_red, aes(x = prop_red)) +
geom_histogram(binwidth = 0.05, boundary = 0.4, color = "white") +
labs(x = "Proporción de esferas rojas",
title = "Distribución de 33 muestras")+theme_minimal()

Repitiendo el ejercicio 1000 veces

muestras_1000 <- bowl %>%
rep_sample_n(size = 50, reps = 1000)
muestras_1000

# A tibble: 50,000 × 3
# Groups:   replicate [1,000]
   replicate ball_ID color
       <int>   <int> <chr>
 1         1    1068 red  
 2         1    1514 white
 3         1    1260 white
 4         1     454 red  
 5         1    1916 white
 6         1     741 white
 7         1     645 white
 8         1     875 white
 9         1    1936 red  
10         1    1148 red  
# ℹ 49,990 more rows

Proporciones 1000 muestras

prop_rojas_1000 <- muestras_1000 %>%
group_by(replicate) %>%
summarize(rojo = sum(color == "red")) %>%
mutate(prop_rojo= rojo / 50)

prop_rojas_1000

# A tibble: 1,000 × 3
   replicate  rojo prop_rojo
       <int> <int>     <dbl>
 1         1    21      0.42
 2         2    20      0.4 
 3         3    26      0.52
 4         4    19      0.38
 5         5    19      0.38
 6         6    14      0.28
 7         7    15      0.3 
 8         8    17      0.34
 9         9    20      0.4 
10        10    20      0.4 
# ℹ 990 more rows

Visualización 1000 muestras

ggplot(prop_rojas_1000, aes(x = prop_rojo)) +
geom_histogram(binwidth = 0.05, boundary = 0.4, color = "white") +
labs(x = "Proporción de esferas rojas",
title = "Distribución para mil muestras")+
theme_minimal()

Distribuciones muestrales

Las distribuciones muestrales muestra cómo varían las estadísticas entre muestras
Para una encuesta de salida la variable aleatoria toma el valor de las opciones electorales

Caso Estados Unidos

Un votante elige entre Joe Biden o Donald Trump (la variables binarias)
- Las proporciones recibidas por cada candidato van a variar entre encuestas de salida
- ⚠️ Porque están basadas en diferentes electores

Tamaño de la muestra

Utilizamos tres tamaños 25, 50 y 100

Desviación estándar

Conforme aumenta el tamaño de la muestra la variación es más pequeña
Los valores se centran más cercanos a la media
La variación puede medirse con la desviación estándar

Desviación estándar

Es la cantidad de variación es una variable numérica con respecto a su media

Desviación estándar

virtual_prop_red_25 %>%
summarize(sd = sd(prop_red))

# A tibble: 1 × 1
      sd
   <dbl>
1 0.0948

virtual_prop_red_50 %>%
summarize(sd = sd(prop_red))

# A tibble: 1 × 1
      sd
   <dbl>
1 0.0670

virtual_prop_red_100 %>%
summarize(sd = sd(prop_red))

# A tibble: 1 × 1
      sd
   <dbl>
1 0.0483

Terminología

Población

El conjunto de individuos u observaciones en las que estamos interesados
La población se denota utilizando la letra \(N\)
En el ejercicio de las esferas el total de esferas (2400) en el recipiente

Parámetro poblacional

Es la cantidad numérica (media, proporción) de la población que nos es desconocida
Cuando nos interesa la media se denota como \(\mu\)
Cuando nos interesa la proporción es \(p\)

Terminología

Censo

Es un conteo exhaustivo de todos los individuos u observaciones
En nuestro ejemplo, contar todas las esferas del recipiente
Los censos son caros en términos de tiempo, energía y dinero

Muestra

Es un subconjunto de la población
Se denota con la letra \(n\) para distinguirlo de la población \(N\)

Terminología

Estimador

Es un estadístico obtenido de una muestra que estima el parámetro desconocido
En nuestro ejemplo, es la proporción de la muestra en el recipiente
Es un nuestra mejor conjetura del número de esferas rojas en el recipiente
Para distinguirlo de la proporción poblacional \(p\) lo denominamos \(\hat{p}\)

Muestra representativa

Una muestra es representativa si se asemeja a la población

Terminología

Generalización

Es la capacidad de generalizar desde la muestra a la población
Es como preguntarse si \(\hat{p}\) es una buena estimación de \(p\)

Muestra sesgada

Ocurre cuando algunos individuos u oberservaciones tienen mayores posibilidades de ser incluidos en la muestra
La muestra evita el sesgo cuando todos tienen la misma posibilidad de ser seleccionados

Terminología

Muestra aleatoria

Si nuestras observaciones son seleccionadas al azar
Todos tienen la misma probabilidad de ser seleccionados

Variación distribución muestral

Error Estándar

El error estándar es la desviación estándar de la distribución muestral
Cuantifica cuánto varían los estimadores

Important

Conforme aumenta el tamaño de la muestra disminuye el error estándar

Ruido

Si la muestra está sesgada tendremos un estimador sesgado
Pero aún sin sesgo podemos tener un estimador que es diferentes al parámetro
- Simplemente por ruido (por aleatoriedad de la muestra)

Error estándar

El error estándar nos dice qué tan lejos está una observación de la media del estimador
📌 Si el estimador no está sesgado, este es igual al valor verdadero

Precisión

Error estándar pequeño

Si el error estándar es pequeño
- Los estimadores están muy cerca uno del otro
- El estimador es relativamente preciso
- Hay poca variación muestral

Teorema de Límite Central

Parte de una hipotética repetición infinita de muestras

La distribución muestral toma la forma de una distribución normal

La distribución de la media muestral de una variable aleatoria se aproxima a una distribución normal conforme aumenta el tamaño de la muestra

Important

El valor medio de la distribución muestral será igual al valor poblacional

Teorema de Límite Central

Tip

El valor verdadero es 37.5%

Encuestas

En la práctica las encuestadoras no levantan mil encuestas
Tampoco produciarán un estimador perfecto

Important

Siempre habrá un error causado por la variación muestral

Tip

Por eso las encuestas se reportan con cierta incertidumbre
Por ejemplo \(\pm 2.5\)