Distribuciones

Maestría en Gobierno y Políticas Públicas

Diego Solís Delgadillo

Distribuciones

Distribución normal

  • Las distribuciones en forma de campana son llamadas gaussianas
  • La más conocida es la distribución normal

Distribución normal

  • Simétrica
  • Forma de campana
  • Dos parámetros: la media \(\mu\) y la desviación estándar \(\delta\)

Características

  • La media (que indica el centro)
  • La desviación estándar (que indica su variación)

Important

  • Las probabilidades de observar valores dentro de un determinado número de desviaciones estándar con respecto a la media son las mismas

Distribución normal estandarizada

  • Es una distribución normal
  • Con una media de 0 y una desviación estándar de 1

Z scores

  • Indican el número de desviaciones estándar con respecto a la media

\[ Z= \frac{x-\mu}{\sigma} \]

  • Para saber la proporción acumulada solo hay que revisar la tabla de puntuaciones \(z\)

Tabla Z

Puntuaciones Z

  • Indican desviaciones estándar con respecto a la media
  • En la tabla la puntuación indica la probabilidad acumulada a este punto

Ejemplo

  • Una puntuación Z de 1.43 tiene una probabilidad acumulada de 92.36%

Probabilidad acumulada

Ejercicio

Estatura

  • Tenemos un individuo que mide 1.80 cm

  • En la muestra la media es de 1.68

  • La desviación estándar es de 7 cm

  • ¿Cuántas personas hay por encima de 1.80?

\[ Z= \frac{x-\bar{x}}{se} \]

\[ Z= \frac{1.80-1.68}{7}=1.71 \]

Ejercicio

Tip

  • La probabilidad acumulada es de 95.64
  • Hay una probabilidad de 4.36% de obtener estaturas superiores a 1.80

Comparación con puntuaciones Z

Important

  • Las puntuaciones z nos permite comparar dos o más observaciones de diferentes distribuciones

Ejemplo

  • Juan obtiene un 81 en Derecho
  • María un 75 en estadística Podríamos preguntarnos
  • ¿A cuál le fue mejor en relación con sus compañeros?

Comparación con puntuaciones Z

Ejemplo

  • Supongamos que la media de Derecho es 95
  • La media de estadística 60
  • La desviación estándar de Derecho es 7
  • La desviación estándar estadística es 6

Juan (Derecho)

\[ Z= \frac{81-95}{7}=-2 \]

María (Estadística)

\[ Z= \frac{75-60}{6}=2.5 \]

Comparación de escalas distintas

Important

  • Las puntuaciones z permiten comparar valores en diferentes escalas

Ejemplo

  • Dos personas que presentan un examen de ingles: TOEFL (0-120) y el IELTS (0-9)
  • Ricardo obtiene 92 en el TOEFL
  • Isabel alcanza 7.7 en el IELTS
  • ¿Quién tuvo mejor desempeño?

Ejemplo

  • La media y desviación estándar del TOEFL es 75 y la desviación estándar es de 15

  • La media y la desviación estándar para el IELTS son 6 y 1

TOEF

\[ Z= \frac{92-75}{15}=1.13 \]

IELTS

\[ Z= \frac{7.7-6}{1}=1.7 \]

Distribuciones muestrales

Maestría en Gobierno y Políticas Públicas

Diego Solís Delgadillo

¿Cómo saber cuántas esferas rojas y blancas hay en el recipiente?

¿Cómo saber cuántas esferas hay de cada color?

  • Podemos contar todas las esferas rojas y blancas
    • Sería un proceso costoso
  • Una alternativa es tomar una muestra

Muestra

  • Tomamos una muestra de 50 esferas
  • Obtenemos 17 esferas rojas (34%)
  • Es una estimación de la proporción de esferas rojas en el recipiente

  • Imaginemos que repetimos el ejercicio
  • ¿Obtendremos nuevamente 17 esferas rojas?

Important

  • Muy posiblemente obtendremos resultados distintos

Repetición de la muestra

  • Le pedimos a 33 personas que repitan el ejercicio
    • Seleccionan 50 esferas
    • Registran el resultado
    • Devuelven las esferas al recipiente

Resultado

  • Los resultados están contenidos en el paquete moderndive
library(moderndive)
tactile_prop_red
# A tibble: 6 × 4
  group            replicate red_balls prop_red
  <chr>                <int>     <int>    <dbl>
1 Ilyas, Yohan             1        21     0.42
2 Morgan, Terrance         2        17     0.34
3 Martin, Thomas           3        21     0.42
4 Clark, Frank             4        21     0.42
5 Riddhi, Karina           5        18     0.36
6 Andrew, Tyler            6        19     0.38

Distribución de los resultados

  • Creamos un histograma de las proporciones
library(tidyverse)

ggplot(tactile_prop_red, aes(x = prop_red)) +
geom_histogram(binwidth = 0.05, boundary = 0.4, color = "white") +
labs(x = "Proporción de esferas rojas",
title = "Distribución de 33 proporciones de esferas rojas", y="Frecuencia")+theme_minimal()

Distribución de los resultados

  • Las diferentes proporciones muestran la variación muestral

Muestreo virtual

  • El paquete moderndive contiene toda la informaicón del recipiente
  • Podemos extraer muestras de esa base
# A tibble: 2,400 × 2
   ball_ID color
     <int> <chr>
 1       1 white
 2       2 white
 3       3 white
 4       4 red  
 5       5 white
 6       6 white
 7       7 red  
 8       8 white
 9       9 red  
10      10 white
# ℹ 2,390 more rows

Muestreo virtual

  • Con la instrucción rep_sample_n() podemos indicar el tamaño de nuestra muestra
muestra <- bowl %>% rep_sample_n(size = 50)
muestra
# A tibble: 50 × 3
# Groups:   replicate [1]
   replicate ball_ID color
       <int>   <int> <chr>
 1         1     942 white
 2         1    1049 red  
 3         1     819 red  
 4         1    1888 red  
 5         1    1063 red  
 6         1    1974 red  
 7         1     559 white
 8         1     154 white
 9         1    1640 white
10         1    1406 white
# ℹ 40 more rows

Proporción rojas

  • Creamos una variable booleana llamada “rojas”
muestra %>%
mutate(rojas = (color == "red"))
# A tibble: 50 × 4
# Groups:   replicate [1]
   replicate ball_ID color rojas
       <int>   <int> <chr> <lgl>
 1         1     942 white FALSE
 2         1    1049 red   TRUE 
 3         1     819 red   TRUE 
 4         1    1888 red   TRUE 
 5         1    1063 red   TRUE 
 6         1    1974 red   TRUE 
 7         1     559 white FALSE
 8         1     154 white FALSE
 9         1    1640 white FALSE
10         1    1406 white FALSE
# ℹ 40 more rows

Proporción rojas

  • Sumamos el número de rojas
  • Calculamos la proporción
    • Dividiendo entre 50

muestra %>%
mutate(rojas = color == "red") %>%
summarize(num_roj = sum(rojas)) %>%
mutate(prop_roj = num_red / 50)
# A tibble: 1 × 3
  replicate num_roj prop_roj
      <int>   <int>    <dbl>
1         1      21     0.42

Repitiendo 33 veces la muestra

  • Podemos repetir el ejercicio en el argumento reps
muestras <- bowl %>%
rep_sample_n(size = 50, reps = 33)
muestras
# A tibble: 1,650 × 3
# Groups:   replicate [33]
   replicate ball_ID color
       <int>   <int> <chr>
 1         1    2167 red  
 2         1    2133 white
 3         1     342 white
 4         1     642 white
 5         1    1415 red  
 6         1    1374 red  
 7         1    1056 white
 8         1      27 red  
 9         1    2277 white
10         1    1979 white
# ℹ 1,640 more rows

Repitiendo 33 veces la muestra

  • Podemos calcular la proporción media por muestra
  • Utilizamos dplyr para esto
prop_rojas <- muestras %>%
group_by(replicate) %>%
summarize(rojas = sum(color == "red")) %>%
mutate(prop_roj = rojas / 50)
# A tibble: 33 × 3
   replicate rojas prop_roj
       <int> <int>    <dbl>
 1         1    20     0.4 
 2         2    24     0.48
 3         3    25     0.5 
 4         4    16     0.32
 5         5    24     0.48
 6         6    20     0.4 
 7         7    17     0.34
 8         8    18     0.36
 9         9    16     0.32
10        10    27     0.54
# ℹ 23 more rows

Visualización de las proporciones

ggplot(virtual_prop_red, aes(x = prop_red)) +
geom_histogram(binwidth = 0.05, boundary = 0.4, color = "white") +
labs(x = "Proporción de esferas rojas",
title = "Distribución de 33 muestras")+theme_minimal()

Repitiendo el ejercicio 1000 veces

muestras_1000 <- bowl %>%
rep_sample_n(size = 50, reps = 1000)
muestras_1000
# A tibble: 50,000 × 3
# Groups:   replicate [1,000]
   replicate ball_ID color
       <int>   <int> <chr>
 1         1    1106 white
 2         1    1315 red  
 3         1     825 white
 4         1    1885 red  
 5         1     974 white
 6         1    1957 red  
 7         1     816 red  
 8         1     618 white
 9         1    1776 red  
10         1    1364 white
# ℹ 49,990 more rows

Proporciones 1000 muestras

prop_rojas_1000 <- muestras_1000 %>%
group_by(replicate) %>%
summarize(rojo = sum(color == "red")) %>%
mutate(prop_rojo= rojo / 50)

prop_rojas_1000
# A tibble: 1,000 × 3
   replicate  rojo prop_rojo
       <int> <int>     <dbl>
 1         1    22      0.44
 2         2    24      0.48
 3         3    22      0.44
 4         4    22      0.44
 5         5    21      0.42
 6         6    21      0.42
 7         7    21      0.42
 8         8    16      0.32
 9         9    16      0.32
10        10    19      0.38
# ℹ 990 more rows

Visualización 1000 muestras

ggplot(prop_rojas_1000, aes(x = prop_rojo)) +
geom_histogram(binwidth = 0.05, boundary = 0.4, color = "white") +
labs(x = "Proporción de esferas rojas",
title = "Distribución para mil muestras")+
theme_minimal()

Tamaño de la muestra

  • Utilizamos tres tamaños 25, 50 y 100

Desviación estándar

  • Conforme aumenta el tamaño de la muestra la variación es más pequeña
  • Los valores se centran más cercanos a la media
  • La variación puede medirse con la desviación estándar

Important

  • La desviación estándar es cantidad de variación es una variable numérica

Desviación estándar

virtual_prop_red_25 %>%
summarize(sd = sd(prop_red))
# A tibble: 1 × 1
      sd
   <dbl>
1 0.0985
virtual_prop_red_50 %>%
summarize(sd = sd(prop_red))
# A tibble: 1 × 1
      sd
   <dbl>
1 0.0645
virtual_prop_red_100 %>%
summarize(sd = sd(prop_red))
# A tibble: 1 × 1
      sd
   <dbl>
1 0.0485

Terminología

Población

  • El conjunto de individuos u observaciones en las que estamos interesados
  • La población se denota utilizando la letra \(N\)
  • En el ejercicio de las esferas el total de esferas (2400) en el recipiente

Parámetro poblacional

  • Es la cantidad numérica (media, proporción) de la población que nos es desconocida
  • Cuando nos interesa la media se denota como \(\mu\)
  • Cuando nos interesa la proporción es \(p\)

Terminología

Censo

  • Es un conteo exhaustivo de todos los individuos u observaciones
  • En nuestro ejemplo, contar todas las esferas del recipiente
  • Los censos son caros en términos de tiempo, energía y dinero

Muestra

  • Es un subconjunto de la población
  • Se denota con la letra \(n\) para distinguirlo de la población \(N\)

Terminología

Estimador

  • Es un estadístico obtenido de una muestra que estima el parámetro desconocido
  • En nuestro ejemplo, es la proporción de la muestra en el recipiente
  • Es un nuestra mejor conjetura del número de esferas rojas en el recipiente
  • Para distinguirlo de la proporción poblacional \(p\) lo denominamos \(\hat{p}\)

Muestra representativa

  • Una muestra es representativa si se asemeja a la población

Terminología

Generalización

  • Es la capacidad de generalizar desde la muestra a la población
  • Es como preguntarse si \(\hat{p}\) es una buena estimación de \(p\)

Muestra sesgada

  • Ocurre cuando algunos individuos u oberservaciones tienen mayores posibilidades de ser incluidos en la muestra
  • La muestra evita el sesgo cuando todos tienen la misma posibilidad de ser seleccionados

Terminología

Muestra aleatoria

  • Si nuestras observaciones son seleccionadas al azar
  • Todos tienen la misma probabilidad de ser seleccionados

Distribución muestral

Distribución muestral

Distribución muestral

  • La distribución que muestra los valores de repitadas estimacione es una distribución muestral
  • Muestra el efecto de la variación en el muestreo
  • Con ellas podemos ver los casos que típicamente podemos esperar

Error Estándar

  • El error estándar es la desviación estándar de la distribución muestral
  • Cuantifica cuánto varían los estimadores

Important

  • Conforme aumenta el tamaño de la muestra disminuye el error estándar

Teorema de Límite Central

  • Parte de una hipotética repetición infinita de muestras

  • La distribución de esas medias tendrá unadistribución normal

Important

  • El valor medio de la distribución muestral será igual al valor poblacional

Teorema de Límite Central

Tip

  • El valor verdadero es 37.5%

Encuestas

  • En la práctica las encuestadoras no levantan mil encuestas
  • Tampoco produciarán un estimador perfecto

Important

  • Siempre habrá un error causado por la variación muestral

Tip

  • Por eso las encuestas se reportan con cierta incertidumbre
  • Por ejemplo \(\pm 2.5\)