Intervalos de confianza

Estadística para las Ciencias Sociales

Diego Solís Delgadillo

Estadística inferencial

  • Permite ir de pequeñas muestras a información sobre la población

Punto estimado e intervalo

Punto estimado

  • Es un solo número que es la mejor conjetura del parámetro

Intervalo estimado

  • Es un intervalo de números posibles

Ejemplo

  • 73% de los estadounidenses creen en el infierno

Introducción

  • En la clase anterior creabamos distribuciones muestrales y estimabamos la media
    • Cuya media es muy cercana al parámetro
    • Para ello tomabamos múltiples muestras

Introducción

  • En la vida real no podemos tomar 1000 muestras
  • Trabajamos con una muestra representativa
  • ¿Cómo cuantificar la variación muestral con una sola muestra?

Introducción

  • Una forma de estimar con una sola muestra es por remuestreo con bootstrapping
  • Para ello trabajaremos con el paquete “infer” y datos de “moderndive”

Centavos

  • Queremos saber el año de acuñación de todos centavos en EE.UU en 2019
  • Hacer un censo de todos los centavos sería imposible
  • Tomamos una muestra de 50 monedas de un banco local

Muestra centavos

Muestra centavos

  • El paquete moderndive incluye la muestra de 50 centavos
# A tibble: 50 × 2
      ID  year
   <int> <dbl>
 1     1  2002
 2     2  1986
 3     3  2017
 4     4  1988
 5     5  2008
 6     6  1983
 7     7  2008
 8     8  1996
 9     9  2004
10    10  2000
# ℹ 40 more rows

Distribución por año

ggplot(pennies_sample, aes(x = year)) +
geom_histogram(binwidth = 10, color = "white")

Tip

  • La mayoría fueron acuañados entre 1980 y el 2000
  • Pocos son previos a 1970

Año medio de acuñación

pennies_sample %>%
summarise(mean_year = mean(year))
# A tibble: 1 × 1
  mean_year
  <chr>    
1 1995.44  
  • Nuestra mejor estimación es que el año medio de acuñación es 1995.44

Warning

  • Las muestras tienen una variación de muestreo
  • El valor verdadero pudiera ser mayor o menor

¿Cómo estimar la distribución muestral?

  • Podríamos ir al banco por más muestras
  • Pero supongamos que no queremos hacer eso
  • ¿Cómo estimar la distribución muestral con una sola muestra?

Tip

  • Utilizando remuestreo con bootstraping y reemplazo

Remuestreo

  • Paso 1 Incluimos los años en pedazos de papel

Remuestreo

  • Paso 2 metemos los pedazos de papel en una bolsa y los mezclamos
  • Paso 3 extraemos un pedazo de papel y registramos el año

Remuestreo

  • Paso 4 regresamos el papel a la bolsa
    • En otras palabras lo replazamos
  • Paso 5 repetimos estos pasos 49 veces más
    • Porque nuestra es \(n=50\)

Reemplazo

  • ¿Por qué regresamos el pedazo de papel en el paso 4?
  • Si lo dejabamos fuera nos quedaríamos con la misma muestra
  • Si lo regresamos creamos varianza muestral

Tip

  • Al procedimiento de regresar el pedazo de papel se le llama remuestreo con remplazo

Muestra con reemplazo

pennies_resample <- tibble(
year = c(1976, 1962, 1976, 1983, 2017, 2015, 2015, 1962, 2016, 1976,
2006, 1997, 1988, 2015, 2015, 1988, 2016, 1978, 1979, 1997,1974, 2013, 1978, 2015, 2008, 1982, 1986, 1979, 1981, 2004,
2000, 1995, 1999, 2006, 1979, 2015, 1979, 1998, 1981, 2015,
2000, 1999, 1988, 2017, 1992, 1997, 1990, 1988, 2006, 2000))

ggplot(pennies_resample, aes(x = year)) +
geom_histogram(binwidth = 10, color = "white") +
labs(title = "Remuestreo de 50 monedas")

Comparación con la muestra original

Tip

  • Son similares pero no idénticas

Comparación con la muestra original

pennies_resample %>%
summarize(mean_year = mean(year))
# A tibble: 1 × 1
  mean_year
  <chr>    
1 1994.82  
  • Mientras que el año medio para la muestra orginal fue 1995.44
  • Para el remuestreo es 1994.82
  • ¿Qué pasa si repetimos este ejercicio múltiples veces?

Tomando 35 remuestreos

  • El paquete moderndive incluye la información
pennies_resamples
# A tibble: 1,750 × 3
# Groups:   name [35]
   replicate name     year
       <int> <chr>   <dbl>
 1         1 Arianna  1988
 2         1 Arianna  2002
 3         1 Arianna  2015
 4         1 Arianna  1998
 5         1 Arianna  1979
 6         1 Arianna  1971
 7         1 Arianna  1971
 8         1 Arianna  2015
 9         1 Arianna  1988
10         1 Arianna  1979
# ℹ 1,740 more rows

Media por muestra

resampled_means <- pennies_resamples %>%
group_by(name) %>%
summarize(mean_year = mean(year))
resampled_means
# A tibble: 35 × 2
   name      mean_year
   <chr>     <chr>    
 1 Arianna   1992.50  
 2 Artemis   1996.42  
 3 Bea       1996.32  
 4 Camryn    1996.90  
 5 Cassandra 1991.22  
 6 Cindy     1995.48  
 7 Claire    1995.52  
 8 Dahlia    1998.48  
 9 Dan       1993.86  
10 Eindra    1993.56  
# ℹ 25 more rows

Distribución de medias

resampled_means <- pennies_resamples %>%
group_by(name) %>%
summarize(mean_year = mean(year))

ggplot(resampled_means, aes(x = mean_year)) +
geom_histogram(binwidth = 1, color = "white", boundary = 1990) +
labs(x = "Año medio de acuñación")

Distribución de medias

Tip

  • La media de la distribución es cercana al estimador original (1995.4)

Remuestreo con R

remuestreo <- pennies_sample %>% rep_sample_n(size = 50, replace = TRUE, reps = 1000)

medias_remuestreo<-remuestreo %>% 
group_by(replicate) %>%
summarize(mean_year = mean(year))
# A tibble: 1,000 × 2
   replicate mean_year
       <int>     <dbl>
 1         1     1994.
 2         2     1993.
 3         3     1995.
 4         4     1993.
 5         5     1999.
 6         6     1995.
 7         7     1996.
 8         8     1992.
 9         9     1995.
10        10     1999.
# ℹ 990 more rows

Visualización de 1000 muestras

ggplot(medias_remuestreo, aes(x = mean_year)) +
geom_histogram(binwidth = 1, color = "white", boundary = 1990) +
labs(x = "media muestra")

Paquete infer

  • Es otra forma de hacer bootstraping
library(infer)
pennies_sample %>%
specify(response = year) %>%
generate(reps = 1000, type = "bootstrap")
Response: year (numeric)
# A tibble: 50,000 × 2
# Groups:   replicate [1,000]
   replicate  year
       <int> <dbl>
 1         1  1997
 2         1  1990
 3         1  2016
 4         1  1995
 5         1  1962
 6         1  1985
 7         1  1996
 8         1  2016
 9         1  2016
10         1  1992
# ℹ 49,990 more rows

Calculo de medias con infer

distribucion_bootstrap <- pennies_sample %>%
specify(response = year) %>%
generate(reps = 1000) %>%
calculate(stat = "mean")

distribucion_bootstrap
Response: year (numeric)
# A tibble: 1,000 × 2
   replicate stat   
   <chr>     <chr>  
 1 1         1994.22
 2 2         1994.78
 3 3         1993.52
 4 4         1994.52
 5 5         1992.38
 6 6         1998.58
 7 7         1990.92
 8 8         1997.32
 9 9         1997.30
10 10        1997.70
# ℹ 990 more rows

Tip

  • calculate() genera el mismo resultado que group_by()

Visualización con infer

visualize(distribucion_bootstrap)

Intervalos de confianza

  • Es un rango de posibles valores
  • En una distribución normal a 1.96 desviaciones estándar se encuentra el 95% de las observaciones
  • Por tanto, a 1.96 errores estándar se encuentra el 95% de los estimadores

Importante

  • Tomamos nuestro estimador y sumamos (y restamos) 1.96 por el valor del error estándar

Cómo NO interpretar el intervalo

Hay un 95% de probabilidad de que dentro del intervalo esté el valor verdadero

¿Cómo interpretar el intervalo?

Si no hay sesgo y repetimos nuestro estimador infinitamente, el valor del parámetro estará dentro del intervalo el 95% de las veces{style=“color: #3399ff”}

IC con infer (error estándar)

x_bar<-distribucion_bootstrap %>% summarise(mean(stat))

error_estandar_ic <- distribucion_bootstrap %>%
get_confidence_interval(type = "se", point_estimate = x_bar)

error_estandar_ic
# A tibble: 1 × 2
  lower_ci upper_ci
  <chr>    <chr>   
1 1991.351 1999.625

Visualización IC (error estándar)

IC con método matemático

IC con método matemático

Intervalo para la proporción

Distribución muestral de proporciones

  • Muestra los posibles valores de proporción
  • Se aproxima a una distribución normal (cuando \(n\) es mayor a 15)
  • Su media es igual a la proporción de la población

Important

  • Su error estándar se expresa como \[ se= \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \]
  • Donde \(\hat{p}\) es la proporción estimada y \(n\) el número de observaciones

Margen de error e intervalo de confianza

Margen de error

\(Puntuación Z * ErrorEstandar\)

Intervalo de confianza

\(PuntoEstimado \pm MargenError\)

Intervalo al 95%

Para un intervalo de confianza de 95%

\[ \hat{p} \pm 1.96(se) \]

Ejemplo

  • Una encuesta pregunta si los consumidores estarían de acuerdo en subir los precios de la gasolina para proteger al ambiente
  • Hay una muestra de 1,321 personas

  • 637 están a favor del aumento de los precios

  • ¿Cómo construir un intervalo de confianza de 95%?

Ejemplo

  1. Estimamos la proporción:

\[ \hat{p}= \frac{637}{1,321}= 0.468 \]

  1. Calculamos el error estándar \[ se= \sqrt{\frac{0.468(1-0.468)}{1,321}}=0.0135 \]

.3 Para un intervalo de confianza de 95% la puntuación Z es 1.96

\[ 0.468 \pm 1.96(0.0135) \]

Resultado

  • Límite inferior= 0.442
  • Límite Superior= 0.494

Intervalo de confianza al 99%

  • Si quisiéramos un intervalo de confianza de 99%
  • Tomamos la puntuación Z que llega a ese nivel de confianza
  • Ese valor es 2.58

\[ \hat{p} \pm 2.58(se) \]

Efecto del tamaño de la muestra

Important

  • La estimación es más precisa entre más grande sea la muestra

\[ se= \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \]

Note

  • Entre más grande es la muestra (denominador) más pequeño es el error estándar
  • Entre más pequeño es el error estándar más pequeño es el margen de error

Intervalo de confianza para medias

  • La media de la muestra \(\bar{x}\) es el mejor estimador de la media poblacional \(\mu\)

  • El error estándar de la distribución de medias se expresa como

\[ se= \frac{s}{\sqrt{n}} \]

Note

  • Donde \(s\) es la desviación estándar de la muestra
  • Y \(n\) el tamaño de la muestra

Ejemplo

  • Tenemos una muestra de 1,298 personas
  • En promedio pasan 3.09 hrs viendo televisión
  • La desviación estándar es de 2.87.
  • Crear un intervalo de confianza de 95%

Ejemplo

  1. Calcular el error estándar \[ se= \frac{2.87}{\sqrt{1,298}}= 0.0797 \]
  2. Sumar y restar de punto estimado \[ \bar{x} \pm 1.96(se) \]

\[ 3.09 \pm 1.96(0.0797) \]

Resultado

  • Límite inferior 2.93
  • Límite superior 3.24