s07-intervalos-de-confianza

Intervalos de confianza

Estadística para las Ciencias Sociales

Diego Solís Delgadillo

Estadística inferencial

Permite ir de pequeñas muestras a información sobre la población

Punto estimado e intervalo

Punto estimado

Es un solo número que es la mejor conjetura del parámetro

Intervalo estimado

Es un intervalo de números posibles

Ejemplo

73% de los estadounidenses creen en el infierno

Introducción

En la clase anterior creabamos distribuciones muestrales y estimabamos la media
- Cuya media es muy cercana al parámetro
- Para ello tomabamos múltiples muestras

Introducción

En la vida real no podemos tomar 1000 muestras
Trabajamos con una muestra representativa
¿Cómo cuantificar la variación muestral con una sola muestra?

Introducción

Una forma de estimar con una sola muestra es por remuestreo con bootstrapping
Para ello trabajaremos con el paquete “infer” y datos de “moderndive”

Centavos

Queremos saber el año de acuñación de todos centavos en EE.UU en 2019
Hacer un censo de todos los centavos sería imposible
Tomamos una muestra de 50 monedas de un banco local

Muestra centavos

El paquete moderndive incluye la muestra de 50 centavos

# A tibble: 50 × 2
      ID  year
   <int> <dbl>
 1     1  2002
 2     2  1986
 3     3  2017
 4     4  1988
 5     5  2008
 6     6  1983
 7     7  2008
 8     8  1996
 9     9  2004
10    10  2000
# ℹ 40 more rows

Distribución por año

ggplot(pennies_sample, aes(x = year)) +
geom_histogram(binwidth = 10, color = "white")

Tip

La mayoría fueron acuañados entre 1980 y el 2000
Pocos son previos a 1970

Año medio de acuñación

pennies_sample %>%
summarise(mean_year = mean(year))

# A tibble: 1 × 1
  mean_year
  <chr>    
1 1995.44

Nuestra mejor estimación es que el año medio de acuñación es 1995.44

Warning

Las muestras tienen una variación de muestreo
El valor verdadero pudiera ser mayor o menor

¿Cómo estimar la distribución muestral?

Podríamos ir al banco por más muestras
Pero supongamos que no queremos hacer eso
¿Cómo estimar la distribución muestral con una sola muestra?

Tip

Utilizando remuestreo con bootstraping y reemplazo

Remuestreo

Paso 1 Incluimos los años en pedazos de papel

Remuestreo

Paso 2 metemos los pedazos de papel en una bolsa y los mezclamos
Paso 3 extraemos un pedazo de papel y registramos el año

Remuestreo

Paso 4 regresamos el papel a la bolsa
- En otras palabras lo replazamos
Paso 5 repetimos estos pasos 49 veces más
- Porque nuestra es \(n=50\)

Reemplazo

¿Por qué regresamos el pedazo de papel en el paso 4?
Si lo dejabamos fuera nos quedaríamos con la misma muestra
Si lo regresamos creamos varianza muestral

Tip

Al procedimiento de regresar el pedazo de papel se le llama remuestreo con remplazo

Muestra con reemplazo

pennies_resample <- tibble(
year = c(1976, 1962, 1976, 1983, 2017, 2015, 2015, 1962, 2016, 1976,
2006, 1997, 1988, 2015, 2015, 1988, 2016, 1978, 1979, 1997,1974, 2013, 1978, 2015, 2008, 1982, 1986, 1979, 1981, 2004,
2000, 1995, 1999, 2006, 1979, 2015, 1979, 1998, 1981, 2015,
2000, 1999, 1988, 2017, 1992, 1997, 1990, 1988, 2006, 2000))

ggplot(pennies_resample, aes(x = year)) +
geom_histogram(binwidth = 10, color = "white") +
labs(title = "Remuestreo de 50 monedas")

Comparación con la muestra original

Tip

Son similares pero no idénticas

Comparación con la muestra original

pennies_resample %>%
summarize(mean_year = mean(year))

# A tibble: 1 × 1
  mean_year
  <chr>    
1 1994.82

Mientras que el año medio para la muestra orginal fue 1995.44
Para el remuestreo es 1994.82
¿Qué pasa si repetimos este ejercicio múltiples veces?

Tomando 35 remuestreos

El paquete moderndive incluye la información

pennies_resamples

# A tibble: 1,750 × 3
# Groups:   name [35]
   replicate name     year
       <int> <chr>   <dbl>
 1         1 Arianna  1988
 2         1 Arianna  2002
 3         1 Arianna  2015
 4         1 Arianna  1998
 5         1 Arianna  1979
 6         1 Arianna  1971
 7         1 Arianna  1971
 8         1 Arianna  2015
 9         1 Arianna  1988
10         1 Arianna  1979
# ℹ 1,740 more rows

Media por muestra

resampled_means <- pennies_resamples %>%
group_by(name) %>%
summarize(mean_year = mean(year))
resampled_means

# A tibble: 35 × 2
   name      mean_year
   <chr>     <chr>    
 1 Arianna   1992.50  
 2 Artemis   1996.42  
 3 Bea       1996.32  
 4 Camryn    1996.90  
 5 Cassandra 1991.22  
 6 Cindy     1995.48  
 7 Claire    1995.52  
 8 Dahlia    1998.48  
 9 Dan       1993.86  
10 Eindra    1993.56  
# ℹ 25 more rows

Distribución de medias

resampled_means <- pennies_resamples %>%
group_by(name) %>%
summarize(mean_year = mean(year))

ggplot(resampled_means, aes(x = mean_year)) +
geom_histogram(binwidth = 1, color = "white", boundary = 1990) +
labs(x = "Año medio de acuñación")

Distribución de medias

Tip

La media de la distribución es cercana al estimador original (1995.4)

Remuestreo con R

remuestreo <- pennies_sample %>% rep_sample_n(size = 50, replace = TRUE, reps = 1000)

medias_remuestreo<-remuestreo %>% 
group_by(replicate) %>%
summarize(mean_year = mean(year))

# A tibble: 1,000 × 2
   replicate mean_year
       <int>     <dbl>
 1         1     1994.
 2         2     1993.
 3         3     1995.
 4         4     1993.
 5         5     1999.
 6         6     1995.
 7         7     1996.
 8         8     1992.
 9         9     1995.
10        10     1999.
# ℹ 990 more rows

Visualización de 1000 muestras

ggplot(medias_remuestreo, aes(x = mean_year)) +
geom_histogram(binwidth = 1, color = "white", boundary = 1990) +
labs(x = "media muestra")

Paquete infer

Es otra forma de hacer bootstraping

library(infer)
pennies_sample %>%
specify(response = year) %>%
generate(reps = 1000, type = "bootstrap")

Response: year (numeric)
# A tibble: 50,000 × 2
# Groups:   replicate [1,000]
   replicate  year
       <int> <dbl>
 1         1  1997
 2         1  1990
 3         1  2016
 4         1  1995
 5         1  1962
 6         1  1985
 7         1  1996
 8         1  2016
 9         1  2016
10         1  1992
# ℹ 49,990 more rows

Calculo de medias con infer

distribucion_bootstrap <- pennies_sample %>%
specify(response = year) %>%
generate(reps = 1000) %>%
calculate(stat = "mean")

distribucion_bootstrap

Response: year (numeric)
# A tibble: 1,000 × 2
   replicate stat   
   <chr>     <chr>  
 1 1         1994.22
 2 2         1994.78
 3 3         1993.52
 4 4         1994.52
 5 5         1992.38
 6 6         1998.58
 7 7         1990.92
 8 8         1997.32
 9 9         1997.30
10 10        1997.70
# ℹ 990 more rows

Tip

calculate() genera el mismo resultado que group_by()

Visualización con infer

visualize(distribucion_bootstrap)

Intervalos de confianza

Es un rango de posibles valores
En una distribución normal a 1.96 desviaciones estándar se encuentra el 95% de las observaciones
Por tanto, a 1.96 errores estándar se encuentra el 95% de los estimadores

Importante

Tomamos nuestro estimador y sumamos (y restamos) 1.96 por el valor del error estándar

Cómo NO interpretar el intervalo

Hay un 95% de probabilidad de que dentro del intervalo esté el valor verdadero

¿Cómo interpretar el intervalo?

Si no hay sesgo y repetimos nuestro estimador infinitamente, el valor del parámetro estará dentro del intervalo el 95% de las veces{style=“color: #3399ff”}

IC con infer (error estándar)

x_bar<-distribucion_bootstrap %>% summarise(mean(stat))

error_estandar_ic <- distribucion_bootstrap %>%
get_confidence_interval(type = "se", point_estimate = x_bar)

error_estandar_ic

# A tibble: 1 × 2
  lower_ci upper_ci
  <chr>    <chr>   
1 1991.351 1999.625

Visualización IC (error estándar)

IC con método matemático

Intervalo para la proporción

Distribución muestral de proporciones

Muestra los posibles valores de proporción
Se aproxima a una distribución normal (cuando \(n\) es mayor a 15)
Su media es igual a la proporción de la población

Important

Su error estándar se expresa como \[ se= \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \]
Donde \(\hat{p}\) es la proporción estimada y \(n\) el número de observaciones

Margen de error e intervalo de confianza

Margen de error

\(Puntuación Z * ErrorEstandar\)

Intervalo de confianza

\(PuntoEstimado \pm MargenError\)

Intervalo al 95%

Para un intervalo de confianza de 95%

\[ \hat{p} \pm 1.96(se) \]

Ejemplo

Una encuesta pregunta si los consumidores estarían de acuerdo en subir los precios de la gasolina para proteger al ambiente

Hay una muestra de 1,321 personas
637 están a favor del aumento de los precios
¿Cómo construir un intervalo de confianza de 95%?

Ejemplo

Estimamos la proporción:

\[ \hat{p}= \frac{637}{1,321}= 0.468 \]

Calculamos el error estándar \[ se= \sqrt{\frac{0.468(1-0.468)}{1,321}}=0.0135 \]

.3 Para un intervalo de confianza de 95% la puntuación Z es 1.96

\[ 0.468 \pm 1.96(0.0135) \]

Resultado

Límite inferior= 0.442
Límite Superior= 0.494

Intervalo de confianza al 99%

Si quisiéramos un intervalo de confianza de 99%
Tomamos la puntuación Z que llega a ese nivel de confianza
Ese valor es 2.58

\[ \hat{p} \pm 2.58(se) \]

Efecto del tamaño de la muestra

Important

La estimación es más precisa entre más grande sea la muestra

\[ se= \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \]

Note

Entre más grande es la muestra (denominador) más pequeño es el error estándar
Entre más pequeño es el error estándar más pequeño es el margen de error

Intervalo de confianza para medias

La media de la muestra \(\bar{x}\) es el mejor estimador de la media poblacional \(\mu\)
El error estándar de la distribución de medias se expresa como

\[ se= \frac{s}{\sqrt{n}} \]

Note

Donde \(s\) es la desviación estándar de la muestra
Y \(n\) el tamaño de la muestra

Ejemplo

Tenemos una muestra de 1,298 personas
En promedio pasan 3.09 hrs viendo televisión
La desviación estándar es de 2.87.
Crear un intervalo de confianza de 95%

Ejemplo

Calcular el error estándar \[ se= \frac{2.87}{\sqrt{1,298}}= 0.0797 \]
Sumar y restar de punto estimado \[ \bar{x} \pm 1.96(se) \]

\[ 3.09 \pm 1.96(0.0797) \]

Resultado

Límite inferior 2.93
Límite superior 3.24