s07-intervalos-de-confianza

Intervalos de confianza

Estadística para las Ciencias Sociales

Diego Solís Delgadillo

Estadística inferencial

Permite ir de pequeñas muestras a información sobre la población

Punto estimado e intervalo

Punto estimado

Es un solo número que es la mejor conjetura del parámetro

Intervalo estimado

Es un intervalo de números posibles

Ejemplo

73% de los estadounidenses creen en el infierno

Introducción

En la clase anterior creabamos distribuciones muestrales y estimabamos la media
- Cuya media es muy cercana al parámetro
- Para ello tomabamos múltiples muestras

Introducción

En la vida real no podemos tomar 1000 muestras
Trabajamos con una muestra representativa
¿Cómo cuantificar la variación muestral con una sola muestra?

Introducción

Una forma de estimar con una sola muestra es por remuestreo con bootstrapping
Para ello trabajaremos con el paquete “infer” y datos de “moderndive”

Centavos

Queremos saber el año de acuñación de todos centavos en EE.UU en 2019
Hacer un censo de todos los centavos sería imposible
Tomamos una muestra de 50 monedas de un banco local

Muestra centavos

El paquete moderndive incluye la muestra de 50 centavos

# A tibble: 50 × 2
      ID  year
   <int> <dbl>
 1     1  2002
 2     2  1986
 3     3  2017
 4     4  1988
 5     5  2008
 6     6  1983
 7     7  2008
 8     8  1996
 9     9  2004
10    10  2000
# ℹ 40 more rows

Distribución por año

ggplot(pennies_sample, aes(x = year)) +
geom_histogram(binwidth = 10, color = "white")

Tip

La mayoría fueron acuañados entre 1980 y el 2000
Pocos son previos a 1970

Año medio de acuñación

pennies_sample %>%
summarise(mean_year = mean(year))

# A tibble: 1 × 1
  mean_year
  <chr>    
1 1995.44

Nuestra mejor estimación es que el año medio de acuñación es 1995.44

Warning

Las muestras tienen una variación de muestreo
El valor verdadero pudiera ser mayor o menor

¿Cómo estimar la distribución muestral?

Podríamos ir al banco por más muestras
Pero supongamos que no queremos hacer eso
¿Cómo estimar la distribución muestral con una sola muestra?

Tip

Utilizando remuestreo con bootstraping y reemplazo

Remuestreo

Paso 1 Incluimos los años en pedazos de papel

Remuestreo

Paso 2 metemos los pedazos de papel en una bolsa y los mezclamos
Paso 3 extraemos un pedazo de papel y registramos el año

Remuestreo

Paso 4 regresamos el papel a la bolsa
- En otras palabras lo replazamos
Paso 5 repetimos estos pasos 49 veces más
- Porque nuestra es \(n=50\)

Reemplazo

¿Por qué regresamos el pedazo de papel en el paso 4?
Si lo dejabamos fuera nos quedaríamos con la misma muestra
Si lo regresamos creamos varianza muestral

Tip

Al procedimiento de regresar el pedazo de papel se le llama remuestreo con remplazo

Muestra con reemplazo

pennies_resample <- tibble(
year = c(1976, 1962, 1976, 1983, 2017, 2015, 2015, 1962, 2016, 1976,
2006, 1997, 1988, 2015, 2015, 1988, 2016, 1978, 1979, 1997,1974, 2013, 1978, 2015, 2008, 1982, 1986, 1979, 1981, 2004,
2000, 1995, 1999, 2006, 1979, 2015, 1979, 1998, 1981, 2015,
2000, 1999, 1988, 2017, 1992, 1997, 1990, 1988, 2006, 2000))

ggplot(pennies_resample, aes(x = year)) +
geom_histogram(binwidth = 10, color = "white") +
labs(title = "Remuestreo de 50 monedas")

Comparación con la muestra original

Tip

Son similares pero no idénticas

Comparación con la muestra original

pennies_resample %>%
summarize(mean_year = mean(year))

# A tibble: 1 × 1
  mean_year
  <chr>    
1 1994.82

Mientras que el año medio para la muestra orginal fue 1995.44
Para el remuestreo es 1994.82
¿Qué pasa si repetimos este ejercicio múltiples veces?

Tomando 35 remuestreos

El paquete moderndive incluye la información

pennies_resamples

# A tibble: 1,750 × 3
# Groups:   name [35]
   replicate name     year
       <int> <chr>   <dbl>
 1         1 Arianna  1988
 2         1 Arianna  2002
 3         1 Arianna  2015
 4         1 Arianna  1998
 5         1 Arianna  1979
 6         1 Arianna  1971
 7         1 Arianna  1971
 8         1 Arianna  2015
 9         1 Arianna  1988
10         1 Arianna  1979
# ℹ 1,740 more rows

Media por muestra

resampled_means <- pennies_resamples %>%
group_by(name) %>%
summarize(mean_year = mean(year))
resampled_means

# A tibble: 35 × 2
   name      mean_year
   <chr>     <chr>    
 1 Arianna   1992.50  
 2 Artemis   1996.42  
 3 Bea       1996.32  
 4 Camryn    1996.90  
 5 Cassandra 1991.22  
 6 Cindy     1995.48  
 7 Claire    1995.52  
 8 Dahlia    1998.48  
 9 Dan       1993.86  
10 Eindra    1993.56  
# ℹ 25 more rows

Distribución de medias

resampled_means <- pennies_resamples %>%
group_by(name) %>%
summarize(mean_year = mean(year))

ggplot(resampled_means, aes(x = mean_year)) +
geom_histogram(binwidth = 1, color = "white", boundary = 1990) +
labs(x = "Año medio de acuñación")

Distribución de medias

Tip

La media de la distribución es cercana al estimador original (1995.4)

Remuestreo con R

remuestreo <- pennies_sample %>% rep_sample_n(size = 50, replace = TRUE, reps = 1000)

medias_remuestreo<-remuestreo %>% 
group_by(replicate) %>%
summarize(mean_year = mean(year))

# A tibble: 1,000 × 2
   replicate mean_year
       <int>     <dbl>
 1         1     1999 
 2         2     1992.
 3         3     1994.
 4         4     1997.
 5         5     1993.
 6         6     1994.
 7         7     1996.
 8         8     1998.
 9         9     1998.
10        10     1998.
# ℹ 990 more rows

Visualización de 1000 muestras

ggplot(medias_remuestreo, aes(x = mean_year)) +
geom_histogram(binwidth = 1, color = "white", boundary = 1990) +
labs(x = "media muestra")

Paquete infer

Es otra forma de hacer bootstraping

library(infer)
pennies_sample %>%
specify(response = year) %>%
generate(reps = 1000, type = "bootstrap")

Response: year (numeric)
# A tibble: 50,000 × 2
# Groups:   replicate [1,000]
   replicate  year
       <int> <dbl>
 1         1  2015
 2         1  1993
 3         1  1997
 4         1  2004
 5         1  2017
 6         1  1985
 7         1  1988
 8         1  1997
 9         1  1997
10         1  1985
# ℹ 49,990 more rows

Calculo de medias con infer

distribucion_bootstrap <- pennies_sample %>%
specify(response = year) %>%
generate(reps = 1000) %>%
calculate(stat = "mean")

distribucion_bootstrap

Response: year (numeric)
# A tibble: 1,000 × 2
   replicate stat   
   <chr>     <chr>  
 1 1         1990.96
 2 2         1994.54
 3 3         1991.14
 4 4         1991.46
 5 5         1995.24
 6 6         1997.04
 7 7         1993.30
 8 8         1994.76
 9 9         1995.74
10 10        1998.78
# ℹ 990 more rows

Tip

calculate() genera el mismo resultado que group_by()

Visualización con infer

visualize(distribucion_bootstrap)

Intervalos de confianza

Es un rango de posibles valores
En una distribución normal a 1.96 desviaciones estándar se encuentra el 95% de las observaciones
Por tanto, a 1.96 errores estándar se encuentra el 95% de los estimadores

Importante

Tomamos nuestro estimador y sumamos (y restamos) 1.96 por el valor del error estándar

Cómo NO interpretar el intervalo

Hay un 95% de probabilidad de que dentro del intervalo esté el valor verdadero

¿Cómo interpretar el intervalo?

Si no hay sesgo y repetimos nuestro estimador infinitamente, el valor del parámetro estará dentro del intervalo el 95% de las veces{style=“color: #3399ff”}

IC con infer (error estándar)

x_bar<-distribucion_bootstrap %>% summarise(mean(stat))

error_estandar_ic <- distribucion_bootstrap %>%
get_confidence_interval(type = "se", point_estimate = x_bar)

error_estandar_ic

# A tibble: 1 × 2
  lower_ci upper_ci
  <chr>    <chr>   
1 1991.41  1999.606

Visualización IC (error estándar)

IC con método matemático

Intervalo para la proporción

Distribución muestral de proporciones

Muestra los posibles valores de proporción
Se aproxima a una distribución normal (cuando \(n\) es mayor a 15)
Su media es igual a la proporción de la población

Important

Su error estándar se expresa como \[ se= \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \]
Donde \(\hat{p}\) es la proporción estimada y \(n\) el número de observaciones

Margen de error e intervalo de confianza

Margen de error

\(Puntuación Z * ErrorEstandar\)

Intervalo de confianza

\(PuntoEstimado \pm MargenError\)

Intervalo al 95%

Para un intervalo de confianza de 95%

\[ \hat{p} \pm 1.96(se) \]

Ejemplo

Una encuesta pregunta si los consumidores estarían de acuerdo en subir los precios de la gasolina para proteger al ambiente

Hay una muestra de 1,321 personas
637 están a favor del aumento de los precios
¿Cómo construir un intervalo de confianza de 95%?

Ejemplo

Estimamos la proporción:

\[ \hat{p}= \frac{637}{1,321}= 0.468 \]

Calculamos el error estándar \[ se= \sqrt{\frac{0.468(1-0.468)}{1,321}}=0.0135 \]

.3 Para un intervalo de confianza de 95% la puntuación Z es 1.96

\[ 0.468 \pm 1.96(0.0135) \]

Resultado

Límite inferior= 0.442
Límite Superior= 0.494

Intervalo de confianza al 99%

Si quisiéramos un intervalo de confianza de 99%
Tomamos la puntuación Z que llega a ese nivel de confianza
Ese valor es 2.58

\[ \hat{p} \pm 2.58(se) \]

Efecto del tamaño de la muestra

Important

La estimación es más precisa entre más grande sea la muestra

\[ se= \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \]

Note

Entre más grande es la muestra (denominador) más pequeño es el error estándar
Entre más pequeño es el error estándar más pequeño es el margen de error

Intervalo de confianza para medias

La media de la muestra \(\bar{x}\) es el mejor estimador de la media poblacional \(\mu\)
El error estándar de la distribución de medias se expresa como

\[ se= \frac{s}{\sqrt{n}} \]

Note

Donde \(s\) es la desviación estándar de la muestra
Y \(n\) el tamaño de la muestra

Ejemplo

Tenemos una muestra de 1,298 personas
En promedio pasan 3.09 hrs viendo televisión
La desviación estándar es de 2.87.
Crear un intervalo de confianza de 95%

Ejemplo

Calcular el error estándar \[ se= \frac{2.87}{\sqrt{1,298}}= 0.0797 \]
Sumar y restar de punto estimado \[ \bar{x} \pm 1.96(se) \]

\[ 3.09 \pm 1.96(0.0797) \]

Resultado

Límite inferior 2.93
Límite superior 3.24

Distribución t

Es utilizada cuando [tenemos muestras pequeñas]

Tip

Si utilizamos los valores z con muestras pequeñas el error estándar es muy grande
Por ello sustituimos el valor z por el valor t

Important

Esta una distribución con colas más anchas que la distribución normal

Distribución t

La distribución \(t\) se parece a la distribución normal estandarizada

Warning

Ambas tienen una media de \(0\), pero la distribución \(t\) tiene una desviación estándar superior a \(1\)

Important

El valor de sus desviación estándar depende de los grados de libertad
Los grados de libertad son iguales a \(df =𝒏−𝟏\)

Efecto grados de libertad

Tip

Entre más grados de libertad, la distribución \(t\) se parece más a la normal estandarizada

Propiedades de la distribución \(t\)

Tip

Tiene forma de campana con una media de \(0\)
Tiene una forma distinta dependiendo de los grados de libertad
La distribución \(t\) tiene colas más anchas
Entre más \(df\) más se acerca a la distribución normal
Con más de 30 \(df\) es prácticamente igual a la distribución normal

Tabla \(t\)

Tip

Muestra los valores a distintos niveles de confianza
Expresados como \(t_{.100}\), \(t_{.050}\), \(t_{.025}\), \(t_{.010}\)
Lo que indican es la probabilidad de la cola derecha de la distribución

Si tenemos 6 grados de libertad y queremos un intervalo de 95%
El valor \(t\) es 2.446
El intervalo paa este punto sería

\[ \bar{x} \pm 2.446(se) \]

Ejemplo

Tenemos una muestra de 11 personas que participan en una subasta en Ebay
Los valores son: 570, 620, 610, 590, 540, 590, 565, 590, 580, 570, 595
Su desviación estándar es 14.40
¿Cuál es su intervalo de confianza?

\(\bar{x} = 583.63\)

Error estándar \[ se= \frac{14.40}{\sqrt{11}}= 4.34 \]

Intervalo de confianza al 95 con 10 grados de libertad

\[\bar{x} \pm 2.22(se)\] \[583.63 \pm 2.22(4.34) \]

Tip

Límite superior= 593.26
Límite inferior= 574

Tamaño de la muestra

Important

El tamaño de una muestra depende de la precisión que se busque

El número de personas incluidas depende del margen de error - El margen de error depende del error estándar
El error estándar depende del tamaño de la muestra

Tamaño de la muestra para proporción

Tip

Primero debemos decidir el margen de error que deseamos
Debemos señalar a qué nivel de confianza queremos alcanzar

Important

Comúnmente se usa el 95%

Ejemplo

Tip

Queremos hacer una encuesta de salida de una elección
Queremos un estimado de la proporción de personas que votaron por los candidatos
La encuesta más reciente ubica al candidato A con 58% y al B con 42%
Decidimos que el margen de error deseado es 4% (0.04)

Tip

Sabemos que el margen de error con un intervalo de confianza es el producto de \[ \hat{p} \pm 1.96(se)=0.04 \]

Note

Sustituyendo con la fórmula del error estándar

\[ \hat{p} \pm 1.96(\sqrt{\frac{\hat{p}(1-\hat{p})}{n}})=0.04 \]

Tip

Al momento de despejar la operación llegamos a la siguiente fórmula \[ n= \frac{z^2(\hat{p}(1-\hat{p}))}{m^2} \]

Important

Sustituyendo

\[ n= \frac{1.96^2(\hat{p}(1-\hat{p}))}{0.04^2} \]

Tip

Pero nosotros desconocemos el valor de \(\hat{p}\) antes de levantar la encuesta
Hacemos una estimación informada de \(\hat{p}\)
Si en la última encuesta el candidato A obtuvo 58% podemos utilizar esta información

\[ n= \frac{1.96^2(0.58(1-0.58))}{0.04^2}= 584.88 \]

Tamaño de la muestra sin información de \(\hat{p}\)

Important

En ocasiones puede no existir información previa que nos oriente sobre el valor de \(\hat{p}\)
El producto \(\hat{p}(1-\hat{p})\) tiene un valor máximo de 0.25
Ese valor se obtiene cuando \(\hat{p}\) es igual a 0.50
Cuando no tenemos información tomamos a 0.50 como el valor de \(\hat{p}\)

Tamaño de la muestra para la media

Tip

Primero determinamos el intervalo de confianza deseado (95%)

\[ \bar{x} \pm t_{.025}(se) \] - Sustituyendo el error estádar

\[ \bar{x} \pm t_{.025}(\frac{s}{\sqrt{n}}) \]

Warning

Hay varias limitaciones
No conocemos los grados de libertad
Y desconocemos la desviación estándar de la muestra

Important

Sabemos que en muestras mayores a 30 la distribución \(t\) es muy similar a la distribución \(z\)
Utilizamos valores \(z\)

\[ n= \frac{\sigma^2z^2}{m^2} \]

Warning

No conocemos \(\sigma\) y podemos hacer dos cosas: tomar la desviación de algún estudio similar
O hacer una muestra piloto para estimarla

Ejemplo

Tip

Queremos conocer en una comunidad el número de años de estudio completados por los habitantes
No tenemos información previa
Pero podemos pensar que el rango puede ir de 0 a 18 años

Note

Si esta tiene una distribución normal entonces todos los casos estarán contenidos en \(\mu+3\sigma\) 𝒚 \(\mu-3\sigma\)

Entonces hay seis desviaciones estándar en total
Dividiendo 18/6 obtenemos un estimado de \(\sigma\)
Quiero un margen de error de un año

\[ n= \frac{\sigma^2z^2}{m^2} n= \frac{(3^2)(1.96^2)}{1^2}= 34.57 \]