Intervalos de confianza

Estadística para las Ciencias Sociales

Diego Solís Delgadillo

Estadística inferencial

  • Permite ir de pequeñas muestras a información sobre la población

Punto estimado e intervalo

Punto estimado

  • Es un solo número que es la mejor conjetura del parámetro

Intervalo estimado

  • Es un intervalo de números posibles

Ejemplo

  • 73% de los estadounidenses creen en el infierno

Introducción

  • En la clase anterior creabamos distribuciones muestrales y estimabamos la media
    • Cuya media es muy cercana al parámetro
    • Para ello tomabamos múltiples muestras

Introducción

  • En la vida real no podemos tomar 1000 muestras
  • Trabajamos con una muestra representativa
  • ¿Cómo cuantificar la variación muestral con una sola muestra?

Introducción

  • Una forma de estimar con una sola muestra es por remuestreo con bootstrapping
  • Para ello trabajaremos con el paquete “infer” y datos de “moderndive”

Centavos

  • Queremos saber el año de acuñación de todos centavos en EE.UU en 2019
  • Hacer un censo de todos los centavos sería imposible
  • Tomamos una muestra de 50 monedas de un banco local

Muestra centavos

Muestra centavos

  • El paquete moderndive incluye la muestra de 50 centavos
# A tibble: 50 × 2
      ID  year
   <int> <dbl>
 1     1  2002
 2     2  1986
 3     3  2017
 4     4  1988
 5     5  2008
 6     6  1983
 7     7  2008
 8     8  1996
 9     9  2004
10    10  2000
# ℹ 40 more rows

Distribución por año

ggplot(pennies_sample, aes(x = year)) +
geom_histogram(binwidth = 10, color = "white")

Tip

  • La mayoría fueron acuañados entre 1980 y el 2000
  • Pocos son previos a 1970

Año medio de acuñación

pennies_sample %>%
summarise(mean_year = mean(year))
# A tibble: 1 × 1
  mean_year
  <chr>    
1 1995.44  
  • Nuestra mejor estimación es que el año medio de acuñación es 1995.44

Warning

  • Las muestras tienen una variación de muestreo
  • El valor verdadero pudiera ser mayor o menor

¿Cómo estimar la distribución muestral?

  • Podríamos ir al banco por más muestras
  • Pero supongamos que no queremos hacer eso
  • ¿Cómo estimar la distribución muestral con una sola muestra?

Tip

  • Utilizando remuestreo con bootstraping y reemplazo

Remuestreo

  • Paso 1 Incluimos los años en pedazos de papel

Remuestreo

  • Paso 2 metemos los pedazos de papel en una bolsa y los mezclamos
  • Paso 3 extraemos un pedazo de papel y registramos el año

Remuestreo

  • Paso 4 regresamos el papel a la bolsa
    • En otras palabras lo replazamos
  • Paso 5 repetimos estos pasos 49 veces más
    • Porque nuestra es \(n=50\)

Reemplazo

  • ¿Por qué regresamos el pedazo de papel en el paso 4?
  • Si lo dejabamos fuera nos quedaríamos con la misma muestra
  • Si lo regresamos creamos varianza muestral

Tip

  • Al procedimiento de regresar el pedazo de papel se le llama remuestreo con remplazo

Muestra con reemplazo

pennies_resample <- tibble(
year = c(1976, 1962, 1976, 1983, 2017, 2015, 2015, 1962, 2016, 1976,
2006, 1997, 1988, 2015, 2015, 1988, 2016, 1978, 1979, 1997,1974, 2013, 1978, 2015, 2008, 1982, 1986, 1979, 1981, 2004,
2000, 1995, 1999, 2006, 1979, 2015, 1979, 1998, 1981, 2015,
2000, 1999, 1988, 2017, 1992, 1997, 1990, 1988, 2006, 2000))

ggplot(pennies_resample, aes(x = year)) +
geom_histogram(binwidth = 10, color = "white") +
labs(title = "Remuestreo de 50 monedas")

Comparación con la muestra original

Tip

  • Son similares pero no idénticas

Comparación con la muestra original

pennies_resample %>%
summarize(mean_year = mean(year))
# A tibble: 1 × 1
  mean_year
  <chr>    
1 1994.82  
  • Mientras que el año medio para la muestra orginal fue 1995.44
  • Para el remuestreo es 1994.82
  • ¿Qué pasa si repetimos este ejercicio múltiples veces?

Tomando 35 remuestreos

  • El paquete moderndive incluye la información
pennies_resamples
# A tibble: 1,750 × 3
# Groups:   name [35]
   replicate name     year
       <int> <chr>   <dbl>
 1         1 Arianna  1988
 2         1 Arianna  2002
 3         1 Arianna  2015
 4         1 Arianna  1998
 5         1 Arianna  1979
 6         1 Arianna  1971
 7         1 Arianna  1971
 8         1 Arianna  2015
 9         1 Arianna  1988
10         1 Arianna  1979
# ℹ 1,740 more rows

Media por muestra

resampled_means <- pennies_resamples %>%
group_by(name) %>%
summarize(mean_year = mean(year))
resampled_means
# A tibble: 35 × 2
   name      mean_year
   <chr>     <chr>    
 1 Arianna   1992.50  
 2 Artemis   1996.42  
 3 Bea       1996.32  
 4 Camryn    1996.90  
 5 Cassandra 1991.22  
 6 Cindy     1995.48  
 7 Claire    1995.52  
 8 Dahlia    1998.48  
 9 Dan       1993.86  
10 Eindra    1993.56  
# ℹ 25 more rows

Distribución de medias

resampled_means <- pennies_resamples %>%
group_by(name) %>%
summarize(mean_year = mean(year))

ggplot(resampled_means, aes(x = mean_year)) +
geom_histogram(binwidth = 1, color = "white", boundary = 1990) +
labs(x = "Año medio de acuñación")

Distribución de medias

Tip

  • La media de la distribución es cercana al estimador original (1995.4)

Remuestreo con R

remuestreo <- pennies_sample %>% rep_sample_n(size = 50, replace = TRUE, reps = 1000)

medias_remuestreo<-remuestreo %>% 
group_by(replicate) %>%
summarize(mean_year = mean(year))
# A tibble: 1,000 × 2
   replicate mean_year
       <int>     <dbl>
 1         1     1999 
 2         2     1992.
 3         3     1994.
 4         4     1997.
 5         5     1993.
 6         6     1994.
 7         7     1996.
 8         8     1998.
 9         9     1998.
10        10     1998.
# ℹ 990 more rows

Visualización de 1000 muestras

ggplot(medias_remuestreo, aes(x = mean_year)) +
geom_histogram(binwidth = 1, color = "white", boundary = 1990) +
labs(x = "media muestra")

Paquete infer

  • Es otra forma de hacer bootstraping
library(infer)
pennies_sample %>%
specify(response = year) %>%
generate(reps = 1000, type = "bootstrap")
Response: year (numeric)
# A tibble: 50,000 × 2
# Groups:   replicate [1,000]
   replicate  year
       <int> <dbl>
 1         1  2015
 2         1  1993
 3         1  1997
 4         1  2004
 5         1  2017
 6         1  1985
 7         1  1988
 8         1  1997
 9         1  1997
10         1  1985
# ℹ 49,990 more rows

Calculo de medias con infer

distribucion_bootstrap <- pennies_sample %>%
specify(response = year) %>%
generate(reps = 1000) %>%
calculate(stat = "mean")

distribucion_bootstrap
Response: year (numeric)
# A tibble: 1,000 × 2
   replicate stat   
   <chr>     <chr>  
 1 1         1990.96
 2 2         1994.54
 3 3         1991.14
 4 4         1991.46
 5 5         1995.24
 6 6         1997.04
 7 7         1993.30
 8 8         1994.76
 9 9         1995.74
10 10        1998.78
# ℹ 990 more rows

Tip

  • calculate() genera el mismo resultado que group_by()

Visualización con infer

visualize(distribucion_bootstrap)

Intervalos de confianza

  • Es un rango de posibles valores
  • En una distribución normal a 1.96 desviaciones estándar se encuentra el 95% de las observaciones
  • Por tanto, a 1.96 errores estándar se encuentra el 95% de los estimadores

Importante

  • Tomamos nuestro estimador y sumamos (y restamos) 1.96 por el valor del error estándar

Cómo NO interpretar el intervalo

Hay un 95% de probabilidad de que dentro del intervalo esté el valor verdadero

¿Cómo interpretar el intervalo?

Si no hay sesgo y repetimos nuestro estimador infinitamente, el valor del parámetro estará dentro del intervalo el 95% de las veces{style=“color: #3399ff”}

IC con infer (error estándar)

x_bar<-distribucion_bootstrap %>% summarise(mean(stat))

error_estandar_ic <- distribucion_bootstrap %>%
get_confidence_interval(type = "se", point_estimate = x_bar)

error_estandar_ic
# A tibble: 1 × 2
  lower_ci upper_ci
  <chr>    <chr>   
1 1991.41  1999.606

Visualización IC (error estándar)

IC con método matemático

IC con método matemático

Intervalo para la proporción

Distribución muestral de proporciones

  • Muestra los posibles valores de proporción
  • Se aproxima a una distribución normal (cuando \(n\) es mayor a 15)
  • Su media es igual a la proporción de la población

Important

  • Su error estándar se expresa como \[ se= \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \]
  • Donde \(\hat{p}\) es la proporción estimada y \(n\) el número de observaciones

Margen de error e intervalo de confianza

Margen de error

\(Puntuación Z * ErrorEstandar\)

Intervalo de confianza

\(PuntoEstimado \pm MargenError\)

Intervalo al 95%

Para un intervalo de confianza de 95%

\[ \hat{p} \pm 1.96(se) \]

Ejemplo

  • Una encuesta pregunta si los consumidores estarían de acuerdo en subir los precios de la gasolina para proteger al ambiente
  • Hay una muestra de 1,321 personas

  • 637 están a favor del aumento de los precios

  • ¿Cómo construir un intervalo de confianza de 95%?

Ejemplo

  1. Estimamos la proporción:

\[ \hat{p}= \frac{637}{1,321}= 0.468 \]

  1. Calculamos el error estándar \[ se= \sqrt{\frac{0.468(1-0.468)}{1,321}}=0.0135 \]

.3 Para un intervalo de confianza de 95% la puntuación Z es 1.96

\[ 0.468 \pm 1.96(0.0135) \]

Resultado

  • Límite inferior= 0.442
  • Límite Superior= 0.494

Intervalo de confianza al 99%

  • Si quisiéramos un intervalo de confianza de 99%
  • Tomamos la puntuación Z que llega a ese nivel de confianza
  • Ese valor es 2.58

\[ \hat{p} \pm 2.58(se) \]

Efecto del tamaño de la muestra

Important

  • La estimación es más precisa entre más grande sea la muestra

\[ se= \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \]

Note

  • Entre más grande es la muestra (denominador) más pequeño es el error estándar
  • Entre más pequeño es el error estándar más pequeño es el margen de error

Intervalo de confianza para medias

  • La media de la muestra \(\bar{x}\) es el mejor estimador de la media poblacional \(\mu\)

  • El error estándar de la distribución de medias se expresa como

\[ se= \frac{s}{\sqrt{n}} \]

Note

  • Donde \(s\) es la desviación estándar de la muestra
  • Y \(n\) el tamaño de la muestra

Ejemplo

  • Tenemos una muestra de 1,298 personas
  • En promedio pasan 3.09 hrs viendo televisión
  • La desviación estándar es de 2.87.
  • Crear un intervalo de confianza de 95%

Ejemplo

  1. Calcular el error estándar \[ se= \frac{2.87}{\sqrt{1,298}}= 0.0797 \]
  2. Sumar y restar de punto estimado \[ \bar{x} \pm 1.96(se) \]

\[ 3.09 \pm 1.96(0.0797) \]

Resultado

  • Límite inferior 2.93
  • Límite superior 3.24

Distribución t

  • Es utilizada cuando [tenemos muestras pequeñas]

Tip

  • Si utilizamos los valores z con muestras pequeñas el error estándar es muy grande
  • Por ello sustituimos el valor z por el valor t

Important

  • Esta una distribución con colas más anchas que la distribución normal

Distribución t

Distribución t

  • La distribución \(t\) se parece a la distribución normal estandarizada

Warning

  • Ambas tienen una media de \(0\), pero la distribución \(t\) tiene una desviación estándar superior a \(1\)

Important

  • El valor de sus desviación estándar depende de los grados de libertad
  • Los grados de libertad son iguales a \(df =𝒏−𝟏\)

Efecto grados de libertad

Tip

  • Entre más grados de libertad, la distribución \(t\) se parece más a la normal estandarizada

Propiedades de la distribución \(t\)

Tip

  • Tiene forma de campana con una media de \(0\)
  • Tiene una forma distinta dependiendo de los grados de libertad
  • La distribución \(t\) tiene colas más anchas
  • Entre más \(df\) más se acerca a la distribución normal
  • Con más de 30 \(df\) es prácticamente igual a la distribución normal

Tabla \(t\)

Tip

  • Muestra los valores a distintos niveles de confianza

  • Expresados como \(t_{.100}\), \(t_{.050}\), \(t_{.025}\), \(t_{.010}\)

  • Lo que indican es la probabilidad de la cola derecha de la distribución

  • Si tenemos 6 grados de libertad y queremos un intervalo de 95%
  • El valor \(t\) es 2.446
  • El intervalo paa este punto sería

\[ \bar{x} \pm 2.446(se) \]

Ejemplo

  • Tenemos una muestra de 11 personas que participan en una subasta en Ebay
  • Los valores son: 570, 620, 610, 590, 540, 590, 565, 590, 580, 570, 595
  • Su desviación estándar es 14.40
  • ¿Cuál es su intervalo de confianza?

\(\bar{x} = 583.63\)

  • Error estándar \[ se= \frac{14.40}{\sqrt{11}}= 4.34 \]

  • Intervalo de confianza al 95 con 10 grados de libertad

\[\bar{x} \pm 2.22(se)\] \[583.63 \pm 2.22(4.34) \]

Tip

  • Límite superior= 593.26
  • Límite inferior= 574

Tamaño de la muestra

Important

  • El tamaño de una muestra depende de la precisión que se busque
  • El número de personas incluidas depende del margen de error - El margen de error depende del error estándar
  • El error estándar depende del tamaño de la muestra

Tamaño de la muestra para proporción

Tip

  • Primero debemos decidir el margen de error que deseamos

  • Debemos señalar a qué nivel de confianza queremos alcanzar

Important

  • Comúnmente se usa el 95%

Ejemplo

Tip

  • Queremos hacer una encuesta de salida de una elección
  • Queremos un estimado de la proporción de personas que votaron por los candidatos
  • La encuesta más reciente ubica al candidato A con 58% y al B con 42%
  • Decidimos que el margen de error deseado es 4% (0.04)

Tip

  • Sabemos que el margen de error con un intervalo de confianza es el producto de \[ \hat{p} \pm 1.96(se)=0.04 \]

Note

Sustituyendo con la fórmula del error estándar

\[ \hat{p} \pm 1.96(\sqrt{\frac{\hat{p}(1-\hat{p})}{n}})=0.04 \]

Tip

  • Al momento de despejar la operación llegamos a la siguiente fórmula \[ n= \frac{z^2(\hat{p}(1-\hat{p}))}{m^2} \]

Important

  • Sustituyendo

\[ n= \frac{1.96^2(\hat{p}(1-\hat{p}))}{0.04^2} \]

Tip

  • Pero nosotros desconocemos el valor de \(\hat{p}\) antes de levantar la encuesta

  • Hacemos una estimación informada de \(\hat{p}\)

  • Si en la última encuesta el candidato A obtuvo 58% podemos utilizar esta información

\[ n= \frac{1.96^2(0.58(1-0.58))}{0.04^2}= 584.88 \]

Tamaño de la muestra sin información de \(\hat{p}\)

Important

  • En ocasiones puede no existir información previa que nos oriente sobre el valor de \(\hat{p}\)
  • El producto \(\hat{p}(1-\hat{p})\) tiene un valor máximo de 0.25
  • Ese valor se obtiene cuando \(\hat{p}\) es igual a 0.50
  • Cuando no tenemos información tomamos a 0.50 como el valor de \(\hat{p}\)

Tamaño de la muestra para la media

Tip

  • Primero determinamos el intervalo de confianza deseado (95%)

\[ \bar{x} \pm t_{.025}(se) \] - Sustituyendo el error estádar

\[ \bar{x} \pm t_{.025}(\frac{s}{\sqrt{n}}) \]

Warning

  • Hay varias limitaciones
  • No conocemos los grados de libertad
  • Y desconocemos la desviación estándar de la muestra

Important

  • Sabemos que en muestras mayores a 30 la distribución \(t\) es muy similar a la distribución \(z\)
  • Utilizamos valores \(z\)

\[ n= \frac{\sigma^2z^2}{m^2} \]

Warning

  • No conocemos \(\sigma\) y podemos hacer dos cosas: tomar la desviación de algún estudio similar
  • O hacer una muestra piloto para estimarla

Ejemplo

Tip

  • Queremos conocer en una comunidad el número de años de estudio completados por los habitantes
  • No tenemos información previa
  • Pero podemos pensar que el rango puede ir de 0 a 18 años

Note

  • Si esta tiene una distribución normal entonces todos los casos estarán contenidos en \(\mu+3\sigma\) 𝒚 \(\mu-3\sigma\)

  • Entonces hay seis desviaciones estándar en total
  • Dividiendo 18/6 obtenemos un estimado de \(\sigma\)
  • Quiero un margen de error de un año

\[ n= \frac{\sigma^2z^2}{m^2} n= \frac{(3^2)(1.96^2)}{1^2}= 34.57 \]