Intervalos de confianza

Métodos Cuantitativos

Diego Solís Delgadillo

Estadística inferencial

  • Permite ir de pequeñas muestras a información sobre la población

Punto estimado e intervalo

Punto estimado

  • Es un solo número que es la mejor conjetura del parámetro

Intervalo estimado

  • Es un intervalo de números posibles

Ejemplo

  • 73% de los estadounidenses creen en el infierno

Introducción

  • En la clase anterior creabamos distribuciones muestrales y estimabamos la media
    • Cuya media es muy cercana al parámetro
    • Para ello tomabamos múltiples muestras

Introducción

  • En la vida real no podemos tomar 1000 muestras

  • Trabajamos con una muestra representativa

  • ¿Cómo cuantificar la variación muestral con una sola muestra?

    • Simulando o por medio matemático

Intervalos de confianza

  • Es un rango de posibles valores
  • En una distribución normal a 1.96 desviaciones estándar se encuentra el 95% de las observaciones
  • Por tanto, a 1.96 errores estándar se encuentra el 95% de los estimadores

Importante

  • Tomamos nuestro estimador y sumamos (y restamos) 1.96 por el valor del error estándar

Cómo NO interpretar el intervalo

Hay un 95% de probabilidad de que dentro del intervalo esté el valor verdadero

¿Cómo interpretar el intervalo?

Si no hay sesgo y repetimos nuestro estimador infinitamente, el valor del parámetro estará dentro del intervalo el 95% de las veces{style=“color: #3399ff”}

Intervalo de confianza

\(PuntoEstimado \pm MargenError\)

:::

Intervalo al 95%

Para un intervalo de confianza de 95%

\[ \hat{p} \pm 1.96(se) \]

:::

Ejemplo

  • Una encuesta pregunta si los consumidores estarían de acuerdo en subir los precios de la gasolina para proteger al ambiente
  • Hay una muestra de 1,321 personas

  • 637 están a favor del aumento de los precios

  • ¿Cómo construir un intervalo de confianza de 95%?

Ejemplo

  1. Estimamos la proporción:

\[ \hat{p}= \frac{637}{1,321}= 0.468 \]

  1. Calculamos el error estándar

Error estándar de la proporción

\[se = \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\]

\[se= \sqrt{\frac{0.468(1-0.468)}{1,321}}=0.0135 \]

.3 Para un intervalo de confianza de 95% la puntuación Z es 1.96

\[ 0.468 \pm 1.96(0.0135) \]

Resultado

  • Límite inferior= 0.442
  • Límite Superior= 0.494

Intervalo de confianza al 99%

  • Si quisiéramos un intervalo de confianza de 99%
  • Tomamos la puntuación Z que llega a ese nivel de confianza
  • Ese valor es 2.58

\[ \hat{p} \pm 2.58(se) \]

Efecto del tamaño de la muestra

Important

  • La estimación es más precisa entre más grande sea la muestra

\[ se= \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \]

:::

Distribución t

¿Qué es la Distribución t de Student?

  • Es una distribución de probabilidad que se usa cuando el tamaño de la muestra es pequeño y la desviación estándar poblacional es desconocida.
  • Similar a la distribución normal, pero con colas más gruesas.
  • Se define por grados de libertad \((df)\), que dependen del tamaño de la muestra.

📌 Fórmula de la estadística t:

\[ t = \frac{\bar{x} - \mu}{\frac{s}{\sqrt{n}}} \] Donde:

  • \(\bar{x}\) = media muestral

  • \(\mu\) = media poblacional

  • \(s\) = desviación estándar muestral

  • \(n\) = tamaño de la muestra

¿Cuando utilizar la distribución t?

Usos distribución t

✔ Cuando \(n\) es pequeño \(( n < 30)\) y no conocemos la desviación estándar poblacional.
✔ A medida que \(n\) aumenta, la distribución t se aproxima a la normal estándar \((Z)\).

Warning

  • Si utilizamos los valores \(Z\) con muestras pequeñas el error estándar es muy grande
  • Por ello sustituimos el valor \(Z\) por el valor \(t\)

📊 Comparación: Distribución t vs. Distribución Z

Característica Distribución Z (Normal Estándar) Distribución t
Forma Campana simétrica Similar, pero con colas más gruesas
Uso Tamaño de muestra grande Tamaño de muestra pequeño
Varianza Se conoce (\(\sigma\)) No se conoce (\(s\)) se estima)
Grados de libertad No aplica \(df = n - 1\)
Convergencia Se mantiene igual Se aproxima a \(Z\) cuando \(n \to \infty\)

Comparación

Efecto grados de libertad

Tip

  • Entre más grados de libertad, la distribución \(t\) se parece más a la normal estandarizada

Tabla \(t\)

Tip

  • Muestra los valores a distintos niveles de confianza

  • Expresados como \(t_{.100}\), \(t_{.050}\), \(t_{.025}\), \(t_{.010}\)

  • Lo que indican es la probabilidad de la cola derecha de la distribución

  • Si tenemos 6 grados de libertad y queremos un intervalo de 95%
  • El valor \(t\) es 2.446
  • El intervalo paa este punto sería

\[ \bar{x} \pm 2.446(se) \]

Ejemplo

Encuesta sobre gasto público en salud

  • Tenemos una muestra de 11 personas que respondieron cuánto consideran adecuado que el gobierno invierta mensualmente en salud pública (en pesos, por persona).
  • Los valores son:
    480, 510, 495, 500, 520, 505, 510, 515, 490, 500, 505
  • Su desviación estándar es 11.13
  • ¿Cuál es su intervalo de confianza al 95% para el promedio de la población?

Solución

Datos disponibles

  • Tamaño de la muestra: n = 11
  • Media muestral:
    \(\bar{x} = \frac{480 + 510 + \dots + 505}{11} = 501.36\)
  • Desviación estándar: s = 11.13

Paso 1: Calcular el error estándar

\[se = \frac{s}{\sqrt{n}} = \frac{11.13}{\sqrt{11}} \approx 3.35\]

Solución

Paso 2: Valor t (gl = 10) para 95%

\[t \approx 2.228\]

Paso 3: Intervalo de confianza

\[IC = \bar{x} \pm t \cdot se = 501.36 \pm 2.228 \cdot 3.35\]

\[ IC \approx [493.89, 508.83]\]

  • Límite inferior$493.89
  • Límite superior $508.83

Tamaño de la muestra

Estadística para las Ciencias Sociales

Diego Solís Delgadillo

Tamaño de la muestra

¿Qué determina el tamaño de la muestra?

  • El tamaño de una muestra depende de la precisión que se busque

Note

  • El número de personas incluidas depende del margen de error
  • El margen de error depende del error estándar
  • El error estándar depende del tamaño de la muestra

Tamaño de la muestra para proporción

Primer paso

  • Primero debemos decidir el margen de error que deseamos

  • Debemos señalar a qué nivel de confianza queremos alcanzar

Tip

  • Comúnmente se usa el 95%

¿Qué tamaño de muestra?

Tip

  • Queremos hacer una encuesta de salida de una elección
  • Queremos un estimado de la proporción de personas que votaron por los candidatos
  • La encuesta más reciente ubica al candidato A con 58% y al B con 42%
  • Decidimos que el margen de error deseado es 4% (0.04)

Cálculo tamaño muestra

Calculamos el margen de error

  • Sabemos que el margen de error con un intervalo de confianza es el producto de \[ \hat{p} \pm 1.96(se)=0.04 \]

Sustituimos el error estándar

Sustituyendo con la fórmula del error estándar

\[ \hat{p} \pm 1.96(\sqrt{\frac{\hat{p}(1-\hat{p})}{n}})=0.04 \]

📌 Necesitamos despejar esta fórmula para calacular \(n\)

Despeje

  • Igualando el margen de error a 0.04: \[ 1.96 \left( \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \right) = 0.04 \]
  • Paso 2: Despejar la raíz cuadrada Dividiendo ambos lados por 1.96: \[ \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} = \frac{0.04}{1.96} \]

Despeje

  • Elevando al cuadrado ambos lados: \[ \frac{\hat{p}(1-\hat{p})}{n} = \left( \frac{0.04}{1.96} \right)^2 \]

  • Despejar el tamaño de muestra (n)

    • Reordenando la expresión para despejar (n): \[ n = \frac{\hat{p}(1-\hat{p})}{\left( \frac{0.04}{1.96} \right)^2} \]

Despeje

  • Recordemos una propiedad de fracciones:

\[ \left( \frac{a}{b} \right)^2 = \frac{a^2}{b^2} \]

Por lo tanto:

\[ \frac{1}{\left( \frac{m}{z} \right)^2} = \frac{1}{\frac{m^2}{z^2}} = \frac{z^2}{m^2} \]

⚠️ Cuando divides algo entre una fracción, es idéntico a multiplicar por su inverso

Entonces:

\[ n = \hat{p}(1 - \hat{p}) \cdot \frac{z^2}{m^2} \]

Que es lo mismo que:

\[ n = \frac{z^2 \cdot \hat{p}(1 - \hat{p})}{m^2} \]

Despeje

Paso 4: Simplificación: - Utilizando la notación general para el nivel de confianza y margen de error: \[ n = \frac{z^2 \cdot \hat{p}(1-\hat{p})}{m^2} \]

Important

  • Sustituyendo

\[ n= \frac{1.96^2(\hat{p}(1-\hat{p}))}{0.04^2} \]

Valor de \(\hat{p}\)

Tip

  • Pero nosotros desconocemos el valor de \(\hat{p}\) antes de levantar la encuesta

  • Hacemos una estimación informada de \(\hat{p}\)

  • Si en la última encuesta el candidato A obtuvo 58% podemos utilizar esta información

\[ n= \frac{1.96^2(0.58(1-0.58))}{0.04^2}= 584.88 \]

Muestra sin información de \(\hat{p}\)

Important

  • En ocasiones puede no existir información previa que nos oriente sobre el valor de \(\hat{p}\)
  • El producto \(\hat{p}(1-\hat{p})\) tiene un valor máximo de 0.25
  • Ese valor se obtiene cuando \(\hat{p}\) es igual a 0.50
  • Cuando no tenemos información tomamos a 0.50 como el valor de \(\hat{p}\)

Tamaño de la muestra para la media

Determinamos el nivel de confianza

  • Primero determinamos el intervalo de confianza deseado (95%)

\[ \bar{x} \pm t_{.025}(se) \]

  • Sustituyendo el error estándar

\[ \bar{x} \pm t_{.025}(\frac{s}{\sqrt{n}}) \]

Limitaciones

  • No conocemos los grados de libertad
  • Y desconocemos la desviación estándar de la muestra

Valores Z

  • Sabemos que en muestras mayores a 30 la distribución \(t\) es muy similar a la distribución \(z\)
  • Utilizamos valores \(Z\)

\[ n= \frac{\sigma^2z^2}{m^2} \]

¿Qué hacer si no conoce<mos \(\sigma\)?

  1. Tomar la desviación de algún estudio similar
  2. O hacer una muestra piloto para estimarla

Ejemplo

Identificamos el rango de valores

  • Queremos conocer en una comunidad el número de años de estudio completados por los habitantes

    • ❌ No tenemos información previa

    • ✅ Pero podemos pensar que el rango puede ir de 0 a 18 años

Asumimos una distribución normal

  • Si esta tiene una distribución normal entonces todos los casos estarán contenidos en \(\mu+3\sigma\) 𝒚 \(\mu-3\sigma\)

  • Entonces hay seis desviaciones estándar en total
  • Dividiendo 18/6 obtenemos un estimado de \(\sigma\)
  • Quiero un margen de error de un año

\[ n= \frac{\sigma^2z^2}{m^2} n= \frac{(3^2)(1.96^2)}{1^2}= 34.57 \]