Intervalos de confianza II

Estadística para las Ciencias Sociales

Diego Solís Delgadillo

Distribución t

¿Qué es la Distribución t de Student?

  • Es una distribución de probabilidad que se usa cuando el tamaño de la muestra es pequeño y la desviación estándar poblacional es desconocida.
  • Similar a la distribución normal, pero con colas más gruesas.
  • Se define por grados de libertad \((df)\), que dependen del tamaño de la muestra.

📌 Fórmula de la estadística t:

\[ t = \frac{\bar{x} - \mu}{\frac{s}{\sqrt{n}}} \] Donde:

  • \(\bar{x}\) = media muestral

  • \(\mu\) = media poblacional

  • \(s\) = desviación estándar muestral

  • \(n\) = tamaño de la muestra

¿Cuando utilizar la distribución t?

Usos distribución t

✔ Cuando \(n\) es pequeño \(( n < 30)\) y no conocemos la desviación estándar poblacional.
✔ A medida que \(n\) aumenta, la distribución t se aproxima a la normal estándar \((Z)\).

Warning

  • Si utilizamos los valores \(Z\) con muestras pequeñas el error estándar es muy grande
  • Por ello sustituimos el valor \(Z\) por el valor \(t\)

📊 Comparación: Distribución t vs. Distribución Z

Característica Distribución Z (Normal Estándar) Distribución t
Forma Campana simétrica Similar, pero con colas más gruesas
Uso Tamaño de muestra grande Tamaño de muestra pequeño
Varianza Se conoce (\(\sigma\)) No se conoce (\(s\)) se estima)
Grados de libertad No aplica \(df = n - 1\)
Convergencia Se mantiene igual Se aproxima a \(Z\) cuando \(n \to \infty\)

Comparación

Efecto grados de libertad

Tip

  • Entre más grados de libertad, la distribución \(t\) se parece más a la normal estandarizada

Tabla \(t\)

Tip

  • Muestra los valores a distintos niveles de confianza

  • Expresados como \(t_{.100}\), \(t_{.050}\), \(t_{.025}\), \(t_{.010}\)

  • Lo que indican es la probabilidad de la cola derecha de la distribución

  • Si tenemos 6 grados de libertad y queremos un intervalo de 95%
  • El valor \(t\) es 2.446
  • El intervalo paa este punto sería

\[ \bar{x} \pm 2.446(se) \]

Ejemplo

Encuesta sobre gasto público en salud

  • Tenemos una muestra de 11 personas que respondieron cuánto consideran adecuado que el gobierno invierta mensualmente en salud pública (en pesos, por persona).
  • Los valores son:
    480, 510, 495, 500, 520, 505, 510, 515, 490, 500, 505
  • Su desviación estándar es 11.13
  • ¿Cuál es su intervalo de confianza al 95% para el promedio de la población?

Solución

Datos disponibles

  • Tamaño de la muestra: n = 11
  • Media muestral:
    \(\bar{x} = \frac{480 + 510 + \dots + 505}{11} = 501.36\)
  • Desviación estándar: s = 11.13

Paso 1: Calcular el error estándar

\[se = \frac{s}{\sqrt{n}} = \frac{11.13}{\sqrt{11}} \approx 3.35\]

Solución

Paso 2: Valor t (gl = 10) para 95%

\[t \approx 2.228\]

Paso 3: Intervalo de confianza

\[IC = \bar{x} \pm t \cdot se = 501.36 \pm 2.228 \cdot 3.35\]

\[ IC \approx [493.89, 508.83]\]

  • Límite inferior$493.89
  • Límite superior $508.83

Tamaño de la muestra

Estadística para las Ciencias Sociales

Diego Solís Delgadillo

Tamaño de la muestra

¿Qué determina el tamaño de la muestra?

  • El tamaño de una muestra depende de la precisión que se busque

Note

  • El número de personas incluidas depende del margen de error
  • El margen de error depende del error estándar
  • El error estándar depende del tamaño de la muestra

Tamaño de la muestra para proporción

Primer paso

  • Primero debemos decidir el margen de error que deseamos

  • Debemos señalar a qué nivel de confianza queremos alcanzar

Tip

  • Comúnmente se usa el 95%

¿Qué tamaño de muestra?

Tip

  • Queremos hacer una encuesta de salida de una elección
  • Queremos un estimado de la proporción de personas que votaron por los candidatos
  • La encuesta más reciente ubica al candidato A con 58% y al B con 42%
  • Decidimos que el margen de error deseado es 4% (0.04)

Cálculo tamaño muestra

Calculamos el margen de error

  • Sabemos que el margen de error con un intervalo de confianza es el producto de \[ \hat{p} \pm 1.96(se)=0.04 \]

Sustituimos el error estándar

Sustituyendo con la fórmula del error estándar

\[ \hat{p} \pm 1.96(\sqrt{\frac{\hat{p}(1-\hat{p})}{n}})=0.04 \]

📌 Necesitamos despejar esta fórmula para calacular \(n\)

Despeje

  • Igualando el margen de error a 0.04: \[ 1.96 \left( \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \right) = 0.04 \]
  • Paso 2: Despejar la raíz cuadrada Dividiendo ambos lados por 1.96: \[ \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} = \frac{0.04}{1.96} \]

Despeje

  • Elevando al cuadrado ambos lados: \[ \frac{\hat{p}(1-\hat{p})}{n} = \left( \frac{0.04}{1.96} \right)^2 \]

  • Despejar el tamaño de muestra (n)

    • Reordenando la expresión para despejar (n): \[ n = \frac{\hat{p}(1-\hat{p})}{\left( \frac{0.04}{1.96} \right)^2} \]

Despeje

  • Recordemos una propiedad de fracciones:

\[ \left( \frac{a}{b} \right)^2 = \frac{a^2}{b^2} \]

Por lo tanto:

\[ \frac{1}{\left( \frac{m}{z} \right)^2} = \frac{1}{\frac{m^2}{z^2}} = \frac{z^2}{m^2} \]

⚠️ Cuando divides algo entre una fracción, es idéntico a multiplicar por su inverso

Entonces:

\[ n = \hat{p}(1 - \hat{p}) \cdot \frac{z^2}{m^2} \]

Que es lo mismo que:

\[ n = \frac{z^2 \cdot \hat{p}(1 - \hat{p})}{m^2} \]

Despeje

Paso 4: Simplificación: - Utilizando la notación general para el nivel de confianza y margen de error: \[ n = \frac{z^2 \cdot \hat{p}(1-\hat{p})}{m^2} \]

Important

  • Sustituyendo

\[ n= \frac{1.96^2(\hat{p}(1-\hat{p}))}{0.04^2} \]

Valor de \(\hat{p}\)

Tip

  • Pero nosotros desconocemos el valor de \(\hat{p}\) antes de levantar la encuesta

  • Hacemos una estimación informada de \(\hat{p}\)

  • Si en la última encuesta el candidato A obtuvo 58% podemos utilizar esta información

\[ n= \frac{1.96^2(0.58(1-0.58))}{0.04^2}= 584.88 \]

Muestra sin información de \(\hat{p}\)

Important

  • En ocasiones puede no existir información previa que nos oriente sobre el valor de \(\hat{p}\)
  • El producto \(\hat{p}(1-\hat{p})\) tiene un valor máximo de 0.25
  • Ese valor se obtiene cuando \(\hat{p}\) es igual a 0.50
  • Cuando no tenemos información tomamos a 0.50 como el valor de \(\hat{p}\)

Tamaño de la muestra para la media

Determinamos el nivel de confianza

  • Primero determinamos el intervalo de confianza deseado (95%)

\[ \bar{x} \pm t_{.025}(se) \]

  • Sustituyendo el error estándar

\[ \bar{x} \pm t_{.025}(\frac{s}{\sqrt{n}}) \]

Limitaciones

  • No conocemos los grados de libertad
  • Y desconocemos la desviación estándar de la muestra

Valores Z

  • Sabemos que en muestras mayores a 30 la distribución \(t\) es muy similar a la distribución \(z\)
  • Utilizamos valores \(Z\)

\[ n= \frac{\sigma^2z^2}{m^2} \]

¿Qué hacer si no conoce<mos \(\sigma\)?

  1. Tomar la desviación de algún estudio similar
  2. O hacer una muestra piloto para estimarla

Ejemplo

Identificamos el rango de valores

  • Queremos conocer en una comunidad el número de años de estudio completados por los habitantes

    • ❌ No tenemos información previa

    • ✅ Pero podemos pensar que el rango puede ir de 0 a 18 años

Asumimos una distribución normal

  • Si esta tiene una distribución normal entonces todos los casos estarán contenidos en \(\mu+3\sigma\) 𝒚 \(\mu-3\sigma\)

  • Entonces hay seis desviaciones estándar en total
  • Dividiendo 18/6 obtenemos un estimado de \(\sigma\)
  • Quiero un margen de error de un año

\[ n= \frac{\sigma^2z^2}{m^2} n= \frac{(3^2)(1.96^2)}{1^2}= 34.57 \]