Estadística Inferencial

Clase 1.4
Teoría de pequeñas muestras o teoría exacta de muestreo
Distribución \(t-student\)

Msc. Roberto Trespalacios

Universidad Tecnológica de Bolivar

2024-01-29

Tabla de contenido

Distribución de la media muestral
- Teoría de pequeñas muestras o teoría exacta de muestreo
- Distribución \(t-student\)
- Grados de libertad
- Distribución normal y su relación con la distribución \(t-student\)
- Ejemplos

Teoría de pequeñas muestras o teoría exacta de muestreo

En anteriores discuciones, se manejó el uso de la distribución normal estandar \(Z\). Podemos “afinar” las aproximaciones de las probabilidades de esta distribución, si tenemos en cuenta los siguientes detalles importantes.

Si tenemos una población con distribución \(N(\mu, \sigma^2)\) y tenemos:

varianza \(\sigma^2\) conocida y muestra de tamaño \(n\) cualquiera \(\Rightarrow\) usaremos la distribución normal.

varianza \(\sigma^2\) desconocida y muestra de tamaño \(n \geqslant 30\) \(\Rightarrow\) usaremos la distribución normal.

Surge una pregunta.

¿Cómo proceder, cuando la varianza \(\sigma^2\) es desconocida y las muestras son de tamaño \(n<30\) (pequeño)?

La respuesta es: se utiliza la distribución \(t-student\)

Pasamos a estudiar en detalle esta importante distribución; pero antes debemos discutir algunos conceptos previos.

Grados de libertad

A la teoría de pequeñas muestras se le llama teoría exacta del muestreo, ya que también la podemos utilizar con muestras aleatorias de tamaño grande.
En esta parte vemos un nuevo concepto necesario para poder utilizar a las tres distribuciones mencionadas. Este concepto es conocido como los “grados de libertad”.

Para definir grados de libertad se hará referencia a la varianza muestral:

\[ s^2 =\frac{ \displaystyle \sum_{i=1}^n (x_i-\bar{x})^2}{n-1} \]

donde cada \(x_i \sim N(0,1)\), para \(i=1,2,\dots,n\).

Grados de libertad

La terminología grados de libertad resulta del hecho de que si bien \(s^2\) está basada en las \(n\) cantidades: \(x_1-\bar{x}, x_2-\bar{x}, \dots,x_n-\bar{x}\), y del hecho que si la varianza \(\sigma^2 \rightarrow 0\), entonces significa que en la fórmula de la varianza de una muestra ocurre lo siguiente:

\[ s^2 =\frac{ \displaystyle \sum_{i=1}^n (x_i-\bar{x})^2}{n-1} \rightarrow 0 \]

como \(n-1 \neq 0\), concluimos que los la suma \(\displaystyle \sum_{i=1}^n (x_i-\bar{x})^2 \rightarrow 0\), por lo tanto,

\[x_1-\bar{x}, x_2-\bar{x}, \dots,x_n-\bar{x} = 0\] con lo cual, para conocer el valor de alguno de los términos, debemos conocer el valor los \(n-1\) restantes término.

Grados de libertad

Supongamos \(n = 4\), y las cantidades

\[x_1-\bar{x}=8, x_2-\bar{x}=-6, \dots,x_4-\bar{x}-4\]

entonces automáticamente tenemos \(x_3 - \bar{x}= 2\), así que sólo tres de los cuatro valores están libremente determinados.

Para nuestro ejemplo, tenemos que: (\(gl = n-1 = 4-1 = 3\) grados de libertad).
Simbolizamos los grados de libertad con la letra griega \(gl\), donde \(gl = n-1\).

Distribución normal y su relación con la distribución \(t-student\)

Supóngase que se toma una muestra de una población normal con media \(\mu\) y varianza \(\sigma^2\). Si \(\bar{x}\) es el promedio de las \(n\) observaciones que contiene la muestra aleatoria, entonces la distribución

\[ Z= \frac{\bar{x}-\mu}{\frac{\sigma}{\sqrt{n}}} \sim N(0,1) \]

¿Qué sucede con la distribución de esta estadística si se reemplaza la disviación estandar de la población (\(\sigma\)), por la desviación estandar de la muestra (\(s\))?

La distribución \(t-student\) proporciona la respuesta a esta pregunta. La media y la varianza de la distribución \(t-student\) son respectivamente:

Media: son \(\mu = 0\)
Varianza: \(\sigma^2 =\frac{gl}{gl-2}, \text {para } gl >2\)

Distribución \(t-student\)

Definición: Distribución \(t-student\)

Sean \(x_1 , x_2 , \dots, x_n\) variables aleatorias independientes que son todas normales con media \(\mu\) y varianza \(\sigma^2\). Entonces la variable aleatoria

\[ t= \frac{\bar{x}-\mu}{\frac{s}{\sqrt{n}}} \]

tiene una distribución \(t-student\), con \(gl = n-1\) grados de libertad.

Gráfica de la distribución \(t-student\)

Observaciones

Distribución \(t-student\) difiere de la de \(Z\) en que la varianza de \(t\) depende del tamaño de la muestra y siempre es mayor a uno.
Unicamente cuando el tamaño de la muestra tiende a infinito las dos distribuciones serán las mismas.

Distribución \(t-student\)

Propiedades de la distribución \(t-student\)

Cada curva \(t\) tiene forma de campana con centro en 0.
Cada curva \(t\), está más dispersa que la curva normal estándar \(Z\).
A medida que aumenta \(gl\), la dispersión de la curva \(t\) correspondiente disminuye.
A medida que \(gl \rightarrow \infty\), la secuencia de curvas \(t\) se aproxima a la curva normal estándar, por lo que la curva \(Z\) recibe a veces el nombre de curva \(t\) con grados de libertad \(gl = \infty\).

Gráfica de la distribución \(t-student\)

Cuando \(gl \rightarrow \infty\), la distribución \(t-student \rightarrow N(0,1)\), (la distribución normal estándar).

Ejemplo 1

Encontrar en la tabla las siguientes probabilidades
1. \(p(t > 1.812)\), con \(gl = 10\)
2. \(p(t < 0.863)\), con \(gl = 17\)
3. \(p(t > -1.074)\), con \(gl = 15\)

Encontrar en la tabla los siguientes valores de \(t_{\alpha}\)
1. \(p(t > t_{\alpha}) = 0.05\), con \(gl = 10\)
2. \(p(t < t_{\alpha}) = 0.95\), con \(gl = 17\)

Solución en R

# a.
pt(1.812, 10, lower.tail = FALSE)

# b. 
pt(0.863, 17)

# c.
pt(-1.074, 15, lower.tail = FALSE)

# a.
qt(0.05, 10, lower.tail = FALSE)

# b. 
qt(0.95, 17)

Ejemplo 2

Se extrae una muestra de tamaño 15 de una variable con distribución normal. Calcular el valor de la distribución \(t\), que deja un área de 0.025 a la izquierda y un área de 0.975 a la derecha de la distribución. Es decir, encontrar el valor tal que : \(-t_{0.025} = t_{0.975}\)

Solución en R

# cola a la derecha
qt(0.975, 14, lower.tail = FALSE)

# colla a la izquierda
qt(0.025, 14, lower.tail = TRUE)

Ejemplo 3: Probabilidades en la tabla t-student

Sea \(X\) una variable con distribución \(t-student\). Encuentre:

La probabilidad de \(-t_{0.025} < t < t_{0.05}\) y 5 grados de libertad.
Un valor \(k\), tal que \(p(k < t < -1.761) = 0.045\), para una muestra aleatoria de tamaño 15 que se selecciona de una distribución normal.

Solución en R

k1 = qt(0.95, 5)
k2 = qt(0.025, 5)
pt(k1, 5) - pt(k2, 5)

# p(t < -1.761)
pt(-1.761, 14) 

# p(t < -1.761) - p(t < k) = 0.045
# p(t < k) = p(t < -1.761) - 0.045 
x = pt(-1.761, 14) - 0.045

# k 
qt(x, 14)

Ejemplo 4

Un ingeniero químico, que trabaja para un ingenio azucarero, afirma que la cantidad promedio de calorias es de aproximadamente 350 por cada 100 gramos de panela producida. Para verificar esta afirmación, cada mes toma una muestra de 25 panelas y extrae 100 gramos de cada una. Si el valor de \(t\) calculado cae entre \(-t_{0.05}\) y \(t_{0.05}\), queda satisfecho con su afirmación. Suponiendo que la distribución de cantidad de calorias por cada 100 gramos es aproximadamente normal, Responda:

¿Qué conclusión extraería de una muestra que tiene una media de 338 calorias por y una desviación estándar de 40 calorias?.

Solución en R

Ejercicios

Una muestra aleatoria de seis autos de un determinado modelo evidencia que cada uno de ellos consume las siguientes cantidades en kilómetros por litro:

18.6, 18.4, 19.2, 20.8, 19.4, 20.5

Determine la probabilidad de que el consumo de gasolina medio muestral de automóviles sea menor que 17.6 kilómetros por litro, suponiendo que la distribución de la población es normal con media 17.
Se aplica una prueba de autoestima a 25 personas quienes obtienen una calificación promedio de 62.1 con una desviación estándar de 5.83. Se sabe que el valor correcto de la prueba debe ser mayor a 60. Calcular el valor de \(t\). Asuma que la puntuación de la prueba sigue una distribución normal.