Estadística Inferencial

Clase 2.3
Estimación por intervalos para la diferencia de medias poblacionales

Msc. Roberto Trespalacios

Universidad Tecnológica de Bolivar

2024-01-29

Tabla de contenido

  • Estimación por intervalos para la diferencia de medias poblacionales independientes
    • Intervalo de confianza para la diferencia de medias (\(\mu_1-\mu_2\)) (varianzas \(\sigma^2_1\) y \(\sigma^2_2\) conocidas)
    • Intervalo de confianza para la diferencia de medias (\(\mu_1-\mu_2\)) (varianzas \(\sigma^2_1\) y \(\sigma^2_2\) desconocidas)
  • Estimación por intervalos para la diferencia de medias poblacionales dependientes
    • Intervalo de confianza para la diferencia de medias \(\mu_1-\mu_2\) para datos pareados (poblaciones dependientes)
  • Ejemplos
  • Ejercicios

Intervalo de confianza para la diferencia de medias (\(\mu_1-\mu_2\)) (varianzas \(\sigma^2_1\) y \(\sigma^2_2\) conocidas)

Consideremos el caso en que tenemos dos poblaciones independientes, de modo que la característica que estudiamos en ambas (\(X_1\) y \(X_2\)) son variables aleatorias con distribución normal.

\[ \begin{align*} X_1 & \sim N(\mu_1,\sigma^2_1)\\ X_2 & \sim N(\mu_2,\sigma^2_2) \end{align*} \]

En cada una de estas poblaciones se extrae mediante muestreo aleatorio simple, muestras que no tienen por que ser necesariamente del mismo tamaño (respectivamente \(n_1\) y \(n_2\))

\[X_1 =\{ X_{11},X_{12},\dots,X_{1n_1}\} \quad y \quad X_2 =\{X_{21},X_{22},\dots,X_{2n_2}\}\]

Deseamos construir un intervalo al nivel de confianza \(1-\alpha\) para la diferencia de las medias \(\mu_1-\mu_2\).

Intervalo de confianza para la diferencia de medias (\(\mu_1-\mu_2\)) (varianzas \(\sigma^2_1\) y \(\sigma^2_2\) conocidas)

De lo anerior, tenemos que la distribución del promedio de variables aleatorias normales independientes \(\bar{X}_1\) y \(\bar{X}_2\) son respectivamente

\[\bar{X}_1 \sim N \left( \mu_1,\frac{\sigma^2_1}{n_1} \right) \qquad \text{ y } \qquad \bar{X}_2 \sim N \left( \mu_2,\frac{\sigma^2_2}{n_2} \right)\]

Consideremos ahora la diferencia \(Y = \bar{X}_1 - \bar{X}_2\). Si \(\bar{X}_1\) y \(\bar{X}_2\) tienen distribución normal y son independientes, su diferencia también es normal, con esperanza igual a la diferencia de las esperanzas y la varianza es la suma de las varianzas; es decir

\[\bar{X}_1 - \bar{X}_2 \sim N \left( \mu_1 -\mu_2,\frac{\sigma^2_1}{n_1} + \frac{\sigma^2_2}{n_2} \right)\]

Intervalo de confianza para la diferencia de medias (\(\mu_1-\mu_2\)) (varianzas \(\sigma^2_1\) y \(\sigma^2_2\) conocidas)

De lo anterior, podemos concluir que,

\[Z = \frac{(\bar{x}_1-\bar{x}_2)-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2}}}\sim N(0,1)\]

La v.a. \(Z\) será nuestro pivote y con él construir un intervalo cómo hicimos anteriormente. Es decir,

\[p(-z_{\frac{\alpha}{2}} \leqslant Z \leqslant z_{\frac{\alpha}{2}}) = 1-\alpha\]

Por lo tanto, reempalzando \(Z\),

\[p\left(-z_{\frac{\alpha}{2}} \leqslant \frac{(\bar{x}_1-\bar{x}_2)-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2}}} \leqslant z_{\frac{\alpha}{2}}\right) = 1-\alpha\]

Intervalo de confianza para la diferencia de medias (\(\mu_1-\mu_2\)) (varianzas \(\sigma^2_1\) y \(\sigma^2_2\) conocidas)

Si despejamos dentro de la probabilidad la diferencia \(\mu_1-\mu_2\), tenemos que:

\[p\left(\bar{x}_1-\bar{x}_2 -z_{\frac{\alpha}{2}}\sqrt{\frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2}} \leqslant \mu_1-\mu_2 \leqslant \bar{x}_1-\bar{x}_2 + z_{\frac{\alpha}{2}}\sqrt{\frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2}}\right) = 1-\alpha\]

Entonces, un intervalo de confianza del \((1 − \alpha )100 \%\) para \(\mu_1-\mu_2\) cuando las varianzas poblacionales \(\sigma^2_1\) y \(\sigma^2_2\) son conocidas, es:

\[\boldsymbol{\left(\bar{x}_1-\bar{x}_2 -z_{\frac{\alpha}{2}}\sqrt{\frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2}} , \bar{x}_1-\bar{x}_2 + z_{\frac{\alpha}{2}}\sqrt{\frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2}}\right)}\]

Ejemplo 1

Se utilizan dos máquinas para llenar botellas de plástico con detergente para máquinas lavaplatos. Se sabe que las desviaciones estándar de volumen de llenado son \(\sigma_1= 0.10\) onzas de líquido y \(\sigma_2= 0.15\) onzas de líquido para las dos máquinas respectivamente. Se toman dos muestras aleatorias, \(n_1=12\) botellas de la máquina 1 y \(n_2=10\) botellas de la máquina 2. Los volúmenes promedio de llenado son \(\bar{x}_1 = 30.87\) onzas de líquido y \(\bar{x}_2 = 30.68\) onzas de líquido.

  • Asumiendo que ambas muestras provienen de distribuciones normales, construya un intervalo de confianza de nivel 90% para la diferencia entre las medias del volumen de llenado.

Solución

  • Como \(1 − \alpha = 0.90\) entonces \(\alpha=0.10\), así, \(z_{\frac{\alpha}{2}}=z_{0.05}=1.65\).

  • Reemplazando los valores en el intervalo

\[\left(30.87 - 30.68 -1.65\sqrt{\frac{0.10^2}{12}+\frac{0.15^2}{10}} , 30.87 - 30.68 + 1.65\sqrt{\frac{0.10^2}{12}+\frac{0.15^2}{10}}\right)\]

  • Así, tenemos que el intervalo de confianza al 90%, es

\[(0.09837, 0.281620)\]

Solución en R

En R construyeno el código

Code
zalpha2 = qnorm(0.05, lower.tail = FALSE)

Li = 30.87 - 30.68 - zalpha2* sqrt(0.10^2/12+0.15^2/10)
Ls = 30.87 - 30.68 + zalpha2* sqrt(0.10^2/12+0.15^2/10)
cat("Un intervalo de confianza al 97% para la diferencia de medias de volumen en las botellas es:", "(", Li, ",", Ls, ")")
Un intervalo de confianza al 97% para la diferencia de medias de volumen en las botellas es: ( 0.09866494 , 0.2813351 )

En R usando la librería BSDA

Code
library(BSDA)
zsum.test(mean.x = 30.87, mean.y =30.68, sigma.x = 0.10, sigma.y = 0.15, n.x =12, n.y =10, conf.level = 0.90)

    Two-sample z-Test

data:  Summarized x and y
z = 3.4217, p-value = 0.0006223
alternative hypothesis: true difference in means is not equal to 0
90 percent confidence interval:
 0.09866494 0.28133506
sample estimates:
mean of x mean of y 
    30.87     30.68 

Intervalo de confianza para la diferencia de medias (\(\mu_1-\mu_2\)) (varianzas \(\sigma^2_1\) y \(\sigma^2_2\) desconocidas)

Si no conocemos las varianzas \(\sigma^2_1\) y \(\sigma^2_2\), pero \(n_1 \geqslant 30\) y \(n_2 \geqslant 30\), entonces, se puede probar que al reemplazar \(\sigma^2_1\) y \(\sigma^2_2\) por \(S^2_1\) y \(S^2_2\), y así, el estadístico \(Z\), tiene la siguiente distribución:

\[Z = \frac{(\bar{x}_1-\bar{x}_2)-(\mu_1-\mu_2)}{\sqrt{\frac{S^2_1}{n_1}+\frac{S^2_2}{n_2}}}\sim N(0,1)\]

Entonces, un intervalo para \(\mu_1-\mu_2\) al nivel de confianza de \(1-\alpha\) es:

\[\boldsymbol{\left(\bar{x}_1-\bar{x}_2 -z_{\frac{\alpha}{2}}\sqrt{\frac{S^2_1}{n_1}+\frac{S^2_2}{n_2}} , \bar{x}_1-\bar{x}_2 + z_{\frac{\alpha}{2}}\sqrt{\frac{S^2_1}{n_1}+\frac{S^2_2}{n_2}}\right)}\]

Ejemplo 2

De una muestra de 150 lámparas del fabricante A se obtuvo una vida media de 1400 hs y una desviación típica de 120 horas. Mientras que de una muestra de 100 lámparas del fabricante B se obtuvo una vida media de 1200 hs. y una desviación típica de 80 horas. Halla los límites de confianza del 95% para la diferencia las vidas medias de las poblaciones A y B.

Solución

Sean las variables aleatorias:

  • \(X_1\) = “duración en horas de una lámpara del fabricante A”
  • \(X_2\) = “duración en horas de una lámpara del fabricante B”

No se dice cuál es la distribución de estas variables, pero \(n_1= 150\) y \(n_2 = 100\) (mayores que 30)

Tenemos que \(\bar{x}_1 = 1400\), \(\bar{x}_2 = 1200\), \(s_1 = 120\) y \(s_2 = 80\)

Como \(1 − \alpha = 0.95\), entonces \(\alpha=0.05\), así, \(z_{\frac{\alpha}{2}}=z_{0.025}=1.96\)

Reemplazano los valores, tenemos que el intervalo es

\[\left(1400 - 1200 -1.96\sqrt{\frac{120^2}{12}+\frac{80^2}{100}} , 1400 - 1200 + 1.96\sqrt{\frac{120^2}{150}+\frac{80^2}{100}}\right)\] Por lo tanto, el intervalo de confianza al 95%, es \((175.2077, 224.7922)\).

Observación: como este intervalo no contiene al cero, podemos inferir que hay diferencia entre las medias del tiempo de duración de las lámparas A y B, con probabilidad 0.95.

Intervalo de confianza para la diferencia de medias \(\mu_1-\mu_2\) (varianzas desconocidas y diferentes \(\sigma^2_1 \neq \sigma^2_2\))

Si no conocemos las varianzas \(\sigma^2_1\) y \(\sigma^2_2\) y además son diferentes, entonces usamos las varianzas muestrales \(S_1^2\) y \(S_2^2\) y los tamaños de muestra \(n_1\) y \(n_2\), para estimar el tamaño de muestra conjunta. Esto es:

\[\nu= \frac{\left(\frac{S^2_1}{n_1}+\frac{S_2^2}{n_2}\right)^2}{\frac{\left(\frac{S^2_1}{n_1}\right)^2}{n_1-1} + \frac{ \left(\frac{S_2^2}{n_2}\right)^2}{n_2-1}}\]

Por lo tanto,

\[\frac{(\bar{x}_1-\bar{x}_2)-(\mu_1-\mu_2)}{\sqrt{\frac{s^2_1}{n_1}+\frac{s^2_2}{n_2}}}\sim t_{\nu}\]

Entonces, un intervalo de confianza del \((1-\alpha)100\%\) para \(\mu_1-\mu_2\) es:

\[\boldsymbol{\left(\bar{x}_1-\bar{x}_2-t_{(\frac{\alpha}{2},\nu)}\sqrt{\frac{S^2_1}{n_1}+\frac{S^2_2}{n_2}},\bar{x}_1-\bar{x}_2+t_{(\frac{\alpha}{2},\nu)}\sqrt{\frac{S^2_1}{n_1}+\frac{S^2_2}{n_2}}\right)}\]

Intervalo de confianza para la diferencia de medias \(\mu_1-\mu_2\) (varianzas desconocidas e iguales \(\sigma^2_1=\sigma^2_2\))

Si no conocemos las varianzas \(\sigma^2_1\) y \(\sigma^2_2\) y además son iguales, entonces usamos las varianzas muestrales \(S_1^2\) y \(S_2^2\) y los tamaños de muestra \(n_1\) y \(n_2\) para estimar la varianza muestral ponderada \(S^2_p\). Esto es:

\[S_p^2 = \frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}\]

por lo tanto,

\[\frac{(\bar{x}_1-\bar{x}_2)-(\mu_1-\mu_2)}{S_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\sim t_{(n_1+n_2-2)}\]

Entonces, un intervalo de confianza del \((1-\alpha)100\%\) para \(\mu_1-\mu_2\) es:

\[\boldsymbol{\left(\bar{x}_1-\bar{x}_2-t_{(\frac{\alpha}{2},n_1+n_2-2)}S_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}},\bar{x}_1-\bar{x}_2+t_{(\frac{\alpha}{2},n_1+n_2-2)}S_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}\right)}\]

Ejemplo 3

Queremos estudiar la influencia que puede tener el tabaco con el peso de los niños al nacer. Para ello se consideran dos grupos de mujeres embarazadas (unas que fuman un paquete al día y otras que no) y se obtienen los siguientes datos sobre el peso \(X\), de sus hijos:

\[ \begin{cases} \text{Madre fumadora} & \Rightarrow n_1= 25, \bar{x}_1=3.6 kg, S_1=0.4 kg \\ \text{Madre no fumadora}& \Rightarrow n_2= 27, \bar{x}_2= 3.2 kg, S_2=0.8 kg \end{cases} \]

En ambos grupos los pesos de los recién nacidos provienen de distribuciones normales de medias desconocidas.

  1. Calcule un intervalo de confianza al 95% para la media de los pesos de los bebes. (Asuma varianzas desconocidas iguales)
  2. Calcule un intervalo de confianza al 95% para la media de los pesos de los bebes. (Asuma varianzas desconocidas diferentes)
  3. En ambos casos a. y b., ¿influye el hecho de que la madre sea fumadora, en el peso de su hijo?

Solución a.

  1. Puesto que las varianzas poblacionales no son conocidas y asumimos que son iguales, entonces debemos buscar la varianza estimada común \(S_p^2\), es decir:

\[ \begin{align*} S_p^2 &= \frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2} \\ &= \frac{(25-1)0.4^2+(27-1)0.8^2}{25+27-2} \\ & = 0.41 \end{align*} \]

Ahora, encontremos el valor del estadístico \(t_{(\frac{\alpha}{2},n_1+n_2-2)}=t_{(0.025,50)} = 2.01\), por lo tanto, el intervalo es:

\[ \begin{align*} & \boldsymbol{\left(\bar{x}_1-\bar{x}_2-t_{(\frac{\alpha}{2},n_1+n_2-2)}S_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}},\bar{x}_1-\bar{x}_2+t_{(\frac{\alpha}{2},n_1+n_2-2)}S_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}\right)} \\ = & \boldsymbol{\left(3.6-3.2-2.01 \times 0.64 \sqrt{\frac{1}{25}+\frac{1}{27}},3.6-3.2 + 2.01 \times 0.64 \sqrt{\frac{1}{25}+\frac{1}{27}}\right)} \\ = &\boldsymbol{ (0.04,0.76)} \end{align*} \]

Solución b.

  1. Las varianzas poblacionales no son conocidas, pero ahora asumimos que son diferentes, entonces debemos buscar el grado de libertad común \(\nu\), es decir:

\[ \nu= \frac{\left(\frac{0.4^2}{25}+\frac{0.8^2}{27}\right)^2}{\frac{\left(\frac{0.4^2}{25}\right)^2}{25-1} + \frac{ \left(\frac{0.8^2}{27}\right)^2}{27-1}} = \frac{\left(\frac{0.4^2}{25}+\frac{0.8^2}{27}\right)^2}{\frac{\left(\frac{0.4^2}{25}\right)^2}{25-1} + \frac{ \left(\frac{0.8^2}{27}\right)^2}{27-1}} = 38.13 \approx 49 \]

Ahora, encontremos el valor del estadístico \(t_{(\frac{\alpha}{2},\nu)}=t_{(0.025,49)} = 2.01\), por lo tanto, el intervalo es:

\[ \begin{align*} & \boldsymbol{\left(\bar{x}_1-\bar{x}_2-t_{(\frac{\alpha}{2},\nu)}\sqrt{\frac{S^2_1}{n_1}+\frac{S^2_2}{n_2}},\bar{x}_1-\bar{x}_2+t_{(\frac{\alpha}{2},\nu)}\sqrt{\frac{S^2_1}{n_1}+\frac{S^2_2}{n_2}}\right)} \\ = & \boldsymbol{\left(3.6-3.2- 2.01 \times \sqrt{\frac{0.4^2}{25}+\frac{0.8^2}{27}},3.6-3.2+2.01 \times \sqrt{\frac{0.4^2}{25}+\frac{0.8^2}{27}}\right)} \\ = & \boldsymbol{(0.05,0.75)} \end{align*} \]

En R construyendo el código

  1. Asumiendo varianzas iguales
Code
sp = ((25-1)*0.4^2+(27-1)*0.8^2)/(25+27-2)
Li = 3.6-3.2 - qt(0.025, 25+27-2, lower.tail = FALSE) * sqrt(sp) *sqrt(1/25+1/27)
Ls = 3.6-3.2 + qt(0.025, 25+27-2, lower.tail = FALSE) * sqrt(sp) *sqrt(1/25+1/27)

cat("Un intervalo de confianza al 95% para la diferencia de medias del peso de los bebes al nacer es:", "(", Li, ",", Ls, ")")
Un intervalo de confianza al 95% para la diferencia de medias del peso de los bebes al nacer es: ( 0.0432086 , 0.7567914 )
  1. Asumiendo varianzas diferentes
Code
nu = ((0.4^2/25)+(0.8^2/27))^2/((0.4^2/25)^2/(20-1) + (0.8^2/27)^2/(27-1))
Li = 3.6-3.2 - qt(0.025, ceiling(nu), lower.tail = FALSE) * sqrt(0.4^2/25+0.8^2/27)
Ls = 3.6-3.2 + qt(0.025, ceiling(nu), lower.tail = FALSE) * sqrt(0.4^2/25+0.8^2/27)

cat("Un intervalo de confianza al 95% para la diferencia de medias del peso de los bebes al nacer es:", "(", Li, ",", Ls,")")
Un intervalo de confianza al 95% para la diferencia de medias del peso de los bebes al nacer es: ( 0.04905465 , 0.7509453 )

En R usando la librería BSDA

  1. Asumiendo varianzas iguales
Code
library(BSDA)

tsum.test(mean.x=3.6, mean.y= 3.2, 
          s.x=0.4, s.y=0.8,
          n.x=25, n.y=27,
          var.equal = TRUE,
          conf.level = 0.95)

    Standard Two-Sample t-Test

data:  Summarized x and y
t = 2.2518, df = 50, p-value = 0.02876
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 0.0432086 0.7567914
sample estimates:
mean of x mean of y 
      3.6       3.2 
  1. Asumiendo varianzas diferentes
Code
library(BSDA)

tsum.test(mean.x=3.6, mean.y= 3.2, 
          s.x=0.4, s.y=0.8,
          n.x=25, n.y=27,
          var.equal = FALSE,
          conf.level = 0.95)

    Welch Modified Two-Sample t-Test

data:  Summarized x and y
t = 2.3054, df = 38.866, p-value = 0.02657
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 0.04901595 0.75098405
sample estimates:
mean of x mean of y 
      3.6       3.2 
  1. Si influye el hábito de fumar en el peso del bebe al nacer, ya que los intervalos a. (0.068, 0.731) y b. (0.045, 0.754), no contienen al cero; es decir,

\[\mu_1-\mu_2 \neq 0, \text{ por lo tanto } \mu_1 \neq \mu_2\]

Intervalo de confianza para la diferencia de medias \(\mu_1-\mu_2\) de datos pareados (dependientes)

Hasta ahora se obtuvieron intervalos de confianza para la diferencia de medias donde se tomaban dos muestras aleatorias independientes de dos poblaciones de interés. En ese caso se tomaban \(n_1\) observaciones de una población y \(n_2\) observaciones de la otra población.

Intervalo de confianza para la diferencia de medias \(\mu_1-\mu_2\) de datos pareados (dependientes)

  • En muchas situaciones experimentales, existen solo \(n\) unidades experimentales diferentes y los datos están recopilados por pares, esto es cada unidad experimental está formada por dos observaciones.

  • Por ejemplo, supongamos que se mide el tiempo en segundos que un individuo tarda en hacer una maniobra de estacionamiento con dos automóviles diferentes en cuanto al tamaño de la llanta y la relación de vueltas del volante.

  • Notar que cada individuo es la unidad experimental y de esa unidad experimental se toman dos observaciones que no serán independientes.

  • Se desea obtener un intervalo de confianza para la diferencia entre el tiempo medio para estacionar los dos automóviles.

Intervalo de confianza para la diferencia de medias \(\mu_1-\mu_2\) de datos pareados (dependientes)

En general, supongamos que tenemos los siguientes datos

\[X_1 =\{ X_{11},X_{12},\dots,X_{1n_1}\} \quad y \quad X_2 =\{X_{21},X_{22},\dots,X_{2n_2}\}\] Sea \(D_j = X_{1j}-X_{2j}\), para \(j = 1, 2,3, \dots\), entonces

\[E(D_j) = E(X_{1j}-X_{2j}) = \mu_1-\mu_2\]

y

\[V(D_j) = V(X_{1j}-X_{2j}) = V(X_{1j} + V(X_{1j})- 2Cov(X_{1j}, X_{2j}) = \sigma^2_1 + \sigma^2_2 - 2Cov(X_1, X_2)\]

Intervalo de confianza para la diferencia de medias \(\mu_1-\mu_2\) de datos pareados (dependientes)

  1. La estimación de la diferencia de medias es: \(\mu_1-\mu_2\) es: \(\bar{D} = \displaystyle \frac{1}{n} \sum_{i=1}^n(X_{1j}-X_{2j}) = \bar{X}_{1}-\bar{X}_{2}\)

  2. La estimación de la varianza es: \(S^2_D = \displaystyle \frac{1}{n-1}\sum_{i=1}^n(D_j- \bar{D})^2\)

En resumen, la distribución de la diferencia de medias pareadas es \[D_j \sim N(\mu_D,\sigma^2_D)\] los parámetros de la distribución vienen dados por:

  • \(\mu_D = \mu_1-\mu_2\)
  • \(\sigma^2_D = Var(D_j)\)

El intervalo de cofianza será

\[\left( \bar{D} - t_{(n-1, \frac{\alpha}{2})} \frac{S_D}{\sqrt{n}}, \quad \bar{D} + t_{(n-1, \frac{\alpha}{2})} \frac{S_D}{\sqrt{n}} \right)\]

Ejemplo 4

Para averiguar la eficacia del sistema de aprendizaje de un curso de inglés exprés, se ha examinado a un grupo de estudiantes antes y después de asistir a dicho curso. A partir de las calificaciones obtenidas (sobre 100 puntos), disponibles en el objeto calificaciones, determine un intervalo de confianza al 97% para la ganancia media experimentada e interprete el resultado (suponiendo normalidad).

Estudiante antes despues
1 52.5 63.5
2 54.0 57.3
3 50.8 51.6
4 54.4 66.8
5 53.5 71.3
6 52.0 55.0
7 53.0 52.5
8 53.5 68.1
9 50.7 66.3
10 55.1 62.7

Solución

Podemos observar, que los datos provienen de la misma población, pero en momentos diferentes (antes y después de asistir al curso). Por lo tanto, estamos ante un problema de intervalo de confianza para diferencia de medias pareadas. Veamos los parámetros a encontrar

  • \(D_j =X_{despues}- X_{antes}\)
  • \(\bar{D} = \bar{D_j} = 8.56\)
  • \(S^2_D = var(D_j) = 43.77\)
  • \(t_{(10-1, 0.015)}=2.57\)

El intervalo es:

\[ \begin{align*} & \left( \bar{D} - t_{(n-1, \frac{\alpha}{2})} \frac{S_D}{\sqrt{n}}, \quad \bar{D} + t_{(n-1, \frac{\alpha}{2})} \frac{S_D}{\sqrt{n}} \right)\\ = & \left( 8.56 - 2.57 \frac{6.62}{\sqrt{10}}, \quad 8.56 + 2.57 \frac{6.62}{\sqrt{10}} \right) \\ = &(3.18, 13.94) \end{align*} \]

En R construyendo el código

Code
antes = c(52.5,54.0,50.8,54.4,53.5,52.0,53.0,53.5,50.7,55.1)
despues = c(63.5,57.3,51.6,66.8,71.3,55.0,52.5,68.1,66.3,62.7)
diferencia = despues-antes

n = length(diferencia)
talpha = qt(0.015, n-1, lower.tail = FALSE)
sd.D = sd(diferencia)

Li = mean(diferencia) - talpha *(sd.D/sqrt(n)) 
Ls = mean(diferencia) + talpha *(sd.D/sqrt(n))

cat("Un intervalo de confianza al 97% para la diferencia de medias pareadas de las calificaciones de cada estudiante es:", "(", Li, ",", Ls, ")")
Un intervalo de confianza al 97% para la diferencia de medias pareadas de las calificaciones de cada estudiante es: ( 3.175313 , 13.94469 )

En R usando la librería BSDA

Code
antes = c(52.5,54.0,50.8,54.4,53.5,52.0,53.0,53.5,50.7,55.1)
despues = c(63.5,57.3,51.6,66.8,71.3,55.0,52.5,68.1,66.3,62.7)
diferencia = despues-antes

library(BSDA)

tsum.test(mean.x = mean(diferencia), 
          s.x= sd(diferencia), 
          n.x = 10, 
          conf.level = 0.97)

    One-sample t-Test

data:  Summarized x
t = 4.0916, df = 9, p-value = 0.002711
alternative hypothesis: true mean is not equal to 0
97 percent confidence interval:
  3.175313 13.944687
sample estimates:
mean of x 
     8.56 

Ejercicio 1

La siguiente tabla presenta los resultados de dos muestras aleatorias para comparar el contenido de nicotina de dos marcas de cigarrillos.

Marca A Marca B
\(n_i\) 10 8
\(x_i\) 3.1 2.7
\(S_i\) 0.5 0.7

Suponiendo que los conjuntos de datos provienen de muestras tomadas al azar de poblaciones normales con varianzas desconocidas y diferentes, construya un intervalo de confianza del 95% para la diferencia real de nicotina de las dos marcas.

Ejercicio 2

Cierto metal se produce, por lo común, mediante un proceso estándar. Se desarrolla un nuevo proceso en el que se añade una aleación a la producción del metal. Los fabricantes se encuentran interesados en estimar la verdadera diferencia entre las tensiones de ruptura de los metales producidos por los dos procesos. Para cada metal se seleccionan 12 ejemplares y cada uno de éstos se somete a una tensión hasta que se rompe. La siguiente tabla muestra las tensiones de ruptura de los ejemplares, en kilogramos por centímetro cuadrado:

Proceso estándar 446 401 476 421 459 438 481 411 456 427 459 445
Proceso nuevo 462 448 435 465 429 472 453 459 427 468 452 447

Si se supone que el muestreo se llevó a cabo sobre dos distribuciones normales e independientes(diferentes), obtener los intervalos de confianza estimados del 95% y 99% para la diferencia entre los dos procesos. Interprete los resultados. Si se supone que el muestreo se llevó a cabo sobre dos distribuciones normales e independientes(diferentes), obtener los intervalos de confianza estimados del 95% y 99% para la diferencia entre los dos procesos. Interprete los resultados.

Ejercicio 3

Se piensa que la concentración del ingrediente activo de un detergente líquido para ropa, es afectada por el tipo de catalizador utilizado en el proceso de fabricación. Se realizan 10 observaciones con cada catalizador, y se obtienen los datos siguientes:

  • Catalizador 1: 57.9, 66.2, 65.4, 65.4, 65.2, 62.6, 67.6, 63.7, 67.2, 71.0

  • Catalizador 2: 66.4, 71.7, 70.3, 69.3, 64.8, 69.6, 68.6, 69.4, 65.3, 68.8

    1. Encuentre un intervalo de confianza del 95% para la diferencia entre las medias de las concentraciones activas para los dos catalizadores. Asumir que ambas muestras fueron extraídas de poblaciones normales con varianzas iguales.
    2. ¿Existe alguna evidencia que indique que las concentraciones activas medias dependen del catalizador utilizado?

Ejercicio 4

Una muestra de 6 soldaduras de un tipo tenía promedio de prueba final de resistencia de 83.2 ksi y desviación estándar de 5.2. Y una muestra de 10 soldaduras de otro tipo tenía resistencia promedio de 71.3 ksi y desviación estándar de 3.1. supongamos que ambos conjuntos de soldaduras son muestras aleatorias de poblaciones normales. Se desea encontrar un intervalo de confianza de 95% para la diferencia entre las medias de las resistencias de los dos tipos de soldaduras.

Ejercicio 5

Los desórdenes musculoesqueléticos del cuello y hombro son comunes entre empleados de oficina que realizan tareas repetitivas mediante pantallas de visualización. Se reportaron los datos de un estudio para determinar si condiciones de trabajo más variadas habrían tenido algún impacto en el movimiento del brazo. Los datos que siguen se obtuvieron de una muestra de \(n=16\) sujetos. Cada observación es la cantidad de tiempo, expresada como una proporción de tiempo total observado, durante el cual la elevación del brazo fue de menos de 30 grados. Las dos mediciones de cada sujeto se obtuvieron con una separación de 18 meses. Durante este período, las condiciones de trabajo cambiaron y se permitió que los sujetos realizaran una variedad más amplia de tareas. ¿Sugieren los datos que el tiempo promedio verdadero durante el cual la elevación es de menos de 30 grados luego del cambio difiere de lo que era antes? Calcular un intervalo de confianza del 95% para responder la pregunta.

Sujeto 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Antes 81 87 86 82 90 86 96 73 74 75 72 80 66 72 56 82
Después 78 91 78 78 84 67 92 70 58 62 70 58 66 60 65 73
Diferencia 3 -4 8 4 6 19 4 3 16 13 2 22 0 12 -9 9