1 Introducción

Ahora, se consideran dos poblaciones, a saber, \(X\sim N(\mu_x,\sigma_x^2)\) y \(Y\sim N(\mu_y,\sigma_y^2)\), de las cuales se tienen las muestras aleatorias independientes \(X_1,\ldots,X_{n_x}\) y \(Y_1,\ldots,Y_{n_y}\), respectivamente.

El objetivo principal es comparar los parámetros de las dos poblaciones.

2 Diferencia de medias, \(\mu_x-\mu_y\)

Se tienen tres casos, dependiendo del estatus de las varianzas poblacionales.

La significancia estadística se analiza por medio de los signos del los límites del intervalo de confianza para \(\mu_x-\mu_y\). Si los dos límites tienen el mismo signo, entonces, con una confiabilidad de \(100(1-\alpha)\%\), existe suficiente evidencia en la muestra para declarar diferencias significativas entre \(\mu_x\) y \(\mu_y\).

¿Qué se puede concluir si los signos de los límites de intervalo no coinciden?

La significancia estadística no implica necesariamente una significancia práctica.

2.1 Con \(\sigma_x^2\) y \(\sigma_y^2\) conocidas

La variable aleatoria pivote está dada por:

\[Z=\frac{\bar{X}-\bar{Y}-(\mu_x-\mu_y)}{\sqrt{\frac{\sigma_x^2}{n_x}+\frac{\sigma_y^2}{n_y}}}\sim N(0,1)\] donde \(\bar{X}=\frac{1}{n_x}\sum_{i=1}^{n_x} X_i\) y \(\bar{Y}=\frac{1}{n_y}\sum_{i=1}^{n_y} Y_i\) son las medias muestrales correspondientes.

Así, el intervalo de confianza para \(\mu_x-\mu_y\), está dado por: \[ L_I=\bar{X}-\bar{Y}-z_{1-\alpha/2}\sqrt{\frac{\sigma_x^2}{n_x}+\frac{\sigma_y^2}{n_y}} \] \[ L_S=\bar{X}-\bar{Y}+z_{1-\alpha/2}\sqrt{\frac{\sigma_x^2}{n_x}+\frac{\sigma_y^2}{n_y}} \] donde \(z_{1-\alpha/2}\) es el percentil \(1-\alpha/2\) de una distribución Normal estándar.

Observaciones:

  • El estimador puntual es \(\bar{X}-\bar{Y}\).
  • El margen de error es \(z_{1-\alpha/2}\sqrt{\frac{\sigma_x^2}{n_x}+\frac{\sigma_y^2}{n_y}}\).
  • Este IC es apropiado si las poblaciones tienen distribución Normal (sin importar los tamaños de muestra).
  • Este IC es apropiado si los tamaños de muestra son grandes (sin importar las distribuciones poblacionales).
  • Cuando las muestras son pequeñas, es fundamental que las distribuciones de las dos poblaciones sean (o por lo menos aproximadamente) Normales.

2.2 Ejemplo

Como parte de un estudio para evaluar las diferencias en la calidad entre dos centros de enseñanza respecto a las ciencias exactas, físicas y naturales (Biología, Física, Geología, Matemáticas y Química), se aplica un examen estandarizado a los individuos de ambos centros.

En exámenes estandarizados ya practicados en diversas ocasiones, se ha obtenido una desviación estándar cercana a 10 puntos. Por lo tanto, es razonable asumir que las desviaciones estándar poblacionales son conocidas y ambas iguales a \(10\) puntos en ambos grupos.

Se tienen los datos de dos muestras aleatorias de tamaños \(35\) y \(40\) para los centros de enseñanza A y B, respectivamente, para las cuales las medias muestrales correspondientes son \(82\) y \(78\) puntos.

Si la diferencia de calidad se evalúa comparando las medias poblacionales de las puntuaciones obtenidas en el examen, usando una confiabilidad de 95%, ¿estos datos indican que existe una diferencia significativa entre las medias poblacionales de los dos centros de enseñanza?

Solución:

Población \(X\): puntaje en el examen estadarizado en el centro de enseñanza A.

Población \(Y\): puntaje en el examen estadarizado en el centro de enseñanza B.

Parámetro de interés: \(\mu_x - \mu_y\).

Información muestral del centro de enseñanza A: \(n_x = 35\) y \(\bar{x} = 82\).

Información muestral del centro de enseñanza B: \(n_y = 40\) y \(\bar{y} = 78\).

Información poblacional del centro de enseñanza A: \(\sigma_x = 10\).

Información poblacional del centro de enseñanza B: \(\sigma_y = 10\).

# info muestral
nx   <- 35
ny   <- 40
xbar <- 82
ybar <- 78
# info poblacional
sigx <- 10
sigy <- 10
# estimacion puntual
EP <- xbar - ybar
print(EP)
## [1] 4
# margen de error al 95% (Normal)
ME <- qnorm(p = 0.975)*sqrt(sigx^2/nx + sigy^2/ny)
print(ME)
## [1] 4.536435
# intevalo de confianza al 95% (Normal)
IC <- c(EP - ME, EP + ME)
print(IC)
## [1] -0.5364351  8.5364351

2.3 Con \(\sigma_x^2\) y \(\sigma_y^2\) desconocidas, pero \(\sigma_x^2 = \sigma_y^2\)

La variable aleatoria pivote está dada por:

\[T=\frac{\bar{X}-\bar{Y}-(\mu_x-\mu_y)}{S_p\sqrt{\frac{1}{n_x}+\frac{1}{n_y}}}\sim t_{n_x+n_y-2}\] donde \(S^2_p\) es la varianza conjugada de las muestras, \[ S_p^2=\frac{(n_x-1)S^2_{x}+(n_y-1)S^2_{y}}{n_x+n_y-2} \] con \(S_x^2\) y \(S_y^2\) las varianza muestrales correspondientes, \[ S^2_{x}=\frac{1}{n_x-1}\sum_{i=1}^{n_x}(X_i-\bar{X})^2 \qquad\text{y}\qquad S^2_{y}=\frac{1}{n_y-1}\sum_{i=1}^{n_y}(Y_i-\bar{Y})^2. \] Así, el intervalo de confianza para \(\mu_x-\mu_y\), está dado por: \[ L_I=\bar{X}-\bar{Y}-t_{n_x+n_y-2,1-\alpha/2}\,S_p\sqrt{\frac{1}{n_x}+\frac{1}{n_y}} \] \[ L_S=\bar{X}-\bar{Y}+t_{n_x+n_y-2,1-\alpha/2}\,S_p\sqrt{\frac{1}{n_x}+\frac{1}{n_y}} \] donde \(t_{n_x+n_y-2,1-\alpha/2}\) es el percentil \(1-\alpha/2\) de una distribución \(t\) con \(n_x+n_y-2\) grados de libertad.

Observaciones:

  • El estimador puntual es \(\bar{X}-\bar{Y}\).
  • El margen de error es \(t_{n_x+n_y-2,1-\alpha/2}\,S_p\sqrt{\frac{1}{n_x}+\frac{1}{n_y}}\).
  • Este IC es apropiado si las poblaciones tienen distribución Normal (sin importar los tamaños de muestra).
  • Este IC es apropiado si los tamaños de muestra son grandes (sin importar las distribuciones poblacionales), en cuyo caso \(t\approx N(0,1)\).
  • Cuando las muestras son pequeñas, es fundamental que las distribuciones de las dos poblaciones sean (o por lo menos aproximadamente) Normales.
  • Con el procedimiento de la varianza combinada puede que no se obtengan resultados satisfactorios si los tamaños de las muestras son muy distintos.

2.4 Ejemplo

En las zonas costeras de un país, hubo durante un periodo de tiempo determinado, un crecimiento relativamente rápido de la población. Los resultados que se presentan a continuación dan cuenta de las edades de dos muestras aleatorias e independientes de personas que viven tanto en zonas costeras como en zonas no costeras.

Zona costera Zona no costera
Tamaño muestral 150 175
Media 39.3 años 31.4 años
Desv. Estándar 15.0 años 15.2 años

Asumiendo que la variabilidad de la edad de las dos poblaciones es la misma, usando una confiabilidad de 99%, calcular un intervalo de confianza para la diferencia de las medias de la edad de ambas poblaciones. ¿Existen diferencias significativas? ¿La diferencia es sustancial en términos prácticos? ¿Por qué es razonable asumir que las dos poblaciones son homocedásticas? ¿La distribución de las edades en ambas poblaciones tiene que ser Normal para llevar acabo este procedimiento?

Solución:

Población \(X\): edad (en años cumplidos) en la zona costera.

Población \(Y\): edad (en años cumplidos) en la zona no costera.

Parámetro de interés: \(\mu_x - \mu_y\).

Información muestral de la zona costera: \(n_x = 150\), \(\bar{x} = 39.3\), y \(s_x = 15.0\).

Información muestral de la zona no costera: \(n_y = 175\), \(\bar{y} = 31.4\) y \(s_y = 15.2\).

Información poblacional: \(\sigma^2_x = \sigma^2_y\).

# info muestral
nx   <- 150
ny   <- 175
xbar <- 39.3
ybar <- 31.4
sx   <- 15.0
sy   <- 15.2 
# desviacion estandar conjugada
sp <- sqrt(((nx - 1)*sx^2 + (ny - 1)*sy^2)/(nx + ny - 2))
print(sp)
## [1] 15.10807
# estimacion puntual
EP <- xbar - ybar
print(EP)
## [1] 7.9
# margen de error al 99% (Normal)
ME <- qnorm(p = 0.995)*sp*sqrt(1/nx + 1/ny)
print(ME)
## [1] 4.330151
# margen de error al 99% (t)
ME <- qt(p = 0.995, df = nx + ny - 2)*sp*sqrt(1/nx + 1/ny)
print(ME)
## [1] 4.355883
# intevalo de confianza al 99% (t)
IC <- c(EP - ME, EP + ME)
print(IC)
## [1]  3.544117 12.255883

2.5 Con \(\sigma_x^2\) y \(\sigma_y^2\) desconocidas, pero \(\sigma_x^2 \neq \sigma_y^2\)

La variable aleatoria pivote está dada por: \[T=\frac{\bar{X}-\bar{Y}-(\mu_x-\mu_y)}{\sqrt{\frac{S^2_{x}}{n_x}+\frac{S^2_{y}}{n_y}}}\sim t_{\nu}\] donde \(\nu\) denota los grados de libertad, y se aproximan al entero más cercano \[ \nu=\frac{\left(\frac{s^2_{x}}{n_x}+\frac{s^2_{y}}{n_y} \right)^2 }{\frac{\left( \frac{s^2_{x}}{n_x}\right)^2 }{n_x-1}+\frac{\left( \frac{s^2_{y}}{n_y}\right)^2 }{n_y-1}} \] Así, el intervalo de confianza para \(\mu_x-\mu_y\), está dado por: \[ L_I=\bar{X}-\bar{Y}-t_{\nu,1-\alpha/2}\sqrt{\frac{S^2_{x}}{n_x}+\frac{S^2_{y}}{n_y}} \] \[ L_S=\bar{X}-\bar{Y}+t_{\nu,1-\alpha/2}\sqrt{\frac{S^2_{x}}{n_x}+\frac{S^2_{y}}{n_y}} \] donde \(t_{\nu,1-\alpha/2}\) es el percentil \(1-\alpha/2\) de una distribución \(t\) con \(\nu\) grados de libertad.

Observaciones:

  • El estimador puntual es \(\bar{X}-\bar{Y}\).
  • El margen de error es \(t_{\nu,1-\alpha/2}\sqrt{\frac{S^2_{x}}{n_x}+\frac{S^2_{y}}{n_y}}\).
  • Este IC es apropiado si las poblaciones tienen distribución Normal (sin importar los tamaños de muestra).
  • Este IC es apropiado si los grados de libertad son grandes (sin importar las distribuciones poblacionales), en cuyo caso \(t\approx N(0,1)\).
  • Cuando las muestras son pequeñas, es fundamental que las distribuciones de las dos poblaciones sean (o por lo menos aproximadamente) Normales.

2.6 Ejemplo

En el artículo Bactericidal Properties of Flat Surfaces and Nanoparticles Derivatized with Alkylated Polyethylenimines (J. Lin, S. Qiu y colaboradores, en Biotechnology Progress, 2002:1082-1086), se describen experimentos en los que se fijó polietileniminas alquiladas a superficies y a nanopartículas para hacerlas bactericidas. En una serie de experimentos, la eficiencia bactericida contra la bacteria E. coli fue comparada para un metilado contra un polímero no metilado. La media del porcentaje de células de bacterias muertas con el polímero metilado era de 95 con una desviación estándar de 1, y la media del porcentaje de células de bacterias muertas con el polímero no metilado era de 70 con una desviación estándar 6. Suponga que se hicieron cinco mediciones independientes para cada tipo de polímero. Determine un intervalo de confianza de 95% para el aumento en la eficiencia bactericida del polímero metilado. ¿Qué es indispensable suponer para construir este intervalo de confianza usando los métodos tradicionales?

Solución:

Población \(X\): porcentaje de células de bacterias muertas con el polimero metilado.

Población \(Y\): porcentaje de células de bacterias muertas con el polimero no metilado.

Parámetro de interés: \(\mu_x - \mu_y\).

Información muestral del polimero metilado: \(n_x = 5\), \(\bar{x} = 95\), y \(s_x = 1\).

Información muestral del polimero no metilado: \(n_y = 5\), \(\bar{y} = 70\) y \(s_y = 6\).

Información poblacional: \(\sigma^2_x \neq \sigma^2_y\).

# info muestral
nx   <- 5
ny   <- 5
xbar <- 95
ybar <- 70
sx   <- 1
sy   <- 6 
# grados de libertad
v <- round((sx^2/nx + sy^2/ny)^2/((sx^2/nx)^2/(nx-1) + (sy^2/ny)^2/(ny-1)))
print(v)
## [1] 4
# estimacion puntual
EP <- xbar - ybar
print(EP)
## [1] 25
# margen de error al 95% (Normal)
ME <- qnorm(p = 0.975)*sqrt(sx^2/nx + sy^2/ny)
print(ME)
## [1] 5.331678
# margen de error al 95% (t)
ME <- qt(p = 0.975, df = v)*sqrt(sx^2/nx + sy^2/ny)
print(ME)
## [1] 7.552747
# intevalo de confianza al 95% (t)
IC <- c(EP - ME, EP + ME)
print(IC)
## [1] 17.44725 32.55275

3 Cociente de varianzas, \(\sigma^2_y/\sigma^2_x\)

La significancia estadística se analiza por medio de la magnitud de los límites de los intervalos tomando como referencia a 1. ¿Por qué?

¿En qué casos se puede declarar que existen diferencias significativas entre \(\sigma^2_y\) y \(\sigma^2_x\)?

La variable aleatoria pivote está dada por:

\[ F=\frac{\frac{S^2_{x}}{\sigma_x^2}}{\frac{S^2_{y}}{\sigma_y^2}}\sim F_{n_x-1,n_y-1} \]

Así, el intervalo de confianza para \(\sigma^2_y/\sigma^2_x\), está dado por: \[ L_I=\frac{S^2_{y}}{S^2_{x}}F_{n_x-1,n_y-1,\alpha/2} \] \[ L_S=\frac{S^2_{y}}{S^2_{x}}F_{n_x-1,n_y-1,1-\alpha/2} \] donde \(F_{n_x-1,n_y-1,1-\alpha/2}\) es el percentil \(1-\alpha/2\) de una distribución \(F\) con \(n_x-1\) grados de libertad en el numerador y \(n_y-1\) grados de libertad en el denominador.

Observaciones:

3.1 Ejemplo

Media Metrix and Jupiter Communications recogieron datos sobre la cantidad de tiempo que pasan conectados a Internet, por mes, adultos y jóvenes (USA Today, 14 de septiembre de 2000). Se concluyó que, en promedio, los adultos pasan más tiempo conectados a Internet que los jóvenes. Para confirmar esto se realiza otro estudio para el que se toma una muestra de 26 adultos y otra de 30 jóvenes. Las desviaciones estándar de las cantidades de tiempo que pasan conectados a Internet son 94 y 58 minutos, respectivamente. ¿Estos resultados muestrales favorecen la conclusión de que en el caso de los adultos la variabilidad del tiempo que pasan conectados a Internet es mayor que en el caso de los jóvenes? Use una confiabilidad del 95%. ¿Qué es indispensable suponer para construir este intervalo de confianza usando los métodos tradicionales?

Solución:

Población \(X\): cantidades de minutos que pasan conectados a Internet los adultos.

Población \(Y\): cantidades de minutos que pasan conectados a Internet los jóvenes.

Parámetro de interés: \(\sigma^2_y/\sigma^2_x\).

Información muestral de los adultos: \(n_x = 26\) y \(s_x = 94\).

Información muestral de los jóvenes: \(n_y = 30\) y \(s_y = 58\).

# info muestral
nx   <- 26
ny   <- 30
sx   <- 94
sy   <- 58
# estimacion puntual
EP <- sy^2/sx^2
print(EP)
## [1] 0.3807153
# intevalo de confianza al 95% (F)
IC <- c((sy^2/sx^2)*qf(p = 0.025, df1 = nx-1, df2 = ny-1), (sy^2/sx^2)*qf(p = 0.975, df1 = nx-1, df2 = ny-2))
print(IC)
## [1] 0.1738321 0.8228976

4 Diferencia de proporciones, \(\pi_x-\pi_y\)

Ahora, se consideran dos poblaciones, a saber, \(X\sim Ber(\pi_x)\) y \(Y\sim Ber(\pi_y)\), de las cuales se tienen las muestras aleatorias independientes \(X_1,\ldots,X_{n_x}\) y \(Y_1,\ldots,Y_{n_y}\), respectivamente.

La significancia estadística se analiza por medio de los signos del los límites del intervalo de confianza para \(\pi_x-\pi_y\).

La variable aleatoria pivote está dada por: \[ Z=\frac{P_x-P_y-(\pi_x-\pi_y)}{\sqrt{\frac{P_x(1-P_x)}{n_x}+\frac{P_y(1-P_y)}{n_y}}}\sim N(0,1) \] donde \(P_x=\frac{1}{n_x}\sum_{i=1}^{n_x} X_i\) y \(P_y=\frac{1}{n_y}\sum_{i=1}^{n_y} Y_i\) son las proporciones muestrales.

Así, el intervalo de confianza para \(\pi_x-\pi_y\), está dado por: \[ L_I=P_x-P_y-z_{1-\alpha/2}\sqrt{\frac{P_x(1-P_x)}{n_x}+\frac{P_y(1-P_y)}{n_y}} \] \[ L_S=P_x-P_y+z_{1-\alpha/2}\sqrt{\frac{P_x(1-P_x)}{n_x}+\frac{P_y(1-P_y)}{n_y}} \] donde \(z_{1-\alpha/2}\) es el percentil \(1-\alpha/2\) de una distribución Normal estándar.

Observaciones:

4.1 Ejemplo

Los extractos de St. John’s Wort se utilizan ampliamente para tratar la depresión. Un artículo del número del 18 de abril de 2001 del Journal of the American Medical Association, títulado Effectiveness of St. John’s Wort on Major Depression: A Randomized Controlled Trial, comparó la eficacia de un extracto estándar de St. John’s Wort con un placebo en 200 pacientes diagnosticados de depresión mayor. Los pacientes fueron asignados aleatoriamente a dos grupos (50/50); un grupo recibió la hierba y el otro recibió el placebo. Después de 8 semanas, 19 de los pacientes tratados con placebo mostraron una mejoría y 27 de los tratados con St. John’s Wort mejoraron. ¿Existe alguna razón para creer que el tratamiento es eficaz para tratar la depresión mayor? Use una confiabilidad del 95%.

Solución:

Población \(X\): 1 = mejoría, 0 = no mejoría en el tratamiento.

Población \(Y\): 1 = mejoría, 0 = no mejoría en el placebo.

Parámetro de interés: \(\pi_x - \pi_y\).

Información muestral de los tratados con St. John’s Wort: \(n_x = 100\) y \(p_x = 27/100\).

Información muestral de los tratados con placebo: \(n_y = 100\) y \(p_y = 19/100\).

# info muestral
nx   <- 100
ny   <- 100
px   <- 27/100
py   <- 19/100
# estimacion puntual
EP <- px - py
print(EP)
## [1] 0.08
# margen de error al 95% (Normal)
ME <- qnorm(p = 0.975)*sqrt(px*(1-px)/nx + py*(1-py)/ny)
print(ME)
## [1] 0.1161186
# intevalo de confianza al 95% (F)
IC <- c(EP - ME, EP + ME)
print(IC)
## [1] -0.03611856  0.19611856