Ahora, asumiremos que dentro de la población hay un partición que consta de dos subpoblaciones, \(X\sim N(\mu_x,\sigma_x^2)\), la variable aleatoria de la primera subpoblación, y \(Y\sim N(\mu_y,\sigma_y^2)\), la variable aleatoria de la segunda subpoblación, de las cuales se tienen las muestras aleatorias independientes \(X_1,\ldots,X_{n_x}\) y \(Y_1,\ldots,Y_{n_y}\), respectivamente.
El objetivo principal es comparar los parámetros de las dos poblaciones.
Para esta estimación hay tres casos, dependiendo del estatus de las varianzas poblacionales.
En este caso, la significancia estadística se analiza por medio de los signos de los límites del intervalo de confianza para \(\mu_x-\mu_y\): si los dos límites tienen el mismo signo, entonces, con confiabilidad de \(100(1-\alpha)\%\), existe suficiente evidencia en la muestra para declarar diferencias significativas entre \(\mu_x\) y \(\mu_y\). Con los dos límites positivos: \(\mu_x>\mu_y\); y con los dos límites negativos: \(\mu_x<\mu_y\).
La significancia estadística no implica necesariamente una significancia práctica.
¿Qué se puede concluir si los signos de los límites de intervalo no coinciden?
La variable aleatoria pivote está dada por:
\[Z=\frac{\bar{X}-\bar{Y}-(\mu_x-\mu_y)}{\sqrt{\frac{\sigma_x^2}{n_x}+\frac{\sigma_y^2}{n_y}}}\sim N(0,1)\]
Así, el intervalo de confianza para \(\mu_x-\mu_y\), está dado por: \[ L_I=\bar{X}-\bar{Y}-z_{1-\alpha/2}\sqrt{\frac{\sigma_x^2}{n_x}+\frac{\sigma_y^2}{n_y}} \qquad\text{y}\qquad L_S=\bar{X}-\bar{Y}+z_{1-\alpha/2}\sqrt{\frac{\sigma_x^2}{n_x}+\frac{\sigma_y^2}{n_y}} \] donde \(z_{1-\alpha/2}\) es el percentil \(1-\alpha/2\) de una distribución normal estándar.
Observaciones:
Como parte de un estudio para evaluar las diferencias en la calidad entre dos centros de enseñanza respecto a las ciencias exactas, físicas y naturales (Biología, Física, Geología, Matemáticas y Química), se aplica un examen estandarizado a los individuos de ambos centros.
En exámenes estandarizados practicados ya en diversas ocasiones, siempre se ha obtenido una desviación estándar cercana a 10 puntos. Por tanto, usará esta información y considerará que las desviaciones estándar poblacionales se conocen y que son iguales a 10 en ambos grupos.
Con muestras aleatorias simples e independientes de \(35\) individuos del centro de enseñanza A y \(40\) individuos del centro de enseñanza B, las medias muestrales correspondientes son 82 y 78 puntos, respectivamente. Si la diferencia de calidad se evalúa comparando las medias de las puntuaciones obtenidas en el examen, usando una confiabilidad de 95%, ¿estos datos indican que existe una diferencia significativa entre las medias poblacionales de los dos centros de enseñanza?
Para facilitar el proceso, llamaremos al grupo A como “X” y al grupo B como “Y”. Tenemos que \(\sigma_X=\sigma_Y=10\), además:
\[n_X=35 \hspace{1cm} n_Y=40\hspace{1cm}\bar{X}=82\hspace{1cm}\bar{Y}=78\hspace{1cm}\alpha=0.05\] Por lo tanto:
\[ z_{1-\alpha/2}=z_{0.975}=1.96\\ \ \\ L_I=\bar{X}-\bar{Y}-z_{1-\alpha/2}\sqrt{\frac{\sigma_x^2}{n_x}+\frac{\sigma_y^2}{n_y}}=82-78-(1.96)\sqrt{\frac{100}{35}+\frac{100}{40}}=-0.5364\\ \ \\ L_S=\bar{X}-\bar{Y}+z_{1-\alpha/2}\sqrt{\frac{\sigma_x^2}{n_x}+\frac{\sigma_y^2}{n_y}}=82-78+(1.96)\sqrt{\frac{100}{35}+\frac{100}{40}}=8.5364 \] Como el cero pertenece al intervalo de confianza, podemos concluir que no existe evidencia estadística suficente para afirmar que hay una diferencia entre las medias de los dos centros educativos.
sd_x<-10
sd_y<-10
n_x<-35
n_y<-40
xbarra<-82
ybarra<-78
alpha<-0.05
z<-qnorm(1-(alpha/2))
LI<-xbarra-ybarra-(z*sqrt((sd_x^2)/n_x + (sd_y^2)/n_y))
LS<-xbarra-ybarra+(z*sqrt((sd_x^2)/n_x + (sd_y^2)/n_y))
IC<-c(LI, LS)
IC
## [1] -0.5364351 8.5364351
La variable aleatoria pivote está dada por:
\[T=\frac{\bar{X}-\bar{Y}-(\mu_x-\mu_y)}{S_p\sqrt{\frac{1}{n_x}+\frac{1}{n_y}}}\sim t_{n_x+n_y-2}\] donde \(S^2_p\) es la varianza conjugada de las muestras, \[ S_p^2=\frac{(n_x-1)S^2_{x}+(n_y-1)S^2_{y}}{n_x+n_y-2} \] con \(S_x^2\) y \(S_y^2\) las varianzas muestrales correspondientes, \[ S^2_{x}=\frac{1}{n_x-1}\sum_{i=1}^{n_x}(X_i-\bar{X})^2 \qquad\text{y}\qquad S^2_{y}=\frac{1}{n_y-1}\sum_{i=1}^{n_y}(Y_i-\bar{Y})^2. \] Así, el intervalo de confianza para \(\mu_x-\mu_y\), está dado por: \[ L_I=\bar{X}-\bar{Y}-t_{n_x+n_y-2,1-\alpha/2}\,S_p\sqrt{\frac{1}{n_x}+\frac{1}{n_y}} \qquad\text{y}\qquad L_S=\bar{X}-\bar{Y}+t_{n_x+n_y-2,1-\alpha/2}\,S_p\sqrt{\frac{1}{n_x}+\frac{1}{n_y}} \] donde \(t_{n_x+n_y-2,1-\alpha/2}\) es el percentil \(1-\alpha/2\) de una distribución \(t\) con \(n_x+n_y-2\) grados de libertad.
Observaciones:
En las zonas costeras de un país, hubo, durante los años noventa, un envejecimiento relativamente rápido de la población. Los resultados que se presentan a continuación dan cuenta de las edades de dos muestras aleatorias e independientes de personas que viven tanto en zonas costeras como en zonas no costeras.
Zona costera | Zona no costera | |
---|---|---|
Tamaño de muestra | 150 | 175 |
Media | 39.3 años | 31.4 años |
Desv. Estándar | 15.0 años | 15.2 años |
Asumiendo que la variabilidad de la edad de las dos poblaciones es la misma, usando una confiabilidad de 99%, calcular un intervalo de confianza para la diferencia de las medias de la edad de ambas poblaciones. ¿Existen diferencias significativas? ¿La diferencia es sustancial en términos prácticos? ¿A qué conclusión llega? ¿Por qué es razonable asumir que las dos poblaciones son homocedásticas? ¿La distribución de las edades en ambas poblaciones tiene que ser normal?
Para facilitar el proceso, llamaremos a las observaciones de las zonas costeras como “X” y a las observaciones de las zonas no costeras como “Y”. Tenemos que \(S_X=15\) y \(S_Y=15.2\), además:
\[n_X=150 \hspace{1cm} n_Y=175\hspace{1cm}\bar{X}=39.3\hspace{1cm}\bar{Y}=31.4\hspace{1cm}\alpha=0.01\] Por lo tanto:
\[ S_p^2=\frac{(n_x-1)S^2_{x}+(n_y-1)S^2_{y}}{n_x+n_y-2} =\frac{(150-1)15^2+(175-1)15.2^2}{150+175-2}=228.2537\\ \ \\ t_{n_x+n_y-2,1-\alpha/2}=z_{223, 0.995}=2.598\\ \] Luego, los limites son:
\[ L_I=\bar{X}-\bar{Y}-t_{n_x+n_y-2,1-\alpha/2}\,S_p\sqrt{\frac{1}{n_x}+\frac{1}{n_y}}=39.3-31.4-2.598*\sqrt{228.25}*\sqrt{\frac{1}{150}+\frac{1}{175}}=3.544117 \\ \ \\ L_S=\bar{X}-\bar{Y}+t_{n_x+n_y-2,1-\alpha/2}\,S_p\sqrt{\frac{1}{n_x}+\frac{1}{n_y}}=39.3-31.4+2.598*\sqrt{228.25}*\sqrt{\frac{1}{150}+\frac{1}{175}}=12.255883 \\ \]
Como el cero NO pertenece al intervalo de confianza, podemos concluir que existe evidencia estadística suficiente para afirmar que hay una diferencia entre las medias de las zonas costeras y las zonas no costeras.
sd_x<-15
sd_y<-15.2
n_x<-150
n_y<-175
xbarra<-39.3
ybarra<-31.4
alpha<-0.01
t<-qt(1-(alpha/2), n_x+n_y-2)
Sp2<-((n_x-1)*(sd_x^2)+(n_y-1)*(sd_y^2))/(n_x+n_y-2)
LI<-xbarra-ybarra-(t*sqrt(Sp2)*sqrt(1/n_x + 1/n_y))
LS<-xbarra-ybarra+(t*sqrt(Sp2)*sqrt(1/n_x + 1/n_y))
IC<-c(LI, LS)
IC
## [1] 3.544117 12.255883
La variable aleatoria pivote está dada por: \[T=\frac{\bar{X}-\bar{Y}-(\mu_x-\mu_y)}{\sqrt{\frac{S^2_{x}}{n_x}+\frac{S^2_{y}}{n_y}}}\sim t_{\nu}\] donde \(\nu\) denota los grados de libertad, \[ \nu=\frac{\left(\frac{s^2_{x}}{n_x}+\frac{s^2_{y}}{n_y} \right)^2 }{\frac{\left( \frac{s^2_{x}}{n_x}\right)^2 }{n_x-1}+\frac{\left( \frac{s^2_{y}}{n_y}\right)^2 }{n_y-1}} \] Así, el intervalo de confianza para \(\mu_x-\mu_y\), está dado por: \[ L_I=\bar{X}-\bar{Y}-t_{\nu,1-\alpha/2}\sqrt{\frac{S^2_{x}}{n_x}+\frac{S^2_{y}}{n_y}} \qquad\text{y}\qquad L_S=\bar{X}-\bar{Y}+t_{\nu,1-\alpha/2}\sqrt{\frac{S^2_{x}}{n_x}+\frac{S^2_{y}}{n_y}} \] donde \(t_{\nu,1-\alpha/2}\) es el percentil \(1-\alpha/2\) de una distribución \(t\) con \(\nu\) grados de libertad.
Observaciones:
En el artículo Bactericidal Properties of Flat Surfaces and Nanoparticles Derivatized with Alkylated Polyethylenimines (J. Lin, S. Qiu y colaboradores, en Biotechnology Progress, 2002:1082-1086), se describen experimentos en los que se fijó polietileniminas alquiladas a superficies y a nanopartículas para hacerlas bactericidas. En una serie de experimentos, la eficiencia bactericida contra la bacteria E. coli fue comparada para un metilado contra un polímero no metilado. La media del porcentaje de células de bacterias muertas con el polímero metilado era de 95 con una desviación estándar de 1, y la media del porcentaje de células de bacterias muertas con el polímero no metilado era de 70 con una desviación estándar 6. Suponga que se hicieron cinco mediciones independientes para cada tipo de polímero. Determine un intervalo de confianza de 95% para el aumento en la eficiencia bactericida del polímero metilado. ¿Qué es indispensable suponer para construir este intervalo de confianza usando los métodos tradicionales?
Para facilitar el proceso, llamaremos a las observaciones del polímero metilado “X” y a las observaciones del polímero no metilado como “Y”. Tenemos que \(S_X=1\) y \(S_Y=6\), además:
\[n_X=5 \hspace{1cm} n_Y=5\hspace{1cm}\bar{X}=95\hspace{1cm}\bar{Y}=70\hspace{1cm}\alpha=0.05\] Por lo tanto, los grados de libertad están dador por:
\[ \nu=\frac{\left(\frac{s^2_{x}}{n_x}+\frac{s^2_{y}}{n_y} \right)^2 }{\frac{\left( \frac{s^2_{x}}{n_x}\right)^2}{n_x-1}+\frac{\left( \frac{s^2_{y}}{n_y}\right)^2 }{n_y-1}}= \frac{\left(\frac{1^2_{ }}{5}+\frac{6^2_{ }}{5} \right)^2 }{\frac{\left( \frac{1^2_{ }}{5}\right)^2 }{5-1}+\frac{\left( \frac{6^2_{ }}{5}\right)^2 }{5-1}}\approx 4 \] Los intervalos de confianza están dados por:
\[ t_{\nu,1-\alpha/2}=z_{4, 0.975}=2.776\\ \ \\ L_I=\bar{X}-\bar{Y}-t_{\nu,1-\alpha/2}\sqrt{\frac{S_x^2}{n_x}+\frac{S_y^2}{n_y}}=95-70-(2.776)\sqrt{\frac{1}{5}+\frac{36}{5}}=17.44725\\ \ \\ L_S=\bar{X}-\bar{Y}+t_{\nu,1-\alpha/2}\sqrt{\frac{S_x^2}{n_x}+\frac{S_y^2}{n_y}}=95-70+(2.776)\sqrt{\frac{1}{5}+\frac{36}{5}}=32.55275\\ \]
sd_x<-1
sd_y<-6
n_x<-5
n_y<-5
xbarra<-95
ybarra<-70
alpha<-0.05
nu<-as.integer(((sd_x^2)/n_x + (sd_y^2)/n_y)^2/(((sd_x^2)/n_x)^2/(n_x-1)+((sd_y^2)/n_y)^2/(n_y-1)))
t<-qt(1-(alpha/2), nu)
LI<-xbarra-ybarra-(t*sqrt((sd_x^2)/n_x + (sd_y^2)/n_y))
LS<-xbarra-ybarra+(t*sqrt((sd_x^2)/n_x + (sd_y^2)/n_y))
IC<-c(LI, LS)
IC
## [1] 17.44725 32.55275
La variable aleatoria pivote está dada por:
\[ F=\cfrac{\frac{S^2_{x}}{\sigma_x^2}}{\frac{S^2_{y}}{\sigma_y^2}}\sim F_{n_x-1,n_y-1} \]
Así, el intervalo de confianza para \(\sigma^2_y/\sigma^2_x\), está dado por: \[ L_I=\frac{S^2_{y}}{S^2_{x}}F_{n_x-1,n_y-1,\alpha/2} \qquad\text{y}\qquad L_S=\frac{S^2_{y}}{S^2_{x}}F_{n_x-1,n_y-1,1-\alpha/2} \] donde \(F_{n_x-1,n_y-1,1-\alpha/2}\) es el percentil \(1-\alpha/2\) de una distribución \(F\) con \(n_x-1\) grados de libertad en el numerador y \(n_y-1\) grados de libertad en el denominador.
Observaciones:
Media Metrix and Jupiter Communications recogieron datos sobre la cantidad de tiempo que pasan conectados a Internet, por mes, adultos y jóvenes (USA Today, 14 de septiembre de 2000). Se concluyó que, en promedio, los adultos pasan más tiempo conectados a Internet que los jóvenes. Para confirmar esto se realiza otro estudio para el que se toma una muestra de 26 adultos y otra de 30 jóvenes. Las desviaciones estándar de las cantidades de tiempo que pasan conectados a Internet son 94 y 58 minutos, respectivamente. ¿Estos resultados muestrales favorecen la conclusión de que en el caso de los adultos la variabilidad del tiempo que pasan conectados a Internet es mayor que en el caso de los jóvenes? Use una confiabilidad del 95%.
Llamaremos a las observaciones de los adultos como “X” y a las observaciones de los adolescentes como “Y”. Tenemos que \(S_X=94\) y \(S_Y=58\), además, \(n_X=26\), \(n_Y=30\) y \(\alpha=0.05\). Luego:
\[ L_I=\frac{S^2_{y}}{S^2_{x}}F_{n_x-1,n_y-1,\alpha/2}=\frac{58^2}{94^2}F_{26-1,30-1,0.025}=0.1738321\\ \ \\ L_S=\frac{S^2_{y}}{S^2_{x}}F_{n_x-1,n_y-1,1-\alpha/2}=\frac{58^2}{94^2}F_{26-1,30-1,0.975}=0.8154499 \]
Como 1 no pertenece al intervalo de confianza, existe evidencia estadística suficiente para afirmar que las varianzas de los dos grupos no son iguales.
sd_x<-94
sd_y<-58
n_x<-26
n_y<-30
alpha<-0.05
F1<-qf(alpha/2, n_x-1,n_y-1)
F2<-qf(1-(alpha/2), n_x-1,n_y-1)
LI<-(sd_y^2/sd_x^2)*F1
LS<-(sd_y^2/sd_x^2)*F2
IC<-c(LI, LS)
IC
## [1] 0.1738321 0.8154499
Ahora, asumiremos que dentro de la población hay un partición que consta de dos subpoblaciones, \(X\sim Ber(\pi_x)\), la variable aleatoria de la primera subpoblación, y \(Y\sim Ber(\pi_y)\), la variable aleatoria de la segunda subpoblación, de las cuales se tienen las muestras aleatorias independientes \(X_1,\ldots,X_{n_x}\) y \(Y_1,\ldots,Y_{n_y}\), respectivamente.
En este caso, la significancia estadística se analiza por medio de los signos de los límites del intervalo de confianza para \(\pi_x-\pi_y\).
La variable aleatoria pivote está dada por:
\[Z=\frac{P_x-P_y-(\pi_x-\pi_y)}{\sqrt{\frac{P_x(1-P_x)}{n_x}+\frac{P_y(1-P_y)}{n_y}}}\sim N(0,1)\] donde \(P_x=\frac{1}{n_x}\sum_{i=1}^{n_x} X_i\) y \(P_y=\frac{1}{n_y}\sum_{i=1}^{n_y} Y_i\) son las proporciones muestrales.
Así, el intervalo de confianza para \(\pi_x-\pi_y\), está dado por: \[ L_I=P_x-P_y-z_{1-\alpha/2}\sqrt{\frac{P_x(1-P_x)}{n_x}+\frac{P_y(1-P_y)}{n_y}} \qquad\text{y}\qquad L_S=P_x-P_y+z_{1-\alpha/2}\sqrt{\frac{P_x(1-P_x)}{n_x}+\frac{P_y(1-P_y)}{n_y}} \] donde \(z_{1-\alpha/2}\) es el percentil \(1-\alpha/2\) de una distribución normal estándar.
Observaciones:
Los extractos de St. John’s Wort se utilizan ampliamente para tratar la depresión. Un artículo del número del 18 de abril de 2001 del Journal of the American Medical Association, títulado Effectiveness of St. John’s Wort on Major Depression: A Randomized Controlled Trial, comparó la eficacia de un extracto estándar de St. John’s Wort con un placebo en 200 pacientes diagnosticados de depresión mayor. Los pacientes fueron asignados aleatoriamente a dos grupos (50%/50%); un grupo recibió la hierba y el otro recibió el placebo. Después de 8 semanas, 19 de los pacientes tratados con placebo mostraron una mejoría y 27 de los tratados con St. John’s Wort mejoraron. ¿Existe alguna razón para creer que el tratamiento es eficaz para tratar la depresión mayor?
Llamaremos a las observaciones de los pacientes tratados con la hierba “X” y a las observaciones de los pacientes tratados con el placebo como “Y”. Tomaremos \(\alpha=0.05\)Tenemos que las proporciones están dadas por:
\[ P_x=\frac{27}{100}=0.27 \\ P_y=\frac{19}{100}=0.19 \\ z_{1-\alpha/2}=z_{0.975}=1.96 \\ \] Así, los intervalos de confianza están dados por:
\[ L_I=P_x-P_y-z_{1-\alpha/2}\sqrt{\frac{P_x(1-P_x)}{n_x}+\frac{P_y(1-P_y)}{n_y}}=0.27-0.19-1.96\sqrt{\frac{0.27(1-0.27)}{100}+\frac{0.19(1-0.19)}{100}}=-0.03611856 \\ \ \\ L_S=P_x-P_y+z_{1-\alpha/2}\sqrt{\frac{P_x(1-P_x)}{n_x}+\frac{P_y(1-P_y)}{n_y}}=0.27-0.19+1.96\sqrt{\frac{0.27(1-0.27)}{100}+\frac{0.19(1-0.19)}{100}}=0.19611856 \\ \]
Como 0 pertenece al intervalo de confianza, no existe evidencia estadística suficiente para afirmar que proporciones de los dos grupos no son iguales.
p_x<-0.27
p_y<-0.19
n_x<-100
n_y<-100
alpha<-0.05
z<-qnorm(1-(alpha/2))
LI<-p_x-p_y-(z*sqrt((p_x*(1-p_x))/n_x + (p_y*(1-p_y))/n_y))
LS<-p_x-p_y+(z*sqrt((p_x*(1-p_x))/n_x + (p_y*(1-p_y))/n_y))
IC<-c(LI, LS)
IC
## [1] -0.03611856 0.19611856