1 Introducción

Ahora, asumiremos que dentro de la población hay un partición que consta de dos subpoblaciones, \(X\sim N(\mu_x,\sigma_x^2)\), la variable aleatoria de la primera subpoblación, y \(Y\sim N(\mu_y,\sigma_y^2)\), la variable aleatoria de la segunda subpoblación, de las cuales se tienen las muestras aleatorias independientes \(X_1,\ldots,X_{n_x}\) y \(Y_1,\ldots,Y_{n_y}\), respectivamente.

El objetivo principal es comparar los parámetros de las dos poblaciones.

2 Diferencia de medias, \(\mu_x-\mu_y\)

Para esta estimación hay tres casos, dependiendo del estatus de las varianzas poblacionales.

En este caso, la significancia estadística se analiza por medio de los signos de los límites del intervalo de confianza para \(\mu_x-\mu_y\): si los dos límites tienen el mismo signo, entonces, con confiabilidad de \(100(1-\alpha)\%\), existe suficiente evidencia en la muestra para declarar diferencias significativas entre \(\mu_x\) y \(\mu_y\). Con los dos límites positivos: \(\mu_x>\mu_y\); y con los dos límites negativos: \(\mu_x<\mu_y\).

La significancia estadística no implica necesariamente una significancia práctica.

¿Qué se puede concluir si los signos de los límites de intervalo no coinciden?

2.1 Con \(\sigma_x^2\) y \(\sigma_y^2\) conocidas

La variable aleatoria pivote está dada por:

\[Z=\frac{\bar{X}-\bar{Y}-(\mu_x-\mu_y)}{\sqrt{\frac{\sigma_x^2}{n_x}+\frac{\sigma_y^2}{n_y}}}\sim N(0,1)\]

Así, el intervalo de confianza para \(\mu_x-\mu_y\), está dado por: \[ L_I=\bar{X}-\bar{Y}-z_{1-\alpha/2}\sqrt{\frac{\sigma_x^2}{n_x}+\frac{\sigma_y^2}{n_y}} \qquad\text{y}\qquad L_S=\bar{X}-\bar{Y}+z_{1-\alpha/2}\sqrt{\frac{\sigma_x^2}{n_x}+\frac{\sigma_y^2}{n_y}} \] donde \(z_{1-\alpha/2}\) es el percentil \(1-\alpha/2\) de una distribución normal estándar.

Observaciones:

  • El estimador puntual es \(\bar{X}-\bar{Y}\).
  • El margen de error es \(z_{1-\alpha/2}\sqrt{\frac{\sigma_x^2}{n_x}+\frac{\sigma_y^2}{n_y}}\).
  • Este IC es apropiado si las poblaciones tienen distribución normal (sin importar los tamaños de muestra). Cuando las muestras son pequeñas, es importante que el analista se convenza de que es razonable suponer que las distribuciones de las dos poblaciones son por lo menos aproximadamente normales.
  • Este IC es apropiado si los tamaños de muestra son grandes (sin importar las distribuciones poblacionales).

2.1.1 Ejemplo

Como parte de un estudio para evaluar las diferencias en la calidad entre dos centros de enseñanza respecto a las ciencias exactas, físicas y naturales (Biología, Física, Geología, Matemáticas y Química), se aplica un examen estandarizado a los individuos de ambos centros.

En exámenes estandarizados practicados ya en diversas ocasiones, siempre se ha obtenido una desviación estándar cercana a 10 puntos. Por tanto, usará esta información y considerará que las desviaciones estándar poblacionales se conocen y que son iguales a 10 en ambos grupos.

Con muestras aleatorias simples e independientes de \(35\) individuos del centro de enseñanza A y \(40\) individuos del centro de enseñanza B, las medias muestrales correspondientes son 82 y 78 puntos, respectivamente. Si la diferencia de calidad se evalúa comparando las medias de las puntuaciones obtenidas en el examen, usando una confiabilidad de 95%, ¿estos datos indican que existe una diferencia significativa entre las medias poblacionales de los dos centros de enseñanza?

2.1.2 Solución:

Para facilitar el proceso, llamaremos al grupo A como “X” y al grupo B como “Y”. Tenemos que \(\sigma_X=\sigma_Y=10\), además:

\[n_X=35 \hspace{1cm} n_Y=40\hspace{1cm}\bar{X}=82\hspace{1cm}\bar{Y}=78\hspace{1cm}\alpha=0.05\] Por lo tanto:

\[ z_{1-\alpha/2}=z_{0.975}=1.96\\ \ \\ L_I=\bar{X}-\bar{Y}-z_{1-\alpha/2}\sqrt{\frac{\sigma_x^2}{n_x}+\frac{\sigma_y^2}{n_y}}=82-78-(1.96)\sqrt{\frac{100}{35}+\frac{100}{40}}=-0.5364\\ \ \\ L_S=\bar{X}-\bar{Y}+z_{1-\alpha/2}\sqrt{\frac{\sigma_x^2}{n_x}+\frac{\sigma_y^2}{n_y}}=82-78+(1.96)\sqrt{\frac{100}{35}+\frac{100}{40}}=8.5364 \] Como el cero pertenece al intervalo de confianza, podemos concluir que no existe evidencia estadística suficente para afirmar que hay una diferencia entre las medias de los dos centros educativos.

sd_x<-10
sd_y<-10
n_x<-35
n_y<-40
xbarra<-82
ybarra<-78
alpha<-0.05
z<-qnorm(1-(alpha/2))

LI<-xbarra-ybarra-(z*sqrt((sd_x^2)/n_x + (sd_y^2)/n_y))
LS<-xbarra-ybarra+(z*sqrt((sd_x^2)/n_x + (sd_y^2)/n_y))


IC<-c(LI, LS)
IC
## [1] -0.5364351  8.5364351

2.2 Con \(\sigma_x^2\) y \(\sigma_y^2\) desconocidas, pero \(\sigma_x^2 = \sigma_y^2\)

La variable aleatoria pivote está dada por:

\[T=\frac{\bar{X}-\bar{Y}-(\mu_x-\mu_y)}{S_p\sqrt{\frac{1}{n_x}+\frac{1}{n_y}}}\sim t_{n_x+n_y-2}\] donde \(S^2_p\) es la varianza conjugada de las muestras, \[ S_p^2=\frac{(n_x-1)S^2_{x}+(n_y-1)S^2_{y}}{n_x+n_y-2} \] con \(S_x^2\) y \(S_y^2\) las varianzas muestrales correspondientes, \[ S^2_{x}=\frac{1}{n_x-1}\sum_{i=1}^{n_x}(X_i-\bar{X})^2 \qquad\text{y}\qquad S^2_{y}=\frac{1}{n_y-1}\sum_{i=1}^{n_y}(Y_i-\bar{Y})^2. \] Así, el intervalo de confianza para \(\mu_x-\mu_y\), está dado por: \[ L_I=\bar{X}-\bar{Y}-t_{n_x+n_y-2,1-\alpha/2}\,S_p\sqrt{\frac{1}{n_x}+\frac{1}{n_y}} \qquad\text{y}\qquad L_S=\bar{X}-\bar{Y}+t_{n_x+n_y-2,1-\alpha/2}\,S_p\sqrt{\frac{1}{n_x}+\frac{1}{n_y}} \] donde \(t_{n_x+n_y-2,1-\alpha/2}\) es el percentil \(1-\alpha/2\) de una distribución \(t\) con \(n_x+n_y-2\) grados de libertad.

Observaciones:

  • El estimador puntual es \(\bar{X}-\bar{Y}\).
  • El margen de error es \(t_{n_x+n_y-2,1-\alpha/2}\,S_p\sqrt{\frac{1}{n_x}+\frac{1}{n_y}}\).
  • Este IC es apropiado si las poblaciones tienen distribución normal (sin importar los tamaños de muestra). Cuando las muestras son pequeñas, es importante que el analista se convenza de que es razonable suponer que las distribuciones de las dos poblaciones son por lo menos aproximadamente normales.
  • Este IC es apropiado si los tamaños de muestra son grandes (sin importar las distribuciones poblacionales), en cuyo caso la distribución \(t\) es aproximadamente equivalente a la distribución \(Z\).
  • Con el procedimiento de la varianza combinada pueden no obtenerse resultados satisfactorios si los tamaños de las muestras son muy distintos.

2.2.1 Ejemplo

En las zonas costeras de un país, hubo, durante los años noventa, un envejecimiento relativamente rápido de la población. Los resultados que se presentan a continuación dan cuenta de las edades de dos muestras aleatorias e independientes de personas que viven tanto en zonas costeras como en zonas no costeras.

Zona costera Zona no costera
Tamaño de muestra 150 175
Media 39.3 años 31.4 años
Desv. Estándar 15.0 años 15.2 años

Asumiendo que la variabilidad de la edad de las dos poblaciones es la misma, usando una confiabilidad de 99%, calcular un intervalo de confianza para la diferencia de las medias de la edad de ambas poblaciones. ¿Existen diferencias significativas? ¿La diferencia es sustancial en términos prácticos? ¿A qué conclusión llega? ¿Por qué es razonable asumir que las dos poblaciones son homocedásticas? ¿La distribución de las edades en ambas poblaciones tiene que ser normal?

2.2.2 Solución:

Para facilitar el proceso, llamaremos a las observaciones de las zonas costeras como “X” y a las observaciones de las zonas no costeras como “Y”. Tenemos que \(S_X=15\) y \(S_Y=15.2\), además:

\[n_X=150 \hspace{1cm} n_Y=175\hspace{1cm}\bar{X}=39.3\hspace{1cm}\bar{Y}=31.4\hspace{1cm}\alpha=0.01\] Por lo tanto:

\[ S_p^2=\frac{(n_x-1)S^2_{x}+(n_y-1)S^2_{y}}{n_x+n_y-2} =\frac{(150-1)15^2+(175-1)15.2^2}{150+175-2}=228.2537\\ \ \\ t_{n_x+n_y-2,1-\alpha/2}=z_{223, 0.995}=2.598\\ \] Luego, los limites son:

\[ L_I=\bar{X}-\bar{Y}-t_{n_x+n_y-2,1-\alpha/2}\,S_p\sqrt{\frac{1}{n_x}+\frac{1}{n_y}}=39.3-31.4-2.598*\sqrt{228.25}*\sqrt{\frac{1}{150}+\frac{1}{175}}=3.544117 \\ \ \\ L_S=\bar{X}-\bar{Y}+t_{n_x+n_y-2,1-\alpha/2}\,S_p\sqrt{\frac{1}{n_x}+\frac{1}{n_y}}=39.3-31.4+2.598*\sqrt{228.25}*\sqrt{\frac{1}{150}+\frac{1}{175}}=12.255883 \\ \]

Como el cero NO pertenece al intervalo de confianza, podemos concluir que existe evidencia estadística suficiente para afirmar que hay una diferencia entre las medias de las zonas costeras y las zonas no costeras.

sd_x<-15
sd_y<-15.2
n_x<-150
n_y<-175
xbarra<-39.3
ybarra<-31.4
alpha<-0.01
t<-qt(1-(alpha/2), n_x+n_y-2)

Sp2<-((n_x-1)*(sd_x^2)+(n_y-1)*(sd_y^2))/(n_x+n_y-2)


LI<-xbarra-ybarra-(t*sqrt(Sp2)*sqrt(1/n_x + 1/n_y))
LS<-xbarra-ybarra+(t*sqrt(Sp2)*sqrt(1/n_x + 1/n_y))

IC<-c(LI, LS)
IC
## [1]  3.544117 12.255883

2.3 Con \(\sigma_x^2\) y \(\sigma_y^2\) desconocidas, pero \(\sigma_x^2 \neq \sigma_y^2\)

La variable aleatoria pivote está dada por: \[T=\frac{\bar{X}-\bar{Y}-(\mu_x-\mu_y)}{\sqrt{\frac{S^2_{x}}{n_x}+\frac{S^2_{y}}{n_y}}}\sim t_{\nu}\] donde \(\nu\) denota los grados de libertad, \[ \nu=\frac{\left(\frac{s^2_{x}}{n_x}+\frac{s^2_{y}}{n_y} \right)^2 }{\frac{\left( \frac{s^2_{x}}{n_x}\right)^2 }{n_x-1}+\frac{\left( \frac{s^2_{y}}{n_y}\right)^2 }{n_y-1}} \] Así, el intervalo de confianza para \(\mu_x-\mu_y\), está dado por: \[ L_I=\bar{X}-\bar{Y}-t_{\nu,1-\alpha/2}\sqrt{\frac{S^2_{x}}{n_x}+\frac{S^2_{y}}{n_y}} \qquad\text{y}\qquad L_S=\bar{X}-\bar{Y}+t_{\nu,1-\alpha/2}\sqrt{\frac{S^2_{x}}{n_x}+\frac{S^2_{y}}{n_y}} \] donde \(t_{\nu,1-\alpha/2}\) es el percentil \(1-\alpha/2\) de una distribución \(t\) con \(\nu\) grados de libertad.

Observaciones:

  • El estimador puntual es \(\bar{X}-\bar{Y}\).
  • El margen de error es \(t_{\nu,1-\alpha/2}\sqrt{\frac{S^2_{x}}{n_x}+\frac{S^2_{y}}{n_y}}\).
  • Este IC es apropiado si las poblaciones tienen distribución normal (sin importar los tamaños de muestra). Cuando las muestras son pequeñas, es importante que el analista se convenza de que es razonable suponer que las distribuciones de las dos poblaciones son por lo menos aproximadamente normales.
  • Este IC es apropiado si los tamaños de muestra son grandes (sin importar las distribuciones poblacionales), en cuyo caso la distribución \(t\) es aproximadamente equivalente a la distribución \(Z\).

2.3.1 Ejemplo

En el artículo Bactericidal Properties of Flat Surfaces and Nanoparticles Derivatized with Alkylated Polyethylenimines (J. Lin, S. Qiu y colaboradores, en Biotechnology Progress, 2002:1082-1086), se describen experimentos en los que se fijó polietileniminas alquiladas a superficies y a nanopartículas para hacerlas bactericidas. En una serie de experimentos, la eficiencia bactericida contra la bacteria E. coli fue comparada para un metilado contra un polímero no metilado. La media del porcentaje de células de bacterias muertas con el polímero metilado era de 95 con una desviación estándar de 1, y la media del porcentaje de células de bacterias muertas con el polímero no metilado era de 70 con una desviación estándar 6. Suponga que se hicieron cinco mediciones independientes para cada tipo de polímero. Determine un intervalo de confianza de 95% para el aumento en la eficiencia bactericida del polímero metilado. ¿Qué es indispensable suponer para construir este intervalo de confianza usando los métodos tradicionales?

2.3.2 Solución

Para facilitar el proceso, llamaremos a las observaciones del polímero metilado “X” y a las observaciones del polímero no metilado como “Y”. Tenemos que \(S_X=1\) y \(S_Y=6\), además:

\[n_X=5 \hspace{1cm} n_Y=5\hspace{1cm}\bar{X}=95\hspace{1cm}\bar{Y}=70\hspace{1cm}\alpha=0.05\] Por lo tanto, los grados de libertad están dador por:

\[ \nu=\frac{\left(\frac{s^2_{x}}{n_x}+\frac{s^2_{y}}{n_y} \right)^2 }{\frac{\left( \frac{s^2_{x}}{n_x}\right)^2}{n_x-1}+\frac{\left( \frac{s^2_{y}}{n_y}\right)^2 }{n_y-1}}= \frac{\left(\frac{1^2_{ }}{5}+\frac{6^2_{ }}{5} \right)^2 }{\frac{\left( \frac{1^2_{ }}{5}\right)^2 }{5-1}+\frac{\left( \frac{6^2_{ }}{5}\right)^2 }{5-1}}\approx 4 \] Los intervalos de confianza están dados por:

\[ t_{\nu,1-\alpha/2}=z_{4, 0.975}=2.776\\ \ \\ L_I=\bar{X}-\bar{Y}-t_{\nu,1-\alpha/2}\sqrt{\frac{S_x^2}{n_x}+\frac{S_y^2}{n_y}}=95-70-(2.776)\sqrt{\frac{1}{5}+\frac{36}{5}}=17.44725\\ \ \\ L_S=\bar{X}-\bar{Y}+t_{\nu,1-\alpha/2}\sqrt{\frac{S_x^2}{n_x}+\frac{S_y^2}{n_y}}=95-70+(2.776)\sqrt{\frac{1}{5}+\frac{36}{5}}=32.55275\\ \]

sd_x<-1
sd_y<-6
n_x<-5
n_y<-5
xbarra<-95
ybarra<-70
alpha<-0.05

nu<-as.integer(((sd_x^2)/n_x + (sd_y^2)/n_y)^2/(((sd_x^2)/n_x)^2/(n_x-1)+((sd_y^2)/n_y)^2/(n_y-1)))

t<-qt(1-(alpha/2), nu)


LI<-xbarra-ybarra-(t*sqrt((sd_x^2)/n_x + (sd_y^2)/n_y))
LS<-xbarra-ybarra+(t*sqrt((sd_x^2)/n_x + (sd_y^2)/n_y))


IC<-c(LI, LS)
IC
## [1] 17.44725 32.55275

3 Cociente de varianzas, \(\sigma^2_y/\sigma^2_x\)

  • En este caso, la significancia estadística se analiza por medio de la magnitud de los límites de los intervalos tomando como referencia a 1 (¿por qué?). ¿En qué casos se puede declarar que existen diferencias significativas entre \(\sigma^2_y\) y \(\sigma^2_x\)?

La variable aleatoria pivote está dada por:

\[ F=\cfrac{\frac{S^2_{x}}{\sigma_x^2}}{\frac{S^2_{y}}{\sigma_y^2}}\sim F_{n_x-1,n_y-1} \]

Así, el intervalo de confianza para \(\sigma^2_y/\sigma^2_x\), está dado por: \[ L_I=\frac{S^2_{y}}{S^2_{x}}F_{n_x-1,n_y-1,\alpha/2} \qquad\text{y}\qquad L_S=\frac{S^2_{y}}{S^2_{x}}F_{n_x-1,n_y-1,1-\alpha/2} \] donde \(F_{n_x-1,n_y-1,1-\alpha/2}\) es el percentil \(1-\alpha/2\) de una distribución \(F\) con \(n_x-1\) grados de libertad en el numerador y \(n_y-1\) grados de libertad en el denominador.

Observaciones:

  • El estimador puntual es \(\frac{S^2_{y}}{S^2_{x}}\).
  • Este IC es apropiado si las poblaciones tienen distribución normal (sin importar los tamaños de muestra). Cuando las muestras son pequeñas, es importante que el analista se convenza de que es razonable suponer que las distribuciones de las dos poblaciones son por lo menos aproximadamente normales.

3.1 Ejemplo

Media Metrix and Jupiter Communications recogieron datos sobre la cantidad de tiempo que pasan conectados a Internet, por mes, adultos y jóvenes (USA Today, 14 de septiembre de 2000). Se concluyó que, en promedio, los adultos pasan más tiempo conectados a Internet que los jóvenes. Para confirmar esto se realiza otro estudio para el que se toma una muestra de 26 adultos y otra de 30 jóvenes. Las desviaciones estándar de las cantidades de tiempo que pasan conectados a Internet son 94 y 58 minutos, respectivamente. ¿Estos resultados muestrales favorecen la conclusión de que en el caso de los adultos la variabilidad del tiempo que pasan conectados a Internet es mayor que en el caso de los jóvenes? Use una confiabilidad del 95%.

3.2 Solución

Llamaremos a las observaciones de los adultos como “X” y a las observaciones de los adolescentes como “Y”. Tenemos que \(S_X=94\) y \(S_Y=58\), además, \(n_X=26\), \(n_Y=30\) y \(\alpha=0.05\). Luego:

\[ L_I=\frac{S^2_{y}}{S^2_{x}}F_{n_x-1,n_y-1,\alpha/2}=\frac{58^2}{94^2}F_{26-1,30-1,0.025}=0.1738321\\ \ \\ L_S=\frac{S^2_{y}}{S^2_{x}}F_{n_x-1,n_y-1,1-\alpha/2}=\frac{58^2}{94^2}F_{26-1,30-1,0.975}=0.8154499 \]

Como 1 no pertenece al intervalo de confianza, existe evidencia estadística suficiente para afirmar que las varianzas de los dos grupos no son iguales.

sd_x<-94
sd_y<-58
n_x<-26
n_y<-30

alpha<-0.05

F1<-qf(alpha/2, n_x-1,n_y-1)
F2<-qf(1-(alpha/2), n_x-1,n_y-1)

LI<-(sd_y^2/sd_x^2)*F1
LS<-(sd_y^2/sd_x^2)*F2

IC<-c(LI, LS)
IC
## [1] 0.1738321 0.8154499

4 Diferencia de proporciones, \(\pi_x-\pi_y\)

Ahora, asumiremos que dentro de la población hay un partición que consta de dos subpoblaciones, \(X\sim Ber(\pi_x)\), la variable aleatoria de la primera subpoblación, y \(Y\sim Ber(\pi_y)\), la variable aleatoria de la segunda subpoblación, de las cuales se tienen las muestras aleatorias independientes \(X_1,\ldots,X_{n_x}\) y \(Y_1,\ldots,Y_{n_y}\), respectivamente.

En este caso, la significancia estadística se analiza por medio de los signos de los límites del intervalo de confianza para \(\pi_x-\pi_y\).

La variable aleatoria pivote está dada por:

\[Z=\frac{P_x-P_y-(\pi_x-\pi_y)}{\sqrt{\frac{P_x(1-P_x)}{n_x}+\frac{P_y(1-P_y)}{n_y}}}\sim N(0,1)\] donde \(P_x=\frac{1}{n_x}\sum_{i=1}^{n_x} X_i\) y \(P_y=\frac{1}{n_y}\sum_{i=1}^{n_y} Y_i\) son las proporciones muestrales.

Así, el intervalo de confianza para \(\pi_x-\pi_y\), está dado por: \[ L_I=P_x-P_y-z_{1-\alpha/2}\sqrt{\frac{P_x(1-P_x)}{n_x}+\frac{P_y(1-P_y)}{n_y}} \qquad\text{y}\qquad L_S=P_x-P_y+z_{1-\alpha/2}\sqrt{\frac{P_x(1-P_x)}{n_x}+\frac{P_y(1-P_y)}{n_y}} \] donde \(z_{1-\alpha/2}\) es el percentil \(1-\alpha/2\) de una distribución normal estándar.

Observaciones:

  • El estimador puntual es \(\bar{X}-\bar{Y}\).
  • El margen de error es \(z_{1-\alpha/2}\sqrt{\frac{P_x(1-P_x)}{n_x}+\frac{P_y(1-P_y)}{n_y}}\).
  • Este IC es apropiado si los tamaños de muestra son grandes.

4.1 Ejemplo

Los extractos de St. John’s Wort se utilizan ampliamente para tratar la depresión. Un artículo del número del 18 de abril de 2001 del Journal of the American Medical Association, títulado Effectiveness of St. John’s Wort on Major Depression: A Randomized Controlled Trial, comparó la eficacia de un extracto estándar de St. John’s Wort con un placebo en 200 pacientes diagnosticados de depresión mayor. Los pacientes fueron asignados aleatoriamente a dos grupos (50%/50%); un grupo recibió la hierba y el otro recibió el placebo. Después de 8 semanas, 19 de los pacientes tratados con placebo mostraron una mejoría y 27 de los tratados con St. John’s Wort mejoraron. ¿Existe alguna razón para creer que el tratamiento es eficaz para tratar la depresión mayor?

4.2 Solución

Llamaremos a las observaciones de los pacientes tratados con la hierba “X” y a las observaciones de los pacientes tratados con el placebo como “Y”. Tomaremos \(\alpha=0.05\)Tenemos que las proporciones están dadas por:

\[ P_x=\frac{27}{100}=0.27 \\ P_y=\frac{19}{100}=0.19 \\ z_{1-\alpha/2}=z_{0.975}=1.96 \\ \] Así, los intervalos de confianza están dados por:

\[ L_I=P_x-P_y-z_{1-\alpha/2}\sqrt{\frac{P_x(1-P_x)}{n_x}+\frac{P_y(1-P_y)}{n_y}}=0.27-0.19-1.96\sqrt{\frac{0.27(1-0.27)}{100}+\frac{0.19(1-0.19)}{100}}=-0.03611856 \\ \ \\ L_S=P_x-P_y+z_{1-\alpha/2}\sqrt{\frac{P_x(1-P_x)}{n_x}+\frac{P_y(1-P_y)}{n_y}}=0.27-0.19+1.96\sqrt{\frac{0.27(1-0.27)}{100}+\frac{0.19(1-0.19)}{100}}=0.19611856 \\ \]

Como 0 pertenece al intervalo de confianza, no existe evidencia estadística suficiente para afirmar que proporciones de los dos grupos no son iguales.

p_x<-0.27
p_y<-0.19
n_x<-100
n_y<-100

alpha<-0.05
z<-qnorm(1-(alpha/2))

LI<-p_x-p_y-(z*sqrt((p_x*(1-p_x))/n_x + (p_y*(1-p_y))/n_y))
LS<-p_x-p_y+(z*sqrt((p_x*(1-p_x))/n_x + (p_y*(1-p_y))/n_y))

IC<-c(LI, LS)
IC
## [1] -0.03611856  0.19611856