Estadística Inferencial

Clase 2.7
Estimación por intervalos para la diferencia de proporciones poblacionales

Msc. Roberto Trespalacios

Universidad Tecnológica de Bolivar

2024-01-29

Tabla de contenido

  • Estimación por intervalos para la diferencia de proporciones poblacionales
    • Distribución de la diferencia de proporciones poblacionales
    • Construcción de un intervalo de confianza para la diferencia de dos proporciones \(p_1-p_2\)
    • Ejemplos
    • Ejercicios

Distribución de la diferencia de proporciones poblacionales

Vamos a considerar que tenemos dos poblaciones de modo que en cada una de ellas estudiamos las v.a. dicotómicas (Bernoulli) \(X_{1i}\) y \(X_{2i}\), de parámetros respectivos \(p_1\) y \(p_2\). De cada población vamos a extraer muestras de tamaño \(n_1\) y \(n_2\), es decir,

\[\begin{align*} X_{1} & = \{X_{11},X_{12},\dots,X_{1n_1}\}\\ X_{2} & = \{X_{21},X_{22},\dots,X_{2n_2}\} \end{align*}\]

entonces \(X_{1}\) y \(X_{2}\), la suma de las variables Bernoulli, son v.a con distribución Binomial, esto es:

\[\begin{align*} X_1 =& \sim \sum_{i=1}^{n_1} X_{1i} \sim Bin(n_1,p_1)\\ X_2 =& \sim \sum_{i=1}^{n_2} X_{2i} \sim Bin(n_2,p_2) \end{align*}\]

Distribución de la diferencia de proporciones poblacionales

De lo anterior, si las muestras son suficientemente grandes, tenemos que:

  • \(np \geqslant 5\)
  • \(np(1-p) \geqslant 5\)

por lo tanto

\[ \hat{p}_1-\hat{p}_2=\frac{X_1}{n_1}-\frac{X_2}{n_2} \sim N\left(p_1-p_2,\frac{\hat{p}_1(1-\hat{p}_1)}{n_1}+\frac{\hat{p}_2(1-\hat{p}_2)}{n_2} \right) \]

Por el Teorema del límite central, si se extraen muestras grandes, aleatorias y de tamaño \(n_1\) y \(n_2\), entonces, se tiene que:

\[ Z = \frac{(\hat{p}_1-\hat{p}_2) - (p_1-p_2)}{\sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1}+\frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}} \sim N(0,1) \]

Construcción de un intervalo de confianza para la diferencia de dos proporciones \(p_1-p_2\)

Por el mismo razonamiento que en el caso de una población, \(Z\) es un “pivote” para la probabilidad del \(1-\alpha\) y así, llegamos a que un intervalo de confianza al nivel \(1-\alpha\) para la diferencia de proporciones de dos poblaciones (\(p_1-p_2\)) es:

\[ \boldsymbol{\left((\hat{p}_1 - \hat{p}_2)- z_{\frac{\alpha}{2}}\sqrt{\frac{\hat{p}_1\hat{q}_1}{n_1}+\frac{\hat{p}_2\hat{q}_2}{n_2}}, (\hat{p}_1 - \hat{p}_2)+z_{\frac{\alpha}{2}}\sqrt{\frac{\hat{p}_1\hat{q}_1}{n_1}+\frac{\hat{p}_1\hat{q}_2}{n_2}}\right)} \]

donde

  • \(\hat{q}_1=1-\hat{p}_1\)
  • \(\hat{q}_2=1-\hat{p}_2\)

Ejemplo 1

Se desean comparar las proporciones de ranas pipiens que se encuentran en dos regiones independientes de México. Para dar una estimación se ha tomado una muestra de 80 ranas observando que 5 de ellas son de este tipo en la zona A, habiendo 8 de 100 en la zona B. Hallar un intervalo de confianza al nivel de confianza del 95% para la diferencia de proporciones de ranas pipiens y luego interpretelo.

Solución en R

Construyendo el código

Code
n1 = 80
n2 = 100
X1 = 5
X2 = 8

phat1 = X1/n1
phat2 = X2/n2
alpha = 0.05

zalpha = qnorm(alpha/2, mean = 0, sd = 1, lower.tail = F)
varp1 = phat1*(1-phat1)
varp2 = phat2*(1-phat2)

Li = phat1 - phat2 - zalpha*sqrt(varp1/n1 + varp2/n2)
Ls = phat1 - phat2 + zalpha*sqrt(varp1/n1 + varp2/n2)

cat("Un intervalo de confianza al 95% para la diferencia de proporciones \nde ranas pipens en las zonas A y B, es:", "(", Li, ",", Ls, ")")
Un intervalo de confianza al 95% para la diferencia de proporciones 
de ranas pipens en las zonas A y B, es: ( -0.09260581 , 0.05760581 )

En R usando la librería BSDA

Code
library(BSDA)

zsum.test(mean.x = phat1, mean.y = phat2, 
          sigma.x = sqrt(phat1*(1-phat1)), sigma.y = sqrt(phat2*(1-phat2)),  
          n.x =80, n.y =100, 
          conf.level = 0.95)

    Two-sample z-Test

data:  Summarized x and y
z = -0.45668, p-value = 0.6479
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.09260581  0.05760581
sample estimates:
mean of x mean of y 
   0.0625    0.0800 

Ejemplo 2

Basado en la investigación publicada por Robert Rutledge, MD, y sus colegas en Annals of Surgery (1993), sobre accidentes automovilísticos, en el cual 1916 casos los individuos no usaron el cinturón de seguridad y 135 de ellos murieron. Por otro lado, en el otro estudio, en 1490 de los casos, los individuos usaron el cinturón de seguridad y 47 de ellos fallecieron. Pruebe la hipótesis de que la proporción de casos que terminaron con muertos es la misma para los grupos sin cinturón de seguridad y con cinturón de seguridad.

Ejemplo 3

Se cree que la osteoporosis está relacionada con el sexo. Para ello se elige una muestra de 100 hombres de más de 50 años y una muestra de 200 mujeres en las mismas condiciones. Se obtiene que 10 hombres y 40 mujeres con algún grado de osteoporosis. ¿Qué podemos concluir si calculamos un intervalo de confianza para la diferencia de proporciones de hombres y mujeres con osteoporosis al 95%?