Estadística Inferencial

Clase 2.6
Estimación por intervalos para una proporción poblacional

Msc. Roberto Trespalacios

Universidad Tecnológica de Bolivar

2024-01-29

Tabla de contenido

  • Estimación por intervalos para una proporción poblacional
    • La proporción \(p\) de una población
    • Distribución muestral de proporciones
    • Aproximando la distribución binomial a una distribución normal
    • Construcción de un intervalo para la proporción poblacional
    • Ejemplos
    • Ejercicios

La proporción \(p\) de una población

En ocasiones NO estamos interesados en conocer la media \(\mu\) de una población, sino, en la proporción de individuos que satisfacen una condición dada en esa población.

  • Es decir, nos intereza saber el valor del cociente del número de individuos que satisfacen una condición, dividido por el tamaño de la población. Asi:

\[p=\frac{X}{n}\]

donde \(X\) es el valor del número de individuos que cumplen la condición.

Como ya hemos visto anteriormente, lo usual es trabajar con muestras y no con la población. Por lo tanto, vamos a estudiar cuál es el comportamiento de la distribución de las muestras de proporciones en una población.

Distribución muestral de proporciones

La distribución de la proporción de muestras, se genera de igual manera que la distribución muestral de medias; con la diferencia de que al extraer las muestras de la población se calcula el estadístico llamado proporción muestral \(\hat{p}\) (\(p\) gorro).

para cada muestra de la población, encontramos

\[\hat{p} = \frac{X_1+X_2+\dots +X_n}{n}\]

donde

  • \(X_i\): es 1, si es éxito, o 0 si es fracaso.
  • \(n\): el tamaño de la muestra.

Veamos a continuación dos distribuciones que dan sustento al cálculo de la estimación de la media y varianza de la distribución de proporciones muestrales, que son útiles para la resolución de problemas de probabilidad.

Aproximando la distribución binomial a una distribución normal

Sea \(X\) una variable aleatoria de una población, con distribución \(Bin(n,p)\) entonces:

  • La media del número de éxitos en la población es: \(\mu_p = np\)
  • Su varianza es: \(\sigma^2_p = np(1-p)\)

Si seleccionamos una muestra de tamaño \(n\), entonces la distribución de la proporción muestral \(\hat{p}\) tiene

  • Media: \(\mu_\hat{p} = n\hat{p}\)
  • Varianza: \(\sigma^2_\hat{p} = \frac{\hat{p}(1-\hat{p})}{n}\)

Por el Teorema del límite central, si se extraen muestras grandes, aleatorias, y de tamaño \(n\), entonces, se tiene que:

\[Z=\frac{\hat{p}-p}{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}} \sim N(0,1)\] Siempre que se cumpla siguiente condición:

  • \(np\geqslant 5\)
  • \(n(1-p) \geqslant 5\)

Construcción de un intervalo para la proporción poblacional

De lo anterior, vemos que \(Z=\frac{\hat{p}-p}{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}}\) es un “pivote” para el intervalo del \((1-\alpha)\%\). Por lo tanto,

\[p \left(-z_{\frac{\alpha}{2}} \leqslant \frac{\hat{p}-p}{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}} <z_{\frac{\alpha}{2}} \leqslant\right) = 1-\alpha\]

Despejando el parámetro \(p\) dentro de la probabilidad, tenemos,

\[p \left(\hat{p}-z_{\frac{\alpha}{2}}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leqslant p \leqslant \hat{p} + z_{\frac{\alpha}{2}}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \right) = 1-\alpha\]

Nuestro intervalo de confianza será:

\[\boldsymbol{\left(\hat{p}-z_{\frac{\alpha}{2}}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}, \hat{p} + z_{\frac{\alpha}{2}}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \right)}\]

Ejemplo 1

En una encuesta realizada a 1007 adultos de 18 a 74 años residentes de una ciudad, se encontró que la prevalencia de fumadores era de 368. Construya un intervalo de confianza del 90% para la proporción de fumadores y luego, interprete el intervalo.

Solución

Del problema, tenemos que:

  • \(n=1007\) y \(X=368\) y \(\hat{p} = \frac{368}{1007} = 0.365\)
  • \(1-\alpha = 0.95\), luego, \(z_{\frac{\alpha}{2}} = z_{0.025}= 1.95\)

Verifiquemos las condiciones

  • \(n\hat{p}\geqslant 5 \Rightarrow 1007 \frac{368}{1007} = 368 > 5\) \(\quad\) y \(\quad\) \(n(1-p) \geqslant 5 \Rightarrow 1007 \left(1-\frac{368}{1007}\right) = 639 > 5\)

El intervalo es:

\[\boldsymbol{\left(\hat{p}-z_{\frac{\alpha}{2}}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}, \hat{p} + z_{\frac{\alpha}{2}}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \right)\\ = \left(0.365-1.95\sqrt{\frac{0.365(1-0.365)}{1007}}, 0.365 + 1.95\sqrt{\frac{0.365(1-0.365)}{1007}} \right)\\ = (0.335, 0.395)} \]

Solución en R

Construyendo el código

Code
n = 1007
X = 368
phat = X/n
alpha = 0.05

zalpha = qnorm(alpha/2, mean = 0, sd = 1, lower.tail = F)
varp = phat*(1-phat)

Li = phat - zalpha*sqrt(varp/n)
Ls = phat + zalpha*sqrt(varp/n)

cat("Un intervalo de confianza al 95% para la proporción de fumadores \nen la población de adultos entre 18 a 74 años, es:", "(", Li, ",", Ls, ")")
Un intervalo de confianza al 95% para la proporción de fumadores 
en la población de adultos entre 18 a 74 años, es: ( 0.3356994 , 0.3951845 )

En R usando la librería BSDA

Code
library(BSDA)

zsum.test(mean.x = phat, sigma.x = sqrt(phat*(1-phat)),  n.x =1007, conf.level = 0.95)

    One-sample z-Test

data:  Summarized x
z = 24.082, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
 0.3356994 0.3951845
sample estimates:
mean of x 
0.3654419 

Ejemplo 2

En una muestra aleatoria de 300 personas mayores de edad de una ciudad, se obtuvo que 105 están a favor de un determinado partido de dos equipos locales. Halle un intervalo de confianza del 95% para la proporción de personas a favor del partido. Interprete el intervalo.

Ejercicios

  1. La Escuela de Adiestramiento Canino de Dundee tiene una proporción mayor que el promedio de clientes que compiten en eventos profesionales. Se construye un intervalo de confianza para la proporción poblacional de perros que compiten en eventos profesionales de 150 escuelas de adiestramiento diferentes. El límite inferior se determina en 0.08 y el superior en 0.16. Determine el nivel de confianza utilizado para construir el intervalo de la proporción poblacional de perros que compiten en eventos profesionales.

  2. Una cadena de TV quiere saber si la audiencia de uno de sus programas sigue manteniéndose en el 25% de los espectadores. Para esto, realiza una encuesta y encuetra que 573 de los 2570 encuestados siguen fielas al programa de TV. Construya un intervalo de confianza para verificar si en efecto los televidentes siguen en el 25%. ¿Qué concluye?

  3. Supongamos que se contrata a una compañía de estudios de mercado para que estime el porcentaje de adultos que viven en una gran ciudad y que tienen teléfonos móviles. Se encuestan quinientos residentes adultos seleccionados al azar en esta ciudad para determinar si tienen teléfonos móviles. De las 500 personas incluidas en la muestra, 421 respondieron que sí: tienen teléfonos móviles. Utilizando un nivel de confianza del 95%, calcule una estimación del intervalo de confianza para la verdadera proporción de residentes adultos de esta ciudad que tienen teléfonos móviles.