Estadística Inferencial

Clase 2.2
Estimación por intervalos de la media poblacional

Msc. Roberto Trespalacios

Universidad Tecnológica de Bolivar

2024-01-29

Tabla de contenido

  • Estimación por intervalos de la media poblacional
    • Intervalo de confianza para la media \(\mu\), \(\sigma^2\) conocida
    • Simulación de intervalos de confianza para la media \(\mu\), \(\sigma^2\) conocida
    • Intervalo de confianza para la media \(\mu\), \(\sigma^2\) desconocida y \(n\) pequeño (\(n < 30\))
    • Ejemplos
    • Ejercicios

Intervalo de confianza para la media \(\mu\), \(\sigma^2\) conocida

El método general para construir intervalos de confianza es el siguiente llamado método del pivote:

Supongamos el siguiente caso particular. Sea \(x_1, x_2,\dots, x_n\), una muestra aleatoria de tamaño \(n\) de una variable aleatoria \(X\), tal que,

\[X \rightarrow N(\mu,\sigma^2)\]

Sea \(\sigma^2\) conocido. Queremos construir un intervalo de confianza para el parámetro \(\mu\) con un nivel de confianza de \(1-\alpha\) y significancia \(\alpha\).

Intervalo de confianza para la media \(\mu\), \(\sigma^2\) conocida

  1. Tomamos un estimador puntual de \(\mu\), sabemos que un buen estimador es \(\bar{x}\).
  2. Apartir de \(\bar{x}\), construimos el estadístico \(Z\), estandarizado; es decir:

\[Z = \frac{\bar{x} - \mu}{\frac{\sigma}{\sqrt{n}}}\] \(Z\) será el “pivote”. Notemos que el “pivote” tiene el verdadero valor del parámetro \(\mu\); además, que bajo las condiciones dadas, se tiene que:

\[Z = \frac{\bar{x} - \mu}{\frac{\sigma}{\sqrt{n}}} \rightarrow N(0,1)\]

  1. Puesto que conocemos la distribución de \(Z\), podemos plantear lo siguiente: hallar un número \(z\) tal que:

\[p(-z_{\frac{\alpha}{2}} \leqslant Z \leqslant z_{\frac{\alpha}{2}}) = 1-\alpha\] Es decir,

\[p(-z_{\frac{\alpha}{2}} \leqslant \frac{\bar{x} - \mu}{\frac{\sigma}{\sqrt{n}}} \leqslant z_{\frac{\alpha}{2}}) = 1-\alpha\] Despejando \(\mu\) en el interior de la probabilidad, vemos que

\[p(\bar{x}-z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}} \leqslant \mu \leqslant \bar{x} + z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}}) = 1-\alpha\]

Intervalo de confianza para la media \(\mu\), \(\sigma^2\) conocida

De lo anterior, podemos concluir que un intervalo de confianza para la media \(\mu\), con varianza \(\sigma^2\) conocida y con nivel de confianza de \(1-\alpha\) es:

\[\boldsymbol{\large{\left(\bar{x}-z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}, \bar{x} + z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}} \right)}}\]

Observación: al valor \(\varepsilon = z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}}\), se le llama el error del intervalo.

Ejemplo 1

La variable \(X\) representa el precio (en miles de euros) de la vivienda de alquiler en Madrid, la cual se distribuye normal, con media desconocida \(\mu\) y varianza conocida \(\sigma^2 = 25\). Se quiere construir un intervalo de confianza para la media \(\mu\) del precio; para esto, se toma una muestra aleatoria de 40 viviendas y se optiene una media muestral de \(\bar{x}= 82.5\). Calcule un intervalo de confianza al 95%.

Solución

  1. Nivel de confianza: \(1-\alpha= 0.95\), luego, \(\alpha = 0.05\) y \(\frac{\alpha}{2}=0.025\), así, \(z_{\frac{\alpha}{2}}=z_{0.05}=1.96\); y por simetría, la región de confianza es:

  1. Elección del estadístico. \(Z = \frac{\bar{x}-\mu}{\frac{\sigma}{\sqrt{n}}} \sim N(0, 1)\)
  2. Planteamiento del enunciado probabilístico.

\[p\left(-1.96 < \frac{\bar{x}-\mu}{\frac{\sigma}{\sqrt{n}}} <1.96\right)=0.95\]

Es decir,

\[p\left(\bar{x} -1.96 \frac{\sigma}{\sqrt{n}} < \mu < \bar{x} + 1.96\frac{\sigma}{\sqrt{n}}\right)=0.95\] 4. Reemplazando los valores de cada parámetro y del estadístico, se tiene que intervalo al 95% de confianza para \(\mu\) es:

\[ \begin{align*} & \left(82.5 -1.96 \frac{5}{\sqrt{40}} , 82.5 + 1.96 \frac{5}{\sqrt{40}}\right) \\ &= (80.95, 84.04) \end{align*} \]

  1. Conclusión: con una confianza del 95%, el precio medio del alquiler en Madrid se encuentra en el intervalo \((80.95, 84.04)\) miles de euros.

Solución en R

Construyendo el código

Code
n = 40    # El tamaño de la muestra
xbar = 82.5 # la media muestral
sd = sqrt(25)   # La desviación estándar poblacional
nivel_conf = 0.95 # nivel de confianza

error.est = sd/sqrt(n) # Calculamos el error estándar
error = qnorm(0.975, mean=0, sd=1) * error.est # error del intervalo

Linf <- xbar - error # Limite inferior del intervalo
Lsup <- xbar + error # Limite superior del intervalo

cat("Un intervalo de confianza para \U03BC, al 95% es: (",round(Linf,4), "," , round(Lsup,4),")")

Usando la librería BSDA

Code
library(BSDA)

zsum.test(mean.x = 82.5, 
          sigma.x = 5, 
          n.x = 40, 
          conf.level = 0.95)

Simulación de intervalos de confianza para la media \(\mu\), \(\sigma^2\) conocida

Sea \(X\) = “Estatura de los hombres en Colombia”. Supongamos que \(X \rightarrow N(\mu =172,\sigma^2 = 6.25)\). Veamos una simulación para el problema de los intervalos de confianza bajo estos supuestos. Los pasos a seguir son lo siguientes.

  1. Generemos 100 muestras de tamaño \(n=5000\), de la variable \(X\) de la población, donde \(X \rightarrow N(\mu =172,\sigma^2 = 6.25)\)).
  2. Para cada una de estas 100 muestras, calcule lo siguiente:
    • Media \(\bar{x}\)
    • Sesgo absoluto \(|\bar{x} - \mu|\)
    • Error estándar \(SE = \frac{\sigma}{\sqrt{n}}\)
    • Límites inferior y superior del intervalo de confianza al 90%
  3. Cree un gráfico de los 100 intervalos generados.

Solución

  1. Para la variable \(X\), generemos 100 muestras de tamaño \(n=5000\) de la población \(X \rightarrow N(\mu = 172,\sigma^2 = 6.25)\)
Code
#set.seed(1234)

library(magrittr)
library(knitr)
library(kableExtra)
require(plyr)
require(ggplot2)

n = 5000
mu = 172
sigma = sqrt(6.25)
muestras <- rlply(100, rnorm(n, mean = mu, sd = sigma))
  1. Para cada muestra, encontremos Media, Sesgo absoluto, Error estándar, límites inferior y superior del intervalo de confianza.
Code
info <- function(x){ 
  M <- mean(x)
  DF <- length(x) - 1
  SE <- sigma/ sqrt(length(x))
  INT <- qt(.95, DF) * SE
  return(c(M, M - mu, SE, M - INT, M + INT))
}

formato <- c("Media" = 0, "Sesgo" = 0, "Err.Est" = 0, "Linf" = 0, "Lsup" = 0)
resultados <- muestras %>%
  vapply(., info, formato) %>%
  t()

Solución

Ahora veamos cuales intervalos contienen la media poblacional \(\mu\)

Code
resultados <- resultados %>%
  as.data.frame() %>%
  mutate(Contiene  = Linf < mu & mu < Lsup)

media_contiene = mean(resultados$Contiene)
resultados$Contiene = ifelse(resultados$Contiene == TRUE, "Si", "No")

resultados %>% 
  kable %>%
  kable_styling("striped", full_width = F) %>% 
 scroll_box(width = "1500px", height = "400px")
Media Sesgo Err.Est Linf Lsup Contiene
172.0536 0.0535764 0.0353553 171.9954 172.1117 Si
171.9632 -0.0367881 0.0353553 171.9050 172.0214 Si
171.9427 -0.0572783 0.0353553 171.8846 172.0009 Si
172.0018 0.0018364 0.0353553 171.9437 172.0600 Si
172.0477 0.0476910 0.0353553 171.9895 172.1059 Si
171.9843 -0.0157030 0.0353553 171.9261 172.0425 Si
172.0378 0.0377641 0.0353553 171.9796 172.0959 Si
171.9507 -0.0493354 0.0353553 171.8925 172.0088 Si
172.0120 0.0119608 0.0353553 171.9538 172.0701 Si
171.9827 -0.0173309 0.0353553 171.9245 172.0408 Si
172.0339 0.0339402 0.0353553 171.9758 172.0921 Si
172.0352 0.0352200 0.0353553 171.9771 172.0934 Si
172.0015 0.0014596 0.0353553 171.9433 172.0596 Si
172.0489 0.0488644 0.0353553 171.9907 172.1070 Si
172.0085 0.0085187 0.0353553 171.9504 172.0667 Si
171.9540 -0.0459766 0.0353553 171.8959 172.0122 Si
172.0191 0.0190646 0.0353553 171.9609 172.0772 Si
171.9761 -0.0239049 0.0353553 171.9179 172.0343 Si
172.0234 0.0233686 0.0353553 171.9652 172.0815 Si
172.0077 0.0077423 0.0353553 171.9496 172.0659 Si
171.9841 -0.0158523 0.0353553 171.9260 172.0423 Si
172.0783 0.0783313 0.0353553 172.0202 172.1365 No
171.9870 -0.0129811 0.0353553 171.9289 172.0452 Si
171.9770 -0.0230251 0.0353553 171.9188 172.0351 Si
171.9967 -0.0033308 0.0353553 171.9385 172.0548 Si
172.0507 0.0507479 0.0353553 171.9926 172.1089 Si
171.9540 -0.0460024 0.0353553 171.8958 172.0122 Si
171.9828 -0.0171910 0.0353553 171.9246 172.0410 Si
171.9475 -0.0525370 0.0353553 171.8893 172.0056 Si
172.0429 0.0428995 0.0353553 171.9847 172.1011 Si
172.0207 0.0207047 0.0353553 171.9625 172.0789 Si
171.9835 -0.0164820 0.0353553 171.9254 172.0417 Si
172.0062 0.0061545 0.0353553 171.9480 172.0643 Si
172.0498 0.0498376 0.0353553 171.9917 172.1080 Si
172.0710 0.0710128 0.0353553 172.0128 172.1292 No
172.0007 0.0006774 0.0353553 171.9425 172.0588 Si
172.0000 0.0000240 0.0353553 171.9419 172.0582 Si
171.9827 -0.0172736 0.0353553 171.9246 172.0409 Si
172.0142 0.0142351 0.0353553 171.9561 172.0724 Si
171.9836 -0.0164480 0.0353553 171.9254 172.0417 Si
172.0563 0.0562552 0.0353553 171.9981 172.1144 Si
171.9679 -0.0321249 0.0353553 171.9097 172.0260 Si
172.0075 0.0075425 0.0353553 171.9494 172.0657 Si
171.9351 -0.0649139 0.0353553 171.8769 171.9933 No
171.9750 -0.0249695 0.0353553 171.9169 172.0332 Si
172.0175 0.0175187 0.0353553 171.9594 172.0757 Si
171.9900 -0.0099975 0.0353553 171.9318 172.0482 Si
172.0097 0.0097416 0.0353553 171.9516 172.0679 Si
172.0003 0.0003469 0.0353553 171.9422 172.0585 Si
172.0194 0.0194323 0.0353553 171.9613 172.0776 Si
171.9715 -0.0284771 0.0353553 171.9134 172.0297 Si
172.0426 0.0426057 0.0353553 171.9844 172.1008 Si
172.0565 0.0565443 0.0353553 171.9984 172.1147 Si
171.9979 -0.0021141 0.0353553 171.9397 172.0561 Si
171.9785 -0.0215261 0.0353553 171.9203 172.0366 Si
172.0229 0.0228520 0.0353553 171.9647 172.0810 Si
171.9465 -0.0535011 0.0353553 171.8883 172.0047 Si
172.0060 0.0060452 0.0353553 171.9479 172.0642 Si
171.9124 -0.0875685 0.0353553 171.8543 171.9706 No
172.0282 0.0282210 0.0353553 171.9701 172.0864 Si
171.9559 -0.0441291 0.0353553 171.8977 172.0140 Si
172.0611 0.0610647 0.0353553 172.0029 172.1192 No
172.0022 0.0021723 0.0353553 171.9440 172.0603 Si
171.9807 -0.0193384 0.0353553 171.9225 172.0388 Si
172.0217 0.0216562 0.0353553 171.9635 172.0798 Si
172.0015 0.0014681 0.0353553 171.9433 172.0596 Si
172.0274 0.0273937 0.0353553 171.9692 172.0856 Si
171.9851 -0.0149419 0.0353553 171.9269 172.0432 Si
172.0190 0.0190401 0.0353553 171.9609 172.0772 Si
172.0202 0.0202020 0.0353553 171.9620 172.0784 Si
172.0034 0.0034386 0.0353553 171.9453 172.0616 Si
172.0359 0.0358779 0.0353553 171.9777 172.0940 Si
171.8855 -0.1144688 0.0353553 171.8274 171.9437 No
171.9768 -0.0231551 0.0353553 171.9187 172.0350 Si
171.9856 -0.0144487 0.0353553 171.9274 172.0437 Si
171.9932 -0.0068399 0.0353553 171.9350 172.0513 Si
172.0358 0.0358065 0.0353553 171.9776 172.0940 Si
171.9796 -0.0204280 0.0353553 171.9214 172.0377 Si
171.9969 -0.0030801 0.0353553 171.9388 172.0551 Si
171.9492 -0.0507507 0.0353553 171.8911 172.0074 Si
171.9992 -0.0007547 0.0353553 171.9411 172.0574 Si
171.9948 -0.0051832 0.0353553 171.9367 172.0530 Si
172.0149 0.0148508 0.0353553 171.9567 172.0730 Si
171.9938 -0.0062227 0.0353553 171.9356 172.0519 Si
172.0549 0.0548963 0.0353553 171.9967 172.1131 Si
171.9908 -0.0091971 0.0353553 171.9326 172.0490 Si
171.9765 -0.0234877 0.0353553 171.9183 172.0347 Si
171.9963 -0.0036895 0.0353553 171.9381 172.0545 Si
171.9871 -0.0128859 0.0353553 171.9289 172.0453 Si
171.9002 -0.0997741 0.0353553 171.8421 171.9584 No
172.0672 0.0671640 0.0353553 172.0090 172.1253 No
171.9854 -0.0146216 0.0353553 171.9272 172.0435 Si
172.0635 0.0635381 0.0353553 172.0054 172.1217 No
171.9876 -0.0123759 0.0353553 171.9295 172.0458 Si
172.0200 0.0199724 0.0353553 171.9618 172.0781 Si
172.0155 0.0155276 0.0353553 171.9574 172.0737 Si
172.0374 0.0373967 0.0353553 171.9792 172.0956 Si
172.0050 0.0050239 0.0353553 171.9469 172.0632 Si
172.0361 0.0361198 0.0353553 171.9780 172.0943 Si
172.0602 0.0601923 0.0353553 172.0020 172.1184 No

La proporción de intervalos que contienen el valor real de la media poblacional \(\mu\).

Code
media_contiene
[1] 0.9

Solución

  1. Gráfico de los 100 intervalos de confianza, al 90%.
Code
ggplot(resultados, aes(y=Media, x=1:100)) + 
  geom_segment(aes(x = -2, xend = 102, y = 172, yend = 172), color = "darkblue", size = 1.2)+
  geom_pointrange(aes(ymin = resultados$Linf, ymax = resultados$Lsup, color = Contiene), size = 0.6) + 
  scale_color_manual(values=c("#57D871", "#EA3046"),
                     name="Contiene \U03BC",
                     breaks=c("Si", "No"),
                     labels=c("Si", "No")) +
  geom_text(x=-4, y=172, label="\U03BC", size= 10) + 
  labs(title = "Intervalo al 90% de Confianza\npara la media poblacional \U03BC",
       x = "Simulación  1-100", 
       y = "(\U0078\U0304 - \U03B5, \U0078\U0304 + \U03B5)")+
  theme(plot.title = element_text(hjust = 0.5), text=element_text(size=22))

Intervalo de confianza para la media \(\mu\), \(\sigma^2\) desconocida y \(n\) pequeño (\(n < 30\))

Análogamente, del análisis anterior, si cambiamos \(\sigma\) por \(s\) y \(Z_{\frac{\alpha}{2}}\) por \(t_{(n-1,\frac{\alpha}{2})}\), encontramos un intervalo de confianza para la media \(\mu\), con varianza \(\sigma^2\) desconocida, \(n\) pequeño (\(n <30\)) y con nivel de confianza de \(1-\alpha\) es:

\[\boldsymbol{\large{\left(\bar{x}-t_{(n-1,\frac{\alpha}{2})}\frac{s}{\sqrt{n}}, \bar{x} + t_{(n-1,\frac{\alpha}{2})} \frac{s}{\sqrt{n}} \right)}}\]

Observación: al valor \(\varepsilon = t_{(n-1,\frac{\alpha}{2})} \frac{s}{\sqrt{n}}\), se le llama el error del intervalo.

Ejemplo 2

Se hicieron 10 mediciones sobre la resistencia de cierto tipo de alambre y se encontró una media de 10.48 ohms y una desviación estandar de 1.36 ohms. Si se sabe que la resistencia del alambre sigue una distribución normal, calcule un intervalo de confianza para la media poblacional del alambre, usando un 90% de nivel de confianza.

Solución

  1. Nivel de confianza: \(1-\alpha= 0.90\), luego, \(\frac{\alpha}{2}=0.05\), así, \(t_{(n-1,\frac{\alpha}{2})}=t_{(9,0.05)}=1.83\)
  2. Elección del estadístico: \(t = \frac{\bar{x}-\mu}{\frac{s}{\sqrt{n}}}\)
  3. El intervalo: \(\left(\bar{x} -1.83 \frac{s}{\sqrt{n}} , \bar{x} + 1.83\frac{s}{\sqrt{n}}\right)\)
  4. Reemplazando los valores, tenemos que,

\[ \begin{align*} & \left(10.48 -1.83 \frac{1.36}{\sqrt{10}} , 10.48 + 1.83 \frac{1.36}{\sqrt{10}}\right) \\ &= (9.69, 11.27) \end{align*} \]

  1. Conclusión: con una confianza del 90%, la resistencia media del alambre se encuentra en el intervalo \((9.69, 11.27)\) ohms.

Usando la librería BSDA

Code
library(BSDA)

tsum.test(mean.x = 10.48, 
          s.x = 1.36, 
          n.x = 10, 
          conf.level = 0.90)

Ejemplo 3

La edad de los alumnos que el año pasado se matricularon en alguno de los cursos de verano de la Universidad Tecnológica de Bolivar sigue una distribución normal con desviación típica de 7 años. Una muestra aleatoria de 150 alumnos ha dado como resultado una edad media de 23.4 años.

  1. Obtener el intervalo de confianza del 94% para la media de edad de todos los matriculados.
  2. ¿Cuál es el tamaño mínimo que debe tener la muestra si deseamos que el error cometido al estimar la media con un nivel de confianza del 92% sea de 0.5?

Ejercicios

  1. De una población normalmente distribuida, se selecciona una muestra aleatoria simple de tamaño 25, encontrando que el promedio y la desviación estandar de la muestra son: 108 y 10, respectivamente.

    1. ¿Cuál es el margen de error para un intervalo al nivel de confianza del 98%?
    2. Encuentre los límites superior e inferior para construir un intervalo de confianza para el inciso a.
    3. ¿Cuál es el intervalo de confianza de acuerdo a los incisos a. y b.
    4. Construya un intervalo de confianza al 95% para la media.
    5. Construya un intervalo de confianza al 90% para la media.
    6. Compare sus resultados en c., d. y e. ¿Qué sucede con el margen de error cuando se disminuye el nivel de confianza?
  2. Las puntuaciones en un test que mide la variable creatividad siguen, en la población general de adolescentes siguen una distribución normal. En un centro escolar que ha implantado un programa de estimulación de la creatividad una muestra de 20 alumnos ha proporcionado las siguientes puntuaciones:

    11, 9, 12, 17, 8, 11, 9, 4, 5, 9, 14, 9, 17, 24, 19, 10, 17, 17, 8, 23

    A un nivel de confianza del 95%, calcule un intervalo de confianza para la puntuación media del test. Interprete el resultado.

Ejercicios

  1. Se estima que el tiempo de reacción a un estímulo de cierto dispositivo electrónico está distribuido normalmente con desviación estándar de 0.05 segundos. ¿Cuál es el número de mediciones temporales que deberá hacerse para que la confianza de que el error de la estimación de la esperanza no exceda de 0.01 sea del 95%?