La variable de estudio \(X\) es el costo anual de un seguro para automovil. Se sabe que \(\mu_X = 939\) y \(\sigma_X = 245\). Se pide calcular \[ p=P(|\bar{X} - \mu_X| < 25) = P(-25 < \bar{X} - \mu_X < 25) \] para varios tamaños de muestra.
Estandarizando, se tiene que \[ \begin{align*} p &= P(-25/(245/\sqrt{n})<Z<25/(245/\sqrt{n})) \\ &= \Phi(25/(245/\sqrt{n})) - \Phi(-25/(245/\sqrt{n})) \end{align*} \] donde \(\Phi(\cdot)\) es la función de distribución acumulada de la distribución Normal estándar, dado que \[ Z=\frac{\bar{X}-\mu_X}{245/\sqrt{n}}\sim\textsf{N}(0,1) \] para tamaños de muestra grandes (se se sabe si \(X\) tiene distribución Normal o no).
A continuación se calcula esta probabilidad para \(n\in\{30,50,100,400\}\):
tab <- matrix(data = NA, nrow = 1, ncol = 4)
tab[1] <- pnorm(q = 25/(245/sqrt(30 ))) - pnorm(q = -25/(245/sqrt(30 )))
tab[2] <- pnorm(q = 25/(245/sqrt(50 ))) - pnorm(q = -25/(245/sqrt(50 )))
tab[3] <- pnorm(q = 25/(245/sqrt(100))) - pnorm(q = -25/(245/sqrt(100)))
tab[4] <- pnorm(q = 25/(245/sqrt(400))) - pnorm(q = -25/(245/sqrt(400)))
colnames(tab) <- paste0("n=",c(30,50,100,400))
rownames(tab) <- c("p")
print(round(tab, 4))
## n=30 n=50 n=100 n=400
## p 0.4238 0.5294 0.6925 0.9587
A continuación se presentan las distribuciones asociadas con \(\bar{X}\) para cada tamaño de muestra, dado que \(\bar{X}\approx\textsf{N}(\mu_X,\sigma_X^2/n)\) cuando \(n\) es grande:
mu <- 939
sigma <- 245
curve(expr = dnorm(x, mean = mu, sd = sigma/sqrt(400)), from = mu-3*sigma/sqrt(30), to = mu+3*sigma/sqrt(30), col = 1, xlab = "x", ylab = "Densidad", main = "")
curve(expr = dnorm(x, mean = mu, sd = sigma/sqrt(100)), col = 2, add = TRUE)
curve(expr = dnorm(x, mean = mu, sd = sigma/sqrt(50 )), col = 3, add = TRUE)
curve(expr = dnorm(x, mean = mu, sd = sigma/sqrt(30 )), col = 4, add = TRUE)
legend("topright", legend = paste0("n=",c(30,50,100,400)), col = 1:4, lwd = 2)
Se tiene que \(\textsf{DE}(\bar{X}) = \sigma_X/\sqrt{n} = 20\) con \(\sigma_X = 500\). Por lo tanto, \[ n = \left( \frac{\sigma_X}{\textsf{DE}(\bar{X})} \right)^2 = \left( \frac{500}{20} \right)^2 = 625\,. \]
n <- (500/20)^2
print(n)
## [1] 625
Se pide calcular \[ p=P(|\bar{X} - \mu_X| < 25) = \Phi(25/(\sigma_X/\sqrt{n})) - \Phi(-25/(\sigma_X/\sqrt{n})) = 0.7887005\,. \]
pnorm(q = 25/(500/sqrt(625))) - pnorm(q = -25/(500/sqrt(625)))
## [1] 0.7887005
La variable de estudio \(X\) es el tiempo que se veía televisión en los hogares, en el horario de 8:00 a 11:00 de la noche. Se quiere calcular un intervalo de confianza de 95% para \(\mu_X\), sabiendo que la desviación estándar de la población es \(\sigma_X = 3.5\). Dado que la población tiene distribución desconocida, pero el tamaño de la muestra \(n=300\) es grande, se tiene el intervalo de confianza para \(\mu_X\) se puede calcular mediante \[ \textsf{IC}_{100(1-\alpha)\%}(\mu_X) = \bar{X} \pm \textsf{z}_{1-\alpha/2}\frac{\sigma_X}{\sqrt{n}} \] Calculando, se tiene que la estimación puntual es \(\bar{x} = 8.5\) horas y el margen de error \(ME = 0.4\) horas, y por lo tanto, con una confiabilidad del 95%, la media del tiempo que se ve televisión por semana en el horario de 8:00 a 11:00 de la noche es \((8.1;8.8)\) horas.
# importar base de datos
datos <- read.csv("C:/Users/Juan Camilo/Dropbox/UN/probabilidad_estadistica/Nielsen.CSV", sep="")
# datos
x <- datos$Hours
# tamaño de la muestra
n <- length(x)
print(n)
## [1] 300
# estimacion
xb <- mean(x)
round(xb, 2)
## [1] 8.5
# desv estandar poblacional
sigma <- 3.5
# margen de erro
me <- qnorm(p = 0.975)*sigma/sqrt(n)
round(me, 2)
## [1] 0.4
# intervalo
round(xb + c(-1,1)*me, 2)
## [1] 8.1 8.9
La variable de estudio \(X\) es el ingreso familiar anual (US) y se sabe que la estimación puntual del ingreso medio anual correspondiente es \(\bar{x}=119155\) con \(n=80\). Además, se sabe que la desviación estándar poblacional es \(\sigma_X=30000\).
# tamaño de la muestra
n <- 80
# estimacion puntual
xb <- 119155
# varianza poblacional
sigma <- 30000
Dado que la población tiene distribución desconocida, pero el tamaño de la muestra \(n=80\) es grande, se tiene el intervalo de confianza para \(\mu_X\) se puede calcular mediante \[ \textsf{IC}_{100(1-\alpha)\%}(\mu_X) = \bar{X} \pm \textsf{z}_{1-\alpha/2}\frac{\sigma_X}{\sqrt{n}} \]
Los intervalos de confianza al 80%, 95% y 99% son:
tab <- rbind(xb + c(-1,1)*qnorm(p = 0.950)*sigma/sqrt(n),
xb + c(-1,1)*qnorm(p = 0.975)*sigma/sqrt(n),
xb + c(-1,1)*qnorm(p = 0.995)*sigma/sqrt(n))
colnames(tab) <- c("L. Inferior","L.Superior")
rownames(tab) <- c("90%","95%","99%")
tab
## L. Inferior L.Superior
## 90% 113638.0 124672.0
## 95% 112581.1 125728.9
## 99% 110515.4 127794.6
De la tabla anterior se observa que el margen de error, y por lo tanto, la amplitud del intervalo de confianza aumentan a medida que aumenta el nivel de confianza.
Dado que el tamaño de muestra es grande (\(n=365\)) sí sería correcto utilizar la distribución normal para calcular un intervalo de confianza de 95% para la media de la temperatura a mediodía de \(57 \pm (1.96)(20)/\sqrt{365}\), siempre y cuando las observaciones se pudieran considerar como independientes. Si las mediciones presentan un alto grado de correlación temporal (como usualmente ocurre en lugares con estaciones muy marcados), entonces este intervalo de confianza no tendría la cobertura especificada del 95%.
Se sabe que la amplitud del intervalo al 90% es \[ A = 84.1-83.2 = 0.9 \] y por lo tanto el margen de error al 90% correspondiente es \[ ME= 1.64\frac{s}{\sqrt{n}} = 0.9/2 = 0.45 \] Así, el error estándar al 90% es \[ EE = \frac{s}{\sqrt{n}} = ME/1.64 = 0.274 \]
De otra parte se esabe que la estimación puntual es el punto medio del intervalo, de donde \[ \bar{x} = \frac{84.1+83.2}{2} = 83.65\,. \]
Entonces, un intervalo de confianza de 95% para la media de la dureza Rockwell B de este tipo de soldadura es \[ IC_{95\%}(\mu_X) = \bar{x} \pm 1.96\cdot EE = (83.114;84.186) \]
# amplitud al 90%
A <- 84.1 - 83.2
A
## [1] 0.9
# margen de error al 90%
ME <- A/2
ME
## [1] 0.45
# error estandar al 90%
EE <- ME/qnorm(p = 0.95)
round(EE, 3)
## [1] 0.274
# estimacion puntual
xb <- (84.1 + 83.2)/2
xb
## [1] 83.65
# intervalo de confianza al 95%
round(xb + c(-1,1)*qnorm(p = 0.975)*EE, 3)
## [1] 83.114 84.186