Una muestra de 25 días del número de incidentes policiales
registrados en un determinado barrio arrojó los siguientes
resultados:
7 11 9 10 14 6 8 7 10 10 14 12 13 8 6 13 10 14 5 10 8 6 12 10 6
incidentes <- c(7, 11, 9, 10, 14, 6, 8, 7, 10, 10, 14, 12, 13, 8, 6, 13, 10, 14, 5, 10, 8, 6, 12, 10, 6)
Suponiendo que la muestra sigue una distribución normal
- Suponga que la desviación estándar de la población es igual a tres
incidentes policiales. Construya un intervalo de confianza para el
número promedio de incidentes policiales en este vecindario. Utilice un
coeficiente de confianza del 95%. ¿Cuál es el margen de error asociado
con este intervalo?
sum(incidentes)
[1] 239
\[
\begin{aligned}
\sum_{i=1}^{25}x_i&=239
\end{aligned}
\]
length(incidentes)
[1] 25
\[
\begin{aligned}
n&=25
\end{aligned}
\]
mean(incidentes)
[1] 9.56
\[
\begin{aligned}
\overline{x}&=\frac{\sum_{i=1}^{25}x_i}{25}\\
&=9.56
\end{aligned}
\]
qnorm(0.025)
[1] -1.959964
\[
z_{\frac{\alpha}{2}}=-1.959964
\]
qnorm(0.975)
[1] 1.959964
\[
z_{1-\frac{\alpha}{2}}=1.959964
\]
mean(incidentes) + c(qnorm(0.025)*3/sqrt(length(incidentes)), qnorm(0.975)*3/sqrt(length(incidentes)))
[1] 8.384022 10.735978
\[
\begin{aligned}
\overline{x}{\pm}z_{1-\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}&=9.56{\pm}1.959964\frac{3}{\sqrt{25}}\\
&=9.56{\pm}1.1759784\\
\end{aligned}
\]
qnorm(0.975)*3/sqrt(length(incidentes))
[1] 1.175978
\[
\begin{aligned}
me&=1.959964\frac{3}{\sqrt{25}}\\
&=1.1759784\\
\end{aligned}
\]
- Aún suponiendo que la desviación estándar de la población es igual a
3 incidentes policiales, ¿cuál debería ser el tamaño de la muestra para
que el intervalo de confianza del 95% tenga una longitud de 2 incidentes
policiales?
\[
\begin{aligned}
L&=\overline{x}{+}z_{1-\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}-\left(\overline{x}{-}z_{1-\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}\right)\\
&=\overline{x}{+}z_{1-\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}-\overline{x}{+}z_{1-\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}\\
&=z_{1-\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}{+}z_{1-\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}\\
&=2{\times}z_{1-\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}\\
\end{aligned}
\]
\[
\begin{aligned}
2=2{\times}z_{1-\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}&{\implies}1=z_{1-\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}\\
&{\implies}\sqrt{n}=z_{1-\frac{\alpha}{2}}\sigma\\
&{\implies}{n}{\geq}\left(z_{1-\frac{\alpha}{2}}{\sigma}\right)^2\\
\end{aligned}
\]
(qnorm(0.975)*3)**2
[1] 34.57313
\[
\begin{aligned}
{n}{\geq}\left(z_{1-\frac{\alpha}{2}}{\sigma}\right)^2&{\implies}{n}{\geq}\left(1.959964\cdot3\right)^2\\
&{\implies}{n}{\geq}\left(5.879892\right)^2\\
&{\implies}{n}{\geq}34.5731294\\
&{\implies}{n}{\approx}35\\
\end{aligned}
\]
- ¿Cuál sería el intervalo de confianza del 95% si no se conociera la
desviación estándar de la población? compárelo con el obtenido en (a)
¿Cu´al de los dos es mejor? justifique.
qt(0.025,length(incidentes)-1)
[1] -2.063899
\[
t_{\left(\frac{\alpha}{2},n-1\right)}=-2.0638986
\]
qt(0.975,length(incidentes)-1)
[1] 2.063899
\[
t_{\left(1-\frac{\alpha}{2},n-1\right)}=2.0638986
\]
var(incidentes)
[1] 7.923333
\[
\begin{aligned}
s^2&=\frac{1}{25-1}\sum_{i=1}^{25}{(x_i-\overline{x})}^{2}\\
&=\frac{1}{25-1}\sum_{i=1}^{25}{(x_i-9.56)}^{2}\\
&=7.9233333
\end{aligned}
\]
sd(incidentes)
[1] 2.814842
\[
\begin{aligned}
s&=\sqrt{\frac{1}{25-1}\sum_{i=1}^{25}{(x_i-\overline{x})}^{2}}\\
&=\sqrt{\frac{1}{25-1}\sum_{i=1}^{25}{(x_i-9.56)}^{2}}\\
&=\sqrt{7.9233333}\\
&=2.8148416
\end{aligned}
\]
mean(incidentes) + c(qt(0.025,length(incidentes)-1)*sd(incidentes)/sqrt(length(incidentes)), qt(0.975,length(incidentes)-1)*sd(incidentes)/sqrt(length(incidentes)))
[1] 8.39809 10.72191
\[
\begin{aligned}
\overline{x}{\pm}t_{\left(1-\frac{\alpha}{2},n-1\right)}\frac{s}{\sqrt{n}}&=9.56{\pm}2.0638986\frac{2.8148416}{\sqrt{25}}\\
&=9.56{\pm}1.1619095\\
\end{aligned}
\]
Suponga que una empresa de análisis de datos desea estimar la
proporción de clientes de un servicio en línea que realizan compras
mensuales. Realiza una encuesta a una muestra aleatoria de 500 clientes
y encuentra que 300 de ellos han realizado al menos una compra en el
́ultimo mes.
p1 <- 300/500
n <- 500
- Encuentre un intervalo del 95% de confianza para la proporcióon de
clientes que realizan compras mensuales.
p1 + c(qnorm(0.025)*sqrt(p1*(1-p1)/500), qnorm(0.975)*sqrt(p1*(1-p1)/500))
[1] 0.5570593 0.6429407
\[
\begin{aligned}
\widehat{p}{\pm}z_{1-\frac{\alpha}{2}}\sqrt{\frac{\widehat{p}\left(1-\widehat{p}\right)}{n}}&=0.6{\pm}1.959964\sqrt{\frac{0.6\left(1-0.6\right)}{20}}\\
&=0.6{\pm}1.959964\sqrt{\frac{0.24}{20}}\\
&=0.6{\pm}1.959964\sqrt{0.012}\\
&=0.6{\pm}1.959964\cdot0.1095445\\
&=0.6{\pm}0.2147033\\
\end{aligned}
\]
- Este mes, la empresa decide realizar una campaña de marketing
dirigida a aumentar el número de compradores mensuales. Realiza una
nueva encuesta a una muestra aleatoria de 500 clientes y encuentra que
350 de ellos han realizado al menos una compra en el último mes. Calcule
un intervalo de confianza del 95% para la nueva proporci ́on de clientes
que realizan compras mensuales.
p2 <- 350/500
n <- 500
p2 + c(qnorm(0.025)*sqrt(p2*(1-p2)/500), qnorm(0.975)*sqrt(p2*(1-p2)/500))
[1] 0.6598327 0.7401673
\[
\begin{aligned}
\widehat{p}{\pm}z_{1-\frac{\alpha}{2}}\sqrt{\frac{\widehat{p}\left(1-\widehat{p}\right)}{n}}&=0.7{\pm}1.959964\sqrt{\frac{0.7\left(1-0.7\right)}{20}}\\
&=0.7{\pm}1.959964\sqrt{\frac{0.21}{20}}\\
&=0.7{\pm}1.959964\sqrt{0.0105}\\
&=0.7{\pm}1.959964\cdot0.1024695\\
&=0.7{\pm}0.2008365\\
\end{aligned}
\]
- Basándose en los intervalos de confianza obtenidos en (a) y (b),
¿hay evidencia suficiente para afirmar que la campaña de marketing ha
sido efectiva? Justifique.
Si hay evidencia estadística suficiente en la muestra para afirmar
que la campaña de marketing fue efectiva dado que el intervalo de
confianza para la proporción antes de la campaña de marketing
(0.5570593, 0.6429407) se encuentra a la izquierda del intervalo de
confianza para la proporción luego de la campaña de marketing
(0.6598327, 0.7401673), es decir, con una confiabilidad del 95% los
valores más probables que tomaría la proporción luego de la campaña de
marketing son más altos de los que tomaría antes antes de la misma.
Sea \(\overline{x}\) la media de una
muestra aleatoria de tamaño \(n\) de
una distribución que tiene media \(\mu\) y varianza \(\sigma^2=10\). Encuentre n tal que la
probabilidad de que el intervalo \(\left(\overline{x}-\frac{1}{2},\overline{x}+\frac{1}{2}\right)\)
contenga \(\mu\) sea aproximadamente
0.95.
(qnorm(0.975)*sqrt(10)/(1/2))**2
[1] 153.6584
\[
\begin{aligned}
P\left(\overline{x}-\frac{1}{2}<\mu<\overline{x}+\frac{1}{2}\right)=1-0.05&{\implies}\frac{1}{2}=z_{1-\frac{0.05}{2}}\frac{\sigma}{\sqrt{n}}\\
&{\implies}\frac{1}{2}{=}1.959964\frac{\sqrt{10}}{\sqrt{n}}\\
&{\implies}\sqrt{n}{=}1.959964\frac{3.1622777}{\frac{1}{2}}\\
&{\implies}n{\geq}{\left(1.959964\frac{3.1622777}{\frac{1}{2}}\right)}^{2}\\
&{\implies}n{\geq}{\left(1.959964\cdot2\cdot3.1622777\right)}^{2}\\
&{\implies}n{\geq}{\left(1.959964\cdot6.3245553\right)}^{2}\\
&{\implies}n{\geq}{\left(12.3959006\right)}^{2}\\
&{\implies}n{\geq}153.6583528\\
&{\implies}n{\approx}154\\
\end{aligned}
\]
Sea \(X_1,X_2,\ldots,X_n\) una
muestra aleatoria de una poblacion \(gamma(1,\beta)\)
- Sabiendo que \(2\beta\sum_{i=1}^{n}x_i{\sim}{\chi}^2_{2n}\)
encuentre un intervalo de \((1-\alpha)100\)% confianza para \(\beta\)
\[2\beta\sum_{i=1}^{n}x_i{\sim}{\chi}^2_{2n}\]
\[
\begin{aligned}
P\left({\chi}^2_{2n,\frac{\alpha}{2}}<2\beta\sum_{i=1}^{n}x_i<{\chi}^2_{2n,1-\frac{\alpha}{2}}\right)=(1-\alpha)100\%&{\implies}P\left(\frac{{\chi}^2_{2n,\frac{\alpha}{2}}}{2}<\beta\sum_{i=1}^{n}x_i<\frac{{\chi}^2_{2n,1-\frac{\alpha}{2}}}{2}\right)=(1-\alpha)100\%\\
&{\implies}P\left(\frac{{\chi}^2_{2n,\frac{\alpha}{2}}}{2\sum_{i=1}^{n}x_i}<\beta<\frac{{\chi}^2_{2n,1-\frac{\alpha}{2}}}{2\sum_{i=1}^{n}x_i}\right)=(1-\alpha)100\%\\
\end{aligned}
\]
Luego el intervalo de confianza sería dado por:
\[
\left(\frac{{\chi}^2_{2n,\frac{\alpha}{2}}}{2\sum_{i=1}^{n}x_i},\frac{{\chi}^2_{2n,1-\frac{\alpha}{2}}}{2\sum_{i=1}^{n}x_i}\right)
\]
- Suponga que se extrajo una muestra de \(Gamma(1,\beta)\) y se obtuvo \(\sum_{i=1}^{20}x_i=3.97\), usando (a)
encuentre un intervalo de 95% de confianza para \(\beta\) ¿qué puedes decir al respecto?
qchisq(0.025,2*20)
[1] 24.43304
\[
{\chi}^2_{2n,\frac{\alpha}{2}}=24.4330392
\]
qchisq(0.975,2*20)
[1] 59.34171
\[
{\chi}^2_{2n,1-\frac{\alpha}{2}}=59.3417071
\]
\[
\sum_{i=1}^{n}x_i=3.97
\]
c(qchisq(0.025,2*20)/(2*3.97),qchisq(0.975,2*20)/(2*3.97))
[1] 3.077209 7.473767
\[
\begin{aligned}
\left(\frac{{\chi}^2_{2n,\frac{\alpha}{2}}}{2\sum_{i=1}^{n}x_i},\frac{{\chi}^2_{2n,1-\frac{\alpha}{2}}}{2\sum_{i=1}^{n}x_i}\right)&=\left(\frac{24.4330392}{2{\cdot}3.97},\frac{59.3417071}{2{\cdot}3.97}\right)\\
&=\left(\frac{24.4330392}{7.94},\frac{59.3417071}{7.94}\right)\\
&=\left(3.077209,7.4737666\right)\\
\end{aligned}
\]
- Asuma una apriori \(expoenencial(2)\) para determinar un
intervalo de máxima densidad aposteriori del 95% para \(\beta\)
Para encontrar un intervalo de máxima densidad aposteriori del 95%
para \(\beta\), primero necesitamos
determinar la distribución a posteriori de \(\beta\) dado que tenemos una muestra
aleatoria de una población \(Gamma(1,
\beta)\) y asumimos una distribución a priori \(Exponencial(2)\).
La distribución a posteriori de \(\beta\) es proporcional al producto de la
verosimilitud y la densidad a priori. La verosimilitud viene dada por la
función de densidad de la distribución gamma y la densidad a priori es
la función de densidad de la distribución exponencial. Por lo tanto, la
distribución a posteriori de \(\beta\)
es:
\[
\begin{aligned}
f(\beta | x_1, x_2, ..., x_n) &\propto f(x_1, x_2, ..., x_n | \beta)
\times f(\beta)\\
&\propto \left( \prod_{i=1}^{n} \frac{1}{\beta}
e^{-\frac{x_i}{\beta}} \right) \times \frac{1}{2} e^{-\frac{\beta}{2}}\\
&\propto \frac{1}{\beta^n} e^{-\frac{1}{\beta} \sum_{i=1}^{n} x_i}
\times \frac{1}{2} e^{-\frac{\beta}{2}}\\
&\propto \frac{1}{\beta^{n+1}} e^{-\left(\frac{1}{\beta}
\sum_{i=1}^{n} x_i + \frac{\beta}{2}\right)}\\
&\propto \frac{\beta^{n}}{1} e^{-\left(\frac{1}{\beta}
\sum_{i=1}^{n} x_i + \frac{\beta}{2}\right)}\\
&\propto \frac{\beta^{n}}{1} e^{-\left(\frac{\beta}{1}
\sum_{i=1}^{n} x_i + 2\beta\right)}\\
&\propto \frac{1}{\beta^{n+1}} e^{-\left(\frac{1}{\beta}
\sum_{i=1}^{n} x_i + \frac{\beta}{2}\right)}\\
&\propto \beta^{n+1} e^{-\left(\frac{\beta}{n} \sum_{i=1}^{n} x_i +
2\beta\right)}\\
&\propto \frac{1}{\beta^{n+1}} e^{-\left(\frac{1}{\beta}
\sum_{i=1}^{n} x_i + \frac{\beta}{2}\right)}\\
&\propto \beta^{n+1} e^{-\left(\frac{\beta}{n} \sum_{i=1}^{n} x_i +
2\beta\right)}\\
\end{aligned}
\]
La distribución a posteriori de \(\beta\) sigue una distribución \(Gamma(n+1, \sum_{i=1}^{n} x_i + 2)\).
Para encontrar el intervalo de máxima densidad aposteriori del 95%,
necesitamos encontrar los valores de \(\beta\) que delimitan el 95% de la
distribución acumulada de la distribución gamma \(Gamma(n+1, \sum_{i=1}^{n} x_i + 2)\). Esto
se puede hacer utilizando funciones de distribución acumulada inversa,
disponibles en paquetes de software estadístico como R.
Finalmente, el intervalo de máxima densidad aposteriori del 95% para
\(\beta\) estará dado por los valores
de \(\beta\) que delimitan el 2.5% más
bajo y el 97.5% más alto de la distribución a posteriori de \(\beta\).
Para encontrar el intervalo de máxima densidad aposteriori del 95%
para \(\beta\) dado que tenemos una
distribución a posteriori \(Gamma(n+1,
\sum_{i=1}^{n} x_i + 2)\), podemos utilizar funciones de
distribución acumulada inversa. En R, podemos utilizar la función qgamma
para calcular los cuantiles de una distribución gamma.
Aquí tienes el código en R para calcular el intervalo de máxima
densidad aposteriori del 95% para \(\beta\):
n <- 20 # Tamaño de la muestra
sum_x <- 3.9 # Suma de la muestra
# Calcular los cuantiles
library(TeachingDemos)
cuantiles <- hpd(qgamma, shape=n+1, rate=sum_x + 2, conf=0.95)
# Imprimir el resultado
print(paste("Intervalo de máxima densidad aposteriori del 95% para beta: (", cuantiles[1], ",", cuantiles[2], ")"))
[1] "Intervalo de máxima densidad aposteriori del 95% para beta: ( 2.10836067587545 , 5.10803650969796 )"
