Una muestra de 25 días del número de incidentes policiales registrados en un determinado barrio arrojó los siguientes resultados:

7 11 9 10 14 6 8 7 10 10 14 12 13 8 6 13 10 14 5 10 8 6 12 10 6

incidentes <- c(7, 11, 9, 10, 14, 6, 8, 7, 10, 10, 14, 12, 13, 8, 6, 13, 10, 14, 5, 10, 8, 6, 12, 10, 6)

Suponiendo que la muestra sigue una distribución normal

  1. Suponga que la desviación estándar de la población es igual a tres incidentes policiales. Construya un intervalo de confianza para el número promedio de incidentes policiales en este vecindario. Utilice un coeficiente de confianza del 95%. ¿Cuál es el margen de error asociado con este intervalo?
sum(incidentes)
[1] 239

\[ \begin{aligned} \sum_{i=1}^{25}x_i&=239 \end{aligned} \]

length(incidentes)
[1] 25

\[ \begin{aligned} n&=25 \end{aligned} \]

mean(incidentes)
[1] 9.56

\[ \begin{aligned} \overline{x}&=\frac{\sum_{i=1}^{25}x_i}{25}\\ &=9.56 \end{aligned} \]

qnorm(0.025)
[1] -1.959964

\[ z_{\frac{\alpha}{2}}=-1.959964 \]

qnorm(0.975)
[1] 1.959964

\[ z_{1-\frac{\alpha}{2}}=1.959964 \]

mean(incidentes) + c(qnorm(0.025)*3/sqrt(length(incidentes)), qnorm(0.975)*3/sqrt(length(incidentes)))
[1]  8.384022 10.735978

\[ \begin{aligned} \overline{x}{\pm}z_{1-\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}&=9.56{\pm}1.959964\frac{3}{\sqrt{25}}\\ &=9.56{\pm}1.1759784\\ \end{aligned} \]

qnorm(0.975)*3/sqrt(length(incidentes))
[1] 1.175978

\[ \begin{aligned} me&=1.959964\frac{3}{\sqrt{25}}\\ &=1.1759784\\ \end{aligned} \]

  1. Aún suponiendo que la desviación estándar de la población es igual a 3 incidentes policiales, ¿cuál debería ser el tamaño de la muestra para que el intervalo de confianza del 95% tenga una longitud de 2 incidentes policiales?

\[ \begin{aligned} L&=\overline{x}{+}z_{1-\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}-\left(\overline{x}{-}z_{1-\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}\right)\\ &=\overline{x}{+}z_{1-\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}-\overline{x}{+}z_{1-\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}\\ &=z_{1-\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}{+}z_{1-\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}\\ &=2{\times}z_{1-\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}\\ \end{aligned} \]

\[ \begin{aligned} 2=2{\times}z_{1-\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}&{\implies}1=z_{1-\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}\\ &{\implies}\sqrt{n}=z_{1-\frac{\alpha}{2}}\sigma\\ &{\implies}{n}{\geq}\left(z_{1-\frac{\alpha}{2}}{\sigma}\right)^2\\ \end{aligned} \]

(qnorm(0.975)*3)**2
[1] 34.57313

\[ \begin{aligned} {n}{\geq}\left(z_{1-\frac{\alpha}{2}}{\sigma}\right)^2&{\implies}{n}{\geq}\left(1.959964\cdot3\right)^2\\ &{\implies}{n}{\geq}\left(5.879892\right)^2\\ &{\implies}{n}{\geq}34.5731294\\ &{\implies}{n}{\approx}35\\ \end{aligned} \]

  1. ¿Cuál sería el intervalo de confianza del 95% si no se conociera la desviación estándar de la población? compárelo con el obtenido en (a) ¿Cu´al de los dos es mejor? justifique.
qt(0.025,length(incidentes)-1)
[1] -2.063899

\[ t_{\left(\frac{\alpha}{2},n-1\right)}=-2.0638986 \]

qt(0.975,length(incidentes)-1)
[1] 2.063899

\[ t_{\left(1-\frac{\alpha}{2},n-1\right)}=2.0638986 \]

var(incidentes)
[1] 7.923333

\[ \begin{aligned} s^2&=\frac{1}{25-1}\sum_{i=1}^{25}{(x_i-\overline{x})}^{2}\\ &=\frac{1}{25-1}\sum_{i=1}^{25}{(x_i-9.56)}^{2}\\ &=7.9233333 \end{aligned} \]

sd(incidentes)
[1] 2.814842

\[ \begin{aligned} s&=\sqrt{\frac{1}{25-1}\sum_{i=1}^{25}{(x_i-\overline{x})}^{2}}\\ &=\sqrt{\frac{1}{25-1}\sum_{i=1}^{25}{(x_i-9.56)}^{2}}\\ &=\sqrt{7.9233333}\\ &=2.8148416 \end{aligned} \]

mean(incidentes) + c(qt(0.025,length(incidentes)-1)*sd(incidentes)/sqrt(length(incidentes)), qt(0.975,length(incidentes)-1)*sd(incidentes)/sqrt(length(incidentes)))
[1]  8.39809 10.72191

\[ \begin{aligned} \overline{x}{\pm}t_{\left(1-\frac{\alpha}{2},n-1\right)}\frac{s}{\sqrt{n}}&=9.56{\pm}2.0638986\frac{2.8148416}{\sqrt{25}}\\ &=9.56{\pm}1.1619095\\ \end{aligned} \]

Suponga que una empresa de análisis de datos desea estimar la proporción de clientes de un servicio en línea que realizan compras mensuales. Realiza una encuesta a una muestra aleatoria de 500 clientes y encuentra que 300 de ellos han realizado al menos una compra en el ́ultimo mes.

p1 <- 300/500
n <- 500
  1. Encuentre un intervalo del 95% de confianza para la proporcióon de clientes que realizan compras mensuales.
p1 + c(qnorm(0.025)*sqrt(p1*(1-p1)/500), qnorm(0.975)*sqrt(p1*(1-p1)/500))
[1] 0.5570593 0.6429407

\[ \begin{aligned} \widehat{p}{\pm}z_{1-\frac{\alpha}{2}}\sqrt{\frac{\widehat{p}\left(1-\widehat{p}\right)}{n}}&=0.6{\pm}1.959964\sqrt{\frac{0.6\left(1-0.6\right)}{20}}\\ &=0.6{\pm}1.959964\sqrt{\frac{0.24}{20}}\\ &=0.6{\pm}1.959964\sqrt{0.012}\\ &=0.6{\pm}1.959964\cdot0.1095445\\ &=0.6{\pm}0.2147033\\ \end{aligned} \]

  1. Este mes, la empresa decide realizar una campaña de marketing dirigida a aumentar el número de compradores mensuales. Realiza una nueva encuesta a una muestra aleatoria de 500 clientes y encuentra que 350 de ellos han realizado al menos una compra en el último mes. Calcule un intervalo de confianza del 95% para la nueva proporci ́on de clientes que realizan compras mensuales.
p2 <- 350/500
n <- 500
p2 + c(qnorm(0.025)*sqrt(p2*(1-p2)/500), qnorm(0.975)*sqrt(p2*(1-p2)/500))
[1] 0.6598327 0.7401673

\[ \begin{aligned} \widehat{p}{\pm}z_{1-\frac{\alpha}{2}}\sqrt{\frac{\widehat{p}\left(1-\widehat{p}\right)}{n}}&=0.7{\pm}1.959964\sqrt{\frac{0.7\left(1-0.7\right)}{20}}\\ &=0.7{\pm}1.959964\sqrt{\frac{0.21}{20}}\\ &=0.7{\pm}1.959964\sqrt{0.0105}\\ &=0.7{\pm}1.959964\cdot0.1024695\\ &=0.7{\pm}0.2008365\\ \end{aligned} \]

  1. Basándose en los intervalos de confianza obtenidos en (a) y (b), ¿hay evidencia suficiente para afirmar que la campaña de marketing ha sido efectiva? Justifique.

Si hay evidencia estadística suficiente en la muestra para afirmar que la campaña de marketing fue efectiva dado que el intervalo de confianza para la proporción antes de la campaña de marketing (0.5570593, 0.6429407) se encuentra a la izquierda del intervalo de confianza para la proporción luego de la campaña de marketing (0.6598327, 0.7401673), es decir, con una confiabilidad del 95% los valores más probables que tomaría la proporción luego de la campaña de marketing son más altos de los que tomaría antes antes de la misma.

Sea \(\overline{x}\) la media de una muestra aleatoria de tamaño \(n\) de una distribución que tiene media \(\mu\) y varianza \(\sigma^2=10\). Encuentre n tal que la probabilidad de que el intervalo \(\left(\overline{x}-\frac{1}{2},\overline{x}+\frac{1}{2}\right)\) contenga \(\mu\) sea aproximadamente 0.95.

(qnorm(0.975)*sqrt(10)/(1/2))**2
[1] 153.6584

\[ \begin{aligned} P\left(\overline{x}-\frac{1}{2}<\mu<\overline{x}+\frac{1}{2}\right)=1-0.05&{\implies}\frac{1}{2}=z_{1-\frac{0.05}{2}}\frac{\sigma}{\sqrt{n}}\\ &{\implies}\frac{1}{2}{=}1.959964\frac{\sqrt{10}}{\sqrt{n}}\\ &{\implies}\sqrt{n}{=}1.959964\frac{3.1622777}{\frac{1}{2}}\\ &{\implies}n{\geq}{\left(1.959964\frac{3.1622777}{\frac{1}{2}}\right)}^{2}\\ &{\implies}n{\geq}{\left(1.959964\cdot2\cdot3.1622777\right)}^{2}\\ &{\implies}n{\geq}{\left(1.959964\cdot6.3245553\right)}^{2}\\ &{\implies}n{\geq}{\left(12.3959006\right)}^{2}\\ &{\implies}n{\geq}153.6583528\\ &{\implies}n{\approx}154\\ \end{aligned} \]

Sea \(X_1,X_2,\ldots,X_n\) una muestra aleatoria de una poblacion \(gamma(1,\beta)\)

  1. Sabiendo que \(2\beta\sum_{i=1}^{n}x_i{\sim}{\chi}^2_{2n}\) encuentre un intervalo de \((1-\alpha)100\)% confianza para \(\beta\)

\[2\beta\sum_{i=1}^{n}x_i{\sim}{\chi}^2_{2n}\]

\[ \begin{aligned} P\left({\chi}^2_{2n,\frac{\alpha}{2}}<2\beta\sum_{i=1}^{n}x_i<{\chi}^2_{2n,1-\frac{\alpha}{2}}\right)=(1-\alpha)100\%&{\implies}P\left(\frac{{\chi}^2_{2n,\frac{\alpha}{2}}}{2}<\beta\sum_{i=1}^{n}x_i<\frac{{\chi}^2_{2n,1-\frac{\alpha}{2}}}{2}\right)=(1-\alpha)100\%\\ &{\implies}P\left(\frac{{\chi}^2_{2n,\frac{\alpha}{2}}}{2\sum_{i=1}^{n}x_i}<\beta<\frac{{\chi}^2_{2n,1-\frac{\alpha}{2}}}{2\sum_{i=1}^{n}x_i}\right)=(1-\alpha)100\%\\ \end{aligned} \]

Luego el intervalo de confianza sería dado por:

\[ \left(\frac{{\chi}^2_{2n,\frac{\alpha}{2}}}{2\sum_{i=1}^{n}x_i},\frac{{\chi}^2_{2n,1-\frac{\alpha}{2}}}{2\sum_{i=1}^{n}x_i}\right) \]

  1. Suponga que se extrajo una muestra de \(Gamma(1,\beta)\) y se obtuvo \(\sum_{i=1}^{20}x_i=3.97\), usando (a) encuentre un intervalo de 95% de confianza para \(\beta\) ¿qué puedes decir al respecto?
qchisq(0.025,2*20)
[1] 24.43304

\[ {\chi}^2_{2n,\frac{\alpha}{2}}=24.4330392 \]

qchisq(0.975,2*20)
[1] 59.34171

\[ {\chi}^2_{2n,1-\frac{\alpha}{2}}=59.3417071 \]

\[ \sum_{i=1}^{n}x_i=3.97 \]

c(qchisq(0.025,2*20)/(2*3.97),qchisq(0.975,2*20)/(2*3.97))
[1] 3.077209 7.473767

\[ \begin{aligned} \left(\frac{{\chi}^2_{2n,\frac{\alpha}{2}}}{2\sum_{i=1}^{n}x_i},\frac{{\chi}^2_{2n,1-\frac{\alpha}{2}}}{2\sum_{i=1}^{n}x_i}\right)&=\left(\frac{24.4330392}{2{\cdot}3.97},\frac{59.3417071}{2{\cdot}3.97}\right)\\ &=\left(\frac{24.4330392}{7.94},\frac{59.3417071}{7.94}\right)\\ &=\left(3.077209,7.4737666\right)\\ \end{aligned} \]

  1. Asuma una apriori \(expoenencial(2)\) para determinar un intervalo de máxima densidad aposteriori del 95% para \(\beta\)

Para encontrar un intervalo de máxima densidad aposteriori del 95% para \(\beta\), primero necesitamos determinar la distribución a posteriori de \(\beta\) dado que tenemos una muestra aleatoria de una población \(Gamma(1, \beta)\) y asumimos una distribución a priori \(Exponencial(2)\).

La distribución a posteriori de \(\beta\) es proporcional al producto de la verosimilitud y la densidad a priori. La verosimilitud viene dada por la función de densidad de la distribución gamma y la densidad a priori es la función de densidad de la distribución exponencial. Por lo tanto, la distribución a posteriori de \(\beta\) es:

\[ \begin{aligned} f(\beta | x_1, x_2, ..., x_n) &\propto f(x_1, x_2, ..., x_n | \beta) \times f(\beta)\\ &\propto \left( \prod_{i=1}^{n} \frac{1}{\beta} e^{-\frac{x_i}{\beta}} \right) \times \frac{1}{2} e^{-\frac{\beta}{2}}\\ &\propto \frac{1}{\beta^n} e^{-\frac{1}{\beta} \sum_{i=1}^{n} x_i} \times \frac{1}{2} e^{-\frac{\beta}{2}}\\ &\propto \frac{1}{\beta^{n+1}} e^{-\left(\frac{1}{\beta} \sum_{i=1}^{n} x_i + \frac{\beta}{2}\right)}\\ &\propto \frac{\beta^{n}}{1} e^{-\left(\frac{1}{\beta} \sum_{i=1}^{n} x_i + \frac{\beta}{2}\right)}\\ &\propto \frac{\beta^{n}}{1} e^{-\left(\frac{\beta}{1} \sum_{i=1}^{n} x_i + 2\beta\right)}\\ &\propto \frac{1}{\beta^{n+1}} e^{-\left(\frac{1}{\beta} \sum_{i=1}^{n} x_i + \frac{\beta}{2}\right)}\\ &\propto \beta^{n+1} e^{-\left(\frac{\beta}{n} \sum_{i=1}^{n} x_i + 2\beta\right)}\\ &\propto \frac{1}{\beta^{n+1}} e^{-\left(\frac{1}{\beta} \sum_{i=1}^{n} x_i + \frac{\beta}{2}\right)}\\ &\propto \beta^{n+1} e^{-\left(\frac{\beta}{n} \sum_{i=1}^{n} x_i + 2\beta\right)}\\ \end{aligned} \]

La distribución a posteriori de \(\beta\) sigue una distribución \(Gamma(n+1, \sum_{i=1}^{n} x_i + 2)\).

Para encontrar el intervalo de máxima densidad aposteriori del 95%, necesitamos encontrar los valores de \(\beta\) que delimitan el 95% de la distribución acumulada de la distribución gamma \(Gamma(n+1, \sum_{i=1}^{n} x_i + 2)\). Esto se puede hacer utilizando funciones de distribución acumulada inversa, disponibles en paquetes de software estadístico como R.

Finalmente, el intervalo de máxima densidad aposteriori del 95% para \(\beta\) estará dado por los valores de \(\beta\) que delimitan el 2.5% más bajo y el 97.5% más alto de la distribución a posteriori de \(\beta\).

Para encontrar el intervalo de máxima densidad aposteriori del 95% para \(\beta\) dado que tenemos una distribución a posteriori \(Gamma(n+1, \sum_{i=1}^{n} x_i + 2)\), podemos utilizar funciones de distribución acumulada inversa. En R, podemos utilizar la función qgamma para calcular los cuantiles de una distribución gamma.

Aquí tienes el código en R para calcular el intervalo de máxima densidad aposteriori del 95% para \(\beta\):

n <- 20  # Tamaño de la muestra
sum_x <- 3.9  # Suma de la muestra

# Calcular los cuantiles
library(TeachingDemos)
cuantiles <- hpd(qgamma, shape=n+1, rate=sum_x + 2, conf=0.95)

# Imprimir el resultado
print(paste("Intervalo de máxima densidad aposteriori del 95% para beta: (", cuantiles[1], ",", cuantiles[2], ")"))
[1] "Intervalo de máxima densidad aposteriori del 95% para beta: ( 2.10836067587545 , 5.10803650969796 )"
