Sea Y la v.a. que describe el número de días a la semana que se consumo frutas y sea X si la persona es hombres (X=1) o si es mujer (X=0). Supongamos que el consumo de frutas en dos días cualquier son independientes y que el modelo conjunto que describe a (X,Y) a la población es de la forma:
\[ \begin{equation} p(x,y)=P(x=X,y=Y) = \left \{\begin{array}{ll} 0.55 {7\choose y} 0.4^y 0.6^{7-y} , x=1;\\ 0.45 {7\choose y} 0.7^y 0.3^{7-y} , x=0 \end{array} \right. \end{equation} \]
Definimos variables:
Si seleccionó una persona al azar y es hombre. La probabilidad que consuma frutas más de cuatro días a la semana es 0.289.
Calculemos P(Y>4|X=1): Probabilidad de consumir frutas más de cuatro días a la semana si se sabe que es hombre.
Para este calculo, necesitamos ver la distirbución condicional de Y dado X=1: \[f_{Y|X=1}(y)=P(Y=y|X=1)=\frac{P(Y=y,X=1)}{P(X=1)}\]
De aqui, vemos que es necesario tener no solo la función conjunta \(P(Y=y,X=1)\) sino también \(P(X=1)\), la función marginal de X para x=1.
\[f_x(X) = P(X=x) = \sum^{7}_{y=0}f_{XY}(x,y)\] \[f_x(X) = P(X=x) = \sum^{7}_{y=0}P(x=x,y=y)\] Veamos para cada valor de X:
\[ \begin{array} \\ f_X(1) = P(X=1) &=& \sum^{7}_{y=0}0.55 {7\choose y} 0.4^y 0.6^{7-y} \\ &=& 0.55 \sum^{7}_{y=0}{7\choose y} 0.4^y 0.6^{7-y} \\ &=& 0.55 \end{array} \]
Con este resultado, podemos determinar la función condicional de Y dado X=1.
\[ \begin{array}\\ f_{Y|X=1}(y) &=& P(Y=y|X=1) \\ &=& \frac{P(Y=y,X=1)}{P(X=1)} \\ &=& \frac{0.55 {7\choose y} 0.4^y 0.6^{7-y}}{0.55} \\ &=& {7\choose y} 0.4^y 0.6^{7-y} \end{array} \]
(Notemos que es una binomial con parámetros n=7 y p=0.4). Y|X=1 (Y dado X=1) tiene distribución binomial con parámetros n=7 y p=0.4.
Podemos calcular \(P(Y>4|X=1)\) con R:
\[P(Y>4|X=1)=1-P(Y \le 4|X=1)\]
1 - pbinom(4, 7, 0.4)
## [1] 0.096256
Resuesta:
Si seleccionó una persona al azar y es mujer. La probabilidad que consuma frutas no más de tres días a la semana es 0.126.
Ahora, la probabilidad que debemos calcular es \(P(Y\le3|X=0)\)
\[ \begin{array}\\ f_{Y|X=0}(y) &=& P(Y=y|X=0) \\ &=& \frac{P(Y=y,X=0)}{P(X=0)} \\ &=& \frac{0.45 {7\choose y} 0.7^y 0.3^{7-y}}{0.45} \\ &=& {7\choose y} 0.7^y 0.3^{7-y} \end{array} \]
(Notemos que es una binomial con parámetros n=7 y p=0.7). Y|X=0 (Y dado X=0) tiene distribución binomial con parámetros n=7 y p=0.7.
Podemos calcular \(P(Y\le3|X=0)\) con R:
pbinom(3, 7, 0.7)
## [1] 0.126036
Respuesta:
Si seleccionamos un peruano al azar, se espera que este consuma frutas 2.745 días a la semana
Para comprobar este enunciado debemos ver la esperanza del consumo de frutas: \(E(Y)\)
Para ello, veamos la funcion de probabilidad marginal de y.
\[f_Y(y) = P(Y=y) = \sum^{1}_{x=0}f_{XY}(x,y)\] Reemplazamos utilizando la función conjunta.
\[ \begin{array} \\ f_Y(y) = P(Y=y) &=& 0.55 {7\choose y} 0.4^y 0.6^{7-y} + 0.45 {7\choose y} 0.7^y 0.3^{7-y} \end{array} \]
\[ \begin{array} \\ E(Y)&=&\sum^{7}_{y=0}yf_Y(y) \\ &=& \sum^{7}_{y=0}y(0.55 {7\choose y} 0.4^y 0.6^{7-y} + 0.45 {7\choose y} 0.7^y 0.3^{7-y}) \\ &=& 0.55 \sum^{7}_{y=0}y{7\choose y} 0.4^y 0.6^{7-y} + 0.45 \sum^{7}_{y=0}y{7\choose y} 0.7^y 0.3^{7-y} \\ \end{array} \] Note que \(\sum^{7}_{y=0}y{7\choose y} 0.4^y 0.6^{7-y}\) es la esperanza de una binomial (\(Y|X=0\)). Y además, \(\sum^{7}_{y=0}y{7\choose y} 0.4^y 0.6^{7-y}\) es la esperanza de otra binomial (\(Y|X=1\))
Podemos escribirlo de la siguiente manera:
\[ \begin{array} \\ E(Y) = 0.55E(Y|X=1) + 0.45E(Y|X=0) \end{array} \]
\[E(Y) = 0.55 (7*0.4) + 0.45(7*0.7)\] \[E(Y) = 3.745\]
Respuesta:
Los datos frutasperu.csv contiene los datos de una encuesta a 100 personas. Grafique las distribuciones marginales empírica para los hombres y mujeres vs. las distribuciones condicionales descritas por el modelo.
Piden condicional de Y según sexo en los datos vs el modelo.
datos <- read.csv("frutasperu.csv")
datos_hombres <- datos[datos$sexo==1,]
datos_mujeres <- datos[datos$sexo==0,]
tabla_all <- prop.table(table(datos$dias))
tabla_hombres <- prop.table(table(datos_hombres$dias))
tabla_mujeres <- prop.table(table(datos_mujeres$dias))
# Modelos condicionales de Y dado X:
y <- 0:7
fy_x_1 <- dbinom(y,7,0.4)
fy_x_0 <- dbinom(y,7,0.7)
fy <- 0.55*fy_x_0 + 0.45*fy_x_1
# Según el modelo, fY dado X=0:
plot(y,fy_x_0, main="Modelo vs Datos - Mujeres",
ylab="Probabilidad/Proporción",ylim=c(0,1),
xlab="Y",type="p", col=2)
# Según datos, fY dado X=0:
points(tabla_mujeres,type="h",col=1)
legend("topleft",c("Modelo - fy|x=0","Datos"),pch=15,
col=c(2,1),bty = "n")
# Según el modelo, fY dado X=1:
plot(y,fy_x_1, main="Modelo vs Datos - Hombres",
ylab="Probabilidad/Proporción",ylim=c(0,1),
xlab="Y",type="p", col=2)
# Según los datos, fy dado X=1:
points(tabla_hombres,type="h",col=1)
legend("topleft",c("Modelo - fy|x=1","Datos-fy|x=1"),pch=15,
col=2:1,bty = "n")
# Según, marginal de fx según los datos.
plot(tabla_all, main="Modelo marginal vs Condicionales",
ylab="Probabilidad/Proporción",ylim=c(0,1),
xlab="Y",type="h", col=1)
# Según datos, fY dado X=0:
points(y, fy_x_1,type="p",col=2)
# Según datos, fY dado X=1:
points(y, fy_x_0,type="p",col=3)
legend("topleft",c("Marginal de Y (Datos)","Condicional fy|Hombres (Modelo)","Condicional fy|Mujeres (Modelo)"),pch=15, col=1:3,bty = "n")
Se desea modelar el índice de masa corporal de padres de familia. Se tiene como objetivo definir el 20% de peruanos con mayor índice de masa corporal. Se tiene disponible la los datos del estudio nutricional en el norte del país (bmi.papa). Responda verdadero y falso (donde corresponda) y responda brevemente
Si asumimos un modelo normal con media 25 y desviación estándar 5 para el IMC en la la población, el punto de corte sería 29.21 kg/m2.
Sea X: el IMC de padres de familia. Según el enunciado: \(X \sim Normal(\mu=25,\sigma^2=5^2)\)
El punto de corte para definir el 20% de peruanos con mayor índice de masa corporal sería el percentil 80: cuantil 0.8.
qnorm(0.8, 25, 5)
## [1] 29.20811
Respuesta:
Si asumimos un modelo gamma con media 25 y desviación estándar 5 para el IMC en la población, el punto de corte sería 29.08 kg/m2.
Según el enunciado conocemos el modelo, su media y varianza, es decir:
Resolviendo estas ecuaciones, obtenemos: \(\lambda=1\) y \(\alpha=25\)
El punto de corte para definir el 20% de peruanos con mayor índice de masa corporal sería el percentil 80: cuantil 0.8.
qgamma(0.8, 25, 1)
## [1] 29.0819
Respuesta:
Usando los datos y asumiendo un modelo normal, estime los parámetros con el método de momentos. Luego, encuentre el punto de corte que ayude a definir el 20% de peruanos con mayor índice de masa corporal.
Asumiendo: \(X \sim Normal(\mu,\sigma^2)\)
Por el método de momentos, resolvemos el sistema de ecuaciones que compara los momentos del modelo con los muestrales para obtener los estimadores:
Ecuaciones: \[E(X)=\bar{x}\]
\[E(X^2)=\bar{x^2}\] Reemplazando E(X) y E(X2) en función de los parámetros \(\mu\) y \(\sigma^2\)
\[\mu=\bar{x}\]
\[\sigma^2 + \mu^2=\bar{x^2}\]
Obtenemos los estimadores para \(\mu\) y \(\sigma^2\)
\[\hat{\mu}=\bar{x}\] \[\hat{\sigma^2}=\bar{x^2} - \bar{x}^2\]
Estimamos con los datos, usando estos resultados:
datos <- read.csv("datos_bmi.csv")
x_bar = mean(datos$bmi.papa)
x2_bar = mean(datos$bmi.papa^2)
# Estimación para \mu:
u_estimado = x_bar
# Estimación para \sigma^2:
sigma2_estimado = x2_bar - x_bar^2
Estimaciones para \(\mu\) y \(\sigma^2\) con el método de momentos es: 26.4707396 y 17.9440633 respectivamente.
Con estas estimaciones, calculamos ahora el cuantil 0.8:
qnorm(0.8, 26.47, sqrt(17.94))
## [1] 30.03474
Usando los datos y asumiendo un modelo gamma, estime los parámetros con el método de momentos. Luego, encuentre el punto de corte que ayude a definir el 20% de peruanos con mayor índice de masa corporal.
Resolución similar al item anterior.
Después de meditar mucho los investigadores no desean asumir un modelo en particular pero si creen que la media y desviación estándar deben ser 25 y 5 kg/m2, respectivamente. ¿Cuán probable es que en una encuesta de 311, la media sea mayor a 29.21 kg/m2?
Nos dicen lo siguiente:
\(\bar{X} \sim F(\mu=25,\sigma^2=5^2)\) (Distriución desconocida)
Se puede utilizar el Teorema del límite central (TLC) para modelar la media de la muestra donde n=311. Entonces:
\(\bar{X} \sim Normal(\mu=25,\sigma^2=5^2/311)\)
Utilizamos este modelo para calcular la probabilidad pedida \(P(\bar{X}>29.21)\):
1 - pnorm(29.21, 25, sqrt(5^2/311))
## [1] 0
Se sabe que un IMC adecuado se encuentra entre 18.5 y 24.9 kg/m2. ¿Cuán probable es que, en una encuesta de 311, la media de los IMC se encuentre fuera de ese intervalo?
Se pide \(P(\{\bar{X}<18.5\} \cup \{\bar{X}>24.9\} )= 1 - P(18.5 \le \bar{X} \le 24.9\})\):
1 - (pnorm(24.9, 25, sqrt(5^2/311))-pnorm(18.5, 25, sqrt(5^2/311)))
## [1] 0.6378448
Una compañía de seguros de autos cree que la proporción de accidentes automovilísticos con adolescentes al volante es del 30%. Para analizar su supuesto, la compañía decide comprobar los registros policiales de 582 accidentes automovilísticos seleccionados al azar y ver si estos accidentes tuvieron o no adolescentes al volante.
¿Qué modelo de probabilidad sigue X: un accidente automovilístico tiene un adolescente al volante o no, X = {0,1}?
Experimento: Seleccionar un accidente automovilístico aleatoriamente y ver si tiene un adolescente al volante o no.
Dada la definición de X, esta v.a. tiene distribución Bernoulli: \(X \sim Bernoulli(p)\)
Defina \(\bar{x}\) en palabras, según el problema.
\(\bar{x}\), el promedio de x en una muestra (de tamaño n=582 según el enunciado) en términos del problema es: la proporción de accidentes automovísticos que tienen adolescentes al volante en la muestra de 582 accidentes automovilísticos.
¿Qué modelo de probabilidad podemos utilizar para \(\bar{x}\)? Justificar.
Ya que se estudia una muestra aleatoria grande (n=582), podemos utilizar el Teorema del Límite Central (TLC) para modelar \(\bar{x}\) : \[\bar{x} \sim Normal(\mu_x, \sigma_x^2/n) \]
De \(X \sim Bernoulli(p)\), obtenemos \(\mu_x=E(X)=p\) y \(\sigma_x^2=Var(X)=p*(1-p)\)
\[\bar{x} \sim Normal(p, p(1-p)/n) \] Donde \(p=0.3\) según el problema (supuesto de la compañía.).
¿Cuál es la probabilidad de que la proporción de accidentes con adolescentes al volante en la muestra sea de 15.6% o menos?
Calculamos \(P(\bar{x}\le 0.156)\)
pnorm(0.156, 0.3, sqrt(0.3*0.7/582))
## [1] 1.717316e-14
La probabilidad de que la proporción de accidentes con adolescentes al volante en la muestra sea de 0.156 o menos es muy pequeña: \(1.7*10^-14\).
En el estudio, se encontró que 91 de los accidentes habían tenido adolescentes al volante. ¿Cree que el supuesto de la compañía de seguros es correcto según lo encontrado en los datos? Justificar.
A partir de los datos, calculemos la proporción de accidentes con adolescentes al volante:
91/582
## [1] 0.1563574
Según lo calculado en el item anterior, la probabilidad de obtener una proporción de 0.156 o algo menor es baja \(1.7*10^-14\). Es decir, es muy poco probable que la proporción en la muestra sea 0.156 o menos según los supuestos.
De aquí, se observa que el modelo no parece ser consistente con los datos, y por lo tanto, el supuesto de la compañía no parece ser correcto.
x <- seq(0.1,0.5,by=0.005)
fx <- dnorm(x, 0.3, sqrt(0.3*0.7/582))
plot(x,fx,
xlab="x_bar: proporción muestral",
ylab="f(x_bar): función de densidad de probabilidad",
type='l')
abline(v=0.156, col=2)
legend("topright",c("Modelo f(x_bar)","X_bar Según datos"),pch=15,
col=1:2,bty = "n")
La línea roja representa el porcentaje de accidentes con adolescentes al volante obtenido de la muestra (91/582). Se observa que el resultado obtenido en la muestra está en una zona de baja probabilidad según el modelo para \(\bar{x}\)