P1: Frutas

Sea Y la v.a. que describe el número de días a la semana que se consumo frutas y sea X si la persona es hombres (X=1) o si es mujer (X=0). Supongamos que el consumo de frutas en dos días cualquier son independientes y que el modelo conjunto que describe a (X,Y) a la población es de la forma:

\[ \begin{equation} p(x,y)=P(x=X,y=Y) = \left \{\begin{array}{ll} 0.55 {7\choose y} 0.4^y 0.6^{7-y} , x=1;\\ 0.45 {7\choose y} 0.7^y 0.3^{7-y} , x=0 \end{array} \right. \end{equation} \]

Definimos variables:

  • X: Sexo de la persona. X=1 (hombre)
  • Y: El número de días que se consumió frutas a la semana. \(y=\{0,1,2...,7\}\)

Item 1

Si seleccionó una persona al azar y es hombre. La probabilidad que consuma frutas más de cuatro días a la semana es 0.289.

Calculemos P(Y>4|X=1): Probabilidad de consumir frutas más de cuatro días a la semana si se sabe que es hombre.

Para este calculo, necesitamos ver la distirbución condicional de Y dado X=1: \[f_{Y|X=1}(y)=P(Y=y|X=1)=\frac{P(Y=y,X=1)}{P(X=1)}\]

De aqui, vemos que es necesario tener no solo la función conjunta \(P(Y=y,X=1)\) sino también \(P(X=1)\), la función marginal de X para x=1.

Función de probabilidad marginal para X:

\[f_x(X) = P(X=x) = \sum^{7}_{y=0}f_{XY}(x,y)\] \[f_x(X) = P(X=x) = \sum^{7}_{y=0}P(x=x,y=y)\] Veamos para cada valor de X:

  • Para X=1:

\[ \begin{array} \\ f_X(1) = P(X=1) &=& \sum^{7}_{y=0}0.55 {7\choose y} 0.4^y 0.6^{7-y} \\ &=& 0.55 \sum^{7}_{y=0}{7\choose y} 0.4^y 0.6^{7-y} \\ &=& 0.55 \end{array} \]

Con este resultado, podemos determinar la función condicional de Y dado X=1.

Función de probabilidad condicional de Y dado X=1:

\[ \begin{array}\\ f_{Y|X=1}(y) &=& P(Y=y|X=1) \\ &=& \frac{P(Y=y,X=1)}{P(X=1)} \\ &=& \frac{0.55 {7\choose y} 0.4^y 0.6^{7-y}}{0.55} \\ &=& {7\choose y} 0.4^y 0.6^{7-y} \end{array} \]

(Notemos que es una binomial con parámetros n=7 y p=0.4). Y|X=1 (Y dado X=1) tiene distribución binomial con parámetros n=7 y p=0.4.

Podemos calcular \(P(Y>4|X=1)\) con R:

\[P(Y>4|X=1)=1-P(Y \le 4|X=1)\]

1 - pbinom(4, 7, 0.4)
## [1] 0.096256

Resuesta:

  • La afirmación dada es falsa. Vemos que P(Y>4|X=1)=0.096.

Item 2

Si seleccionó una persona al azar y es mujer. La probabilidad que consuma frutas no más de tres días a la semana es 0.126.

Ahora, la probabilidad que debemos calcular es \(P(Y\le3|X=0)\)

Función de probabilidad condicional de Y dado X=0

\[ \begin{array}\\ f_{Y|X=0}(y) &=& P(Y=y|X=0) \\ &=& \frac{P(Y=y,X=0)}{P(X=0)} \\ &=& \frac{0.45 {7\choose y} 0.7^y 0.3^{7-y}}{0.45} \\ &=& {7\choose y} 0.7^y 0.3^{7-y} \end{array} \]

(Notemos que es una binomial con parámetros n=7 y p=0.7). Y|X=0 (Y dado X=0) tiene distribución binomial con parámetros n=7 y p=0.7.

Podemos calcular \(P(Y\le3|X=0)\) con R:

pbinom(3, 7, 0.7)
## [1] 0.126036

Respuesta:

  • La afirmación dada es verdadera. Vemos que \(P(Y\le3|X=0)=0.126\)

Item 3.

Si seleccionamos un peruano al azar, se espera que este consuma frutas 2.745 días a la semana

Para comprobar este enunciado debemos ver la esperanza del consumo de frutas: \(E(Y)\)

Para ello, veamos la funcion de probabilidad marginal de y.

Función de probabilidad marginal para y:

\[f_Y(y) = P(Y=y) = \sum^{1}_{x=0}f_{XY}(x,y)\] Reemplazamos utilizando la función conjunta.

\[ \begin{array} \\ f_Y(y) = P(Y=y) &=& 0.55 {7\choose y} 0.4^y 0.6^{7-y} + 0.45 {7\choose y} 0.7^y 0.3^{7-y} \end{array} \]

\[ \begin{array} \\ E(Y)&=&\sum^{7}_{y=0}yf_Y(y) \\ &=& \sum^{7}_{y=0}y(0.55 {7\choose y} 0.4^y 0.6^{7-y} + 0.45 {7\choose y} 0.7^y 0.3^{7-y}) \\ &=& 0.55 \sum^{7}_{y=0}y{7\choose y} 0.4^y 0.6^{7-y} + 0.45 \sum^{7}_{y=0}y{7\choose y} 0.7^y 0.3^{7-y} \\ \end{array} \] Note que \(\sum^{7}_{y=0}y{7\choose y} 0.4^y 0.6^{7-y}\) es la esperanza de una binomial (\(Y|X=0\)). Y además, \(\sum^{7}_{y=0}y{7\choose y} 0.4^y 0.6^{7-y}\) es la esperanza de otra binomial (\(Y|X=1\))

Podemos escribirlo de la siguiente manera:

\[ \begin{array} \\ E(Y) = 0.55E(Y|X=1) + 0.45E(Y|X=0) \end{array} \]

\[E(Y) = 0.55 (7*0.4) + 0.45(7*0.7)\] \[E(Y) = 3.745\]

Respuesta:

  • La afirmación dada es falsa. La esperanza del numero de los días consumiendo frutas es de \(E(Y) = 3.745\).

Item 4

Los datos frutasperu.csv contiene los datos de una encuesta a 100 personas. Grafique las distribuciones marginales empírica para los hombres y mujeres vs. las distribuciones condicionales descritas por el modelo.

Piden condicional de Y según sexo en los datos vs el modelo.

  • Opción 1:
datos <- read.csv("frutasperu.csv")

datos_hombres <- datos[datos$sexo==1,]
datos_mujeres <- datos[datos$sexo==0,]
tabla_all <- prop.table(table(datos$dias))
tabla_hombres <- prop.table(table(datos_hombres$dias))
tabla_mujeres  <- prop.table(table(datos_mujeres$dias))

# Modelos condicionales de Y dado X:
y  <- 0:7
fy_x_1 <- dbinom(y,7,0.4) 
fy_x_0 <- dbinom(y,7,0.7)
fy <- 0.55*fy_x_0 + 0.45*fy_x_1

# Según el modelo, fY dado X=0:
plot(y,fy_x_0, main="Modelo vs Datos - Mujeres",
     ylab="Probabilidad/Proporción",ylim=c(0,1),
     xlab="Y",type="p", col=2)
# Según datos, fY dado X=0:
points(tabla_mujeres,type="h",col=1)
legend("topleft",c("Modelo - fy|x=0","Datos"),pch=15,
       col=c(2,1),bty = "n")

# Según el modelo, fY dado X=1:
plot(y,fy_x_1, main="Modelo vs Datos - Hombres",
     ylab="Probabilidad/Proporción",ylim=c(0,1),
     xlab="Y",type="p", col=2)
# Según los datos, fy dado X=1:
points(tabla_hombres,type="h",col=1)
legend("topleft",c("Modelo - fy|x=1","Datos-fy|x=1"),pch=15,
       col=2:1,bty = "n")

  • Otra opción:
# Según,  marginal de fx según los datos.
plot(tabla_all, main="Modelo marginal vs Condicionales",
     ylab="Probabilidad/Proporción",ylim=c(0,1),
     xlab="Y",type="h", col=1)
# Según datos, fY dado X=0:
points(y, fy_x_1,type="p",col=2)
# Según datos, fY dado X=1:
points(y, fy_x_0,type="p",col=3)
legend("topleft",c("Marginal de Y (Datos)","Condicional fy|Hombres (Modelo)","Condicional fy|Mujeres (Modelo)"),pch=15, col=1:3,bty = "n")

P2: IMC

Se desea modelar el índice de masa corporal de padres de familia. Se tiene como objetivo definir el 20% de peruanos con mayor índice de masa corporal. Se tiene disponible la los datos del estudio nutricional en el norte del país (bmi.papa). Responda verdadero y falso (donde corresponda) y responda brevemente

Item 1

Si asumimos un modelo normal con media 25 y desviación estándar 5 para el IMC en la la población, el punto de corte sería 29.21 kg/m2.

Sea X: el IMC de padres de familia. Según el enunciado: \(X \sim Normal(\mu=25,\sigma^2=5^2)\)

El punto de corte para definir el 20% de peruanos con mayor índice de masa corporal sería el percentil 80: cuantil 0.8.

qnorm(0.8, 25, 5)
## [1] 29.20811

Respuesta:

  • Verdadero. El cuantil 0.8 es 29.21.

Item 2

Si asumimos un modelo gamma con media 25 y desviación estándar 5 para el IMC en la población, el punto de corte sería 29.08 kg/m2.

Según el enunciado conocemos el modelo, su media y varianza, es decir:

  • \(X \sim Gamma(\alpha,\lambda)\)
  • \(\alpha/\lambda = 25\)
  • \(\alpha/\lambda^2 = 5^2\)

Resolviendo estas ecuaciones, obtenemos: \(\lambda=1\) y \(\alpha=25\)

El punto de corte para definir el 20% de peruanos con mayor índice de masa corporal sería el percentil 80: cuantil 0.8.

qgamma(0.8, 25, 1)
## [1] 29.0819

Respuesta:

  • Verdadero. El cuantil 0.8 es 29.08.

Item 3

Usando los datos y asumiendo un modelo normal, estime los parámetros con el método de momentos. Luego, encuentre el punto de corte que ayude a definir el 20% de peruanos con mayor índice de masa corporal.

Asumiendo: \(X \sim Normal(\mu,\sigma^2)\)

Por el método de momentos, resolvemos el sistema de ecuaciones que compara los momentos del modelo con los muestrales para obtener los estimadores:

Ecuaciones: \[E(X)=\bar{x}\]

\[E(X^2)=\bar{x^2}\] Reemplazando E(X) y E(X2) en función de los parámetros \(\mu\) y \(\sigma^2\)

\[\mu=\bar{x}\]

\[\sigma^2 + \mu^2=\bar{x^2}\]

Obtenemos los estimadores para \(\mu\) y \(\sigma^2\)

\[\hat{\mu}=\bar{x}\] \[\hat{\sigma^2}=\bar{x^2} - \bar{x}^2\]

Estimamos con los datos, usando estos resultados:

datos <- read.csv("datos_bmi.csv")

x_bar = mean(datos$bmi.papa)
x2_bar = mean(datos$bmi.papa^2)

# Estimación para \mu:
u_estimado = x_bar

# Estimación para \sigma^2:
sigma2_estimado = x2_bar - x_bar^2

Estimaciones para \(\mu\) y \(\sigma^2\) con el método de momentos es: 26.4707396 y 17.9440633 respectivamente.

Con estas estimaciones, calculamos ahora el cuantil 0.8:

  • Cuantil 0.8 para X: \(X \sim Normal(\mu=26.47, \sigma^2 = 17.94)\):
qnorm(0.8, 26.47, sqrt(17.94))
## [1] 30.03474

Item 4

Usando los datos y asumiendo un modelo gamma, estime los parámetros con el método de momentos. Luego, encuentre el punto de corte que ayude a definir el 20% de peruanos con mayor índice de masa corporal.

Resolución similar al item anterior.

Item 5

Después de meditar mucho los investigadores no desean asumir un modelo en particular pero si creen que la media y desviación estándar deben ser 25 y 5 kg/m2, respectivamente. ¿Cuán probable es que en una encuesta de 311, la media sea mayor a 29.21 kg/m2?

Nos dicen lo siguiente:

\(\bar{X} \sim F(\mu=25,\sigma^2=5^2)\) (Distriución desconocida)

Se puede utilizar el Teorema del límite central (TLC) para modelar la media de la muestra donde n=311. Entonces:

\(\bar{X} \sim Normal(\mu=25,\sigma^2=5^2/311)\)

Utilizamos este modelo para calcular la probabilidad pedida \(P(\bar{X}>29.21)\):

1 - pnorm(29.21, 25, sqrt(5^2/311))
## [1] 0

Item 6

Se sabe que un IMC adecuado se encuentra entre 18.5 y 24.9 kg/m2. ¿Cuán probable es que, en una encuesta de 311, la media de los IMC se encuentre fuera de ese intervalo?

Se pide \(P(\{\bar{X}<18.5\} \cup \{\bar{X}>24.9\} )= 1 - P(18.5 \le \bar{X} \le 24.9\})\):

1 - (pnorm(24.9, 25, sqrt(5^2/311))-pnorm(18.5, 25, sqrt(5^2/311)))
## [1] 0.6378448

P3: Autos

Una compañía de seguros de autos cree que la proporción de accidentes automovilísticos con adolescentes al volante es del 30%. Para analizar su supuesto, la compañía decide comprobar los registros policiales de 582 accidentes automovilísticos seleccionados al azar y ver si estos accidentes tuvieron o no adolescentes al volante.

Item 1

¿Qué modelo de probabilidad sigue X: un accidente automovilístico tiene un adolescente al volante o no, X = {0,1}?

Experimento: Seleccionar un accidente automovilístico aleatoriamente y ver si tiene un adolescente al volante o no.

  • X: El accidente automovilístico tiene un adolescente al volante o no. X = {0,1}
  • X = 1, el accidente automovilístico tiene un adolescente al volante.

Dada la definición de X, esta v.a. tiene distribución Bernoulli: \(X \sim Bernoulli(p)\)

Item 2

Defina \(\bar{x}\) en palabras, según el problema.

\(\bar{x}\), el promedio de x en una muestra (de tamaño n=582 según el enunciado) en términos del problema es: la proporción de accidentes automovísticos que tienen adolescentes al volante en la muestra de 582 accidentes automovilísticos.

Item 3

¿Qué modelo de probabilidad podemos utilizar para \(\bar{x}\)? Justificar.

Ya que se estudia una muestra aleatoria grande (n=582), podemos utilizar el Teorema del Límite Central (TLC) para modelar \(\bar{x}\) : \[\bar{x} \sim Normal(\mu_x, \sigma_x^2/n) \]

De \(X \sim Bernoulli(p)\), obtenemos \(\mu_x=E(X)=p\) y \(\sigma_x^2=Var(X)=p*(1-p)\)

\[\bar{x} \sim Normal(p, p(1-p)/n) \] Donde \(p=0.3\) según el problema (supuesto de la compañía.).

Item 4:

¿Cuál es la probabilidad de que la proporción de accidentes con adolescentes al volante en la muestra sea de 15.6% o menos?

Calculamos \(P(\bar{x}\le 0.156)\)

pnorm(0.156, 0.3, sqrt(0.3*0.7/582))
## [1] 1.717316e-14

La probabilidad de que la proporción de accidentes con adolescentes al volante en la muestra sea de 0.156 o menos es muy pequeña: \(1.7*10^-14\).

Item 5

En el estudio, se encontró que 91 de los accidentes habían tenido adolescentes al volante. ¿Cree que el supuesto de la compañía de seguros es correcto según lo encontrado en los datos? Justificar.

A partir de los datos, calculemos la proporción de accidentes con adolescentes al volante:

91/582
## [1] 0.1563574

Según lo calculado en el item anterior, la probabilidad de obtener una proporción de 0.156 o algo menor es baja \(1.7*10^-14\). Es decir, es muy poco probable que la proporción en la muestra sea 0.156 o menos según los supuestos.

De aquí, se observa que el modelo no parece ser consistente con los datos, y por lo tanto, el supuesto de la compañía no parece ser correcto.

  • Otra opción para observar esto es graficando el modelo de probabilidad para \(\bar{X}\):
x <- seq(0.1,0.5,by=0.005)
fx <- dnorm(x, 0.3, sqrt(0.3*0.7/582))
plot(x,fx,
     xlab="x_bar: proporción muestral",
     ylab="f(x_bar): función de densidad de probabilidad",
     type='l')
abline(v=0.156, col=2)
legend("topright",c("Modelo f(x_bar)","X_bar Según datos"),pch=15,
       col=1:2,bty = "n")

La línea roja representa el porcentaje de accidentes con adolescentes al volante obtenido de la muestra (91/582). Se observa que el resultado obtenido en la muestra está en una zona de baja probabilidad según el modelo para \(\bar{x}\)