1. Suponga que si \(\theta = i\), entonces \(y\) tiene una distribución Normal con media \(i\) y desviación estándar \(\sigma\), para \(i = 1,2\). Además, suponga que \(\textsf{Pr}(\theta = 1) = \textsf{Pr}(\theta = 2) = 0.5\).

    1. Escriba una expresión general para \(p(y)\) (densidad marginal de \(y\)) y dibújela para \(\sigma = 2\).
    2. Calcule \(\textsf{Pr}(\theta = 1\mid y = 1)\) y \(\textsf{Pr}(\theta = 2\mid y = 1)\) para \(\sigma = 2\).
  2. Suponga que la urna \(C\) está llena de 60% de balotas verdes y 40% de balotas rojas, y que la urna \(S\) está llena de 40% de balotas verdes y 60% de balotas rojas. Alguien lanza una moneda y selecciona una balota de la urna \(C\) o la urna \(S\) dependiendo de si la moneda cae cara o sello, respectivamente. Sea \(x\) igual a 1 si la moneda cae cara y 0 si la moneda cae sello, y sea \(y\) igual a 1 si la balota es verde y 0 si la balota es roja.

    1. Calcule \(\textsf{Var}(y)\), \(\textsf{Var}(y\mid x = 0)\) y \(\textsf{Var}(y\mid x = 1)\).
    2. Considerando la varianza como una medida de la incertidumbre, explique por qué una de estas varianzas es mayor que las otras.
  3. Por lo general, los estadísticos tienden a tener personalidades tímidas con más frecuencia que los economistas. Se cuantifica esta observación asumiendo que el 80% de los estadísticos son tímidos, pero el porcentaje correspondiente entre los economistas es sólo del 15%. A las conferencias sobre econometría asisten casi exclusivamente economistas y estadísticos, y la mayoría de los participantes son economistas. Se cuantifica esta observación asumiendo que el 90% de los asistentes son economistas (y el resto estadísticos).

    1. Suponga que Usted (un físico, digamos) va a una conferencia de econometría y entabla una conversación con la primera persona que conoce (al azar) y descubre que esta persona es tímida. El objetivo de este problema es mostrar que la probabilidad (condicional) \(p\) de que esté hablando con un estadístico, dados estos datos y los antecedentes, es de aproximadamente 37%. Sea \(St =\) “la persona es estadística”, \(E =\) ’’la persona es economista” y \(Sh =\) “la persona es tímida”. Muestre que: \[ \frac{ \textsf{Pr} ( St \mid Sh ) }{ \textsf{Pr} ( E \mid Sh ) } = \frac{ \textsf{Pr} ( St ) }{ \textsf{Pr} ( E ) } \cdot \frac{ \textsf{Pr} ( Sh \mid St ) }{ \textsf{Pr} ( Sh \mid E ) }\,. \]
    2. Muestre que la posibilidad relativa posterior \(o\) a favor de \(St\) sobre \(E\) dados los datos, es \(o = \frac{ 16 }{ 27 } \approx 0.593\).
    3. Muestre que la probabilidad pedida en este problema es \(p = \frac{ o }{ 1 + o } = \frac{ 16 }{ 43 } \approx 0.372\).
    4. Alguien dice, “esa probabilidad no puede ser correcta: el 80% de los estadísticos son tímidos, frente al 15% de los economistas, por lo que su probabilidad de hablar con un estadístico debe ser superior al 50%”. Explique por qué esta línea de razonamiento es incorrecta y por qué \(p\) debería ser menor del 50%.
  4. Suponga que un nuevo paciente viene a Usted (un médico) en 1986 queriendo hacerse la prueba del VIH. La prueba de detección del VIH que se utilizó en 1986 por excelencia se denominó ensayo inmunoabsorbente ligado a enzimas (ELISA, Enzyme-Linked ImmunoSorbent Assay). Sea \(B =\) “el paciente es VIH positivo” y \(A =\) “ELISA indica que es VIH positivo”. Sea \(p = 0.01\) la prevalencia del VIH entre personas similares a este paciente en 1986 y sean \(\epsilon=0.95\) y \(\pi=0.98\) la sensibilidad (probabilidad de que la prueba identifique como enfermo a aquél que efectivamente lo está) y especificidad (probabilidad de que la prueba identifique como no enfermo a aquél que efectivamente no lo está) de ELISA en 1986, respectivamente.

    1. Escriba fórmulas explícitas en términos de \(p\), \(\epsilon\) y \(\pi\) para el valor predictivo positivo (PPV, positive predictive value), i.e. \(\textsf{P}(B\mid A)\), y el valor predictivo negativo (NPV, negative predictive value), i.e. \(\textsf{P}(B^\text{c}\mid A^\text{c})\).
    2. Manteniendo \(\epsilon\) y \(\pi\) constantes, obtenga expresiones para el PPV y el NPV como función de \(p\). Grafique estas funciones para \(0<p<0.1\). ¿Qué tan grande tendría que ser \(p\) para que el PPV exceda 0.5 y 0.75? ¿Cuál sería el NPV para esos valores de \(p\)?
    3. Muestre que el NPV se aproxima a 1 a medida que \(\epsilon\) se aproxima a 1 con \(\pi=0.98\), pero lo más grande que se puede hacer el PPV es 0.33557. Similarmente, muestre que el PPV se aproxima a 0.76183 a medida que \(\pi\) se aproxima a 0.997 con \(\epsilon=0.95\).
  5. Para el ejemplo de motivación acerca de la prevalencia de una enfermedad, considere las siguientes distribuciones previas: \(\theta\sim\textsf{Beta}(2,20)\), \(\theta\sim\textsf{Uniforme}(0,1)\) y \(\theta\sim\textsf{Beta}(1/2,1/2)\).

    1. Grafique las distribución previa junto con la posterior en cada caso.
    2. Calcule \(\textsf{P}(0.05 < \theta < 0.2\mid y)\) y \(\textsf{E}(\theta\mid y)\) en cada caso.
    3. Compare los resultados obtenidos.
  6. Sea \(y\mid x\sim\textsf{Poi}(x)\) y \(x\sim\textsf{Exp}(\lambda)\).

    1. Muestre que la distribución marginal de \(y\) es: \[ p(y) = \frac{\lambda}{(\lambda+1)^{y+1}}\,,\qquad y = 0,1,\ldots\qquad\lambda>0\,. \]
    2. Simule \(N=100,000\) muestras independientes e idénticamente distribuidas de \(y\) con \(\lambda = 1\), y compare la distribución empírica correspondiente con la distribución exacta obtenida en el numeral anterior.
  7. Sea \(X\) una variable aleatoria con valor esperado \(\textsf{E}(X)\) y sea \(Y\) cualquier variable aleatoria definida en el mismo espacio de probabilidad. Mostrar que \[ \textsf{E}(X) = \textsf{E}[\textsf{E}(X | Y)]\,. \]

  8. Sea \(X\) una variable aleatoria con varianza \(\textsf{Var}(X)\) y sea \(Y\) cualquier variable aleatoria definida en el mismo espacio de probabilidad. Mostrar que \[ \textsf{Var}(X) = \textsf{E}[\textsf{Var}(X \mid Y)] + \textsf{Var}(\textsf{E}[X \mid Y])\,. \]

  9. Sea \(X\) una variable aleatoria con distribución uniforme en el intervalo \((0, 1)\). Determine la distribución de \(Y = g(X) = \sqrt{X}\).

  10. Sean \(X_1\) y \(X_2\) dos variables aleatorias independientes con distribución normal estándar. Determine la distribución conjunta de \(Y_1 = X_1 + X_2\) y \(Y_2 = X_1 - X_2\).

Solución

  1. Suponga que si \(\theta = i\), entonces \(y\) tiene una distribución Normal con media \(i\) y desviación estándar \(\sigma\), para \(i = 1,2\). Además, suponga que \(\textsf{Pr}(\theta = 1) = \textsf{Pr}(\theta = 2) = 0.5\).
  1. Escriba una expresión general para \(p(y)\) (densidad marginal de \(y\)) y dibújela para \(\sigma = 2\)..

Se tiene que \(p(y\mid\theta)=\textsf{N}(y\mid\theta,\sigma^2)\) y \(p(\theta)=0.5\), para \(\theta\in\Theta=\{1,2\}\). Por lo tanto la densidad marginal de \(y\) es: \[ \begin{align*} p(y) &= \sum_{\Theta} p(y\mid\theta)\,p(\theta)\\ &=0.5\textsf{N}(y\mid 1,\sigma^2)+0.5\textsf{N}(y\mid 2,\sigma^2) \end{align*} \] Además, el gráfico de \(p(y)\) si \(\sigma=2\) es:

py <- function(y) 0.5*dnorm(y,1,2) + 0.5*dnorm(y,2,2)
curve(expr = py, from = -7, to = 10, lwd = 2, col = 4, xlab = "y", ylab = "p(y)")

  1. Calcule \(\textsf{Pr}(\theta = 1\mid y = 1)\) y \(\textsf{Pr}(\theta = 2\mid y = 1)\) para \(\sigma = 2\).

Usando el Teorema de Bayes, se tiene que con \(y=1\) y \(\sigma=2\): \[ \begin{align*} p(\theta\mid y = 1) &= \frac{p(y=1\mid\theta)p(\theta)}{p(y=1)} \\ &= \frac{0.5\textsf{N}(y=1\mid \theta,2^2)}{0.5\textsf{N}(y=1\mid 1,2^2)+0.5\textsf{N}(y=1\mid 2,2^2)} \\ &= \frac{\textsf{N}(y=1\mid \theta,2^2)}{\textsf{N}(y=1\mid 1,2^2)+\textsf{N}(y=1\mid 2,2^2)} \end{align*} \] Así, \(\textsf{Pr}(\theta = 1\mid y = 1)=0.5312\) y \(\textsf{Pr}(\theta = 2\mid y = 1)=0.4688\).

# Pr(theta = 1 | y = 1)
dnorm(1,1,2)/(dnorm(1,1,2) + dnorm(1,2,2))
## [1] 0.5312094
# Pr(theta = 2 | y = 1)
dnorm(1,2,2)/(dnorm(1,1,2) + dnorm(1,2,2))
## [1] 0.4687906
  1. Suponga que la urna \(C\) está llena de 60% de balotas verdes y 40% de balotas rojas, y que la urna \(S\) está llena de 40% de balotas verdes y 60% de balotas rojas. Alguien lanza una moneda y selecciona una balota de la urna \(C\) o la urna \(S\) dependiendo de si la moneda cae cara o sello, respectivamente. Sea \(x\) igual a 1 si la moneda cae cara y 0 si la moneda cae sello, y sea \(y\) igual a 1 si la balota es verde y 0 si la balota es roja.
  1. Calcule \(\textsf{Var}(y)\), \(\textsf{Var}(y\mid x = 0)\) y \(\textsf{Var}(y\mid x = 1)\).

Se tiene que \(y\mid x = 0\sim\textsf{Ber}(0.4)\) y \(y\mid x = 1\sim\textsf{Ber}(0.6)\), dado que el “éxito” en este experimento de Bernoulli consiste en que el color de la balota sea Verde. De otra parte, aplicando el Teorema de la Probabilidad Total, se tiene que: \[ \begin{align*} p(y=1) &= \sum_{x\in\{0,1\}} p(y=1\mid x)p(x)\\ &= p(y=1\mid x = 0)p(x=0) + p(y=1\mid x = 1)p(x=1) \\ &= (0.4)(0.5) + (0.6)(0.5) \\ &= 0.5 \end{align*} \] y por lo tanto la distribución marginal de \(y\) es \(y\sim\textsf{Ber}(0.5)\). Así, \(\textsf{Var}(y)=(0.5)(0.5)=0.25\), \(\textsf{Var}(y\mid x = 0)=(0.4)(0.6)=0.24\), \(\textsf{Var}(y\mid x = 1)=(0.6)(0.4)=0.24\).

  1. Considerando la varianza como una medida de la incertidumbre, explique por qué una de estas varianzas es mayor que las otras.

Intuitivamente, se tiene que \(\textsf{Var(y)}\geq\textsf{Var}(y\mid x)\) dado que la incertidumbre sin condicionar en valores específicos de \(x\) (marginal) acerca de \(y\) debe ser mayor o igual que la incertidumbre acerca de \(y\) bajo condiciones específicas de \(x\). Una demostración formal se puede hacer utilizando la Ley de la Varianza Total (ver https://en.wikipedia.org/wiki/Law_of_total_variance).

  1. Por lo general, los estadísticos tienden a tener personalidades tímidas con más frecuencia que los economistas. Se cuantifica esta observación asumiendo que el 80% de los estadísticos son tímidos, pero el porcentaje correspondiente entre los economistas es sólo del 15%. A las conferencias sobre econometría asisten casi exclusivamente economistas y estadísticos, y la mayoría de los participantes son economistas. Se cuantifica esta observación asumiendo que el 90% de los asistentes son economistas (y el resto estadísticos).
  1. Suponga que Usted (un físico, digamos) va a una conferencia de econometría y entabla una conversación con la primera persona que conoce (al azar) y descubre que esta persona es tímida. El objetivo de este problema es mostrar que la probabilidad (condicional) \(p\) de que esté hablando con un estadístico, dados estos datos y los antecedentes, es de aproximadamente 37%. Sea \(St =\) “la persona es estadística”, \(E =\) ’’la persona es economista” y \(Sh =\) “la persona es tímida”. Muestre que: \[ \frac{ \textsf{Pr} ( St \mid Sh ) }{ \textsf{Pr} ( E \mid Sh ) } = \frac{ \textsf{Pr} ( St ) }{ \textsf{Pr} ( E ) } \cdot \frac{ \textsf{Pr} ( Sh \mid St ) }{ \textsf{Pr} ( Sh \mid E ) }\,. \]

Aplicando el Teorema de Bayes se tiene que: \[ \textsf{Pr}(St\mid Sh) = \frac{\textsf{Pr}(Sh\mid St)\textsf{Pr}(St)}{\textsf{Pr}(Sh)} \qquad\text{y}\qquad \textsf{Pr}(E\mid Sh) = \frac{\textsf{Pr}(Sh\mid E)\textsf{Pr}(E)}{\textsf{Pr}(Sh)} \] y por lo tanto, haciendo el cociente entre la primera expresión y la segunda, se logra el resultado deseado.

  1. Muestre que la posibilidad relativa posterior \(o\) a favor de \(St\) sobre \(E\) dados los datos, es \(o = \frac{ 16 }{ 27 } \approx 0.593\).

Utilizando el resultado anterior junto con los antecedentes (supuestos y juicios de valor) \(\mathcal{B}\) para este problema, se tiene que: \[ o = \frac{ \textsf{Pr} ( St \mid Sh ) }{ \textsf{Pr} ( E \mid Sh ) } = \frac{ \textsf{Pr} ( St ) }{ \textsf{Pr} ( E ) } \cdot \frac{ \textsf{Pr} ( Sh \mid St ) }{ \textsf{Pr} ( Sh \mid E ) } = \frac{0.1}{0.9}\cdot\frac{0.8}{0.15} =0.5925926 \,. \]

  1. Muestre que la probabilidad pedida en este problema es \(p = \frac{ o }{ 1 + o } = \frac{ 16 }{ 43 } \approx 0.372\).

Dado que \(o=p/(1-p)\) (esta cantidad se conoce como odds ratio), despejando para \(p\) se tiene que \(o-op = p\) y por lo tanto \(p = o/(1+o)\). Así, se tiene que \[ p = \textsf{Pr} ( St \mid Sh ) = \frac{0.5925926}{1+0.5925926}= 0.372093\,. \]

  1. Alguien dice, “esa probabilidad no puede ser correcta: el 80% de los estadísticos son tímidos, frente al 15% de los economistas, por lo que su probabilidad de hablar con un estadístico debe ser superior al 50%”. Explique por qué esta línea de razonamiento es incorrecta y por qué \(p\) debería ser menor del 50%.

Esa línea de razonamiento es incorrecta porque las probabilidades se calculan bajo puntos de referencia diferentes. En el primer caso, es bajo la condición de la profesión, en el segundo bajo la condición de que es tímido.

  1. Suponga que un nuevo paciente viene a Usted (un médico) en 1986 queriendo hacerse la prueba del VIH. La prueba de detección del VIH que se utilizó en 1986 por excelencia se denominó ensayo inmunoabsorbente ligado a enzimas (ELISA, Enzyme-Linked ImmunoSorbent Assay). Sea \(B =\) “el paciente es VIH positivo” y \(A =\) “ELISA indica que es VIH positivo”. Sea \(p = 0.01\) la prevalencia del VIH entre personas similares a este paciente en 1986 y sean \(\epsilon=0.95\) y \(\pi=0.98\) la sensibilidad (probabilidad de que la prueba identifique como enfermo a aquél que efectivamente lo está) y especificidad (probabilidad de que la prueba identifique como no enfermo a aquél que efectivamente no lo está) de ELISA en 1986, respectivamente.
  1. Escriba fórmulas explícitas en términos de \(p\), \(\epsilon\) y \(\pi\) para el valor predictivo positivo (PPV, positive predictive value), i.e. \(\textsf{P}(B\mid A)\), y el valor predictivo negativo (NPV, negative predictive value), i.e. \(\textsf{P}(B^\text{c}\mid A^\text{c})\).

En el caso del PPV, se tiene que \[ \textsf{P}(B\mid A)=\frac{\textsf{P}(B)\,\textsf{P}(A\mid B)}{\textsf{P}(A)}\,, \] pero, \[ \begin{align*} \textsf{P}(A) &= \textsf{P}(B)\textsf{P}(A|B) + \textsf{P}(B^\text{c})\textsf{P}(A\mid B^\text{c})\\ &= p\,\epsilon + (1-p)(1-\pi)\\ &= p\,\epsilon + 1-\pi -p +p \pi\\ &= p(\epsilon+\pi-1) + 1-\pi\,, \end{align*} \] y en consecuencia, \[ \text{PPV} = \frac{p\,\epsilon}{p(\epsilon+\pi-1) + 1-\pi}\,. \]

De otra parte, en el caso del NPV, se tiene que \[ \textsf{P}(B^\text{c}\mid A^\text{c})=\frac{\textsf{P}(B^\text{c})\,\textsf{P}(A^\text{c}|B^\text{c})}{\textsf{P}(A^\text{c})}\,, \] pero, \[ \begin{align*} \textsf{P}(A^\text{c}) &= 1 - \textsf{P}(A)\\ &= 1 - [p(\epsilon+\pi-1) + 1-\pi]\\ &= 1 - p(\epsilon+\pi-1) - 1+\pi\\ &= \pi - p(\epsilon+\pi-1)\,, \end{align*} \] y en consecuencia, \[ \text{NPV}=\frac{(1-p)\pi}{\pi - p(\epsilon+\pi-1)}\,. \]

  1. Manteniendo \(\epsilon\) y \(\pi\) constantes, obtenga expresiones para el PPV y el NPV como función de \(p\). Grafique estas funciones para \(0<p<0.1\). ¿Qué tan grande tendría que ser \(p\) para que el PPV exceda 0.5 y 0.75? ¿Cuál sería el NPV para esos valores de \(p\)?

Si \(\epsilon=0.95\) y \(\pi=0.98\), entonces \[ \textsf{P}(B\mid A) = \frac{(0.95)p}{(0.95+0.98-1)p + 1-0.98} =\frac{(0.95)p}{(0.93)p + 0.02} =\frac{95p}{93p + 2}\,, \] y por lo tanto, \[ \text{PPV}(p) = \frac{95p}{93p + 2}\,. \] De la misma forma, \[ \textsf{P}(B^\text{c}\mid A^\text{c}) = \frac{(0.98)(1-p)}{0.98 - (0.95+0.98-1)p} = \frac{(0.98)(1-p)}{0.98 - (0.93)p} = \frac{98(1-p)}{98 - 93p}\,, \] y por lo tanto, \[ \text{NPV}(p)=\frac{98(1-p)}{98 - 93p}\,. \]

A continuación se dibuja estas funciones para \(0 < p < 0.1\).

De otra parte, para encontrar Qué tan grande tendría que ser \(p\) para que el PPV exceda 0.5 y 0.75, primero se debe encontrar la función inversa del PPV: \[ y=\frac{95p}{93p+2} \qquad\Rightarrow\qquad p=\frac{2y}{95-93y}\,, \] y por lo tanto, \[ p(PPV)=\frac{2PPV}{95-93PPV}\,, \] donde \(p(PPV)\) denota a \(p\) como función de PPV. Así, \(p\) tendría que ser mayor que \[ p(0.5)=\frac{2(0.5)}{95-93(0.5)}= 0.02062 \] para que el PPV de ELISA exceda a 0.5. Similarmente, \(p\) tendría que ser mayor que \[ p(0.75)=\frac{2(0.75)}{95-93(0.75)}= 0.05941 \] para que el PPV de ELISA exceda a 0.75.

Así, si \(\text{PPV}=0.5\), entonces \(p=0.02062\) y \[ \text{NPV}(0.02062)=\frac{98(1-0.02062)}{98 - 93(0.02062)}= 0.99893\,. \] De otra parte, si \(\text{PPV}=0.75\), entonces \(p=0.05941\) y \[ \text{NPV}(0.05941)=\frac{98(1-0.05941)}{98 - 93(0.05941)}= 0.99679\,. \]

  1. Muestre que el NPV se aproxima a 1 a medida que \(\epsilon\) se aproxima a 1 con \(\pi=0.98\), pero lo más grande que se puede hacer el PPV es 0.33557. Similarmente, muestre que el PPV se aproxima a 0.76183 a medida que \(\pi\) se aproxima a 0.997 con \(\epsilon=0.95\).

Manteniendo \(p=0.01\) y \(\pi=0.98\), se tiene que a medida que \(\epsilon\) se aproxima a 1, el NPV se aproxima a 1, pero lo más grande que se puede hacer el PPV es 0.336 aproximadamente. Este comportamiento se puede evidenciar en la parte final de la siguiente tabla, la cual se genera usando la expresión \[ \begin{align*} NPV&=\frac{(1-p)\pi}{\pi - p(\epsilon+\pi-1)}\\ &=\frac{(1-0.01)(0.98)}{0.98 - (0.01)(\epsilon+0.98-1)}\\ &=\frac{0.9702}{0.9802 -(0.01)\epsilon} \end{align*} \] y tomando valores de \(\epsilon\) aproximándose a 1. Cuando \(\epsilon=1\), se tiene que \[ NPV=\frac{0.9702}{0.9802 -(0.01)(1)}=1 \] y \[ \begin{align*} \text{PPV} &= \frac{p\,\epsilon}{p(\epsilon+\pi-1) + 1-\pi}\\ &=\frac{(0.01)(1)}{(0.01)(1+0.98-1) + 1-0.98}\\ &=0.33557. \end{align*} \]

\(\epsilon\) PPV NPV
0.980 0.33108 0.99979
0.981 0.33131 0.99980
0.982 0.33153 0.99981
0.983 0.33176 0.99982
0.984 0.33198 0.99984
0.985 0.33221 0.99985
0.986 0.33243 0.99986
0.987 0.33266 0.99987
0.988 0.33288 0.99988
0.989 0.33311 0.99989
0.990 0.33333 0.99990
0.992 0.33378 0.99992
0.993 0.33401 0.99993
0.994 0.33423 0.99994
0.995 0.33445 0.99995
0.996 0.33468 0.99996
0.997 0.33490 0.99997
0.998 0.33512 0.99998
0.999 0.33535 0.99999
1.000 0.3355 1.00000
  1. Para el ejemplo de motivación acerca de la prevalencia de una enfermedad, considere las siguientes distribuciones previas: \(\theta\sim\textsf{Beta}(2,20)\), \(\theta\sim\textsf{Uniforme}(0,1)\) y \(\theta\sim\textsf{Beta}(1/2,1/2)\).
  1. Grafique las distribución previa junto con la posterior en cada caso.

A continuación se dibujan la distribución previa junto con la posterior correspondiente, para las distribuciones previas \(\theta\sim\textsf{Beta}(2,20)\) (previa del ejemplo de motivación), \(\theta\sim\textsf{Uniforme}(0,1)\) (previa no informativa) y \(\theta\sim\textsf{Beta}(1/2,1/2)\) (previa de Jeffreys), usando los datos del ejemplo de motivación acerca de la prevalencia de una enfermedad. Las distribuciones posteriores correspondientes son:

  1. \(\theta\mid y \sim \textsf{Beta}(2,40)\) usando la previa del ejemplo.
  2. \(\theta\mid y \sim \textsf{Beta}(1,21)\) usando la previa no informativa.
  3. \(\theta\mid y \sim \textsf{Beta}(1/2,41/2)\) usando la previa de Jeffreys.

  1. Calcule \(\textsf{P}(0.05 < \theta < 0.2\mid y)\) y \(\textsf{E}(\theta\mid y)\) en cada caso.

A continuación se presentan los valores de \[ \textsf{P}(0.05 < \theta < 0.2\mid y) = \int_{0.05}^{0.2} p(\theta\mid y)\,\textsf{d}\theta \qquad\text{y}\qquad \textsf{E}(\theta\mid y) = \int_0^1 \theta\, p(\theta\mid y)\,\textsf{d}\theta \] en cada caso.

Previa Probabilidad Media posterior
Previa del ejemplo 0.3843 0.0476
Previa no informativa 0.3313 0.0476
Previa de Jeffreys 0.1468 0.0244
  1. Compare los resultados obtenidos.

Se observa la distribución previa tiene un efecto importante en los resultados de la inferencia posterior, dado que el tamaño de la muestra no es “grande”. En particular hay cambios sustanciales en los resultados utilizando la previa de Jeffreys. En este caso, se recomienda reportar los resultados con la previa informativa del ejemplo si la información externa proviene de una fuente confiable. De lo contrario, se recomienda reportar los resultados con la previa no informativa (uniforme).

  1. Sea \(y\mid x\sim\textsf{Poi}(x)\) y \(x\sim\textsf{Exp}(\lambda)\).
  1. Muestre que la distribución marginal de \(y\) es: \[ p(y) = \frac{\lambda}{(\lambda+1)^{y+1}}\,,\qquad y = 0,1,\ldots\qquad\lambda>0\,. \]

La distribución marginal de \(y\) está dada por: \[ \begin{align*} p(y) & = \int_{\mathcal{X}} p(y,x)\,\text{d}x \\ &= \int_{\mathcal{X}} p(y\mid x) p (x)\,\text{d}x \\ &= \int_{0}^{\infty} \frac{e^{-x} x^y}{y!} \lambda e^{-\lambda x}\,\text{d}x \\ &= \frac{\lambda}{y!} \int_{0}^{\infty} x^y e^{-(\lambda+1)x}\,\text{d}x \\ &= \frac{\lambda}{y!} \frac{\Gamma(y+1)}{(\lambda+1)^{y+1}}\\ &= \frac{\lambda}{(\lambda+1)^{y+1}}\,, \end{align*} \] dado que \(x^y e^{-(\lambda+1)x}\) corresponde al núcleo de una distribución Gamma con parámetros \(\alpha=y+1\) y \(\beta=\lambda+1\), y además, \(\Gamma(y+1)=y!\) dado que \(y\in\{0,1,\ldots\}\).

  1. Simule \(N=100,000\) muestras independientes e idénticamente distribuidas de \(y\) con \(\lambda = 1\), y compare la distribución empírica correspondiente con la distribución exacta obtenida en el numeral anterior.
# simulacion
N <- 100000
lambda <- 1
set.seed(1)
x_sim <- rexp(n = N, rate = lambda)
y_sim <- rpois(n = N, lambda = x_sim)
py_sim <- table(y_sim)/N
# p(y)
y <- 0:(length(py_sim)-1)
py_exa <- lambda/(lambda+1)^{y+1}
# grafico
plot(x = y-0.1, y = py_exa, type = "h", lwd = 4, col = "blue", xlab = "y", ylab = "p(y)", main = "Distr. marginal de y")
lines(x = y+0.1, y = py_sim, type = "h", lwd = 4, col = "red")
legend("topright", legend = c("Simulación","Exacta"), col = c("red","blue"), lwd = 2, bty = "n")

# tabla
tab <- round(cbind(py_sim, py_exa, abs(py_sim - py_exa)), 4)
colnames(tab) <- c("Simulación", "Exacta", "Diferencia")
print(head(tab, 10))
##   Simulación Exacta Diferencia
## 0     0.4978 0.5000     0.0022
## 1     0.2514 0.2500     0.0014
## 2     0.1255 0.1250     0.0005
## 3     0.0634 0.0625     0.0009
## 4     0.0309 0.0312     0.0003
## 5     0.0153 0.0156     0.0003
## 6     0.0074 0.0078     0.0004
## 7     0.0043 0.0039     0.0003
## 8     0.0019 0.0020     0.0000
## 9     0.0011 0.0010     0.0001
  1. Sea \(X\) una variable aleatoria con valor esperado \(\textsf{E}(X)\) y sea \(Y\) cualquier variable aleatoria definida en el mismo espacio de probabilidad. Mostrar que \[ \textsf{E}(X) = \textsf{E}[\textsf{E}(X | Y)]\,. \]

Queremos demostrar que: \[ \textsf{E}(X) = \textsf{E}[\textsf{E}(X \mid Y)], \] donde \(X\) es una variable aleatoria continua y \(Y\) es otra variable aleatoria definida en el mismo espacio de probabilidad.

Por definición, la esperanza condicional \(\textsf{E}(X \mid Y = y)\) es el valor esperado de \(X\) dado que \(Y = y\). Esto se puede expresar como: \[ \textsf{E}(X \mid Y = y) = \int_{-\infty}^\infty x f_{X|Y}(x \mid y) \, \textsf{d}x, \] donde \(f_{X|Y}(x \mid y)\) es la función de densidad condicional de \(X\) dado \(Y = y\).

La esperanza total de \(X\) se define como: \[ \textsf{E}(X) = \int_{-\infty}^\infty x f_X(x) \, \textsf{d}x, \] donde \(f_X(x)\) es la función de densidad marginal de \(X\).

La regla de la probabilidad total permite expresar \(f_X(x)\) en términos de la densidad condicional \(f_{X|Y}(x \mid y)\) y la densidad marginal de \(Y\), como sigue: \[ f_X(x) = \int_{-\infty}^\infty f_{X|Y}(x \mid y) f_Y(y) \, \textsf{d}y, \] donde \(f_Y(y)\) es la densidad marginal de \(Y\).

Sustituyendo esta expresión en la definición de \(\textsf{E}(X)\), obtenemos: \[ \textsf{E}(X) = \int_{-\infty}^\infty x \left( \int_{-\infty}^\infty f_{X|Y}(x \mid y) f_Y(y) \, \textsf{d}y \right) \textsf{d}x. \]

Usando el teorema de Fubini para intercambiar el orden de integración, tenemos: \[ \textsf{E}(X) = \int_{-\infty}^\infty \left( \int_{-\infty}^\infty x f_{X|Y}(x \mid y) \, \textsf{d}x \right) f_Y(y) \, \textsf{d}y. \]

La integral interna: \[ \int_{-\infty}^\infty x f_{X|Y}(x \mid y) \, \textsf{d}x, \] es, por definición, \(\textsf{E}(X \mid Y = y)\). Sustituyendo, obtenemos: \[ \textsf{E}(X) = \int_{-\infty}^\infty \textsf{E}(X \mid Y = y) f_Y(y) \, \textsf{d}y. \]

Finalmente, esta expresión es la definición de \(\textsf{E}[\textsf{E}(X \mid Y)]\), lo que demuestra que: \[ \textsf{E}(X) = \textsf{E}[\textsf{E}(X \mid Y)]. \]

Esto completa la demostración en el caso continuo.

  1. Sea \(X\) una variable aleatoria con varianza \(\textsf{Var}(X)\) y sea \(Y\) cualquier variable aleatoria definida en el mismo espacio de probabilidad. Mostrar que \[ \textsf{Var}(X) = \textsf{E}[\textsf{Var}(X \mid Y)] + \textsf{Var}(\textsf{E}[X \mid Y])\,. \]

La demostración de que \(\textsf{Var}(X) = \textsf{E}[\textsf{Var}(X \mid Y)] + \textsf{Var}(\textsf{E}[X \mid Y])\) se basa en las propiedades básicas de la esperanza y la varianza. Comenzamos con la definición de la varianza total de \(X\), que se expresa como: \[ \textsf{Var}(X) = \textsf{E}[(X - \textsf{E}[X])^2]. \] Para introducir \(Y\) en el análisis, descomponemos \(X - \textsf{E}[X]\) en términos de su relación con \(Y\). Utilizamos la propiedad de que \(\textsf{E}[X] = \textsf{E}[\textsf{E}(X \mid Y)]\), lo que permite escribir: \[ X - \textsf{E}[X] = X - \textsf{E}[X \mid Y] + \textsf{E}[X \mid Y] - \textsf{E}[X]. \]

Sustituyendo esta descomposición en la definición de la varianza, obtenemos: \[ \textsf{Var}(X) = \textsf{E}\left[\left(X - \textsf{E}[X \mid Y] + \textsf{E}[X \mid Y] - \textsf{E}[X]\right)^2\right]. \] Expandiendo el cuadrado en la expresión, resulta: \[ \left(X - \textsf{E}[X \mid Y] + \textsf{E}[X \mid Y] - \textsf{E}[X]\right)^2 = (X - \textsf{E}[X \mid Y])^2 + (\textsf{E}[X \mid Y] - \textsf{E}[X])^2 + 2(X - \textsf{E}[X \mid Y])(\textsf{E}[X \mid Y] - \textsf{E}[X]). \]

Sustituyendo esta expansión en la ecuación de la varianza total, tenemos: \[ \textsf{Var}(X) = \textsf{E}[(X - \textsf{E}[X \mid Y])^2] + \textsf{E}[(\textsf{E}[X \mid Y] - \textsf{E}[X])^2] + 2 \, \textsf{E}[(X - \textsf{E}[X \mid Y])(\textsf{E}[X \mid Y] - \textsf{E}[X])]. \]

Ahora observamos que el tercer término, \(2 \, \textsf{E}[(X - \textsf{E}[X \mid Y])(\textsf{E}[X \mid Y] - \textsf{E}[X])]\), se anula. Esto se debe a que \((X - \textsf{E}[X \mid Y])\) es una variable aleatoria con esperanza condicional cero respecto a \(Y\), es decir: \[ \textsf{E}[X - \textsf{E}[X \mid Y] \mid Y] = 0. \] Como resultado, la expectativa total de este término cruzado también es cero: \[ \textsf{E}[(X - \textsf{E}[X \mid Y])(\textsf{E}[X \mid Y] - \textsf{E}[X])] = 0. \]

Eliminando este término cruzado, la ecuación de la varianza se simplifica a: \[ \textsf{Var}(X) = \textsf{E}[(X - \textsf{E}[X \mid Y])^2] + \textsf{E}[(\textsf{E}[X \mid Y] - \textsf{E}[X])^2]. \]

El primer término, \(\textsf{E}[(X - \textsf{E}[X \mid Y])^2]\), es, por definición, la esperanza de la varianza condicional de \(X\) dado \(Y\), es decir: \[ \textsf{E}[(X - \textsf{E}[X \mid Y])^2] = \textsf{E}[\textsf{Var}(X \mid Y)]. \]

El segundo término, \(\textsf{E}[(\textsf{E}[X \mid Y] - \textsf{E}[X])^2]\), es la varianza de la esperanza condicional de \(X\) dado \(Y\), es decir: \[ \textsf{E}[(\textsf{E}[X \mid Y] - \textsf{E}[X])^2] = \textsf{Var}(\textsf{E}[X \mid Y]). \]

Finalmente, combinando ambos términos, llegamos a la descomposición de la varianza total: \[ \textsf{Var}(X) = \textsf{E}[\textsf{Var}(X \mid Y)] + \textsf{Var}(\textsf{E}[X \mid Y]). \]

  1. Sea \(X\) una variable aleatoria con distribución uniforme en el intervalo \((0, 1)\). Determine la distribución de \(Y = g(X) = \sqrt{X}\).

Para determinar la distribución de \(Y = g(X) = \sqrt{X}\), comenzamos con la información de que \(X\) es una variable aleatoria con distribución uniforme en el intervalo \((0, 1)\). La función de densidad de \(X\) es \(f_X(x) = 1\) para \(0 < x < 1\) y \(f_X(x) = 0\) fuera de este intervalo. La relación entre \(Y\) y \(X\) está dada por \(Y = \sqrt{X}\). Invirtiendo esta relación, obtenemos \(X = Y^2\). Dado que \(X \in (0, 1)\), se sigue que \(Y\) también pertenece al intervalo \((0, 1)\), ya que la raíz cuadrada siempre produce valores no negativos.

El método del cambio de variable nos permite calcular la densidad de \(Y\) a partir de la densidad de \(X\). Según esta técnica, si \(Y = g(X)\) es una función diferenciable y estrictamente monotónica en el soporte de interés, la densidad de \(Y\) se obtiene mediante: \[ f_Y(y) = f_X(x) \left| \frac{\text{d}x}{\text{d}y} \right|, \] donde \(x = g^{-1}(y)\). En este caso, sabemos que \(X = Y^2\), lo que implica que \(g^{-1}(y) = Y^2\). Derivando \(x = Y^2\) con respecto a \(y\), se tiene: \[ \frac{\text{d}x}{\text{d}y} = \frac{\text{d}(y^2)}{\text{d}y} = 2y. \]

Sustituyendo estas expresiones en la fórmula del cambio de variable, obtenemos: \[ f_Y(y) = f_X(Y^2) \left| \frac{\text{d}(Y^2)}{\text{d}y} \right|. \] Dado que \(f_X(x) = 1\) para \(0 < x < 1\), y como \(x = Y^2\), se tiene \(f_X(Y^2) = 1\) para \(0 < Y^2 < 1\), lo cual equivale a \(0 < Y < 1\). Sustituyendo estos valores, la densidad de \(Y\) es: \[ f_Y(y) = 1 \cdot |2y| = 2y, \quad \text{para } 0 < y < 1. \]

Fuera del intervalo \((0, 1)\), la densidad de \(Y\) es cero, ya que \(Y = \sqrt{X}\) no puede tomar valores fuera de \((0, 1)\) dado que \(X\) está restringido al mismo intervalo. Por lo tanto, la función de densidad de \(Y\) queda definida como: \[ f_Y(y) = \begin{cases} 2y, & \text{si } 0 < y < 1, \\ 0, & \text{en otro caso.} \end{cases} \]

Finalmente, verificamos que esta densidad es válida al comprobar que integra a 1 sobre el soporte de \(Y\). Calculamos: \[ \int_0^1 f_Y(y) \, \text{d}y = \int_0^1 2y \, \text{d}y = \left[ y^2 \right]_0^1 = 1. \] Esto confirma que \(f_Y(y)\) es una función de densidad válida. En conclusión, la variable aleatoria \(Y = \sqrt{X}\), donde \(X \sim \text{Unif}(0, 1)\), tiene una distribución cuya función de densidad es \(f_Y(y) = 2y\) para \(0 < y < 1\) y cero fuera de este intervalo.

  1. Sean \(X_1\) y \(X_2\) dos variables aleatorias independientes con distribución normal estándar. Determine la distribución conjunta de \(Y_1 = X_1 + X_2\) y \(Y_2 = X_1 - X_2\).

Para determinar la distribución conjunta de \(Y_1 = X_1 + X_2\) y \(Y_2 = X_1 - X_2\), comenzamos con el hecho de que \(X_1\) y \(X_2\) son variables aleatorias independientes con distribución normal estándar, es decir, \(X_1, X_2 \sim \textsf{N}(0, 1)\). Esto implica que la densidad conjunta de \(X_1\) y \(X_2\) es \(f_{X_1, X_2}(x_1, x_2) = \frac{1}{2\pi} e^{-\frac{1}{2}(x_1^2 + x_2^2)}\). Las nuevas variables \(Y_1\) y \(Y_2\) están definidas por las transformaciones \(Y_1 = X_1 + X_2\) y \(Y_2 = X_1 - X_2\). Nuestro objetivo es encontrar la densidad conjunta de \(Y_1\) y \(Y_2\).

Primero, invertimos las transformaciones para expresar \(X_1\) y \(X_2\) en términos de \(Y_1\) y \(Y_2\). Resolviendo el sistema de ecuaciones \(Y_1 = X_1 + X_2\) y \(Y_2 = X_1 - X_2\), obtenemos \(X_1 = \frac{Y_1 + Y_2}{2}\) y \(X_2 = \frac{Y_1 - Y_2}{2}\). Esto nos permite escribir la densidad conjunta de \(Y_1\) y \(Y_2\) a partir de la densidad conjunta de \(X_1\) y \(X_2\), utilizando el método del cambio de variable.

El cambio de variable requiere calcular el determinante del jacobiano de la transformación. El jacobiano está definido por la matriz de derivadas parciales: \[ \mathbf{J} = \begin{bmatrix} \frac{\partial X_1}{\partial Y_1} & \frac{\partial X_1}{\partial Y_2} \\ \frac{\partial X_2}{\partial Y_1} & \frac{\partial X_2}{\partial Y_2} \end{bmatrix}. \] Sustituyendo \(X_1 = \frac{Y_1 + Y_2}{2}\) y \(X_2 = \frac{Y_1 - Y_2}{2}\), derivamos cada componente, obteniendo: \[ \frac{\partial X_1}{\partial Y_1} = \frac{1}{2}, \quad \frac{\partial X_1}{\partial Y_2} = \frac{1}{2}, \quad \frac{\partial X_2}{\partial Y_1} = \frac{1}{2}, \quad \frac{\partial X_2}{\partial Y_2} = -\frac{1}{2}. \] La matriz jacobiana es entonces: \[ \mathbf{J} = \begin{bmatrix} \frac{1}{2} & \frac{1}{2} \\ \frac{1}{2} & -\frac{1}{2} \end{bmatrix}. \] El determinante del jacobiano es: \[ \det(\mathbf{J}) = \left(\frac{1}{2} \cdot -\frac{1}{2}\right) - \left(\frac{1}{2} \cdot \frac{1}{2}\right) = -\frac{1}{4} - \frac{1}{4} = -\frac{1}{2}. \] Tomando el valor absoluto, obtenemos \(|\det(\mathbf{J})| = \frac{1}{2}\).

La densidad conjunta de \(Y_1\) y \(Y_2\) se obtiene como: \[ f_{Y_1, Y_2}(y_1, y_2) = f_{X_1, X_2}(x_1, x_2) \cdot |\det(\mathbf{J})|, \] donde \(x_1 = \frac{y_1 + y_2}{2}\) y \(x_2 = \frac{y_1 - y_2}{2}\). Sustituyendo la densidad conjunta de \(X_1\) y \(X_2\), tenemos: \[ f_{X_1, X_2}\left(\frac{y_1 + y_2}{2}, \frac{y_1 - y_2}{2}\right) = \frac{1}{2\pi} \exp\left(-\frac{1}{2} \left[\left(\frac{y_1 + y_2}{2}\right)^2 + \left(\frac{y_1 - y_2}{2}\right)^2\right]\right). \]

Ahora simplificamos el exponente. Calculamos: \[ \left(\frac{y_1 + y_2}{2}\right)^2 + \left(\frac{y_1 - y_2}{2}\right)^2 = \frac{(y_1 + y_2)^2}{4} + \frac{(y_1 - y_2)^2}{4}. \] Expandiendo los cuadrados: \[ (y_1 + y_2)^2 = y_1^2 + 2y_1y_2 + y_2^2, \quad (y_1 - y_2)^2 = y_1^2 - 2y_1y_2 + y_2^2. \] Sumando, obtenemos: \[ \frac{(y_1 + y_2)^2}{4} + \frac{(y_1 - y_2)^2}{4} = \frac{y_1^2 + 2y_1y_2 + y_2^2}{4} + \frac{y_1^2 - 2y_1y_2 + y_2^2}{4} = \frac{2y_1^2 + 2y_2^2}{4} = \frac{y_1^2 + y_2^2}{2}. \]

Sustituyendo esta expresión en la densidad conjunta, se tiene: \[ f_{Y_1, Y_2}(y_1, y_2) = \frac{1}{2\pi} \exp\left(-\frac{1}{2} \cdot \frac{y_1^2 + y_2^2}{2}\right) \cdot \frac{1}{2}. \] Simplificando: \[ f_{Y_1, Y_2}(y_1, y_2) = \frac{1}{2\pi} \exp\left(-\frac{y_1^2 + y_2^2}{4}\right). \]

Esto muestra que la densidad conjunta de \(Y_1\) y \(Y_2\) es proporcional a una normal bivariada con medias \((0, 0)\) y varianzas marginales 2. En conclusión, \((Y_1, Y_2) \sim \textsf{N}((0, 0), \Sigma)\), donde la matriz de covarianza es diagonal con \(\Sigma = \text{diag}(2, 2)\).