Introducción

En la inferencia Bayesiana, normalmente se conoce \(f(y|\theta)\) y \(p(\theta)\) donde \(y\) son las observaciones y \(\theta\) los parámetros, en muchas ocasiones por la complejidad que puede adquirir la distribución a posteriori \(p(\theta|y)\) es dificil de muestrearla, por lo que se requiere de métodos iterativos para poder obtener la forma de la distribución y poder resumir sus características. En estos casos, la aproximación se puede realizar a través de un Gibbs Sampling, ya que este algoritmo se construye en base a una secuencia que depende de valores de parámetros provenientes de una distribucón que sabemos que converge.

En este informe trataremos de demostrar que el Gibbs Sampling, es efectivo bajo ciertas condiciones, ya que, demostraremos que para ciertos valroes de la varianza el algoritmo no converge o le cuesta más, lo cual se debe a que no se tiene un parámetro mínimo suficiente, lo que no asegura la convergencia del proceso. Por lo que, se analizarán los casos en los que es efectivo y cuales no, a través de diversas simulaciones.

Definción posteriori empírica

Tal como se nos introdujo en clase, se ha estado trabajando en el modelo Bayesiano, el cual esta compuesto por:

  1. Distribución de muestreo:

\[ (Y_i| a,b) \sim N(a + b, \sigma^2), \hspace{0.5 cm} i = 1,...,n; \hspace{1 cm} \perp\perp_{1 \leq i \leq n} Y_i | (a, b)\]

  1. Especificación a priori de los parámetros

\[ a \sim N(\mu_a, \sigma^2_a),\hspace{0.5 cm} b \sim N(\mu_b, \sigma_b^2), \hspace{0.5 cm} a ⊥⊥ b \]

Si queremos obtener la distribución a posteriori empírica de los parámetros, podemos trabajar bajo el supuesto de que como todas las \(Yes\) distribuyen Normal y los parámetros a priori también lo hacen, se puede trabajar bajo el supuesto que a posteriori seguirán distribuyendo Normal, por lo que tenemos:

\[E(a | Y_1) = E(a) + Cov(a,Y_1)Var[Y_1]^{-1}(Y_1-E(Y_1))\] \[E(a| Y_1) = \mu_a + \frac{\sigma_a^2}{\sigma_a^2+\sigma_b^2+\sigma^2} (Y_1 - \mu_a -\mu_b)\] \[E(a| Y_1) = \frac{ (\sigma_a^2 + \sigma^2)\mu_a + \sigma_a^2(Y_1 -\mu_b) }{\sigma_a^2+\sigma_b^2+\sigma^2}\] Luego para la varianza tenemos:

\[Var(a | Y_1) = Var(a) + Cov(a,Y_1)Var[Y_1]^{-1}Cov(Y_1,a)\]

\[Var(a| Y_1) = \sigma_a + \frac{\sigma_a^2\sigma_b^2}{\sigma_a^2+\sigma_b^2+\sigma^2}\] \[Var(a| Y_1) = \frac{\sigma_a^2(\sigma_b^2 + \sigma^2)}{\sigma_a^2+\sigma_b^2+\sigma^2}\] Por lo que podemos concluir que la distribución es:

\[(a|Y_1) \sim N\bigg( \frac{ (\sigma_a^2 + \sigma^2)\mu_a + \sigma_a^2(Y_1 -\mu_b) }{\sigma_a^2+\sigma_b^2+\sigma^2},\frac{\sigma_a^2(\sigma_b^2 + \sigma^2)}{\sigma_a^2+\sigma_b^2+\sigma^2}\bigg)\]

Analogamente para el caso de \((b|Y_1)\) y \((a+b|Y_1)\) tenemos:

\[(b|Y_1) \sim N\bigg( \frac{ (\sigma_b^2 + \sigma^2)\mu_b + \sigma_b^2(Y_1 -\mu_a) }{\sigma_a^2+\sigma_b^2+\sigma^2},\frac{\sigma_b^2(\sigma_a^2 + \sigma^2)}{\sigma_a^2+\sigma_b^2+\sigma^2}\bigg)\] y

\[(a+b|Y_1) \sim N\bigg( \frac{ \sigma^2(\mu_a^2 + \mu_b^2) + Y_1(\sigma_a^2 -\sigma_b^2)}{\sigma_a^2+\sigma_b^2+\sigma^2}, \frac{\sigma^2(\sigma_a^2 + \sigma_b^2)}{\sigma_a^2+\sigma_b^2+\sigma^2}\bigg)\]

Claramente aquí estamos basando nuestro análisis solo para el caso univariado, es decir, solo para \(Y_1\), por lo que si lo generalizamos para \(n\) \(Yes\) tenemos:

\[(a|Y_i) \sim N_i\bigg( \frac{ (\sigma_a^2 + \sigma^2)\mu_a + \sigma_a^2(Y_i -\mu_b) }{\sigma_a^2+\sigma_b^2+\sigma^2},\frac{\sigma_a^2(\sigma_b^2 + \sigma^2)}{\sigma_a^2+\sigma_b^2+\sigma^2}\bigg)\] ,

\[(b|Y_i) \sim N_i\bigg( \frac{ (\sigma_b^2 + \sigma^2)\mu_b + \sigma_b^2(Y_i -\mu_a) }{\sigma_a^2+\sigma_b^2+\sigma^2},\frac{\sigma_b^2(\sigma_a^2 + \sigma^2)}{\sigma_a^2+\sigma_b^2+\sigma^2}\bigg)\] y

\[(a+b|Y_i) \sim N_i\bigg( \frac{ \sigma^2(\mu_a^2 + \mu_b^2) + Y_i(\sigma_a^2 -\sigma_b^2)}{\sigma_a^2+\sigma_b^2+\sigma^2}, \frac{\sigma^2(\sigma_a^2 + \sigma_b^2)}{\sigma_a^2+\sigma_b^2+\sigma^2}\bigg)\]

De modo, que cada distribución será una coordenada del vector y tendremos \(n\) entradas.

Definición de posteriori con Gibbs Sampleing

Ahora que ya sabemos como distribuye empíricamente nuestros parámetros, mediante el proceso de Gibbs Sampling intentaremos explicar si esto es consistente, para ellos revisaremos distintos casos.

Lo primero a hacer es definir la distribución que tendrán los parámetros a posteriori, pero cuando son simulados desde un Gibbs Sampler, serán:

\[ (a^{(k)}|Y_i,b^{(k-1)}) \sim N\bigg(\frac{\mu_a + \sigma_a^2(Y_i - b^{(k-1)})}{ \sigma_a^2 + \sigma^2},\frac{\sigma_a^2}{\sigma_a^2+\sigma^2} \bigg) \]

\[ (b^{(k)}|Y_i,a^{(k-1)}) \sim N\bigg(\frac{\mu_b + \sigma_b^2(Y_i - a^{(k-1)})}{ \sigma_b^2 + \sigma^2},\frac{\sigma_b^2}{\sigma_b^2+\sigma^2} \bigg) \]

\[ (a^{(k)}+b^{(k)}|Y_i,a^{(k-1)},b^{(k-1)}) = (a^{(k)}|Y_i,b^{(k-1)})+(b^{(k)}|Y_i,a^{(k-1)}) \]

Con esto podemos analizar la convergencia del algoritmo, para cuando las medias son 0 y las desviaciones estándar 1:

# Definimos el tamaño del vector Y

n = 10000

# Definimos los hiperparámetros mu_a, mu_b, sigma_a, sigma_b y sigma

mu_a = 0
mu_b = 0 
sigma_a = 1
sigma_b = 1
sigma = 1 

# Definimos los valores iniciales de a y b
# 
a_0 = rnorm(1,mu_a,sigma_a)
b_0 = rnorm(1,mu_b,sigma_b)

# Definimos el vector de las observaciones 

Y_obs <- rnorm(n,a_0 + b_0, sigma)

# Con ello empezamos el algoritmo de Gibbs para obtener la dist a posteriori
# de la (a|Y_obs),(b|Y_obs) y (a+b|Y_obs)

a_sim = vector(mode = "numeric", length = n)
b_sim = vector(mode = "numeric", length = n)
a_b_sim = vector(mode = "numeric", length = n)

a_sim[1] = a_0 
b_sim[1] = b_0
a_b_sim[1] = a_0 + b_0

i = 2
k = 21000

while (i<=k) {
  a_sim[i] <- rnorm(1,mean = (mu_a + sigma_a^2*(Y_obs - b_sim[i-1]))/(sigma_a^2+sigma^2),
                    sd = sqrt((sigma_a^2)/(sigma_a^2+sigma^2)))
  b_sim[i] <- rnorm(1,mean = (mu_b + sigma_b^2*(Y_obs - a_sim[i-1]))/(sigma_b^2+sigma^2),
                    sd = sqrt((sigma_b^2)/(sigma_b^2+sigma^2)))
  a_b_sim[i] <- a_sim[i] + b_sim[i]
  i=i+1  
}

a_sim_20000 <- a_sim[1001:21000]
b_sim_20000 <- b_sim[1001:21000]
a_b_sim_20000 <- a_b_sim[1001:21000]

pos <- seq(1,20000, by = 10)

a_sim_2000 <- c()
b_sim_2000 <- c()
a_b_sim_2000 <- c()

for (i in pos) {
  aux1 <- a_sim_20000[i]
  aux2 <- b_sim_20000[i]
  aux3 <- a_b_sim_20000[i]
  a_sim_2000 <- c(a_sim_2000,aux1)
  b_sim_2000 <- c(b_sim_2000,aux2)
  a_b_sim_2000 <- c(a_b_sim_2000,aux3)
}

Una vez obtenidos los valores de las parámetros a través de la simulación de Gibbs, podemos analizar su convergencia mediante un traceplot():

medias = 0 y sigmas = 1

medias = 0 y sigmas = 1

Aquí podemos ver que el parámetro de \(a\) converge a 0.3259672 y \(b\) converge a 0.3360609, mientras que el mínimo suficiente \(a+b\), converge a 0.6620281 que coincide exactamente con la suma de los parámetros \(a\) y \(b\) (0.6620281) , por lo que hasta el minuto podemos ver que todo va bien encaminado. Ahora que tenemos las distribuciones a posteriori mediante un qqplot() y el ks.test() las podemos comparar en base a la distribución empírica original:

  1. Para el parámetro \(a\), tenemos que el qqplot() se acerca mucho a la Normal, como se puede ver en el siguiente gráfico:

y analizando el resultado que nos da el ks.test() es claro que el parámetro si distribuye Normal, ya que su valor es demasiado pequeño, como se muestra a continuación:


    Asymptotic one-sample Kolmogorov-Smirnov test

data:  datos_ordenados_a
D = 0.60929, p-value < 2.2e-16
alternative hypothesis: two-sided
  1. Para el parámetro \(b\), tenemos que el qqplot() se acerca mucho a la Normal:

Es claro observar que practicamente todos los valores son cercanos a la Normal, nuevamente si analizamos de manera cuantitativa usando el ks.test(), el valor es demasiado pequeño lo que hace validar nuestro supuesto.


    Asymptotic one-sample Kolmogorov-Smirnov test

data:  datos_ordenados_b
D = 0.59964, p-value < 2.2e-16
alternative hypothesis: two-sided
  1. Para el parámetro \(a+b\), tenemos que el qqplot() se acerca mucho a la Normal, mucho más que los parámetros de forma individual, esto tambien se debe principalmente a que es el mínimo suficiente:

Nuevamente en este caso la gráfica es practicamente perfecta, y el ks.test() nos confirma esta idea de que el parámetro distribuye Normal, dado su tamaño extremadamente pequeño:


    Asymptotic one-sample Kolmogorov-Smirnov test

data:  datos_ordenados_a_b
D = 0.29368, p-value < 2.2e-16
alternative hypothesis: two-sided

Finalmente, si nos interesa revisar si las distribuciones a posteriori de \((a|Y_1,...,Y_n)\) y de \((b|Y_1,...,Y_n)\) son función o se parecen en algo a la distribución a posteriori del parámetro mínimo suficiente podemos usar un histograma para revisar su comportamiento:

Con lo anterior, podemos ver que el algoritmo de Gibbs aplicado a una cadena de 10^{4} observaciones, cuyas medias son \(0_s\) y sus desviaciones estándar son \(1_s\), todo resulta perfecto. Sin embargo, ¿Qué ocurre cuando la varianza comienza a aumentar?. A continuación, ampliaremos el análisis para distintos casos donde la desviación estándar comienza a cambiar (para revisar todos los casos ver Anexos):

Caso 1: sigma_a > sigma_b > sigma

En este caso definimos, los valores de sigma como :

sigma_a_caso1 = 10000
sigma_b_caso1 = 50
sigma_caso1 = 1 

El traceplot() de dicho caso, nos muestra que el parámetro de \(a\) tiene mayor dispersión que el de \(b\), por lo que al final el parámetro mínimo suficiente tiende a dispersarse mucho, sin embargo si revisamos los qqplot(), tanto el de \(a\) como \(b\) no son muy adecuados, sin embargo el mínimo sufiente \(a+b\) tiende a ser mucho más correcto y parecerse a una Normal.

Caso 3: sigma_b > sigma_a > sigma

En este caso definimos, los valores de sigma como :

sigma_a_caso1 = 10000
sigma_b_caso1 = 50
sigma_caso1 = 1 

El traceplot() de dicho caso, nos muestra que el parámetro de \(a\) tiene mayor dispersión que el de \(b\), por lo que al final el parámetro mínimo suficiente tiende a dispersarse mucho, sin embargo si revisamos los qqplot(), tanto el de \(a\) como \(b\) no son muy adecuados, sin embargo el mínimo sufiente \(a+b\) tiende a ser mucho más correcto y parecerse a una Normal.

Caso 2: sigma > sigma_b > sigma_a

En este caso definimos, los valores de sigma como :

sigma_a_caso2 = 1
sigma_b_caso2 = 50
sigma_caso2 = 10000

El traceplot() de dicho caso, nos muestra que el parámetro de \(a\) es el menos disperso, mientras que el de \(b\) es muy disperso, por lo que al final el parámetro mínimo suficiente tiende a dispersarse mucho, sin embargo si revisamos los qqplot(), tanto el de \(a\), como el de \(b\) y como el mínimo sufiente \(a+b\), no se acercan al valor de la Normal. Aquí, tenemos un caso particular en el que donde la dispersión de las observaciones hace que el algoritmo de Gibbs no simula los valores de manera correcta. A pesar de que el valor del ks.test() nos da muy pequeño, los valores gráficos nos demuestran que no es correcto. Esto ocurre de manera similar en el caso 4(revisar Anexos).

Caso 5: sigma_a > sigma_b = sigma y Caso 6: sigma_b > sigma_a = sigma

En este caso definimos, los valores de sigma como :

# caso 5

sigma_a_caso5 = 10000
sigma_b_caso5 = 3
sigma_caso5 = 3

# caso 6

sigma_a_caso6 = 3
sigma_b_caso6 = 10000
sigma_caso6 = 3

Aquí podemos ver que cuando la varianza de alguno de los parámetros es demasiado grande la convergencia es muy complicada, tanto del parámetro correspondiente como la del mínimo suficiente, esto se puede ver claramente en los qqplots() de dichos casos. Por lo que podemos ver que en casos como este la convergencia se le complica al algoritmo de Gibbs.

Caso 7: sigma > sigma_a = sigma_b

En este caso definimos, los valores de sigma como :

sigma_a_caso7 = 1 
sigma_b_caso7 = 1
sigma_caso7 = 10000 

Aquí tenemos otro caso interesante, ya que al definir la desviación estándar de las observaciones tan alta, hace que ningún parámetro converja de manera correcta, algo similar al caso 2 o caso 4, y esto se aprecia considerablemente en el qqplot() de dicho problema.

Caso 8: sigma_a = sigma_b > sigma

En este caso definimos, los valores de sigma como :

sigma_a_caso8 = 10000 
sigma_b_caso8 = 10000
sigma_caso8 = 1 

Finalmente, en este último caso que se ha decidido analizar, podemos es claro ver que a pesar que la dispersión de los parámetros es altisima, si el de las observaciones es bajo, podemos asegurar una buena convergencia del algoritmo.

Reflexión de preguntas

Según lo expuesto a lo largo de este informe, ya nos encontramos con el conocimiento suficiente para dar una respuesta mucho más clara de lo solicitado.

La primera pregunta a analizar es: ¿Es correcto afirmar que la cadena de Markov asociada al parámetro mínimo suficiente converge “más fácilmente” que las cadenas de Markov asociadas a los parámetros a y b?, y bueno como lo revisamos en los traceplot() de los distintos casos, la convergencia es algo que siempre trata de hacer el algotitmo del Gibbs, sin embargo, podemos notar claramente que cuando la varianza de alguno de los parámetros o de las observaciones aumenta de manera considerable hace que la convergencia sea más difícil de ocurrir, haciendo que el parámetro llegue a oscilar de manera bastante ruidosa, no obstante, a pesar de que a \(a\) y a \(b\) les cueste, siempre para el parámetro mínimo suficiente será más sencillo.

Luego, si respondemos a la segunda pregunta que es: ¿En qué medida el Gibbs sampling permite constatar que la distribución a posteriori de un párametro que no es el mínimo suficiente (por ejemplo, a) se reduce a la distribución a posteriori del párametro mínimo suficiente? está pregunta al igual que la anterior esta altamente relacionada a la anterior, ya que, al saber que el algoritmo

Conclusión

En conclusión de todo este trabajo, podemos decir que el algortimo de Gibbs es una herramienta altamente poderosa, ya que, nos permite encontrar la forma de las distribuciones a posteriori cuando es muy complejo hacerlo a mano. Sin embargo, es necesario tener presente que cuando se analiza problemas de este estilo, antes de determinar la convegencia del algoritmo o no, es muy importante conocer la naturaleza de nuestros datos, para saber si afectará o no en la convergencia del algoritmo. Otro punto importante a destacar aquí es que a priori no importa como sea la distribución de los parámetros, sino que para tomar un juicio es muy importante que el parámetro sea mínimo suficiente, ya que, de esta manera aseguramos la convergencia del algoritmo.

Referencias

  1. Hoff, P. D. (2009). A First Course in Bayesian Statistical Methods. Springer.

  2. Material explicado en clases.

Anexos

Caso 1: sigma_a > sigma_b > sigma

Caso 1: sigma_a > sigma_b > sigma

Caso 1: sigma_a > sigma_b > sigma


    Asymptotic one-sample Kolmogorov-Smirnov test

data:  datos_ordenados_caso1_a
D = 0.48916, p-value < 2.2e-16
alternative hypothesis: two-sided

    Asymptotic one-sample Kolmogorov-Smirnov test

data:  datos_ordenados_caso1_b
D = 0.47519, p-value < 2.2e-16
alternative hypothesis: two-sided

    Asymptotic one-sample Kolmogorov-Smirnov test

data:  datos_ordenados_caso1_a_b
D = 0.82388, p-value < 2.2e-16
alternative hypothesis: two-sided

Caso 2: sigma > sigma_b > sigma_a

Caso 2: sigma > sigma_b > sigma_a

Caso 2: sigma > sigma_b > sigma_a


    Asymptotic one-sample Kolmogorov-Smirnov test

data:  datos_ordenados_caso2_a
D = 0.48706, p-value < 2.2e-16
alternative hypothesis: two-sided

    Asymptotic one-sample Kolmogorov-Smirnov test

data:  datos_ordenados_caso2_b
D = 0.48794, p-value < 2.2e-16
alternative hypothesis: two-sided

    Asymptotic one-sample Kolmogorov-Smirnov test

data:  datos_ordenados_caso2_a_b
D = 0.48799, p-value < 2.2e-16
alternative hypothesis: two-sided

Caso 3: sigma_b > sigma_a > sigma

Caso 3: sigma_b > sigma_a > sigma

Caso 3: sigma_b > sigma_a > sigma


    Asymptotic one-sample Kolmogorov-Smirnov test

data:  datos_ordenados_caso3_a
D = 0.47137, p-value < 2.2e-16
alternative hypothesis: two-sided

    Asymptotic one-sample Kolmogorov-Smirnov test

data:  datos_ordenados_caso3_b
D = 0.49592, p-value < 2.2e-16
alternative hypothesis: two-sided

    Asymptotic one-sample Kolmogorov-Smirnov test

data:  datos_ordenados_caso3_a_b
D = 0.73385, p-value < 2.2e-16
alternative hypothesis: two-sided

Caso 4: sigma > sigma_a > sigma_b

Caso 4: sigma > sigma_a > sigma_b

Caso 4: sigma > sigma_a > sigma_b


    Asymptotic one-sample Kolmogorov-Smirnov test

data:  datos_ordenados_caso4_a
D = 0.97789, p-value < 2.2e-16
alternative hypothesis: two-sided

    Asymptotic one-sample Kolmogorov-Smirnov test

data:  datos_ordenados_caso4_b
D = 0.49879, p-value < 2.2e-16
alternative hypothesis: two-sided

    Asymptotic one-sample Kolmogorov-Smirnov test

data:  datos_ordenados_caso4_a_b
D = 0.97785, p-value < 2.2e-16
alternative hypothesis: two-sided

Caso 5: sigma_a > sigma_b = sigma

Caso 5: sigma_a > sigma_b = sigma

Caso 5: sigma_a > sigma_b = sigma


    Asymptotic one-sample Kolmogorov-Smirnov test

data:  datos_ordenados_caso5_a
D = 0.94527, p-value < 2.2e-16
alternative hypothesis: two-sided

    Asymptotic one-sample Kolmogorov-Smirnov test

data:  datos_ordenados_caso5_b
D = 0.30027, p-value < 2.2e-16
alternative hypothesis: two-sided

    Asymptotic one-sample Kolmogorov-Smirnov test

data:  datos_ordenados_caso5_a_b
D = 0.97988, p-value < 2.2e-16
alternative hypothesis: two-sided

Caso 6: sigma_b > sigma_a = sigma

Caso 6: sigma_b > sigma_a = sigma

Caso 6: sigma_b > sigma_a = sigma


    Asymptotic one-sample Kolmogorov-Smirnov test

data:  datos_ordenados_caso6_a
D = 0.30262, p-value < 2.2e-16
alternative hypothesis: two-sided

    Asymptotic one-sample Kolmogorov-Smirnov test

data:  datos_ordenados_caso6_b
D = 0.96133, p-value < 2.2e-16
alternative hypothesis: two-sided

    Asymptotic one-sample Kolmogorov-Smirnov test

data:  datos_ordenados_caso6_a_b
D = 0.97717, p-value < 2.2e-16
alternative hypothesis: two-sided

Caso 7: sigma > sigma_a = sigma_b

Caso 7: sigma > sigma_a = sigma_b

Caso 7: sigma > sigma_a = sigma_b


    Asymptotic one-sample Kolmogorov-Smirnov test

data:  datos_ordenados_caso7_a
D = 0.92548, p-value < 2.2e-16
alternative hypothesis: two-sided

    Asymptotic one-sample Kolmogorov-Smirnov test

data:  datos_ordenados_caso7_b
D = 0.0094631, p-value = 0.05564
alternative hypothesis: two-sided

    Asymptotic one-sample Kolmogorov-Smirnov test

data:  datos_ordenados_caso7_a_b
D = 0.82482, p-value < 2.2e-16
alternative hypothesis: two-sided

Caso 8: sigma_a = sigma_b > sigma

Caso 8: sigma_a = sigma_b > sigma

Caso 8: sigma_a = sigma_b > sigma


    Asymptotic one-sample Kolmogorov-Smirnov test

data:  datos_ordenados_caso8_a
D = 0.49966, p-value < 2.2e-16
alternative hypothesis: two-sided

    Asymptotic one-sample Kolmogorov-Smirnov test

data:  datos_ordenados_caso8_b
D = 0.49979, p-value < 2.2e-16
alternative hypothesis: two-sided

    Asymptotic one-sample Kolmogorov-Smirnov test

data:  datos_ordenados_caso8_a_b
D = 0.13896, p-value < 2.2e-16
alternative hypothesis: two-sided

---
title: "<center>Interrogación 3 - Métodos Bayesianos</center>"
subtitle: "<center>Francisca Vilca Sánchez</center>"
autor: ""
date: "<center>`r format(Sys.Date(), '%d/%m/%Y')`</center>"
output: 
    html_document:
        toc: true
        toc_float:
          collapsed: false
        code_download: true
        code_folding: show
        theme:
            bg: '#202123'      # Color de fondo
            fg: '#B8BCC2'      # Color fuente y lineas.
            primary: "#7f00b2" # Resaltado
editor_options: 
  chunk_output_type: console
  markdown: 
    wrap: 72
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo      = TRUE,
                      message   = FALSE,
                      warning   = FALSE,
                      comment   = NA,
                      fig.align = 'center',
                      error = TRUE)

require(dplyr)
require(rio)
require(kableExtra)
require(beepr)
require(here)
```

```{r cache=TRUE, include=FALSE}
source(here("codigo_i3.R"), local = knitr::knit_global())
```

## Introducción

En la inferencia Bayesiana, normalmente se conoce $f(y|\theta)$ y
$p(\theta)$ donde $y$ son las observaciones \n y $\theta$ los parámetros,
en muchas ocasiones por la complejidad que puede adquirir la
distribución a posteriori $p(\theta|y)$ es dificil de muestrearla, por
lo que se requiere de métodos iterativos para poder obtener la forma de
la distribución y poder resumir sus características. En estos casos, la
aproximación se puede realizar a través de un Gibbs Sampling, ya que
este algoritmo se construye en base a una secuencia que depende de
valores de parámetros provenientes de una distribucón que sabemos
que converge.

En este informe trataremos de demostrar que el Gibbs Sampling, es
efectivo bajo ciertas condiciones, ya que, demostraremos que para ciertos valroes de la varianza el algoritmo no converge o le cuesta más, lo cual se debe a que no se tiene un parámetro mínimo suficiente, lo que no asegura la convergencia del proceso. Por lo que, se analizarán los casos en los que es efectivo y cuales no, a través de diversas simulaciones.

## Definción posteriori empírica

Tal como se nos introdujo en clase, se ha estado trabajando en el modelo Bayesiano, el cual esta compuesto por:

1.  Distribución de muestreo:

$$ (Y_i| a,b) \sim N(a + b, \sigma^2), \hspace{0.5 cm} i = 1,...,n; \hspace{1 cm}  \perp\perp_{1  \leq i  \leq n} Y_i | (a, b)$$

2.  Especificación a priori de los parámetros

$$ a \sim N(\mu_a, \sigma^2_a),\hspace{0.5 cm}  b \sim N(\mu_b, \sigma_b^2), \hspace{0.5 cm} a ⊥⊥ b $$

Si queremos obtener la distribución a posteriori empírica de los
parámetros, podemos trabajar bajo el supuesto de que como todas las
$Yes$ distribuyen Normal y los parámetros a priori también lo hacen, se
puede trabajar bajo el supuesto que a posteriori seguirán distribuyendo
Normal, por lo que tenemos:

$$E(a | Y_1) = E(a) + Cov(a,Y_1)Var[Y_1]^{-1}(Y_1-E(Y_1))$$
$$E(a| Y_1) = \mu_a + \frac{\sigma_a^2}{\sigma_a^2+\sigma_b^2+\sigma^2} (Y_1 - \mu_a -\mu_b)$$
$$E(a| Y_1) = \frac{ (\sigma_a^2 + \sigma^2)\mu_a + \sigma_a^2(Y_1 -\mu_b) }{\sigma_a^2+\sigma_b^2+\sigma^2}$$
Luego para la varianza tenemos:

$$Var(a | Y_1) = Var(a) + Cov(a,Y_1)Var[Y_1]^{-1}Cov(Y_1,a)$$

$$Var(a| Y_1) = \sigma_a + \frac{\sigma_a^2\sigma_b^2}{\sigma_a^2+\sigma_b^2+\sigma^2}$$
$$Var(a| Y_1) = \frac{\sigma_a^2(\sigma_b^2 + \sigma^2)}{\sigma_a^2+\sigma_b^2+\sigma^2}$$
Por lo que podemos concluir que la distribución es:

$$(a|Y_1) \sim N\bigg( \frac{ (\sigma_a^2 + \sigma^2)\mu_a + \sigma_a^2(Y_1 -\mu_b) }{\sigma_a^2+\sigma_b^2+\sigma^2},\frac{\sigma_a^2(\sigma_b^2 + \sigma^2)}{\sigma_a^2+\sigma_b^2+\sigma^2}\bigg)$$

Analogamente para el caso de $(b|Y_1)$ y $(a+b|Y_1)$ tenemos:

$$(b|Y_1) \sim N\bigg( \frac{ (\sigma_b^2 + \sigma^2)\mu_b + \sigma_b^2(Y_1 -\mu_a) }{\sigma_a^2+\sigma_b^2+\sigma^2},\frac{\sigma_b^2(\sigma_a^2 + \sigma^2)}{\sigma_a^2+\sigma_b^2+\sigma^2}\bigg)$$
y

$$(a+b|Y_1) \sim N\bigg( \frac{ \sigma^2(\mu_a^2 + \mu_b^2) + Y_1(\sigma_a^2 -\sigma_b^2)}{\sigma_a^2+\sigma_b^2+\sigma^2},
\frac{\sigma^2(\sigma_a^2 + \sigma_b^2)}{\sigma_a^2+\sigma_b^2+\sigma^2}\bigg)$$

Claramente aquí estamos basando nuestro análisis solo para el caso
univariado, es decir, solo para $Y_1$, por lo que si lo generalizamos
para $n$ $Yes$ tenemos:

$$(a|Y_i) \sim N_i\bigg( \frac{ (\sigma_a^2 + \sigma^2)\mu_a + \sigma_a^2(Y_i -\mu_b) }{\sigma_a^2+\sigma_b^2+\sigma^2},\frac{\sigma_a^2(\sigma_b^2 + \sigma^2)}{\sigma_a^2+\sigma_b^2+\sigma^2}\bigg)$$
,

$$(b|Y_i) \sim N_i\bigg( \frac{ (\sigma_b^2 + \sigma^2)\mu_b + \sigma_b^2(Y_i -\mu_a) }{\sigma_a^2+\sigma_b^2+\sigma^2},\frac{\sigma_b^2(\sigma_a^2 + \sigma^2)}{\sigma_a^2+\sigma_b^2+\sigma^2}\bigg)$$
y

$$(a+b|Y_i) \sim N_i\bigg( \frac{ \sigma^2(\mu_a^2 + \mu_b^2) + Y_i(\sigma_a^2 -\sigma_b^2)}{\sigma_a^2+\sigma_b^2+\sigma^2},
\frac{\sigma^2(\sigma_a^2 + \sigma_b^2)}{\sigma_a^2+\sigma_b^2+\sigma^2}\bigg)$$

De modo, que cada distribución será una coordenada del vector y
tendremos $n$ entradas.

## Definición de posteriori con Gibbs Sampleing

Ahora que ya sabemos como distribuye empíricamente nuestros parámetros,
mediante el proceso de Gibbs Sampling intentaremos explicar si esto es
consistente, para ellos revisaremos distintos casos.

Lo primero a hacer es definir la distribución que tendrán los parámetros a posteriori, pero cuando son simulados desde un Gibbs Sampler, serán:

$$ (a^{(k)}|Y_i,b^{(k-1)}) \sim N\bigg(\frac{\mu_a + \sigma_a^2(Y_i - b^{(k-1)})}{ \sigma_a^2 + \sigma^2},\frac{\sigma_a^2}{\sigma_a^2+\sigma^2} \bigg) $$

$$ (b^{(k)}|Y_i,a^{(k-1)}) \sim N\bigg(\frac{\mu_b + \sigma_b^2(Y_i - a^{(k-1)})}{ \sigma_b^2 + \sigma^2},\frac{\sigma_b^2}{\sigma_b^2+\sigma^2} \bigg) $$

$$ (a^{(k)}+b^{(k)}|Y_i,a^{(k-1)},b^{(k-1)}) = (a^{(k)}|Y_i,b^{(k-1)})+(b^{(k)}|Y_i,a^{(k-1)}) $$

Con esto podemos analizar la convergencia del algoritmo, para cuando las medias son 0 y las desviaciones estándar 1:

```{r}
# Definimos el tamaño del vector Y

n = 10000

# Definimos los hiperparámetros mu_a, mu_b, sigma_a, sigma_b y sigma

mu_a = 0
mu_b = 0 
sigma_a = 1
sigma_b = 1
sigma = 1 

# Definimos los valores iniciales de a y b
# 
a_0 = rnorm(1,mu_a,sigma_a)
b_0 = rnorm(1,mu_b,sigma_b)

# Definimos el vector de las observaciones 

Y_obs <- rnorm(n,a_0 + b_0, sigma)

# Con ello empezamos el algoritmo de Gibbs para obtener la dist a posteriori
# de la (a|Y_obs),(b|Y_obs) y (a+b|Y_obs)

a_sim = vector(mode = "numeric", length = n)
b_sim = vector(mode = "numeric", length = n)
a_b_sim = vector(mode = "numeric", length = n)

a_sim[1] = a_0 
b_sim[1] = b_0
a_b_sim[1] = a_0 + b_0

i = 2
k = 21000

while (i<=k) {
  a_sim[i] <- rnorm(1,mean = (mu_a + sigma_a^2*(Y_obs - b_sim[i-1]))/(sigma_a^2+sigma^2),
                    sd = sqrt((sigma_a^2)/(sigma_a^2+sigma^2)))
  b_sim[i] <- rnorm(1,mean = (mu_b + sigma_b^2*(Y_obs - a_sim[i-1]))/(sigma_b^2+sigma^2),
                    sd = sqrt((sigma_b^2)/(sigma_b^2+sigma^2)))
  a_b_sim[i] <- a_sim[i] + b_sim[i]
  i=i+1  
}

a_sim_20000 <- a_sim[1001:21000]
b_sim_20000 <- b_sim[1001:21000]
a_b_sim_20000 <- a_b_sim[1001:21000]

pos <- seq(1,20000, by = 10)

a_sim_2000 <- c()
b_sim_2000 <- c()
a_b_sim_2000 <- c()

for (i in pos) {
  aux1 <- a_sim_20000[i]
  aux2 <- b_sim_20000[i]
  aux3 <- a_b_sim_20000[i]
  a_sim_2000 <- c(a_sim_2000,aux1)
  b_sim_2000 <- c(b_sim_2000,aux2)
  a_b_sim_2000 <- c(a_b_sim_2000,aux3)
}
```

Una vez obtenidos los valores de las parámetros a través de la simulación de Gibbs, podemos analizar su convergencia mediante un `traceplot()`:

```{r fig.cap= "medias = 0 y sigmas = 1" ,echo=FALSE, out.width= "100%", fig.align='center' , out.height= "20%"}
par(mfrow=c(1,3))
valores= c(a_sim_2000,b_sim_2000,a_b_sim_2000)

plot(a_sim_2000, type="l", ylim = c(min(valores),max(valores)), xlab = "Cantidad de simulaciones",ylab = "Simulaciones de Gibbs",
     main = expression(paste("Traceplot para (a|Y_i,b) \n con 2000 simulaciones")), col = "#7f00b2")
plot(b_sim_2000, type="l", ylim = c(min(valores),max(valores)), xlab = "Cantidad de simulaciones",ylab = "Simulaciones de Gibbs",
     main = expression(paste("Traceplot para (b|Y_i,a)  \n con 2000 simulaciones")), col = "#7f00b2")
plot(a_b_sim_2000, type="l", ylim = c(min(valores),max(valores)), xlab = "Cantidad de simulaciones",ylab = "Simulaciones de Gibbs",
     main = expression(paste("Traceplot para (a+b|Y_i,a,b) \n con 2000 simulaciones")), col = "#7f00b2")

```

Aquí podemos ver que el parámetro de $a$ converge a `r mean(a_sim_2000) ` y $b$ converge a `r mean(b_sim_2000) `, mientras que el mínimo suficiente $a+b$, converge a `r mean(a_b_sim_2000) ` que coincide exactamente con la suma de los parámetros $a$ y $b$ (`r mean(a_sim_2000) + mean(b_sim_2000)`) , por lo que hasta el minuto podemos ver que todo va bien encaminado. Ahora que tenemos las distribuciones a posteriori mediante un `qqplot()` y el `ks.test()` las podemos comparar en base a la distribución empírica original:

1. Para el parámetro $a$, tenemos que el `qqplot()` se acerca mucho a la Normal, como se puede ver en el siguiente gráfico:

```{r echo=FALSE, out.width= "100%", fig.align='center' , out.height= "20%"}
datos_ordenados_a <- sort(a_sim_20000)
largo_a <- length(datos_ordenados_a)
valores_a <- c(1:largo_a)
pi_a <- (valores_a-0.5)/largo_a

quantiles_n_a = qnorm( p = pi_a, mean = ((sigma_b^2+sigma^2)*mu_a + sigma_a^2*(Y_obs - mu_b))/(sigma_a^2+sigma_b^2+sigma^2),
                           sd = sqrt((sigma_a^2*(sigma_b^2+sigma^2))/(sigma_a^2+sigma_b^2+sigma^2)))
plot(datos_ordenados_a, quantiles_n_a, xlab = "Datos ordenados en a",ylab = "Cuantiles de a",main = "qqplot del parámetro a", col = "#7f00b2")
abline(a = 0, b = 1, col = "black",lwd = 2)
```

y analizando el resultado que nos da el `ks.test()` es claro que el parámetro si distribuye Normal, ya que su valor es demasiado pequeño, como se muestra a continuación:

```{r echo=FALSE}
ks.test(x = datos_ordenados_a, y = "pnorm", ((sigma_b^2+sigma^2)*mu_a + sigma_a^2*(Y_obs - mu_b))/(sigma_a^2+sigma_b^2+sigma^2),
        sqrt((sigma_a^2*(sigma_b^2+sigma^2))/(sigma_a^2+sigma_b^2+sigma^2)))
```

2. Para el parámetro $b$, tenemos que el `qqplot()` se acerca mucho a la Normal:

```{r echo=FALSE, out.width= "100%", fig.align='center' , out.height= "20%"}
datos_ordenados_b <- sort(b_sim_20000)
largo_b <- length(datos_ordenados_b)
valores_b <- c(1:largo_b)
pi_b <- (valores_b-0.5)/largo_b

quantiles_n_b = qnorm( p = pi_b, mean = ((sigma_a^2+sigma^2)*mu_b + sigma_b^2*(Y_obs - mu_a))/(sigma_a^2+sigma_b^2+sigma^2),
                             sd = sqrt((sigma_b^2*(sigma_a^2+sigma^2))/(sigma_a^2+sigma_b^2+sigma^2)))
plot(datos_ordenados_b, quantiles_n_b,xlab = "Datos ordenados en b",ylab = "Cuantiles de b",main = "qqplot del parámetro b", col = "#7f00b2")
abline(a = 0, b = 1, col = "black",lwd = 2)
```

Es claro observar que practicamente todos los valores son cercanos a la Normal, nuevamente si analizamos de manera cuantitativa usando el `ks.test()`, el valor es demasiado pequeño lo que hace validar nuestro supuesto.

```{r echo = FALSE}
ks.test(x = datos_ordenados_b, y = "pnorm", ((sigma_a^2+sigma^2)*mu_b + sigma_b^2*(Y_obs - mu_a))/(sigma_a^2+sigma_b^2+sigma^2),
        sqrt((sigma_b^2*(sigma_a^2+sigma^2))/(sigma_a^2+sigma_b^2+sigma^2)))
```

3. Para el parámetro $a+b$, tenemos que el `qqplot()` se acerca mucho a la Normal, mucho más que los parámetros de forma individual, esto tambien se debe principalmente a que es el mínimo suficiente:

```{r echo=FALSE, out.width= "100%", fig.align='center' , out.height= "20%"}
datos_ordenados_a_b <- sort(a_b_sim_20000)
largo_a_b <- length(datos_ordenados_a_b)
valores_a_b <- c(1:largo_a_b)
pi_a_b <- (valores_a_b-0.5)/largo_a_b

quantiles_n_a_b = qnorm( p = pi_a_b, mean = ((mu_a^2+mu_b^2)*sigma^2 + Y_obs*(sigma_a^2 - sigma_b^2))/(sigma_a^2+sigma_b^2+sigma^2),
                             sd = sqrt((sigma^2*(sigma_a^2+sigma_b^2))/(sigma_a^2+sigma_b^2+sigma^2)))
plot(datos_ordenados_a_b, quantiles_n_a_b,xlab = "Datos ordenados en a+b",ylab = "Cuantiles de a+b",main = "qqplot del parámetro a+b", col = "#7f00b2")
abline(a = 0, b = 1, col = "black",lwd = 2)
```

Nuevamente en este caso la gráfica es practicamente perfecta, y el `ks.test()` nos confirma esta idea de que el parámetro distribuye Normal, dado su tamaño extremadamente pequeño:

```{r echo=FALSE}
ks.test(x = datos_ordenados_a_b, y = "pnorm",((mu_a^2+mu_b^2)*sigma^2 + Y_obs*(sigma_a^2 - sigma_b^2))/(sigma_a^2+sigma_b^2+sigma^2),
        sqrt((sigma^2*(sigma_a^2+sigma_b^2))/(sigma_a^2+sigma_b^2+sigma^2)))

```

Finalmente, si nos interesa revisar si las distribuciones a posteriori de $(a|Y_1,...,Y_n)$ y de $(b|Y_1,...,Y_n)$ son función o se parecen en algo a la distribución a posteriori del parámetro mínimo suficiente podemos usar un histograma para revisar su comportamiento:

```{r echo = FALSE}
par(mfrow=c(1,3))
hist(a_sim_2000, freq = F, xlab = "simulaciones de a",ylab = "Densidad",
     main = "Histograma de a", col = "#7f00b2", breaks = 20)
hist(b_sim_2000, freq = F, xlab = "simulaciones de b",ylab = "Densidad",
     main = "Histograma de b", col = "#7f00b2", breaks = 20)
hist(a_b_sim_2000, freq = F, xlab = "simulaciones de a+b",ylab = "Densidad",
     main = "Histograma de a+b", col = "#7f00b2", breaks = 20)
```

Con lo anterior, podemos ver que el algoritmo de Gibbs aplicado a una cadena de `r n` observaciones, cuyas medias son $0_s$ y sus desviaciones estándar son $1_s$, todo resulta perfecto. Sin embargo, **¿Qué ocurre cuando la varianza comienza a aumentar?**. A continuación, ampliaremos el análisis para distintos casos donde la desviación estándar comienza a cambiar (para revisar todos los casos ver Anexos):

### Caso 1: sigma_a > sigma_b > sigma

En este caso definimos, los valores de sigma como :

```{r}
sigma_a_caso1 = 10000
sigma_b_caso1 = 50
sigma_caso1 = 1 
```

El `traceplot()` de dicho caso, nos muestra que el parámetro de $a$ tiene mayor dispersión que el de $b$, por lo que al final el parámetro mínimo suficiente tiende a dispersarse mucho, sin embargo si revisamos los `qqplot()`, tanto el de $a$ como $b$ no son muy adecuados, sin embargo el mínimo sufiente $a+b$ tiende a ser mucho más correcto y parecerse a una Normal.

### Caso 3: sigma_b > sigma_a > sigma

En este caso definimos, los valores de sigma como :

```{r}
sigma_a_caso1 = 10000
sigma_b_caso1 = 50
sigma_caso1 = 1 
```

El `traceplot()` de dicho caso, nos muestra que el parámetro de $a$ tiene mayor dispersión que el de $b$, por lo que al final el parámetro mínimo suficiente tiende a dispersarse mucho, sin embargo si revisamos los `qqplot()`, tanto el de $a$ como $b$ no son muy adecuados, sin embargo el mínimo sufiente $a+b$ tiende a ser mucho más correcto y parecerse a una Normal.

### Caso 2: sigma > sigma_b > sigma_a

En este caso definimos, los valores de sigma como :

```{r}
sigma_a_caso2 = 1
sigma_b_caso2 = 50
sigma_caso2 = 10000
```

El `traceplot()` de dicho caso, nos muestra que el parámetro de $a$ es el menos disperso, mientras que el de $b$ es muy disperso, por lo que al final el parámetro mínimo suficiente tiende a dispersarse mucho, sin embargo si revisamos los `qqplot()`, tanto el de $a$, como el de $b$ y como el mínimo sufiente $a+b$, no se acercan al valor de la Normal. Aquí, tenemos un  caso particular en el que donde la dispersión de las observaciones hace que el algoritmo de Gibbs no simula los valores de manera correcta. A pesar de que el valor del `ks.test()` nos da muy pequeño, los valores gráficos nos demuestran que no es correcto. Esto ocurre de manera similar en el caso 4(revisar Anexos).

### Caso 5: sigma_a > sigma_b = sigma y Caso 6: sigma_b > sigma_a = sigma

En este caso definimos, los valores de sigma como :

```{r}
# caso 5

sigma_a_caso5 = 10000
sigma_b_caso5 = 3
sigma_caso5 = 3

# caso 6

sigma_a_caso6 = 3
sigma_b_caso6 = 10000
sigma_caso6 = 3

```

Aquí podemos ver que cuando la varianza de alguno de los parámetros es demasiado grande la convergencia es muy complicada, tanto del parámetro correspondiente como la del mínimo suficiente, esto se puede ver claramente en los `qqplots()` de dichos casos. Por lo que podemos ver que en casos como este la convergencia se le complica al algoritmo de Gibbs.

### Caso 7: sigma > sigma_a = sigma_b

En este caso definimos, los valores de sigma como :

```{r}
sigma_a_caso7 = 1 
sigma_b_caso7 = 1
sigma_caso7 = 10000 
```

Aquí tenemos otro caso interesante, ya que al definir la desviación estándar de las observaciones tan alta, hace que ningún parámetro converja de manera correcta, algo similar al caso 2 o caso 4, y esto se aprecia considerablemente en el `qqplot()` de dicho problema.

### Caso 8: sigma_a = sigma_b > sigma

En este caso definimos, los valores de sigma como :

```{r}
sigma_a_caso8 = 10000 
sigma_b_caso8 = 10000
sigma_caso8 = 1 
```

Finalmente, en este último caso que se ha decidido analizar, podemos es claro ver que a pesar que la dispersión de los parámetros es altisima, si el de las observaciones es bajo, podemos asegurar una buena convergencia del algoritmo.

## Reflexión de preguntas

Según lo expuesto a lo largo de este informe, ya nos encontramos con el conocimiento suficiente para dar una respuesta mucho más clara de lo solicitado.

La primera pregunta a analizar es: **¿Es correcto afirmar que la cadena de Markov asociada al parámetro mínimo suficiente converge “más fácilmente” que las cadenas de Markov asociadas a los parámetros a y b?**, y bueno como lo revisamos en los `traceplot()` de los distintos casos, la convergencia es algo que siempre trata de hacer el algotitmo del Gibbs, sin embargo, podemos notar claramente que cuando la varianza de alguno de los parámetros o de las observaciones aumenta de manera considerable hace que la convergencia sea más difícil de ocurrir, haciendo que el parámetro llegue a oscilar de manera bastante ruidosa, no obstante, a pesar de que a $a$ y a $b$ les cueste, siempre para el parámetro mínimo suficiente será más sencillo.

Luego, si respondemos a la segunda pregunta que es: **¿En qué medida el Gibbs sampling permite constatar que la distribución a posteriori de un párametro que no es el mínimo suficiente (por ejemplo, a) se reduce a la distribución a posteriori del párametro mínimo suficiente?** está pregunta al igual que la anterior esta altamente relacionada a la anterior, ya que, al saber que el algoritmo 

## Conclusión

En conclusión de todo este trabajo, podemos decir que el algortimo de Gibbs es una herramienta altamente poderosa, ya que, nos permite encontrar la forma de las distribuciones a posteriori cuando es muy complejo hacerlo a mano. Sin embargo, es necesario tener presente que cuando se analiza problemas de este estilo, antes de determinar la convegencia del algoritmo o no, es muy importante conocer la naturaleza de nuestros datos, para saber si afectará o no en la convergencia del algoritmo. Otro punto importante a destacar aquí es que a priori no importa como sea la distribución de los parámetros, sino que para tomar un juicio es muy importante que el parámetro sea mínimo suficiente, ya que, de esta manera aseguramos la convergencia del algoritmo.

## Referencias

1. Hoff, P. D. (2009). *A First Course in Bayesian Statistical Methods*. Springer.

2. Material explicado en clases.

## Anexos

### Caso 1: sigma_a > sigma_b > sigma

```{r fig.cap= "Caso 1: sigma_a > sigma_b > sigma" ,echo=FALSE, out.width= "100%", fig.align='center' , out.height= "20%"}
par(mfrow = c(1,3))

valores_caso1 = c(a_sim_2000_caso1,b_sim_2000_caso1,a_b_sim_2000_caso1)

plot(a_sim_2000_caso1, type="l", ylim = c(min(valores_caso1),max(valores_caso1)), xlab = "Cantidad de simulaciones",ylab = "Simulaciones de Gibbs",
     main = expression(paste("Traceplot (a|Y_i,b)\n con 2000 simulaciones")), col = "#7f00b2")
plot(b_sim_2000_caso1, type="l", ylim = c(min(valores_caso1),max(valores_caso1)), xlab = "Cantidad de simulaciones",ylab = "Simulaciones de Gibbs",
     main = expression(paste("Traceplot(b|Y_i,a)\n con 2000 simulaciones")), col = "#7f00b2")
plot(a_b_sim_2000_caso1, type="l", ylim = c(min(valores_caso1),max(valores_caso1)), xlab = "Cantidad de simulaciones",ylab = "Simulaciones de Gibbs",
     main = expression(paste("Traceplot(a+b|Y_i,a,b)\n con 2000 simulaciones")), col = "#7f00b2")
```

```{r echo=FALSE, out.width= "100%", fig.align='center' , out.height= "20%"}
par(mfrow = c(1,3))

plot(datos_ordenados_caso1_a, quantiles_n_caso1_a, xlab = "Datos ordenados en a",ylab = "Cuantiles de a",main = "qqplot del parámetro a", col = "#7f00b2")
abline(a = 0, b = 1, col = "black",lwd = 2)

plot(datos_ordenados_caso1_b, quantiles_n_caso1_b,xlab = "Datos ordenados en b",ylab = "Cuantiles de b",main = "qqplot del parámetro b", col = "#7f00b2")
abline(a = 0, b = 1, col = "black",lwd = 2)

plot(datos_ordenados_caso1_a_b, quantiles_n_caso1_a_b,xlab = "Datos ordenados en a+b",ylab = "Cuantiles de a+b",main = "qqplot del parámetro a+b", col = "#7f00b2")
abline(a = 0, b = 1, col = "black",lwd = 2)

```

```{r echo=FALSE, out.width= "100%", fig.align='center' , out.height= "20%"}

ks.test(x = datos_ordenados_caso1_a, y = "pnorm", ((sigma_b_caso1^2+sigma_caso1^2)*mu_a + sigma_a_caso1^2*(Y_obs_caso1 - mu_b))/(sigma_a_caso1^2+sigma_b_caso1^2+sigma_caso1^2),
        sqrt((sigma_a_caso1^2*(sigma_b_caso1^2+sigma_caso1^2))/(sigma_a_caso1^2+sigma_b_caso1^2+sigma_caso1^2)))


ks.test(x = datos_ordenados_caso1_b, y = "pnorm", ((sigma_a_caso1^2+sigma_caso1^2)*mu_b + sigma_b_caso1^2*(Y_obs_caso1 - mu_a))/(sigma_a_caso1^2+sigma_b_caso1^2+sigma_caso1^2),
        sqrt((sigma_b_caso1^2*(sigma_a_caso1^2+sigma_caso1^2))/(sigma_a_caso1^2+sigma_b_caso1^2+sigma_caso1^2)))


ks.test(x = datos_ordenados_caso1_a_b, y = "pnorm",((mu_a^2+mu_b^2)*sigma^2 + Y_obs_caso1*(sigma_a_caso1^2 - sigma_b_caso1^2))/(sigma_a_caso1^2+sigma_b_caso1^2+sigma_caso1^2),
        sqrt((sigma_caso1^2*(sigma_a_caso1^2+sigma_b_caso1^2))/(sigma_a_caso1^2+sigma_b_caso1^2+sigma_caso1^2)))


```

```{r echo = FALSE}
par(mfrow=c(1,3))
hist(a_sim_2000_caso1, freq = F, xlab = "simulaciones de a",ylab = "Densidad",
     main = "Histograma de a", col = "#7f00b2", breaks = 20)
hist(b_sim_2000_caso1, freq = F, xlab = "simulaciones de b",ylab = "Densidad",
     main = "Histograma de b", col = "#7f00b2", breaks = 20)
hist(a_b_sim_2000_caso1, freq = F, xlab = "simulaciones de a+b",ylab = "Densidad",
     main = "Histograma de a+b", col = "#7f00b2", breaks = 20)
```

### Caso 2: sigma > sigma_b > sigma_a

```{r fig.cap= "Caso 2: sigma > sigma_b > sigma_a" ,echo=FALSE, out.width= "100%", fig.align='center' , out.height= "20%"}
par(mfrow = c(1,3))

valores_caso2 = c(a_sim_2000_caso2,b_sim_2000_caso2,a_b_sim_2000_caso2)

plot(a_sim_2000_caso2, type="l", ylim = c(min(valores_caso2),max(valores_caso2)), xlab = "Cantidad de simulaciones",ylab = "Simulaciones de Gibbs",
     main = expression(paste("Traceplot (a|Y_i,b)\n con 2000 simulaciones")), col = "#7f00b2")
plot(b_sim_2000_caso2, type="l", ylim = c(min(valores_caso2),max(valores_caso2)), xlab = "Cantidad de simulaciones",ylab = "Simulaciones de Gibbs",
     main = expression(paste("Traceplot(b|Y_i,a)\n con 2000 simulaciones")), col = "#7f00b2")
plot(a_b_sim_2000_caso2, type="l", ylim = c(min(valores_caso2),max(valores_caso2)), xlab = "Cantidad de simulaciones",ylab = "Simulaciones de Gibbs",
     main = expression(paste("Traceplot(a+b|Y_i,a,b)\n con 2000 simulaciones")), col = "#7f00b2")


```


```{r echo=FALSE, out.width= "100%", fig.align='center' , out.height= "20%"}
par(mfrow = c(1,3))

plot(datos_ordenados_caso2_a, quantiles_n_caso2_a, xlab = "Datos ordenados en a",ylab = "Cuantiles de a",main = "qqplot del parámetro a", col = "#7f00b2")
abline(a = 0, b = 1, col = "black",lwd = 2)

plot(datos_ordenados_caso2_b, quantiles_n_caso2_b,xlab = "Datos ordenados en b",ylab = "Cuantiles de b",main = "qqplot del parámetro b", col = "#7f00b2")
abline(a = 0, b = 1, col = "black",lwd = 2)

plot(datos_ordenados_caso2_a_b, quantiles_n_caso2_a_b,xlab = "Datos ordenados en a+b",ylab = "Cuantiles de a+b",main = "qqplot del parámetro a+b", col = "#7f00b2")
abline(a = 0, b = 1, col = "black",lwd = 2)

```

```{r echo=FALSE, out.width= "100%", fig.align='center' , out.height= "20%"}

ks.test(x = datos_ordenados_caso2_a, y = "pnorm", ((sigma_b_caso2^2+sigma_caso2^2)*mu_a + sigma_a_caso2^2*(Y_obs_caso2 - mu_b))/(sigma_a_caso2^2+sigma_b_caso2^2+sigma_caso2^2),
        sqrt((sigma_a_caso2^2*(sigma_b_caso2^2+sigma_caso2^2))/(sigma_a_caso2^2+sigma_b_caso2^2+sigma_caso2^2)))


ks.test(x = datos_ordenados_caso2_b, y = "pnorm", ((sigma_a_caso2^2+sigma_caso2^2)*mu_b + sigma_b_caso2^2*(Y_obs_caso2 - mu_a))/(sigma_a_caso2^2+sigma_b_caso2^2+sigma_caso2^2),
        sqrt((sigma_b_caso2^2*(sigma_a_caso2^2+sigma_caso2^2))/(sigma_a_caso2^2+sigma_b_caso2^2+sigma_caso2^2)))


ks.test(x = datos_ordenados_caso2_a_b, y = "pnorm",((mu_a^2+mu_b^2)*sigma^2 + Y_obs_caso2*(sigma_a_caso2^2 - sigma_b_caso2^2))/(sigma_a_caso2^2+sigma_b_caso2^2+sigma_caso2^2),
        sqrt((sigma_caso2^2*(sigma_a_caso2^2+sigma_b_caso2^2))/(sigma_a_caso2^2+sigma_b_caso2^2+sigma_caso2^2)))


```

```{r echo = FALSE}
par(mfrow=c(1,3))
hist(a_sim_2000_caso2, freq = F, xlab = "simulaciones de a",ylab = "Densidad",
     main = "Histograma de a", col = "#7f00b2", breaks = 20)
hist(b_sim_2000_caso2, freq = F, xlab = "simulaciones de b",ylab = "Densidad",
     main = "Histograma de b", col = "#7f00b2", breaks = 20)
hist(a_b_sim_2000_caso2, freq = F, xlab = "simulaciones de a+b",ylab = "Densidad",
     main = "Histograma de a+b", col = "#7f00b2", breaks = 20)
```

### Caso 3: sigma_b > sigma_a > sigma

```{r fig.cap= "Caso 3: sigma_b > sigma_a > sigma",echo=FALSE, out.width= "100%", fig.align='center' , out.height= "20%"}
par(mfrow = c(1,3))

valores_caso3 = c(a_sim_2000_caso3,b_sim_2000_caso3,a_b_sim_2000_caso3)

plot(a_sim_2000_caso3, type="l", ylim = c(min(valores_caso3),max(valores_caso3)), xlab = "Cantidad de simulaciones",ylab = "Simulaciones de Gibbs",
     main = expression(paste("Traceplot (a|Y_i,b)\n con 2000 simulaciones")), col = "#7f00b2")
plot(b_sim_2000_caso3, type="l", ylim = c(min(valores_caso3),max(valores_caso3)), xlab = "Cantidad de simulaciones",ylab = "Simulaciones de Gibbs",
     main = expression(paste("Traceplot(b|Y_i,a)\n con 2000 simulaciones")), col = "#7f00b2")
plot(a_b_sim_2000_caso3, type="l", ylim = c(min(valores_caso3),max(valores_caso3)), xlab = "Cantidad de simulaciones",ylab = "Simulaciones de Gibbs",
     main = expression(paste("Traceplot(a+b|Y_i,a,b)\n con 2000 simulaciones")), col = "#7f00b2")


```


```{r echo=FALSE, out.width= "100%", fig.align='center' , out.height= "20%"}
par(mfrow = c(1,3))

plot(datos_ordenados_caso3_a, quantiles_n_caso3_a, xlab = "Datos ordenados en a",ylab = "Cuantiles de a",main = "qqplot del parámetro a", col = "#7f00b2")
abline(a = 0, b = 1, col = "black",lwd = 2)

plot(datos_ordenados_caso3_b, quantiles_n_caso3_b,xlab = "Datos ordenados en b",ylab = "Cuantiles de b",main = "qqplot del parámetro b", col = "#7f00b2")
abline(a = 0, b = 1, col = "black",lwd = 2)

plot(datos_ordenados_caso3_a_b, quantiles_n_caso3_a_b,xlab = "Datos ordenados en a+b",ylab = "Cuantiles de a+b",main = "qqplot del parámetro a+b", col = "#7f00b2")
abline(a = 0, b = 1, col = "black",lwd = 2)

```

```{r echo=FALSE, out.width= "100%", fig.align='center' , out.height= "20%"}

ks.test(x = datos_ordenados_caso3_a, y = "pnorm", ((sigma_b_caso3^2+sigma_caso3^2)*mu_a + sigma_a_caso3^2*(Y_obs_caso3 - mu_b))/(sigma_a_caso3^2+sigma_b_caso3^2+sigma_caso3^2),
        sqrt((sigma_a_caso3^2*(sigma_b_caso3^2+sigma_caso3^2))/(sigma_a_caso3^2+sigma_b_caso3^2+sigma_caso3^2)))


ks.test(x = datos_ordenados_caso3_b, y = "pnorm", ((sigma_a_caso3^2+sigma_caso3^2)*mu_b + sigma_b_caso3^2*(Y_obs_caso3 - mu_a))/(sigma_a_caso3^2+sigma_b_caso3^2+sigma_caso3^2),
        sqrt((sigma_b_caso3^2*(sigma_a_caso3^2+sigma_caso3^2))/(sigma_a_caso3^2+sigma_b_caso3^2+sigma_caso3^2)))


ks.test(x = datos_ordenados_caso3_a_b, y = "pnorm",((mu_a^2+mu_b^2)*sigma^2 + Y_obs_caso3*(sigma_a_caso3^2 - sigma_b_caso3^2))/(sigma_a_caso3^2+sigma_b_caso3^2+sigma_caso3^2),
        sqrt((sigma_caso3^2*(sigma_a_caso3^2+sigma_b_caso3^2))/(sigma_a_caso3^2+sigma_b_caso3^2+sigma_caso3^2)))


```

```{r echo = FALSE}
par(mfrow=c(1,3))
hist(a_sim_2000_caso3, freq = F, xlab = "simulaciones de a",ylab = "Densidad",
     main = "Histograma de a", col = "#7f00b2", breaks = 20)
hist(b_sim_2000_caso3, freq = F, xlab = "simulaciones de b",ylab = "Densidad",
     main = "Histograma de b", col = "#7f00b2", breaks = 20)
hist(a_b_sim_2000_caso3, freq = F, xlab = "simulaciones de a+b",ylab = "Densidad",
     main = "Histograma de a+b", col = "#7f00b2", breaks = 20)
```

### Caso 4: sigma > sigma_a > sigma_b

```{r fig.cap= "Caso 4: sigma > sigma_a > sigma_b",echo=FALSE, out.width= "100%", fig.align='center' , out.height= "20%"}
par(mfrow = c(1,3))

valores_caso4 = c(a_sim_2000_caso4,b_sim_2000_caso4,a_b_sim_2000_caso4)

plot(a_sim_2000_caso4, type="l", ylim = c(min(valores_caso4),max(valores_caso4)), xlab = "Cantidad de simulaciones",ylab = "Simulaciones de Gibbs",
     main = expression(paste("Traceplot (a|Y_i,b)\n con 2000 simulaciones")), col = "#7f00b2")
plot(b_sim_2000_caso4, type="l", ylim = c(min(valores_caso4),max(valores_caso4)), xlab = "Cantidad de simulaciones",ylab = "Simulaciones de Gibbs",
     main = expression(paste("Traceplot(b|Y_i,a)\n con 2000 simulaciones")), col = "#7f00b2")
plot(a_b_sim_2000_caso4, type="l", ylim = c(min(valores_caso4),max(valores_caso4)), xlab = "Cantidad de simulaciones",ylab = "Simulaciones de Gibbs",
     main = expression(paste("Traceplot(a+b|Y_i,a,b)\n con 2000 simulaciones")), col = "#7f00b2")

```


```{r echo=FALSE, out.width= "100%", fig.align='center' , out.height= "20%"}
par(mfrow = c(1,3))

plot(datos_ordenados_caso4_a, quantiles_n_caso4_a, xlab = "Datos ordenados en a",ylab = "Cuantiles de a",main = "qqplot del parámetro a", col = "#7f00b2")
abline(a = 0, b = 1, col = "black",lwd = 2)

plot(datos_ordenados_caso4_b, quantiles_n_caso4_b,xlab = "Datos ordenados en b",ylab = "Cuantiles de b",main = "qqplot del parámetro b", col = "#7f00b2")
abline(a = 0, b = 1, col = "black",lwd = 2)

plot(datos_ordenados_caso4_a_b, quantiles_n_caso4_a_b,xlab = "Datos ordenados en a+b",ylab = "Cuantiles de a+b",main = "qqplot del parámetro a+b", col = "#7f00b2")
abline(a = 0, b = 1, col = "black",lwd = 2)

```

```{r echo=FALSE, out.width= "100%", fig.align='center' , out.height= "20%"}

ks.test(x = datos_ordenados_caso4_a, y = "pnorm", ((sigma_b_caso4^2+sigma_caso4^2)*mu_a + sigma_a_caso4^2*(Y_obs_caso4 - mu_b))/(sigma_a_caso4^2+sigma_b_caso4^2+sigma_caso4^2),
        sqrt((sigma_a_caso4^2*(sigma_b_caso4^2+sigma_caso4^2))/(sigma_a_caso4^2+sigma_b_caso4^2+sigma_caso4^2)))


ks.test(x = datos_ordenados_caso4_b, y = "pnorm", ((sigma_a_caso4^2+sigma_caso4^2)*mu_b + sigma_b_caso4^2*(Y_obs_caso4 - mu_a))/(sigma_a_caso4^2+sigma_b_caso4^2+sigma_caso4^2),
        sqrt((sigma_b_caso4^2*(sigma_a_caso4^2+sigma_caso4^2))/(sigma_a_caso4^2+sigma_b_caso4^2+sigma_caso4^2)))


ks.test(x = datos_ordenados_caso4_a_b, y = "pnorm",((mu_a^2+mu_b^2)*sigma^2 + Y_obs_caso4*(sigma_a_caso4^2 - sigma_b_caso4^2))/(sigma_a_caso4^2+sigma_b_caso4^2+sigma_caso4^2),
        sqrt((sigma_caso4^2*(sigma_a_caso4^2+sigma_b_caso4^2))/(sigma_a_caso4^2+sigma_b_caso4^2+sigma_caso4^2)))


```

```{r echo = FALSE}
par(mfrow=c(1,3))
hist(a_sim_2000_caso4, freq = F, xlab = "simulaciones de a",ylab = "Densidad",
     main = "Histograma de a", col = "#7f00b2", breaks = 20)
hist(b_sim_2000_caso4, freq = F, xlab = "simulaciones de b",ylab = "Densidad",
     main = "Histograma de b", col = "#7f00b2", breaks = 20)
hist(a_b_sim_2000_caso4, freq = F, xlab = "simulaciones de a+b",ylab = "Densidad",
     main = "Histograma de a+b", col = "#7f00b2", breaks = 20)
```


### Caso 5: sigma_a > sigma_b = sigma

```{r fig.cap= "Caso 5: sigma_a > sigma_b = sigma",echo=FALSE, out.width= "100%", fig.align='center' , out.height= "20%"}
par(mfrow = c(1,3))

valores_caso5 = c(a_sim_2000_caso5,b_sim_2000_caso5,a_b_sim_2000_caso5)

plot(a_sim_2000_caso5, type="l", ylim = c(min(valores_caso5),max(valores_caso5)), xlab = "Cantidad de simulaciones",ylab = "Simulaciones de Gibbs",
     main = expression(paste("Traceplot (a|Y_i,b)\n con 2000 simulaciones")), col = "#7f00b2")
plot(b_sim_2000_caso5, type="l", ylim = c(min(valores_caso5),max(valores_caso5)), xlab = "Cantidad de simulaciones",ylab = "Simulaciones de Gibbs",
     main = expression(paste("Traceplot(b|Y_i,a)\n con 2000 simulaciones")), col = "#7f00b2")
plot(a_b_sim_2000_caso5, type="l", ylim = c(min(valores_caso5),max(valores_caso5)), xlab = "Cantidad de simulaciones",ylab = "Simulaciones de Gibbs",
     main = expression(paste("Traceplot(a+b|Y_i,a,b)\n con 2000 simulaciones")), col = "#7f00b2")


```


```{r echo=FALSE, out.width= "100%", fig.align='center' , out.height= "20%"}
par(mfrow = c(1,3))

plot(datos_ordenados_caso5_a, quantiles_n_caso5_a, xlab = "Datos ordenados en a",ylab = "Cuantiles de a",main = "qqplot del parámetro a", col = "#7f00b2")
abline(a = 0, b = 1, col = "black",lwd = 2)

plot(datos_ordenados_caso5_b, quantiles_n_caso5_b,xlab = "Datos ordenados en b",ylab = "Cuantiles de b",main = "qqplot del parámetro b", col = "#7f00b2")
abline(a = 0, b = 1, col = "black",lwd = 2)

plot(datos_ordenados_caso5_a_b, quantiles_n_caso5_a_b,xlab = "Datos ordenados en a+b",ylab = "Cuantiles de a+b",main = "qqplot del parámetro a+b", col = "#7f00b2")
abline(a = 0, b = 1, col = "black",lwd = 2)

```

```{r echo=FALSE, out.width= "100%", fig.align='center' , out.height= "20%"}

ks.test(x = datos_ordenados_caso5_a, y = "pnorm", ((sigma_b_caso5^2+sigma_caso5^2)*mu_a + sigma_a_caso5^2*(Y_obs_caso5 - mu_b))/(sigma_a_caso5^2+sigma_b_caso5^2+sigma_caso5^2),
        sqrt((sigma_a_caso5^2*(sigma_b_caso5^2+sigma_caso5^2))/(sigma_a_caso5^2+sigma_b_caso5^2+sigma_caso5^2)))


ks.test(x = datos_ordenados_caso5_b, y = "pnorm", ((sigma_a_caso5^2+sigma_caso5^2)*mu_b + sigma_b_caso5^2*(Y_obs_caso5 - mu_a))/(sigma_a_caso5^2+sigma_b_caso5^2+sigma_caso5^2),
        sqrt((sigma_b_caso5^2*(sigma_a_caso5^2+sigma_caso5^2))/(sigma_a_caso5^2+sigma_b_caso5^2+sigma_caso5^2)))


ks.test(x = datos_ordenados_caso5_a_b, y = "pnorm",((mu_a^2+mu_b^2)*sigma^2 + Y_obs_caso5*(sigma_a_caso5^2 - sigma_b_caso5^2))/(sigma_a_caso5^2+sigma_b_caso5^2+sigma_caso5^2),
        sqrt((sigma_caso5^2*(sigma_a_caso5^2+sigma_b_caso5^2))/(sigma_a_caso5^2+sigma_b_caso5^2+sigma_caso5^2)))


```

```{r echo = FALSE}
par(mfrow=c(1,3))
hist(a_sim_2000_caso5, freq = F, xlab = "simulaciones de a",ylab = "Densidad",
     main = "Histograma de a", col = "#7f00b2", breaks = 20)
hist(b_sim_2000_caso5, freq = F, xlab = "simulaciones de b",ylab = "Densidad",
     main = "Histograma de b", col = "#7f00b2", breaks = 20)
hist(a_b_sim_2000_caso5, freq = F, xlab = "simulaciones de a+b",ylab = "Densidad",
     main = "Histograma de a+b", col = "#7f00b2", breaks = 20)
```

### Caso 6: sigma_b > sigma_a = sigma

```{r fig.cap= "Caso 6: sigma_b > sigma_a = sigma",echo=FALSE, out.width= "100%", fig.align='center' , out.height= "20%"}
par(mfrow = c(1,3))

valores_caso6 = c(a_sim_2000_caso6,b_sim_2000_caso6,a_b_sim_2000_caso6)

plot(a_sim_2000_caso6, type="l", ylim = c(min(valores_caso6),max(valores_caso6)), xlab = "Cantidad de simulaciones",ylab = "Simulaciones de Gibbs",
     main = expression(paste("Traceplot (a|Y_i,b)\n con 2000 simulaciones")), col = "#7f00b2")
plot(b_sim_2000_caso6, type="l", ylim = c(min(valores_caso6),max(valores_caso6)), xlab = "Cantidad de simulaciones",ylab = "Simulaciones de Gibbs",
     main = expression(paste("Traceplot(b|Y_i,a)\n con 2000 simulaciones")), col = "#7f00b2")
plot(a_b_sim_2000_caso6, type="l", ylim = c(min(valores_caso6),max(valores_caso6)), xlab = "Cantidad de simulaciones",ylab = "Simulaciones de Gibbs",
     main = expression(paste("Traceplot(a+b|Y_i,a,b)\n con 2000 simulaciones")), col = "#7f00b2")


```


```{r echo=FALSE, out.width= "100%", fig.align='center' , out.height= "20%"}
par(mfrow = c(1,3))

plot(datos_ordenados_caso6_a, quantiles_n_caso6_a, xlab = "Datos ordenados en a",ylab = "Cuantiles de a",main = "qqplot del parámetro a", col = "#7f00b2")
abline(a = 0, b = 1, col = "black",lwd = 2)

plot(datos_ordenados_caso6_b, quantiles_n_caso6_b,xlab = "Datos ordenados en b",ylab = "Cuantiles de b",main = "qqplot del parámetro b", col = "#7f00b2")
abline(a = 0, b = 1, col = "black",lwd = 2)

plot(datos_ordenados_caso6_a_b, quantiles_n_caso6_a_b,xlab = "Datos ordenados en a+b",ylab = "Cuantiles de a+b",main = "qqplot del parámetro a+b", col = "#7f00b2")
abline(a = 0, b = 1, col = "black",lwd = 2)

```

```{r echo=FALSE, out.width= "100%", fig.align='center' , out.height= "20%"}

ks.test(x = datos_ordenados_caso6_a, y = "pnorm", ((sigma_b_caso6^2+sigma_caso6^2)*mu_a + sigma_a_caso6^2*(Y_obs_caso6 - mu_b))/(sigma_a_caso6^2+sigma_b_caso6^2+sigma_caso6^2),
        sqrt((sigma_a_caso6^2*(sigma_b_caso6^2+sigma_caso6^2))/(sigma_a_caso6^2+sigma_b_caso6^2+sigma_caso6^2)))


ks.test(x = datos_ordenados_caso6_b, y = "pnorm", ((sigma_a_caso6^2+sigma_caso6^2)*mu_b + sigma_b_caso6^2*(Y_obs_caso6 - mu_a))/(sigma_a_caso6^2+sigma_b_caso6^2+sigma_caso6^2),
        sqrt((sigma_b_caso6^2*(sigma_a_caso6^2+sigma_caso6^2))/(sigma_a_caso6^2+sigma_b_caso6^2+sigma_caso6^2)))


ks.test(x = datos_ordenados_caso6_a_b, y = "pnorm",((mu_a^2+mu_b^2)*sigma^2 + Y_obs_caso6*(sigma_a_caso6^2 - sigma_b_caso6^2))/(sigma_a_caso6^2+sigma_b_caso6^2+sigma_caso6^2),
        sqrt((sigma_caso6^2*(sigma_a_caso6^2+sigma_b_caso6^2))/(sigma_a_caso6^2+sigma_b_caso6^2+sigma_caso6^2)))


```

```{r echo = FALSE}
par(mfrow=c(1,3))
hist(a_sim_2000_caso6, freq = F, xlab = "simulaciones de a",ylab = "Densidad",
     main = "Histograma de a", col = "#7f00b2", breaks = 20)
hist(b_sim_2000_caso6, freq = F, xlab = "simulaciones de b",ylab = "Densidad",
     main = "Histograma de b", col = "#7f00b2", breaks = 20)
hist(a_b_sim_2000_caso6, freq = F, xlab = "simulaciones de a+b",ylab = "Densidad",
     main = "Histograma de a+b", col = "#7f00b2", breaks = 20)
```

### Caso 7: sigma > sigma_a = sigma_b

```{r fig.cap= "Caso 7: sigma > sigma_a = sigma_b",echo=FALSE, out.width= "100%", fig.align='center' , out.height= "20%"}
par(mfrow = c(1,3))

valores_caso7 = c(a_sim_2000_caso7,b_sim_2000_caso7,a_b_sim_2000_caso7)

plot(a_sim_2000_caso7, type="l", ylim = c(min(valores_caso7),max(valores_caso7)), xlab = "Cantidad de simulaciones",ylab = "Simulaciones de Gibbs",
     main = expression(paste("Traceplot (a|Y_i,b)\n con 2000 simulaciones")), col = "#7f00b2")
plot(b_sim_2000_caso7, type="l", ylim = c(min(valores_caso7),max(valores_caso7)), xlab = "Cantidad de simulaciones",ylab = "Simulaciones de Gibbs",
     main = expression(paste("Traceplot(b|Y_i,a)\n con 2000 simulaciones")), col = "#7f00b2")
plot(a_b_sim_2000_caso7, type="l", ylim = c(min(valores_caso7),max(valores_caso7)), xlab = "Cantidad de simulaciones",ylab = "Simulaciones de Gibbs",
     main = expression(paste("Traceplot(a+b|Y_i,a,b)\n con 2000 simulaciones")), col = "#7f00b2")


```


```{r echo=FALSE, out.width= "100%", fig.align='center' , out.height= "20%"}
par(mfrow = c(1,3))

plot(datos_ordenados_caso7_a, quantiles_n_caso7_a, xlab = "Datos ordenados en a",ylab = "Cuantiles de a",main = "qqplot del parámetro a", col = "#7f00b2")
abline(a = 0, b = 1, col = "black",lwd = 2)

plot(datos_ordenados_caso7_b, quantiles_n_caso7_b,xlab = "Datos ordenados en b",ylab = "Cuantiles de b",main = "qqplot del parámetro b", col = "#7f00b2")
abline(a = 0, b = 1, col = "black",lwd = 2)

plot(datos_ordenados_caso7_a_b, quantiles_n_caso7_a_b,xlab = "Datos ordenados en a+b",ylab = "Cuantiles de a+b",main = "qqplot del parámetro a+b", col = "#7f00b2")
abline(a = 0, b = 1, col = "black",lwd = 2)

```

```{r echo=FALSE, out.width= "100%", fig.align='center' , out.height= "20%"}

ks.test(x = datos_ordenados_caso7_a, y = "pnorm", ((sigma_b_caso7^2+sigma_caso7^2)*mu_a + sigma_a_caso7^2*(Y_obs_caso7 - mu_b))/(sigma_a_caso7^2+sigma_b_caso7^2+sigma_caso7^2),
        sqrt((sigma_a_caso7^2*(sigma_b_caso7^2+sigma_caso7^2))/(sigma_a_caso7^2+sigma_b_caso7^2+sigma_caso7^2)))


ks.test(x = datos_ordenados_caso7_b, y = "pnorm", ((sigma_a_caso7^2+sigma_caso7^2)*mu_b + sigma_b_caso7^2*(Y_obs_caso7 - mu_a))/(sigma_a_caso7^2+sigma_b_caso7^2+sigma_caso7^2),
        sqrt((sigma_b_caso7^2*(sigma_a_caso7^2+sigma_caso7^2))/(sigma_a_caso7^2+sigma_b_caso7^2+sigma_caso7^2)))


ks.test(x = datos_ordenados_caso7_a_b, y = "pnorm",((mu_a^2+mu_b^2)*sigma^2 + Y_obs_caso7*(sigma_a_caso7^2 - sigma_b_caso7^2))/(sigma_a_caso7^2+sigma_b_caso7^2+sigma_caso7^2),
        sqrt((sigma_caso7^2*(sigma_a_caso7^2+sigma_b_caso7^2))/(sigma_a_caso7^2+sigma_b_caso7^2+sigma_caso7^2)))


```

```{r echo = FALSE}
par(mfrow=c(1,3))
hist(a_sim_2000_caso7, freq = F, xlab = "simulaciones de a",ylab = "Densidad",
     main = "Histograma de a", col = "#7f00b2", breaks = 20)
hist(b_sim_2000_caso7, freq = F, xlab = "simulaciones de b",ylab = "Densidad",
     main = "Histograma de b", col = "#7f00b2", breaks = 20)
hist(a_b_sim_2000_caso7, freq = F, xlab = "simulaciones de a+b",ylab = "Densidad",
     main = "Histograma de a+b", col = "#7f00b2", breaks = 20)
```

### Caso 8: sigma_a = sigma_b > sigma

```{r fig.cap= "Caso 8: sigma_a = sigma_b > sigma",echo=FALSE, out.width= "100%", fig.align='center', out.height= "20%"}
par(mfrow = c(1,3))

valores_caso8 = c(a_sim_2000_caso8,b_sim_2000_caso8,a_b_sim_2000_caso8)

plot(a_sim_2000_caso8, type="l", ylim = c(min(valores_caso8),max(valores_caso8)), xlab = "Cantidad de simulaciones",ylab = "Simulaciones de Gibbs",
     main = expression(paste("Traceplot (a|Y_i,b)\n con 2000 simulaciones")), col = "#7f00b2")
plot(b_sim_2000_caso8, type="l", ylim = c(min(valores_caso8),max(valores_caso8)), xlab = "Cantidad de simulaciones",ylab = "Simulaciones de Gibbs",
     main = expression(paste("Traceplot(b|Y_i,a)\n con 2000 simulaciones")), col = "#7f00b2")
plot(a_b_sim_2000_caso8, type="l", ylim = c(min(valores_caso8),max(valores_caso8)), xlab = "Cantidad de simulaciones",ylab = "Simulaciones de Gibbs",
     main = expression(paste("Traceplot(a+b|Y_i,a,b)\n con 2000 simulaciones")), col = "#7f00b2")

```


```{r echo=FALSE, out.width= "100%", fig.align='center' , out.height= "20%"}
par(mfrow = c(1,3))

plot(datos_ordenados_caso8_a, quantiles_n_caso8_a, xlab = "Datos ordenados en a",ylab = "Cuantiles de a",main = "qqplot del parámetro a", col = "#7f00b2")
abline(a = 0, b = 1, col = "black",lwd = 2)

plot(datos_ordenados_caso8_b, quantiles_n_caso8_b,xlab = "Datos ordenados en b",ylab = "Cuantiles de b",main = "qqplot del parámetro b", col = "#7f00b2")
abline(a = 0, b = 1, col = "black",lwd = 2)

plot(datos_ordenados_caso8_a_b, quantiles_n_caso8_a_b,xlab = "Datos ordenados en a+b",ylab = "Cuantiles de a+b",main = "qqplot del parámetro a+b", col = "#7f00b2")
abline(a = 0, b = 1, col = "black",lwd = 2)

```

```{r echo=FALSE, out.width= "100%", fig.align='center' , out.height= "20%"}

ks.test(x = datos_ordenados_caso8_a, y = "pnorm", ((sigma_b_caso8^2+sigma_caso8^2)*mu_a + sigma_a_caso8^2*(Y_obs_caso8 - mu_b))/(sigma_a_caso8^2+sigma_b_caso8^2+sigma_caso8^2),
        sqrt((sigma_a_caso8^2*(sigma_b_caso8^2+sigma_caso8^2))/(sigma_a_caso8^2+sigma_b_caso8^2+sigma_caso8^2)))


ks.test(x = datos_ordenados_caso8_b, y = "pnorm", ((sigma_a_caso8^2+sigma_caso8^2)*mu_b + sigma_b_caso8^2*(Y_obs_caso8 - mu_a))/(sigma_a_caso8^2+sigma_b_caso8^2+sigma_caso8^2),
        sqrt((sigma_b_caso8^2*(sigma_a_caso8^2+sigma_caso8^2))/(sigma_a_caso8^2+sigma_b_caso8^2+sigma_caso8^2)))


ks.test(x = datos_ordenados_caso8_a_b, y = "pnorm",((mu_a^2+mu_b^2)*sigma^2 + Y_obs_caso8*(sigma_a_caso8^2 - sigma_b_caso8^2))/(sigma_a_caso8^2+sigma_b_caso8^2+sigma_caso8^2),
        sqrt((sigma_caso8^2*(sigma_a_caso8^2+sigma_b_caso8^2))/(sigma_a_caso8^2+sigma_b_caso8^2+sigma_caso8^2)))


```

```{r echo = FALSE}
par(mfrow=c(1,3))
hist(a_sim_2000_caso8, freq = F, xlab = "simulaciones de a",ylab = "Densidad",
     main = "Histograma de a", col = "#7f00b2", breaks = 20)
hist(b_sim_2000_caso8, freq = F, xlab = "simulaciones de b",ylab = "Densidad",
     main = "Histograma de b", col = "#7f00b2", breaks = 20)
hist(a_b_sim_2000_caso8, freq = F, xlab = "simulaciones de a+b",ylab = "Densidad",
     main = "Histograma de a+b", col = "#7f00b2", breaks = 20)
```

```{r include=FALSE}
beep(8)
```

