Introducción

Partiremos de un dataset público disponible en R, «airquality», el cual nos da la información sobre la calidad del aire en Nueva York. El objetivo principal será analizar si existe correlación o no entre las variables de temperatura y la media de ozono. Para responder a las preguntas planteadas deberemos usar librerías como bayestestR, rstanarm, BayesFactor y see.


Ejercicio 1

Indica si la correlación entre las dos variables numéricas es significativa empleando el coeficiente de correlación de Pearson.

  • Como sabemos las correlación de Pearson nos muestra cuan asociados se encuentran dos variables entre sí. Una aproximación menor a 0 indica que existe una relación negativa, es decir que las dos variables están asociadas en sentido inverso. Por lo contrario si es mayor a 0 existe una correlación positiva y por ende directo. En ambos casos cuanto más cerca de 1 o -1 significa que más alta es su asociación. Finalmente, una correlación de 0, o próxima a 0, indica que no hay relación lineal entre las dos variables.
## [1] 0.6983603
  • Otra manera de hacer la misma operación de una manera más completa seria con cor.test(x = df\(Temp, y = df\)Ozone), ya que nos muestra más datos. Esta función está en la misma biblioteca que la anterior, es un método más que se puede utilizar para completar nuestra visión. Los resultados son los siguientes:
## 
##  Pearson's product-moment correlation
## 
## data:  df$Temp and df$Ozone
## t = 10.418, df = 114, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.5913340 0.7812111
## sample estimates:
##       cor 
## 0.6983603
  • Si el valor de alfa para hacer las pruebas es mayor a 0.05 su relacion no es significativa sin embargo por el contrario es menor a 0.05 su relación significativa.
  • Como podemos observar la correlación entre temperatura y ozono es bastante significativa, debido a que la varible p-value tiene un valor inferior a 0.05, por lo que podemos afirmar que si una cambia su estado la otra tambien. Esto lo visualizaremos en el gráfico siguiente.

Genera una visualización que muestre la dispersión de las dos variables junto a su línea de regresión.


Ejercicio 2

Calcula ahora la correlación bayesiana de las dos mismas variables y calcula sus posteriores. (Tip: usa la librería BayesFactor).

  • Antes de calcular la correlación bayesiana vamos a entender que es lo que buscamos. En términos simples cuando calculamos el Factor de Bayes estamos buscando cuan probable es un resultado respecto a otro o dicho de otra manera compara dos hipótesis, una nula (ausencia de efecto) con una alternativa. Cuando hacemos las operaciones el resultado es para una mediana de 0.689 el factor de bayes es 1.15e+15. Lo que significa que es más probable la evidencia que el valor nulo y por tanto es una correlacion fuerte.
## Summary of Posterior Distribution
## 
## Parameter | Median |       95% CI |   pd |          ROPE | % in ROPE |       BF |         Prior
## -----------------------------------------------------------------------------------------------
## rho       |   0.68 | [0.57, 0.76] | 100% | [-0.05, 0.05] |        0% | 1.15e+15 | Beta (3 +- 3)

Ejercicio 3

Calcula ahora el factor de Bayes. Como sabrás, una prueba de correlación en realidad compara dos hipótesis, una nula (ausencia de efecto) con una alternativa (presencia de efecto). El factor de Bayes (BF) permite la misma comparación y determina bajo cuál de dos modelos los datos observados son más probables. Con el factor de Bayes, puedes medir la evidencia en contra y a favor del nulo.

## Bayes Factors for Model Comparison
## 
##     Model            BF
## [2] (rho != 0) 1.15e+15
## 
## * Against Denominator: [1] (rho = 0)
## *   Bayes Factor Type: JZS (BayesFactor)

Ejercicio 4

Genera ahora una visualización del factor de Bayes que te permita sacar conclusiones del estudio de manera clara y sencilla.

  • Lo que nos está mostrando el gráfico es que el resultado del Factor de Bayes es “absoluto”, o mejor dicho, da una posibilidad remota de que el valor sea nulo. Por lo que coherentemente podriamos afirmar que la correlación existe entre las variables (Temperatura y Ozono).

Ejercicio 5

Concluye si las dos variables tienen correlación o no sobre la base de los estudios realizados en los puntos anteriores.

  • Podemos afirmar que las dos varibales (Temperatura y Ozono) tienen una correlación fuerte debido a dos pruebas empiricas: la primera es la correlación de Person, que nos indica que es una correlación positiva o de sentido directo, y como su resultado es 0.6983 (más proximo a 1 que a 0) entendemos que aunque no es una correlación perfecta ya que pueden intervenir otras variables, es lo suficientemente importante como para despreciar su influencia.
  • La segunda prueba es la correlacion bayesiana, como podemos ver si dividimos 1 / BF nos da un valor muy cercano a 0, por lo que es significativamente más probable bajo la hipótesis alternativa en comparación con la hipótesis nula. Incluso podemos apreciarlo en la gráfica.
  • Dadas estas pruebas podemos concluir que las variables tienen correlación entre si.