Estadísticamente ¿Qué es una correlación?
Es muy común que en el campo de la biología y la ecología nos topemos con que algunas variables guardan cierta relación. Por ejemplo, la frecuencia cardiaca con respecto al esfuerzo físico. El peso de un individuo con respecto a su talla. La cantidad de oxígeno disuelto y la temperatura del agua, o la cantidad de sal y la conductividad en un cuerpo de agua.
De forma general, podemos hablar de una variable X y una Y. Matemáticamente se les conoce como variable independiente y variable dependiente, respectivamente. Esto es, la primera puede cambiar de forma independiente a la segunda, pero la respuesta de esta última sí está en función de la primera. Retomando el caso del oxígeno disuelto, éste cambia con respecto a la temperatura del agua. Cuando aumenta la temperatura del agua, se promueve una disminución de la concentración de oxígeno disuelto. En este caso, conforme aumenta la variable independiente (temperatura del agua), disminuye la variable dependiente (concentración de oxígeno disuelto). Considerando el otro ejemplo, cuando aumenta la salinidad del agua, la conductividad específica también aumenta. En este ejemplo, cuando aumenta la variable independiente (concentración de sales), aumenta también la variable dependiente (conductividad específica).
Cuando se demuestra que la variación de una variable está asociada con la variación de otra, se dice que ambas están correlacionadas.
Una correlación puede ser positiva (cuando ambas variables incrementan su valor), o negativa (cuando al aumentar una variable, la otra disminuye).
El grado de asociación o correlación entre las variables se expresa mediante el coeficiente r, denominado Coeficiente de correlación de Pearson, el cual toma valores desde -1, pasando por cero, hasta 1. Un coeficiente r de 1, ya sea negativo o positivo, implica una correlación perfecta, ya sea negativa o positiva, respectivamente. El valor de cero implica que no hay ninguna relación entre las variables, es decir, éstas son independientes una de otra.
Veamos el ejemplo de la concentración del oxígeno disuelto y la temperatura del agua medidos en un cuerpo de agua.
Como primer paso, vamos a llamar a las librerías que utilizaremos.
Y ahora llamaremos a nuestra base de datos “Relacion_OD_Temperatura_del_agua.csv”
Como podemos observar, mientras aumenta la temperatura, la concentración de oxígeno disuelto disminuye y sigue una tendencia que podemos evidenciar mediante el siguiente código.
ggplot(relacion_od_temp, aes(x=Temperatura, y=OD)) +
geom_point(color='#2980B9', size = 2) +
geom_smooth(method = "lm", formula = y ~ x, level=0.95, size=1)
La línea de tendencia nos muestra precisamente la relación que guardan la temperatura del agua con la concentración de oxígeno disuelto.
Determinemos ahora que tan fuerte es esta relación. Esto se obtiene mediante el comando “cor.test”. Comentamos que una relación negativa perfecta sería igual a -1, veamos que tan fuerte es.
##
## Pearson's product-moment correlation
##
## data: relacion_od_temp$OD and relacion_od_temp$Temperatura
## t = -83.398, df = 392, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.9777664 -0.9671258
## sample estimates:
## cor
## -0.9729575
Lo anterior implica que existe un 97.29% de relación entre estas dos variables. Sin embargo, revisando la gráfica de dispersión de nuestros datos, es posible notar una ligera tendencia a la curvatura en los éstos. Es decir, el ajuste de los datos de campo no tiene una tendencia totalmente lineal.
Lo anterior podría implicar que los datos no necesariamente tienen una distribución normal o gausiana. Comprobemos esta distribución mediante la prueba de Shapiro-Wilk.
Esta prueba trabaja bajo la hipótesis nula de que los datos tienen una distribución normal. La hipotesis alterna, por tanto, es que los datos no tienen una distribución normal. Procedamos entonces a verificar estos supuestos en nuestros datos. Probaremos la normalidad de cada variable involucrada.
##
## Shapiro-Wilk normality test
##
## data: relacion_od_temp$Temperatura
## W = 0.99439, p-value = 0.1579
Como podemos ver, el valor de p mayor a 0.05, indica que debemos aceptar la hipótesis nula, por lo que la distribución de los datos de temperatura del agua, es normal.
Revisemos ahora la distribución del oxígeno disuelto:
##
## Shapiro-Wilk normality test
##
## data: relacion_od_temp$OD
## W = 0.94201, p-value = 2.775e-11
La prueba revela un valor de p menor de 0.05, lo que indica que la hipótesis nula se debe rechazar, y por tanto la distribución de los datos de oxígeno disuelto no es normal.
En estos casos, dado que una de las variables no es normal, se recomienda entonces utilizar el coeficiente de correlación de Spearman, el cuál es el equivalente del coeficiente de Pearson, pero para datos no paramétricos.
coef_corr2 <- cor.test(relacion_od_temp$OD, relacion_od_temp$Temperatura, method="spearman")
coef_corr2
##
## Spearman's rank correlation rho
##
## data: relacion_od_temp$OD and relacion_od_temp$Temperatura
## S = 20381604, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## -0.9994186
Vemos ahora que el valor de la asociación entre estas variables mejora considerablemente, acercándose aún más al valor de -1, la correlación negativa perfecta.
Acabamos de ver un ejemplo muy sencillo sobre la relación entre dos variables ambientales, la temperatura del agua y la concentración de oxígeno disuelto. Hemos valorado la relación que guardan entre sí mediante el cálculo de su correlación.
Podríamos habernos quedado a gusto con el cálculo del coeficiente de Pearson; sin embargo, al hacer la prueba de normalidad descubrimos que una de las variables no se ajusta a una distribución normal. Luego entonces aplicamos el coeficeinte de Spearman, para datos no paramétricos y la correlación mejoró.
Entonces, debemos siempre corroborar el tipo y distribución de datos que tenemos con la finalidad de aplicar las herramientas más adecuadas y que ofrecen un mejor y más acertado análisis de nuestros datos.