Análisis de Correlación Simple (dos variables)

El análisis de correlación es una técnica estadística que se utiliza para medir y describir la relación entre dos variables numéricas. La correlación puede ser positiva, negativa o nula. La correlación positiva significa que a medida que una variable aumenta, la otra variable también aumenta. La correlación negativa significa que a medida que una variable aumenta, la otra variable disminuye. La correlación nula significa que no hay relación entre las dos variables.

Ahora bien, la correlación no implica causalidad. Es decir, que dos variables estén correlacionadas no significa que una variable cause la otra. Por ejemplo, la correlación entre el número de incendios forestales y el número de helados vendidos en un día puede ser positiva, pero no significa que los helados causen los incendios forestales.

Coeficiente de Correlación de Pearson

El coeficiente de correlación de Pearson es una medida de la fuerza y dirección de la relación lineal entre dos variables. El coeficiente de correlación de Pearson varía entre -1 y 1. Un valor de 1 indica una correlación positiva perfecta, un valor de -1 indica una correlación negativa perfecta y un valor de 0 indica una correlación nula.

El coeficiente de correlación de Pearson se calcula de la siguiente manera:

\[r = \frac{\sum{(X_i - \bar{X})(Y_i - \bar{Y})}}{\sqrt{\sum{(X_i - \bar{X})^2} \sum{(Y_i - \bar{Y})^2}}}\]

Donde:

  • \(r\) es el coeficiente de correlación de Pearson.
  • \(X_i\) y \(Y_i\) son los valores de las dos variables.
  • \(\bar{X}\) y \(\bar{Y}\) son las medias de las dos variables.

El signo del coeficiente de correlación de Pearson indica la dirección de la correlación (positiva o negativa), mientras que el valor absoluto indica la fuerza de la correlación. El signo lo determina el numerador, y la fuerza de la correlación, el denominador.

Prueba de Significancia del Coeficiente de Correlación de Pearson

Para determinar si el coeficiente de correlación de Pearson es significativo, se utiliza la prueba de significancia. La prueba de significancia se basa en el valor p. El valor p es la probabilidad de obtener un valor de correlación igual o mayor al observado si la verdadera correlación en la población es nula.

El valor p se calcula a partir del coeficiente de correlación de Pearson y el tamaño de la muestra, utilizando la distribución t de Student.

Si el valor p es menor que un nivel de significancia dado (generalmente 0.05), se rechaza la hipótesis nula de que la correlación es nula y se concluye que la correlación es significativa.

Ejemplo de Análisis de Correlación

Supongamos que tenemos los siguientes datos de dos variables, \(X\) e \(Y\), la masa (g) y longitud (mm) de semillas de Thespesia populnea:

thespe <- read.csv("semilla_thepol-masa-long.csv")

Cálculo Manual del Coeficiente de Correlación de Pearson

Para calcular el coeficiente de correlación de Pearson entre la masa de las semillas, masa_g (g), y la longitud de las semillas, long_mm (mm), podemos usar la fórmula manualmente:

# Calcular la media de las dos variables
mean_masa <- mean(thespe$masa_g)
mean_long <- mean(thespe$long_mm)

# Calcular el numerador
num <- sum((thespe$masa_g - mean_masa) * (thespe$long_mm - mean_long))

# Calcular el denominador
denom <- sqrt(sum((thespe$masa_g - mean_masa)^2) * sum((thespe$long_mm - mean_long)^2))

# Calcular el coeficiente de correlación de Pearson
r_manual <- num / denom

# crear una tabla gt con los resultados
library(gt)
tabla1 <- gt(data = data.frame(Valor = r_manual, Estadístico = "Coeficiente de Correlación"))

Tabla 1. Coeficiente de Correlación de Pearson entre la masa y longitud de las semillas.

Valor Estadístico
0.4239391 Coeficiente de Correlación

Cálculo del Coeficiente de Correlación de Pearson con R

Para calcular el coeficiente de correlación de Pearson entre la masa de las semillas, masa_g (g), y la longitud de las semillas, long_mm (mm), podemos usar la función cor() de R:

corr1 <- cor(thespe$masa_g, thespe$long_mm)

El coeficiente de correlación de Pearson entre la masa y la longitud es 0.4239391, lo que indica una correlación positiva entre las dos variables.

Prueba de Hipótesis del Coeficiente de Correlación de Pearson

Para determinar si la correlación entre la masa y longitud de las semillas es significativa, podemos realizar una prueba de significancia del coeficiente de correlación de Pearson, con las siguientes hipótesis:

  • Hipótesis nula (\(H_0\)): La correlación entre la masa y longitud de las semillas es nula (0).
  • Hipótesis alternativa (\(H_1\)): La correlación entre la masa y longitud de las semillas es significativa.

Utilizamos el valor de correlación de Pearson y el tamaño de la muestra para calcular el valor p de la prueba de significancia, basada en la distribución t de Student, o mediante la función cor.test() de R:

corrtest <- cor.test(thespe$masa_g, thespe$long_mm)
# crear una tabla gt con los resultados
library(gt)
tabla2 <- gt(data = data.frame(Valor = c(corr1, corrtest$p.value), Estadístico = c("Coeficiente de Correlación", "Valor p")))

Tabla 2. Resultados de la prueba de significancia del coeficiente de correlación de Pearson.

Valor Estadístico
4.239391e-01 Coeficiente de Correlación
1.155622e-22 Valor p

El valor p de la prueba de significancia (Tabla 1) es menor que 0.05, por lo que podemos concluir que la correlación entre la masa y la longitud de las semillas de Thespesia populnea es significativa.

Visualización de la Correlación

Finalmente, podemos visualizar la correlación entre la masa y longitud de las semillas mediante un gráfico de dispersión:

library(ggplot2)
ggplot(thespe, aes(x = masa_g, y = long_mm)) +
  geom_point() +
  labs(x = "Masa de Semillas (g)", y = "Longitud de Semillas (mm)")

FIGURA 1. Gráfico de dispersión de la masa y longitud de las semillas de Thespesia populnea.

Alternativa no-paramétrica

Si las variables no siguen una distribución normal, o si no se cumple el supuesto de linealidad, se puede utilizar el coeficiente de correlación de Spearman o Kendall, que son métodos no paramétricos para medir la correlación entre dos variables.

cor_spearman <- cor(thespe$masa_g, thespe$long_mm, method = "spearman")
cor_kendall <- cor(thespe$masa_g, thespe$long_mm, method = "kendall")

# gt table with the results
library(gt)
tabla3 <- gt(data = data.frame(Valor = c(cor_spearman, cor_kendall), 
                               Estadístico = c("Coeficiente de Correlación de Spearman", "Coeficiente de Correlación de Kendall")))

Tabla 3. Coeficientes de Correlación de Spearman y Kendall entre la masa y longitud de las semillas.

Valor Estadístico
0.4285477 Coeficiente de Correlación de Spearman
0.2980283 Coeficiente de Correlación de Kendall

Análisis de Correlación Múltiple (más de dos variables)

El análisis de correlación múltiple es una técnica estadística que se utiliza para medir y describir la relación entre más de dos variables. En el análisis de correlación múltiple, se calculan los coeficientes de correlación entre cada par de variables y se analiza la fuerza y dirección de las relaciones.

Coeficiente de Correlación de Pearson Múltiple

El coeficiente de correlación de Pearson múltiple es una medida de la fuerza y dirección de la relación lineal entre más de dos variables. El coeficiente de correlación de Pearson múltiple varía entre -1 y 1. Un valor de 1 indica una correlación positiva perfecta, un valor de -1 indica una correlación negativa perfecta y un valor de 0 indica una correlación nula.

El coeficiente de correlación de Pearson múltiple se calcula a partir de la matriz de correlación entre las variables. La matriz de correlación es una tabla que muestra los coeficientes de correlación entre cada par de variables.

Ejemplo de Análisis de Correlación Múltiple

Utilizaremos los datos de mortalidad y variables relacionadas a la salud en ciudades pequeñas de Estados Unidos. Los datos contienen información sobre:

  • death1k: Tasa de mortalidad por 1000 habitantes.
  • doctor100k: Número de médicos por 100000 habitantes.
  • hospital100k: Número de camas de hospitales por 100000 habitantes.
  • income1k: Ingreso per cápita en miles de dólares.
  • density: Densidad de población por milla cuadrada.
# Load the death_small_cities.xlsx dataset from data tab
library(readxl)
mortalidad <- read_excel("death_small_cities.xlsx", sheet = "data")

Cálculo de la Matriz de Correlación

# Calculate correlation matrix
corr_matrix <- cor(mortalidad)

Tabla 4. Matriz de Correlación entre las variables de mortalidad y salud en ciudades pequeñas de Estados Unidos.

##               death1K  doctor100K   hosp100K    income1K     density
## death1K     1.0000000  0.11576504 0.11059019 -0.17199239 -0.27760696
## doctor100K  0.1157650  1.00000000 0.29562836  0.43328796 -0.01993791
## hosp100K    0.1105902  0.29562836 1.00000000  0.02750354  0.18661628
## income1K   -0.1719924  0.43328796 0.02750354  1.00000000  0.12874370
## density    -0.2776070 -0.01993791 0.18661628  0.12874370  1.00000000

Significancia (valor p) de la correlación entre las variables:

library(Hmisc)

# Calculate correlation matrix and p-values
corr_results <- rcorr(as.matrix(mortalidad))
p_values <- corr_results$P
p_values[is.na(p_values)] <- 0
corr_matrix <- corr_results$r

Tabla 5. Valores p de la correlación entre las variables de mortalidad y salud en ciudades pequeñas de Estados Unidos.

##              death1K  doctor100K   hosp100K    income1K   density
## death1K    0.0000000 0.409106839 0.43050181 0.218148006 0.0441603
## doctor100K 0.4091068 0.000000000 0.03162022 0.001191857 0.8873146
## hosp100K   0.4305018 0.031620223 0.00000000 0.845008435 0.1809032
## income1K   0.2181480 0.001191857 0.84500843 0.000000000 0.3582262
## density    0.0441603 0.887314572 0.18090320 0.358226239 0.0000000

Visualización de la Matriz de Correlación

# using corrplot package
library(corrplot)
# Plot the correlation matrix with significance levels
corrplot(corr_matrix, method = "color", type = "upper", tl.col = "black", 
           tl.srt = 45, p.mat = p_values, sig.level = 0.05, cl.pos = "r", na.label = "NS")

FIGURA 2. Matriz de Correlación entre las variables de mortalidad y salud en ciudades pequeñas de Estados Unidos. Los colores indican el valor y signo del coeficiente de correlación de Pearson. La X indica que la correlación no es significativa, para un nivel de significancia de 0.05.

Correlaciones espurias

Las correlaciones espurias son correlaciones que ocurren por casualidad y no reflejan una relación real entre las variables. Estas correlaciones pueden ser engañosas y llevar a conclusiones incorrectas sobre la relación entre las variables.

Sitio web:

CORRELACIONES ESPURIAS