Khái niệm hệ số tương quan

Hệ số tương quan là chỉ số thống kê đo lường mức độ mạnh yếu của mối quan hệ giữa hai biến số.

Trong đó: Hệ số tương quan có giá trị từ -1.0 đến 1.0. Kết quả được tính ra lớn hơn 1.0 hoặc nhỏ hơn -1 có nghĩa là có lỗi trong phép đo tương quan.

Hệ số tương quan
Quan hệ tương quan

Hệ số tương quan Pearson

Hệ số tương quan Pearson (Pearson correlation coefficient, ký hiệu r) là số liệu thống kê kiểm tra đo lường mối quan hệ thống kê hoặc liên kết giữa các biến phụ thuộc với các biến liên tục. Hệ số tương quan sẽ trả lời cho các câu hỏi chẳng hạn như: Có mối quan hệ tương quan giữa nhiệt độ và doanh thu bán kem?; Có mối quan hệ tương quan giữa sự hài lòng công việc, năng suất và thu nhập? hay Hai biến nào có mối liên hệ chặt chẽ nhất giữa tuổi, chiều cao, cân nặng, quy mô gia đình và thu nhập gia đình?…

Tương quan pearson được biết đến như là phương pháp tốt nhất để đo lường mối liên hệ giữa các biến quan tâm bởi vì nó dựa trên phương pháp hiệp phương sai. Nó cung cấp thông tin về mức độ quan trọng của mối liên hệ, hoặc mối tương quan, cũng như hướng của mối quan hệ. Ngoài ra, việc kiểm tra hệ số tương quan pearson còn giúp chúng ta sớm nhận diễn được sự xảy ra của vấn đề đa cộng tuyến khi các biến độc lập có sự tương quan mạnh với nhau.

Karl Pearson

Hệ số này được đưa ra bởi Karl Pearson, đây chính là cha đẻ của hệ số Pearson. Karl Pearson (27 tháng 3 năm 1857 - 27 tháng 4 năm 1936) là một nhà toán học người Anh, được ghi nhận là người đã thành lập nên môn thống kê toán học. Năm 1911 ông thành lập khoa thống kê đầu tiên trên thế giới tại Đại học College London. Ông là một người theo thuyết ưu sinh và là người viết tiểu sử của Francis Galton.

Karl Pearson.

Ý nghĩa của hệ số Pearson

Hệ số tương quan Pearson (r) có giá trị giao động trong khoảng liên tục từ -1 đến +1:

  • r = 0: Hai biến không có tương quan tuyến tính
  • r = 1; r = -1: Hai biến có mối tương quan tuyến tính tuyệt đối.
  • r < 0: Hệ số tương quan âm. Nghĩa là giá trị biến x tăng thì giá trị biến y giảm và ngược lại, giá trị biến y tăng thì giá trị biến x giảm.
  • r > 0: Hệ số tương quan dương. Nghĩa là giá trị biến x tăng thì giá trị biến y tăng và ngược lại, giá trị biến y tăng thì giá trị biến x cũng tăng.

Lưu ý: Hệ số tương quan pearson (r) chỉ có ý nghĩa khi và chỉ khi mức ý nghĩa quan sát (sig.) nhỏ hơn mức ý nghĩa α = 5%

  • Nếu r nằm trong khoảng từ 0,50 đến ± 1, thì nó được cho là tương quan mạnh.
  • Nếu r nằm trong khoảng từ 0,30 đến ± 0,49, thì nó được gọi là tương quan trung bình.
  • Nếu r nằm dưới ± .29, thì nó được gọi là một mối tương quan yếu.
  • Trên đồ thị phân tán Scatter, nếu r = -1 dữ liệu sẽ phân bổ trên một đường thẳng với độ dốc âm, r = 1 dữ liệu sẽ phân bổ trên một đường thẳng với độ dốc dương.
    Đặc tính của hệ số

Công thức tính hệ số tương quan Pearson

Cho hai biến số x và y từ n mẫu, hệ số tương quan Pearson được ước tính bằng công thức sau đây: \[r = \frac{{\sum {\left( {x - \overline x } \right)\left( {y - \overline y } \right)} }}{{\sqrt {\sum {{{\left( {x - \overline x } \right)}^2}\sum {{{\left( {y - \overline y } \right)}^2}} } } }}\]

Trong R chúng ta sử dụng hàm cor(x,y) để tính hệ số này.

Hệ số tương quan Spearman

Hệ số tương quan Spearman \(\rho\) được sử dụng khi hai biến x và y không tuân theo luật phân phối chuẩn, trái ngược với hệ số tương quan Pearson. Đôi khi đây còn được gọi là hệ số của phương pháp phân tích phi tham số. Hệ số này được ước tính bằng cách biến đổi biến x, y thành biến có thứ bậc (rank), sau đó xem xét độ tương quan giữa hai dãy số có bậc này. Hệ số này trong tiếng Anh còn được gọi là Spearman’s Rank Correlation (Hệ số tương quan hạng Spearman). Tương quan hạng Spearman được sử dụng thay thế tương quan Pearson để kiểm tra mối quan hệ giữa hai biến được xếp hạng hoặc một biến được xếp hạng và một biến đo lường không yêu cầu có phân phối chuẩn. Nói một cách dễ hiểu hơn thì, hệ số tương quan Pearson là hệ số tương quan tuyến tính. Nếu bạn kiểm định Pearson và kết luận x có tương quan với y thì có thể cho là x và y có quan hệ tuyến tính với nhau. Còn ngược lại thì cũng chỉ có thể tạm kết luận rằng x và y không quan hệ tuyến tính. Chứ nếu nó quan hệ với nhau theo kiểu abc klm nào đó thì ta chưa biết.

Tương quan hạng Spearman giữa x và y nói đơn giản là xem xét tính đơn điệu của 2 biến này với nhau. Nếu hệ số tương quan dương thì kết luận là x tăng x cũng tăng. Nếu hệ số tương quan âm thì kết luận là x tăng x giảm

Charles Edward Spearman

Charles Edward Spearman (10 tháng 9 năm 1863 - 17 tháng 9 năm 1945) là một nhà tâm lý học người Anh nổi tiếng với công việc thống kê, là người tiên phong trong phân tích nhân tố và về hệ số tương quan thứ hạng của Spearman. Ông cũng đã thực hiện nhiều công trình nghiên cứu về các mô hình cho trí thông minh của con người, bao gồm lý thuyết của ông rằng các điểm kiểm tra nhận thức khác nhau phản ánh một hệ số thông minh chung duy nhất và đặt ra thuật ngữ nhân tố G.

G-factor or General Intelligence Trí thông minh chung , còn được gọi là nhân tố G , đề cập đến sự tồn tại của một năng lực tinh thần rộng lớn ảnh hưởng đến hiệu suất trên các biện pháp khả năng nhận thức. Charles Spearman lần đầu tiên mô tả sự tồn tại của trí thông minh chung vào năm 1904. Theo Spearman, yếu tố g này chịu trách nhiệm cho hiệu suất tổng thể về kiểm tra khả năng tâm thần. Spearman lưu ý rằng mặc dù mọi người chắc chắn có thể và thường xuyên nổi trội ở một số khu vực nhất định, nhưng những người làm tốt ở một khu vực có xu hướng cũng làm tốt ở các khu vực khác.

Ví dụ, một người làm tốt trên một bài kiểm tra bằng lời nói có lẽ cũng sẽ làm tốt trên các bài kiểm tra khác.

Những người nắm giữ quan điểm này tin rằng trí thông minh có thể được đo lường và thể hiện bằng một con số duy nhất, chẳng hạn như điểm IQ . Ý tưởng là trí thông minh chung bên dưới ảnh hưởng đến hiệu suất trên tất cả các nhiệm vụ nhận thức.

Trí thông minh chung có thể được so sánh với thể thao. Một người có thể là một Á hậu có tay nghề cao, nhưng điều này không nhất thiết có nghĩa là họ cũng sẽ là một vận động viên trượt băng nghệ thuật xuất sắc. Tuy nhiên, bởi vì người này là thể thao và phù hợp, họ sẽ có thể thực hiện tốt hơn nhiều về các nhiệm vụ vật lý khác hơn là một cá nhân ít phối hợp và ít vận động hơn.

Tính hệ số tương quan Spearman

Công thức: \[R_s = 1 - \frac{6\cdot \Sigma \;D^2}{n^3 - n}\] \(D\) là hiệu của hạng hai biến Trong R chúng ta sử dụng phương thức sau: cor.test(x, y, method = “spearman”)

Hệ số tương quan Kendall

Hệ số tương quan Kendall \(\tau\) cũng là một phương pháp phân tích phi tham số được ước tính bằng cách tìm các cặp số (x,y) “song hành” (concordant) với nhau. Một cặp (x,y) song hành ở đây được định nghĩa là có hiệu số (độ khác biệt) trên trục hoành có cùng dấu hiệu (dương hay âm) với hiệu trên trục tung. Nếu hai biến số x, y không có liên hệ với nhau thì số cặp song hành bằng hay tương đương với số cặp không song hành.

Thông thường, với phương pháp này đòi hỏi máy tính phải tính toán với thời gian khá cao do có nhiều cặp số cần phải tính toán và kiểm định. Nếu tập dữ liệu khoảng dưới 5000 đối tượng thì việc tính toán này không thành vấn đề. Tìm hiểu kỹ hơn về hệ số này, xem Hệ số Kendall

Kendall corr.

Trong R, để tính toán hệ số này. Chúng ta có thể sử dụng phương thức cor.test(x, y, method=“kendall”)

Áp dụng:

Giả sử bộ dữ liệu về nồng độ cholesterol (chol) gồm 3 biến số là age, bmi và chol cho 18 đối tượng được quan sát:

library(DT)
library(dplyr)
library(corrplot)
library(ggplot2)
age <- c(46, 20, 52, 30, 57, 25, 55, 67,44, 33, 44, 78,  33, 56, 87, 46, 33, 11)
bmi <- c(25.4,20.6, 26.2,22.6,25.4, 23.1, 22.7, 24.9, 19.8, 25.3, 23.2, 21.8, 20.9, 26.7, 26.4, 21.2, 21.2, 22.8)
chol <- c(3.5, 1.9, 4.0, 2.6, 4.5, 3.0, 2.9, 3.8, 2.1, 3.8, 4.1, 3.0, 2.5, 4.6, 3.2, 4.2, 2.3, 4.0)
data <- data.frame(age, bmi, chol)
data %>% datatable()
M <- cor(data)
corrplot(M, method = "shade")

ggplot(data, aes(x= age, y= chol)) + 
  geom_point(col = "red")

Nhìn vào ma trận tương quan và biểu đồ scatterplot, dường như biến bmi và biến age không có sự liên quan, trong khi đó biến chol và biến age có mối liên quan tuyến tính, chúng ta cùng tính hệ số tương quan cho các biến số này với nhau:

## 
##  Pearson's product-moment correlation
## 
## data:  age and chol
## t = 1.0466, df = 16, p-value = 0.3108
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.242382  0.643906
## sample estimates:
##       cor 
## 0.2531328
## 
##  Spearman's rank correlation rho
## 
## data:  age and chol
## S = 602.3, p-value = 0.1215
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.3784349
## 
##  Kendall's rank correlation tau
## 
## data:  age and chol
## z = 1.4102, p-value = 0.1585
## alternative hypothesis: true tau is not equal to 0
## sample estimates:
##       tau 
## 0.2483277

Kết quả trả về cho thấy mặc dù hệ số tương quan giữa age và chol có tương quan dương nhưng khá yếu, chưa đủ để kết luận là tương quan tuyến tính mạnh.