BÁO CÁO TUẦN 1

1 TƯƠNG QUAN

1.1 Tương quan là gì ?

Tương quan là một phép đo thống kê về mối quan hệ giữa hai biến . Các mối tương quan có thể nằm trong khoảng từ +1 đến –1. Một mối tương quan không chỉ ra rằng không có mối quan hệ giữa các biến. Một mối tương quan –1 cho thấy một mối tương quan âm hoàn hảo, có nghĩa là khi một biến tăng lên, biến kia đi xuống. Một tương quan của 1 cho thấy một mối tương quan dương hoàn hảo, có nghĩa là cả hai biến đều di chuyển theo cùng một hướng với nhau. Tuy nhiên, phân tích tương quan chỉ áp dụng được cho các biến định lượng.

Tương quan được chia làm 2 loại: tuyến tính và phi tuyến tính. Trong đó tương quan tuyến tính là sự tương quan giữa hai biến được thể hiện bằng đường thẳng y = a.X + b và tương quan tuyến tính thì thể hiện bằng các đường khác không phải đường thẳng.

1.2 Các hệ số tương quan tuyến tính

1.2.1 Person

  • Đánh giá mức độ tương quan tuyến tính của 2 biến định lượng

  • Công thức tính trên R: cor(df, method = “pearson”)

1.2.2 Spearman

  • Đánh giá mức độ tương quan của 2 hạng của 2 biến (rank-ordered variables), sử dụng khi phân phối của tổng thể được giả sử không phải là phân phối chuẩn hoặc trong trường hợp có các giá trị quan sát bất thường (lớn quá hoặc nhỏ quá)

  • Công thức tính trên R: cor(df, method = “spearman”)

1.2.3 Kendal

  • Đánh giá mức độ tương quan của 2 hạng của 2 biến (rank-ordered variables), hệ số này được sử dụng tương tự như spearman, thông thường hệ số này nhỏ hơn spearman.

  • Hệ số kendall ít dùng hơn so với 2 hệ số tương quan trên.

  • Công thức tính trên R: cor(df, method = “kendall”)

2 THỰC HÀNH TƯƠNG QUAN TRONG R

  • Dataset “rock” là dataset được chọn để phân tích

  • Mô tả dữ liệu: “rock” là một khung dữ liệu về khảo sát các mẫu đá trong một mỏ dầu chứa 46 quan sát trên 3 biến:

    • [1] are: diện tích lỗ rỗng, tính bằng pixel trên 256 x 256

    • [2] peri: chu vi tính bằng pixel

    • [3] shape: tỉ số của chu vi và căn hai của diện tích

    • [4] perm: độ thấm perm tính bằng milli-Darcies

2.1 Tính toán

rockx <- cor(rock)
  • Ma trận tương quan theo hệ số Pearson:
cor(rock, method = c("pearson"))
##             area       peri      shape       perm
## area   1.0000000  0.8225064 -0.1821611 -0.3966370
## peri   0.8225064  1.0000000 -0.4331255 -0.7387158
## shape -0.1821611 -0.4331255  1.0000000  0.5567208
## perm  -0.3966370 -0.7387158  0.5567208  1.0000000
  • Ma trận tương quan theo hệ số Spearman:
cor(rock, method = c("spearman"))
##             area       peri      shape       perm
## area   1.0000000  0.8580036 -0.1031862 -0.3652918
## peri   0.8580036  1.0000000 -0.3495088 -0.6711174
## shape -0.1031862 -0.3495088  1.0000000  0.5334523
## perm  -0.3652918 -0.6711174  0.5334523  1.0000000
  • Ma trận tương quan theo hệ số Kendall:
cor(rock, method = c("kendall"))
##              area       peri       shape       perm
## area   1.00000000  0.6929902 -0.06477374 -0.2264139
## peri   0.69299024  1.0000000 -0.21561668 -0.4739108
## shape -0.06477374 -0.2156167  1.00000000  0.3950785
## perm  -0.22641387 -0.4739108  0.39507846  1.0000000

2.2 Trực quan hóa dữ liệu

2.2.1 Sử dụng corrplot () để tạo biểu đồ tương quan:

library(corrplot)
corrplot(rockx, type = "upper", order = "hclust", tl.col = "black", tl.srt = 45)

  • Giải thích biểu đồ: khoảng màu từ xanh dương đậm đến màu đỏ đậm tượng trưng cho độ tương quan từ -1 đến +1 (tương quan nghịch đến tương quan dương).

2.2.2 Sử dụng chart.Correlation() để vẽ biểu đồ phân tán:

library("PerformanceAnalytics")
rocky <- rock[c("area","peri","shape","perm")]
chart.Correlation(rocky, histogram=TRUE, pch=10)

  • Giải thích biểu đồ: biểu đồ được chia làm 2 phân tam giác trên và tam giác dưới, đường chéo chính là đồ thị phân phối của các biến, tam giác trên thể hiện bằng số của tương quan và tam giác dưới thể hiện bằng đường vẽ tương quan.

2.2.3 Sử dụng bản đồ nhiệt() để tạo bảng màu thể hiện tương quan:

heatmap(rockx)

  • Giải thích biểu đồ: màu tím đậm tượng trưng cho hệ số tương quan =1, theo tứ tự các màu như: tím đỏ đậm, nâu đỏ đậm, nâu đỏ nhạt, kem đậm, kem nhạt thì độ tương quan giảm dần.

2.2.4 Kết luận từ các biểu đồ, đồ thị:

  • Kết quả từ biểu đồ, đồ thị:

    • Sự tương quan giữa hai biến area và peri là tương quan dương và có hệ số tương quan lớn nhất trong ma trận tương quan giữa các biến.

    • Sự tương quan giữa hai biến peri và perm là tương quan nghịch và có hệ số tương quan lớn thứ hai trong ma trận tương quan giữa các biến.