BÁO CÁO TUẦN 1
Tương quan là một phép đo thống kê về mối quan hệ giữa hai biến . Các mối tương quan có thể nằm trong khoảng từ +1 đến –1. Một mối tương quan không chỉ ra rằng không có mối quan hệ giữa các biến. Một mối tương quan –1 cho thấy một mối tương quan âm hoàn hảo, có nghĩa là khi một biến tăng lên, biến kia đi xuống. Một tương quan của 1 cho thấy một mối tương quan dương hoàn hảo, có nghĩa là cả hai biến đều di chuyển theo cùng một hướng với nhau. Tuy nhiên, phân tích tương quan chỉ áp dụng được cho các biến định lượng.
Tương quan được chia làm 2 loại: tuyến tính và phi tuyến tính. Trong đó tương quan tuyến tính là sự tương quan giữa hai biến được thể hiện bằng đường thẳng y = a.X + b và tương quan tuyến tính thì thể hiện bằng các đường khác không phải đường thẳng.
Đánh giá mức độ tương quan của 2 hạng của 2 biến (rank-ordered variables), hệ số này được sử dụng tương tự như spearman, thông thường hệ số này nhỏ hơn spearman.
Hệ số kendall ít dùng hơn so với 2 hệ số tương quan trên.
Công thức tính trên R: cor(df, method = “kendall”)
Dataset “rock” là dataset được chọn để phân tích
Mô tả dữ liệu: “rock” là một khung dữ liệu về khảo sát các mẫu đá trong một mỏ dầu chứa 46 quan sát trên 3 biến:
[1] are: diện tích lỗ rỗng, tính bằng pixel trên 256 x 256
[2] peri: chu vi tính bằng pixel
[3] shape: tỉ số của chu vi và căn hai của diện tích
[4] perm: độ thấm perm tính bằng milli-Darcies
rockx <- cor(rock)
cor(rock, method = c("pearson"))
## area peri shape perm
## area 1.0000000 0.8225064 -0.1821611 -0.3966370
## peri 0.8225064 1.0000000 -0.4331255 -0.7387158
## shape -0.1821611 -0.4331255 1.0000000 0.5567208
## perm -0.3966370 -0.7387158 0.5567208 1.0000000
cor(rock, method = c("spearman"))
## area peri shape perm
## area 1.0000000 0.8580036 -0.1031862 -0.3652918
## peri 0.8580036 1.0000000 -0.3495088 -0.6711174
## shape -0.1031862 -0.3495088 1.0000000 0.5334523
## perm -0.3652918 -0.6711174 0.5334523 1.0000000
cor(rock, method = c("kendall"))
## area peri shape perm
## area 1.00000000 0.6929902 -0.06477374 -0.2264139
## peri 0.69299024 1.0000000 -0.21561668 -0.4739108
## shape -0.06477374 -0.2156167 1.00000000 0.3950785
## perm -0.22641387 -0.4739108 0.39507846 1.0000000
library(corrplot)
corrplot(rockx, type = "upper", order = "hclust", tl.col = "black", tl.srt = 45)
library("PerformanceAnalytics")
rocky <- rock[c("area","peri","shape","perm")]
chart.Correlation(rocky, histogram=TRUE, pch=10)
heatmap(rockx)
Kết quả từ biểu đồ, đồ thị:
Sự tương quan giữa hai biến area và peri là tương quan dương và có hệ số tương quan lớn nhất trong ma trận tương quan giữa các biến.
Sự tương quan giữa hai biến peri và perm là tương quan nghịch và có hệ số tương quan lớn thứ hai trong ma trận tương quan giữa các biến.