Sử dụng dataset iris
data(iris)
Tách các biến numeric và chuyển thành dạng martrix
ma <- as.matrix(iris[, 1:4]) # Tách 4 cột biết numeric từ dataset iris
dis <- dist(ma) # Dùng hàm dist tính khoảng cách bằng phương pháp khoản cách Euclidean (Ơ-clit)
hc <- hclust(dis) # Dùng hảm hclust để tạo dữ liệu phân cụm theo phương pháp liên kết mặc định
plot(hc) # Trực quan bằng biểu đồ cây phân cụm

Trực quan mức độ tương đồng giữa các cá thể (và các biến) bằng biểu đồ nhiệt
heatmap(ma,
scale = "column",
RowSideColors = rainbow(3)[iris$Species] ) # Giá trị trong maxtix được mã hoá thành các màu tương ứng

- Cây phân bậc thể hiện mức độ tương đồng giữa các hàng và cột.
- Tỉ lệ được xử lý bằng hàm scale, bằng cách lấy giá trị của các biến trừ cho giá trị trung bình (X) của các biến sau đó chia cho độ lệch chuẩn (sd).
- Màu được mã hoá theo nguyên tắc: Giá trị nhỏ tương ứng với màu đỏ, giá trị lớn tương ứng với màu vàng.
- Màu trên cột phía trái tương ứng với các loài khác nhau
Biểu diễn đầy đủ thông tin của biểu đồ nhiệt với packages pheatmap
library(pheatmap)
ma <- as.matrix(iris[, 1:4]) # Chuyển đổi thành dạng ma trận
row.names(ma) <- row.names(iris) # Gắn tên hàng trong ma trận mới theo hàng trong dataset iris
pheatmap(ma,
scale = "column",
clustering_method = "average", # Phương pháp liên kết trung bình
annotation_row = iris[, 5, drop=FALSE], # Cột thứ 5 của datast iris được biểu diễn dạng color bar. Để ngăn R tự động chuyển đổi khung dữ liệu một cột thành vectơ, chúng tôi đã sử dụng tùy chọn drop = FALSE
show_rownames = FALSE)

- Trước tiên, chúng ta chuyển 4 cột biến numeric đầu tên của dataset iris sang dạng matrix.
- Tiếp theo tên các hàng trong matrix mới sẽ được gán theo thứ tự từ 1-150 (theo thứ tự trong dataset iris)
- Biểu đồ trên cung cấp cho chúng ta một số thông tin như sau:
- 150 mẫu hoã được phân thành 2 cụm chính. Trong đó các mẫu thuộc loài Setosa tạo thành 1 cụm riêng biệt (màu xanh lá), đặc trung bởi kích thước chiều dài của đài hoa (Sepal), chiều dài, chiều rộng của cánh hoa (Petal) có giá trị nhỏ (Thể hiện chủ đạo bằng màu xanh dương).
- 2 loài còn lại không có sự phân biệt rõ ràng, tuy nhiên chúng ta có thể thấy được một số đặc điểm: đa số các mẫu thuộc loài Verginica tạo thành một phân nhánh và có kích thước cánh hoa lớn hơn so với 2 loài còn lại.
- Chiều dài cánh hoa và chiều rộng cánh hoa có mối tương quan rất cao.
————————————————————————–Hết——————————————————————————-
——————————————————————–Ngoc Nguyen————————————————————————