1. Giới thiệu về bộ dữ liệu Diamonds

Bộ dữ liệu Diamonds

Bộ dữ liệu Diamonds là một tập dữ liệu phổ biến được sử dụng trong khoa học dữ liệu và học máy. Nó bao gồm thông tin về 53.940 viên kim cương, với các thuộc tính sau:

carat: Trọng lượng carat của viên kim cương
cut: Chất lượng cắt (Excellent, Very Good, Good, Fair, Poor)
color: Màu sắc (D, E, F, G, H, I, J, K)
clarity: Độ tinh khiết (FL, IF, VVS1, VVS2, VS1, VS2, SI1, SI2, I1, I2, I3)
depth: Tỷ lệ chiều sâu (phần trăm)
table: Tỷ lệ mặt bàn (phần trăm)
price: Giá bán (USD)
x: Chiều dài (mm)
y: Chiều rộng (mm)
z: Chiều sâu (mm)

Bộ dữ liệu có cấu trúc bao gồm: 53940 hàng tương ứng với 53940 quan sát và 10 cột tương ứng với 10 biến.

dim(tn)

## [1] 53940    10

Bộ dữ liệu Diamonds bao gồm có 10 cột (biến) lần lượt như sau: carat, cut, color, clarity, depth, table, price, x, y, z.

names(tn)

##  [1] "carat"   "cut"     "color"   "clarity" "depth"   "table"   "price"  
##  [8] "x"       "y"       "z"

2. Phân tích bộ dữ liệu Diamonds với các đặc tính của nó

2.1 Carat (Trọng lượng)

Cara hay Carat là đơn vị đo khối lượng sử dụng trong ngành đá quý, nó tương đương với 0,2 gram (200 miligram). Trong đời sống hằng ngày, mọi người thường gọi chúng là Cara và viên kim cương có mức cara càng cao thì càng có giá trị.
Ta tiến hành chia trọng lượng viên kim cương thành 5 nhóm để dễ dàng nhận thấy

table(cut(tn$carat,5))

## 
## (0.195,1.16]  (1.16,2.12]  (2.12,3.09]  (3.09,4.05]  (4.05,5.01] 
##        43781         9478          667           11            3

Sau khi phân chia, ta được 5 nhóm có trọng lượng và số lượng tương ứng với mỗi nhóm như sau:

Rất nhẹ (0.195 đến bằng 1.16 carat): 43781 kim cương
Nhẹ (1.16 đến bằng 2.12 carat): 9478 kim cương
Vừa (2.12 đến bằng 3.09 carat): 667 kim cương
Nặng (3.09 đến bằng 4.05 carat): 11 kim cương
Rất nặng (4.05 đến bằng 5.01): 3 kim cương

=> Qua đó ta có thể nhận xét như sau: Trọng lượng của viên kim cương càng thấp thì số lượng càng cao và ngược lại.

tn <- diamonds
tn1 <- tn %>% mutate(TL = cut(carat,5, label = c('Rất nhẹ', 'Nhẹ','Vừa','Nặng','Rất nặng')))
tn1 %>% group_by(TL) %>% summarise(n = n()) %>%
  ggplot(aes(TL,n)) +
    geom_col(fill='blue') +
    labs(title = " Biểu đồ thể hiện nhóm theo trọng lượng ") +
    geom_text(aes(label = n),vjust = 0, color = 'black') +
    labs(x = 'Trọng Lượng', y = 'Số lượng')

Ngoài ra, để có thể dễ dàng nhận thấy từng loại kim cương chiếm bao nhiêu % trong tổng số, ta tiến hành chuyển đổi biểu đồ số lượng thành biểu đồ thể hiện %:

library(scales)
tn1 <- tn %>% mutate(TL = cut(carat,5, label = c('Rất nhẹ', 'Nhẹ','Vừa','Nặng','Rất nặng')))
tn1 %>% group_by(TL) %>% summarise(n = n()) %>%
  ggplot(aes(TL,n)) +
    geom_col(fill='purple') +
    labs(title = " Biểu đồ thể hiện % thang đo trọng lượng ") +
    theme_classic() +
    geom_text(aes(label = percent(n/length(tn$carat))),vjust = 0, color = 'black') +
    labs(x = 'Trọng Lượng', y = 'Số lượng')

2.2 Cut (Giác cắt)

Chữ C này chính là yếu tố quan trọng nhất để xác định được giá trị của kim cương trong 4C.

Biểu đồ này hiển thị 5 loại giác cắt kim cương trong bộ dữ liệu, loại Ideal chiếm số lượng kim cương cao nhất, còn loại Fair chiếm số lượng kim cương thấp nhất, tỷ lệ phần trăm của từng loại như sau:

Loại Fair (Trung bình): 3.0%
Loại Good (Tốt): 9.1%
Loại Very Good (Rất tốt): 22.4%
Loại Premium (Tuyệt hảo): 25.6%
Loại Ideal (Lý tưởng): 40.0%

tn %>% group_by(cut) %>% summarise(n = n()) %>%
  ggplot(aes(cut,n)) +
    geom_col(fill='green') +
    labs(title = "Biểu đồ thể hiện % tỷ lệ giác cắt ") +
    theme_classic() +
    geom_text(aes(label = percent(n/length(tn$cut))),vjust = 2, color = 'red') +
    labs(x = 'Giác cắt', y = 'Số lượng')

Số lượng cụ thể của từng loại như sau:

Loại Fair (Trung bình): 1610 kim cương
Loại Good (Tốt): 4906 kim cương
Loại Very Good (Rất tốt): 12082 kim cương
Loại Premium (Tuyệt hảo): 13791 kim cương
Loại Ideal (Lý tưởng): 21551 kim cương

tn %>% group_by(cut) %>% summarise(n = n()) %>%
  ggplot(aes(cut,n)) +
    geom_col(fill='yellow') +
    geom_text(aes(label = n),vjust = 2, color = 'red') +
    labs(title = 'Biểu đồ số lượng kim cương theo giác cắt', x = 'Loại', y = 'Số lượng')

2.3 Color (Màu sắc)

Kim cương thường sẽ có màu trắng (hay hồng, xanh, nâu, vàng), và nếu màu sắc càng trắng thì sẽ có trị càng cao. Thang màu được bắt đầu từ ký hiệu D và giảm dần dần xuống E, F, G, H, I, J, Z.

Những kim cương từ cấp độ D – F sẽ là loại không màu; từ G – J là loại có màu vàng một chút, rất ít; cấp độ từ K – M là loại màu vàng nhạt; N – R là loại kim cương có màu vàng nhìn khá rõ, và từ cấp độ S – Z là loại có màu vàng sáng rõ rệt nhất.

Biểu đồ này cho thấy tần suất xuất hiện của từng màu sắc của kim cương trong bộ dữ liệu theo đơn vị %.

tn %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(n,color)) +
    geom_col(fill='lightblue') +
    labs(title = "Biểu đồ thể hiện % thang đo màu sắc ") +
    theme_classic() +
    geom_text(aes(label = percent(n/length(tn$color))),vjust = 1, color = 'black') +
    labs(x = 'Số lượng', y = 'Màu sắc')

Ngoài ra, để có thể nhìn thấy chi tiết hơn về số liệu, ta tiến hành vẽ thêm biểu đồ số lượng kim cương theo màu sắc để có thể nhìn thấy một cách rõ nhất về sự chênh lệch của chúng, như sau:

D (không màu, trắng tinh khiết): 6775 kim cương
E (không màu, trắng tinh khiết): 9797 kim cương
F (không màu, trắng tinh khiết): 9542 kim cương
G (tựa không màu, trắng hiếm): 11292 kim cương
H (tựa không màu, trắng hiếm): 8304 kim cương
I (tựa không màu, trắng nhạt): 5422 kim cương
J (tựa không màu, trắng nhạt): 2808 kim cương

tn %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(color,n)) +
    geom_col(fill='blue') +
    geom_text(aes(label = n),vjust = 2, color = 'white') +
    labs(title = 'Biểu đồ số lượng kim cương theo màu sắc', x = 'Màu sắc', y = 'Số lượng')

Vậy loại kim cương màu G chiếm số lượng cao nhất là 11292 viên, loại kim cương chiếm số lượng thấp nhất là loại kim cương màu J là 2808 viên.

2.4 Clarity (Độ tinh khiết)

Chỉ một vài thứ trong tự nhiên là hoàn hảo tuyệt đối. Điều này đúng với kim cương như mọi thứ khác. Kim cương có các đặc điểm bên trong, được gọi là inclusion – bao thể và các dấu vết còn sót trên bề mặt, được gọi là blemish – dấu vết bề mặt. Kết hợp 2 yếu tố này, chúng được gọi là đặc điểm độ sạch. Độ sạch – độ tinh khiết là sự vắng mặt tương đối của các bao thể và các dấu vết bề mặt.

Có 11 cấp độ sạch trong hệ thống phân cấp độ sạch của GIA. Chúng là Flawless (FL), Internally Flawless (IF), hai cấp Very, Very Slightly Included (VVS), hai cấp Very Slightly Included (VS), hai cấp Slightly Included (SI) và ba cấp Included (I).

Biểu đồ tỷ lệ phần trăm độ tinh khiết của kim cương

tn %>% group_by(clarity) %>% summarise(n = n()) %>%
  ggplot(aes(clarity,n)) +
    geom_col(fill='green') +
    labs(title = "Biểu đồ thể hiện % tỷ lệ độ tinh khiết ") +
    theme_classic() +
    geom_text(aes(label = percent(n/length(tn$clarity))),vjust = 2, color = 'red') +
    labs(x = 'Độ tinh khiết', y = 'Số lượng')

Biểu đồ cho thấy số lượng viên kim cương theo độ tinh khiết có sự phân hóa rõ rệt. Cụ thể được thể hiện bao số liệu như sau:

I1 (bao thể rõ): 741 kim cương
SI2 (bao thể nhỏ, rất dễ nhận thấy): 9194 kim cương
SI1 (bao thể nhỏ, dễ nhận thấy): 13065 kim cương
VS2 (bao thể nhỏ cấp 2): 12258 kim cương
VS1 (bao thể nhỏ cấp 1): 8171 kim cương
VSS2 (bao thể rất nhỏ cấp 2): 5066 kim cương
VSS1 (bao thể rất nhỏ cấp 1): 3655 kim cương
IF (Hoàn toàn tinh khiết): 1790 kim cương

tn %>% group_by(clarity) %>% summarise(n = n()) %>%
  ggplot(aes(clarity,n)) +
    geom_col(fill='pink') +
    geom_text(aes(label = n),vjust = 2, color = 'black') +
    labs(title= 'Biều đồ số lượng kim cương theo độ tinh khiết', x = 'Độ tinh khiết', y = 'Số lượng')

=> Vậy độ tinh khiết loại SI1 chiếm số lượng nhiều nhất là 13065 viên kim cương, độ tinh khiết loại I1 chiếm số lượng thấp nhất là 741 viên kim cương.

2.5 Depth (Tỷ lệ chiều sâu %)

Diamond Depth dùng chỉ chiều sâu hay còn là chiều cao của kim cương. Được tính từ bề mặt đến đầu nhọn của khối lập phương trên viên kim cương. Độ sâu từ 57,7%-63% là lý tưởng nhất để phản xạ ánh sáng hoàn hảo.

Ta tiến hành phân chia kim cương thành 2 loại: Lý tưởng (57,5%-63%), chưa lý tưởng (<57,5% và >63%)

tn$group <- ifelse(tn$depth >= 57.3 & tn$depth <= 63, "Lý tưởng", "Chưa lý tưởng")
table(tn$group)

## 
## Chưa lý tưởng      Lý tưởng 
##          7344         46596

tn %>% group_by(group) %>% summarise(n = n()) %>%
  ggplot(aes(group,n)) +
    geom_col(fill='gray') +
    geom_text(aes(label = n),vjust = 2, color = 'red') +
    labs(title = " Biểu đồ thể hiện nhóm theo Độ sâu ",x = 'Độ sâu', y = 'Số lượng')

=> Vậy số viên kim cương lý tưởng (46596) có số lượng cao gấp 6 lần số viên kim cương chưa lý tưởng (7344).

2.6 Table (Tỷ lệ mặt bàn %)

Mỗi viên kim cương đều có một mặt phẳng có hình vuông nằm ở trên đỉnh. Mặt phẳng này chính là Diamond Table hay bề mặt của kim cương. Nó có vai trò vô cùng quan trọng trong việc xác định hình dáng của viên đá.

Đối với viên kim cương giác mặt tròn: Lý tưởng (54%-60%), chưa lý tưởng (<54% và >60%)

tn$tron <- ifelse(tn$table >= 54 & tn$table <= 60, "Lý tưởng", "Chưa lý tưởng")
table(tn$tron)

## 
## Chưa lý tưởng      Lý tưởng 
##          5624         48316

tn %>% group_by(tron) %>% summarise(n = n()) %>%
  ggplot(aes(tron,n)) +
    geom_col(fill='gray') +
    geom_text(aes(label = n),vjust = 2, color = 'black') +
    labs(title = " Biểu đồ thể hiện nhóm theo giác cắt tròn ",x = 'Mặt bàn', y = 'Số lượng')

Đối với viên kim cương giác mặt lục bảo: Lý tưởng (66%-72%), chưa lý tưởng (<66% và >72%)

tn$lucbao <- ifelse(tn$table >= 66 & tn$table <= 72, "Lý tưởng", "Chưa lý tưởng")
table(tn$lucbao)

## 
## Chưa lý tưởng      Lý tưởng 
##         53767           173

tn %>% group_by(lucbao) %>% summarise(n = n()) %>%
  ggplot(aes(lucbao,n)) +
    geom_col(fill='gray') +
    geom_text(aes(label = n),vjust = 0, color = 'black') +
    labs(title = " Biểu đồ thể hiện nhóm theo giác cắt lục bảo ",x = 'Mặt bàn', y = 'Số lượng')

2.7 Price (Giá thành)

Kim cương được định giá một cách cơ bản dựa trên tiêu chuẩn 4C bao gồm: Carat - Trọng lượng hoặc kích thước của viên kim cương. Color - Màu sắc của viên kim cương. Clarity - Độ tinh khiết hay độ sạch của viên kim cương hay còn gọi là sự vắng mặt của những tạp chất bên trong và các khiếm khuyết bên ngoài.

Trước tiên, ta chia giá thành của kim cương thành 3 nhóm: Rẻ - Vừa - Đắt:

table(cut(tn$price,3))

## 
##      (308,6.49e+03] (6.49e+03,1.27e+04] (1.27e+04,1.88e+04] 
##               43591                7347                3002

Sau khi tiến hành phân chia xong, ta nhận được số lượng tương ứng với mỗi nhóm giá thành như sau:

Rẻ: 43591 viên kim cương
Vừa: 7347 viên kim cương
Đắt: 3002 viên kim cương

Ta tiến hành vẽ biểu đồ để nhìn rõ sự chệnh lệch số lượng về giá:

tn <- diamonds
tn2 <- tn %>% mutate(gt = cut(price,3, label = c('Rẻ','Vừa','Đắt')))
tn2 %>% group_by(gt) %>% summarise(n = n()) %>%
  ggplot(aes(gt,n)) +
    geom_col(fill='blue') +
    labs(title = " Biểu đồ thể hiện nhóm theo giá") +
    geom_text(aes(label = n),vjust = 0, color = 'black') +
    labs(x = 'Giá', y = 'Số lượng')

2.8 Phân tích chuyên sâu lồng ghép các đặc tính lại với nhau.

Để có thể phân tích kĩ càng cũng như hiểu rỏ hơn về các đặc tính của kim cương. Ta có thể phân tích kết hợp 2 hay nhiều yếu tố lại với nhau trên cùng một biểu đồ Bar chart giúp ta dễ quan sát cũng như dễ dàng so sánh chúng.

Cut - Color

Đây một biểu đồ cột xếp chồng hiển thị tần suất tương đối của biến “cut” và màu fill của các cột dựa trên biến “color”. Biểu đồ này giúp bạn có cái nhìn về phân phối của biến “cut” và “color” trong khung dữ liệu “tn”.

ggplot(tn, aes(x = cut, fill = color)) +
  geom_bar(position = "fill") +
  labs(title = "Tần suất của Cut và Color", x = "Cut", y = "Tần suất") +
  scale_fill_brewer(palette = "Paired") +
  theme_minimal()

Carat - Color - Clarity

Biểu đồ cột này hiển thị giá trị trung bình của biến “price” dựa trên các nhóm “cut” và màu fill của các cột dựa trên biến “clarity”. Biểu đồ này giúp bạn so sánh giá trị trung bình của “price” giữa các nhóm “cut” và xem liệu sự rõ ràng (“clarity”) có ảnh hưởng đến giá trị trung bình không.

tn %>% ggplot(aes(x = cut, y = price, fill = clarity)) +
  geom_bar(stat = "summary", fun.y = "mean", position = "dodge")

Biểu đồ này sẽ giúp bạn phân tích sự khác biệt về giá trị trung bình của “price” giữa các nhóm “cut”. Bạn cũng có thể xem xét tương quan giữa sự rõ ràng (“clarity”) và giá trị trung bình của “price” bằng cách quan sát sự khác biệt màu fill của các cột giữa các nhóm “clarity”.

Cut - Clarity - Color

Biểu đồ cột xếp chồng này cho thấy tần suất của các loại cắt kim cương (“cut”) theo giá trị của biến “clarity”. Mỗi cột biểu thị một loại cắt kim cương và được chia thành các phần tương ứng với các giá trị của biến “clarity”.

Dựa trên biểu đồ, chúng ta có thể nhận thấy một số kết quả sau:

Loại cắt “Ideal” có tần suất cao nhất trong tất cả các mức độ rõ ràng (“clarity”). Đây có thể là loại cắt phổ biến nhất trong tập dữ liệu.
Cắt “Premium” và “Very Good” cũng có tần suất khá cao trong tất cả các mức độ rõ ràng (“clarity”).
Cắt “Fair” có tần suất thấp nhất trong tất cả các mức độ rõ ràng (“clarity”).
Mức độ rõ ràng “SI2” và “I1” có tần suất cao nhất trong các loại cắt, trong khi mức độ rõ ràng “IF” và “VVS1” có tần suất thấp nhất.
Các loại cắt khác nhau có phân phối khác nhau của các mức độ rõ ràng (“clarity”). Ví dụ, cắt “Ideal” và “Premium” có tần suất cao nhất ở mức độ rõ ràng “SI1” và “VS2”, trong khi cắt “Fair” có tần suất cao nhất ở mức độ rõ ràng “I1”.

ggplot(tn, aes(x = cut, fill = clarity)) +
  geom_bar(position = "fill") +
  labs(title = "Tần suất của các loại cắt kim cương theo giá trị", x = "Cắt", y = "Tần suất") +
  scale_fill_brewer(palette = "Paired") +
  theme_minimal()

Biểu đồ này cung cấp một cái nhìn tổng quan về mối quan hệ giữa các loại cắt kim cương và giá trị của biến “clarity”. Nó giúp chúng ta hiểu được phân phối của các loại cắt trong mỗi mức độ rõ ràng, cho phép phân tích sự tương quan giữa hai biến này.