Giới thiệu

Thực hiện trực quan hóa dữ liệu trên bộ dữ liệu Diamond từ gói ggplot2

Thông tin tổng quan về bộ dữ liệu

# Vì tập dữ liệu Diamond là tập dữ liệu tích hợp trong ggplot2, nên cần tải gói ggplot2 để tiến hành phân tích bộ dữ liệu này
library(ggplot2)
# Tiến hành tải tập dữ liệu Diamond 
a <- diamonds # gán bộ dữ liệu vào a
a

Bộ dữ liệu Diamond gồm 53940 quan sát tương đương với 53940 viên kim cương và 10 biến đo lường các thông tin khác nhau về những viên kim cương

Bộ dữ liệu bao gồm các biến sau:

  • carat: Trọng lượng của viên kim cương

  • cut: Chất lượng của viên kim cương

  • color: Màu sắc của viên kim cương

  • clarity: Độ trong của viên kim cương

  • depth: Tỷ lệ phần trăm độ sâu của viên kim cương

  • table: Chiều rộng của đỉnh viên kim cương so với điểm rộng nhất của nó

  • price: Giá của viên kim cương (USD)

  • x: Chiều dài ( đơn vị mm)

  • y: Chiều rộng ( đơn vị mm)

  • z: Chiều sâu ( đơn vị mm)

Thống kê mô tả bộ dữ liệu Diamond

Tiến hành kiểm tra các thước đo thống kê cơ bản cho tập dữ liệu

summary(a)
##      carat               cut        color        clarity          depth      
##  Min.   :0.2000   Fair     : 1610   D: 6775   SI1    :13065   Min.   :43.00  
##  1st Qu.:0.4000   Good     : 4906   E: 9797   VS2    :12258   1st Qu.:61.00  
##  Median :0.7000   Very Good:12082   F: 9542   SI2    : 9194   Median :61.80  
##  Mean   :0.7979   Premium  :13791   G:11292   VS1    : 8171   Mean   :61.75  
##  3rd Qu.:1.0400   Ideal    :21551   H: 8304   VVS2   : 5066   3rd Qu.:62.50  
##  Max.   :5.0100                     I: 5422   VVS1   : 3655   Max.   :79.00  
##                                     J: 2808   (Other): 2531                  
##      table           price             x                y         
##  Min.   :43.00   Min.   :  326   Min.   : 0.000   Min.   : 0.000  
##  1st Qu.:56.00   1st Qu.:  950   1st Qu.: 4.710   1st Qu.: 4.720  
##  Median :57.00   Median : 2401   Median : 5.700   Median : 5.710  
##  Mean   :57.46   Mean   : 3933   Mean   : 5.731   Mean   : 5.735  
##  3rd Qu.:59.00   3rd Qu.: 5324   3rd Qu.: 6.540   3rd Qu.: 6.540  
##  Max.   :95.00   Max.   :18823   Max.   :10.740   Max.   :58.900  
##                                                                   
##        z         
##  Min.   : 0.000  
##  1st Qu.: 2.910  
##  Median : 3.530  
##  Mean   : 3.539  
##  3rd Qu.: 4.040  
##  Max.   :31.800  
## 
# Đối với mỗi biến, chúng ta có thể thấy các thông tin như: min:giá trị tối thiểu; 1st Qu.:giá trị của tứ phân vị thứ 1; median:giá trị trung vị; mean: giá trị trung bình; 3rd Qu.:giá trị của tứ phân vị thứ 3; max:giá trị tối đa

Thống kê mô tả cho tập dữ liệu thông qua các biến được biểu hiện như sau:

  • Đối với biến carat:

    • Trọng lượng có phạm vi từ 0,2 đến 5,01 với trọng lượng trung bình là 0,7979

    • Có 25% viên kim cương có trọng lượng nhỏ hơn 0,4 và 75% viên kim cương lớn hơn 0,4

    • 50% viên có trọng lượng nhỏ hơn 0,7 và 50% còn lại lớn hơn

    • Có 75% viên kim cương nhỏ hơn 1,04 và 25% viên kim cương có trọng lượng lớn hơn 1,04

  • Đối với biến depth:

    • Có 25% viên kim cương có độ sâu nhỏ hơn 61% và 75% còn lại là lớn hơn 61%

    • 50% viên có độ sâu nhỏ hơn 61,8% và 50% còn lại lớn hơn

    • Có 75% viên kim cương có độ sâu nhỏ hơn 62,5% và 25% còn lại có độ sâu lớn hơn 62,5%

  • Đối với price:

    • Mức giá từ $360 đến $18823 với mức giá trung bình $3933

    • Có 25% viên kim cương có giá nhỏ hơn $950 và 75% còn lại là lớn hơn

    • 50% viên có giá nhỏ hơn $2401 và 50% còn lại lớn hơn

    • Có 75% viên kim cương có giá nhỏ hơn $5324 và 25% còn lại có độ sâu lớn hơn $5324

Lập bảng tần số

Tiến hành lập bảng tần số cho các biến lần lượt là cut, color và clarity

table(a$cut)
## 
##      Fair      Good Very Good   Premium     Ideal 
##      1610      4906     12082     13791     21551
table(a$color)
## 
##     D     E     F     G     H     I     J 
##  6775  9797  9542 11292  8304  5422  2808
table(a$clarity)
## 
##    I1   SI2   SI1   VS2   VS1  VVS2  VVS1    IF 
##   741  9194 13065 12258  8171  5066  3655  1790

Biến cut thể hiện chất lượng của viên kim cương bao gồm 5 loại như sau:

  • Có 1610 viên kim cương có chất lượng là Fair

  • Có 4906 viên kim cương có chất lượng Good

  • Có 12082 viên kim cương loại Very Good

  • Có 13791 viên im cương Prenium

  • 21551 viên kim cương còn lại là Ideal

Kết quả trả về cho biến color bao gồm có 7 màu, bao gồm:

  • Có 6775 viên kim cương màu D

  • Có 9797 viên kim cương màu E

  • Có 9542 viên kim cương màu F

  • Có 11292 viên kim cương màu G

  • Có 8304 viên kim cương màu H

  • Có 5422 viên kim cương màu I

  • Có 2808 viên kim cương màu J

Độ trong clarity của viên kim cương được thể hiện 8 biểu hiện bao gồm:

  • 741 viên có độ trong là I1

  • 9194 viên có độ trong là SI2

  • 13065 viên có độ trong là SI1

  • 12258 viên có độ trong là VS2

  • 8171 viên có độ trong là VS1

  • 5066 viên có độ trong là VVS2

  • 3655 viên có độ trong là VVS1

  • 1790 viên có độ trong là IF

Phân tích bộ dữ liệu Diamonds

Tiến hành Trực quan hóa dữ liệu để phân tích dữ liệu, nhằm hiểu rõ hơn về các mối quan hệ, xu hướng và biểu đồ dữ liệu một cách dễ hiểu. Công cụ và phương tiện dùng để trực quan hóa dữ liệu Diamond:

  1. Biểu đồ Bar chart:Biểu đồ cột được sử dụng để so sánh giá trị của các biến hoặc nhóm khác nhau một cách dễ dàng.

  2. Biểu đồ Histogram: Biểu đồ histogram giúp hiểu rõ phân phối của dữ liệu, nhận biết rõ tần suất và sự biến động của dữ liệu.

Bộ dữ liệu Diamonds gồm biến rời rạc và biến liên tục. Dựa vào loại biến mà sử dụng biểu đồ phù hợp để phân tích dữ liệu

Phân loại dữ liệu dựa trên các thuộc tính của bộ dữ liệu

Đối với độ tinh khiết clarity

Độ tinh khiết của các viên kim cương được sắp xếp theo thứ tự tăng dần từ loại kém nhất I1 đến loại tinh khiết cao nhất IF.

Ý nghĩa: Viên kim cương có độ tinh khiết tốt nhất (IF) là tương đối hiếm và hầu hết các viên kim cương đều thuộc loại SI, VS, VVS. Ngoài ra còn có rất ít viên kim cương có độ trong kém nhất (I1).

Kết quả từ các hình 1.1, 1.2, 1.3:

  • Kim cương có độ tinh khiết I1 có số lượng rất ít là 741 viên và độ tinh khiết tốt nhất FI có 1790 viên kim cương

  • Kim cương có độ tinh khiết trung bình (SI2,VS,VVS) tương đối nhiều: có 12258 viên kim cương VS2, 9194 viên kim cương SI2,…

  • Những viên kim cương có độ tinh khiết SI1 số lượng nhiều nhất 13065 viên

a %>% ggplot(aes(x = clarity)) + # tạo biểu đồ ggplot2 từ tập dữ liệu a, ánh xạ clarity vào trục hoành
    geom_bar(fill = 'pink') +    # thêm lớp geom_bar: đồ thị cột, fill: màu sắc bên trong cột là màu hồng
    labs(x = 'Độ tinh khiết', y = 'Số lượng', title = 'Hình 1.1: Biểu đồ thể hiện số lượng từng viên kim cương theo từng độ tinh khiêt') # thêm nhãn labs: x= và y = là tiêu đề trục x và trục y, title là tiêu đề chính của biểu đồ

a %>% group_by(clarity) %>% summarise(n = n()) %>% # group_by: nhóm biến clarity và tính tần số xuất hiện n của các biểu hiện thuộc clarity
  ggplot(aes(clarity,n)) + # aes: ánh xạ lên trục Ox clarity, Oy là n
    geom_col(fill='pink') + #thêm lớp goem_col: đồ thị dạng cột theo n
    geom_text(aes(label = n),vjust = 1, color = 'red') + # thêm lớp geom_text: nhãn văn bản lên biểu đồ, aes(label = n): các cột chứa nhãn văn bản n, vjust: vị trí theo chiều dọc của nhãn văn bản, color: nhãn văn bản được tô màu đỏ
    labs(x = 'Độ tinh khiết', y = 'Số lượng', title = 'Hình 1.2: Tần số của từng độ tinh khiết của kim cương')

a %>% group_by(clarity) %>% summarise(n = n()) %>%
  ggplot(aes(clarity,n)) +
    geom_col(fill='pink') +
    geom_text(aes(label = n),hjust = 1, vjust = 1, color = 'red') +
    labs(x = 'Loại', y = 'Số lượng', title = 'Hình 1.3: Biểu đồ xoay trục ngang' ) +
    coord_flip() # xoay biểu đồ dọc trở thành biểu đồ thanh ngang

a %>% group_by(clarity) %>% summarise(n = n()) %>%
  ggplot(aes(clarity,n)) + 
    geom_col(fill='pink') +
    geom_text(aes(label = percent(n/length(a$clarity))),vjust = 0, color = 'red') +
    xlab('Độ tinh khiết') +
    ylab('Số lượng') +
    labs(title = 'Hình 1.4: Tần suất của của kim cương')

Hình 1.4 thể hiện tần suất của những viên kim cương theo độ tinh khiết:

  • Độ tinh khiết SI2 có tần suất lớn nhất 24,2%, chứng tỏ rằng những viên kim cương loại SI2 phổ biến, được thị trường ưa chuộng

  • Những viên kim cương I1 có tần suất thấp nhất 1,4%, tức là những viên kim cương loại này không được thị trường chú trọng, nên hiếm

Đối với biến color

Các cấp độ của màu được sắp xếp giảm dần, từ tốt nhất D xuống tệ nhất J, càng tiến về D màu sẽ càng chất lượng. Màu G là màu phổ biến nhất, nằm ở giữa phân bổ

  • Màu G có số lượng lớn nhất, có 11292 viên kim cương có màu G

  • Viên kim cương có màu tốt nhất (D) có số lượng tương đối nhiều, bao gồm 6775 viên

  • Màu J là màu tệ nhất cũng có số lượng ít nhất là 2808 viên

  • Nhóm màu kim cương D, E, F có số lượng nhiều hơn nhóm màu sau G

a %>% ggplot(aes(x = color)) +
    geom_bar(fill ='brown') +
   labs(x = 'Độ tinh khiết', y = 'Số lượng', title = 'Hình 1.1: Biểu đồ thể hiện số lượng từng viên kim cương theo độ tinh khiêt')

a %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(color,n)) +
    geom_col(fill='brown') +
    geom_text(aes(label = n),vjust = 2, color = 'white') +
    labs(x = 'Màu', y = 'Số lượng', title = 'Hình 2.2: Tần số xuất hiện từng màu của kim cương')

Đối với biến cut

Số lượng các viên kim cương tăng dần từ trái sang phải theo chất lượng của nó. Kim cương loại Ideal rất phổ biến. Nnhà sản xuất có thể kiểm soát vết cắt của viên kim cương, từ đó có thể sản xuất ra viên kim cương đạt chất lượng cao

  • Kim cương loại Ideal có số lượng lớn nhất 21551 viên

  • Bên cạnh đó, viên kim cương loại Fair lại tương đối hiếm 1610 viên

  • Các loại còn lại lần lượt là 4906, 12082, 13791. Ba loại này có số lương gần như giống nhau

# Biểu đồ thể hiện tần số của từng viên kim cương
a %>% group_by(cut) %>% summarise(n = n()) %>% # nhóm du
  ggplot(aes(cut,n)) +
    geom_col(fill='yellow') +
    geom_text(aes(label = n),vjust = 1, color = 'black') +
    labs(x = 'Loại', y = 'Số lượng', title = 'Hình 3.1: Số lượng của từng loại kim cương')

# Biểu đồ thể hiện tần số của mỗi loại bằng mỗi màu sắc khác nhau quy định theo cut
a %>% ggplot(aes(x = cut, fill = cut)) +
  geom_bar() + # thêm lớp geom_histogram: biểu đồ phân phối với binwith: độ rộng của mỗi cột là 500
  labs(title = 'Hình 3.2: Tần số của từng loại kim cương')

Phân loại dữ liệu dựa theo thuộc tính của từng viên kim cương

Thuộc tính clarity

# tạo dữ liệu mới từ clarity, phân tổ clarity theo 5 nhóm của độ tinh khiết
a <- a %>% mutate(clarityC = case_when(
    clarity == "IF" ~ 1, clarity == "VVS1" | clarity == "VVS2" ~ 2,
    clarity == "VS1" | clarity == "VS2" ~ 3, clarity == "SI1" | clarity == "SI2" ~ 4,
    clarity == "I1" ~ 5))
# mã hóa dữ liệu 5 nhóm clarity
a <- mutate(a, clarityC = cut(clarityC, 5, label = c('hoàn hảo', 'gần trong suốt','Rất ít tạp chất','ít tạp chất','nhiều tạp chất')))

# tạo biểu đồ bar chart
a %>% group_by(clarityC) %>% summarise(n=n()) %>%
  ggplot(aes(clarityC, n)) +
    geom_col(fill = 'skyblue') +
    geom_text(aes(label = n), vjust = 0, color = 'black') +
    xlab('Độ tinh khiết') +
    ylab('Số lượng') + 
    labs(title = 'Hình 3: Độ tinh khiết của kim cương')

Số lượng kim cương theo độ trong suốt thường thể hiện mức độ hiếm có của chúng:

  • Kim cương thuộc nhóm ít tạp chất (SI) có số lượng lớn, mặc dù có một ít khuyết điểm nhưng vẫn có thể đẹp và có giá trị. Nên thị trường ưa thích những viên kim cương có độ tinh khiết SI trở lên

  • Nhóm kim cương có nhiều tạp chất (I) có số lượng khá hiếm nhưng vì chúng có nhiều lỗi nên giá trên thị trường không cao

Thuộc tính color

a <- a %>% mutate(colorC = case_when(
    color == "D" | color == "E" | color == "F" ~ 1,
    color == "G" | color == "H" | color == "I" | color == "J" ~ 2))

a <- mutate(a, colorC = cut(colorC, 2, label = c('không màu', 'gần như không màu')))

a %>% group_by(colorC) %>% summarise(n=n()) %>%
  ggplot(aes(colorC, n)) +
    geom_col(fill = 'violet') +
    geom_text(aes(label = n), vjust = 0, color = 'black') +
    xlab('Màu') +
    ylab('Số lượng') + 
    labs(title = 'Hình 3: Màu sắc của kim cương')

Qua hình và nhìn vào số liệu, ta nhận thấy:

  • Nhóm màu D, E, F: Kim cương không màu. Đây là loại kim cương sang trọng hiếm có và đạt chất lượng cao nhất trong bảng phân loại này với vẻ đẹp băng giá tinh khiết nhất. Trong đó, màu D hoàn hảo nhất, còn E-F có một chút ánh sáng nhẹ so với D nhưng không thể phân biệt bằng mắt thường.

-Nhóm màu G, H, I, J: Kim cương gần như không màu, chiếm một phần lớn trong nguồn cung kim cương.

phân loại dữ liệu định lượng của bộ dữ liệu

Phân loại theo depth

a$depthC <- case_when(a$depth < 59 ~ 'quá thấp',
                        a$depth >= 59 & a$depth < 62 ~ 'lý tưởng',
                        a$depth >= 62 ~ 'quá cao')

a %>% group_by(depthC) %>% summarise(n=n()) %>%
  ggplot(aes(depthC, n)) +
    geom_col(fill = 'violet') +
    geom_text(aes(label = n), vjust = 0, color = 'black') +
    xlab('Độ sâu') +
    ylab('Số lượng') + 
    labs(title = 'Hình 3: Số lượng của kim cương theo độ sâu')

Độ sâu của viên kim cương được phân loại thành 3 nhóm để đánh giá chất lượng và hiệu suất quang học của viên kim cương

  • Độ sâu thuộc nhóm lý tưởng (59-62) có số lượng lớn nhất, những viên kim cương thuộc loại này có sự rực rỡ và lấp lánh ấn tượng. Chính vì thế nhóm độ sâu này ưu việt

  • Độ sâu các viên kim cương có độ sâu quá thấp có số lượng ít nhất 1887 viên, những viên kim cương này có thể xuất hiện rộng và thiếu sự rực rỡ. Ánh sáng có thể thoát ra khỏi mặt dưới của viên kim cương, làm mất đi một số lượng lớn ánh sáng.

Phân loại theo table

a$tableC <- case_when(a$table >= 60 ~ 'lớn',
                        a$table >= 54 & a$table < 60 ~ 'trung bình',
                        a$table < 54 ~ 'nhỏ')

a %>% group_by(tableC) %>% summarise(n=n()) %>%
  ggplot(aes(tableC, n)) +
    geom_col(fill = 'pink') +
    geom_text(aes(label = n), vjust = 0, color = 'black') +
    xlab('Rộng') +
    ylab('Số lượng') + 
    labs(title = 'Hình 3: Số lượng của kim cương theo chiều rộng')

Table là một trong những yếu tố quan trọng ảnh hưởng đến vẻ đẹp và hiệu suất của viên kim cương. Phân loại table thường được thực hiện dựa trên tỷ lệ chiều rộng so với đường kính của viên kim cương.

  • Table trung bình thường tạo ra sự cân bằng giữa việc giữ ánh sáng và tạo ra hiệu suất quang học tốt. Đây là lựa chọn phổ biến vì kết hợp giữa rực rỡ và mở rộng. Loại này được ưa chuộng nhiều, phổ biến nên có số lượng lớn 44075 viên

  • Table nhỏ có thể tạo ra ánh sáng chói lọi và lấp lánh mạnh mẽ. Tuy nhiên, dễ gặp tình trạng “dark center” khi table quá nhỏ. Chính vì vậy, loại này khá hiếm 778 viên

Phân phối giá kim cương

a %>% ggplot(aes(x = price)) +
  geom_histogram(binwidth = 500, fill = 'blue') + # thêm lớp geom_histogram: biểu đồ phân phối với binwith: độ rộng của mỗi cột là 500
  labs(title = 'Hình 4: Phân phối giá kim cương')

Biểu đồ Histogram phân phối giá kim cương: Phân bổ giá bị lệch phải, nghĩa là hầu hết kim cương trong tập dữ liệu đều ở mức giá thấp hơn, với một số viên kim cương có giá cao hơn đáng kể, có tỷ lệ các mặt hàng chất lượng cao có giá cao hơn nhiều

Phân bổ trọng lượng

a %>% ggplot(aes(x = carat)) + 
  geom_histogram(binwidth = 0.05, fill ='orange') +
  labs(title = 'Hình 5: Phân bổ trọng lượng của viên kim cương')

Biểu đồ Histogram phân bổ trọng lượng : Sự phân bố trọng lượng carat cũng bị lệch phải, cho thấy hầu hết các viên kim cương trong tập dữ liệu đều có kích thước nhỏ hơn, với ít viên kim cương lớn hơn, tức là nơi những viên kim cương lớn hơn thì hiếm hơn và do đó đắt hơn.

Giá cả của những viên kim cương được xác định như thế nào?

Kim cương được định giá dựa vào 4C, bao gồm: carat (trọng lượng), cut (loại), color (màu) và clarity (độ tinh khiết)

các biến cut, color, clarity ảnh hưởng đến giá

Để phân tích sự ảnh hưởng, xét mức giá trung bình trong từng danh mục của các biến này. Việc phân tích các biến cut, color, clarity trả về kết quả như sau:

  • Giá trung bình theo cut ( Hình ) : Việc cắt một viên kim cương dường như ảnh hưởng đến giá trung bình của nó. Những miếng cắt ‘Premium’ và có xu hướng có giá trung bình cao hơn, điều này cho thấy những miếng cắt có chất lượng tốt hơn sẽ được đánh giá cao hơn trên thị trường.

  • Giá trung bình theo màu : Màu sắc của kim cương cho thấy xu hướng trong đó những viên kim cương có màu được xếp hạng gần D (chất lượng cao nhất) có xu hướng có giá trung bình cao hơn. Điều này cho thấy màu sắc là một yếu tố quan trọng trong việc định giá kim cương.

  • Giá trung bình theo clarity : Độ tinh khiết của một viên kim cương dường như ảnh hưởng đến giá trung bình của nó. Những viên kim cương có độ tinh khiết càng cao thì kim cương càng hiếm và tất nhiên càng mắc. Điều này cho thấy thị trường ưa thích những viên kim cương trong hơn.

clarity và price

# clarity và price
a %>% group_by(clarity) %>% summarise(m= mean(price)) %>%
  ggplot(aes(x = clarity,y = m)) +
    geom_col(fill = 'green') +
    labs(title = 'Hình 6.1: Giá trung bình theo biến clarity')

# Phân phối giá cả theo clarity
a %>% ggplot(aes(x = price, fill = clarity)) +
  geom_histogram(binwidth = 500)

  • Những viên kim cương có độ tinh khiết IF tương đối hiếm, nên giá của chúng là cao nhất

  • Ngược lại, những viên kim cương có độ trong kém nhất I1, giá của nó cũng thấp nhất so với các loại kim cương khác

color và price

a %>% group_by(color) %>% summarise(m= mean(price)) %>%
  ggplot(aes(x = color,y = m)) +
    geom_col(fill = 'green') +
    labs(title = 'Hình 6.2: Giá trung bình theo biến color')

a %>% ggplot(aes(x = price, fill = color)) +
  geom_histogram(binwidth = 500)

  • Viên kim cương có màu D là màu chất lượng nhất, giá của chúng cũng cao nhất

  • Viên kim cương màu J, màu tệ nhất thì giá của chúng cũng tương đối thấp

cut và price

a %>% group_by(cut) %>% summarise(m = mean(price)) %>% 
  ggplot(aes(x = cut,y = m)) +
  geom_col(fill ='green') +
  geom_text(aes(label = round(m,2)), vjust = 2) +
  labs(title = 'Hình 6.3: Giá trung bình theo cut')

a %>% ggplot(aes(x = price, fill = cut)) +
  geom_histogram(binwidth = 500)

  • Những viên kim cương có chất lượng Premium có giá trung bình cao nhất. Thị trường ưa thích kim cương có chất lượng cao nên đẩy giá của kim cương lên cao

  • Ngược lại, kim cương loại Ideal có giá trung bình khá thấp mặc dù loại này có số lượng nhiều nhất.

Các yếu tố ảnh hưởng tới trọng lượng của viên kim cương

Để phân tích sự ảnh hưởng này, xét trọng lượng trung bình của viên kim cương. Tiến hành phân tích dựa theo cut, color, clarity, thu được kết quả như sau:

Vì trọng lượng của viên kim cương có thể kiểm soát được. Các nhà sản xuất có thể quyết định được trọng lượng cho từng viên kim cương, mang lại giá trị cao nhất cho viên kim cương

cut và carat

cut là tiêu chí hàng đầu quyết định việc lựa chọn kim cương. Một viên kim cương có trọng lượng 2 carat có thể cũng bị xỉn màu khi không được cắt thật tốt

Một viên kim cương có chất lượng cut càng tốt, trọng lượng càng lớn thì giá càng mắc:

  • Thị trường ưa thích những viên kim cương có chất lượng cut tốt : Ideal, Premium để giữ nguyên vẻ đẹp của kim cương

  • Những viên kim cương có chất lượng cut kém: Fair có trọng lượng trung bình lớn, có giá trị lớn hơn các viên có trọng lượng thấp hơn. Thị trường tương đối ưa chuộng vì viên kim cương càng lớn giá trị càng cao

a %>% group_by(cut) %>% summarise(m= mean(carat)) %>%
  ggplot(aes(x = cut,y = m)) +
    geom_col(fill ='purple', position = 'dodge') +
    geom_text(aes(label = round(m,2)), vjust = 2) +
    labs(x = 'Loại', y = 'Mean', title = 'Hình 7.1: Trọng lượng trung bình theo cut')

  • Những viên kim cương loại Fair có trọng lượng trung bình lớn nhất: 1,05. Những viên kim cương kém có trọng lượng lớn thì sẽ có giá trị hơn

  • Những viên kim cương loại Ideal có trọng lượng trung bình nhỏ nhất: 0,7. Những viên kim cương loại này cực kì hiếm

clarity và carat

Những viên kim cương có độ trong càng tốt, trọng lượng trung bình của viên kim cương nên dao động từ 0,5 - 1 carat

Những viên kim cương có trọng lượng trung bình lớn, độ trong kém có xu hướng làm giảm giá trị của viên kim cương vì độ lấp lánh của kim cương kém

a %>% group_by(clarity) %>% summarise(m= mean(carat)) %>%
  ggplot(aes(x = clarity,y = m)) +
  geom_col(fill ='purple', position = 'dodge') +
  geom_text(aes(label = round(m,2)), vjust = 2) +
  labs(x ='Loại', y = 'mean', title = 'Hình 7.2: Trọng lượng trung bình theo clarity')

  • Những viên kim cương có trọng lượng trung bình lớn nhất có độ tinh khiết kém nhất I1 là 1,28 carat

  • Những viên kim cương có trọng lượng trung bình nhỏ nhất có độ tinh khiết VVS1 là 0,5 carat

Các nhân tố ảnh hưởng đến chất lượng cut, hình thành nên giá thành

clarity và cut

Những viên kim cương có chất lượng càng tốt thường có độ tinh khiết càng cao. Độ tinh khiết càng thấp, số lượng viên kim cương theo clarity càng hiếm và ngược lại

  • Viên kim cương có chất lượng Fair là có số lượng lớn nhất ( số lượng dưới 500) thuộc SI2 và hiếm ở độ tinh khiết VVS1

  • Viên kim cương loại Good có số lượng lớn nhất ( dao động từ 1500 - 2000) thuộc độ tinh khiết SI1 và ít ở I1

  • Viên kim cương loại Very Good có số lượng lớn nhất (3000 -3500) có độ tinh khiết SI1 và tương đối ít đối với I1

  • Loại Premium có số lượng lớn nhất (3500 - 4000) có độ tinh khiết SI1 và ít ở I1

  • Loại Ideal có số lượng lớn nhất ( lớn hơn 5000) có độ tinh khiết VS2 và ít ở I1

a %>% group_by(clarity, cut) %>% 
  ggplot(aes(x = clarity, group = cut, fill = cut)) +
  geom_bar(position = "dodge") +
  labs(title = 'Hình 8: Tần số của từng loại kim cương theo clarity')

a %>%
  ggplot(aes(x = clarity, fill = cut)) +
  geom_bar() +
  labs(title = 'Hình 8.1: Tần số thể hiện bằng dòng số của kim cương theo clarity') +
  coord_flip()

a %>% group_by(cut,clarity) %>% summarise(n=n()) %>%
  ggplot(aes(x = cut,y = n)) +
    geom_col(position = 'dodge') +
    facet_wrap(~clarity) +
    geom_text(aes(label = n),vjust = 1, color = 'white') +
    labs(x = 'Loại', y = 'Số lượng', title = 'Hình 8.2: Tần số cho từng độ tinh khiết khác nhau theo cut')

color và cut

Những viên kim cương có xu hướng hướng về màu D, viên kim cương có màu càng gần D, giá trị càng cào cao. Càng ra xa D, số lượng màu tốt càng ít

  • Viên kim cương có chất lượng Fair màu F là có số lượng lớn nhất ( số lượng dưới 500) và số lượng ít đối với viên Fair màu J

  • Viên kim cương loại Good màu E có số lượng lớn nhất ( dao động từ 1500 - 2000) và những viên cùng loại màu J có số lượng ít nhất

  • Viên kim cương loại Very Good màu E có số lượng lớn nhất (3000 -3500) và tương đối ít đối với màu J

  • Loại Premium màu G có số lượng lớn nhất (3500 - 4000) và ít đối với màu J

  • Loại Ideal màu G có số lượng lớn nhất ( lớn hơn 5000) và ít đối với màu J

a %>% group_by(color, cut) %>% 
  ggplot(aes(x = color, group = cut, fill = cut)) +
  geom_bar(position = "dodge") +
  labs(title = 'Hình 9: Tần số của từng loại kim cương theo color')

a %>%
  ggplot(aes(x = color, fill = cut)) +
  geom_bar() +
  labs(title = 'Hình 9.1: Tần số thể hiện bằng dòng số của kim cương theo color') +
  coord_flip()

Sự tác động giữa color và cut còn được thể hiện qua các biểu đồ: Hình 10 thể hiện 7 biểu đồ tần số tương ứng với 7 biểu hiện khác nhau của color theo biến cut

a %>% group_by(cut,color) %>% summarise(n=n()) %>%
  ggplot(aes(x = cut,y = n)) +
    geom_col(position = 'dodge') +
    facet_wrap(~color) +
    geom_text(aes(label = n),vjust = 1, color = 'white') +
    labs(x = 'Loại', y = 'Số lượng', title = 'Hình 9.2: Tần số cho từng màu theo cut')

Ảnh hưởng giá cả bởi các yếu tố khác

Sự ảnh hưởng của clarity và cut

Giá cả phụ thuộc vào clarity và cut:

  • Một kim cương có độ trong suốt cao nhưng cut kém vẫn có thể không đáng giá nhiều, chẳng hạn loại IF-Fair có giá trung bình thấp nhất (nhỏ hơn 2000)

  • Ngược lại, một kim cương có cut tốt nhưng độ trong suốt thấp có thể không đạt được giá trị cao nhất, chẳng hạn loại Ideal-I1 có giá trung bình thấp hơn so với loại Ideal-SI2.

Sự cân nhắc giữa clarity và cut là quan trọng để chọn lựa kim cương phù hợp với nhu cầu và ngân sách của mỗi người tiêu dùng.

a %>% group_by(clarity,cut) %>% summarise(m = mean(price)) %>% 
  ggplot(aes(x = clarity, y = m, group = cut, color = cut, fill = cut)) +
  geom_col(position = "dodge") +
  labs(title = 'Hình 10.1: Biểu đồ cột ghép thể hiện giá trung bình')

a %>% group_by(clarity,cut) %>% summarise(m = mean(price)) %>% 
  ggplot(aes(x = clarity, y = m, group = cut, color = cut, fill = cut)) +
  geom_col(position = "fill") +
  labs(title = 'Hình 10.2: Biểu đồ miền thể hiện giá trung bình')

a %>% group_by(clarity,cut) %>% summarise(m = mean(price)) %>% 
  ggplot(aes(x = clarity, y = m, group = cut, color = cut, fill = cut)) +
  geom_col(position = "stack") +
  labs(title = 'Hình 10.3: Biểu đồ cột chồng thể hiện giá trung bình')

Sự ảnh hưởng của cut và color

Tương tự như phân tích giá kim cương dựa trên clarity và cut, sự cân nhắc giữa color và cut là quan trọng.

  • Một kim cương có màu sắc tốt nhưng cut kém vẫn có thể không đáng giá nhiều, chẳng hạn những viên kim cương màu D-Ideal có giá trung bình thấp hơn (2000-3000) so với loại Fair cùng màu (4000-5000)

Khi mua kim cương, việc hiểu rõ và cân nhắc đúng đắn giữa các yếu tố này sẽ giúp bạn chọn được một viên kim cương có giá trị và đẹp mắt theo đúng mong muốn, phù hợp với ngân sách của chính mình.

a %>% group_by(color,cut) %>% summarise(m = mean(price)) %>% 
  ggplot(aes(x = color, y = m, group = cut, color = cut, fill = cut)) +
  geom_col(position = "dodge") +
  labs(title = 'Hình 11.1: Biểu đồ cột ghép thể hiện giá trung bình')

a %>% group_by(color,cut) %>% summarise(m = mean(price)) %>% 
  ggplot(aes(x = color, y = m, group = cut, color = cut, fill = cut)) +
  geom_col(position = "stack") +
  labs(title = 'Hình 11.2: Biểu đồ cột chồng thể hiện giá trung bình')

a %>% group_by(color,cut) %>% summarise(m = mean(price)) %>% 
  ggplot(aes(x = color, y = m, group = cut, color = cut, fill = cut)) +
  geom_col(position = "fill") +
  labs(title = 'Hình 11.3: Biểu đồ miền thể hiện giá trung bình')

Tổng kết

Bộ dữ liệu kim cương đã mô tả một loạt các thuộc tính khác nhau, bao gồm cut, color, clarity và trọng lượng carat. Điều này cho thấy sự đa dạng trong các yếu tố quyết định giá trị của kim cương.

Những số liệu và biểu đồ đã bật mí về những yếu tố quan trọng ảnh hưởng đến giá trị của kim cương, từ các thuộc tính cơ bản như cut, color và clarity đối với từng hình dáng cắt, chúng có mối tương quan và ảnh hưởng đến giá trị cuối cùng của kim cương. Ví dụ, kim cương có cắt tốt, màu sắc trong và đánh bóng hoàn hảo thường có giá cao.

Trọng lượng carat có ảnh hưởng lớn đến giá trị của kim cương. Tuy nhiên, không phải lúc nào kim cương lớn cũng đắt đỏ, mà còn phụ thuộc vào các yếu tố khác như cut.

Phần lớn kim cương trong tập dữ liệu rơi vào khoảng giá từ thấp đến trung bình và có trọng lượng carat nhỏ hơn. Điều này chỉ ra rằng mặc dù có những viên kim cương lớn, có giá trị cao nhưng chúng ít phổ biến hơn.

Ứng dụng

Dựa vào những phân tích trên, có thể ứng dụng vào thực tế để mang lại hiệu quả cao nhất:

Dành cho người mua: Nếu có ngân sách tiết kiệm, hãy xem xét những viên kim cương có đường cắt đẹp nhưng cấp độ màu sắc và độ trong thấp hơn, vì những yếu tố này ảnh hưởng đáng kể đến giá cả. Những viên kim cương carat nhỏ hơn mang lại giá trị tốt hơn so với số tiền bỏ ra.

Dành cho Người bán/Thương nhân : Tập trung vào các cut, màu sắc và độ trong chất lượng cao có thể mang lại lợi nhuận cao hơn vì những thứ này được đánh giá cao trên thị trường. Tuy nhiên, điều quan trọng là phải cân bằng điều này với giá thành ngày càng tăng của những viên kim cương chất lượng cao như vậy.

Quản lý hàng tồn kho dành cho nhà bán lẻ : Tích trữ nhiều kim cương hơn ở mức giá từ thấp đến trung bình và cỡ carat, vì chúng phổ biến hơn và có khả năng luân chuyển thường xuyên hơn. Những viên kim cương có giá trị cao nên được dự trữ ít hơn do giá cao hơn và tần suất mua thấp hơn.

Chiến lược tiếp thị : Nhấn mạnh vào chất lượng cut, màu sắc và độ trong trong các chiến dịch tiếp thị, vì những yếu tố này ảnh hưởng đáng kể đến sự hấp dẫn và giá trị của viên kim cương.