Thực hiện trực quan hóa dữ liệu trên bộ dữ liệu Diamond từ gói ggplot2
# Vì tập dữ liệu Diamond là tập dữ liệu tích hợp trong ggplot2, nên cần tải gói ggplot2 để tiến hành phân tích bộ dữ liệu này
library(ggplot2)
# Tiến hành tải tập dữ liệu Diamond
a <- diamonds # gán bộ dữ liệu vào a
aBộ dữ liệu Diamond gồm 53940 quan sát tương đương với 53940 viên kim cương và 10 biến đo lường các thông tin khác nhau về những viên kim cương
Bộ dữ liệu bao gồm các biến sau:
carat: Trọng lượng của viên kim cương
cut: Chất lượng của viên kim cương
color: Màu sắc của viên kim cương
clarity: Độ trong của viên kim cương
depth: Tỷ lệ phần trăm độ sâu của viên kim cương
table: Chiều rộng của đỉnh viên kim cương so với điểm rộng nhất của nó
price: Giá của viên kim cương (USD)
x: Chiều dài ( đơn vị mm)
y: Chiều rộng ( đơn vị mm)
z: Chiều sâu ( đơn vị mm)
Tiến hành kiểm tra các thước đo thống kê cơ bản cho tập dữ liệu
## carat cut color clarity depth
## Min. :0.2000 Fair : 1610 D: 6775 SI1 :13065 Min. :43.00
## 1st Qu.:0.4000 Good : 4906 E: 9797 VS2 :12258 1st Qu.:61.00
## Median :0.7000 Very Good:12082 F: 9542 SI2 : 9194 Median :61.80
## Mean :0.7979 Premium :13791 G:11292 VS1 : 8171 Mean :61.75
## 3rd Qu.:1.0400 Ideal :21551 H: 8304 VVS2 : 5066 3rd Qu.:62.50
## Max. :5.0100 I: 5422 VVS1 : 3655 Max. :79.00
## J: 2808 (Other): 2531
## table price x y
## Min. :43.00 Min. : 326 Min. : 0.000 Min. : 0.000
## 1st Qu.:56.00 1st Qu.: 950 1st Qu.: 4.710 1st Qu.: 4.720
## Median :57.00 Median : 2401 Median : 5.700 Median : 5.710
## Mean :57.46 Mean : 3933 Mean : 5.731 Mean : 5.735
## 3rd Qu.:59.00 3rd Qu.: 5324 3rd Qu.: 6.540 3rd Qu.: 6.540
## Max. :95.00 Max. :18823 Max. :10.740 Max. :58.900
##
## z
## Min. : 0.000
## 1st Qu.: 2.910
## Median : 3.530
## Mean : 3.539
## 3rd Qu.: 4.040
## Max. :31.800
##
# Đối với mỗi biến, chúng ta có thể thấy các thông tin như: min:giá trị tối thiểu; 1st Qu.:giá trị của tứ phân vị thứ 1; median:giá trị trung vị; mean: giá trị trung bình; 3rd Qu.:giá trị của tứ phân vị thứ 3; max:giá trị tối đaThống kê mô tả cho tập dữ liệu thông qua các biến được biểu hiện như sau:
Đối với biến carat:
Trọng lượng có phạm vi từ 0,2 đến 5,01 với trọng lượng trung bình là 0,7979
Có 25% viên kim cương có trọng lượng nhỏ hơn 0,4 và 75% viên kim cương lớn hơn 0,4
50% viên có trọng lượng nhỏ hơn 0,7 và 50% còn lại lớn hơn
Có 75% viên kim cương nhỏ hơn 1,04 và 25% viên kim cương có trọng lượng lớn hơn 1,04
Đối với biến depth:
Có 25% viên kim cương có độ sâu nhỏ hơn 61% và 75% còn lại là lớn hơn 61%
50% viên có độ sâu nhỏ hơn 61,8% và 50% còn lại lớn hơn
Có 75% viên kim cương có độ sâu nhỏ hơn 62,5% và 25% còn lại có độ sâu lớn hơn 62,5%
Đối với price:
Mức giá từ $360 đến $18823 với mức giá trung bình $3933
Có 25% viên kim cương có giá nhỏ hơn $950 và 75% còn lại là lớn hơn
50% viên có giá nhỏ hơn $2401 và 50% còn lại lớn hơn
Có 75% viên kim cương có giá nhỏ hơn $5324 và 25% còn lại có độ sâu lớn hơn $5324
Tiến hành lập bảng tần số cho các biến lần lượt là cut, color và clarity
##
## Fair Good Very Good Premium Ideal
## 1610 4906 12082 13791 21551
##
## D E F G H I J
## 6775 9797 9542 11292 8304 5422 2808
##
## I1 SI2 SI1 VS2 VS1 VVS2 VVS1 IF
## 741 9194 13065 12258 8171 5066 3655 1790
Biến cut thể hiện chất lượng của viên kim cương bao gồm 5 loại như sau:
Có 1610 viên kim cương có chất lượng là Fair
Có 4906 viên kim cương có chất lượng Good
Có 12082 viên kim cương loại Very Good
Có 13791 viên im cương Prenium
21551 viên kim cương còn lại là Ideal
Kết quả trả về cho biến color bao gồm có 7 màu, bao gồm:
Có 6775 viên kim cương màu D
Có 9797 viên kim cương màu E
Có 9542 viên kim cương màu F
Có 11292 viên kim cương màu G
Có 8304 viên kim cương màu H
Có 5422 viên kim cương màu I
Có 2808 viên kim cương màu J
Độ trong clarity của viên kim cương được thể hiện 8 biểu hiện bao gồm:
741 viên có độ trong là I1
9194 viên có độ trong là SI2
13065 viên có độ trong là SI1
12258 viên có độ trong là VS2
8171 viên có độ trong là VS1
5066 viên có độ trong là VVS2
3655 viên có độ trong là VVS1
1790 viên có độ trong là IF
Tiến hành Trực quan hóa dữ liệu để phân tích dữ liệu, nhằm hiểu rõ hơn về các mối quan hệ, xu hướng và biểu đồ dữ liệu một cách dễ hiểu. Công cụ và phương tiện dùng để trực quan hóa dữ liệu Diamond:
Biểu đồ Bar chart:Biểu đồ cột được sử dụng để so sánh giá trị của các biến hoặc nhóm khác nhau một cách dễ dàng.
Biểu đồ Histogram: Biểu đồ histogram giúp hiểu rõ phân phối của dữ liệu, nhận biết rõ tần suất và sự biến động của dữ liệu.
Bộ dữ liệu Diamonds gồm biến rời rạc và biến liên tục. Dựa vào loại biến mà sử dụng biểu đồ phù hợp để phân tích dữ liệu
Độ tinh khiết của các viên kim cương được sắp xếp theo thứ tự tăng dần từ loại kém nhất I1 đến loại tinh khiết cao nhất IF.
Ý nghĩa: Viên kim cương có độ tinh khiết tốt nhất (IF) là tương đối hiếm và hầu hết các viên kim cương đều thuộc loại SI, VS, VVS. Ngoài ra còn có rất ít viên kim cương có độ trong kém nhất (I1).
Kết quả từ các hình 1.1, 1.2, 1.3:
Kim cương có độ tinh khiết I1 có số lượng rất ít là 741 viên và độ tinh khiết tốt nhất FI có 1790 viên kim cương
Kim cương có độ tinh khiết trung bình (SI2,VS,VVS) tương đối nhiều: có 12258 viên kim cương VS2, 9194 viên kim cương SI2,…
Những viên kim cương có độ tinh khiết SI1 số lượng nhiều nhất 13065 viên
a %>% ggplot(aes(x = clarity)) + # tạo biểu đồ ggplot2 từ tập dữ liệu a, ánh xạ clarity vào trục hoành
geom_bar(fill = 'pink') + # thêm lớp geom_bar: đồ thị cột, fill: màu sắc bên trong cột là màu hồng
labs(x = 'Độ tinh khiết', y = 'Số lượng', title = 'Hình 1.1: Biểu đồ thể hiện số lượng từng viên kim cương theo từng độ tinh khiêt') # thêm nhãn labs: x= và y = là tiêu đề trục x và trục y, title là tiêu đề chính của biểu đồa %>% group_by(clarity) %>% summarise(n = n()) %>% # group_by: nhóm biến clarity và tính tần số xuất hiện n của các biểu hiện thuộc clarity
ggplot(aes(clarity,n)) + # aes: ánh xạ lên trục Ox clarity, Oy là n
geom_col(fill='pink') + #thêm lớp goem_col: đồ thị dạng cột theo n
geom_text(aes(label = n),vjust = 1, color = 'red') + # thêm lớp geom_text: nhãn văn bản lên biểu đồ, aes(label = n): các cột chứa nhãn văn bản n, vjust: vị trí theo chiều dọc của nhãn văn bản, color: nhãn văn bản được tô màu đỏ
labs(x = 'Độ tinh khiết', y = 'Số lượng', title = 'Hình 1.2: Tần số của từng độ tinh khiết của kim cương')a %>% group_by(clarity) %>% summarise(n = n()) %>%
ggplot(aes(clarity,n)) +
geom_col(fill='pink') +
geom_text(aes(label = n),hjust = 1, vjust = 1, color = 'red') +
labs(x = 'Loại', y = 'Số lượng', title = 'Hình 1.3: Biểu đồ xoay trục ngang' ) +
coord_flip() # xoay biểu đồ dọc trở thành biểu đồ thanh nganga %>% group_by(clarity) %>% summarise(n = n()) %>%
ggplot(aes(clarity,n)) +
geom_col(fill='pink') +
geom_text(aes(label = percent(n/length(a$clarity))),vjust = 0, color = 'red') +
xlab('Độ tinh khiết') +
ylab('Số lượng') +
labs(title = 'Hình 1.4: Tần suất của của kim cương')Hình 1.4 thể hiện tần suất của những viên kim cương theo độ tinh khiết:
Độ tinh khiết SI2 có tần suất lớn nhất 24,2%, chứng tỏ rằng những viên kim cương loại SI2 phổ biến, được thị trường ưa chuộng
Những viên kim cương I1 có tần suất thấp nhất 1,4%, tức là những viên kim cương loại này không được thị trường chú trọng, nên hiếm
Các cấp độ của màu được sắp xếp giảm dần, từ tốt nhất D xuống tệ nhất J, càng tiến về D màu sẽ càng chất lượng. Màu G là màu phổ biến nhất, nằm ở giữa phân bổ
Màu G có số lượng lớn nhất, có 11292 viên kim cương có màu G
Viên kim cương có màu tốt nhất (D) có số lượng tương đối nhiều, bao gồm 6775 viên
Màu J là màu tệ nhất cũng có số lượng ít nhất là 2808 viên
Nhóm màu kim cương D, E, F có số lượng nhiều hơn nhóm màu sau G
a %>% ggplot(aes(x = color)) +
geom_bar(fill ='brown') +
labs(x = 'Độ tinh khiết', y = 'Số lượng', title = 'Hình 1.1: Biểu đồ thể hiện số lượng từng viên kim cương theo độ tinh khiêt')a %>% group_by(color) %>% summarise(n = n()) %>%
ggplot(aes(color,n)) +
geom_col(fill='brown') +
geom_text(aes(label = n),vjust = 2, color = 'white') +
labs(x = 'Màu', y = 'Số lượng', title = 'Hình 2.2: Tần số xuất hiện từng màu của kim cương')Số lượng các viên kim cương tăng dần từ trái sang phải theo chất lượng của nó. Kim cương loại Ideal rất phổ biến. Nnhà sản xuất có thể kiểm soát vết cắt của viên kim cương, từ đó có thể sản xuất ra viên kim cương đạt chất lượng cao
Kim cương loại Ideal có số lượng lớn nhất 21551 viên
Bên cạnh đó, viên kim cương loại Fair lại tương đối hiếm 1610 viên
Các loại còn lại lần lượt là 4906, 12082, 13791. Ba loại này có số lương gần như giống nhau
# Biểu đồ thể hiện tần số của từng viên kim cương
a %>% group_by(cut) %>% summarise(n = n()) %>% # nhóm du
ggplot(aes(cut,n)) +
geom_col(fill='yellow') +
geom_text(aes(label = n),vjust = 1, color = 'black') +
labs(x = 'Loại', y = 'Số lượng', title = 'Hình 3.1: Số lượng của từng loại kim cương')# Biểu đồ thể hiện tần số của mỗi loại bằng mỗi màu sắc khác nhau quy định theo cut
a %>% ggplot(aes(x = cut, fill = cut)) +
geom_bar() + # thêm lớp geom_histogram: biểu đồ phân phối với binwith: độ rộng của mỗi cột là 500
labs(title = 'Hình 3.2: Tần số của từng loại kim cương')# tạo dữ liệu mới từ clarity, phân tổ clarity theo 5 nhóm của độ tinh khiết
a <- a %>% mutate(clarityC = case_when(
clarity == "IF" ~ 1, clarity == "VVS1" | clarity == "VVS2" ~ 2,
clarity == "VS1" | clarity == "VS2" ~ 3, clarity == "SI1" | clarity == "SI2" ~ 4,
clarity == "I1" ~ 5))
# mã hóa dữ liệu 5 nhóm clarity
a <- mutate(a, clarityC = cut(clarityC, 5, label = c('hoàn hảo', 'gần trong suốt','Rất ít tạp chất','ít tạp chất','nhiều tạp chất')))
# tạo biểu đồ bar chart
a %>% group_by(clarityC) %>% summarise(n=n()) %>%
ggplot(aes(clarityC, n)) +
geom_col(fill = 'skyblue') +
geom_text(aes(label = n), vjust = 0, color = 'black') +
xlab('Độ tinh khiết') +
ylab('Số lượng') +
labs(title = 'Hình 3: Độ tinh khiết của kim cương')Số lượng kim cương theo độ trong suốt thường thể hiện mức độ hiếm có của chúng:
Kim cương thuộc nhóm ít tạp chất (SI) có số lượng lớn, mặc dù có một ít khuyết điểm nhưng vẫn có thể đẹp và có giá trị. Nên thị trường ưa thích những viên kim cương có độ tinh khiết SI trở lên
Nhóm kim cương có nhiều tạp chất (I) có số lượng khá hiếm nhưng vì chúng có nhiều lỗi nên giá trên thị trường không cao
a <- a %>% mutate(colorC = case_when(
color == "D" | color == "E" | color == "F" ~ 1,
color == "G" | color == "H" | color == "I" | color == "J" ~ 2))
a <- mutate(a, colorC = cut(colorC, 2, label = c('không màu', 'gần như không màu')))
a %>% group_by(colorC) %>% summarise(n=n()) %>%
ggplot(aes(colorC, n)) +
geom_col(fill = 'violet') +
geom_text(aes(label = n), vjust = 0, color = 'black') +
xlab('Màu') +
ylab('Số lượng') +
labs(title = 'Hình 3: Màu sắc của kim cương')Qua hình và nhìn vào số liệu, ta nhận thấy:
-Nhóm màu G, H, I, J: Kim cương gần như không màu, chiếm một phần lớn trong nguồn cung kim cương.
a$depthC <- case_when(a$depth < 59 ~ 'quá thấp',
a$depth >= 59 & a$depth < 62 ~ 'lý tưởng',
a$depth >= 62 ~ 'quá cao')
a %>% group_by(depthC) %>% summarise(n=n()) %>%
ggplot(aes(depthC, n)) +
geom_col(fill = 'violet') +
geom_text(aes(label = n), vjust = 0, color = 'black') +
xlab('Độ sâu') +
ylab('Số lượng') +
labs(title = 'Hình 3: Số lượng của kim cương theo độ sâu')Độ sâu của viên kim cương được phân loại thành 3 nhóm để đánh giá chất lượng và hiệu suất quang học của viên kim cương
Độ sâu thuộc nhóm lý tưởng (59-62) có số lượng lớn nhất, những viên kim cương thuộc loại này có sự rực rỡ và lấp lánh ấn tượng. Chính vì thế nhóm độ sâu này ưu việt
Độ sâu các viên kim cương có độ sâu quá thấp có số lượng ít nhất 1887 viên, những viên kim cương này có thể xuất hiện rộng và thiếu sự rực rỡ. Ánh sáng có thể thoát ra khỏi mặt dưới của viên kim cương, làm mất đi một số lượng lớn ánh sáng.
a$tableC <- case_when(a$table >= 60 ~ 'lớn',
a$table >= 54 & a$table < 60 ~ 'trung bình',
a$table < 54 ~ 'nhỏ')
a %>% group_by(tableC) %>% summarise(n=n()) %>%
ggplot(aes(tableC, n)) +
geom_col(fill = 'pink') +
geom_text(aes(label = n), vjust = 0, color = 'black') +
xlab('Rộng') +
ylab('Số lượng') +
labs(title = 'Hình 3: Số lượng của kim cương theo chiều rộng')Table là một trong những yếu tố quan trọng ảnh hưởng đến vẻ đẹp và hiệu suất của viên kim cương. Phân loại table thường được thực hiện dựa trên tỷ lệ chiều rộng so với đường kính của viên kim cương.
Table trung bình thường tạo ra sự cân bằng giữa việc giữ ánh sáng và tạo ra hiệu suất quang học tốt. Đây là lựa chọn phổ biến vì kết hợp giữa rực rỡ và mở rộng. Loại này được ưa chuộng nhiều, phổ biến nên có số lượng lớn 44075 viên
Table nhỏ có thể tạo ra ánh sáng chói lọi và lấp lánh mạnh mẽ. Tuy nhiên, dễ gặp tình trạng “dark center” khi table quá nhỏ. Chính vì vậy, loại này khá hiếm 778 viên
a %>% ggplot(aes(x = price)) +
geom_histogram(binwidth = 500, fill = 'blue') + # thêm lớp geom_histogram: biểu đồ phân phối với binwith: độ rộng của mỗi cột là 500
labs(title = 'Hình 4: Phân phối giá kim cương')Biểu đồ Histogram phân phối giá kim cương: Phân bổ giá bị lệch phải, nghĩa là hầu hết kim cương trong tập dữ liệu đều ở mức giá thấp hơn, với một số viên kim cương có giá cao hơn đáng kể, có tỷ lệ các mặt hàng chất lượng cao có giá cao hơn nhiều
a %>% ggplot(aes(x = carat)) +
geom_histogram(binwidth = 0.05, fill ='orange') +
labs(title = 'Hình 5: Phân bổ trọng lượng của viên kim cương')Biểu đồ Histogram phân bổ trọng lượng : Sự phân bố trọng lượng carat cũng bị lệch phải, cho thấy hầu hết các viên kim cương trong tập dữ liệu đều có kích thước nhỏ hơn, với ít viên kim cương lớn hơn, tức là nơi những viên kim cương lớn hơn thì hiếm hơn và do đó đắt hơn.
Kim cương được định giá dựa vào 4C, bao gồm: carat (trọng lượng), cut (loại), color (màu) và clarity (độ tinh khiết)
Để phân tích sự ảnh hưởng, xét mức giá trung bình trong từng danh mục của các biến này. Việc phân tích các biến cut, color, clarity trả về kết quả như sau:
Giá trung bình theo cut ( Hình ) : Việc cắt một viên kim cương dường như ảnh hưởng đến giá trung bình của nó. Những miếng cắt ‘Premium’ và có xu hướng có giá trung bình cao hơn, điều này cho thấy những miếng cắt có chất lượng tốt hơn sẽ được đánh giá cao hơn trên thị trường.
Giá trung bình theo màu : Màu sắc của kim cương cho thấy xu hướng trong đó những viên kim cương có màu được xếp hạng gần D (chất lượng cao nhất) có xu hướng có giá trung bình cao hơn. Điều này cho thấy màu sắc là một yếu tố quan trọng trong việc định giá kim cương.
Giá trung bình theo clarity : Độ tinh khiết của một viên kim cương dường như ảnh hưởng đến giá trung bình của nó. Những viên kim cương có độ tinh khiết càng cao thì kim cương càng hiếm và tất nhiên càng mắc. Điều này cho thấy thị trường ưa thích những viên kim cương trong hơn.
# clarity và price
a %>% group_by(clarity) %>% summarise(m= mean(price)) %>%
ggplot(aes(x = clarity,y = m)) +
geom_col(fill = 'green') +
labs(title = 'Hình 6.1: Giá trung bình theo biến clarity')# Phân phối giá cả theo clarity
a %>% ggplot(aes(x = price, fill = clarity)) +
geom_histogram(binwidth = 500)Những viên kim cương có độ tinh khiết IF tương đối hiếm, nên giá của chúng là cao nhất
Ngược lại, những viên kim cương có độ trong kém nhất I1, giá của nó cũng thấp nhất so với các loại kim cương khác
a %>% group_by(color) %>% summarise(m= mean(price)) %>%
ggplot(aes(x = color,y = m)) +
geom_col(fill = 'green') +
labs(title = 'Hình 6.2: Giá trung bình theo biến color')Viên kim cương có màu D là màu chất lượng nhất, giá của chúng cũng cao nhất
Viên kim cương màu J, màu tệ nhất thì giá của chúng cũng tương đối thấp
a %>% group_by(cut) %>% summarise(m = mean(price)) %>%
ggplot(aes(x = cut,y = m)) +
geom_col(fill ='green') +
geom_text(aes(label = round(m,2)), vjust = 2) +
labs(title = 'Hình 6.3: Giá trung bình theo cut')Những viên kim cương có chất lượng Premium có giá trung bình cao nhất. Thị trường ưa thích kim cương có chất lượng cao nên đẩy giá của kim cương lên cao
Ngược lại, kim cương loại Ideal có giá trung bình khá thấp mặc dù loại này có số lượng nhiều nhất.
Để phân tích sự ảnh hưởng này, xét trọng lượng trung bình của viên kim cương. Tiến hành phân tích dựa theo cut, color, clarity, thu được kết quả như sau:
Vì trọng lượng của viên kim cương có thể kiểm soát được. Các nhà sản xuất có thể quyết định được trọng lượng cho từng viên kim cương, mang lại giá trị cao nhất cho viên kim cương
cut là tiêu chí hàng đầu quyết định việc lựa chọn kim cương. Một viên kim cương có trọng lượng 2 carat có thể cũng bị xỉn màu khi không được cắt thật tốt
Một viên kim cương có chất lượng cut càng tốt, trọng lượng càng lớn thì giá càng mắc:
Thị trường ưa thích những viên kim cương có chất lượng cut tốt : Ideal, Premium để giữ nguyên vẻ đẹp của kim cương
Những viên kim cương có chất lượng cut kém: Fair có trọng lượng trung bình lớn, có giá trị lớn hơn các viên có trọng lượng thấp hơn. Thị trường tương đối ưa chuộng vì viên kim cương càng lớn giá trị càng cao
a %>% group_by(cut) %>% summarise(m= mean(carat)) %>%
ggplot(aes(x = cut,y = m)) +
geom_col(fill ='purple', position = 'dodge') +
geom_text(aes(label = round(m,2)), vjust = 2) +
labs(x = 'Loại', y = 'Mean', title = 'Hình 7.1: Trọng lượng trung bình theo cut')Những viên kim cương loại Fair có trọng lượng trung bình lớn nhất: 1,05. Những viên kim cương kém có trọng lượng lớn thì sẽ có giá trị hơn
Những viên kim cương loại Ideal có trọng lượng trung bình nhỏ nhất: 0,7. Những viên kim cương loại này cực kì hiếm
Những viên kim cương có độ trong càng tốt, trọng lượng trung bình của viên kim cương nên dao động từ 0,5 - 1 carat
Những viên kim cương có trọng lượng trung bình lớn, độ trong kém có xu hướng làm giảm giá trị của viên kim cương vì độ lấp lánh của kim cương kém
a %>% group_by(clarity) %>% summarise(m= mean(carat)) %>%
ggplot(aes(x = clarity,y = m)) +
geom_col(fill ='purple', position = 'dodge') +
geom_text(aes(label = round(m,2)), vjust = 2) +
labs(x ='Loại', y = 'mean', title = 'Hình 7.2: Trọng lượng trung bình theo clarity')Những viên kim cương có trọng lượng trung bình lớn nhất có độ tinh khiết kém nhất I1 là 1,28 carat
Những viên kim cương có trọng lượng trung bình nhỏ nhất có độ tinh khiết VVS1 là 0,5 carat
Những viên kim cương có chất lượng càng tốt thường có độ tinh khiết càng cao. Độ tinh khiết càng thấp, số lượng viên kim cương theo clarity càng hiếm và ngược lại
Viên kim cương có chất lượng Fair là có số lượng lớn nhất ( số lượng dưới 500) thuộc SI2 và hiếm ở độ tinh khiết VVS1
Viên kim cương loại Good có số lượng lớn nhất ( dao động từ 1500 - 2000) thuộc độ tinh khiết SI1 và ít ở I1
Viên kim cương loại Very Good có số lượng lớn nhất (3000 -3500) có độ tinh khiết SI1 và tương đối ít đối với I1
Loại Premium có số lượng lớn nhất (3500 - 4000) có độ tinh khiết SI1 và ít ở I1
Loại Ideal có số lượng lớn nhất ( lớn hơn 5000) có độ tinh khiết VS2 và ít ở I1
a %>% group_by(clarity, cut) %>%
ggplot(aes(x = clarity, group = cut, fill = cut)) +
geom_bar(position = "dodge") +
labs(title = 'Hình 8: Tần số của từng loại kim cương theo clarity')a %>%
ggplot(aes(x = clarity, fill = cut)) +
geom_bar() +
labs(title = 'Hình 8.1: Tần số thể hiện bằng dòng số của kim cương theo clarity') +
coord_flip()a %>% group_by(cut,clarity) %>% summarise(n=n()) %>%
ggplot(aes(x = cut,y = n)) +
geom_col(position = 'dodge') +
facet_wrap(~clarity) +
geom_text(aes(label = n),vjust = 1, color = 'white') +
labs(x = 'Loại', y = 'Số lượng', title = 'Hình 8.2: Tần số cho từng độ tinh khiết khác nhau theo cut')Những viên kim cương có xu hướng hướng về màu D, viên kim cương có màu càng gần D, giá trị càng cào cao. Càng ra xa D, số lượng màu tốt càng ít
Viên kim cương có chất lượng Fair màu F là có số lượng lớn nhất ( số lượng dưới 500) và số lượng ít đối với viên Fair màu J
Viên kim cương loại Good màu E có số lượng lớn nhất ( dao động từ 1500 - 2000) và những viên cùng loại màu J có số lượng ít nhất
Viên kim cương loại Very Good màu E có số lượng lớn nhất (3000 -3500) và tương đối ít đối với màu J
Loại Premium màu G có số lượng lớn nhất (3500 - 4000) và ít đối với màu J
Loại Ideal màu G có số lượng lớn nhất ( lớn hơn 5000) và ít đối với màu J
a %>% group_by(color, cut) %>%
ggplot(aes(x = color, group = cut, fill = cut)) +
geom_bar(position = "dodge") +
labs(title = 'Hình 9: Tần số của từng loại kim cương theo color')a %>%
ggplot(aes(x = color, fill = cut)) +
geom_bar() +
labs(title = 'Hình 9.1: Tần số thể hiện bằng dòng số của kim cương theo color') +
coord_flip()Sự tác động giữa color và cut còn được thể hiện qua các biểu đồ: Hình 10 thể hiện 7 biểu đồ tần số tương ứng với 7 biểu hiện khác nhau của color theo biến cut
a %>% group_by(cut,color) %>% summarise(n=n()) %>%
ggplot(aes(x = cut,y = n)) +
geom_col(position = 'dodge') +
facet_wrap(~color) +
geom_text(aes(label = n),vjust = 1, color = 'white') +
labs(x = 'Loại', y = 'Số lượng', title = 'Hình 9.2: Tần số cho từng màu theo cut')Giá cả phụ thuộc vào clarity và cut:
Một kim cương có độ trong suốt cao nhưng cut kém vẫn có thể không đáng giá nhiều, chẳng hạn loại IF-Fair có giá trung bình thấp nhất (nhỏ hơn 2000)
Ngược lại, một kim cương có cut tốt nhưng độ trong suốt thấp có thể không đạt được giá trị cao nhất, chẳng hạn loại Ideal-I1 có giá trung bình thấp hơn so với loại Ideal-SI2.
Sự cân nhắc giữa clarity và cut là quan trọng để chọn lựa kim cương phù hợp với nhu cầu và ngân sách của mỗi người tiêu dùng.
a %>% group_by(clarity,cut) %>% summarise(m = mean(price)) %>%
ggplot(aes(x = clarity, y = m, group = cut, color = cut, fill = cut)) +
geom_col(position = "dodge") +
labs(title = 'Hình 10.1: Biểu đồ cột ghép thể hiện giá trung bình')a %>% group_by(clarity,cut) %>% summarise(m = mean(price)) %>%
ggplot(aes(x = clarity, y = m, group = cut, color = cut, fill = cut)) +
geom_col(position = "fill") +
labs(title = 'Hình 10.2: Biểu đồ miền thể hiện giá trung bình')a %>% group_by(clarity,cut) %>% summarise(m = mean(price)) %>%
ggplot(aes(x = clarity, y = m, group = cut, color = cut, fill = cut)) +
geom_col(position = "stack") +
labs(title = 'Hình 10.3: Biểu đồ cột chồng thể hiện giá trung bình')Tương tự như phân tích giá kim cương dựa trên clarity và cut, sự cân nhắc giữa color và cut là quan trọng.
Khi mua kim cương, việc hiểu rõ và cân nhắc đúng đắn giữa các yếu tố này sẽ giúp bạn chọn được một viên kim cương có giá trị và đẹp mắt theo đúng mong muốn, phù hợp với ngân sách của chính mình.
a %>% group_by(color,cut) %>% summarise(m = mean(price)) %>%
ggplot(aes(x = color, y = m, group = cut, color = cut, fill = cut)) +
geom_col(position = "dodge") +
labs(title = 'Hình 11.1: Biểu đồ cột ghép thể hiện giá trung bình')a %>% group_by(color,cut) %>% summarise(m = mean(price)) %>%
ggplot(aes(x = color, y = m, group = cut, color = cut, fill = cut)) +
geom_col(position = "stack") +
labs(title = 'Hình 11.2: Biểu đồ cột chồng thể hiện giá trung bình')a %>% group_by(color,cut) %>% summarise(m = mean(price)) %>%
ggplot(aes(x = color, y = m, group = cut, color = cut, fill = cut)) +
geom_col(position = "fill") +
labs(title = 'Hình 11.3: Biểu đồ miền thể hiện giá trung bình')Bộ dữ liệu kim cương đã mô tả một loạt các thuộc tính khác nhau, bao gồm cut, color, clarity và trọng lượng carat. Điều này cho thấy sự đa dạng trong các yếu tố quyết định giá trị của kim cương.
Những số liệu và biểu đồ đã bật mí về những yếu tố quan trọng ảnh hưởng đến giá trị của kim cương, từ các thuộc tính cơ bản như cut, color và clarity đối với từng hình dáng cắt, chúng có mối tương quan và ảnh hưởng đến giá trị cuối cùng của kim cương. Ví dụ, kim cương có cắt tốt, màu sắc trong và đánh bóng hoàn hảo thường có giá cao.
Trọng lượng carat có ảnh hưởng lớn đến giá trị của kim cương. Tuy nhiên, không phải lúc nào kim cương lớn cũng đắt đỏ, mà còn phụ thuộc vào các yếu tố khác như cut.
Phần lớn kim cương trong tập dữ liệu rơi vào khoảng giá từ thấp đến trung bình và có trọng lượng carat nhỏ hơn. Điều này chỉ ra rằng mặc dù có những viên kim cương lớn, có giá trị cao nhưng chúng ít phổ biến hơn.
Dựa vào những phân tích trên, có thể ứng dụng vào thực tế để mang lại hiệu quả cao nhất:
Dành cho người mua: Nếu có ngân sách tiết kiệm, hãy xem xét những viên kim cương có đường cắt đẹp nhưng cấp độ màu sắc và độ trong thấp hơn, vì những yếu tố này ảnh hưởng đáng kể đến giá cả. Những viên kim cương carat nhỏ hơn mang lại giá trị tốt hơn so với số tiền bỏ ra.
Dành cho Người bán/Thương nhân : Tập trung vào các cut, màu sắc và độ trong chất lượng cao có thể mang lại lợi nhuận cao hơn vì những thứ này được đánh giá cao trên thị trường. Tuy nhiên, điều quan trọng là phải cân bằng điều này với giá thành ngày càng tăng của những viên kim cương chất lượng cao như vậy.
Quản lý hàng tồn kho dành cho nhà bán lẻ : Tích trữ nhiều kim cương hơn ở mức giá từ thấp đến trung bình và cỡ carat, vì chúng phổ biến hơn và có khả năng luân chuyển thường xuyên hơn. Những viên kim cương có giá trị cao nên được dự trữ ít hơn do giá cao hơn và tần suất mua thấp hơn.
Chiến lược tiếp thị : Nhấn mạnh vào chất lượng cut, màu sắc và độ trong trong các chiến dịch tiếp thị, vì những yếu tố này ảnh hưởng đáng kể đến sự hấp dẫn và giá trị của viên kim cương.