Nhiệm vụ yêu cầu vẽ ít nhất 30 đồ thị dạng Bar chart
Bộ dữ liệu tiến hành thực hiện : Bộ dữ liệu diamonds trong package ggplot2
Bộ dữ liệu diamonds là một trong số các bộ dữ liệu của package ggplot2
Ta gán bộ dữ liệu gốc diamonds với tên là KC (viết tắt của Kim Cương)
Giới thiệu sơ về package ggplot2 :
ggplot2 là một package hỗ trợ visualization, ta có thể vẽ được các đồ thị dạng bar chart, density, pie,…
ggplot2 còn cho phép tùy chỉnh màu sắc, kích cỡ, theme, … để đồ thị được đẹp hơn
Cấu trúc của ggplot2 được chia làm 2 phần :
ggplot(): Phần này quy định đồ thị sẽ sử dụng Data nào (Data phải có dạng data.frame)
geom_(aes(x,y)) : Phần này quy định kiểu đồ thị và Các trục tọa độ từ dữ liệu
Nếu chỉ có ggplot() mà không thêm geom_() : thì chỉ nhận được Background mà không có đồ thị
Trong geom_() phải khai báo thêm trục tọa độ vào các arguments x và y của aes()
library(ggplot2)
data(package = 'ggplot2')
KC <- diamonds
Từ tên của bộ dữ liệu là diamonds, cũng đủ cho thấy dữ liệu bên trong cung cấp nội dung và thông số về Kim Cương
Bộ dữ liệu KC bao gồm : 53,940 quan sát và 10 biến
Mỗi quan sát (mỗi hàng) đại diện cho một viên kim cương khác nhau và có tổng 53,940 viên kim cương
Mỗi viên kim cương đó đều có các thông số khác nhau về màu sắc, kích thước,… và có tổng 10 đặc tính
dim(KC)
## [1] 53940 10
Với 10 biến tương ứng, mỗi biến cung cấp các đặc tính/ tính chất của kim cương, bao gồm như sau :
1. Carat - Trọng lượng : Đơn vị dùng để đo khối lượng của đá quý nói chung (1 carat = 200 milligram = 0,2 gram)
2. Cut - Giác cắt : Quá trình chế tác viên kim cương từ dạng thô thành hoàn thiện và có nhiều kiểu Giác cắt khác nhau
3. Color - Màu sắc : Màu sắc của viên kim cương
4. Clarity - Độ trong/ Độ tinh khiết : Đánh giá dựa vào số lượng các vết trầy xước, màu sắc vết gãy,…khi nhìn dưới kính lúp 10x
5. Depth - Độ sâu : Thuật ngữ thể hiện độ sâu của viên kim cương so với đường kính của nó (tính bằng %)
6. Table - Bề mặt : Mỗi viên kim cương đều có một bề mặt phẳng ở trên đỉnh, đó chính là Diamond Table (tính bằng %)
7. Price - Giá thành : Dựa trên các đặc tính đã nêu trên, tất cả sẽ quyết định giá trị của một viên kiêm cương là bao nhiêu
8.9.10. Gía trị x - y - z : Lần lượt là Chiều dài - Chiều rộng - Độ sâu (tính bằng mm) của viên kim cương
str(KC)
## tibble [53,940 × 10] (S3: tbl_df/tbl/data.frame)
## $ carat : num [1:53940] 0.23 0.21 0.23 0.29 0.31 0.24 0.24 0.26 0.22 0.23 ...
## $ cut : Ord.factor w/ 5 levels "Fair"<"Good"<..: 5 4 2 4 2 3 3 3 1 3 ...
## $ color : Ord.factor w/ 7 levels "D"<"E"<"F"<"G"<..: 2 2 2 6 7 7 6 5 2 5 ...
## $ clarity: Ord.factor w/ 8 levels "I1"<"SI2"<"SI1"<..: 2 3 5 4 2 6 7 3 4 5 ...
## $ depth : num [1:53940] 61.5 59.8 56.9 62.4 63.3 62.8 62.3 61.9 65.1 59.4 ...
## $ table : num [1:53940] 55 61 65 58 58 57 57 55 61 61 ...
## $ price : int [1:53940] 326 326 327 334 335 336 336 337 337 338 ...
## $ x : num [1:53940] 3.95 3.89 4.05 4.2 4.34 3.94 3.95 4.07 3.87 4 ...
## $ y : num [1:53940] 3.98 3.84 4.07 4.23 4.35 3.96 3.98 4.11 3.78 4.05 ...
## $ z : num [1:53940] 2.43 2.31 2.31 2.63 2.75 2.48 2.47 2.53 2.49 2.39 ...
Ngoài ra còn có các thông tin khác :
library(skimr)
skim(KC)
Name | KC |
Number of rows | 53940 |
Number of columns | 10 |
_______________________ | |
Column type frequency: | |
factor | 3 |
numeric | 7 |
________________________ | |
Group variables | None |
Variable type: factor
skim_variable | n_missing | complete_rate | ordered | n_unique | top_counts |
---|---|---|---|---|---|
cut | 0 | 1 | TRUE | 5 | Ide: 21551, Pre: 13791, Ver: 12082, Goo: 4906 |
color | 0 | 1 | TRUE | 7 | G: 11292, E: 9797, F: 9542, H: 8304 |
clarity | 0 | 1 | TRUE | 8 | SI1: 13065, VS2: 12258, SI2: 9194, VS1: 8171 |
Variable type: numeric
skim_variable | n_missing | complete_rate | mean | sd | p0 | p25 | p50 | p75 | p100 | hist |
---|---|---|---|---|---|---|---|---|---|---|
carat | 0 | 1 | 0.80 | 0.47 | 0.2 | 0.40 | 0.70 | 1.04 | 5.01 | ▇▂▁▁▁ |
depth | 0 | 1 | 61.75 | 1.43 | 43.0 | 61.00 | 61.80 | 62.50 | 79.00 | ▁▁▇▁▁ |
table | 0 | 1 | 57.46 | 2.23 | 43.0 | 56.00 | 57.00 | 59.00 | 95.00 | ▁▇▁▁▁ |
price | 0 | 1 | 3932.80 | 3989.44 | 326.0 | 950.00 | 2401.00 | 5324.25 | 18823.00 | ▇▂▁▁▁ |
x | 0 | 1 | 5.73 | 1.12 | 0.0 | 4.71 | 5.70 | 6.54 | 10.74 | ▁▁▇▃▁ |
y | 0 | 1 | 5.73 | 1.14 | 0.0 | 4.72 | 5.71 | 6.54 | 58.90 | ▇▁▁▁▁ |
z | 0 | 1 | 3.54 | 0.71 | 0.0 | 2.91 | 3.53 | 4.04 | 31.80 | ▇▁▁▁▁ |
Để đánh giá chất lượng cũng như giá thành một viên kim cương, các chuyên gia thường dựa trên 4 tiêu chí - gọi là tiêu chí 4C
GIA đã tạo ra tiêu chuẩn này đầu tiên và hiện được chấp nhận trên toàn cầu
Tiêu chuẩn 4C gồm : Màu sắc Color - Độ trong Clarity - Giác cắt Cut - Trọng lượng Carat
Ta sẽ tiến hành phân tích và nhận xét từng đặc tính có trong bộ dữ liệu Diamonds
Trọng lượng carat của viên kim cương được xác định bằng cách cân viên kim cương trên cân điện tử một cách chính xác
Trọng lượng carat thường được giữ 2 số thập phân cuối cùng (vd : 1.53, 1.00,…)
Trọng lượng chính xác là rất quan trọng, ảnh hưởng trực tiếp đến việc định giá
Đầu tiên, ta sẽ tiến hành tóm tắt về trọng lượng của chúng bằng cách : Ta tiến hành cut hay gọi là chia 53,940 viên kim cương thành 5 nhóm theo trọng lượng carat như sau :
table(cut(KC$carat,5))
##
## (0.195,1.16] (1.16,2.12] (2.12,3.09] (3.09,4.05] (4.05,5.01]
## 43781 9478 667 11 3
KC$carat.c<- cut(KC$carat,5, labels = c('Rất nhẹ','Nhẹ','Vừa','Nặng','Rất nặng'))
table(KC$carat.c)
##
## Rất nhẹ Nhẹ Vừa Nặng Rất nặng
## 43781 9478 667 11 3
Ta sẽ thấy được tổng quan rằng trong mỗi khoảng trọng lượng carat đó có bao nhiêu viên kim cương
Bên cạnh đó, ta cũng đưa ra nhận xét trước tiên là các viên kim cương có trọng lượng càng cao thì càng ít dần
5 nhóm được chia ra như sau :
Nhóm Rất nhẹ - có trọng lượng carat từ 0.19 đến 1.16, tổng 43,781 viên
Nhóm Nhẹ - có trọng lượng carat từ 1.16 đến 2.12, tổng 9,478 viên
Nhóm Vừa - có trọng lượng carat từ 2.12 đến 3.09, tổng 667 viên
Nhóm Nặng - có trọng lượng carat từ 3.09 đến 4.05, tổng 11 viên
Nhóm Rất nặng - có trọng lượng carat từ 4.05 đến 5.01, tổng 3 viên
Sau đó, ta tiến hành vẽ biểu đồ để thấy rõ hơn được sự khác biệt của mỗi nhóm trọng lượng carat
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
KC <- diamonds
KC1 <- KC %>% mutate(TLCarat = cut(carat,5, label = c('Rất nhẹ', 'Nhẹ','Vừa','Nặng','Rất nặng')))
KC1 %>% group_by(TLCarat) %>% summarise(n = n()) %>%
ggplot(aes(TLCarat,n)) +
geom_col(fill='blue') +
labs(title = " Biểu đồ thể hiện nhóm theo Carat ") +
geom_text(aes(label = n),vjust = 0, color = 'black') +
labs(x = 'Trọng Lượng', y = 'Số lượng')
Trước tiên ta thấy lượng phân bổ của các viên kim cương theo các nhóm trọng lượng là không đồng đều
Cột Rất nhẹ chiếm số lượng nhiều nhất/ áp đảo nhất trong 5 cột
Với tổng là 43,781 viên trên tổng 53,940 viên kim cương, và các viên kim cương này có trọng lượng từ 0.195 đến 1.16
Điều này cho thấy các viên kim cương có trọng lượng rất nhẹ là chiếm đại đa số và dễ tìm thấy hơn
Kế tiếp là 2 cột Nhẹ và cột Vừa với số kim cương lần lượt là 9,478 và 667
Kim cương có trọng lượng Nhẹ và Vừa thì ít hơn hẳn so với Rất nhẹ
Số lượng kim cương Rất nhẹ gấp hơn 4 lần so với Rất nhẹ, và gấp 65 lần so với Vừa
Từ đó càng cho thấy sự đại trà của số lượng kim cương trọng lượng Rất nhẹ, cũng như sự ít của trọng lượng Nhẹ và Vừa
Kim cương ở cột Nặng chỉ có 11 viên và cột Rất nặng ở mức cực hiếm chỉ có 3 viên
Các viên kim cương ở 2 cột này có trọng lượng carat trên 3,09 carat, có thể xếp vào mục cực hiếm và khó tìm thấy
Nếu so cột Rất nhẹ và Rất nặng với nhau thì cột Rất nhẹ gấp hơn 14,000 lần
Bên cạnh đó, ta có thể chuyển cụ thể số lượng như trên thành % so với tổng số, để dễ dàng nhận xét hơn nữa
library(scales)
KC1 <- KC %>% mutate(TLCarat = cut(carat,5, label = c('Rất nhẹ', 'Nhẹ','Vừa','Nặng','Rất nặng')))
KC1 %>% group_by(TLCarat) %>% summarise(n = n()) %>%
ggplot(aes(TLCarat,n)) +
geom_col(fill='blue') +
labs(title = " Biểu đồ thể hiện % thang đo Carat ") +
theme_classic() +
geom_text(aes(label = percent(n/length(KC$carat))),vjust = 0, color = 'black') +
labs(x = 'Trọng Lượng', y = 'Số lượng')
Vẫn tương tự như nhận xét phía trên, cột Rất nhẹ với hơn 40,000 viên - chiếm tới hơn 80% trên 100%
Cột Nhẹ đứng thứ 2, sau cột Rất nhẹ với **hơn 17%* - khoảng cách với cột đứng nhất là hơn 60%
3 cột Vừa - Nặng - Rất nặng với phần trăm rất nhỏ, thậm chí là có thể xếp vào mục cực cực hiếm - lần lượt là 1.2% - 0,02% - 0,006%
Khi dựa vào phần trăm, ta càng thấy rõ hơn độ đại trà cũng như độ hiếm của từng mức trọng lượng carat của các viên kim cương
Những viên kim cương có trọng lượng càng cao thì càng hiếm thấy, và với trọng lượng nhẹ thì ngược lại
Nhưng chỉ mỗi trọng lượng carat thôi thì chưa đủ chuẩn xác để đánh giá hết một viên kim cương, ta tiến hành xét tiếp đến tiêu chí thứ hai
Giác cắt hay còn gọi là vết cắt của viên kim cương, được xem là độ chính xác về góc độ và tỉ lệ cắt xén của kim cương, khi đánh giá thì từng mặt được kiểm tra chi tiết và đo lường cụ thể
Đây được xem là yếu tố quan trọng nhất trong tiêu chí 4C
Vì nó có thể ảnh hưởng đến vẻ đẹp và độ lấp lánh bên ngoài của viên kim cương
2 yếu tố Diamond Table và Diamond Depth cũng bao gồm trong phần Giác cắt này
Thang đo giác cắt Kim cương bao gồm :
Giác cắt Ideal - Lý tưởng
Giác cắt Premium/ Excellent - Tuyệt hảo
Giác cắt Very Good - Rất tốt
Giác cắt Good - Tốt
Giác cắt Fair - Trung bình
Giác cắt Poor - Kém
Với tiêu chí về Giác cắt, ta thấy chất lượng kim cương được chia ra làm 5 nhóm (không bao gồm thang đo Poor như đã nêu), chỉ bao gồm :
table(KC$cut)
##
## Fair Good Very Good Premium Ideal
## 1610 4906 12082 13791 21551
5 nhóm được chia theo chất lượng giác cắt gồm :
Nhóm Fair - mức trung bình, có tổng 1,610 viên
Nhóm Good - mức tốt, có tổng 4,906 viên
Nhóm Very Good - mức rất tốt, có tổng 12,082 viên
Nhóm Premium - mức tuyệt hảo, có tổng 13,791 viên
Nhóm Ideal - mức lý tưởng, có tổng 21,551 viên
Sau đó, ta tiến hành vẽ biểu đồ để thấy rõ hơn được sự khác biệt của mỗi nhóm
KC %>% group_by(cut) %>% summarise(n = n()) %>%
ggplot(aes(cut,n)) +
geom_col(fill='yellow') +
labs(title = " Biểu đồ thể hiện nhóm theo Cut ") +
geom_text(aes(label = n),vjust = 2, color = 'red') +
labs(x = 'Thang đo Cut', y = 'Số lượng')
Trước tiên ta thấy được mức độ hoàn thiện giác cắt ở các viên kim cương là không đồng đều
Mức ta có thể thấy rõ ràng nhất là mức Ideal - chiếm số lượng nhiều nhất
Với tổng là 21,511 viên trên 53,940 viên kim cương, chiếm gần một nửa so với tổng số
Điều này cho thấy các viên kim cương được chế tác ở mức độ lý tưởng là khá nhiều
Được biết những viên kim cương Ideal Cut là rất hoàn hảo, đã được tính toán cẩn thận đến từng tỉ lệ góc cạnh
Kế tiếp là các 2 mức Premium và mức Very Good, với số kim cương lần lượt là 13,791 và 12,082 viên
Dù ít hơn so với mức lý tưởng, nhưng 2 mức này đều có lượng kim cương chiếm trung bình trên tổng số
Số lượng kim cương mức Ideal gấp hơn 1,5 lần so với mức Premium, và gấp 1,7 lần so với mức Very Good
Mức Premium và Very Good cũng chỉ chênh lệnh nhau khoảng 1,000 viên, cũng không phải là khoảng chênh lệnh quá lớn
Từ đó cho thấy, mức cách biệt của 3 thang đo đầu tiên cũng không quá rõ rệt
Kim cương ở mức Good và Fair lần lượt là 4,906 và 1,610 viên
Các viên kim cương được chế tác ở mức này thì ít hơn hẳn so với các mức ở vị trí đầu
Vì đây là 2 mức được đánh giá thấp nhất trong đánh giá về Giác cắt nên số lượng kim cương cũng ít hơn hẳn
Cũng giống như trọng lượng, ta có thể chuyển cụ thể số lượng thành % so với tổng số, để dễ dàng nhận xét hơn
KC %>% group_by(cut) %>% summarise(n = n()) %>%
ggplot(aes(cut,n)) +
geom_col(fill='yellow') +
labs(title = "Biểu đồ thể hiện % thang đo Cut ") +
theme_classic() +
geom_text(aes(label = percent(n/length(KC$cut))),vjust = 2, color = 'red') +
labs(x = 'Thang đo Cut', y = 'Số lượng')
Vẫn tương tự như nhận xét phía trên, mức lý tưởng - Ideal chiếm 40% trên tổng số
Mặc dù mức lý tưởng chiếm nhiều nhất (gần một nửa), nhưng nó có số liệu không quá áp đảo so với các mức còn lại
Mức Tuyệt hảo Premium và Rất tốt Very Good đứng lần lượt thứ 2 và 3 với 25.6% và 22,4%, mỗi mức cũng bằng hơn một nửa so với mức Ideal
Ở 2 mức cuối cùng là Tốt Good và Trung bình Fair với phần trăm ít nhất lần lượt là 9,1% và 3%, chứng tỏ mức chế tác ở 2 mức này không được ưa chuộng bằng 3 mức còn lại
Khi dựa vào phần trăm, ta càng thấy rõ hơn các mức độ thanh đo về mặt cắt của kim cương
Các viên có tỷ lệ chế tác càng hoàn hảo thì sẽ có giá thành cao và được ưa chuộng hơn
Màu sắc của kim cương (hay còn gọi là Nước kim cương) có rất nhiều và các màu sắc đó được phân loại gọi là Cấp độ màu sắc
Một viên kim cương càng có ít màu sắc thì sẽ phản xạ ánh sáng càng chân thật
Thông thường sẽ nhìn từ phần đáy của kim cương để giám định màu sắc của nó
Cấp độ màu sắc gồm 5 nhóm như sau :
Màu D - E - F : xếp vào loại Không màu (Colorless)
Màu G - H - I - J : xếp vào loại Gần như không màu (Near Colorless)
Màu K - L - M : xếp vào loại Màu rất nhạt (Faint Yellow)
Màu N - O - P - Q - R : xếp vào loại Màu nhạt (Very Light Yellow)
Màu S - T - U - V - W - X - Y - Z : xếp vào loại Màu vàng (Light Yellow)
Mỗi viên kim cương đều có màu sắc riêng biệt, và với bộ dữ liệu diamonds thì sẽ không đầy đủ tất cả các màu đã nêu - chỉ bao gồm khoảng 7 màu như sau :
table(KC$color)
##
## D E F G H I J
## 6775 9797 9542 11292 8304 5422 2808
Ta sẽ thấy rằng có 7 màu sắc tất cả
7 màu có trong bộ dữ liệu gồm D đến J, mỗi màu có số viên kim cương tương ứng như bảng trên
Màu D - E - F là các viên kim cương thuộc cấp không màu
Màu G - H - I - J là các viên kim cương thuộc cấp gần như không màu
KC %>% group_by(color) %>% summarise(n = n()) %>%
ggplot(aes(n,color)) +
geom_col(fill='pink') +
labs(title = " Biểu đồ thể hiện nhóm theo Color ") +
geom_text(aes(label = n),vjust = 1, color = 'black') +
labs(x = 'Số lượng', y = 'Các màu sắc')
Nhìn tổng quan ta thấy được cả 7 màu sắc đều có số lượng kim cương không quá ít cũng không quá nhiều
Nổi bật nhất là màu G chiếm số lượng nhiều nhất, với 11,292 viên trên tổng số
Ngược lại màu J có số lượng ít nhất, với 2,808 viên
Các màu E, F, H lần lượt đứng thứ 2,3,4 sau màu G, với số lượng từng loại cũng gần như ngang bằng nhau
Như màu E và F chỉ cách nhau hơn 200 viên, số lượng cũng không đáng kể
Và màu F và H các nhau khoảng hơn 1000 viên
2 màu sắc ít hơn nữa là D và I , với số lượng lần lượt là 6,775 và 5,422
Dựa vào số lượng trên, ta thấy các màu sắc thuộc nhóm gần như không màu (G,H,I,J) chiếm lượng nhiều hơn so với nhóm không màu (D,E,F)
Cũng giống như 2 tiêu chí đã nói trên, ta chuyển số lượng cụ thể thành % so với tổng số, để dễ dàng nhận xét hơn
KC %>% group_by(color) %>% summarise(n = n()) %>%
ggplot(aes(n,color)) +
geom_col(fill='pink') +
labs(title = "Biểu đồ thể hiện % thang đo Color ") +
theme_classic() +
geom_text(aes(label = percent(n/length(KC$color))),vjust = 1, color = 'black') +
labs(x = 'Số lượng', y = 'Các màu sắc')
Với phần trăm là 20,93% - Màu sắc G có tỷ lệ số viên kim cương nhiều nhất trên tổng số
Các tỷ lệ đứng thứ 2,3,4 lần lượt là màu E - 18,16%, màu F = 17,69%, màu H = 15,39%
Tỷ lệ của 3 màu này cách màu G đứng đầu khoảng 2-5%, cũng không phải là con số đáng kể
Từ đó ta thấy được, không có màu sắc nào là có số lượng cao hơn hẳn/ rõ rệt hơn các màu còn lại
Màu D và I đứng gần áp bảng với tỷ lệ khiêm tốn hơn : 12,56% và 10,05%
Cuối cùng màu có tỷ lệ ít nhất trong biểu đồ là màu J - chỉ với 5,21%
Khoảng cách của màu nhiều và ít nhất là khoảng 15%
Vậy ta cũng có thể nói rằng dù là màu ít nhất nhưng màu J cũng không phải ở mức hiếm
Ta đã tìm hiểu và xét riêng biệt được 3 tiêu chí là : Trọng lượng Carat - Giác cắt Cut - Màu sắc Color
Trước khi đến với tiêu chí thứ 4, ta sẽ tiến hàng xét 3 tiêu chí này với nhau (không còn xét riêng lẻ)
Việc này có thể giúp thấy rõ trong từng màu sắc có bao nhiêu viên loại như Ideal, Very Good,…..
Hay trong từng loại màu sắc có bao nhiêu viên có cân nặng dưới 1,00 carat,…. chẳng hạn
Khi xét tới 2 tiêu chí cùng một lúc, ta sẽ thấy được cụ thể hơn so với xét riêng biệt
Từng viên kim cương tương ứng với các màu sắc và giác cắt sẽ rõ ràng hơn
KC %>% group_by(cut,color) %>% summarise(n=n()) %>%
ggplot(aes(x = cut,y = n)) +
geom_col(position = 'dodge', color = 'black') +
geom_text(aes(label = n),vjust = 0, color = 'black') +
facet_wrap(~color) +
labs(x = 'Thang đo Cut', y = 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
Với tổng số 7 màu sắc cùng với 5 loại giác cắt, ta có thể thấy 7 biểu đồ tương ứng với từng màu sắc và mỗi màu sắc có số lượng giác cắt cụ thể
Nhìn tổng quan, cả 7 màu đều có giác cắt Lý tưởng Ideal cao nhất và Fair ít nhất
Với Giác cắt Ideal, màu E có số lượng nhiều nhất - 3,903 viên so với các màu còn lại, theo sát sau là màu F với 3,826 viên
Với mức Premium và Very Good, các màu đều có số lượng không quá chênh lệch, tất cả đều ở mức trung bình, không quá nhiều và cũng không quá ít
Với mức Good và Fair, số lượng ít hơn hẳn các mức còn lại - sự chênh lệch với mức Ideal là quá rõ rệt
Với 7 biểu đồ từng màu sắc trên cho ta thấy tổng thể của cả 7, nhưng nếu muốn biết cụ thể sự chênh lệch khoảng cách của 2 màu có số lượng nhiều nhất và ít nhất là màu G và màu J, ta có thể đem chúng so sánh như biểu đồ sau :
KCE <- diamonds %>%
group_by(cut, color) %>%
summarise(n = n()) %>%
mutate(color = factor(color, levels = c("G", "J")))
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
KCE %>%
ggplot(aes(x = cut, y = n, fill = color)) +
geom_col(position = position_dodge()) +
labs(x = "Các mức độ Giác cắt", y = "Số lượng") +
labs(caption = "Biểu đồ thể hiện từng màu sắc")
Khoảng cách trong từng mức độ giác cắt của màu G và J là hoàn toàn chênh lệch
Sự chênh lệch lớn nhất là ở mức Ideal - với số kim cương cách biệt là khoảng 4,000 viên
Các mức còn lại cũng có sự chênh lệch rõ rệt
Ngoài 2 màu này ra, ta cũng có thể so sánh bất cứ màu nào ta muốn
Ta xét tiếp tới 2 tính chất Màu sắc và Trọng lượng Carat cùng lúc
Ở phần trọng lượng Carat, ta đã phân các viên kim cương thành 5 nhóm theo trọng lượng
Bên cạnh đó, ta cũng tạo bộ dữ liệu mới từ KC là KC1, bộ dữ liệu này được bổ sung thêm 1 biến tên TLCarat, biến này có nội dung gồm 5 nhóm được chia theo trọng lượng đã nói trên, bao gồm : Rất nhẹ, Nhẹ, Vừa, Nặng, Rất nặng
Từ đó, ta tiến hành vẽ các biểu đồ với 2 tính chất này
KC1 %>% group_by(TLCarat,color) %>% summarise(n=n()) %>%
ggplot(aes(x = TLCarat,y = n)) +
geom_col(position = 'dodge', color = 'black') +
geom_text(aes(label = n),vjust = 0, color = 'black') +
facet_wrap(~color) +
labs(x = 'Trọng lượng Carat', y = 'Số lượng')
## `summarise()` has grouped output by 'TLCarat'. You can override using the
## `.groups` argument.
Với tổng số 7 màu cùng với 5 mức độ trọng lượng, ta có thể thấy 7 biểu đồ tương ứng với từng màu sắc và mỗi màu sắc có số viên kim cương được chia theo trọng lượng cụ thể
Nhìn tổng quan tất cả, các viên kim cương ở mức Rất nhẹ chiếm đại đa số và gần như áp đảo trong từng biểu đồ
Mức Nhẹ cũng đứng thứ 2 trong tất cả các biểu đồ, nhưng vấn có sự chênh lệch khá lớn so với mức Rất nhẹ
2 mức Vừa, Nặng đều rất ít, chỉ rơi vào vài viên đến vài trăm viên
Đặc biệt mức Rất nặng, chỉ có 2 viên ở màu J và 1 viên ở màu E, các màu còn lại không sở hữu một viên nào
3 màu E,F,G đều có kim cương ở mức Rất nhẹ nhiều áp đảo, nhưng lại không có viên nào ở 2 mức nặng và rất nặng
Nói tóm lại, các biểu đồ trên đã cho ta thấy rõ chi tiết nhất về các viên kim cương. Mỗi viên kim cương đều mang một nét đẹp về màu sắc, trọng lượng,… riêng biệt nên đó cũng là lý do khiến cho việc kiểm định chất lượng và định giá chúng rất khắt khe và cần tính chuẩn xác cực cao
KCI <- KC1 %>%
group_by(TLCarat, color) %>%
summarise(n = n()) %>%
mutate(color = factor(color, levels = c("G", "E", "I", "J")))
## `summarise()` has grouped output by 'TLCarat'. You can override using the
## `.groups` argument.
KCI %>%
ggplot(aes(x = TLCarat, y = n, fill = color)) +
geom_col(position = position_dodge()) +
labs(x = "Các mức trọng lượng", y = "Số lượng") +
labs(caption = "Biểu đồ cột chồng các màu sắc")
Như đã phân tích ở phần trọng lượng, các viên kim cương ở nhóm Rất nhẹ là nhiều nhất, nhưng ta đã tách 2 màu nhiều nhất và 2 màu ít nhất ở phần này ra để thấy rõ hơn
2 màu G và E có số lượng áp đảo hoàn toàn so với I và J ở nhóm Rất nhẹ
Nhưng ở nhóm Nhẹ, lượng kim cương đã có khác biệt - sự cách biệt đã không còn
Màu G và I gần như có số lượng ngang nhau, màu E trở thành màu có số lượng ít nhất
Như vậy có thể nói, tuy số lượng ở mỗi nhóm mức trọng lượng là khác nhau nhưng phải so sánh theo các màu thì ta mới có thấy rõ hơn sự chênh lệch đó
Độ tinh khiết/ Độ trong của kim cương là số lượng và khả năng hiển thị của các đặc điểm bên trong (tạp chất) và bên ngoài(vết trầy xước) của một viên kim cương
Các tạp chất hay tỳ vết được tạo thành trong quá trình hình thành kim cương tự nhiên
Để đánh giá thì cần sử dụng các thiết bị kính loup với độ phóng đại x10
Cấp độ tinh khiết gồm có 6 nhóm với 11 cấp độ, những cấp độ tính từ cao xuống thấp như sau :
Flawless - FL : Sạch hoàn hảo, không tỳ vết
Internally Flawless - IF : Hoàn hảo bên trong, chỉ có tỳ vết không quan trọng bên ngoài
Very Very Slightly Included - VVS - gồm 2 cấp nhỏ (VVS1, VVS2) : Có những tạp chất, vết trầy nhỏ, khó thấy được
Very Slightly Included - VS - có 2 cấp nhỏ (VS1, VS2) : Có những tạp chất, vết trầy từ khó thấy đến dễ thấy
Slightly Included - SI - có 2 cấp nhỏ (SI1, SI2) : Có những tạp chất, vết trầy dễ thấy hoặc rất dễ thấy
Included - I - có 3 cấp nhỏ (I1,I2,I3) : Không hoàn hảo lẫn bên trong lẫn bên ngoài
Với bộ dữ liệu, các cấp độ tinh khiết sẽ không đầy đủ như đã nêu bên trên, ta có thể thấy chỉ gồm :
table(KC$clarity)
##
## I1 SI2 SI1 VS2 VS1 VVS2 VVS1 IF
## 741 9194 13065 12258 8171 5066 3655 1790
Chỉ có 8 cấp độ tinh khiết trong bộ dữ liệu, không có mức FL và I3
Các mức độ đều có các con số tương ứng như bảng trên
Nhìn tổng quan, ta thấy các mức ST và VS chiếm đa số trong tổng thể
Và để thấy rõ hơn, ta lại vẽ biểu đồ thể hiện chúng
Ta có thể vẽ biểu đồ như sau :
KC %>% group_by(clarity) %>% summarise(n = n()) %>%
ggplot(aes(n,clarity)) +
geom_col(fill='purple') +
labs(title = " Biểu đồ thể hiện nhóm theo Clarity ") +
geom_text(aes(label = n),vjust = 1, color = 'black') +
labs(x = 'Số lượng', y = 'Độ tinh khiết')
Mức độ của các viên kim cương ở mỗi mức độ tinh khiết là không đồng đều nhau
Ta có thể thấy được số lượng các viên kim cương tương ứng với các mức độ tinh khiết như trong biểu đồ
Nổi bật ta thấy được mức SI1 chiếm số lượng nhiều nhất, với khoảng hơn 12,000 viên kim cương
Theo ngay sau đó là VS2 và SI2, với số lượng đứng thứ 2,3 thì độ chênh lệch so với SI1 cũng là không quá nhiều
Khoảng cách rơi vào khoảng 1,000 và 4,000 viên cho mỗi mức tương ứng
Các viên kim cương ở 2 mức này đều có những tạp chất, vết trầy xước từ dễ thấy tới khó thấy rõ
3 mức VS1, VVS2, VVS1 có số lượng lần lượt ít dần, cả 3 đều ở mức không quá nhiều cũng không quá ít
Ngược lại mức IF và mức I1 lần lượt có số lượng ít nhất
Khi so sánh mức nhiều nhất và ít nhất, ta thấy ST1 gấp hơn 10 lần so với mức ít nhất là I1**
Những viên kim cương hoàn hảo và không hoàn hảo là những viên có số lượng ít nhất
Tương tự như các tiêu chí trên, ta tính toán và chuyển số lượng sang dạng % để thấy cụ thể hơn
KC %>% group_by(clarity) %>% summarise(n = n()) %>%
ggplot(aes(n, clarity)) +
geom_col(fill='purple') +
labs(title = "Biểu đồ thể hiện % thang đo Clarity ") +
theme_classic() +
geom_text(aes(label = percent(n/length(KC$clarity))),vjust = 1, color = 'black') +
labs(x = 'Số lượng', y = 'Độ tinh khiết')
Tương tự với biểu đồ trên, với phần trăm là 24,2% - mức SI1 có tỷ lệ chiếm cao nhất trên tổng số
Các tỷ lệ đứng thứ 2,3,4 lần lượt là VS2 22,7% - SI2 17% - VS1 15,1%
Tỷ lệ của 3 mức độ này cách mức độ đứng đầu khoảng 2 - 10%
Từ đó ta thấy được, không có mức độ nào là có số lượng cao hơn hẳn/ rõ rệt hơn các mức còn lại
Mức VVS2 và VVS1 đứng gần áp chót của biểu đồ với tỷ lệ ít hơn : 9,4% và 6,8%
Và cuối cùng, mức có tỷ lệ ít nhất trong bảng lần lượt là IF - 3,3% và I1 - 1,1%
Tương tư như ta đã so sánh các màu với Trọng lượng và Giác cắt, ta cũng có thể tách riêng các màu ra để dễ nhận xét hơn
KCD <- diamonds %>%
group_by(clarity, color) %>%
summarise(n = n()) %>%
mutate(color = factor(color, levels = c("D", "E")))
## `summarise()` has grouped output by 'clarity'. You can override using the
## `.groups` argument.
KCD %>%
ggplot(aes(x = clarity, y = n, fill = color)) +
geom_col(position = position_dodge()) +
labs(x = "Độ tinh khiết", y = "Số lượng") +
labs(caption = "Biểu đồ thanh")
Sự chênh lệch của 2 màu D và E cũng không quá đáng kể và rõ rệt
Khoảng cách sẽ rơi vào khoảng vài trăm đến vài ngàn viên
Diamond Table và Depth là những yếu tố có vai trò quyết định cho chất lượng giác cắt của kim cương
Giúp xác định hình dạng vật lý, tạo nên vẻ ngoài rực rỡ và lấp lánh cho viên kim cương
Sự cân đối giữa 2 đặc điểm này sẽ giúp đạt được chất lượng và tính thẩm mỹ cao nhất
Đây cũng là 2 loại Giác cắt (Cut) thường gặp
Chiều sâu hay còn là Chiều cao của kim cương
Chiều sâu sẽ được tính bằng cách chia tổng chiều sâu (tính từ đỉnh đến đáy) cho đường kính trung bình
Nếu viên kinh cương quá sâu thì sẽ dễ làm xuất hiện các vùng tối màu
Nếu viên kim cương quá nông thì có thể làm mất độ sáng
Tỷ lệ lý tưởng nhất ở thang đo chiều sâu sẽ trong khoảng từ 57,5 - 63%
####Biểu đồ thể hiện Độ sâu
Dựa trên tỷ lệ này ta sẽ phân các viên kim cương thành 2 nhóm : Lý tưởng và Chưa lý tưởng như trong biểu đồ dưới đây
KCLT <- diamonds
KCLT$depth.sau <- ifelse(KCLT$depth >= 57 & KCLT$depth <= 63, 'Lý tưởng', 'Chưa lý tưởng')
table(KCLT$depth.sau)
##
## Chưa lý tưởng Lý tưởng
## 7274 46666
KCLT %>% group_by(depth.sau) %>% summarise(n = n()) %>%
ggplot(aes(depth.sau,n)) +
geom_col(fill='gray') +
labs(title = " Biểu đồ thể hiện nhóm theo Depth ") +
geom_text(aes(label = n),vjust = 2, color = 'black') +
labs(x = 'Độ Lý tưởng theo Độ sâu', y = 'Số lượng')
Sau khi phân thành 2 nhóm lý tưởng hay không dựa trên thang đo độ sau, ta có được biểu đồ như trên
Đa phần các viên kim cương đều đạt mức lý tưởng với hơn 46,000 viên, chỉ có hơn 7,000 là chưa đạt
Giữa 2 mức lý tưởng và chưa lý tưởng cách nhau khoảng 39,000 viên
Nhưng biểu đồ trên chỉ có được nhận xét tổng quan, để cụ thể hơn ta cũng có thể vẽ các biểu đồ mức lý tưởn này trên từng loại màu sắc như sau :
KCLT %>% group_by(depth.sau,color) %>% summarise(n=n()) %>%
ggplot(aes(x = depth.sau,y = n)) +
geom_col(position = 'dodge') +
facet_wrap(~color) +
geom_text(aes(label = n),vjust = 0, color = 'black') +
labs(x = 'Độ lý tưởng theo Độ sâu', y = 'Số lượng')
## `summarise()` has grouped output by 'depth.sau'. You can override using the
## `.groups` argument.
Nhìn chung ta đều thấy được, mức lý tưởng đều có số lượng nhiều hơn chưa lý tưởng ở tất cả các màu
4 màu G, E, F, H là 4 màu có số lượng đạt mức lý tưởng nhiều nhất, với hơn 7,000 viên cho mỗi màu
3 màu D, I, J có số lượng ít hơn, nhưng nếu so với mức chưa lý tưởng thì cũng đã nhiều hơn từ vài ngàn viên
Mức chưa lý tưởng có số lượng từ vài trăm đến vài ngàn viên, sự chênh lệch cũng khá rõ rệt giữa 2 mức
Với từng màu sắc như 7 biểu đồ trên cũng là quá rõ ràng cho chúng ta có thể nhận xét
Nhưng bây giờ ta sẽ xếp các cột chồng lên nhau để có thêm một góc nhìn khác nữa :
KCLT1 <- KCLT %>% group_by(depth.sau, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'depth.sau'. You can override using the
## `.groups` argument.
KCLT1 %>% ggplot(aes(x = depth.sau, y =n)) +
geom_col(data = KCLT1 %>% filter(color == 'G'), fill = 'red') +
geom_col(data = KCLT1 %>% filter(color == 'D'), fill = 'yellow') +
geom_col(data = KCLT1 %>% filter(color == 'J'), fill = 'green') +
labs(x = 'Độ Sâu', y = 'Số lượng')
Ta quy định các màu trong biểu đồ như sau :
Màu đỏ trong biểu đồ chính là màu G
Màu vàng trong biểu đồ chính là màu D
Màu xanh lá trong biểu đồ chính là màu J
Màu G khi được xếp chồng lên vẫn có số lượng đứng nhiều nhất, tiếp theo là màu D và cuối cùng là J
Mức lý tưởng của màu G gần như gấp đôi màu D và gấp 3 lần màu J
Còn về mức chưa lý tưởng, cả 3 màu gần như có số lượng ngang nhau
Sự chênh lệch giữa các biểu đồ cột đơn, cột đôi, cột chồng về mặt số liệu là không hề thay đổi
Nhưng thông qua các biểu đồ khác nhau - các góc nhìn khác, ta cũng phần nào có thể thấy được sự chênh lệch đó rõ ràng hơn
####Từng Mức giác cắt với Mức lý tưởng của Độ sâu
Ta cũng có thề làm tương tự nhưng không xét ở màu sắc nữa, mà ta sẽ xét ở mức độ Giác cắt Cut
Và ta cũng nhận xét tương tự như ở phần Màu sắc bên trên cho phần Độ sâu dưới đây :
KCLT %>% group_by(depth.sau,cut) %>% summarise(n=n()) %>%
ggplot(aes(x = depth.sau,y = n)) +
geom_col(position = 'dodge') +
facet_wrap(~cut) +
geom_text(aes(label = n),vjust = 0, color = 'black') +
labs(x = 'Độ lý tưởng theo Độ sâu', y = 'Số lượng')
## `summarise()` has grouped output by 'depth.sau'. You can override using the
## `.groups` argument.
Ta có một biểu đồ tương tự như ở phần Màu sắc với Độ sâu với quy định như sau :
Màu xanh lá trong biểu đồ chính là đại diện cho mức Ideal
Màu xanh dương trong biểu đồ chính là đại diện cho mức Premium
Và ta cũng có nhận xét tương tự như phần màu sắc
KCLT2 <- KCLT %>% group_by(depth.sau, cut) %>% summarise(n = n())
## `summarise()` has grouped output by 'depth.sau'. You can override using the
## `.groups` argument.
KCLT2 %>% ggplot(aes(x = depth.sau, y =n)) +
geom_col(data = KCLT2 %>% filter(cut == 'Ideal'), fill = 'green') +
geom_col(data = KCLT2 %>% filter(cut == 'Premium'), fill = 'blue')
Diamond Table là loại giác cắt có hình lục giác đặc trưng, có bề mặt lớn nhất nằm trên đỉnh của viên kim cương
Nó có vai trò quan trọng trong việc xác định hình dáng của viên kim cương
Nó còn làm tăng khả năng khúc xạ các tia sáng, giúp cho kim cương trở nên lấp lánh hơn
Nếu bề mặt quá lớn sẽ thiếu chỗ cho sự phân tán ánh sáng
Nếu bề mặt quá nhỏ sẽ hạn chế ánh sáng chiếu vào làm giảm độ sáng tổng thể
Tỷ lệ lý tưởng nhất của một bề mặt hoàn hảo sẽ trong khoảng từ 53 - 65%
Cũng tương tự và dựa trên tỷ lệ lý tưởng đã có sẵn, ta tiến hành phân chia kim cương thành 2 nhóm Đạt và Không Đạt
(Lưu ý : Ta sẽ dùng từ ‘Đạt’ để phân biệt với từ ‘Lý tưởng’ của phần Độ sâu, nên thật ra ‘Không đạt’ cũng chỉ là mức ‘Chưa lý tưởng’ mà thôi)
Ta tiến hành vẽ biểu đồ và có 2 nhóm như sau :
KCLTT <- diamonds
KCLTT$table.bemat <- ifelse(KCLTT$table >= 53 & KCLTT$table <= 65, 'Đạt', 'Không')
KCLTT %>% group_by(table.bemat) %>% summarise(n = n()) %>%
ggplot(aes(table.bemat,n)) +
geom_col(fill='gray') +
labs(title = " Biểu đồ thể hiện theo Table ") +
geom_text(aes(label = n),vjust = 0, color = 'black') +
labs(x = 'Độ đạt theo Bề mặt', y = 'Số lượng')
Những viên kim cương Đạt chuẩn hoàn toàn chiếm gần như tuyệt đối khi so với Không đạt
Mức Đạt chuẩn có số lượng hơn 53,000 viên, tỷ lệ hơn 99% - khoảng cách là rất rất cách biệt và chênh lệch
Mức Không đạt chỉ có 257 viên
Chứng tỏ các viên kim cương khi được thẩm định hay đánh giá đều phải có những giác cắt chuẩn xác đạt tới mức hoàn hảo
####Từng Màu sắc với Mức đạt của Bề mặt
Ta cũng sẽ tiến hành vẽ các biểu đồ của từng màu sắc cùng với Độ đạt chuẩn của Bề mặt như sau :
KCLTT %>% group_by(table.bemat,color) %>% summarise(n=n()) %>%
ggplot(aes(x = table.bemat,y = n)) +
geom_col(position = 'dodge') +
facet_wrap(~color) +
geom_text(aes(label = n),vjust = 0, color = 'black') +
labs(x = 'Độ đạt theo Bề mặt', y = 'Số lượng')
## `summarise()` has grouped output by 'table.bemat'. You can override using the
## `.groups` argument.
Trong từng biểu đồ màu, độ đạt chuẩn cũng có tỷ lệ áp đảo như biểu đồ tổng
Trừ màu J ra, thì còn lại 6 màu đều có số kim cương đạt chuẩn lớn hơn 5,000 viên
Trong đa số các biểu đồ về màu sắc, màu J luôn có một số lượng khá khiêm tốn hơn
4 màu E,F,G,H đều có số lượng ở mức đạt chuẩn trên 8,000 viên và hoàn toàn chênh lệch với mức chưa đạt
Các mức chưa đạt đều chỉ rơi vào khoảng mấy chục viên cho mỗi màu, số lượng không nhiều
Qua các màu sắc càng chứng tỏ bề mặt giác cắt luôn được đánh giá tỉ mỉ nhất
####Từng màu sắc với Mức đạt của Bề mặt
Biểu đồ cột đôi với từng màu sắc, sẽ giúp ta dễ so sánh hơn
KCLTT1 <- KCLTT %>%
group_by(table.bemat, color) %>%
summarise(n = n()) %>%
mutate(color = factor(color, levels = c("H", "I")))
## `summarise()` has grouped output by 'table.bemat'. You can override using the
## `.groups` argument.
KCLTT1 %>%
ggplot(aes(x = table.bemat, y = n, fill = color)) +
geom_col(position = position_dodge()) +
labs(x = "Độ đạt bề mặt", y = "Số lượng") +
labs(caption = "Biểu đồ thể hiện từng màu sắc")
Ta chọn ngẫu nhiên màu H và I để so sánh về độ đạt chuẩn của bề mặt
Mức Đạt chuẩn của 2 màu có sự chênh lệch khoảng 2,000 viên
Ngoài ra, ta cũng có thể chọn màu khác để so sánh
KCLTT1 <- KCLTT %>% group_by(table.bemat, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'table.bemat'. You can override using the
## `.groups` argument.
KCLTT1 %>% ggplot(aes(x = table.bemat, y =n)) +
geom_col(data = KCLTT1 %>% filter(color == 'G'), fill = 'pink') +
geom_col(data = KCLTT1 %>% filter(color == 'I'), fill = 'purple')
Thế giới kim cương là biểu tượng cho một vẻ đẹp muôn màu, đa dạng. Mỗi một viên kim cương đều mang một hình dáng, độ lấp lánh, … riêng biệt và không có sự lặp lại, từng yếu tố đánh giá chất lượng đều sẽ gây ảnh hưởng đến giá thành của nó
4 yếu tố trong Tiêu chí 4C đã phân tích ở trên đều có ảnh hưởng từ chất lượng đến giá trị
Tiêu chuẩn 4C của GIA đã trở thành một tiêu chuẩn trên toàn thế giới để phân loại và định giá kim cương
Với hơn 50,000 viên kim cương, đương nhiên mỗi viên kim cương đều mang giá trị của riêng nó
Ta sẽ tiến hành tính trung bình giá thành của tất cả chúng, để thấy được liệu để sở hữu được 1 viên kim cương cần bao nhiêu
Trước tiên, ta sẽ chia nhỏ Giá thành Price thành 4 nhóm : Rất rẻ - Rẻ - Đắt - Rất đắt
Lưu ý : Việc đặt tên cho từng nhóm như thế này chỉ mang tính chất tượng trưng vì ta không rõ đơn vị tiền tệ của các viên kim cương là đơn vị nào
Giá thành của kim cương sẽ tùy thuộc vào nhiều yếu tố, ta chỉ đang xét giá trị các viên kim cương có trong bộ dữ liệu
table(cut(KC1$price,4))
##
## (308,4.95e+03] (4.95e+03,9.57e+03] (9.57e+03,1.42e+04] (1.42e+04,1.88e+04]
## 39013 9285 3574 2068
KC1$price.t <- cut(KC1$price,4, labels = c('Rất rẻ','Rẻ','Đắt','Rất đắt'))
table(KC1$price.t)
##
## Rất rẻ Rẻ Đắt Rất đắt
## 39013 9285 3574 2068
Ta có được 4 nhóm giá thành được chia như sau : (tạm cho đơn vị là đơn vị tiền)
Mức giá thành Rất rẻ - có giá từ 308 - khoảng 4,000 đơn vị tiền
Mức giá thành Rẻ - có giá từ 4,000 - khoảng 9,000 đơn vị tiền
Mức giá thành Đắt - có giá từ 9,000 - khoảng 14,000 đơn vị tiền
Mức giá thành Rất đắt - có giá từ 14,000 - khoảng 18,000 đơn vị tiền
Sau đó tiến hành vẽ biểu đồ
KC <- diamonds
KC2 <- KC %>% mutate(GiaPrice = cut(price,4, label = c('Rất rẻ', 'Rẻ','Đắt','Rất đắt')))
KC2 %>% group_by(GiaPrice) %>% summarise(n = n()) %>%
ggplot(aes(GiaPrice,n)) +
geom_col(fill='green') +
labs(title = " Biểu đồ thể hiện giá thành ") +
geom_text(aes(label = n),vjust = 0, color = 'black') +
labs(x = 'Price', y = 'Số lượng')
Sự phân bổ không đồng đều mức giá của các viên kim cương là quá rõ rệt
Nhìn chung những giá thành càng đắt thì càng còn có số lượng kim cương càng giảm dần
Những viên kim cương có giá thành Rất rẻ có số lượng nhiều nhất với hơn 39,000 viên
Sự chênh lệch của giá Rất rẻ và giá thành Rẻ cũng đã là khá chênh lệch - hơn 30,000 viên
Còn giá thành Đắt và Rất đắt là có số lượng ít nhất
Các viên kim cương có giá thành rẻ là khá nhiều, nên việc sở hữu chúng có thể là dễ dàng hơn so với giá thành đắt
Nhưng nếu muốn sở hữu một viên kim cương lộng lẫy nhất, tuyệt đẹp nhất thì việc nó có giá Rất đẳ là chuyện rất bình thường
Sau khi nhìn rõ được số lượng kim cương ở mỗi mức giá, ta tiến hành vẽ tiếp một biểu đồ khác dựa trên mức giá đã được tính trung bình, biểu đồ như sau :
KC2 %>% group_by(GiaPrice) %>% summarise(m= mean(price)) %>%
ggplot(aes(x = GiaPrice,y = m)) +
geom_col(position = 'dodge') +
geom_text(aes(label = round(m,2)), vjust = 2, color = 'green') +
labs(x = 'Price', y = 'Mean')
Sau khi đã tính trung bình ở mỗi mức giá ta có số liệu như sau :
Mức giá Rất rẻ có giá trung bình là khoảng 1,897 đơn vị tiền
Mức giá Rẻ có giá trung bình là khoảng 6,759 đơn vị tiền
Mức giá Đắt có giá trung bình là khoảng 11,625 đơn vị tiền
Mức giá Rất đắt có giá trung bình là khoảng 16,340 đơn vị tiền
Nếu bạn muốn sở hữu một viên kim cương cho mình, thì trung bình bạn phải có ít nhất 1,900 đơn vị tiền trở lên để có nó, nếu không thì bạn phải trả thêm như sau :
Mức giá Rất đắt có giá thành đúng như cái tên, phải có hơn 16,000 đơn vị tiền mới có thể mua được
Các mức còn lại cũng có mức giá giảm dần nhưng khoảng chênh lệch so với mức rẻ nhất cũng là 5,000 đơn vị tiền trở lên
Mức giá thấp nhất và cao nhất có sự chênh lệch đến 15,000 đơn vị tiền