Nhiệm vụ yêu cầu vẽ ít nhất 30 đồ thị dạng Bar chart
Bộ dữ liệu tiến hành thực hiện : Bộ dữ liệu diamonds trong package ggplot2
Bộ dữ liệu diamonds là một trong số các bộ dữ liệu của package ggplot2
Ta gán bộ dữ liệu gốc diamonds với tên là KC (viết tắt của Kim Cương)
Giới thiệu sơ về package ggplot2 :
ggplot2 là một package hỗ trợ visualization, ta có thể vẽ được các đồ thị dạng bar chart, density, pie,…
ggplot2 còn cho phép tùy chỉnh màu sắc, kích cỡ, theme, … để đồ thị được đẹp hơn
Cấu trúc của ggplot2 được chia làm 2 phần :
ggplot(): Phần này quy định đồ thị sẽ sử dụng Data nào (Data phải có dạng data.frame)
geom_(aes(x,y)) : Phần này quy định kiểu đồ thị và Các trục tọa độ từ dữ liệu
Nếu chỉ có ggplot() mà không thêm geom_() : thì chỉ nhận được Background mà không có đồ thị
Trong geom_() phải khai báo thêm trục tọa độ vào các arguments x và y của aes()
library(ggplot2)
data(package = 'ggplot2')
KC <- diamonds
Từ tên của bộ dữ liệu là diamonds, cũng đủ cho thấy dữ liệu bên trong cung cấp nội dung và thông số về Kim Cương
Bộ dữ liệu KC bao gồm : 53,940 quan sát và 10 biến
Mỗi quan sát (mỗi hàng) đại diện cho một viên kim cương khác nhau và có tổng 53,940 viên kim cương
Mỗi viên kim cương đó đều có các thông số khác nhau về màu sắc, kích thước,… và có tổng 10 đặc tính
dim(KC)
## [1] 53940 10
Với 10 biến tương ứng, mỗi biến cung cấp các đặc tính/ tính chất của kim cương, bao gồm như sau :
1. Carat - Trọng lượng : Đơn vị dùng để đo khối lượng của đá quý nói chung (1 carat = 200 milligram = 0,2 gram)
2. Cut - Giác cắt : Quá trình chế tác viên kim cương từ dạng thô thành hoàn thiện và có nhiều kiểu Giác cắt khác nhau
3. Color - Màu sắc : Màu sắc của viên kim cương
4. Clarity - Độ trong/ Độ tinh khiết : Đánh giá dựa vào số lượng các vết trầy xước, màu sắc vết gãy,…khi nhìn dưới kính lúp 10x
5. Depth - Độ sâu : Thuật ngữ thể hiện độ sâu của viên kim cương so với đường kính của nó (tính bằng %)
6. Table - Bề mặt : Mỗi viên kim cương đều có một bề mặt phẳng ở trên đỉnh, đó chính là Diamond Table (tính bằng %)
7. Price - Giá thành : Dựa trên các đặc tính đã nêu trên, tất cả sẽ quyết định giá trị của một viên kiêm cương là bao nhiêu
8.9.10. Gía trị x - y - z : Lần lượt là Chiều dài - Chiều rộng - Độ sâu (tính bằng mm) của viên kim cương
str(KC)
## tibble [53,940 × 10] (S3: tbl_df/tbl/data.frame)
## $ carat : num [1:53940] 0.23 0.21 0.23 0.29 0.31 0.24 0.24 0.26 0.22 0.23 ...
## $ cut : Ord.factor w/ 5 levels "Fair"<"Good"<..: 5 4 2 4 2 3 3 3 1 3 ...
## $ color : Ord.factor w/ 7 levels "D"<"E"<"F"<"G"<..: 2 2 2 6 7 7 6 5 2 5 ...
## $ clarity: Ord.factor w/ 8 levels "I1"<"SI2"<"SI1"<..: 2 3 5 4 2 6 7 3 4 5 ...
## $ depth : num [1:53940] 61.5 59.8 56.9 62.4 63.3 62.8 62.3 61.9 65.1 59.4 ...
## $ table : num [1:53940] 55 61 65 58 58 57 57 55 61 61 ...
## $ price : int [1:53940] 326 326 327 334 335 336 336 337 337 338 ...
## $ x : num [1:53940] 3.95 3.89 4.05 4.2 4.34 3.94 3.95 4.07 3.87 4 ...
## $ y : num [1:53940] 3.98 3.84 4.07 4.23 4.35 3.96 3.98 4.11 3.78 4.05 ...
## $ z : num [1:53940] 2.43 2.31 2.31 2.63 2.75 2.48 2.47 2.53 2.49 2.39 ...
Ngoài ra còn có các thông tin khác :
library(skimr)
skim(KC)
Name | KC |
Number of rows | 53940 |
Number of columns | 10 |
_______________________ | |
Column type frequency: | |
factor | 3 |
numeric | 7 |
________________________ | |
Group variables | None |
Variable type: factor
skim_variable | n_missing | complete_rate | ordered | n_unique | top_counts |
---|---|---|---|---|---|
cut | 0 | 1 | TRUE | 5 | Ide: 21551, Pre: 13791, Ver: 12082, Goo: 4906 |
color | 0 | 1 | TRUE | 7 | G: 11292, E: 9797, F: 9542, H: 8304 |
clarity | 0 | 1 | TRUE | 8 | SI1: 13065, VS2: 12258, SI2: 9194, VS1: 8171 |
Variable type: numeric
skim_variable | n_missing | complete_rate | mean | sd | p0 | p25 | p50 | p75 | p100 | hist |
---|---|---|---|---|---|---|---|---|---|---|
carat | 0 | 1 | 0.80 | 0.47 | 0.2 | 0.40 | 0.70 | 1.04 | 5.01 | ▇▂▁▁▁ |
depth | 0 | 1 | 61.75 | 1.43 | 43.0 | 61.00 | 61.80 | 62.50 | 79.00 | ▁▁▇▁▁ |
table | 0 | 1 | 57.46 | 2.23 | 43.0 | 56.00 | 57.00 | 59.00 | 95.00 | ▁▇▁▁▁ |
price | 0 | 1 | 3932.80 | 3989.44 | 326.0 | 950.00 | 2401.00 | 5324.25 | 18823.00 | ▇▂▁▁▁ |
x | 0 | 1 | 5.73 | 1.12 | 0.0 | 4.71 | 5.70 | 6.54 | 10.74 | ▁▁▇▃▁ |
y | 0 | 1 | 5.73 | 1.14 | 0.0 | 4.72 | 5.71 | 6.54 | 58.90 | ▇▁▁▁▁ |
z | 0 | 1 | 3.54 | 0.71 | 0.0 | 2.91 | 3.53 | 4.04 | 31.80 | ▇▁▁▁▁ |
Để đánh giá chất lượng cũng như giá thành một viên kim cương, các chuyên gia thường dựa trên 4 tiêu chí - gọi là tiêu chí 4C
GIA đã tạo ra tiêu chuẩn này đầu tiên và hiện được chấp nhận trên toàn cầu
Tiêu chuẩn 4C gồm : Màu sắc Color - Độ tinh khiết Clarity - Giác cắt Cut - Trọng lượng Carat
Ta sẽ tiến hành phân tích và nhận xét từng đặc tính có trong bộ dữ liệu này
Trọng lượng carat của một viên kim cương được xác định bằng cách cân viên kim cương trên cân điện tử một cách chính xác
Trọng lượng carat thường được giữ 2 số thập phân cuối cùng (vd : 1.53, 1.00,…)
Trọng lượng chính xác là rất quan trọng, ảnh hưởng trực tiếp đến việc định giá
Nhưng chưa chắc viên kim cương nào có trọng lượng nặng hơn sẽ có giá cao hơn và ngược lại, trọng lượng chỉ là 1 trong các yếu tố để đánh giá mà thôi
Đầu tiên, ta tóm tắt sơ lược về trọng lượng của các viên kim cương bằng cách :
Ta tiến hành cut hay gọi là chia 53,940 viên kim cương thành 5 nhóm theo trọng lượng như sau :
table(cut(KC$carat,5))
##
## (0.195,1.16] (1.16,2.12] (2.12,3.09] (3.09,4.05] (4.05,5.01]
## 43781 9478 667 11 3
KC$carat.c<- cut(KC$carat,5, labels = c('Rất nhẹ','Nhẹ','Vừa','Nặng','Rất nặng'))
table(KC$carat.c)
##
## Rất nhẹ Nhẹ Vừa Nặng Rất nặng
## 43781 9478 667 11 3
Ta đã chia thành 5 khoảng và trong mỗi khoảng trọng lượng carat đó có bao nhiêu viên kim cương
Bên cạnh đó, ta cũng đưa ra nhận xét trước tiên là các viên kim cương có trọng lượng càng cao thì càng ít dần
5 nhóm được chia ra như sau :
Nhóm Rất nhẹ - có trọng lượng carat từ 0.19 đến 1.16, tổng 43,781 viên
Nhóm Nhẹ - có trọng lượng carat từ 1.16 đến 2.12, tổng 9,478 viên
Nhóm Vừa - có trọng lượng carat từ 2.12 đến 3.09, tổng 667 viên
Nhóm Nặng - có trọng lượng carat từ 3.09 đến 4.05, tổng 11 viên
Nhóm Rất nặng - có trọng lượng carat từ 4.05 đến 5.01, tổng 3 viên
Sau đó, ta tiến hành vẽ biểu đồ để thấy rõ hơn được sự khác biệt của mỗi nhóm trọng lượng carat
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
KC <- diamonds
KC1 <- KC %>% mutate(TLCarat = cut(carat,5, label = c('Rất nhẹ', 'Nhẹ','Vừa','Nặng','Rất nặng')))
KC1 %>% group_by(TLCarat) %>% summarise(n = n()) %>%
ggplot(aes(TLCarat,n)) +
geom_col(fill='blue') +
labs(title = " Biểu đồ thể hiện nhóm theo Carat ") +
geom_text(aes(label = n),vjust = 0, color = 'black') +
labs(x = 'Trọng Lượng', y = 'Số lượng')
Trước tiên ta thấy lượng phân bổ của các viên kim cương theo các nhóm trọng lượng là không đồng đều
Cột Rất nhẹ chiếm số lượng nhiều nhất/ áp đảo nhất trong 5 cột
Với tổng là 43,781 viên trên tổng 53,940 viên kim cương, và các viên kim cương này có trọng lượng từ 0.195 đến 1.16
Điều này cho thấy các viên kim cương có trọng lượng rất nhẹ là chiếm đại đa số và dễ tìm thấy hơn
Kế tiếp là 2 cột Nhẹ và cột Vừa với số kim cương lần lượt là 9,478 và 667
Kim cương có trọng lượng Nhẹ và Vừa thì ít hơn hẳn so với Rất nhẹ
Số lượng kim cương Rất nhẹ gấp hơn 4 lần so với Rất nhẹ, và gấp 65 lần so với Vừa
Từ đó càng cho thấy sự đại trà của số lượng kim cương trọng lượng Rất nhẹ, cũng như sự ít của trọng lượng Nhẹ và Vừa
Kim cương ở cột Nặng chỉ có 11 viên và cột Rất nặng ở mức cực hiếm chỉ có 3 viên
Các viên kim cương ở 2 cột này có trọng lượng carat trên 3,09 carat, có thể xếp vào mục cực hiếm và khó tìm thấy
Nếu so cột Rất nhẹ và Rất nặng với nhau thì cột Rất nhẹ gấp hơn 14,000 lần
Bên cạnh đó, ta có thể chuyển cụ thể số lượng như trên thành % so với tổng số, để dễ dàng nhận xét hơn nữa
library(scales)
KC1 <- KC %>% mutate(TLCarat = cut(carat,5, label = c('Rất nhẹ', 'Nhẹ','Vừa','Nặng','Rất nặng')))
KC1 %>% group_by(TLCarat) %>% summarise(n = n()) %>%
ggplot(aes(TLCarat,n)) +
geom_col(fill='blue') +
labs(title = " Biểu đồ thể hiện % thang đo Carat ") +
theme_classic() +
geom_text(aes(label = percent(n/length(KC$carat))),vjust = 0, color = 'black') +
labs(x = 'Trọng Lượng', y = 'Số lượng')
Vẫn tương tự như nhận xét phía trên, cột Rất nhẹ với hơn 40,000 viên - chiếm tới hơn 80% trên 100%
Cột Nhẹ đứng thứ 2, sau cột Rất nhẹ với hơn 17% - khoảng cách với cột đứng nhất là hơn 60%
3 cột Vừa - Nặng - Rất nặng với phần trăm rất nhỏ, thậm chí là có thể xếp vào mục cực cực hiếm - lần lượt là 1.2% - 0,02% - 0,006%
Khi dựa vào phần trăm, ta càng thấy rõ hơn độ đại trà cũng như độ hiếm của từng mức trọng lượng carat của các viên kim cương
Những viên kim cương có trọng lượng càng cao thì càng hiếm thấy, và với trọng lượng nhẹ thì ngược lại
Nhưng chỉ mỗi trọng lượng carat thôi thì chưa đủ chuẩn xác để đánh giá hết một viên kim cương, ta tiến hành xét tiếp đến tiêu chí thứ hai
Giác cắt hay còn gọi là vết cắt của viên kim cương, được xem là độ chính xác về góc độ và tỉ lệ cắt xén của kim cương, khi đánh giá thì từng mặt được kiểm tra chi tiết và đo lường cụ thể
Đây được xem là yếu tố quan trọng nhất trong tiêu chí 4C
Vì nó có thể ảnh hưởng đến vẻ đẹp và độ lấp lánh bên ngoài của viên kim cương
2 yếu tố Diamond Table và Diamond Depth cũng bao gồm trong phần Giác cắt này
Thang đo giác cắt Kim cương bao gồm :
Giác cắt Ideal - Lý tưởng
Giác cắt Premium/ Excellent - Tuyệt hảo
Giác cắt Very Good - Rất tốt
Giác cắt Good - Tốt
Giác cắt Fair - Trung bình
Giác cắt Poor - Kém
Với tiêu chí về Giác cắt, ta thấy chất lượng kim cương được chia ra làm 5 nhóm (không bao gồm thang đo Poor như đã nêu), chỉ bao gồm :
table(KC$cut)
##
## Fair Good Very Good Premium Ideal
## 1610 4906 12082 13791 21551
5 nhóm được chia theo chất lượng giác cắt gồm :
Nhóm Fair - mức trung bình, có tổng 1,610 viên
Nhóm Good - mức tốt, có tổng 4,906 viên
Nhóm Very Good - mức rất tốt, có tổng 12,082 viên
Nhóm Premium - mức tuyệt hảo, có tổng 13,791 viên
Nhóm Ideal - mức lý tưởng, có tổng 21,551 viên
Sau đó, ta tiến hành vẽ biểu đồ để thấy rõ hơn được sự khác biệt của mỗi nhóm
KC %>% group_by(cut) %>% summarise(n = n()) %>%
ggplot(aes(cut,n)) +
geom_col(fill='yellow') +
labs(title = " Biểu đồ thể hiện nhóm theo Cut ") +
geom_text(aes(label = n),vjust = 2, color = 'red') +
labs(x = 'Thang đo Cut', y = 'Số lượng')
Trước tiên ta thấy được mức độ hoàn thiện giác cắt ở các viên kim cương là không đồng đều
Mức ta có thể thấy rõ ràng nhất là mức Ideal - chiếm số lượng nhiều nhất
Với tổng là 21,511 viên trên 53,940 viên kim cương, chiếm gần một nửa so với tổng số
Điều này cho thấy các viên kim cương được chế tác ở mức độ lý tưởng là khá nhiều
Được biết những viên kim cương Ideal Cut là rất hoàn hảo, đã được tính toán cẩn thận đến từng tỉ lệ góc cạnh
Kế tiếp là các 2 mức Premium và mức Very Good, với số kim cương lần lượt là 13,791 và 12,082 viên
Dù ít hơn so với mức lý tưởng, nhưng 2 mức này đều có lượng kim cương chiếm trung bình trên tổng số
Số lượng kim cương mức Ideal gấp hơn 1,5 lần so với mức Premium, và gấp 1,7 lần so với mức Very Good
Mức Premium và Very Good cũng chỉ chênh lệnh nhau khoảng 1,000 viên, cũng không phải là khoảng chênh lệnh quá lớn
Từ đó cho thấy, mức cách biệt của 3 thang đo đầu tiên cũng không quá rõ rệt
Kim cương ở mức Good và Fair lần lượt là 4,906 và 1,610 viên
Các viên kim cương được chế tác ở mức này thì ít hơn hẳn so với các mức ở vị trí đầu
Vì đây là 2 mức được đánh giá thấp nhất trong đánh giá về Giác cắt nên số lượng kim cương cũng ít hơn hẳn
Cũng giống như trọng lượng, ta có thể chuyển cụ thể số lượng thành % so với tổng số, để dễ dàng nhận xét hơn
KC %>% group_by(cut) %>% summarise(n = n()) %>%
ggplot(aes(cut,n)) +
geom_col(fill='yellow') +
labs(title = "Biểu đồ thể hiện % thang đo Cut ") +
theme_classic() +
geom_text(aes(label = percent(n/length(KC$cut))),vjust = 2, color = 'red') +
labs(x = 'Thang đo Cut', y = 'Số lượng')
Vẫn tương tự như nhận xét phía trên, mức lý tưởng - Ideal chiếm 40% trên tổng số
Mặc dù mức lý tưởng chiếm nhiều nhất (gần một nửa), nhưng nó có số liệu không quá áp đảo so với các mức còn lại
Mức Tuyệt hảo Premium và Rất tốt Very Good đứng lần lượt thứ 2 và 3 với 25.6% và 22,4%, mỗi mức cũng bằng hơn một nửa so với mức Ideal
Ở 2 mức cuối cùng là Tốt Good và Trung bình Fair với phần trăm ít nhất lần lượt là 9,1% và 3%, chứng tỏ mức chế tác ở 2 mức này không được ưa chuộng bằng 3 mức còn lại
Khi dựa vào phần trăm, ta càng thấy rõ hơn các mức độ thanh đo về mặt cắt của kim cương
Các viên có tỷ lệ chế tác càng hoàn hảo thì sẽ có giá thành cao và được ưa chuộng hơn
Màu sắc của kim cương (hay còn gọi là Nước kim cương) có rất nhiều và các màu sắc đó được phân loại gọi là Cấp độ màu sắc
Một viên kim cương càng có ít màu sắc thì sẽ phản xạ ánh sáng càng chân thật
Thông thường sẽ nhìn từ phần đáy của kim cương để giám định màu sắc của nó
Cấp độ màu sắc gồm 5 cấp độ màu và có 23 màu như sau :
Màu D - E - F : xếp vào loại Không màu (Colorless)
Màu G - H - I - J : xếp vào loại Gần như không màu (Near Colorless)
Màu K - L - M : xếp vào loại Màu rất nhạt (Faint Yellow)
Màu N - O - P - Q - R : xếp vào loại Màu nhạt (Very Light Yellow)
Màu S - T - U - V - W - X - Y - Z : xếp vào loại Màu vàng (Light Yellow)
Mỗi viên kim cương đều có màu sắc riêng biệt và có tới 23 màu sắc dành cho việc đánh giá kim cương
Nhưng với bộ dữ liệu thì sẽ không đầy đủ tất cả các màu đã nêu - chỉ bao gồm 7 màu như sau :
table(KC$color)
##
## D E F G H I J
## 6775 9797 9542 11292 8304 5422 2808
Theo như bảng tần số đã chia bên trên, có 7 màu sắc tất cả
7 màu gồm từ D đến J, mỗi màu có số viên kim cương tương ứng như bảng trên
3 Màu D - E - F là các viên kim cương thuộc cấp không màu
Màu D có tổng là 6,775 viên
Màu E có tổng là 9,797 viên
Màu F có tổng là 9,542 viên
Màu G - H - I - J là các viên kim cương thuộc cấp gần như không màu
Màu G có tổng là 11,292 viên
Màu H có tổng là 8,304 viên
Màu I có tổng là 5,422 viên
Màu J có tổng là 2,808 viên
KC %>% group_by(color) %>% summarise(n = n()) %>%
ggplot(aes(n,color)) +
geom_col(fill='pink') +
labs(title = " Biểu đồ thể hiện nhóm theo Color ") +
geom_text(aes(label = n),vjust = 1, color = 'black') +
labs(x = 'Số lượng', y = 'Các màu sắc')
Nhìn tổng quan ta thấy được cả 7 màu sắc đều có số lượng kim cương không quá ít cũng không quá nhiều
Nổi bật nhất là màu G chiếm số lượng nhiều nhất, với 11,292 viên trên tổng số
Ngược lại màu J có số lượng ít nhất, với 2,808 viên
Khi so sánh 2 màu nhiều nhất và ít nhất, ta thấy màu G gấp hơn 4 lần màu J
Các màu E, F, H lần lượt đứng thứ 2,3,4 sau màu G, với số lượng từng loại cũng gần như ngang bằng nhau
Như màu E và F chỉ cách nhau hơn 200 viên, số lượng cũng không đáng kể
Và màu F và H các nhau khoảng hơn 1000 viên
2 màu sắc ít hơn nữa là D và I , với số lượng lần lượt là 6,775 và 5,422
Dựa vào số lượng trên, ta thấy các màu sắc thuộc nhóm gần như không màu (G,H,I,J) chiếm lượng nhiều hơn so với nhóm không màu (D,E,F)
Cũng giống như 2 tiêu chí đã nói trên, ta chuyển số lượng cụ thể thành % so với tổng số, để dễ dàng nhận xét hơn
KC %>% group_by(color) %>% summarise(n = n()) %>%
ggplot(aes(n,color)) +
geom_col(fill='pink') +
labs(title = "Biểu đồ thể hiện % thang đo Color ") +
theme_classic() +
geom_text(aes(label = percent(n/length(KC$color))),vjust = 1, color = 'black') +
labs(x = 'Số lượng', y = 'Các màu sắc')
Với phần trăm là 20,93% - Màu sắc G có tỷ lệ số viên kim cương nhiều nhất trên tổng số
Các tỷ lệ đứng thứ 2,3,4 lần lượt là màu E - 18,16% , màu F - 17,69% , màu H - 15,39%
Tỷ lệ của 3 màu này cách màu G đứng đầu khoảng 2-5%, cũng không phải là con số đáng kể
Từ đó ta thấy được, không có màu sắc nào là có số lượng cao hơn hẳn/ rõ rệt hơn các màu còn lại
Màu D và I đứng gần áp bảng với tỷ lệ khiêm tốn hơn : 12,56% và 10,05%
Cuối cùng màu có tỷ lệ ít nhất trong biểu đồ là màu J - chỉ với 5,21%
Khoảng cách của màu nhiều và ít nhất là khoảng 15%
Vậy ta cũng có thể nói rằng dù là màu ít nhất nhưng màu J cũng không phải ở mức cực hiếm
Ta đã tìm hiểu và xét riêng biệt được 3 tiêu chí là : Trọng lượng Carat - Giác cắt Cut - Màu sắc Color
Trước khi đến với tiêu chí thứ 4, ta sẽ tiến hàng xét 3 tiêu chí này với nhau (không còn xét riêng lẻ)
Việc này có thể giúp thấy rõ trong từng màu sắc có bao nhiêu viên loại như Ideal, Very Good,…..
Hay trong từng loại màu sắc có bao nhiêu viên có cân nặng dưới 1,00 carat,…. chẳng hạn
Khi xét tới 2 tiêu chí cùng một lúc, ta sẽ thấy được cụ thể hơn so với xét riêng biệt
Từng viên kim cương tương ứng với các màu sắc và giác cắt sẽ rõ ràng hơn
KC %>% group_by(cut,color) %>% summarise(n=n()) %>%
ggplot(aes(x = cut,y = n)) +
geom_col(position = 'dodge', color = 'black') +
geom_text(aes(label = n),vjust = 0, color = 'black') +
facet_wrap(~color) +
labs(x = 'Thang đo Cut', y = 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
Với tổng số 7 màu sắc cùng với 5 loại giác cắt, ta có thể thấy 7 biểu đồ tương ứng với từng màu sắc và mỗi màu sắc có số lượng giác cắt cụ thể
Nhìn tổng quan, cả 7 màu đều có giác cắt Lý tưởng Ideal cao nhất và Fair ít nhất
Với Giác cắt Ideal, màu E có số lượng nhiều nhất - 3,903 viên so với các màu còn lại, theo sát sau là màu F với 3,826 viên
Với mức Premium và Very Good, các màu đều có số lượng không quá chênh lệch, tất cả đều ở mức trung bình, không quá nhiều và cũng không quá ít
Với mức Good và Fair, số lượng ít hơn hẳn các mức còn lại - sự chênh lệch với mức Ideal là quá rõ rệt
Khi ta xét tiêu chí về giác cắt không thôi là cũng đủ để ta hình dung về các nhóm kim cương phân bổ như thế nào, nhưng việc tách riêng và thêm yếu tố màu sắc vào, chắc chắn sẽ giúp cho biết thêm ở màu nào loại giác cắt nào sẽ nhiều nhất và ít nhất
Với 7 biểu đồ từng màu sắc trên cho ta thấy tổng thể của cả 7, nhưng nếu muốn biết cụ thể sự chênh lệch khoảng cách của 2 màu có số lượng nhiều nhất và ít nhất là màu G và màu J, ta có thể đem chúng so sánh như biểu đồ sau :
KCE <- diamonds %>%
group_by(cut, color) %>%
summarise(n = n()) %>%
mutate(color = factor(color, levels = c("G", "J")))
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
KCE %>%
ggplot(aes(x = cut, y = n, fill = color)) +
geom_col(position = position_dodge()) +
labs(x = "Các mức độ Giác cắt", y = "Số lượng") +
labs(caption = "Biểu đồ thể hiện từng màu sắc")
Vì ta đang muốn thấy sự rõ sự chênh lệch của 2 màu nhiều nhất và ít nhất nên khi nhìn vào biểu đồ, ta thấy được màu G và màu J có khoảng cách cách biệt rất lớn
Thể hiện rõ nhất là 3 mức Ideal - Premium - Very Good, màu J thậm chỉ bằng hoặc thấp hơn 1/3 màu G
Sự chênh lệch lớn nhất là ở mức Ideal - với số kim cương cách biệt là khoảng 4,000 viên
Còn ở 2 mức cuối là Fair và Good, dù không hơn quá nhiều như 3 mức còn lại, nhưng khoảng cách cũng rơi tầm vài chục đến vài trăm viên
Ngoài 2 màu này ra, ta cũng có thể so sánh bất cứ màu nào ta muốn
Ta còn có thể so sánh 3 màu, 4 màu cùng lúc nếu có nhu cầu
Ta xét tiếp tới 2 tính chất Màu sắc và Trọng lượng Carat cùng lúc
Ở phần trọng lượng Carat, ta đã phân các viên kim cương thành 5 nhóm theo trọng lượng và đặt tên cho từng nhóm
Bên cạnh đó, ta cũng tạo bộ dữ liệu mới từ KC là KC1, bộ dữ liệu này được bổ sung thêm 1 biến tên TLCarat, biến này có nội dung gồm 5 nhóm được chia theo trọng lượng đã nói trên, bao gồm Rất nhẹ, Nhẹ, Vừa, Nặng, Rất nặng
Từ đó, ta tiến hành vẽ các biểu đồ từ 7 màu sắc với 5 nhóm trọng lượng này :
KC1 %>% group_by(TLCarat,color) %>% summarise(n=n()) %>%
ggplot(aes(x = TLCarat,y = n)) +
geom_col(position = 'dodge', color = 'black') +
geom_text(aes(label = n),vjust = 0, color = 'black') +
facet_wrap(~color) +
labs(x = 'Trọng lượng Carat', y = 'Số lượng')
## `summarise()` has grouped output by 'TLCarat'. You can override using the
## `.groups` argument.
Với tổng số 7 màu cùng với 5 mức độ trọng lượng, ta có thể thấy 7 biểu đồ tương ứng với từng màu sắc và mỗi màu sắc có số viên kim cương được chia theo trọng lượng cụ thể
Nhìn tổng quan tất cả, các viên kim cương ở mức Rất nhẹ chiếm đại đa số và gần như áp đảo trong từng biểu đồ
Mức Nhẹ cũng đứng thứ 2 trong tất cả các biểu đồ, nhưng vấn có sự chênh lệch khá lớn so với mức Rất nhẹ
2 mức Vừa, Nặng đều rất ít, chỉ rơi vào vài viên đến vài trăm viên
Đặc biệt mức Rất nặng, chỉ có 2 viên ở màu J và 1 viên ở màu E, các màu còn lại không sở hữu một viên nào
3 màu E,F,G đều có kim cương ở mức Rất nhẹ nhiều áp đảo, nhưng lại không có viên nào ở 2 mức nặng và rất nặng
Nói tóm lại, các biểu đồ trên đã cho ta thấy rõ chi tiết nhất về các viên kim cương. Mỗi viên kim cương đều mang một nét đẹp về màu sắc, trọng lượng,… riêng biệt nên đó cũng là lý do khiến cho việc kiểm định chất lượng và định giá chúng rất khắt khe và cần tính chuẩn xác cực cao
Ta tiến hành chọn 4 màu G,E,I,J để xét dựa trên các mức trọng lượng
Chủ đích chọn 4 màu này là vì màu G - E là một trong những màu có số lượng nhiều nhất và màu I - J là ít nhất
KCI <- KC1 %>%
group_by(TLCarat, color) %>%
summarise(n = n()) %>%
mutate(color = factor(color, levels = c("G", "E", "I", "J")))
## `summarise()` has grouped output by 'TLCarat'. You can override using the
## `.groups` argument.
KCI %>%
ggplot(aes(x = TLCarat, y = n, fill = color)) +
geom_col(position = position_dodge()) +
labs(x = "Các mức trọng lượng", y = "Số lượng") +
labs(caption = "Biểu đồ cột chồng các màu sắc")
Giữa 2 màu nhiều nhất và 2 màu ít nhất được tách ra, sự chênh lệch đã được thể hiện rõ ràng hơn
So sánh 4 màu thì các viên kim cương ở nhóm Rất nhẹ vẫn là nhiều nhất
2 màu G và E có số lượng áp đảo hoàn toàn so với I và J ở nhóm Rất nhẹ
Nhưng ở nhóm Nhẹ, lượng kim cương đã có khác biệt - sự cách biệt đã không còn
Màu G và I gần như có số lượng ngang nhau, màu E trở thành màu có số lượng ít nhất
Còn 2 mức cuối cùng là nặng và rất nặng, vì số kim cương ở 2 nhóm này cực kì ít và hiếm nên ta không dễ dàng như 3 nhóm còn lại
Như vậy có thể nói, tuy số lượng ở mỗi nhóm mức trọng lượng là khác nhau nhưng phải so sánh theo các màu thì ta mới có thấy rõ hơn sự chênh lệch đó
Độ tinh khiết/ Độ trong của kim cương là số lượng và khả năng hiển thị của các đặc điểm bên trong (tạp chất) và bên ngoài(vết trầy xước) của một viên kim cương
Các tạp chất hay tỳ vết được tạo thành trong quá trình hình thành kim cương tự nhiên
Để đánh giá thì cần sử dụng các thiết bị kính loup với độ phóng đại x10
Cấp độ tinh khiết gồm có 6 nhóm với 11 cấp độ, những cấp độ tính từ cao xuống thấp như sau :
Flawless - FL : Sạch hoàn hảo, không tỳ vết
Internally Flawless - IF : Hoàn hảo bên trong, chỉ có tỳ vết không quan trọng bên ngoài
Very Very Slightly Included - VVS - gồm 2 cấp nhỏ (VVS1, VVS2) : Có những tạp chất, vết trầy nhỏ, khó thấy được
Very Slightly Included - VS - có 2 cấp nhỏ (VS1, VS2) : Có những tạp chất, vết trầy từ khó thấy đến dễ thấy
Slightly Included - SI - có 2 cấp nhỏ (SI1, SI2) : Có những tạp chất, vết trầy dễ thấy hoặc rất dễ thấy
Included - I - có 3 cấp nhỏ (I1,I2,I3) : Không hoàn hảo lẫn bên trong lẫn bên ngoài
Ta đã nêu gồm 11 cấp độ tinh khiết khác nhau, nhưng với bộ dữ liệu này thì các cấp độ đó sẽ không đầy đủ như đã nêu bên trên, ta có thể thấy chỉ gồm :
table(KC$clarity)
##
## I1 SI2 SI1 VS2 VS1 VVS2 VVS1 IF
## 741 9194 13065 12258 8171 5066 3655 1790
Chỉ có 8 cấp độ tinh khiết trong bộ dữ liệu, không có mức FL và I3
Các mức độ đều gồm số lượng kim cương tương ứng như bảng trên
Nhìn tổng quan trước, ta thấy các mức ST và VS chiếm đa số trong tổng thể
Và để thấy rõ hơn, ta lại vẽ biểu đồ thể hiện chúng
KC %>% group_by(clarity) %>% summarise(n = n()) %>%
ggplot(aes(n,clarity)) +
geom_col(fill='purple') +
labs(title = " Biểu đồ thể hiện nhóm theo Clarity ") +
geom_text(aes(label = n),vjust = 1, color = 'black') +
labs(x = 'Số lượng', y = 'Độ tinh khiết')
Mức độ của các viên kim cương ở mỗi mức độ tinh khiết là không đồng đều nhau
Ta có thể thấy được số lượng các viên kim cương tương ứng với các mức độ tinh khiết như trong biểu đồ
Nổi bật ta thấy được mức SI1 chiếm số lượng nhiều nhất, với khoảng hơn 12,000 viên kim cương
Đây là những viên có lẫn những tạp chất, vết trầy dễ thấy hoặc rất dễ thấy
Vì được hình thành từ trong tự nhiên, nên xác suất gặp các viên kim cương chưa hoàn thiện là cao hơn hẳn
Theo ngay sau đó là VS2 và SI2, với số lượng đứng thứ 2,3 thì độ chênh lệch so với SI1 cũng là không quá nhiều
Khoảng cách rơi vào khoảng 1,000 và 4,000 viên cho mỗi mức tương ứng
Các viên kim cương ở 2 mức này đều có những tạp chất, vết trầy xước từ dễ thấy tới khó thấy rõ
3 mức VS1, VVS2, VVS1 có số lượng lần lượt ít dần, cả 3 đều ở mức không quá nhiều cũng không quá ít
Ngược lại mức IF và mức I1 lần lượt có số lượng ít nhất
Khi so sánh mức nhiều nhất và ít nhất, ta thấy ST1 gấp hơn 10 lần so với mức ít nhất là I1**
Những viên kim cương hoàn hảo và không hoàn hảo là những viên có số lượng ít nhất
Tương tự như các tiêu chí trên, ta tính toán và chuyển số lượng sang dạng % để thấy cụ thể hơn
KC %>% group_by(clarity) %>% summarise(n = n()) %>%
ggplot(aes(n, clarity)) +
geom_col(fill='purple') +
labs(title = "Biểu đồ thể hiện % thang đo Clarity ") +
theme_classic() +
geom_text(aes(label = percent(n/length(KC$clarity))),vjust = 1, color = 'black') +
labs(x = 'Số lượng', y = 'Độ tinh khiết')
Tương tự với biểu đồ trên nhưng thay bằng %, với phần trăm là 24,2% - mức SI1 có tỷ lệ chiếm cao nhất
Các tỷ lệ đứng thứ 2,3,4 lần lượt là VS2 22,7% - SI2 17% - VS1 15,1%
Tỷ lệ của 3 mức độ này cách mức độ đứng đầu khoảng 2 - 10%
Từ đó ta thấy được, không có mức độ nào là có số lượng cao hơn hẳn/ rõ rệt hơn các mức còn lại
Mức VVS2 và VVS1 đứng gần áp chót của biểu đồ với tỷ lệ ít hơn : 9,4% và 6,8%
Và cuối cùng, mức có tỷ lệ ít nhất trong bảng lần lượt là IF - 3,3% và I1 - 1,1%
Tương tư như ta đã so sánh các màu với Trọng lượng và Giác cắt, ta cũng có thể tách riêng các màu ra để dễ nhận xét hơn
Ta chọn ngẫu nhiên 2 màu D và E để so sánh với nhau cùng với độ tinh khiết
KCD <- diamonds %>%
group_by(clarity, color) %>%
summarise(n = n()) %>%
mutate(color = factor(color, levels = c("D", "E")))
## `summarise()` has grouped output by 'clarity'. You can override using the
## `.groups` argument.
KCD %>%
ggplot(aes(x = clarity, y = n, fill = color)) +
geom_col(position = position_dodge()) +
labs(x = "Độ tinh khiết", y = "Số lượng") +
labs(caption = "Biểu đồ thanh")
Sự chênh lệch của 2 màu D và E cũng không quá đáng kể và rõ rệt
Nhiều nhất vẫn là 3 mức SI2 - SI1 - VS2, và màu E luôn nhiều hơn hẳn màu D
5 mức còn lại với số kim cương ít hơn, nhưng màu E vẫn có số lượng nhiều hơn
Khoảng cách của mỗi mức sẽ rơi vào khoảng vài trăm đến vài ngàn viên
Diamond Table và Depth là những yếu tố có vai trò quyết định cho chất lượng giác cắt của kim cương
Giúp xác định hình dạng vật lý, tạo nên vẻ ngoài rực rỡ và lấp lánh cho viên kim cương
Sự cân đối giữa 2 đặc điểm này sẽ giúp đạt được chất lượng và tính thẩm mỹ cao nhất
Đây cũng là 2 loại Giác cắt (Cut) thường gặp
Chiều sâu hay còn là Chiều cao của kim cương
Chiều sâu sẽ được tính bằng cách chia tổng chiều sâu (tính từ đỉnh đến đáy) cho đường kính trung bình
Nếu viên kinh cương quá sâu thì sẽ dễ làm xuất hiện các vùng tối màu
Nếu viên kim cương quá nông thì có thể làm mất độ sáng
Tỷ lệ lý tưởng nhất ở thang đo chiều sâu sẽ trong khoảng từ 57,5 - 63%
Dựa trên tỷ lệ lý tưởng từ 57,3-63%, ta sẽ phân các viên kim cương thành 2 nhóm : Lý tưởng và Chưa lý tưởng
Nhóm Lý tưởng là nhóm có các viên kim cương có Độ sâu từ 57,3 đến 63%
Nhóm Chưa lý tưởng là nhóm có các viên kim cương có Độ sâu dưới 57,3% và trên 63%
Sau khi chia như vậy, ta được biểu đồ như sau :
KCLT <- diamonds
KCLT$depth.sau <- ifelse(KCLT$depth >= 57 & KCLT$depth <= 63, 'Lý tưởng', 'Chưa lý tưởng')
table(KCLT$depth.sau)
##
## Chưa lý tưởng Lý tưởng
## 7274 46666
KCLT %>% group_by(depth.sau) %>% summarise(n = n()) %>%
ggplot(aes(depth.sau,n)) +
geom_col(fill='gray') +
labs(title = " Biểu đồ thể hiện nhóm theo Depth ") +
geom_text(aes(label = n),vjust = 2, color = 'black') +
labs(x = 'Độ Lý tưởng theo Độ sâu', y = 'Số lượng')
Sau khi phân thành 2 nhóm lý tưởng hay không dựa trên thang đo độ sau, ta có được biểu đồ như trên
Đa phần các viên kim cương đều đạt mức lý tưởng với hơn 46,000 viên, chỉ có hơn 7,000 là chưa đạt
Giữa 2 mức lý tưởng và chưa lý tưởng cách nhau khoảng 39,000 viên
Chứng tỏ các viên kim cương đa phần đều có một Độ sâu hoàn hảo và lý tưởng
Nhưng biểu đồ trên chỉ có được nhận xét tổng quan, để cụ thể hơn ta cũng có thể vẽ các biểu đồ mức lý tưởn này trên từng loại màu sắc như sau :
KCLT %>% group_by(depth.sau,color) %>% summarise(n=n()) %>%
ggplot(aes(x = depth.sau,y = n)) +
geom_col(position = 'dodge') +
facet_wrap(~color) +
geom_text(aes(label = n),vjust = 0, color = 'black') +
labs(x = 'Độ lý tưởng theo Độ sâu', y = 'Số lượng')
## `summarise()` has grouped output by 'depth.sau'. You can override using the
## `.groups` argument.
Nhìn chung ta đều thấy được, mức lý tưởng đều có số lượng nhiều hơn chưa lý tưởng ở tất cả các màu
4 màu G, E, F, H là 4 màu có số lượng đạt mức lý tưởng nhiều nhất, với hơn 7,000 viên cho mỗi màu
3 màu D, I, J có số lượng ít hơn, nhưng nếu so với mức chưa lý tưởng thì cũng đã nhiều hơn từ vài ngàn viên
Mức chưa lý tưởng có số lượng từ vài trăm đến vài ngàn viên, sự chênh lệch cũng khá rõ rệt giữa 2 mức
Với từng màu sắc như 7 biểu đồ trên cũng là quá rõ ràng cho chúng ta có thể nhận xét
Nhưng bây giờ ta sẽ xếp các cột chồng lên nhau để có thêm một góc nhìn khác nữa :
KCLT1 <- KCLT %>% group_by(depth.sau, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'depth.sau'. You can override using the
## `.groups` argument.
KCLT1 %>% ggplot(aes(x = depth.sau, y =n)) +
geom_col(data = KCLT1 %>% filter(color == 'G'), fill = 'red') +
geom_col(data = KCLT1 %>% filter(color == 'D'), fill = 'yellow') +
geom_col(data = KCLT1 %>% filter(color == 'J'), fill = 'green') +
labs(x = 'Độ Sâu', y = 'Số lượng')
Ta quy định các màu trong biểu đồ như sau :
Màu đỏ trong biểu đồ chính là màu G
Màu vàng trong biểu đồ chính là màu D
Màu xanh lá trong biểu đồ chính là màu J
Khi tách 3 màu ra, với một góc nhìn khác, ta cũng có thể dễ dàng so sánh hơn
Màu G khi được xếp chồng lên vẫn có số lượng đứng nhiều nhất, tiếp theo là màu D và cuối cùng là J
Mức lý tưởng của màu G gần như gấp đôi màu D và gấp 3 lần màu J
Còn về mức chưa lý tưởng, cả 3 màu gần như có số lượng ngang nhau
Sự chênh lệch giữa các biểu đồ cột đơn, cột đôi, cột chồng về mặt số liệu là không hề thay đổi
Nhưng thông qua các biểu đồ khác nhau - các góc nhìn khác, ta cũng phần nào có thể thấy được sự chênh lệch đó rõ ràng hơn
Ta cũng có thề làm tương tự nhưng không xét ở màu sắc nữa, mà ta sẽ xét ở mức độ Giác cắt Cut
Và ta cũng nhận xét tương tự như ở phần Màu sắc bên trên cho phần Độ sâu dưới đây :
KCLT %>% group_by(depth.sau,cut) %>% summarise(n=n()) %>%
ggplot(aes(x = depth.sau,y = n)) +
geom_col(position = 'dodge') +
facet_wrap(~cut) +
geom_text(aes(label = n),vjust = 0, color = 'black') +
labs(x = 'Độ lý tưởng theo Độ sâu', y = 'Số lượng')
## `summarise()` has grouped output by 'depth.sau'. You can override using the
## `.groups` argument.
Độ đạt lý tưởng của mỗi mức vẫn chiếm phần lớn
Riêng mức Fair có mức chưa lý tưởng nhiều hơn lý tưởng
Nhưng nhìn chung, khoảng cách giữa 2 độ đạt lý tưởng vẫn khá cách biệt
Và ta cũng có nhận xét tương tự như phần màu sắc
KCLT2 <- KCLT %>% group_by(depth.sau, cut) %>% summarise(n = n())
## `summarise()` has grouped output by 'depth.sau'. You can override using the
## `.groups` argument.
KCLT2 %>% ggplot(aes(x = depth.sau, y =n)) +
geom_col(data = KCLT2 %>% filter(cut == 'Ideal'), fill = 'green') +
geom_col(data = KCLT2 %>% filter(cut == 'Premium'), fill = 'blue')
Ta có một biểu đồ tương tự như ở phần Màu sắc với Độ sâu với quy định như sau :
Màu xanh lá trong biểu đồ chính là đại diện cho mức Ideal
Màu xanh dương trong biểu đồ chính là đại diện cho mức Premium
Độ lý tưởng vẫn chiếm đại đa số so với chưa lý tưởng
Màu xanh lá đại diện cho mức Ideal cao hơn mức Premium - màu xanh dương ở độ lý tưởng
Nhưng ta thấy màu xanh dương cũng cao gần 2/3 của màu xanh lá
Chứng tỏ số lượng giữa chúng là có chênh lệch nhau, nhưng khoảng cách cũng không phải là quá rõ rệt
Còn độ chưa lý tưởng thì ta chỉ có thể thấy một tí màu xanh lá, có thể số lượng quá ít của 2 mức nên chưa thấy rõ
Diamond Table là loại giác cắt có hình lục giác đặc trưng, có bề mặt lớn nhất nằm trên đỉnh của viên kim cương
Nó có vai trò quan trọng trong việc xác định hình dáng của viên kim cương
Nó còn làm tăng khả năng khúc xạ các tia sáng, giúp cho kim cương trở nên lấp lánh hơn
Nếu bề mặt quá lớn sẽ thiếu chỗ cho sự phân tán ánh sáng
Nếu bề mặt quá nhỏ sẽ hạn chế ánh sáng chiếu vào làm giảm độ sáng tổng thể
Tỷ lệ lý tưởng nhất của một bề mặt hoàn hảo sẽ trong khoảng từ 53 - 65%
Cũng tương tự và dựa trên tỷ lệ lý tưởng đã có sẵn, ta tiến hành phân chia kim cương thành 2 nhóm Đạt và Không Đạt
Nhóm Đạt là nhóm có các viên kim cương có Bề mặt từ 53 đến 65%
Nhóm Không đạt là nhóm có các viên kim cương có Bề mặt dưới 53% và trên 65%
(Lưu ý : Ta sẽ dùng từ ‘Đạt’ để phân biệt với từ ‘Lý tưởng’ của phần Độ sâu, nên thật ra ‘Không đạt’ cũng chỉ là mức ‘Chưa lý tưởng’ mà thôi)
Ta tiến hành vẽ biểu đồ và có 2 nhóm như sau :
KCLTT <- diamonds
KCLTT$table.bemat <- ifelse(KCLTT$table >= 53 & KCLTT$table <= 65, 'Đạt', 'Không')
KCLTT %>% group_by(table.bemat) %>% summarise(n = n()) %>%
ggplot(aes(table.bemat,n)) +
geom_col(fill='gray') +
labs(title = " Biểu đồ thể hiện theo Table ") +
geom_text(aes(label = n),vjust = 0, color = 'black') +
labs(x = 'Độ đạt theo Bề mặt', y = 'Số lượng')
Những viên kim cương Đạt chuẩn hoàn toàn chiếm gần như tuyệt đối khi so với Không đạt
Mức Đạt chuẩn có số lượng hơn 53,000 viên, tỷ lệ hơn 99% - khoảng cách là rất rất cách biệt và chênh lệch
Mức Không đạt chỉ có 257 viên
Chứng tỏ các viên kim cương khi được thẩm định hay đánh giá đều phải có những giác cắt chuẩn xác đạt tới mức hoàn hảo
Ta cũng sẽ tiến hành vẽ các biểu đồ của từng màu sắc cùng với Độ đạt chuẩn của Bề mặt như sau :
KCLTT %>% group_by(table.bemat,color) %>% summarise(n=n()) %>%
ggplot(aes(x = table.bemat,y = n)) +
geom_col(position = 'dodge') +
facet_wrap(~color) +
geom_text(aes(label = n),vjust = 0, color = 'black') +
labs(x = 'Độ đạt theo Bề mặt', y = 'Số lượng')
## `summarise()` has grouped output by 'table.bemat'. You can override using the
## `.groups` argument.
Trong từng biểu đồ màu, độ đạt chuẩn cũng có tỷ lệ áp đảo như biểu đồ tổng
Trừ màu J ra, thì còn lại 6 màu đều có số kim cương đạt chuẩn lớn hơn 5,000 viên
Trong đa số các biểu đồ về màu sắc, màu J luôn có một số lượng khá khiêm tốn hơn
4 màu E,F,G,H đều có số lượng ở mức đạt chuẩn trên 8,000 viên và hoàn toàn chênh lệch với mức chưa đạt
Các mức chưa đạt đều chỉ rơi vào khoảng mấy chục viên cho mỗi màu, số lượng không nhiều
Qua các màu sắc càng chứng tỏ bề mặt giác cắt luôn được đánh giá tỉ mỉ nhất
Biểu đồ cột đôi với từng màu sắc, sẽ giúp ta dễ so sánh hơn
KCLTT1 <- KCLTT %>%
group_by(table.bemat, color) %>%
summarise(n = n()) %>%
mutate(color = factor(color, levels = c("H", "I")))
## `summarise()` has grouped output by 'table.bemat'. You can override using the
## `.groups` argument.
KCLTT1 %>%
ggplot(aes(x = table.bemat, y = n, fill = color)) +
geom_col(position = position_dodge()) +
labs(x = "Độ đạt bề mặt", y = "Số lượng") +
labs(caption = "Biểu đồ thể hiện từng màu sắc")
Ta chọn ngẫu nhiên màu H và I để so sánh về độ đạt chuẩn của bề mặt
Màu H chính là màu tím đậm trong biểu đồ
Màu I chính là màu vàng trong biểu đồ
Mức Đạt chuẩn của 2 màu có sự chênh lệch khoảng 2,000 viên
Còn mức không đạt vì số lượng quá ít nên ta chưa nhìn thấy rõ ràng
Đây cũng là biểu đồ so sánh các màu sắc với nhau, như biểu đồ trên là cột đôi thì biểu đồ dưới đây sẽ là cột chồng
Về mặt số liệu thì chắc chắn sẽ không có gì khác, nhưng sẽ khác về cách thể hiện trên biểu đồ
KCLTT1 <- KCLTT %>% group_by(table.bemat, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'table.bemat'. You can override using the
## `.groups` argument.
KCLTT1 %>% ggplot(aes(x = table.bemat, y =n)) +
geom_col(data = KCLTT1 %>% filter(color == 'H'), fill = 'pink') +
geom_col(data = KCLTT1 %>% filter(color == 'I'), fill = 'purple')
Ta cũng chọn 2 màu là H và I như biểu đồ cột đôi, nhưng biểu đồ cột chồng này đã có sự khác biệt về góc nhìn, ta quy định như sau :
Màu H chính là màu hồng trong biểu đồ
Màu I chính là màu tím trong biểu đồ
Mức Đạt chuẩn của 2 màu vẫn có sự chênh lệch khoảng 2,000 viên
Và màu tím đại diện cho màu I chiếm hơn một nửa cột màu hồng - đại diện cho màu H
Còn mức không đạt vì số lượng quá ít nên ta cũng không thể nhìn thấy từ biểu đồ này
Thế giới kim cương là biểu tượng cho một vẻ đẹp muôn màu, đa dạng. Mỗi một viên kim cương đều mang một hình dáng, độ lấp lánh, … riêng biệt và không có sự lặp lại, từng yếu tố đánh giá chất lượng đều sẽ gây ảnh hưởng đến giá thành của nó
4 yếu tố trong Tiêu chí 4C đã phân tích ở trên đều có ảnh hưởng từ chất lượng đến giá trị
Tiêu chuẩn 4C của GIA đã trở thành một tiêu chuẩn trên toàn thế giới để phân loại và định giá kim cương
Với hơn 50,000 viên kim cương, đương nhiên mỗi viên kim cương đều mang giá trị của riêng nó
Ta sẽ tiến hành tính trung bình giá thành của tất cả chúng, để thấy được liệu để sở hữu được 1 viên kim cương cần bao nhiêu
Trước tiên, ta sẽ chia nhỏ Giá thành Price thành 4 nhóm : Rất rẻ - Rẻ - Đắt - Rất đắt
Lưu ý : Việc đặt tên cho từng nhóm như thế này chỉ mang tính chất tượng trưng vì ta không rõ đơn vị tiền tệ của các viên kim cương là đơn vị nào
Giá thành của kim cương sẽ tùy thuộc vào nhiều yếu tố, ta chỉ đang xét giá trị các viên kim cương có trong bộ dữ liệu
table(cut(KC1$price,4))
##
## (308,4.95e+03] (4.95e+03,9.57e+03] (9.57e+03,1.42e+04] (1.42e+04,1.88e+04]
## 39013 9285 3574 2068
KC1$price.t <- cut(KC1$price,4, labels = c('Rất rẻ','Rẻ','Đắt','Rất đắt'))
table(KC1$price.t)
##
## Rất rẻ Rẻ Đắt Rất đắt
## 39013 9285 3574 2068
Ta có được 4 nhóm giá thành được chia như sau : (tạm cho đơn vị là đơn vị tiền)
Mức giá thành Rất rẻ - có giá từ 308 - khoảng 4,000 đơn vị tiền
Mức giá thành Rẻ - có giá từ 4,000 - khoảng 9,000 đơn vị tiền
Mức giá thành Đắt - có giá từ 9,000 - khoảng 14,000 đơn vị tiền
Mức giá thành Rất đắt - có giá từ 14,000 - khoảng 18,000 đơn vị tiền
Sau đó tiến hành vẽ biểu đồ
KC <- diamonds
KC2 <- KC %>% mutate(GiaPrice = cut(price,4, label = c('Rất rẻ', 'Rẻ','Đắt','Rất đắt')))
KC2 %>% group_by(GiaPrice) %>% summarise(n = n()) %>%
ggplot(aes(GiaPrice,n)) +
geom_col(fill='green') +
labs(title = " Biểu đồ thể hiện giá thành ") +
geom_text(aes(label = n),vjust = 0, color = 'black') +
labs(x = 'Price', y = 'Số lượng')
Sự phân bổ không đồng đều mức giá của các viên kim cương là quá rõ rệt
Nhìn chung những giá thành càng đắt thì càng còn có số lượng kim cương càng giảm dần
Những viên kim cương có giá thành Rất rẻ có số lượng nhiều nhất với hơn 39,000 viên
Sự chênh lệch của giá Rất rẻ và giá thành Rẻ cũng đã là khá chênh lệch - hơn 30,000 viên
Còn giá thành Đắt và Rất đắt là có số lượng ít nhất
Các viên kim cương có giá thành rẻ là khá nhiều, nên việc sở hữu chúng có thể là dễ dàng hơn so với giá thành đắt
Nhưng nếu muốn sở hữu một viên kim cương lộng lẫy nhất, tuyệt đẹp nhất thì việc nó có giá Rất đẳ là chuyện rất bình thường
Sau khi nhìn rõ được số lượng kim cương ở mỗi mức giá, ta tiến hành vẽ tiếp một biểu đồ khác dựa trên mức giá đã được tính trung bình, biểu đồ như sau :
KC2 %>% group_by(GiaPrice) %>% summarise(m= mean(price)) %>%
ggplot(aes(x = GiaPrice,y = m)) +
geom_col(position = 'dodge') +
geom_text(aes(label = round(m,2)), vjust = 2, color = 'green') +
labs(x = 'Price', y = 'Mean')
Sau khi đã tính trung bình ở mỗi mức giá ta có số liệu như sau :
Mức giá Rất rẻ có giá trung bình là khoảng 1,897 đơn vị tiền
Mức giá Rẻ có giá trung bình là khoảng 6,759 đơn vị tiền
Mức giá Đắt có giá trung bình là khoảng 11,625 đơn vị tiền
Mức giá Rất đắt có giá trung bình là khoảng 16,340 đơn vị tiền
Nếu bạn muốn sở hữu một viên kim cương cho mình, thì trung bình bạn phải có ít nhất 1,900 đơn vị tiền trở lên để có nó, nếu không thì bạn phải trả thêm như sau :
Mức giá Rất đắt có giá thành đúng như cái tên, phải có hơn 16,000 đơn vị tiền mới có thể mua được
Các mức còn lại cũng có mức giá giảm dần nhưng khoảng chênh lệch so với mức rẻ nhất cũng là 5,000 đơn vị tiền trở lên
Mức giá thấp nhất và cao nhất có sự chênh lệch đến 15,000 đơn vị tiền
Median - Số trung vị hay là một điểm trung tâm trong một danh sách được sắp xếp tăng hoặc giảm dần (nó khác trung bình ở chỗ nó chia đối tượng ra làm đôi và chưa chắc 2 bên đó sẽ cân bằng nhau)
Ban nãy, ta tính giá trung bình để có thể mua một viên kim cương - đó là số tiền trung bình nếu muốn sở hữu
Còn khi tính số trung vị - có nghĩa ta đã chia giá thành của lượng kim cương đó ra làm 2 phần
Số tiền ta tính ra được gọi là số trung vị/ hay gọi là con số trung tâm
Có nghĩa là 1 nửa lượng kim cương sẽ có giá thấp hơn mức giá đó và 1 nửa lượng bên còn lại sẽ có giá cao hơn
Nó hoàn toàn khác với giá trung bình đã tính
Ta có biểu đồ tính giá tiền trung vị trên mỗi mức giá như sau :
KC2 %>% group_by(GiaPrice) %>% summarise(m= median(price)) %>%
ggplot(aes(x = GiaPrice,y = m)) +
geom_col(position = 'dodge') +
geom_text(aes(label = round(m,2)), vjust = 2, color = 'green') +
labs(x = 'Price', y = 'Mean')
Sau khi đã tính trung vị ở mỗi mức giá ta có số liệu như sau :
Mức giá Rất rẻ có giá trung vị là khoảng 1,407 đơn vị tiền
Mức giá Rẻ có giá trung vị là khoảng 6,518 đơn vị tiền
Mức giá Đắt có giá trung vị là khoảng 11,474 đơn vị tiền
Mức giá Rất đắt có giá trung vị là khoảng 16,258 đơn vị tiền
Ta thấy từng mức giá trung vị cũng không chênh lệch với trung vị là bao
Nhưng nhìn chung, các mức giá vẫn xếp theo thứ tự : Rất đắt cao nhất, Đắt - Rẻ - Rất rẻ giảm dần theo sau
Ví dụ nếu bạn muốn mua một viên kim cương ở mức giá Đắt, thì theo số liệu giá thành trung vị là 11,474
Theo như số liệu có 3,574 viên kim cương ở giá thành này
Vậy có 1 nửa lượng các viên kim cương này có giá trên 11,474 đơn vị tiền
Còn lại có 1 nửa lượng các viên kim cương có giá dưới 11,474 đơn vị tiền