Tiến hành nghiên cứu:
Trước hết, ta cần phải gọi dữ liệu diamonds lên
h <- diamonds
- Đổi tên biến cut trong dữ liệu diamonds, thay bằng
tên loại để tránh bị nhầm lẫn khi đánh giá giữa loại
của kim cương và vết cắt của kim cương
h <- rename(h, loai = cut)
datatable(h)
COLOR - Cấp độ màu của kim cương:
- Cấp độ màu của kim cương nói một cách cụ thể là ta phân loại độ
trong là của màu sắc:
- Màu loại D, E và F có độ trong suốt gần như là
tuyệt đối (Nên thường được được gọi là kim cương không màu)
- Màu loại G,H,I,J có độ trong suốt cũng tương đối
cao, rất khó để phân biệt được với các loại kim cương màu
D,E,F vì chúng cũng gần như là kim cương không màu
h %>% group_by(color) %>% summarise(n = n()) %>%
ggplot(aes(color,n)) +
geom_col(fill='red') +
geom_text(aes(label = n),vjust = 2, color = 'black') +
xlab('Color') +
ylab('Số lượng') +
labs(title = 'Hình 1: Cấp độ màu của kim cương')

- Qua hình trên ta thấy được:
- Tỉ trọng giữa các màu của kim cương không đồng đều
- Cấp độ màu G có số lượng lớn nhất là 11292 viên gấp
4 lần so với cấp độ màu J bé nhất là 2808 viên
- Cấp độ màu E có 9797 viên
- Cấp độ màu F, H, D có lần lượt là 9542, 8304, 6775
viên
- Cấp độ màu I có 5422 viên
Biểu đồ phân loại màu của kim cương
h %>% group_by(color) %>% summarise(n = n()) %>%
ggplot(aes(color,n)) +
geom_col(fill='blue') +
geom_text(aes(label = n),vjust = 2, color = 'yellow') +
labs(x = 'Màu', y = 'Số lượng')

labs(title =' Hình 1: Biểu đồ phân loại màu của kim cương') +
coord_flip()
## NULL
- Quan sát biểu đồ ta thấy:
- Màu sắc của các kim cương phân bố không đồng đều
- Số kim cương không màu chiếm phần lớn số lượng gồm: D, E,
F có lần lượt là 6775, 9797, 9542 viên
- Số kim cương màu G chiếm số lượng lớn nhất với
11292 viên
- Số kim cương có màu nhưng rất ít( gần như không màu) chiếm phần nhỏ
số lượng gồm: H, I, J có lần lượt là 8304, 5422, 2808
viên.
Biểu đồ thể hiện số lượng kim cương theo màu
h %>% group_by(color) %>% summarise(n=n()) %>%
ggplot(aes(x = color,y = n)) +
geom_col(position = 'dodge') +
facet_wrap(~color) +
geom_text(aes(label = n),vjust = 2, color = 'blue') +
labs(x = 'Màu sắc', y = 'Số lượng') +
labs(title = 'Hình 1: Tập hợp các biểu đồ thể hiện số lượng kim cương theo màu')

- Quan sát biểu đồ ta thấy:
- Tỉ trọng giữa các màu của kim cương không đồng đều
- Cấp độ màu G có số lượng lớn nhất là 11292 viên gấp
4 lần so với cấp độ màu J bé nhất là 2808 viên
- Cấp độ màu E có 9797 viên
- Cấp độ màu F, H, D có lần lượt là 9542, 8304, 6775
viên
- Cấp độ màu I có 5422 viên
Biểu đồ phân bổ số lượng màu của các kim cương(Biểu đồ ngang)
h %>% ggplot(aes(x = color)) +
geom_bar() +
labs(x = 'Màu sắc', y = 'Số lượng') +
coord_flip() +
labs(title = 'Hình 1: Biểu đồ phân bổ số lượng màu của các kim cương(biểu đồ ngang)')

- Quan sát biểu đồ ta thấy:
- Màu sắc của các kim cương phân bố không đồng đều. Cho thấy mức độ
khan hiếm của từng loại màu của kim cương
- Số kim cương màu G chiếm số lượng lớn nhất với hơn
11000 viên
- Số kim cương có màu nhưng rất ít( gần như không màu) chiếm phần nhỏ
số lượng gồm: H, I, J có lần lượt là hơn 8000viên, gần
5500 viên, gần 3000 viên.
- Số kim cương không màu chiếm phần lớn số lượng gồm: D, E,
F có lần lượt là hơn 6500 viên, gần 10000 viên, xấp xỉ 9500
viên
Biểu đồ thể hiện giá trị trung bình của số kim cương phân theo
màu
h %>% group_by(loai) %>% summarise(m= mean(carat)) %>%
ggplot(aes(x = loai,y = m)) +
geom_col(position = 'dodge') +
geom_text(aes(label = round(m,2)), vjust = 2, color = 'red') +
labs(x = 'Màu', y = 'Mean') +
labs(title = 'Hình 1: Biểu đồ thể hiện trung bình số kim cương theo màu')

- Quan sát biểu đồ ta thấy
- Mức độ phân bố trung bình các màu của kim cương tương đối đồng
đều
- Màu Fair có mức độ phân bố trung bình cao nhất
1,05
- Màu Good, Very Good,
Premiumcó mức độ phân bố trung bình gần 0,8 cụ thể lần
lượt là: 0,85; 0,81; 0,89
- Màu Ideal có mức độ phân bố trung bình thấp nhất
chỉ nằm ở 0,7
Biểu đồ thể hiện tỉ lệ kim cương theo loại và màu
k <- h %>% group_by(loai, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'loai'. You can override using the
## `.groups` argument.
k %>% ggplot(aes(x = loai, y = n)) +
geom_col(data = k %>% filter(color == 'G'), fill = 'red') +
geom_col(data = k %>% filter(color == 'H'), fill = 'blue')

- Quan sát biểu đồ ta thấy:
- k là một tập hợp mới thống kê số lượng kim cương theo loại và
màu
- Ta thấy số lượng kim cương màu H chiếm phần lớn trong tổng, số lượng
kim cương màu G chỉ chiếm số ít
- Cụ thể:
- SỐ lượng kim cương màu G loại Ideal nhiều nhất với
hơn 3000 viên trong khi đó cùng loại màu H chỉ gần 2000 viên
- Số lượng kim cương màu G loại Fair chiếm phần lớn
với hơn 300 viên trong khi đó cùng loại màu H gần như không có
- SỐ lượng kim cương màu G loại VeryGoodchiếm trung
bình với gần 2000 viên trong khi đó cùng loại màu H chỉ gần 500
viên
CUT - Vết cắt của kim cương (bao gồm: depth và table):
h %>% group_by(table) %>% filter(table >= 53 & table <= 65) %>% summarise(n = n()) %>%
ggplot(aes(table,n)) +
geom_col(fill='green') +
xlab('Table') +
ylab('Số lượng') +
labs(title = 'Hình 1: Vết cắt table của kim cương')

- Quan sát biểu đồ trên ta thấy được:
- Mức độ phân bổ của các vết cắt kim cương ko đồng đều
- Các viên kim cương có vết cắt nằm trong khoảng từ 55 đến 60 chiếm số
lượng lớn nhất với hơn 30000 viên. Cụ thể là: Vết cắt ở 55,75 và 56,6
chiếm số lượng lớn nhất với hơn 19000 viên
- Các viên kim cương có vết cắt nằm trong khoảng từ 52,5 đến dưới 55
chiếm số lượng tương đối nhỏ với hơn 3000 viên.
- Các viên kim cương có vết cắt nằm trong khoảng từ 60 đến dưới 65
chiếm số lượng nhỏ nhất với hơn 4000 viên. Cụ thể là: Vết cắt ở 65 chiếm
số lượng nhỏ nhất với chỉ khoảng 200 viên
##Cut: Vết cắt của kim cương
h %>% ggplot(aes(x = loai)) +
geom_bar() +
labs(x = 'Loại', y = 'Số lượng') +
coord_flip() +
labs(title = 'Hình 1: Vết cắt của kim cương(biểu đồ ngang)')

- Quan sát biểu đồ trên ta thấy được:
- Mức độ phân bổ của các loại kim cương ko đồng đều
- Các viên kim cương loại Ideal có số lượng lớn nhất
với hơn 20000 viên.
- Các viên kim cương loại Fair có số lượng ít nhất
với hơn 2500 viên.
- Các viên kim cương loại Good,
Verygood, Premium có số lượng trung
bình với lần lượt là 5000, 12500, 13000 viên
Biểu đồ phân loại kim cương
h %>% group_by(loai) %>% summarise(n = n()) %>%
ggplot(aes(loai,n)) +
geom_col(fill='grey') +
geom_text(aes(label = n),vjust = 2, color = 'red') +
labs(x = 'Loại', y = 'Số lượng') +
labs(title =' Hình 1: Biểu đồ phân loại kim cương')

- Quan sát biểu đồ ta thấy:
- Mức độ phân bố kim cương theo các loại không đồng đều
- Số lượng kim cương loại Ideal nhiều nhất với 21551
viên
- Số lượng kim cương loại Fair ít nhất với 1610 viên
ít hơn 13 lần so với loại Ideal
- Số lượng kim cương loại Good,
Verygood, Premium có số lượng tăng dần
lần lượt là: 4906 viên, 12082 viên, 13791 viên
Biểu đồ thể hiện tỉ lệ kim cương theo loại và màu
k <- h %>% group_by(loai, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'loai'. You can override using the
## `.groups` argument.
k %>% ggplot(aes(x = loai, y = n)) +
geom_col(data = k %>% filter(color == 'G'), fill = 'green') +
geom_col(data = k %>% filter(color == 'H'), fill = 'grey')

Biểu đồ tỉ số loại kim cương
h %>% group_by(loai) %>% summarise(n = n()) %>%
ggplot(aes(loai,n)) +
geom_col(fill='beige') +
geom_text(aes(label = percent(n/length(h$carat))),vjust = 2, color = 'red') +
labs(x = 'Loại', y = 'Số lượng') +
labs(title =' Hình1: Biểu đồ tỉ số các loại kim cương')

- Quan sát biểu đồ ta thấy:
- Các loại kim cương phân bố không đồng đều
- Số lượng kim cương loại Ideal nhiều nhất chiếm hơn
40%
- Số lượng kim cương loại Fair ít nhất chiếm chỉ hơn
3% ít hơn 13 lần so với loại Ideal
- Số lượng kim cương loại Good,
Verygood, Premium có số lượng tăng dần
lần lượt là: 9,1%, 22,4%; 25,6%
Biểu đồ thể hiện trung bình giá kim cương theo loại
h %>% group_by(loai,color) %>% summarise(m = mean(price)) %>%
ggplot(aes(x = loai,y = m)) +
geom_col(position = 'dodge') +
facet_wrap(~color) +
geom_text(aes(label = round(m))) +
labs(x = 'Loại', y = 'Số lượng') +
labs(title = 'Hình 1: Biểu đồ thể hiện trung bình giá kim cương theo loại')
## `summarise()` has grouped output by 'loai'. You can override using the
## `.groups` argument.

Tập hợp các biểu đồ thể hiện tỉ lệ kim cương theo loại
h %>% group_by(loai,color) %>% summarise(n=n()) %>%
ggplot(aes(x = loai,y = n)) +
geom_col(position = 'dodge') +
facet_wrap(~color) +
geom_text(aes(label = n),vjust = 2, color = 'blue') +
labs(x = 'Loại', y = 'Số lượng') +
labs(title = 'Hình 1: Tập hợp các biểu đồ thể hiện tỉ lệ kim cương theo loại')
## `summarise()` has grouped output by 'loai'. You can override using the
## `.groups` argument.

CLARITY - Đánh giá cấp độ tinh khiết của kim cương:
Trong tiêu chuẩn 4C, độ tinh khiết của kim cương là số lượng và
khả năng hiển thị của các đặc điểm bên trong và bên ngoài của một viên
kim cương.
Cấp độ trong cao nhất là Hoàn mỹ, được ký hiệu là
IF (Internal Flawless): Những viên kim cương này không
có tạp chất tỳ vết nào được nhìn thấy dưới độ phóng đại 10 lần.
Hai lớp tiếp theo được nhóm lại với nhau là VVS1
và VVS2: Những viên kim cương này được định nghĩa là
rất rất ít tỳ vết bên trong, gồm cấp độ thứ nhất (VVS1) hoặc thứ hai
(VVS2).
Tiếp theo là các cấp độ tinh khiết VS1 và
VS2: Các đầu kim (needle) và vết lông vũ nhỏ (small
feather) có thể được tìm thấy trong các lớp VS1 và VS2 này nhưng chúng
vẫn rất nhỏ so với kích thước của viên kim cương.
Cấp độ mà tỳ vết hoặc tạp chất có thể nhìn thấy rõ ràng là
SI1 và SI2: Tạp chất dễ nhìn thấy dưới
độ phóng đại ký loupe cầm tay nhưng thường không thể nhìn thấy bằng mắt
thường.
Phạm vi cấp độ rõ ràng cuối cùng là I1: Các tạp
chất có thể lớn hơn trong tự nhiên, có thể sẫm màu và có thể nhìn thấy
bằng mắt trong số các thuộc tính có thể có khác.
h %>% group_by(clarity) %>% summarise(n = n()) %>%
ggplot(aes(clarity,n)) +
geom_col(fill='grey') +
geom_text(aes(label = n),vjust = 2, color = 'white') +
xlab('Độ tinh khiết') +
ylab('Số lượng') +
labs(title = 'Hình 1: Cấp độ tinh khiết của kim cương')

-Qua hình trên ta thấy được: - Cấp độ tinh khiết của kim cương có sự
phân hoá không đồng đều (Cấp SI1=13065 lớn hơn nhiều so với cấp I1= 741)
- Cấp độ tinh khiết của kim cương cao thứ 2 là VS2= 12258 - Cấp độ tinh
khiết của kim cương cao thứ 3 là SI2= 9194 - Cấp độ tinh khiết của kim
cương cao thứ 4,5,6,7 lần lượt là VS1= 8171, VVS2= 5066, VVS1= 3655, IF=
1790
Cấp độ tinh khiết của kim cương (biểu đồ ngang)
h %>% ggplot(aes(x = clarity)) +
geom_bar() +
labs(x = 'Cấp độ tinh khiết', y = 'Số lượng') +
coord_flip() +
labs(title = 'Hình 1: Cấp độ tinh khiết của kim cương (biểu đồ ngang)')
- Quan sát biểu đồ ta thấy: - Cấp độ tinh khiết của kim cương có sự phân
hoá không đồng đều (Cấp SI1 lớn hơn nhiều so với cấp
I1) - Cấp độ tinh khiết của kim cương cao thứ 2 là
VS2 hơn 12000 viên - Cấp độ tinh khiết của kim cương
cao thứ 3 là SI2 hơn 9000 viên - Cấp độ tinh khiết của
kim cương cao thứ 4,5,6,7 lần lượt là VS1 hơn 8000
viên, VVS2 hơn 5000 viên, VVS1 hơn
3500 viên, IF hơn 1700 viên
Biểu đồ cấp độ tinh khiết của kim cương
h %>% group_by(clarity) %>% summarise(n = n()) %>%
ggplot(aes(clarity,n)) +
geom_col(fill='white') +
geom_text(aes(label = n),vjust = 2, color = 'black') +
labs(x = 'Cấp độ tinh khiết', y = 'Số lượng')

labs(title =' Hình 1: Biểu đồ phân loại cấp độ tinh khiết của kim cương') +
coord_flip()
## NULL
-Quan sát biểu đồ ta thấy được: - Cấp độ tinh khiết của kim cương có
sự phân hoá không đồng đều (Cấp SI1=13065 lớn hơn nhiều so với cấp I1=
741) - Cấp độ tinh khiết của kim cương cao thứ 2 là VS2= 12258 - Cấp độ
tinh khiết của kim cương cao thứ 3 là SI2= 9194 - Cấp độ tinh khiết của
kim cương cao thứ 4,5,6,7 lần lượt là VS1= 8171, VVS2= 5066, VVS1= 3655,
IF= 1790
Tập hợp các biểu đồ thể hiện số lượng kim cương theo cấp độ tinh
khiết
h %>% group_by(clarity,color) %>% summarise(n=n()) %>%
ggplot(aes(x = clarity,y = n)) +
geom_col(position = 'dodge') +
facet_wrap(~color) +
labs(x = 'Độ tinh khiết', y = 'Số lượng') +
labs(title = 'Hình 1: Tập hợp các biểu đồ thể hiện số lượng kim cương theo cấp độ tinh khiết')
## `summarise()` has grouped output by 'clarity'. You can override using the
## `.groups` argument.

Tập hợp các biểu đồ thể hiện tỉ lệ kim cương theo độ tinh khiết
h %>% group_by(clarity,color) %>% summarise(n=n()) %>%
ggplot(aes(x = clarity,y = n)) +
geom_col(position = 'dodge') +
facet_wrap(~color) +
geom_text(aes(label = n),vjust = 2, color = 'blue') +
labs(x = 'Độ tinh khiết', y = 'Số lượng') +
labs(title = 'Hình 1: Tập hợp các biểu đồ thể hiện số lượng kim cương theo độ tinh khiết')
## `summarise()` has grouped output by 'clarity'. You can override using the
## `.groups` argument.

Biểu đồ thể hiện trung bình giá kim cương theo độ tinh khiết
h %>% group_by(clarity,color) %>% summarise(m = mean(price)) %>%
ggplot(aes(x = clarity,y = m)) +
geom_col(position = 'dodge') +
facet_wrap(~color) +
geom_text(aes(label = round(m))) +
labs(x = 'Loại', y = 'Số lượng') +
labs(title = 'Hình 1: Biểu đồ thể hiện trung bình giá kim cương theo độ tinh khiết')
## `summarise()` has grouped output by 'clarity'. You can override using the
## `.groups` argument.

CARAT - Trọng lượng của kim cương:
Trọng lượng carat của viên kim cương được xác định bằng cách cân
viên kim cương trên một chiếc cân điện tử chính xác. Một carat bằng 1/5
gam, vì vậy một gam sẽ bằng năm carat.
Số carat thường được giữ hai số thập phân cuối cùng, ví dụ như
1.53 , 1.00 , 2.93 carat. Vì vậy, một viên kim cương một nửa carat sẽ
được biểu thị bằng 0,50 carat, một viên kim cương một carat sẽ được biểu
thị bằng 1,00.
Trọng lượng chính xác là rất quan trọng vì việc định giá dựa trên
trọng lượng này và có sự khác biệt đáng kể về giá cả đôi khi chỉ hơn một
phần trăm carat. Một viên kim cương nặng 0,99 carat có giá thấp hơn một
viên kim cương nặng 1,00 carat. Tuy nhiên nếu nhìn bằng mắt thường bạn
sẽ không phân biệt được sự khác biệt này.
h %>% group_by(carat) %>% filter(carat >= 0.23 & carat <= 2.05) %>% summarise(n = n()) %>%
ggplot(aes(carat,n)) +
geom_col(fill='blue') +
xlab('Carat') +
ylab('Số lượng') +
labs(title = 'Hình 1: Trọng lượng của kim cương')

Qua hình trên ta thấy được: - Ta thấy trọng lượng của kim cương phân
bố không đồng đều. Đa số tập trung ở mức từ 0,3-1,6 carat - Các mức
trọng lượng chiếm phần lớn là 0,3 ; 0,65 và 1 carat - Các mức trọng
lượng chiếm số lượng ít nhất là từ 1,6- 1,9
