GIỚI THIỆU
Bộ dữ liệu DIAMONS là bộ dữ liệu nằm trong packages tidyverse với
53940 quan sát và 10 biến về các
loại kim cương
Các biến bao gồm:
carat: Trọng lượng của kim cương.
cut: Loại cắt của kim cương (Fair, Good, Very Good, Premium,
Ideal).
color: Màu sắc của kim cương, được mã hóa từ D (tốt nhất) đến J (kém
nhất).
clarity: Độ trong suốt của kim cương (IF, VVS1, VVS2, VS1, VS2, SI1,
SI2, I1).
depth: Độ sâu của kim cương, được đo từ mặt bên dưới đến mặt trên,
chia cho chiều dài.
table: Chiều rộng của mặt bên trên của kim cương so với điểm cắt,
chia cho chiều rộng lớn nhất.
price: Giá của kim cương (đơn vị: USD).
x: Chiều dài của kim cương (đơn vị: mm).
y: Chiều rộng của kim cương (đơn vị: mm).
z: Chiều sâu của kim cương (đơn vị: mm).
Và dưới đây là các biểu đồ biểu diễn những thông tin của bộ dữ liệu
để dễ dàng thống kê và phân tích
library(ggplot2)
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.4 ✔ readr 2.1.5
## ✔ forcats 1.0.0 ✔ stringr 1.5.1
## ✔ lubridate 1.9.3 ✔ tibble 3.2.1
## ✔ purrr 1.0.2 ✔ tidyr 1.3.0
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(scales)
##
## Attaching package: 'scales'
##
## The following object is masked from 'package:purrr':
##
## discard
##
## The following object is masked from 'package:readr':
##
## col_factor
p <- diamonds
I. Tổng hợp số lượng kim cương theo các biến khác
nhau
1. Hình 1.1: Biểu đồ thể hiện số lượng kim cương theo chất
lượng
p %>% ggplot(aes(x = cut)) +
geom_bar() +
labs(x = 'Loại', y = 'Số lượng')+
coord_flip()

Biểu đồ trên ta có thể thấy được: số lượng kim cương tăng dần theo
mức độ chất lượng từ thấp đến cao, cột cao nhất với chất lượng Ideal có
hơn 20000 đơn vị kim cương; cột thấp nhất với chất lượng Fair chiếm
khoảng 2300 đơn vị
2. Hình 1.2
p %>% group_by(cut ) %>% summarise(n = n()) %>%
ggplot(aes(cut,n)) +
geom_col(fill='orange') +
geom_text(aes(label = n),vjust = 2, color = 'yellow') +
labs(x = 'Loại ', y = 'Số lượng')

Cũng như loại biểu đồ trên biểu đồ dưới đây tổng hợp số lương kim
cương theo chất lương nhưng được cụ thể hơn:
- Kim cương có chất lượng Fair thấp nhất chiếm 1610
- Chất lượng Good chiếm 4906
- Chất lượng Very Good chiếm 12082
- Chất lượng Premium chiếm 13791 và cuối cùng vị trí cao nhất là Ideal
chiếm 21551 đơn vị
3. Hình 1.3: Biểu đồ thể hiện số lượng kim cương theo độ
trong suốt
p %>% ggplot(aes(x = clarity)) +
geom_bar() +
labs(x = 'Loại', y = 'Số lượng') +
coord_flip()

Qua biểu đồ ta thấy được số lượng kim cương theo từng loại cụ
thể:
- Kim cương loại SI1 có số lương cao nhất khoảng hơn 15000 đơn vị
- Kim cương loại I1 thấp nhất chiếm khoảng 1200 đơn vị.
4. Hình 1.4
p %>% group_by(clarity ) %>% summarise(n = n()) %>%
ggplot(aes(clarity,n)) +
geom_col(fill='salmon') +
geom_text(aes(label = n),vjust = 2, color = 'navy') +
labs(x = 'Loại ', y = 'Số lượng')

Biểu đồ 1.4 cho ta thấy kim cương có độ trong suốt cụ thể:
- I1 thấp nhất chiếm 741 đơn vị, SI2 chiếm 9194 đơn vị
- SI1 cao nhất chiếm 13065 đơn vị, VS2 chiếm 12258
- VS1 chiếm 8171, VVS2 chiếm 5066
- VVS1 chiếm 3655, IF chiếm 1790
II. Khối lượng carat trung bình của kim cương
1. Hình 2.1: Biểu đồ khối lượng carat trung bình theo chất
lượng
p %>% group_by(cut) %>% summarise(m= mean(carat)) %>%
ggplot(aes(x = cut,y = m)) +
geom_col(fill='pink') +
geom_text(aes(label = round(m,2)), vjust = 2, color = 'red') +
labs(x = 'Loại', y = 'Mean')

Biểu đồ 2.1 thể hiện khối lượng carat trung bình của các viên kim
cương theo chất lượng được cụ thể:
- Chất lượng Fair khối lượng carat trung bình cao nhất là 1.05
- Chất lượng Good khối lượng carat trung bình là 0.85
- Chất lượng Very Good khối lượng carat trung bình là 0.81
- Chất lượng Premium khối lượng carat trung bình là 0.89; cuối cùng
chất lượng Ideal khối lượng carat trung bình thấp nhất là 0.7
2. Hình 2.2: Biểu đồ khối lượng carat trung bình theo độ
trong suốt
p %>% group_by(clarity) %>% summarise(m= mean(carat)) %>%
ggplot(aes(x = clarity,y = m)) +
geom_col(fill='orchid') +
geom_text(aes(label = round(m,2)), vjust = 2, color = 'brown') +
labs(x = 'Độ trong suốt', y = 'Mean')

Độ trong suốt của kim cương có khối lượng carat trung bình được biểu
diễn bằng số liệu cụ thể:
- Kim cương có độ trong suốt I1 cao nhất với khối lượng carat trung
bình là 1.28
- SI2 có khối lượng carat trung bình là 1.08
- VS2 có khối lượng trung bình là 0.76
- VS1 có khối lượng trung bình là 0.73
- VVS2 có khối lượng trung bình là 0.6
- Kim cương có độ trong suốt VVS1 thấp nhất với khối lượng carat trung
bình là 0.5. Cuối cùng là IF chiếm 0.51
3. Hình 2.3: Biểu đồ khối lượng carat trung bình theo màu
p %>% group_by(color) %>% summarise(m= mean(carat)) %>%
ggplot(aes(x = color,y = m)) +
geom_col(fill='yellow') +
geom_text(aes(label = round(m,2)), vjust = 2, color = 'black') +
labs(x = 'Color', y = 'Mean')

Biểu đồ 2.3 cho thấy khối lượng carat trung bình theo màu J cao nhất
chiếm 1.16, khối lượng carat trung bình D và E thấp nhất chiếm 0.66
4. Hình 2.4: Biểu đồ khối lượng carat trung bình theo chiều
sâu vết cắt
p %>% group_by(depth) %>% summarise(n = n()) %>%
ggplot(aes(depth,n)) +
geom_col(fill='blue') +
labs(x = 'Loại', y = 'Số lượng')

III. Phân tích biểu đồ chỉ phần trăm số lượng theo biến
cut
1. Hình 3.1
p %>% group_by(cut) %>% summarise(n = n()) %>%
ggplot(aes(cut,n)) +
geom_col(fill='salmon') +
geom_text(aes(label = percent(n/length(p$carat))),vjust = 2, color = 'black') +
labs(x = 'Loại', y = 'Số lượng')

- Fair : 3% (chiếm tỉ trọng nhỏ nhất)
- Good : 9,1%
- Very Good : 22,4%
- Premium : 25,6%
- Ideal : 40% (chiếm tỉ trọng lớn nhất )
2. Hình 3.2: Phân tích biểu đồ chỉ phần trăm số lượng theo
biến color
p %>% group_by(color) %>% summarise(n = n()) %>%
ggplot(aes(color,n)) +
geom_col(fill='pink') +
geom_text(aes(label = percent(n/length(p$carat))),vjust = 2, color = 'red') +
labs(x = 'Màu sắc', y = 'Số lượng')

Biểu đồ trên được chia theo biến ‘color’và gồm 7 loại lần lượt là
’D’,‘E’,‘F’,‘G’,‘H’,‘I’,‘G’ trục tung là số lượng kim cương ở từng loại
. Từ đồ thị ta thấy được tỉ trọng của từng loại kim cương :
- D : 12,56%
- E : 18,16%
- F : 17,69%
- G : 20,93%
- H : 15,39% (chiếm tỉ trọng lớn nhất )
- I : 10,05%
- J : 5,21% (chiếm tỉ trọng nhỏ nhất)
3. Hình 3.3: Phân tích đồ biểu đồ chỉ phần trăm số lượng
theo biến clarity
p %>% group_by(clarity) %>% summarise(n = n()) %>%
ggplot(aes(clarity,n)) +
geom_col(fill='yellow') +
geom_text(aes(label = percent(n/length(p$carat))),vjust = 2, color = 'red') +
labs(x = 'Màu sắc', y = 'Số lượng')

Trục tung thể hiện cột số lượng
Trục hoành (màu sắc) gồm I1,SI2,SI1,VS2,VS1,VVS2,VVS1,IF là độ trong
suốt của viên kim cương
Các cột thể hiện phần trăm sồ lượng từng loại trên tổng số kim
cương
Biểu đồ 3.3 cho ta thấy kim cương loại:
- I1 chiếm % thấp nhất là 1.4%
- SI2 chiếm 17%
- SI1 cao nhất chiếm 24.2%
- VS2 chiếm 22.7%
- VS1 chiếm 15.1%
- VVS2 chiếm 9.4%
- VVS1 chiếm 6.8%
- IF chiếm 3.3%
IV. So sánh số lượng giữa các loại kim cương ngẫu
nhiên
1. Hình 4.1: Biểu đồ so sánh số lượng kim cương theo chất
tác có màu D và J
p3 <- p %>% group_by(cut, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
p3 %>% ggplot(aes(x = cut, y = n)) +
geom_col(data = p3 %>% filter(color == 'D'), fill = 'red') +
geom_col(data = p3 %>% filter(color == 'J'), fill = 'blue')

Trục tung (n) thể hiện số lượng kim cương
Trục hoành (cut) thể hiện chất lượng gồm Fair,Good,Very
Good,Premium,Ideal
Cột màu đỏ thể hiện màu D
Cột màu xanh thể hiện màu J
Qua biểu đồ ta thấy có sự chênh lệch khá lớn giữa hai màu kim cương
,cột màu đỏ là kim cương màu D có số lượng gấp đôi kim cương màu J là
cột màu xanh
2. Hình 4.2: Biểu đồ so sánh số lượng kim cương theo chất
lượng chế tác có độ trong suốt VS2 và I1
p1 <- p %>% group_by(cut, clarity) %>% summarise(n = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
p1 %>% ggplot(aes(x = cut, y = n)) +
geom_col(data = p1 %>% filter(clarity == 'VS2'), fill = 'yellow') +
geom_col(data = p1 %>% filter(clarity == 'I1'), fill = 'red')

Trục tung (n) số lượng
Trục hoành (cut) gồm Fair,Good,Very Good,Premium,Ideal
Biểu đồ thể hiện hai loại kim cương khác nhau: cột màu vàng thể hiện
kim cương có độ trong suốt VS2, cột màu đỏ thể hiện kim cương có độ
trong suốt I1 được thống kê theo chất lương chế tác
Quan sát biểu đồ cho ta thấy rõ sự cách biệt lớn về số lượng của hai
loại kim cương trên: kim cương có độ trong suốt VS2 có số lương gấp
nhiều lần so với số lượng kim cương có độ trong suốt I1 => chứng tỏ
trên thị trường loại kim cương có độ trong suốt I1 không đc phổ biến
chiếm thị phần nhỏ trên tổng số.
3. Hình 4.3: Biểu đồ so sánh số lượng kim cương theo màu có
độ trong suốt SI1 và VVS1
p2 <- p %>% group_by(clarity, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'clarity'. You can override using the
## `.groups` argument.
p2 %>% ggplot(aes(x = color, y = n)) +
geom_col(data = p2 %>% filter(clarity == 'SI1'), fill = 'yellow') +
geom_col(data = p2 %>% filter(clarity == 'VVS1'), fill = 'orange')

Trục tung(n) số lượng
Trục hoành (color) gồm các màu D,E,F,G,H,I,J
Biểu đồ thể hiện 2 loại kim cương:
- Cột màu vàng thể hiện kim cương có độ trong suốt SI1
- Cột màu cam thể hiện kim cương có độ trong suốt VVS1
- Nhìn vào biểu đồ ta thấy được kim cương độ trong suốt SI1 chiếm số
lượng nhiều hơn kim cương độ trong suốt VVS1
4. Hình 4.4: Biểu đồ so sánh số lượng kim cương theo màu có
độ trong suốt VS1 và VS2
p2 %>% group_by(clarity, color) %>% summarise(n = n()) %>%
ggplot(aes(x = color, y = n)) +
geom_col(data = p2 %>% filter(clarity == 'VS2'), fill = 'yellow') +
geom_col(data = p2 %>% filter(clarity == 'VS1'), fill = 'salmon')
## `summarise()` has grouped output by 'clarity'. You can override using the
## `.groups` argument.

Biểu đồ 4.4 gồm kim cương có độ trong suốt VS2 cột màu vàng, kim
cương có độ trong suốt VS1 cột màu hồng đậm. Cho thấy kim cương loại VS1
chiếm số lượng nhiều hơn VS2 tuy nhiên số lượng nhiều hơn không đáng
kể
V. So sánh theo nhóm kim cương theo số lượng
1. Hình 5.1: Biểu đồ so sánh nhóm kim cương theo màu và chất
lượng chế tác
Ta có nhóm biểu đồ thể hiện số lượng kim cương theo từng loại chế tác
khác nhau từ đó có thể dễ dàng quan sát so sánh giữa các màu của loại
chế tác này gồm D,E,F,G,H,I,J cùng với các chất lượng Fair,Good, Very
Good, Premium,Ideal
p %>% group_by(cut,color) %>% summarise(n=n(),.groups = 'drop') %>%
ggplot(aes(x = color,y = n)) +
geom_col(fill="black") +
facet_wrap(~cut) +
labs(x = 'Loại', y = 'Số lượng')

Cũng như biểu đồ trên biểu đồ dưới đây cũng giúp ta quan sát và so
sánh những vần đề trên nhưng với câu lệnh geom_text(aes(label =
n),vjust = 2, color = ‘yellow’) ta có thể thấy rõ số liệu một
cách cụ thể.
p %>% group_by(cut,color) %>% summarise(n=n(),.groups = 'drop') %>%
ggplot(aes(x = color,y = n)) +
geom_col( fill= 'purple') +
facet_wrap(~cut) +
geom_text(aes(label = n),vjust = 2, color = 'yellow') +
labs(x = 'Loại', y = 'Số lượng')

2. Hình 5.2: Biểu đồ so sánh nhóm kim cương theo độ trong
suốt và chất lượng chế tác
Ta có nhóm biểu đồ thể hiện số lượng kim cương theo từng loại chế tác
khác nhau từ đó có thể dễ dàng quan sát so sánh giữa các loại độ trong
suốt kim cương của loại chế tác này gồm I1,SI2,SI1,VS2,VS1,VVS2,VVS1,IF
cùng với các chất lượng Fair,Good, Very Good, Premium,Ideal
p %>% group_by(cut,clarity) %>% summarise(n=n(),.groups = 'drop') %>%
ggplot(aes(x = clarity,y = n)) +
geom_col(fill="turquoise") +
facet_wrap(~cut) +
labs(x = 'Loại', y = 'Số lượng')

Cũng như biểu đồ trên biểu đồ dưới đây cũng giúp ta quan sát và so
sánh những vần đề trên nhưng với câu lệnh geom_text(aes(label =
n),vjust = 2, color = ‘red’) ta có thể thấy rõ số liệu một cách
cụ thể.
p %>% group_by(clarity,cut) %>% summarise(n=n(),.groups = 'drop') %>%
ggplot(aes(x = clarity,y = n)) +
geom_col( fill= 'green') +
facet_wrap(~ cut) +
geom_text(aes(label = n),vjust = 2, color = 'red') +
labs(x = 'Loại', y = 'Số lượng')

3. Hình 5.3: Biểu đồ so sánh nhóm kim cương theo màu và độ
trong suốt
Ta có nhóm biểu đồ thể hiện số lượng kim cương theo từng loại trong
suốt khác nhau từ đó có thể dễ dàng quan sát so sánh giữa các màu của
loại trong suốt này gồm D,E,F,G,H,I,J với từng loại trong suốt kia
I1,SI2,SI1,VS2,VS1,VVS2,VVS1,IF
p %>% group_by(clarity,color) %>% summarise(n=n(),.groups = 'drop') %>%
ggplot(aes(x = color,y = n)) +
geom_col(fill="red") +
facet_wrap(~clarity) +
labs(x = 'Loại', y = 'Số lượng')

Cũng như biểu đồ trên biểu đồ dưới đây cũng giúp ta quan sát và so
sánh những vần đề trên nhưng với câu lệnh geom_text(aes(label =
n),vjust = 2, color = ‘white’) ta có thể thấy rõ số liệu một
cách cụ thể.
p %>% group_by(clarity,color) %>% summarise(n=n(),.groups = 'drop') %>%
ggplot(aes(x = color,y = n)) +
geom_col( fill= 'brown') +
facet_wrap(~clarity) +
geom_text(aes(label = n),vjust = 2, color = 'white') +
labs(x = 'Loại', y = 'Số lượng')

VI. So sánh nhóm kim cương theo mức giá trung
bình
1. Hình 6.1: Biểu đồ so sánh nhóm kim cương (màu và chất
lượng chế tác)
p %>% group_by(cut,color) %>% summarise(m = mean(price),.groups = 'drop') %>%
ggplot(aes(x = color,y = m)) +
geom_col(position = 'dodge') +
facet_wrap(~cut ) +
geom_text(aes(label = round(m))) +
labs(x = 'Color ', y = 'Số lượng')

Trục tung thể hiện số lượng
Trục hoành biểu diễn các màu gồm D,E,F,G,H,I,J
Biểu đồ nhóm 6.1 là thống kê mức giá trung bình của từng loại kim
cương chế tác theo tất cả các màu có đầy đủ số liệu trên từng biểu
đồ
2. Hình 6.2: Biểu đồ so sánh nhóm kim cương (độ trong suốt
và chất lượng chế tác)
p %>% group_by(cut,clarity) %>% summarise(m = mean(price), .groups = 'drop') %>%
ggplot(aes(x = clarity,y = m)) +
geom_col(position = 'dodge') +
facet_wrap(~cut ) +
geom_text(aes(label = round(m))) +
labs(x = 'clarity ', y = 'Số lượng')

Biểu đồ 6.2 thể hiện sự so sánh mức giá trung bình của từng loại kim
cương chế tác theo màu và độ
trong suốt
3. Hình 6.3: Biểu đồ so sánh nhóm kim cương (màu và độ trong
suốt)
p %>% group_by(clarity,color) %>% summarise(m = mean(price), .groups='drop') %>%
ggplot(aes(x = color,y = m)) +
geom_col(position = 'dodge') +
facet_wrap(~clarity) +
geom_text(aes(label = round(m))) +
labs(x = 'Color ', y = 'Số lượng')

Biểu đồ 6.3 thể hiện sự so sánh mức giá trung bình của từng loại kim
cương chế tác theo tất cả các độ
trong suốt và màu
VII. Phân tích số lượng kim cương theo mức giá và khối lượng
carat
1. Hình 7.1: BIểu đồ phân tích số lượng kim cương theo khối
lượng
p <-p %>% mutate(Carat = cut(carat,5, label = c('rất nhỏ', 'nhỏ','vừa','lớn','rất lớn')))
p %>% ggplot(aes(x = Carat)) +
geom_bar(fill = 'salmon')

Biểu đồ 7.1 cho thấy khối lượng carat được chia làm 5 loại: rất nhỏ,
nhỏ, vừa,lớn,rất lớn. Loại rất nhỏ chiếm số lượng nhiều nhất, trong khi
đó loại lớn và rất lớn hầu như là không có. Vậy trên thị trường carat
loại lớn và rất lớn là cực kì hiếm so với các loại còn lại
2. Hình 7.2: BIểu đồ phân tích số lượng kim cương theo mức
giá
p <- p %>% mutate(Price = cut(price,5, label = c('rất thấp ', 'thấp','tb','cao','rất cao')))
p %>% ggplot(aes(x = Price)) +
geom_bar(fill = 'pink')

Trục tung(count) thể hiện mức giá
Trục hoành(price) gồm rất thấp, thấp, trung bình, cao, rất cao
Biểu đồ 7.2 cho ta thấy mức giá kim cương nằm ở trục tung thể hiện
mức giá loại rất nhỏ thấp hơn các loại còn lại rất nhiều lần, kim cương
loại rất lớn thì hiếm nên giá sẽ cao hơn
3. Hình 7.3
p <- p %>% mutate(color_code = case_when(
color == "D" | color == "E" | color == "F" ~ 1,
color == "G" | color == "H" | color == "I" | color == "J" ~ 2))
p <- mutate(p, colorC = cut(color_code, 2, label = c('không màu', 'gần như không màu')))
p %>% group_by(colorC) %>% summarise(n=n()) %>%
ggplot(aes(colorC, n)) +
geom_col(fill = 'red') +
geom_text(aes(label = n), vjust = 0, color = 'black') +
xlab('Màu sắc') +
ylab('Số lượng (viên)') +
labs()

Trục tung thể hiện số lượng
Trục hoành thể hiện màu săc gồm không màu và gần như không màu
Ta thấy được số lượng viên gần như không màu chiếm số lượng nhiều hơn
vì thế phần lớn carat có dạng trong suốt
4. Hình 7.4
p <- diamonds
p <- p %>% mutate(depthC = cut(depth,5, label = c('Sâu','Khá sâu','Trung bình','Khá nông','Nông')))
p %>% ggplot(aes(x = depthC)) +
geom_bar(fill = 'red')

Biểu đồ 7.4 thể hiện độ nông sâu khi cắt viên kim cương
VIII. Biểu đồ các chỉ số cụ thể theo từng biến
2. Hình 8.2: Mean (giá trị trung bình) của biến
‘price’
p %>% group_by(cut) %>% summarise(m= mean(price)) %>%
ggplot(aes(x = cut,y = m)) +
geom_col(position = 'dodge') +
geom_text(aes(label = round(m,2)), vjust = 2, color = 'yellow') +
labs(x = 'Loại', y = 'Mean')

Câu lệnh trên cho ta một đồ thị dạng Bar Chart với trục hoành là các
loại kim cương được chia theo biến ‘cut’ bao gồm 5 loại lần lượt là
‘Fair’,‘Good’,‘Very Good’,‘Premium’,‘Ideal’, trục tung là trung bình độ
lớn của biến ‘Price’ . Cụ thể như sau:
- Kim cương Fair có độ lớn trung bình của biến ‘Price’ là :
4358.76
- Kim cương Good có độ lớn trung bình của biến ‘Price’ là :
3928.86
- Kim cương Very Good có độ lớn trung bình của biến ‘Price’ là :
3981.76
- Kim cương Premium có độ lớn trung bình của biến ‘Price’ là :
4584.26
- Kim cương Ideal có độ lớn trung bình của biến ‘Price’ là :
3457.54
