Giới thiệu về
bộ dữ liệu diamonds:
Mô tả:
Bộ dữ liệu “diamonds” là một tập dữ liệu được tích hợp sẵn trong
RStudio, chứa thông tin về 53.940 viên kim cương cắt tròn. Dữ liệu bao
gồm các thuộc tính quan trọng như giá, trọng lượng, chất lượng cắt, màu
sắc, độ trong, kích thước và tỷ lệ.
Thông tin cơ
bản:
- Số lượng: 53.940 viên kim cương
- Biến: 10
- price: Giá (USD)
- carat: Trọng lượng (carat)
- cut: Chất lượng cắt (Khá, Tốt, Rất tốt, Đặc biệt, Lý tưởng)
- color: Màu (J - kém nhất, D - tốt nhất)
- clarity: Độ trong (I1 - kém nhất, IF - tốt nhất)
- x: Chiều dài (mm)
- y: Chiều rộng (mm)
- z: Độ sâu (mm)
- depth: Tỷ lệ phần trăm độ sâu
- table: Chiều rộng đỉnh kim cương so với điểm rộng nhất
Biểu diễn bộ dữ
liệu diamonds bằng đồ thị (Bar chart và Histogram)
Mục đích của việc biểu diễn bộ dữ liệu diamonds bằng đồ thị nhằm:
Trực quan hóa dữ liệu
So sánh dữ liệu
Phát hiện thông tin
Truyền tải thông tin
Tăng tính thuyết phục
Đồ thị thể hiện
số lượng kim cương theo từng biến: color, cut, clarity
Đồ thị thể
hiện số lượng kim cương theo biến color
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(ggplot2)
a <- diamonds
table(diamonds$color)
##
## D E F G H I J
## 6775 9797 9542 11292 8304 5422 2808
a %>% ggplot(aes(x= color)) +
geom_bar( )+
labs(x = 'Màu', y= ' Số lượng')

Đồ thị thể
hiện số lượng kim cương theo biến cut
a <- diamonds
table(diamonds$cut)
##
## Fair Good Very Good Premium Ideal
## 1610 4906 12082 13791 21551
a %>% ggplot(aes(x= cut)) +
geom_bar( )+
labs(x = 'Chất lượng', y= ' Số lượng')

- Biểu đồ thể hiện số lượng kim cương thuộc từng cấp độ chất lượng khác
nhau trong bộ dữ liệu diamonds. - Trục x thể hiện các cấp độ chất lượng
kim cương, từ thấp đến cao (từ “Fair” đến “Ideal”). - Trục y thể hiện số
lượng kim cương tương ứng với mỗi cấp độ chất lượng. - Chiều cao của mỗi
cột thể hiện số lượng kim cương thuộc cấp độ chất lượng đó. - Ví dụ:
- Nếu cột “Ideal” cao nhất, nghĩa là có nhiều kim cương có chất lượng
“Ideal” nhất trong bộ dữ liệu.
- Nếu cột “Very Good” thấp hơn các cột Premium và Ideal, nghĩa là có
ít kim cương có chất lượng “Very Good” hơn so với các cấp độ Premium và
Ideal.
Đồ thị thể
hiện số lượng kim cương theo biến clarity
a <- diamonds
table(diamonds$clarity)
##
## I1 SI2 SI1 VS2 VS1 VVS2 VVS1 IF
## 741 9194 13065 12258 8171 5066 3655 1790
a %>% ggplot(aes(x= clarity)) +
geom_bar( )+
labs(x = 'Độ trong suốt', y= ' Số lượng')

Biểu đồ cột với
chú thích số lượng theo từng biến: cut, color, clarity
Biểu đồ
thanh với chú thích số lượng theo màu sắc kim cương( biến
color)
a <- diamonds
a %>% group_by(color) %>% summarise(k= n()) %>%
ggplot(aes(color,k)) +
geom_col(fill='skyblue') +
geom_text(aes(label = k),vjust = 2, color = 'black') +
labs(x = 'Màu', y = 'Số lượng')

Biểu đồ này tiếp tục thể hiện số lượng kim cương thuộc từng nhóm
màu khác nhau trong bộ dữ liệu diamonds, tương tự như biểu đồ
trước.
Điểm khác biệt:
- Biểu đồ này sử dụng các cột hình chữ nhật (geom_col) thay vì các
thanh (geom_bar).
- Biểu đồ này thêm các chú thích (geom_text) hiển thị số lượng kim
cương (biến k) tương ứng với mỗi màu.
Các thành phần của code:
group_by(color): Nhóm dữ liệu theo màu sắc.
summarise(k= n()): Tính tổng số kim cương (n()) cho mỗi nhóm màu,
lưu trữ trong biến k.
aes(color,k): ánh xạ trục x cho màu sắc (color) và trục y cho số
lượng (k).
geom_col(fill=‘skyblue’): Vẽ các cột màu xanh da trời
(skyblue).
geom_text(aes(label = k), vjust = 2, color = ‘black’): Thêm chú
thích hiển thị giá trị của biến k (số lượng) tại vị trí trên cùng mỗi
cột (vjust=2), màu đen (black).
So với biểu đồ ban đầu (a %>% ggplot(aes(x= color)) +
geom_bar( ) + labs(x = ‘Màu’, y= ’ Số lượng’)),
- Biểu đồ này trực quan hơn do hiển thị chính xác số lượng kim cương
cho mỗi màu sắc.
- Mặc dù cả hai đều sử dụng các cột để thể hiện số lượng, việc thêm
chú thích số lượng giúp người xem dễ dàng nắm bắt thông tin mà không cần
ước lượng chiều cao của các cột.
Ví dụ: Khi quan sát biểu đồ ta thấy
- Cột màu “G” cao nhất và G có số lượng 11292 viên kim cương, nghĩa là
có nhiều kim cương thuộc màu “G” nhất trong bộ dữ liệu.
- Tương tự, cột màu “J” thấp nhất và có số lượng viên kim cương là
2808 viên, nghĩa là có ít kim cương thuộc màu “J” nhất trong bộ dữ
liệu.
Biểu đồ
thanh với chú thích số lượng theo chất lượng cắt( biến
cut)
a <- diamonds
a %>% group_by(cut) %>% summarise(k= n()) %>%
ggplot(aes(cut,k)) +
geom_col(fill='skyblue') +
geom_text(aes(label = k),vjust = 2, color = 'black') +
labs(x = 'Chất lượng cắt', y = 'Số lượng')

Biểu đồ
thanh với chú thích số lượng theo độ trong suốt ( biến
clarity)
a <- diamonds
a %>% group_by(clarity) %>% summarise(k= n()) %>%
ggplot(aes(clarity,k)) +
geom_col(fill='skyblue') +
geom_text(aes(label = k),vjust = 2, color = 'black') +
labs(x = 'Độ trong suốt', y = 'Số lượng')

Biểu đồ cột thể
hiện giá trị trung bình trọng lượng carat theo các biến: cut, color,
clarity
Biểu đồ cột
thể hiện giá trị trung bình trọng lượng carat theo màu sắc kim
cương
a <- diamonds
a %>% group_by(color) %>% summarise(k= mean(carat)) %>%
ggplot(aes(color,k)) +
geom_col(fill='skyblue') +
geom_text(aes(label = round(k,2)),vjust = 1, color = 'black') +
labs(x = 'Màu', y = 'Số lượng')

Biểu đồ này thể hiện giá trị trung bình trọng lượng carat của kim
cương thuộc từng màu sắc khác nhau trong bộ dữ liệu diamonds.
- Trục x: Thể hiện các màu sắc của kim cương.
- Trục y: Thể hiện giá trị trung bình trọng lượng carat (k) được làm
tròn đến 2 chữ số thập phân (round(k, 2)) của kim cương thuộc mỗi màu
sắc.
- Các cột màu xanh nhạt (“skyblue”): Chiều cao của mỗi cột biểu thị
giá trị trung bình trọng lượng carat của kim cương có màu sắc tương
ứng.
- Chú thích văn bản màu đen (“black”): Hiển thị giá trị trung bình
chính xác ( được làm tròn) nằm trên đỉnh mỗi cột.
VD: Ta thấy cột có màu “J” cao nhất trong biểu đồ. Điều này có
nghĩa là kim cương màu “J” có giá trị trung bình trọng lượng carat cao
nhất trong số các màu sắc có trong bộ dữ liệu. Ví dụ, chú thích trên cột
màu “J” có thể hiển thị giá trị 1.16 carat, cho biết kim cương “J” trung
bình có trọng lượng 1.16 carat.
Biểu đồ cột
thể hiện giá trị trung bình trọng lượng carat theo chất lượng cắt kim
cương
a <- diamonds
a %>% group_by(cut) %>% summarise(k= mean(carat)) %>%
ggplot(aes(cut,k)) +
geom_col(fill='skyblue') +
geom_text(aes(label = round(k,2)),vjust = 1, color = 'black') +
labs(x = 'Chất lượng cắt', y = 'Số lượng')

Biểu đồ cột
thể hiện giá trị trung bình trọng lượng carat theo độ trong suốt của kim
cương
a <- diamonds
a %>% group_by(clarity) %>% summarise(k= mean(carat)) %>%
ggplot(aes(clarity,k)) +
geom_col(fill='skyblue') +
geom_text(aes(label = round(k,2)),vjust = 1, color = 'black') +
labs(x = 'Màu', y = 'Số lượng')

Ta thấy cột “I1” có giá trị trung bình trọng lượng carat là 1.28, là
cột cao nhất trong biểu đồ. Điều này có nghĩa là kim cương có độ trong
suốt “I1” có giá trị trung bình rọng lượng carat cao nhất trong số các
độ trong suốt có trong bộ dữ liệu.
Biểu đồ thể hiện
giá trị trung bình giá bán theo biến: cut, color và clarity
Biểu đồ thể
hiện giá trị trung bình giá bán theo màu sắc kim cương
a <- diamonds
a %>% group_by(color) %>% summarise(k= mean(price)) %>%
ggplot(aes(color,k)) +
geom_col(fill='skyblue') +
geom_text(aes(label = round(k,2)),vjust = 1, color = 'black') +
labs(x = 'Màu', y = 'Số lượng')

Biểu đồ thể
hiện giá trị trung bình giá bán theo chất lượng cắt
a <- diamonds
a %>% group_by(cut) %>% summarise(k= mean(price)) %>%
ggplot(aes(cut,k)) +
geom_col(fill='skyblue') +
geom_text(aes(label = round(k,2)),vjust = 1, color = 'black') +
labs(x = 'Chất lượng cắt', y = 'Số lượng')

Biểu đồ thể
hiện giá trị trung bình giá bán theo độ trong suốt
a <- diamonds
a %>% group_by(clarity) %>% summarise(k= mean(price)) %>%
ggplot(aes(clarity,k)) +
geom_col(fill='skyblue') +
geom_text(aes(label = round(k,2)),vjust = 1, color = 'black') +
labs(x = 'Độ trong suốt', y = 'Số lượng')

Biểu đồ cột thể
hiện phương sai giá bán theo các biens: cut, color và clarity.
Biểu đồ cột
thể hiện phương sai giá bán theo màu sắc kim cương
a <- diamonds
a %>% group_by(color) %>% summarise(k= var(price)) %>%
ggplot(aes(color,k)) +
geom_col(fill='skyblue') +
geom_text(aes(label = round(k,2)),vjust = 1, color = 'black') +
labs(x = 'Màu', y = 'Số lượng')

Biểu đồ cột
thể hiện phương sai giá bán theo chất lượng cắt
a <- diamonds
a %>% group_by(cut) %>% summarise(k= var(price)) %>%
ggplot(aes(cut,k)) +
geom_col(fill='skyblue') +
geom_text(aes(label = round(k,2)),vjust = 1, color = 'black') +
labs(x = 'Chất lượng cắt', y = 'Số lượng')

Biểu đồ cột
thể hiện phương sai giá bán theo độ trong suốt
a <- diamonds
a %>% group_by(clarity) %>% summarise(k= var(price)) %>%
ggplot(aes(clarity,k)) +
geom_col(fill='skyblue') +
geom_text(aes(label = round(k,2)),vjust = 0.85, color = 'black') +
labs(x = 'Độ trong suốt', y = 'Số lượng')

Biểu đồ cột thể
hiện phương sai trọng lượng carat theo các biến: Cut, color,
clarity.
Biểu đồ cột
thể hiện phương sai trọng lượng carat theo màu sắc kim
cương
a <- diamonds
a %>% group_by(color) %>% summarise(k= var(carat)) %>%
ggplot(aes(color,k)) +
geom_col(fill='skyblue') +
geom_text(aes(label = round(k,2)),vjust = 1, color = 'black') +
labs(x = 'Màu', y = 'Số lượng')

Biểu đồ cột
thể hiện phương sai trọng lượng carat theo chất lượng cắt
a <- diamonds
a %>% group_by(cut) %>% summarise(k= var(carat)) %>%
ggplot(aes(cut,k)) +
geom_col(fill='skyblue') +
geom_text(aes(label = round(k,3)),vjust = 1, color = 'black') +
labs(x = 'Chất lượng cắt', y = 'Số lượng')

Biểu đồ cột
thể hiện phương sai trọng lượng carat theo độ trong suốt
a <- diamonds
a %>% group_by(clarity) %>% summarise(k= var(carat)) %>%
ggplot(aes(clarity,k)) +
geom_col(fill='skyblue') +
geom_text(aes(label = round(k,2)),vjust = 1, color = 'black') +
labs(x = 'Độ trong suốt', y = 'Số lượng')

Biểu đồ cột kép
thể hiện phân bố số lượng kim cương theo chất lượng cắt và màu
sắc
Biểu đồ cột
kép thể hiện phân bố số lượng kim cương theo chất lượng cắt và màu sắc
của kim cương loại E và H
a <- diamonds
a <- a %>% group_by(cut, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
a %>% ggplot(aes(x = cut, y = n)) +
geom_col(data = a %>% filter(color == 'E'), fill = 'skyblue') +
geom_col(data = a %>% filter(color == 'H'), fill = 'pink')

Biểu đồ cột
kép thể hiện phân bố số lượng kim cương theo chất lượng cắt và màu sắc
của kim cương loại E và H
a <- diamonds
a <- a %>% group_by(cut, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
a %>% ggplot(aes(x = cut, y = n)) +
geom_col(data = a %>% filter(color == 'E'), fill = 'skyblue') +
geom_col(data = a %>% filter(color == 'I'), fill = 'pink')

Biểu đồ thanh thể
hiện phân bố chất lượng cắt kim cương
a <- diamonds
a <- a %>% mutate(caratC = cut(carat,5, label = c('rất nhỏ', 'nhỏ','vừa','lớn','rất lớn')))
a %>% ggplot(aes(x = caratC)) +
geom_bar(fill = 'yellow')

labs(x= 'Chất lượng cắt')
## $x
## [1] "Chất lượng cắt"
##
## attr(,"class")
## [1] "labels"
Biểu đồ cột kép
theo mặt cắt (cut) phân tách theo màu sắc (color)
a <- diamonds
a %>% group_by(cut,color) %>% summarise(n =n()) %>%
ggplot(aes(x = cut,y = n)) +
geom_col(position = 'dodge', fill= 'pink') +
facet_wrap(~color) +
geom_text(aes(label = n),vjust = 0.65, color = 'black') +
labs(x = 'Loại', y = 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

Biểu đồ này thể hiện phân bố số lượng kim cương theo chất lượng cắt
(cut) được tách riêng theo màu sắc (color) trong bộ dữ liệu a.
Các thành phần:
Trục x: Thể hiện các chất lượng cắt khác nhau của kim cương, từ
“Poor” (kém) đến “Ideal” (hoàn hảo).
Trục y: Thể hiện số lượng (n) kim cương.
Các mặt cắt (facets): Biểu đồ được chia thành hai mặt cắt theo
màu sắc (color) của kim cương, được phân biệt bằng nhãn ở phía trên mỗi
mặt cắt.
- Mặt cắt D: Biểu thị phân bố số lượng kim cương theo chất lượng cắt
cho màu sắc D.
- Mặt cắt E: Biểu thị phân bố số lượng kim cương theo chất lượng cắt
cho màu sắc E.
- Mặt cắt F: Biểu thị phân bố số lượng kim cương theo chất lượng cắt
cho màu sắc F.
- Mặt cắt G: Biểu thị phân bố số lượng kim cương theo chất lượng cắt
cho màu sắc G.
- Mặt cắt H: Biểu thị phân bố số lượng kim cương theo chất lượng cắt
cho màu sắc H.
- Mặt cắt I: Biểu thị phân bố số lượng kim cương theo chất lượng cắt
cho màu sắc I.
- Mặt cắt J: Biểu thị phân bố số lượng kim cương theo chất lượng cắt
cho màu sắc J.
Cột màu hồng (“pink”): Biểu thị số lượng kim cương cho mỗi chất
lượng cắt trong mỗi mặt cắt.
Chú thích văn bản màu đen (“black”): Hiển thị số lượng kim cương
chính xác (n) nằm trên đỉnh mỗi cột, được điều chỉnh vị trí bằng vjust =
0.65 để tránh chồng chéo lên các cột. Ví dụ:
Chất lượng cắt “Very Good”: Cột “Very Good” trên mặt cắt F có
chiều cao cao hơn cột “Very Good” trên mặt cắt I . Điều này có nghĩa là
có nhiều kim cương màu sắc F kim cương màu sắc I có chất lượng cắt “Very
Good”. So sánh: Bạn có thể so sánh trực quan sự phân bố số lượng kim
cương theo chất lượng cắt giữa hai màu sắc khác nhau bằng cách quan sát
chiều cao tương đối của các cột trong cùng một nhóm chất lượng cắt trên
hai mặt cắt riêng biệt.
Biểu đồ cột kép
theo mặt cắt (cut) phân tách theo màu sắc (color), thể hiện giá trung
bình
a <- diamonds
a %>% group_by(cut,color) %>% summarise(k =mean(price)) %>%
ggplot(aes(x = cut,y = k)) +
geom_col(position = 'dodge', fill= 'pink') +
facet_wrap(~color) +
geom_text(aes(label = round(k,1)),vjust = 0.25, color = 'black') +
labs(x = 'Loại', y = 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

Biểu đồ này thể hiện giá trung bình của kim cương theo chất lượng cắt
(cut) được tách riêng theo màu sắc (color) trong bộ dữ liệu a.
Các thành phần:
Trục x: Thể hiện các chất lượng cắt khác nhau của kim cương, từ
“Poor” (kém) đến “Ideal” (hoàn hảo).
Trục y: Thể hiện giá trung bình (k) được làm tròn đến 1 chữ số
thập phân (round(k, 1)).
Các mặt cắt (facets): Biểu đồ được chia thành hai mặt cắt theo
màu sắc (color) của kim cương, được phân biệt bằng nhãn ở phía trên mỗi
mặt cắt.
- Mặt cắt D: Biểu thị giá trung bình của kim cương theo chất lượng cắt
cho màu sắc D.
- Mặt cắt E: Biểu thị giá trung bình của kim cương theo chất lượng cắt
cho màu sắc E.
- Mặt cắt F: Biểu thị giá trung bình của kim cương theo chất lượng cắt
cho màu sắc F.
- Mặt cắt G: Biểu thị giá trung bình của kim cương theo chất lượng cắt
cho màu sắc G.
- Mặt cắt H: Biểu thị giá trung bình của kim cương theo chất lượng cắt
cho màu sắc H.
- Mặt cắt I: Biểu thị giá trung bình của kim cương theo chất lượng cắt
cho màu sắc I.
- Mặt cắt J: Biểu thị giá trung bình của kim cương theo chất lượng cắt
cho màu sắc J.
Cột màu hồng (“pink”): Biểu thị giá trung bình cho mỗi chất lượng
cắt trong mỗi mặt cắt.
Chú thích văn bản màu đen (“black”): Hiển thị giá trung bình
chính xác (được làm tròn) nằm trên đỉnh mỗi cột, được điều chỉnh vị trí
bằng vjust = 0.25 để tránh chồng chéo lên các cột. Ví dụ:
Chất lượng cắt “Very Good”: Ta thấy “Very Good” trên mặt cắt J
cao hơn cột “Very Good” trên mặt cắt G. Điều này có nghĩa là kim cương
màu sắc J có giá trung bình khi chất lượng cắt là “Very Good” cao hơn
kim cương màu sắc G. So sánh: Bạn có thể so sánh trực quan giá trung
bình của kim cương theo chất lượng cắt giữa hai màu sắc khác nhau bằng
cách quan sát chiều cao tương đối của các cột trong cùng một nhóm chất
lượng cắt trên hai mặt cắt riêng biệt.
Biểu đồ cột kép
theo mặt cắt (cut) phân tách theo màu sắc (color), thể hiện trọng lượng
carat trung bình
a <- diamonds
a %>% group_by(cut,color) %>% summarise(k=mean(carat)) %>%
ggplot(aes(x = cut,y = k)) +
geom_col(position = 'dodge', fill= 'pink') +
facet_wrap(~color) +
geom_text(aes(label = round(k,2)),vjust = 0.65, color = 'black') +
labs(x = 'Loại', y = 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

Biểu đồ này thể hiện trọng lượng carat trung bình của kim cương theo
chất lượng cắt (cut) được tách riêng theo màu sắc (color) trong bộ dữ
liệu a.
Các thành phần:
Trục x: Thể hiện các chất lượng cắt khác nhau của kim cương, từ
“Poor” (kém) đến “Ideal” (hoàn hảo).
Trục y: Thể hiện trọng lượng carat trung bình (k) được làm tròn
đến 2 chữ số thập phân (round(k, 2)).
Các mặt cắt (facets): Biểu đồ được chia thành hai mặt cắt theo
màu sắc (color) của kim cương, được phân biệt bằng nhãn ở phía trên mỗi
mặt cắt.
- Mặt cắt D: Biểu thị trọng lượng carat trung bình của kim cương theo
chất lượng cắt cho màu sắc D.
- Mặt cắt E: Biểu thị trọng lượng carat trung bình của kim cương theo
chất lượng cắt cho màu sắc E.
- Mặt cắt F: Biểu thị trọng lượng carat trung bình của kim cương theo
chất lượng cắt cho màu sắc F.
- Mặt cắt G: Biểu thị trọng lượng carat trung bình của kim cương theo
chất lượng cắt cho màu sắc G.
- Mặt cắt H: Biểu thị trọng lượng carat trung bình của kim cương theo
chất lượng cắt cho màu sắc H.
- Mặt cắt I: Biểu thị trọng lượng carat trung bình của kim cương theo
chất lượng cắt cho màu sắc I.
- Mặt cắt J: Biểu thị trọng lượng carat trung bình của kim cương theo
chất lượng cắt cho màu sắc J.
Cột màu hồng (“pink”): Biểu thị trọng lượng carat trung bình cho
mỗi chất lượng cắt trong mỗi mặt cắt.
Chú thích văn bản màu đen (“black”): Hiển thị trọng lượng carat
trung bình chính xác (được làm tròn) nằm trên đỉnh mỗi cột, được điều
chỉnh vị trí bằng vjust = 0.65 để tránh chồng chéo lên các cột. Ví
dụ:
Chất lượng cắt “Very Good”: Ta quan sat biểu đồ, cột “Very Good”
trên mặt cắt J cao hơn cột “Very Good” trên mặt cắt G. Điều này có nghĩa
là kim cương màu sắc J có trọng lượng carat trung bình khi chất lượng
cắt là “Very Good” cao hơn kim cương màu sắc G.
Biểu đồ cột thể
hiện trung vị trọng lượng carat theo các biến: cut, color,
clarity
Biểu đồ
cột thể hiện trung vị trọng lượng carat theo chất lượng cắt
(cut)
a %>% group_by(cut) %>% summarise(m= median(carat)) %>%
ggplot(aes(x = cut,y = m)) +
geom_col(position = 'dodge', fill= 'brown') +
geom_text(aes(label = round(m,2)), vjust = 2, color = 'pink') +
labs(x = 'cut', y = 'Median')

Biểu đồ này thể hiện trung vị của trọng lượng carat theo chất lượng
cắt (cut) trong bộ dữ liệu a.
Các thành phần:
- Trục x: Thể hiện các chất lượng cắt khác nhau của kim cương, từ
“Fair” (kém) đến “Ideal” (hoàn hảo).
- Trục y: Thể hiện trọng lượng carat trung vị (m) được làm tròn đến 2
chữ số thập phân (round(m, 2)).
- Cột màu nâu (“brown”): Biểu thị trọng lượng carat trung vị cho mỗi
chất lượng cắt.
- Chú thích văn bản màu hồng (“pink”): Hiển thị trọng lượng carat
trung vị chính xác (được làm tròn) nằm trên đỉnh mỗi cột, được điều
chỉnh vị trí bằng vjust = 2 để tránh chồng chéo lên các cột.
- Tựa đề “Median”: Thể hiện trên trục y, cho biết giá trị được hiển
thị là trung vị.
Ý nghĩa:
Trung vị (median) là giá trị ở giữa của một tập dữ liệu đã được sắp
xếp theo thứ tự. So với trung bình cộng (mean), trung vị ít bị ảnh hưởng
bởi các giá trị ngoại lai (outliers) - những giá trị nằm rất xa so với
phần còn lại của dữ liệu. Do đó, biểu đồ này giúp hiểu rõ hơn về trọng
lượng carat điển hình của kim cương theo chất lượng cắt, ít bị ảnh hưởng
bởi những viên kim cương có trọng lượng rất cao hoặc rất thấp.
Ví dụ:
Từ biểu đồ ta thấy cột “Good” có chiều cao cao thứ ba trên trục y.
Điều này có nghĩa là một nửa số viên kim cương có chất lượng cắt “Good”
có trọng lượng carat dưới giá trị trung vị m, và một nửa có trọng lượng
carat trên giá trị trung vị m. So sánh: Bạn có thể so sánh trực quan
trọng lượng carat trung vị giữa các chất lượng cắt khác nhau bằng cách
quan sát chiều cao tương đối của các cột.
Biểu đồ
cột thể hiện trung vị trọng lượng carat theo màu sắc
(color)
a %>% group_by(color) %>% summarise(m= median(carat)) %>%
ggplot(aes(x = color,y = m)) +
geom_col(position = 'dodge', fill= 'brown') +
geom_text(aes(label = round(m,3)), vjust = 2, color = 'pink') +
labs(x = 'color', y = 'Median')

Biểu đồ này thể hiện trung vị của trọng lượng carat theo màu sắc
(color) trong bộ dữ liệu a.
Các thành phần:
- Trục x: Thể hiện các màu sắc khác nhau của kim cương.
- Trục y: Thể hiện trọng lượng carat trung vị (m) được làm tròn đến 2
chữ số thập phân (round(m, 2)).
- Cột màu nâu (“brown”): Biểu thị trọng lượng carat trung vị cho mỗi
màu sắc.
- Chú thích văn bản màu hồng (“pink”): Hiển thị trọng lượng carat
trung vị chính xác (được làm tròn) nằm trên đỉnh mỗi cột, được điều
chỉnh vị trí bằng vjust = 2 để tránh chồng chéo lên các cột.
- Tựa đề “Median”: Thể hiện trên trục y, cho biết giá trị được hiển
thị là trung vị.
Trung vị (median) là giá trị ở giữa của một tập dữ liệu đã được sắp xếp
theo thứ tự. So với trung bình cộng (mean), trung vị ít bị ảnh hưởng bởi
các giá trị ngoại lai (outliers) - những giá trị nằm rất xa so với phần
còn lại của dữ liệu. Do đó, biểu đồ này giúp hiểu rõ hơn về trọng lượng
carat điển hình của kim cương theo màu sắc, ít bị ảnh hưởng bởi những
viên kim cương có trọng lượng rất cao hoặc rất thấp.
Ví dụ:
Quan sát biểu đồ ta thấy, cột “I” có chiều cao cao thứ hai trên trục
y. Điều này có nghĩa là một nửa số viên kim cương có màu sắc “I” có
trọng lượng carat dưới giá trị trung vị m, và một nửa có trọng lượng
carat trên giá trị trung vị m.
Biểu đồ
cột thể hiện trung vị trọng lượng carat theo độ tinh khiết
(clarity)
a %>% group_by(clarity) %>% summarise(m= median(carat)) %>%
ggplot(aes(x = clarity,y = m)) +
geom_col(position = 'dodge', fill= 'brown') +
geom_text(aes(label = round(m,2)), vjust = 2, color = 'pink') +
labs(x = 'clarity', y = 'Median')

Biểu đồ này thể hiện trung vị của trọng lượng carat theo độ tinh
khiết (clarity) của kim cương trong bộ dữ liệu a.
Các thành phần:
- Trục x: Thể hiện các mức độ tinh khiết khác nhau của kim cương,
thường được ký hiệu bằng chữ cái (ví dụ: IF, VVS1, VS1, SI1, v.v.).
- Trục y: Thể hiện trọng lượng carat trung vị (m) được làm tròn đến 2
chữ số thập phân (round(m, 2)).
- Cột màu nâu (“brown”): Biểu thị trọng lượng carat trung vị cho mỗi
mức độ tinh khiết.
- Chú thích văn bản màu hồng (“pink”): Hiển thị trọng lượng carat
trung vị chính xác (được làm tròn) nằm trên đỉnh mỗi cột, được điều
chỉnh vị trí bằng vjust = 2 để tránh chồng chéo lên các cột.
- Tựa đề “Median”: Thể hiện trên trục y, cho biết giá trị được hiển
thị là trung vị.
Ví dụ:
Độ tinh khiết “VVS2” có chiều cao thứ tư trên trục y. Điều này có
nghĩa là một nửa số viên kim cương có độ tinh khiết “VVS1” có trọng
lượng carat dưới giá trị trung vị m, và một nửa có trọng lượng carat
trên giá trị trung vị m.
Biểu đồ cột thể
hiện trung vị giá của kim cương theo các biến: cut, color,
clarity
Biểu đồ
cột thể hiện trung vị giá của kim cương theo chất lượng cắt
(cut)
a %>% group_by(cut) %>% summarise(m= median(price)) %>%
ggplot(aes(x = cut,y = m)) +
geom_col(position = 'dodge', fill= 'brown') +
geom_text(aes(label = round(m,2)), vjust = 2, color = 'pink') +
labs(x = 'cut', y = 'Median')

Biểu đồ này thể hiện trung vị của giá kim cương theo chất lượng cắt
(cut) trong bộ dữ liệu a.
Các thành phần:
- Trục x: Thể hiện các chất lượng cắt khác nhau của kim cương, từ
“Fair” (kém) đến “Ideal” (hoàn hảo).
- Trục y: Thể hiện trọng lượng carat trung vị (m) được làm tròn đến 2
chữ số thập phân (round(m, 2)).
- Cột màu nâu (“brown”): Biểu thị trọng lượng carat trung vị cho mỗi
chất lượng cắt.
- Chú thích văn bản màu hồng (“pink”): Hiển thị giá kim cương trung vị
chính xác (được làm tròn) nằm trên đỉnh mỗi cột, được điều chỉnh vị trí
bằng vjust = 2 để tránh chồng chéo lên các cột.
- Tựa đề “Median”: Thể hiện trên trục y, cho biết giá trị được hiển
thị là trung vị.
Ví dụ:
Từ biểu đồ ta thấy cột “Good” có chiều cao cao thứ ba trên trục y.
Điều này có nghĩa là một nửa số viên kim cương có chất lượng cắt “Good”
có trọng lượng carat dưới giá trị trung vị m, và một nửa có trọng lượng
carat trên giá trị trung vị m. So sánh: Bạn có thể so sánh trực quan
trọng lượng carat trung vị giữa các chất lượng cắt khác nhau bằng cách
quan sát chiều cao tương đối của các cột.
Biểu đồ
cột thể hiện trung vị giá của kim cương theo màu sắc kim cương
(color)
a %>% group_by(color) %>% summarise(m= median(price)) %>%
ggplot(aes(x = color,y = m)) +
geom_col(position = 'dodge', fill= 'brown') +
geom_text(aes(label = round(m,2)), vjust = 2, color = 'pink') +
labs(x = 'color', y = 'Median')

Biểu đồ này thể hiện trung vị của giá kim cương theo màu sắc (color)
trong bộ dữ liệu a.
Các thành phần:
- Trục x: Thể hiện các màu sắc khác nhau của kim cương.
- Trục y: Thể hiện giá kim cương trung vị (m) được làm tròn đến 2 chữ
số thập phân (round(m, 2)).
- Cột màu nâu (“brown”): Biểu thị trọng lượng carat trung vị cho mỗi
màu sắc.
- Chú thích văn bản màu hồng (“pink”): Hiển thị trọng lượng carat
trung vị chính xác (được làm tròn) nằm trên đỉnh mỗi cột, được điều
chỉnh vị trí bằng vjust = 2 để tránh chồng chéo lên các cột.
- Tựa đề “Median”: Thể hiện trên trục y, cho biết giá trị được hiển
thị là trung vị.
Ví dụ:
Quan sát biểu đồ ta thấy, cột “I” có chiều cao cao thứ hai trên trục
y. Điều này có nghĩa là một nửa số viên kim cương có màu sắc “I” có
trọng lượng carat dưới giá trị trung vị m, và một nửa có trọng lượng
carat trên giá trị trung vị m.
Biểu đồ
cột thể hiện trung vị giá của kim cương theo độ trong suốt
(clarity)
a %>% group_by(clarity) %>% summarise(m= median(price)) %>%
ggplot(aes(x = clarity,y = m)) +
geom_col(position = 'dodge', fill= 'brown') +
geom_text(aes(label = round(m,2)), vjust = 2, color = 'pink') +
labs(x = 'clarity', y = 'Median')

Biểu đồ này thể hiện trung vị giá kim cương carat theo độ tinh khiết
(clarity) của kim cương trong bộ dữ liệu a.
Các thành phần:
- Trục x: Thể hiện các mức độ tinh khiết khác nhau của kim cương,
thường được ký hiệu bằng chữ cái (ví dụ: IF, VVS1, VS1, SI1, v.v.).
- Trục y: Thể hiện giá kim cương trung vị (m) được làm tròn đến 2 chữ
số thập phân (round(m, 2)).
- Cột màu nâu (“brown”): Biểu thị giá kim cương trung vị cho mỗi mức
độ tinh khiết.
- Chú thích văn bản màu hồng (“pink”): Hiển thị trọng lượng carat
trung vị chính xác (được làm tròn) nằm trên đỉnh mỗi cột, được điều
chỉnh vị trí bằng vjust = 2 để tránh chồng chéo lên các cột.
- Tựa đề “Median”: Thể hiện trên trục y, cho biết giá trị được hiển
thị là trung vị.
Ví dụ:
Độ tinh khiết “VS2” có chiều cao thứ tư trên trục y. Điều này có
nghĩa là một nửa số viên kim cương có độ tinh khiết “VS2” có trọng lượng
carat dưới giá trị trung vị m, và một nửa có trọng lượng carat trên giá
trị trung vị m.
