Vẽ biểu
đồ
Biểu đồ của
dữ liệu cut
- Cut: là chất lượng cắt của mặt kim cương, có 5 loại chất lượng khác
nhau tùy vào mặt cắt mà phân bổ thành 6 loại:
- Ideal: lý tưởng
- Predium: tuyệt hảo
- Very good: rất tốt
- Good: tốt
- Fair: kém
Vẽ biểu đồ thể hiện chất lượng của mặt cắt của các viên
kim cương
- Biểu đồ biểu thị số lượng các viên kim cương theo mặt cắt (không có
số lượng cụ thể)
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
g %>% ggplot(aes(x = cut)) +
geom_bar() +
labs(title = "Hình cut1: Biểu đồ số lượng kim cương theo mặt cắt",x = 'Loại', y = 'Số lượng')

Nhận xét: - Từ kết quả trên ta thấy được số lượng kim cương
có chất lượng mặt cắt ideal(lý tưởng) chiếm đa số và số lượng viên kim
cương có chất lượng fair(kém) là thấp nhất.
- Biểu đồ biểu thị số lượng các viên kim cương theo mặt cắt (có số
lượng cụ thể)
g %>% group_by(cut) %>% summarise(n = n()) %>%
ggplot(aes(cut,n)) +
geom_col(fill='pink') +
geom_text(aes(label = n),vjust = 2, color = 'brown') +
labs(title = "Hình 1: Biểu đồ thể hiện chi tiết số lượng các viên kim cương theo chất lượng mặt cắt",x = 'Loại', y = 'Số lượng')

Giải thích - Từ kết quả ta thu được có 1.610 viên
kim cương có chất lượng mặt cắt kém, 4.906 viên kim cương có chất lượng
mặt cắt tốt, có 12.082 viên kim cương có chất lượng mặt cắt rất tốt, có
13.791 viên kim cương có chất lượng mặt cắt tuyệt hảo và 21.551 viên kim
cương có chất lượng mặt cắt lý tưởng. - Vậy số viên kim cương có chất
lượng mặt cắt ideal gấp 13 lần loại fair (chiếm 1/2 số lượng viên kim
cương)
- Để dễ dàng tính toán và hình dung ta có thể chuyển biểu đồ như trên
sang dạng %.
# Load the scales package
library(scales)
# Define a custom percent function
percent <- function(x) {
paste0(formatC(x * 100, format = "f", digits = 1), "%")
}
# Use the percent function
result <- percent(0.75)
print(result)
## [1] "75.0%"
g %>% group_by(cut) %>% summarise(n = n()) %>%
ggplot(aes(cut,n)) +
geom_col(fill='gray') +
labs(title = "Biểu đồ thể hiện số lượng kim cương theo mặt cắt dưới dạng phần trăm ") +
theme_classic() +
geom_text(aes(label = percent(n/length(g$cut))),vjust = 2, color = 'red') +
labs(x = 'Thang đo Cut', y = 'Số lượng')

Giải thích: - Nhìn vào biểu đồ ta thấy ngay phần trăm số kim
cương loại ideal trên tổng thể là 40%, trong khi đó loại fair chỉ chiếm
3% trên tổng thể tức là các viên kim cương sẽ có chất lượng bề mặt cắt
cao nên từ đó sẽ được lựa chọn nhiều và bán được dễ dàng hơn.
Biểu đồ của
dữ liệu color
Vẽ biểu đồ theo màu sắc của các viên kim
cương
- Tổng quan về màu sắc của các viên kim cương có 7 màu từ D đến J
tương ứng với 2 cấp độ là không màu (D,E,F) và gần như không màu
(G,H,I,J).
table (g$color)
##
## D E F G H I J
## 6775 9797 9542 11292 8304 5422 2808
- Biểu đồ thể hiện số lượng viên kim cương theo màu sắc
g %>% group_by(color) %>% summarise(n = n()) %>%
ggplot(aes(x = 'màu sắc', y = 'số lượng',fill = color)) +
geom_col() +
geom_text(aes(label = n),position = position_stack(vjust = 1))

Nhận xét: - Cấp độ không màu có tổng số kim cương là 6.775
có màu D, 9.797 có màu loại E, 9.542 có màu loại F - Cấp độ gần như
không màu có tổng số kim cương là 11.292 có màu G, 8.304 có màu loại H,
5.422 có màu loại I, 2.808 có màu loại J.
- Biểu đồ nằm ngang thể hiện số lượng viên kim cương theo màu sắc
g %>% group_by(color) %>% summarise(n = n()) %>%
ggplot(aes(n,color)) +
geom_col(fill='blue') +
labs(title = " Biểu đồ thể hiện nhóm theo Color (màu sắc) ") +
geom_text(aes(label = n),vjust = 1, color = 'yellow') +
labs(x = 'Số lượng', y = 'Các màu sắc')
Nhận xét: - Như ta thấy màu G chiếm đa số trong tất cả các màu
là màu phổ biến trong tổng số các viên kim cương lên đến 11.292 số lượng
kim cương có màu G - Ngược lại số lượng kim cương màu J chỉ chiếm số ít
trong tổng số kim cương là 2.808 viên - Từ đó có thể thấy số lượng viên
kim cương màu G gấp 5 lần số lượng kim cương có màu J - Xét theo cấp độ
thì tổng số kim cương ở cấp không màu chiếm một lượng ít hơn với cấp gần
như không màu
- Dựa vào đồ thị trên ta chuyển sang dạng % để có thể dễ hình dung và
phân tích
g %>% group_by(color) %>% summarise(n = n()) %>%
ggplot(aes(n,color)) +
geom_col(fill='gray') +
labs(title = "Biểu đồ thể hiện % theo Color (màu sắc) ") +
theme_classic() +
geom_text(aes(label = percent(n/length(g$color))),vjust = 1, color = 'black') +
labs(x = 'Số lượng', y = 'màu sắc')

Nhận xét: - Cũng tương tự như nhận xết ở trên - Biểu đồ thể
hiện % số lượng kim cương của các màu, có 20.93% trên tổng số kim cương
có màu G, có 18.16% trên tổng số kim cương có màu E, có 17.96% trên tổng
số kim cương có màu F, có 15.39% trên tổng số kim cương có màu H, có
12.56% trên tổng số kim cương có màu D, có 10.05% trên tổng số kim cương
có màu I, có 5.21% trên tổng số kim cương có màu J.
Biểu đồ của
dữ liệu clarity
- Độ tinh khiết/ Độ trong của kim cương là số lượng và khả năng hiển
thị của các đặc điểm bên trong (tạp chất) và bên ngoài(vết trầy xước)
của một viên kim cương.
- có 8 cấp độ tinh khiết trong bộ dữ liệu, gồm:
- Internally Flawless - IF : Hoàn hảo bên trong, chỉ có tỳ vết không
quan trọng bên ngoài
- Very Very Slightly Included - VVS - gồm 2 cấp nhỏ (VVS1, VVS2) : Có
những tạp chất, vết trầy nhỏ, khó thấy được
- Very Slightly Included - VS - có 2 cấp nhỏ (VS1, VS2) : Có những tạp
chất, vết trầy từ khó thấy đến dễ thấy
- Slightly Included - SI - có 2 cấp nhỏ (SI1, SI2) : Có những tạp
chất, vết trầy dễ thấy hoặc rất dễ thấy
- Included - I - có 3 cấp nhỏ (I1,I2,I3) : Không hoàn hảo lẫn bên
trong lẫn bên ngoài
Vẽ biểu đồ theo độ tinh khiết (clarity) của các viên kim
cương
- Biểu đồ thể hiện số lượng theo clarity
g %>% group_by(clarity) %>% summarise(n = n()) %>%
ggplot(aes(clarity,n)) +
geom_col(fill='lightblue') +
geom_text(aes(label = n),vjust = 2, color = 'brown') +
labs(title ="Hình 4: Biểu đồ số lượng kim cương theo clarity (độ tinh khiết)",x = 'độ tinh khiết ', y = 'Số lượng')
Nhận xét: - Loại SI1 có số lượng kim cương cao nhất (13065) -
Loại I1 có số lượng kim cương thấp nhất (741) - Số lượng kim cương có độ
tinh khiết I1(Bao thể hiện thị): 741 - Số lượng kim cương có độ tinh
khiết SI2/SI1(Bao thể nhỏ): 9194/13605 - Số lượng kim cương có độ tinh
khiết VS2/VS1(Bao thể nhỏ cấp 2/ cấp 1):12258/8171 - Số lượng kim cương
có độ tinh khiết VVS2/VVS1(Khuyết tật rất nhỏ):5066/3655 - Số lượng kim
cương có độ tinh khiết IF(Hoàn toàn tinh khiết): 1790
- Biểu đồ thể hiện phần trăm theo clarity
- Dựa vào biểu đồ trên ta vẽ thêm biểu đồ thể hiện dưới dạng phần
trăm
g %>% group_by(clarity) %>% summarise(n = n()) %>%
ggplot(aes(clarity, n)) +
geom_col(fill='purple') +
geom_text(aes(label = percent(n/length(g$clarity))),vjust = 1, color = 'black')+
labs(title ="Hình 4: Biểu đồ số lượng kim cương theo clarity (độ tinh khiết)",x = 'Số lượng', y = 'Độ tinh khiết')
Nhận xét: - Tương tự với biểu đồ trên nhưng thay bằng %, với
phần trăm là 24,2% - mức SI1 có tỷ lệ chiếm cao nhất - Các tỷ lệ đứng
thứ 2,3,4 lần lượt là VS2 22,7% - SI2 17% - VS1 15,1% - Tỷ lệ của 3 mức
độ này cách mức độ đứng đầu khoảng 2 - 10% - Từ đó ta thấy được, không
có mức độ nào là có số lượng cao hơn hẳn/ rõ rệt hơn các mức còn lại -
Mức VVS2 và VVS1 đứng gần áp chót của biểu đồ với tỷ lệ ít hơn : 9,4% và
6,8% - Và cuối cùng, mức có tỷ lệ ít nhất trong bảng lần lượt là IF -
3,3% và I1 - 1,1% - Khoảng cách của 2 mức nhiều và ít nhất là khoảng hơn
22%
Biểu đồ giá
trị trung bình của dữ liệu depth
- vẽ biểu đồ giá trị trung bình của depth theo cut và clarity
g %>% group_by(cut, clarity)%>%summarise(m=mean(depth))%>%ggplot(aes(x=cut, y= m))+
geom_col(position='dodge')+
facet_wrap(~clarity)+
geom_text(aes(label= round(m)), vjust=2, color='gray')+
labs(x= 'Loại', y= 'Độ sâu trung bình',title='Hình 2: Giá trị trung bình của depth theo cut và clarity ')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
Nhận xét: - group_by(cut, clarity) : Nhóm dữ liệu theo cột
“cut” và “clarity”. - summarise(m = mean(depth)) : Tính giá trị trung
bình của cột “depth” trong mỗi nhóm và tạo một cột mới có tên “m” để lưu
giá trị trung bình. - ggplot(aes(x = cut, y = m)) : Tạo một đối tượng
ggplot với trục x là “cut” và trục y là “m”. - geom_col(position =
‘dodge’) : Vẽ biểu đồ cột sử dụng hình dạng mặc định và sử dụng phương
pháp “dodge” để xếp chồng các cột của các nhóm. - facet_wrap(~clarity) :
Chia biểu đồ thành các panel riêng biệt dựa trên cột “clarity”. -
geom_text(aes(label = round(m)), vjust = 2, color = ‘red’): Thêm nhãn dữ
liệu trên mỗi cột, với giá trị được làm tròn và màu chữ đỏ. Tham số
vjust = 2 làm tăng khoảng cách giữa cột và nhãn. - Độ sâu trung bình của
các loại kim cương ở các mức độ tinh khiết không có sự chênh lệch nhiều,
đều dao động ở các mức độ 60,61,62,63,64.
- vẽ biểu đồ giá trị trung bình của depth theo cut và color
g %>% group_by(cut,color) %>% summarise(m = mean(depth)) %>%
ggplot(aes(x = cut,y = m)) +
geom_col(position = 'dodge') +
facet_wrap(~color) +
geom_text(aes(label= round(m)), vjust=2, color='gray')+
labs(x= 'Loại', y= 'Độ sâu trung bình',title='Hình 23: Giá trị trung bình của depth theo cut và color ')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
Nhận xét: - Độ sâu trung bình của các loại kim cương ở các màu
sắc khác nhau không có sự chênh lệch nhiều, đều dao động ở các mức độ
60,61,62,63,64.
Biểu đồ thể hiện
giá trị trung bình giá bán theo biến: cut, color và clarity
Vẽ biểu đồ thể hiện giá trị trung bình giá bán theo màu
sắc kim cương
- Biểu đồ này thể hiện giá trị trung bình của giá bán theo từng màu
sắc của kim cương trong bộ dữ liệu diamonds.
g <- diamonds
g %>% group_by(color) %>% summarise(k= mean(price)) %>%
ggplot(aes(color,k)) +
geom_col(fill='skyblue') +
geom_text(aes(label = round(k,2)),vjust = 1, color = 'black') +
labs(x = 'Màu', y = 'Số lượng')

Nhận xét: - Trục x: Thể hiện các màu sắc khác nhau của kim
cương. - Trục y: Thể hiện giá trị trung bình (k) giá bán, được làm tròn
đến 2 chữ số thập phân (round(k, 2)), của kim cương thuộc mỗi màu sắc. -
Cột màu xanh nhạt (“skyblue”): Chiều cao của mỗi cột tỷ lệ thuận với giá
trị trung bình giá bán của kim cương có màu sắc tương ứng. - Chú thích
văn bản màu đen (“black”): Hiển thị giá trị trung bình chính xác (được
làm tròn) nằm trên đỉnh mỗi cột. - Ví dụ cụ thể:
Màu J cao nhất trong biểu đồ. Điều này có nghĩa là kim cương màu
J có giá trị trung bình giá bán cao nhất trong số các màu sắc. Ví dụ,
chú thích trên cột màu J có thể hiển thị giá trị 5323,82 USD, cho biết
kim cương màu J trung bình có giá bán 5323,82 USD.
Màu E thấp nhất trong biểu đồ. Điều này có nghĩa là kim cương màu
E có giá trị trung bình giá bán thấp nhất trong số các màu sắc. Ví dụ,
chú thích trên cột màu M có thể hiển thị giá trị 3076,75 USD, cho biết
kim cương màu M trung bình có giá bán 3076,75 USD.
Vẽ biểu đồ thể hiện giá trị trung bình giá bán theo chất
lượng cắt
- Biểu đồ này thể hiện giá trị trung bình của giá bán theo từng chất
lượng cắt của kim cương trong bộ dữ liệu diamonds.
g <- diamonds
g %>% group_by(cut) %>% summarise(k= mean(price)) %>%
ggplot(aes(cut,k)) +
geom_col(fill='lightyellow') +
geom_text(aes(label = round(k,2)),vjust = 1, color = 'black') +
labs(x = 'Chất lượng cắt', y = 'Số lượng')
Nhận xét: - Trục x: Thể hiện các chất lượng cắt khác nhau của
kim cương, từ “Poor” (kém) đến “Ideal” (hoàn hảo). - Trục y: Thể hiện
giá trị trung bình (k) giá bán, được làm tròn đến 2 chữ số thập phân
(round(k, 2)), của kim cương thuộc mỗi chất lượng cắt. - Cột màu xanh
nhạt (“skyblue”): Chiều cao của mỗi cột tỷ lệ thuận với giá trị trung
bình giá bán của kim cương có chất lượng cắt tương ứng. - Chú thích văn
bản màu đen (“black”): Hiển thị giá trị trung bình chính xác (được làm
tròn) nằm trên đỉnh mỗi cột.
Biểu đồ thể hiện giá trị trung bình giá bán theo độ trong
suốt
- Biểu đồ này thể hiện giá trị trung bình của giá bán theo từng độ
trong suốt của kim cương trong bộ dữ liệu diamonds.
g <- diamonds
g %>% group_by(clarity) %>% summarise(k= mean(price)) %>%
ggplot(aes(clarity,k)) +
geom_col(fill='lightyellow') +
geom_text(aes(label = round(k,2)),vjust = 1, color = 'black') +
labs(x = 'Độ trong suốt', y = 'Số lượng')
Nhận xét: - Trục x: Thể hiện các độ trong suốt khác nhau của
kim cương, từ “I1” (kém trong) đến “IF” (hoàn hảo không tì vết). - Trục
y: Thể hiện giá trị trung bình (k) giá bán, được làm tròn đến 2 chữ số
thập phân (round(k, 2)), của kim cương thuộc mỗi độ trong suốt. - Cột
màu xanh nhạt (“skyblue”): Chiều cao của mỗi cột tỷ lệ thuận với giá trị
trung bình giá bán của kim cương có độ trong suốt tương ứng. - Chú thích
văn bản màu đen (“black”): Hiển thị giá trị trung bình chính xác (được
làm tròn) nằm trên đỉnh mỗi cột.
Biểu đồ cột thể
hiện phương sai giá bán theo các biến: cut, color và clarity.
Biểu đồ cột thể hiện phương sai giá bán theo màu sắc kim
cương
- Biểu đồ này thể hiện phương sai của giá bán theo từng màu sắc của
kim cương trong bộ dữ liệu diamonds. Phương sai là một thước đo mức độ
phân tán của dữ liệu.
g <- diamonds
g %>% group_by(color) %>% summarise(k= var(price)) %>%
ggplot(aes(color,k)) +
geom_col(fill='gray') +
geom_text(aes(label = round(k,2)),vjust = 1, color = 'black') +
labs(x = 'Màu', y = 'Số lượng')
Nhận xét: - Trục x: Thể hiện các màu sắc khác nhau của kim
cương. - Trục y: Thể hiện phương sai (k) của giá bán (được làm tròn đến
2 chữ số thập phân (round(k, 2))), cho biết mức độ trải rộng của giá bán
- Giá trị cao hơn trên trục y cho biết phương sai cao hơn, nghĩa là giá
bán của kim cương có màu sắc đó phân tán rộng hơn xung quanh giá trung
bình. - Giá trị thấp hơn menunjukkan phương sai thấp hơn, nghĩa là giá
bán của kim cương có màu sắc đó ít phân tán hơn xung quanh giá trung
bình. - Các cột màu xám (“gray”): Chiều cao của mỗi cột tỷ lệ thuận với
phương sai giá bán của kim cương có màu sắc tương ứng. - Chú thích văn
bản màu đen (“black”): Hiển thị phương sai chính xác (được làm tròn) nằm
trên đỉnh mỗi cột.
Biểu đồ cột thể hiện phương sai giá bán theo chất lượng
cắt
- Biểu đồ này thể hiện phương sai của giá bán theo từng chất lượng cắt
của kim cương trong bộ dữ liệu diamonds. Phương sai là một thước đo mức
độ phân tán của dữ liệu.
g <- diamonds
g %>% group_by(cut) %>% summarise(k= var(price)) %>%
ggplot(aes(cut,k)) +
geom_col(fill='lightyellow') +
geom_text(aes(label = round(k,2)),vjust = 1, color = 'black') +
labs(x = 'Chất lượng cắt', y = 'Số lượng')

- Trục x: Thể hiện các chất lượng cắt khác nhau của kim cương, từ
“Poor” (kém) đến “Ideal” (hoàn hảo).
- Trục y: Thể hiện phương sai (k) của giá bán (được làm tròn đến 2 chữ
số thập phân (round(k, 2))), cho biết mức độ trải rộng của giá bán
- Giá trị cao hơn trên trục y cho biết phương sai cao hơn, nghĩa là
giá bán của kim cương có chất lượng cắt đó phân tán rộng hơn xung quanh
giá trung bình.
- Giá trị thấp hơn menunjukkan phương sai thấp hơn, nghĩa là giá bán
của kim cương có chất lượng cắt đó ít phân tán hơn xung quanh giá trung
bình.
- Các cột màu vàng nhạt (“lightyellow”): Chiều cao của mỗi cột tỷ lệ
thuận với phương sai giá bán của kim cương có chất lượng cắt tương
ứng.
- Chú thích văn bản màu đen (“black”): Hiển thị phương sai chính xác
(được làm tròn) nằm trên đỉnh mỗi cột.
Biểu đồ cột thể hiện phương sai giá bán theo độ trong
suốt
- Biểu đồ này thể hiện phương sai của giá bán theo từng độ trong suốt
của kim cương trong bộ dữ liệu diamonds. Phương sai là một thước đo mức
độ phân tán của dữ liệu.
g <- diamonds
g %>% group_by(clarity) %>% summarise(k= var(price)) %>%
ggplot(aes(clarity,k)) +
geom_col(fill='lightyellow') +
geom_text(aes(label = round(k,2)),vjust = 0.85, color = 'black') +
labs(x = 'Độ trong suốt', y = 'Số lượng')
Nhận xét: - Trục x: Thể hiện các độ trong suốt khác nhau của
kim cương, từ “I1” (kém trong) đến “IF” (hoàn hảo không tì vết). - Trục
y: Thể hiện phương sai (k) của giá bán (được làm tròn đến 2 chữ số thập
phân (round(k, 2))), cho biết mức độ trải rộng của giá bán - Giá trị cao
hơn trên trục y cho biết phương sai cao hơn, nghĩa là giá bán của kim
cương có độ trong suốt đó phân tán rộng hơn xung quanh giá trung bình. -
Giá trị thấp hơn menunjukkan phương sai thấp hơn, nghĩa là giá bán của
kim cương có độ trong suốt đó ít phân tán hơn xung quanh giá trung bình.
- Các cột màu vàng nhạt (“lightyellow”): Chiều cao của mỗi cột tỷ lệ
thuận với phương sai giá bán của kim cương có độ trong suốt tương ứng. -
Chú thích văn bản màu đen (“black”): Hiển thị phương sai chính xác (được
làm tròn) nằm gần đỉnh mỗi cột, được điều chỉnh vị trí bằng vjust = 0.85
để tránh chồng chéo lên các cột.
Biểu đồ cột thể
hiện phương sai trọng lượng carat theo các biến: Cut, color,
clarity.
Biểu đồ cột thể hiện phương sai trọng lượng carat theo
màu sắc kim cương
- Biểu đồ này thể hiện mức độ phân tán của trọng lượng carat (k) theo
từng màu sắc của kim cương trong tập dữ liệu diamonds.
g <- diamonds
g %>% group_by(color) %>% summarise(k= var(carat)) %>%
ggplot(aes(color,k)) +
geom_col(fill='lightyellow') +
geom_text(aes(label = round(k,2)),vjust = 1, color = 'black') +
labs(x = 'Màu', y = 'Số lượng')
Nhận xét: - Trục x: Thể hiện các màu sắc khác nhau của kim
cương. - Trục y: Thể hiện phương sai (k) của trọng lượng carat (đã được
làm tròn đến 2 chữ số thập phân), cho biết mức độ trải rộng của trọng
lượng carat: - Giá trị cao hơn trên trục y cho biết phương sai cao hơn,
nghĩa là trọng lượng carat của kim cương có màu sắc đó phân tán rộng hơn
xung quanh giá trị trung bình. - Giá trị thấp hơn cho biết phương sai
thấp hơn, nghĩa là trọng lượng carat của kim cương có màu sắc đó ít phân
tán hơn xung quanh giá trị trung bình. - Cột màu vàng nhạt: Chiều cao
của mỗi cột tỷ lệ thuận với phương sai trọng lượng carat của kim cương
có màu sắc tương ứng. - Chú thích văn bản màu đen: Hiển thị phương sai
chính xác (đã được làm tròn) nằm trên đỉnh mỗi cột.
Biểu đồ cột thể hiện phương sai trọng lượng carat theo
chất lượng cắt
- Biểu đồ này thể hiện phương sai của trọng lượng carat theo từng chất
lượng cắt của kim cương trong bộ dữ liệu diamonds. Phương sai là một
thước đo mức độ phân tán của dữ liệu.
g <- diamonds
g %>% group_by(cut) %>% summarise(k= var(carat)) %>%
ggplot(aes(cut,k)) +
geom_col(fill='lightyellow') +
geom_text(aes(label = round(k,3)),vjust = 1, color = 'black') +
labs(x = 'Chất lượng cắt', y = 'Số lượng')

- Biểu đồ này thể hiện phương sai của trọng lượng carat theo từng chất
lượng cắt của kim cương trong bộ dữ liệu diamonds. Phương sai là một
thước đo mức độ phân tán của dữ liệu.
- Trục x: Thể hiện các chất lượng cắt khác nhau của kim cương, từ
“Poor” (kém) đến “Ideal” (hoàn hảo).
- Trục y: Thể hiện phương sai (k) của trọng lượng carat (được làm tròn
đến 2 chữ số thập phân (round(k, 2))), cho biết mức độ trải rộng của
trọng lượng carat
- Giá trị cao hơn trên trục y cho biết phương sai cao hơn, nghĩa là
trọng lượng carat của kim cương có chất lượng cắt đó phân tán rộng hơn
xung quanh giá trị trung bình.
- Giá trị thấp hơn trên trục y cho biết phương sai thấp hơn, nghĩa là
trọng lượng carat của kim cương có chất lượng cắt đó ít phân tán hơn
xung quanh giá trị trung bình.
- Các cột màu vàng nhạt (“yellow”): Chiều cao của mỗi cột tỷ lệ thuận
với phương sai trọng lượng carat của kim cương có chất lượng cắt tương
ứng.
- Chú thích văn bản màu đen (“black”): Hiển thị phương sai chính xác
(được làm tròn) nằm trên đỉnh mỗi cột.
Biểu đồ cột thể hiện phương sai trọng lượng carat theo độ
trong suốt
g <- diamonds
g %>% group_by(clarity) %>% summarise(k= var(carat)) %>%
ggplot(aes(clarity,k)) +
geom_col(fill='lightyellow') +
geom_text(aes(label = round(k,2)),vjust = 1, color = 'black') +
labs(x = 'Độ trong suốt', y = 'Số lượng')

Biểu đồ cột kép
thể hiện phân bố số lượng kim cương theo chất lượng cắt và màu
sắc
Biểu đồ cột kép thể hiện phân bố số lượng kim cương theo
chất lượng cắt và màu sắc của kim cương loại E và H
- Biểu đồ này thể hiện số lượng kim cương theo từng chất lượng cắt
(cut) và màu sắc (color) trong bộ dữ liệu diamonds.
g <- diamonds
g <- g %>% group_by(cut, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
g %>% ggplot(aes(x = cut, y = n)) +
geom_col(data = g %>% filter(color == 'E'), fill = 'lightyellow') +
geom_col(data = g %>% filter(color == 'H'), fill = 'pink')
Nhận xét: - Trục x: Thể hiện các chất lượng cắt khác nhau của
kim cương, từ “Fair” (kém) đến “Ideal” (hoàn hảo). - Trục y: Thể hiện số
lượng (n) kim cương. - Cột màu vàngvàng nhạt (“skyblue”): Biểu thị số
lượng kim cương có màu E theo từng chất lượng cắt. - Cột màu hồng
(“pink”): Biểu thị số lượng kim cương có màu H theo từng chất lượng
cắt.
Biểu đồ cột kép thể hiện phân bố số lượng kim cương theo
chất lượng cắt và màu sắc của kim cương loại E và H
- Biểu đồ này thể hiện số lượng kim cương theo từng chất lượng cắt
(cut) và màu sắc (color) trong bộ dữ liệu diamonds.
g <- diamonds
g <- g %>% group_by(cut, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
g %>% ggplot(aes(x = cut, y = n)) +
geom_col(data = g %>% filter(color == 'E'), fill = 'lightyellow') +
geom_col(data = g %>% filter(color == 'I'), fill = 'pink')
Nhận xét: - Trục x: Thể hiện các chất lượng cắt khác nhau của
kim cương, từ “Fair” (kém) đến “Ideal” (hoàn hảo). - Trục y: Thể hiện số
lượng (n) kim cương. - Cột màu xanh nhạt (“skyblue”): Biểu thị số lượng
kim cương có màu E theo từng chất lượng cắt. - Cột màu hồng (“pink”):
Biểu thị số lượng kim cương có màu I theo từng chất lượng cắt.
Biểu đồ thanh thể
hiện phân bố chất lượng cắt kim cương
- Biểu đồ này thể hiện phân bố của chất lượng cắt kim cương trong bộ
dữ liệu diamonds.
g <- diamonds
g <- g %>% mutate(caratC = cut(carat,5, label = c('rất nhỏ', 'nhỏ','vừa','lớn','rất lớn')))
g %>% ggplot(aes(x = caratC)) +
geom_bar(fill = 'blue')

labs(x= 'Chất lượng cắt')
## $x
## [1] "Chất lượng cắt"
##
## attr(,"class")
## [1] "labels"
Nhận xét: - Trục x: Thể hiện các chất lượng cắt được chia
thành 5 nhóm: “rất nhỏ”, “nhỏ”, “vừa”, “lớn”, “rất lớn”. - Trục y: Thể
hiện số lượng kim cương thuộc mỗi nhóm chất lượng cắt. Cột màu vàng:
Biểu thị số lượng kim cương cho mỗi nhóm chất lượng cắt.
Biểu đồ cột kép
theo mặt cắt (cut) phân tách theo màu sắc (color)
- Biểu đồ này thể hiện phân bố số lượng kim cương theo chất lượng cắt
(cut) được tách riêng theo màu sắc (color) trong bộ dữ liệu g.
g %>% group_by(cut,color) %>% summarise(n =n()) %>%
ggplot(aes(x = cut,y = n)) +
geom_col(position = 'dodge', fill= 'lightyellow') +
facet_wrap(~color) +
geom_text(aes(label = n),vjust = 0.65, color = 'black') +
labs(x = 'Loại', y = 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

Các thành phần:
- Trục x: Thể hiện các chất lượng cắt khác nhau của kim cương, từ
“Poor” (kém) đến “Ideal” (hoàn hảo).
- Trục y: Thể hiện số lượng (n) kim cương.
- Các mặt cắt (facets): Biểu đồ được chia thành hai mặt cắt theo màu
sắc (color) của kim cương, được phân biệt bằng nhãn ở phía trên mỗi mặt
cắt.
- Mặt cắt D: Biểu thị phân bố số lượng kim cương theo chất lượng cắt
cho màu sắc D.
- Mặt cắt E: Biểu thị phân bố số lượng kim cương theo chất lượng cắt
cho màu sắc E.
- Mặt cắt F: Biểu thị phân bố số lượng kim cương theo chất lượng cắt
cho màu sắc F.
- Mặt cắt G: Biểu thị phân bố số lượng kim cương theo chất lượng cắt
cho màu sắc G.
- Mặt cắt H: Biểu thị phân bố số lượng kim cương theo chất lượng cắt
cho màu sắc H.
- Mặt cắt I: Biểu thị phân bố số lượng kim cương theo chất lượng cắt
cho màu sắc I.
- Mặt cắt J: Biểu thị phân bố số lượng kim cương theo chất lượng cắt
cho màu sắc J.
- Cột màu vàng nhạt (“lightyellow”): Biểu thị số lượng kim cương cho
mỗi chất lượng cắt trong mỗi mặt cắt.
- Chú thích văn bản màu đen (“black”): Hiển thị số lượng kim cương
chính xác (n) nằm trên đỉnh mỗi cột, được điều chỉnh vị trí bằng vjust =
0.65 để tránh chồng chéo lên các cột.
Biểu đồ cột kép
theo mặt cắt (cut) phân tách theo màu sắc (color), thể hiện giá trung
bình
- Biểu đồ này thể hiện giá trung bình của kim cương theo chất lượng
cắt (cut) được tách riêng theo màu sắc (color) trong bộ dữ liệu g.
g %>% group_by(cut,color) %>% summarise(k =mean(price)) %>%
ggplot(aes(x = cut,y = k)) +
geom_col(position = 'dodge', fill= 'lightyellow') +
facet_wrap(~color) +
geom_text(aes(label = round(k,1)),vjust = 0.25, color = 'black') +
labs(x = 'Loại', y = 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
Nhận xét: Các thành phần:
- Trục x: Thể hiện các chất lượng cắt khác nhau của kim cương, từ
“Poor” (kém) đến “Ideal” (hoàn hảo).
- Trục y: Thể hiện giá trung bình (k) được làm tròn đến 1 chữ số thập
phân (round(k, 1)).
- Các mặt cắt (facets): Biểu đồ được chia thành hai mặt cắt theo màu
sắc (color) của kim cương, được phân biệt bằng nhãn ở phía trên mỗi mặt
cắt.
- Mặt cắt D: Biểu thị giá trung bình của kim cương theo chất lượng cắt
cho màu sắc D.
- Mặt cắt E: Biểu thị giá trung bình của kim cương theo chất lượng cắt
cho màu sắc E.
- Mặt cắt F: Biểu thị giá trung bình của kim cương theo chất lượng cắt
cho màu sắc F.
- Mặt cắt G: Biểu thị giá trung bình của kim cương theo chất lượng cắt
cho màu sắc G.
- Mặt cắt H: Biểu thị giá trung bình của kim cương theo chất lượng cắt
cho màu sắc H.
- Mặt cắt I: Biểu thị giá trung bình của kim cương theo chất lượng cắt
cho màu sắc I.
- Mặt cắt J: Biểu thị giá trung bình của kim cương theo chất lượng cắt
cho màu sắc J.
- Cột màu vàng nhạt (“lightyellow”): Biểu thị giá trung bình cho mỗi
chất lượng cắt trong mỗi mặt cắt.
- Chú thích văn bản màu đen (“black”): Hiển thị giá trung bình chính
xác (được làm tròn) nằm trên đỉnh mỗi cột, được điều chỉnh vị trí bằng
vjust = 0.25 để tránh chồng chéo lên các cột.
Biểu đồ cột kép
theo mặt cắt (cut) phân tách theo màu sắc (color), thể hiện trọng lượng
carat trung bình
- Biểu đồ này thể hiện trọng lượng carat trung bình của kim cương theo
chất lượng cắt (cut) được tách riêng theo màu sắc (color) trong bộ dữ
liệu g.
g %>% group_by(cut,color) %>% summarise(k=mean(carat)) %>%
ggplot(aes(x = cut,y = k)) +
geom_col(position = 'dodge', fill= 'lightyellow') +
facet_wrap(~color) +
geom_text(aes(label = round(k,2)),vjust = 0.65, color = 'black') +
labs(x = 'Loại', y = 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
Nhận xét: Các thành phần:
- Trục x: Thể hiện các chất lượng cắt khác nhau của kim cương, từ
“Poor” (kém) đến “Ideal” (hoàn hảo).
- Trục y: Thể hiện trọng lượng carat trung bình (k) được làm tròn đến
2 chữ số thập phân (round(k, 2)).
- Các mặt cắt (facets): Biểu đồ được chia thành hai mặt cắt theo màu
sắc (color) của kim cương, được phân biệt bằng nhãn ở phía trên mỗi mặt
cắt.
- Mặt cắt D: Biểu thị trọng lượng carat trung bình của kim cương theo
chất lượng cắt cho màu sắc D.
- Mặt cắt E: Biểu thị trọng lượng carat trung bình của kim cương theo
chất lượng cắt cho màu sắc E.
- Mặt cắt F: Biểu thị trọng lượng carat trung bình của kim cương theo
chất lượng cắt cho màu sắc F.
- Mặt cắt G: Biểu thị trọng lượng carat trung bình của kim cương theo
chất lượng cắt cho màu sắc G.
- Mặt cắt H: Biểu thị trọng lượng carat trung bình của kim cương theo
chất lượng cắt cho màu sắc H.
- Mặt cắt I: Biểu thị trọng lượng carat trung bình của kim cương theo
chất lượng cắt cho màu sắc I.
- Mặt cắt J: Biểu thị trọng lượng carat trung bình của kim cương theo
chất lượng cắt cho màu sắc J.
- Cột màu vàng nhạt (“lightyellow”): Biểu thị trọng lượng carat trung
bình cho mỗi chất lượng cắt trong mỗi mặt cắt.
- Chú thích văn bản màu đen (“black”): Hiển thị trọng lượng carat
trung bình chính xác (được làm tròn) nằm trên đỉnh mỗi cột, được điều
chỉnh vị trí bằng vjust = 0.65 để tránh chồng chéo lên các cột.
Biểu đồ cột thể
hiện trung vị trọng lượng carat theo các biến: cut, color,
clarity
Biểu đồ cột thể hiện trung vị trọng lượng carat theo chất
lượng cắt (cut)
- Biểu đồ này thể hiện trung vị của trọng lượng carat theo chất lượng
cắt (cut) trong bộ dữ liệu g.
g %>% group_by(cut) %>% summarise(m= median(carat)) %>%
ggplot(aes(x = cut,y = m)) +
geom_col(position = 'dodge', fill= 'lightyellow') +
geom_text(aes(label = round(m,2)), vjust = 2, color = 'pink') +
labs(x = 'cut', y = 'Median')
Nhận xét: - Các thành phần:
- Trục x: Thể hiện các chất lượng cắt khác nhau của kim cương, từ
“Fair” (kém) đến “Ideal” (hoàn hảo).
- Trục y: Thể hiện trọng lượng carat trung vị (m) được làm tròn đến 2
chữ số thập phân (round(m, 2)).
- Cột màu vàng nhạt (“lightyellow”): Biểu thị trọng lượng carat trung
vị cho mỗi chất lượng cắt.
- Chú thích văn bản màu hồng (“pink”): Hiển thị trọng lượng carat
trung vị chính xác (được làm tròn) nằm trên đỉnh mỗi cột, được điều
chỉnh vị trí bằng vjust = 2 để tránh chồng chéo lên các cột.
- Tựa đề “Median”: Thể hiện trên trục y, cho biết giá trị được hiển
thị là trung vị.
Ý nghĩa:
Trung vị (median) là giá trị ở giữa của một tập dữ liệu đã được sắp
xếp theo thứ tự. So với trung bình cộng (mean), trung vị ít bị ảnh hưởng
bởi các giá trị ngoại lai (outliers) - những giá trị nằm rất xa so với
phần còn lại của dữ liệu. Do đó, biểu đồ này giúp hiểu rõ hơn về trọng
lượng carat điển hình của kim cương theo chất lượng cắt, ít bị ảnh hưởng
bởi những viên kim cương có trọng lượng rất cao hoặc rất thấp.
Biểu đồ cột thể hiện trung vị trọng lượng carat theo màu
sắc (color)
- Biểu đồ này thể hiện trung vị của trọng lượng carat theo màu sắc
(color) trong bộ dữ liệu g.
g %>% group_by(color) %>% summarise(m= median(carat)) %>%
ggplot(aes(x = color,y = m)) +
geom_col(position = 'dodge', fill= 'lightyellow') +
geom_text(aes(label = round(m,3)), vjust = 2, color = 'pink') +
labs(x = 'color', y = 'Median')
Nhận xét: Các thành phần:
- Trục x: Thể hiện các màu sắc khác nhau của kim cương.
- Trục y: Thể hiện trọng lượng carat trung vị (m) được làm tròn đến 2
chữ số thập phân (round(m, 2)).
- Cột màu vàng nhạt (“lightyellow”): Biểu thị trọng lượng carat trung
vị cho mỗi màu sắc.
- Chú thích văn bản màu hồng (“pink”): Hiển thị trọng lượng carat
trung vị chính xác (được làm tròn) nằm trên đỉnh mỗi cột, được điều
chỉnh vị trí bằng vjust = 2 để tránh chồng chéo lên các cột.
- Tựa đề “Median”: Thể hiện trên trục y, cho biết giá trị được hiển
thị là trung vị.
Trung vị (median) là giá trị ở giữa của một tập dữ liệu đã được sắp xếp
theo thứ tự. So với trung bình cộng (mean), trung vị ít bị ảnh hưởng bởi
các giá trị ngoại lai (outliers) - những giá trị nằm rất xa so với phần
còn lại của dữ liệu. Do đó, biểu đồ này giúp hiểu rõ hơn về trọng lượng
carat điển hình của kim cương theo màu sắc, ít bị ảnh hưởng bởi những
viên kim cương có trọng lượng rất cao hoặc rất thấp.
Biểu đồ cột thể hiện trung vị trọng lượng carat theo độ
tinh khiết (clarity)
Biểu đồ này thể hiện trung vị của trọng lượng carat theo độ tinh
khiết (clarity) của kim cương trong bộ dữ liệu g.
g %>% group_by(clarity) %>% summarise(m= median(carat)) %>%
ggplot(aes(x = clarity,y = m)) +
geom_col(position = 'dodge', fill= 'lightyellow') +
geom_text(aes(label = round(m,2)), vjust = 2, color = 'pink') +
labs(x = 'clarity', y = 'Median')
Nhận xét: - Các thành phần:
- Trục x: Thể hiện các mức độ tinh khiết khác nhau của kim cương,
thường được ký hiệu bằng chữ cái (ví dụ: IF, VVS1, VS1, SI1, v.v.).
- Trục y: Thể hiện trọng lượng carat trung vị (m) được làm tròn đến 2
chữ số thập phân (round(m, 2)).
- Cột màu vàng nhạt (“lightyellow”): Biểu thị trọng lượng carat trung
vị cho mỗi mức độ tinh khiết.
- Chú thích văn bản màu hồng (“pink”): Hiển thị trọng lượng carat
trung vị chính xác (được làm tròn) nằm trên đỉnh mỗi cột, được điều
chỉnh vị trí bằng vjust = 2 để tránh chồng chéo lên các cột.
- Tựa đề “Median”: Thể hiện trên trục y, cho biết giá trị được hiển
thị là trung vị.
Biểu đồ cột thể
hiện trung vị giá của kim cương theo các biến: cut, color,
clarity
Biểu đồ cột thể hiện trung vị giá của kim cương theo chất
lượng cắt (cut)
Biểu đồ này thể hiện trung vị của giá kim cương theo chất lượng cắt
(cut) trong bộ dữ liệu gg.
g %>% group_by(cut) %>% summarise(m= median(price)) %>%
ggplot(aes(x = cut,y = m)) +
geom_col(position = 'dodge', fill= 'lightyellow') +
geom_text(aes(label = round(m,2)), vjust = 2, color = 'pink') +
labs(x = 'cut', y = 'Median')
Nhận xét: - Các thành phần:
- Trục x: Thể hiện các chất lượng cắt khác nhau của kim cương, từ
“Fair” (kém) đến “Ideal” (hoàn hảo).
- Trục y: Thể hiện trọng lượng carat trung vị (m) được làm tròn đến 2
chữ số thập phân (round(m, 2)).
- Cột màu vàng nhạt (“lightyellow”): Biểu thị trọng lượng carat trung
vị cho mỗi chất lượng cắt.
- Chú thích văn bản màu hồng (“pink”): Hiển thị giá kim cương trung vị
chính xác (được làm tròn) nằm trên đỉnh mỗi cột, được điều chỉnh vị trí
bằng vjust = 2 để tránh chồng chéo lên các cột.
- Tựa đề “Median”: Thể hiện trên trục y, cho biết giá trị được hiển
thị là trung vị.
Biểu đồ cột thể hiện trung vị giá của kim cương theo màu
sắc kim cương (color)
- Biểu đồ này thể hiện trung vị của giá kim cương theo màu sắc (color)
trong bộ dữ liệu g.
g %>% group_by(color) %>% summarise(m= median(price)) %>%
ggplot(aes(x = color,y = m)) +
geom_col(position = 'dodge', fill= 'lightyellow') +
geom_text(aes(label = round(m,2)), vjust = 2, color = 'pink') +
labs(x = 'color', y = 'Median')
Nhận xét: Các thành phần:
- Trục x: Thể hiện các màu sắc khác nhau của kim cương.
- Trục y: Thể hiện giá kim cương trung vị (m) được làm tròn đến 2 chữ
số thập phân (round(m, 2)).
- Cột màu nâu (“brown”): Biểu thị trọng lượng carat trung vị cho mỗi
màu sắc.
- Chú thích văn bản màu hồng (“pink”): Hiển thị trọng lượng carat
trung vị chính xác (được làm tròn) nằm trên đỉnh mỗi cột, được điều
chỉnh vị trí bằng vjust = 2 để tránh chồng chéo lên các cột.
- Tựa đề “Median”: Thể hiện trên trục y, cho biết giá trị được hiển
thị là trung vị.
