2. Biểu diễn bộ dữ liệu bằng đồ thị (Dạng barchart):
Biểu đồ 1:
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.4 ✔ readr 2.1.5
## ✔ forcats 1.0.0 ✔ stringr 1.5.1
## ✔ ggplot2 3.4.4 ✔ tibble 3.2.1
## ✔ lubridate 1.9.3 ✔ tidyr 1.3.0
## ✔ purrr 1.0.2
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
bd1 <- diamonds
bd1 %>% ggplot(aes(x = cut)) +
geom_bar(fill='pink') +
labs(x = 'Loại', y = 'Số lượng', title = "Biểu đồ cột thể hiện số lượng viên kim cương theo loại")

Về mặt kỹ thuật:
- ggplot: Hàm tạo biểu đồ ggplot2.
- aes(x = cut): Ánh xạ biến cut (loại) vào trục x của biểu đồ.
- geom_bar: Hàm vẽ biểu đồ hình thanh.
- fill=‘pink’: Tùy chỉnh màu sắc của các thanh bằng màu hồng.
- Hàm thêm nhãn cho các thành phần của biểu đồ.
- x = ‘Loại’: Nhãn cho trục x là “Loại”.
- y = ‘Số lượng’: Nhãn cho trục y là “Số lượng”.
- title = “Biểu đồ cột thể hiện số lượng viên kim cương theo loại”:
Tiêu đề cho biểu đồ là “Biểu đồ cột thể hiện số lượng viên kim cương
theo loại”.
Nhận xét: Nhìn vào số liệu về số lượng viên kim cương theo từng
loại, ta có thể nhận thấy sự chênh lệch đáng kể giữa các loại. Loại kim
cương Ideal nổi bật với số lượng cao nhất, lên đến hơn 20.000 viên,
trong khi loại Fair lại có ít hơn 5.000 viên. Điều này thể hiện rõ sự
phân biệt về chất lượng và giá trị giữa các loại kim cương.
Biểu đồ 2:
bd2 <- diamonds
bd2 %>% ggplot(aes(x = clarity)) +
geom_bar(fill='blue') +
labs(x = 'Độ tinh khiết', y = 'Số lượng', title = "Biểu đồ cột thể hiện số lượng viên kim cương theo độ tinh khiết") +
coord_flip()

Về mặt kỹ thuật:
- ggplot: Hàm tạo biểu đồ ggplot2. aes(x = clarity): Ánh xạ biến
clarity (độ tinh khiết) vào trục x của biểu đồ.
- geom_bar: Hàm vẽ biểu đồ hình thanh.
- fill=‘blue’: Tùy chỉnh màu sắc của các thanh bằng màu xanh lam.
- labs: Hàm thêm nhãn cho các thành phần của biểu đồ.
- x = ‘Độ tinh khiết’: Nhãn cho trục x là “Độ tinh khiết”.
- y = ‘Số lượng’: Nhãn cho trục y là “Số lượng”.
- coord_flip(): Câu lệnh này đảo ngược trục x và y của biểu đồ.
- title = “Biểu đồ cột thể hiện số lượng viên kim cương theo độ tinh
khiết”: Tiêu đề cho biểu đồ là “Biểu đồ cột thể hiện số lượng viên kim
cương theo độ tinh khiết”.
Nhận xét: Biểu đồ thể hiện số lượng viên kim cương theo độ tinh
khiết. Biểu đồ dạng hình thanh với 5 mức độ tinh khiết được sắp xếp theo
thứ tự từ dưới lên trên: I1, I2, SI1, SI2, VS2. Trong đó mức độ I1 có số
lượng viên cao nhất, mức độ VS2 có số lượng viên thấp nhất, độ chênh
lệch về số lượng viên kim cương giữa các mức độ tinh khiết là khá
lớn.
Biểu đồ 3:
bd3 <- diamonds
bd3 %>% ggplot(aes(x = color)) +
geom_bar(fill='red') +
labs(x = 'Màu', y = 'Số lượng',title = "Biểu đồ cột thể hiện số lượng viên kim cương theo màu")

Về mặt kỹ thuật:
- ggplot: Hàm tạo biểu đồ ggplot2. aes(x = color): Ánh xạ biến color
(màu) vào trục x của biểu đồ.
- geom_bar: Hàm vẽ biểu đồ hình thanh.
- fill=‘blue’: Tùy chỉnh màu sắc của các thanh bằng màu xanh lam.
- labs: Hàm thêm nhãn cho các thành phần của biểu đồ.
- x = ‘Màu’: Nhãn cho trục x là “Màu”.
- y = ‘Số lượng’: Nhãn cho trục y là “Số lượng”.
- title = “Biểu đồ cột thể hiện số lượng viên kim cương theo màu”:
Tiêu đề cho biểu đồ là “Biểu đồ cột thể hiện số lượng viên kim cương
theo màu”.
Nhận xét: Nhìn vào số liệu về số lượng viên kim cương theo từng
màu, ta có thể nhận thấy sự chênh lệch đáng kể giữa các loại. Loại kim
cương có màu G nổi bật với số lượng cao nhất, trong khi loại có màu J
lại có số lượng ít nhất.
Biểu đồ 4:
bd4 <- diamonds
bd4 %>% group_by(cut) %>% summarise(med = median(carat)) %>%
ggplot(aes(cut,med)) +
geom_col(fill='purple') +
geom_text(aes(label = med),vjust = 2, color = 'black') +
labs(x = 'Loại', y = 'Trung vị',title = " Biểu đồ cột thể hiện trung vị carat theo loại kim cương")

- Về mặt kỹ thuật:
- group_by(cut): Nhóm dữ liệu theo biến cut (loại kim cương).
- summarise(med = median(carat)): Tính toán trung vị (median) của biến
carat cho mỗi nhóm và lưu kết quả vào biến mới med (trung vị).
- aes(cut,med): Ánh xạ biến cut (loại) vào trục x và biến med (trung
vị) vào trục y của biểu đồ.
- aes(label = med): Gán giá trị của biến med (trung vị) vào nhãn của
văn bản.
- vjust = 2: Điều chỉnh vị trí của văn bản theo trục y, dịch lên 2 đơn
vị để tránh chồng lên các cột.
- color = ‘black’ : Thiết lập màu sắc của văn bản là đen.
- labs(x = ‘Loại’): Nhãn cho trục x là “Loại”.
- labs(y = ‘Trung vị’): Nhãn cho trục y là “Trung vị”.
- title = “Biểu đồ cột thể hiện trung vị carat theo loại kim cương”:
Tiêu đề cho biểu đồ là “Biểu đồ cột thể hiện số lượng trung vị carat
theo loại kim cương”.
- Nhận xét: Qua biểu đồ ta có thể thấy được trung vị của kim cương
loại Fair là cao nhất (1), loại Ideal là thấp nhất(1). Từ đó cho thấy
loại kim cương Fair có xu hướng có trọng lượng lớn hơn so với các loại
khác, trong khi loại kim cương Ideal lại có trọng lượng thấp hơn, có thể
do những viên kim cương này được chế tác để có kích thước nhỏ và trọng
lượng nhẹ hơn, nhằm tối ưu hóa sự lấp lánh và chất lượng của chúng.
Biểu đồ 5:
bd5 <- diamonds
bd5 %>% group_by(cut) %>% summarise(me = mean(carat)) %>%
ggplot(aes(cut,me)) +
geom_col(fill='blue') +
geom_text(aes(label = round(me,2)),vjust = 2, color = 'white') +
labs(x = 'Loại', y = 'Trung bình', title = "Biểu đồ cột thể hiện trung bình carat theo loại kim cương")

- về mặt kỹ thuật:
- group_by(cut): Nhóm dữ liệu theo biến cut (loại kim cương).
- summarise(me = mean(carat)): Tính toán trung bình (mean) của biến
carat cho mỗi nhóm và lưu kết quả vào biến mới me (trung bình).
- aes(cut,me): Ánh xạ biến cut (loại) vào trục x và biến med (trung
vị) vào trục y của biểu đồ.
- aes(label = me): Gán giá trị của biến med (trung vị) vào nhãn của
văn bản.
- vjust = 2: Điều chỉnh vị trí của văn bản theo trục y, dịch lên 2 đơn
vị để tránh chồng lên các cột.
- color = ‘white’ : Thiết lập màu sắc của văn bản là đen.
- labs(x = ‘Loại’): Nhãn cho trục x là “Loại”.
- labs(y = ‘Trung bình’): Nhãn cho trục y là “Trung bình”.
- title = “Biểu đồ cột thể hiện trung bình carat theo loại kim cương”:
Tiêu đề cho biểu đồ là “Biểu đồ cột thể hiện số lượng trung bình carat
theo loại kim cương”.
- Nhận xét: Kim cương loại Fair có carat trung bình cao nhất đạt 1.05
carat, trong khi kim cương loại Ideal lại có carat trung bình thấp nhất
chỉ là 0.7 carat. Các loại kim cương Good, Very Good và Premium có mức
carat trung bình lần lượt là 0.85 carat, 0.81 carat và 0.89 carat. Nhìn
chung, carat trung bình có xu hướng giảm khi chất lượng cắt cao hơn.
Biểu đồ đã cung cấp được cho ta một cái nhìn tổng quan về mối liên hệ
giữa chất lượng cắt và carat trung bình của kim cương.
Biểu đồ 6:
bd6 <- diamonds
bd6 %>% group_by(cut) %>% summarise(v = var(carat)) %>%
ggplot(aes(cut,v)) +
geom_col(fill='red') +
geom_text(aes(label = round(v,2)),vjust = 2, color = 'white') +
labs(x = 'Loại', y = 'Phương sai',title = "Biểu đồ cột thể hiện phương sai carat theo loại kim cương")

- Về mặt kỹ thuật:
- group_by(cut): Nhóm dữ liệu theo biến cut (loại kim cương).
- summarise(v = var(carat)): Tính toán độ đa dạng (var) của biến carat
cho mỗi nhóm và lưu kết quả vào biến mới v (độ đa dạng).
- aes(cut,v): Ánh xạ biến cut (loại) vào trục x và biến v (Độ đa dạng)
vào trục y của biểu đồ.
- aes(label = v): Gán giá trị của biến med (trung vị) vào nhãn của văn
bản.
- vjust = 2: Điều chỉnh vị trí của văn bản theo trục y, dịch lên 2 đơn
vị để tránh chồng lên các cột.
- color = ‘white’ : Thiết lập màu sắc của văn bản là đen.
- labs(x = ‘Loại’): Nhãn cho trục x là “Loại”.
- labs(y = ‘Độ đa dạng’): Nhãn cho trục y là “Trung bình”.
- title = “Biểu đồ cột thể hiện độ đa dạng carat theo loại kim cương”:
Tiêu đề cho biểu đồ là “Biểu đồ cột thể hiện số lượng độ đa dạng carat
theo loại kim cương”.
- Nhận xét: Biểu đồ cho thấy loại có phương sai cao nhất là ở loại kim
cương Fair và Premium (0.27). Sau đó là Good và Very Good (0.21). Và xếp
cuối cùng với Ideal có độ biến động carat thấp nhất (0.19). Ngoài ra sự
chênh lệch giữa các phương sai là không đáng kể. Bên cạnh đó biểu đồ còn
cho thấy sự tăng giảm không đồng đều về phương sai của các loại.
Biểu đồ 7:
bd7 <- diamonds
bd7 %>% group_by(cut) %>% summarise(med = median(price)) %>%
ggplot(aes(cut,med)) +
geom_col(fill='purple') +
geom_text(aes(label = med),vjust = 2, color = 'black') +
labs(x = 'Loại', y = 'Trung vị', title = "Biểu đồ cột thể hiện trung vị giá theo loại kim cương")

- Về mặt kỹ thuật:
- group_by(cut): Nhóm dữ liệu theo biến cut (loại kim cương).
- summarise(med = median(price)): Tính toán trung vị (median) của biến
price cho mỗi nhóm và lưu kết quả vào biến mới med (trung bình).
- aes(cut,med): Ánh xạ biến cut (loại) vào trục x và biến med (trung
vị) vào trục y của biểu đồ.
- aes(label = med): Gán giá trị của biến med (trung vị) vào nhãn của
văn bản.
- vjust = 2: Điều chỉnh vị trí của văn bản theo trục y, dịch lên 2 đơn
vị để tránh chồng lên các cột.
- color = ‘black’ : Thiết lập màu sắc của văn bản là đen.
- labs(x = ‘Loại’): Nhãn cho trục x là “Loại”.
- labs(y = ‘Trung bình’): Nhãn cho trục y là “Trung bình”.
- title = “Biểu đồ cột thể hiện trung bình carat theo loại kim cương”:
Tiêu đề cho biểu đồ là “Biểu đồ cột thể hiện số lượng trung bình carat
theo loại kim cương”.
- Nhận xét: Trung vị là giá trị mà 50% số kim cương có giá cao hơn và
50% số kim cương có giá thấp hơn. Trong biểu đồ, trung vị được thể hiện
bằng đường kẻ ngang màu đen trên mỗi cột. Ví dụ, trung vị của loại
“Good” là 3050.5, nghĩa là 50% số kim cương loại “Good” có giá cao hơn
3050.5 và 50% có giá thấp hơn.Trung vị giá của kim cương giảm dần từ
loại “Fair” đến “Ideal”. Khoảng cách giá giữa các loại kim cương không
đều nhau.Khoảng cách lớn nhất là giữa “Good” và “Ideal” (1472).Khoảng
cách nhỏ nhất là giữa “Premium” và “Fair” (97). Biểu đồ có thể giúp
người mua so sánh giá cả giữa các loại kim cương khác nhau.
Biểu đồ 8:
bd8 <- diamonds
bd8 %>% group_by(cut) %>% summarise(m = mean(price)) %>%
ggplot(aes(cut,m)) +
geom_col(fill='brown') +
geom_text(aes(label = round(m,2)),vjust = 2, color = 'pink') +
labs(x = 'Loại', y = 'Trung bình', title = "Biểu đồ cột thể hiện trung bình giá theo loại kim cương")

- Về mặt kỹ thuật:
- group_by(cut): Nhóm dữ liệu theo biến cut (loại kim cương).
- summarise(m = mean(price)): Tính toán trung bình (mean) của biến
price cho mỗi nhóm và lưu kết quả vào biến mới m (trung bình).
- aes(cut,m): Ánh xạ biến cut (loại) vào trục x và biến med (trung vị)
vào trục y của biểu đồ.
- aes(label = m): Gán giá trị của biến med (trung vị) vào nhãn của văn
bản.
- vjust = 2: Điều chỉnh vị trí của văn bản theo trục y, dịch lên 2 đơn
vị để tránh chồng lên các cột.
- color = ‘pink’ : Thiết lập màu sắc của văn bản là hồng.
- labs(x = ‘Loại’): Nhãn cho trục x là “Loại”.
- labs(y = ‘Trung bình’): Nhãn cho trục y là “Trung bình”.
- round(m,2): làm tròn giá trị của biến mới đến 2 chữ số thập
phân
- title = “Biểu đồ cột thể hiện trung bình giá theo loại kim cương”:
Tiêu đề cho biểu đồ là “Biểu đồ cột thể hiện số lượng trung bình giá
theo loại kim cương”.
- Nhận xét: Biểu đồ thể hiện giá trung bình của kim cương theo 5 loại
cắt: Fair, Good, Very Good, Premium và Ideal. Trong đó thấp nhất là
Ideal (3457.54 USD) đến cao nhất là Premium (4584.26 USD). Mức chênh
lệch giá trung bình giữa các loại cắt là đáng kể: Fair và Good: 429.9
USD Good và Very Good: 52.9 USD Very Good và Premium: 602.5 USD Premium
và Ideal: 1126.72 USD Biểu đồ này giúp người mua kim cương có thể so
sánh giá cả giữa các loại cắt khác nhau để đưa ra lựa chọn phù hợp nhất
với nhu cầu và ngân sách của mình. Biểu đồ cũng cho thấy tiềm năng đầu
tư vào kim cương. Kim cương có chất lượng cắt tốt có thể giữ giá tốt hơn
và có khả năng tăng giá trị theo thời gian.
Biểu đồ 9:
bd9 <- diamonds
bd9 %>% group_by(cut) %>% summarise(v = var(price)) %>%
ggplot(aes(cut,v)) +
geom_col(fill='red') +
geom_text(aes(label = round(v,2)),vjust = 2, color = 'white') +
labs(x = 'Loại', y = 'Phương sai', title = "Biểu đồ cột thể hiện phương sai về giá theo loại kim cương")

- Về mặt kỹ thuật:
- group_by(cut): Nhóm dữ liệu theo biến cut (loại kim cương).
- summarise(v = var(price)): Tính toán độ đa dạng (var) của biến price
cho mỗi nhóm và lưu kết quả vào biến mới v (độ đa dạng).
- aes(cut,v): Ánh xạ biến cut (loại) vào trục x và biến v (Độ đa dạng)
vào trục y của biểu đồ.
- aes(label = v): Gán giá trị của biến med (trung vị) vào nhãn của văn
bản.
- vjust = 2: Điều chỉnh vị trí của văn bản theo trục y, dịch lên 2 đơn
vị để tránh chồng lên các cột.
- color = ‘white’ : Thiết lập màu sắc của văn bản là trắng.
- labs(x = ‘Loại’): Nhãn cho trục x là “Loại”.
- labs(y = ‘Độ đa dạng’): Nhãn cho trục y là “Trung bình”.
- round(v,2): làm tròn giá trị của biến mới đến 2 chữ số thập
phân
- title = “Biểu đồ cột thể hiện độ đa dạng carat theo loại kim cương”:
Tiêu đề cho biểu đồ là “Biểu đồ cột thể hiện số lượng độ đa dạng carat
theo loại kim cương”.
- Nhận xét: Biểu đồ cột thể hiện mức độ đa dạng về giá của kim cương
theo 5 loại: Fair, Good, Very Good, Premium và Ideal. Mức độ đa dạng về
giá tăng dần từ loại Fair đến Ideal. Loại Fair có mức độ đa dạng về giá
thấp nhất. Loại Premium có mức độ đa dạng về giá cao nhất. Ngoài ra biểu
đồ cũng cho thấy mối tương quan giữa loại kim cương và giá cả.
Biểu đồ 10:
bd10 <- diamonds
bd10 %>% group_by(clarity) %>% summarise(med = median(carat)) %>%
ggplot(aes(clarity,med)) +
geom_col(fill='purple') +
geom_text(aes(label = med),vjust = 2, color = 'black') +
labs(x = 'Độ tinh khiết', y = 'Trung vị',title = "Biểu đồ cột thể hiện trung vị carat theo độ tinh khiết của kim cương")

Biểu đồ 11:
bd11 <- diamonds
bd11 %>% group_by(clarity) %>% summarise(m = mean(carat)) %>%
ggplot(aes(clarity,m)) +
geom_col(fill='red') +
geom_text(aes(label = round(m,2)),vjust = 2, color = 'white') +
labs(x = 'Độ tinh khiết', y = 'Phương sai', title = "Biểu đồ cột thể hiện phương sai carat theo độ tinh khiết của kim cương")

Về mặt kỹ thuật: Tương tự với những lệnh của các biểu đồ trên mà
thay vào đó ta đổi từ biến cut thành clarity
Nhận xét: Ta có thể thấy phương sai của kim cương tỉ lệ nghịch
với độ tinh khiết của chúng. Tức là độ biến động về carat càng giảm khi
viên kim cương càng có độ tinh khiết cao. Cụ thể, loại VVS1 có phương
sai thấp nhất (0.5) và loại I1 có phương cao nhất (1.28). Bên cạnh đó,
độ chênh lệch giữa các phương sai là không đáng kể.
Biểu đồ 12:
bd12 <- diamonds
bd12 %>% group_by(clarity) %>% summarise(v = var(carat)) %>%
ggplot(aes(clarity,v)) +
geom_col(fill='red') +
geom_text(aes(label = round(v,2)),vjust = 2, color = 'white') +
labs(x = 'Độ tinh khiết', y = 'Phương sai', title = "Biểu đồ cột thể hiện phương sai carat theo độ tinh khiết của kim cương")

Về mặt kỹ thuật: Tương tự với những lệnh của các biểu đồ trên mà
thay vào đó ta đổi từ biến cut thành clarity
Nhận xét: Biểu đồ thể hiện sự đa dạng của kích thước kim cương
(carat) theo các cấp độ tinh khiết (IF, VVS1, VVS2, VS1, VS2, SI1, SI2,
I1). Dữ liệu cho thấy: IF và VVS1 có độ đa dạng carat thấp nhất. I1 (có
nhiều tạp chất nhất) có độ đa dạng carat cao nhất. Các cấp độ tinh khiết
khác có độ đa dạng carat nằm giữa hai mức trên.
Biểu đồ 13:
bd13 <- diamonds
bd13 %>% group_by(clarity) %>% summarise(med = median(price)) %>%
ggplot(aes(clarity,med)) +
geom_col(fill='purple') +
geom_text(aes(label = med),vjust = 2, color = 'black') +
labs(x = 'Độ tinh khiết', y = 'Trung vị', title = "Biểu đồ cột thể hiện trung vị giá theo độ tinh khiết của kim cương")

Về mặt kỹ thuật: Tương tự với những lệnh của các biểu đồ trên mà
thay vào đó ta đổi từ biến cut thành clarity
Nhận xét: Biểu đồ thể hiện trung vị giá của kim cương theo cấp độ
độ tinh khiết, từ thấp (I1) đến cao (IF). Giá trị trung vị giảm dần từ
SI2 đến IF, cho thấy kim cương có độ tinh khiết cao có giá trị cao hơn.
Mức giảm giá trị trung vị giữa các cấp độ không đồng đều: Tăng mạnh từ
I1 đến SI2. Giảm nhẹ từ SI1 đến VS2. Giảm dần từ VS1 đến IF.
Biểu đồ 14:
bd14 <- diamonds
bd14 %>% group_by(clarity) %>% summarise(m = mean(price)) %>%
ggplot(aes(clarity,m)) +
geom_col(fill='purple') +
geom_text(aes(label = round(m,0)),vjust = 2, color = 'black') +
labs(x = 'Độ tinh khiết', y = 'Trung bình',title = "Biểu đồ cột thể hiện trung bình giá theo độ tinh khiết của kim cương")

Về mặt kỹ thuật: Tương tự với những lệnh của các biểu đồ trên mà
thay vào đó ta đổi từ biến cut thành clarity
Nhận xét: Biểu đồ cho thấy mối liên hệ tỉ lệ nghịch giữa độ tinh
khiết và giá trung bình của kim cương. Giá trung bình giảm dần từ SI2
đến IF: VS2 và SI1 có giá gần như tương đương. VVS1 và VVS2 có giá gần
nhau, cao hơn VS1 và VS2. SI2 có trung bình giá cao nhất, thấp nhất là
VVS1. Sự chênh lệch giá giữa các cấp độ tinh khiết giảm dần khi độ tinh
khiết tăng
Biểu đồ 15:
bd15 <- diamonds
bd15 %>% group_by(clarity) %>% summarise(v = var(price)) %>%
ggplot(aes(clarity,v)) +
geom_col(fill='red') +
geom_text(aes(label = round(v,0)),vjust = 2, color = 'white') +
labs(x = 'Độ tinh khiết', y = 'Phương sai', title = "Biểu đồ cột thể hiện phương sai về giá theo độ tinh khiết của kim cương")

Về mặt kỹ thuật: Tương tự với những lệnh của các biểu đồ trên mà
thay vào đó ta đổi từ biến cut thành clarity
Nhận xét: Biểu đồ thể hiện số lượng kim cương ở mỗi cấp độ tinh
khiết, được chia thành 7 cấp:IF, VVS1, VVS2, VS1, VS2, SI1, SI2, I1. Có
sự khác biệt rõ ràng về độ đa dạng về giá giữa các cấp độ tinh khiết.
Nhìn chung, cấp độ tinh khiết càng cao, số lượng kim cương càng ít và
giá cũng khá đa dạng. Cụ thể: IF (Internally Flawless) có độ đa dạng về
giá cao. Ý nghĩa: Biểu đồ cho thấy tầm quan trọng của độ tinh khiết
trong việc định giá kim cương.
Biểu đồ 16:
bd16 <- diamonds
bd16 %>% group_by(color) %>% summarise(med = median(carat)) %>%
ggplot(aes(color,med)) +
geom_col(fill='purple') +
geom_text(aes(label = med),vjust = 2, color = 'black') +
labs(x = 'Độ tinh khiết', y = 'Trung vị', title = "Biểu đồ cột thể hiện trung vị carat theo màu của kim cương")

Về mặt kỹ thuật: Tương tự với những lệnh của các biểu đồ trên mà
thay vào đó ta đổi từ biến cut thành color
Nhận xét: Trong biểu đồ, ta có thể dễ dàng thấy kim cương màu J
có trung vị carat cao nhất (1.11), thấp nhất là màu D và E (0.53). Trung
vị cũng tăng dần theo thứ tự tên của các màu. Ngoài ra thì độ chênh lệch
giữa các trung vị không lớn chỉ khoảng 0.2. Dựa vào những nhận xét trên,
ta có thể thấy rằng màu sắc và kích thước carat của kim cương có mối
liên hệ nhất định.
Biểu đồ 17:
bd17 <- diamonds
bd17 %>% group_by(color) %>% summarise(m = mean(carat)) %>%
ggplot(aes(color,m)) +
geom_col(fill='red') +
geom_text(aes(label = round(m,2)),vjust = 2, color = 'white') +
labs(x = 'Độ tinh khiết', y = 'Phương sai', title = "Biểu đồ cột thể hiện trung bình carat theo màu của kim cương")

Về mặt kỹ thuật: Tương tự với những lệnh của các biểu đồ trên mà
thay vào đó ta đổi từ biến cut thành color
Nhận xét: Có thể dễ dàng nhận thấy kim cương màu J có trung
bìnhbình carat cao nhất (1.16) và thấp nhất là kim cương màu D với E có
trung bình carat thấp nhất (0.66). Bên cạnh đó độ chênh lệch trung bình
giữa các màu là không quá nhiều (~ 0.2). Điều này có thể gợi ý đến việc
có sự cân nhắc cẩn thận trong việc chọn màu sắc của kim cương, không chỉ
dựa vào trung bình carat mà còn cần xem xét sự đa dạng trong kích thước
của chúng.
Biểu đồ 18:
bd18 <- diamonds
bd18 %>% group_by(color) %>% summarise(v = var(carat)) %>%
ggplot(aes(color,v)) +
geom_col(fill='red') +
geom_text(aes(label = round(v,2)),vjust = 2, color = 'white') +
labs(x = 'Phương sai', y = 'Độ đa dạng', title = "Biểu đồ cột thể hiện độ đa dạng carat theo màu của kim cương")

Về mặt kỹ thuật: Tương tự với những lệnh của các biểu đồ trên mà
thay vào đó ta đổi từ biến cut thành color
Nhận xét: Có thể dễ dàng nhận thấy kim cương màu J có phương sai
carat cao nhất (0.35) tức là độ biến động về trọng lượng viên kim cương
ở mức cao nhất và thấp nhất là kim cương màu D với E có phương sai carat
thấp nhất (0.66). Bên cạnh đó, độ chênh lệch giữa các phương sai (độ
biến động) không cao, tuy nhiên có sự tăng mạnh giữa hai cột G và
H.
Biểu đồ 19:
bd19 <- diamonds
bd19 %>% group_by(color) %>% summarise(med = median(price)) %>%
ggplot(aes(color,med)) +
geom_col(fill='purple') +
geom_text(aes(label = med),vjust = 2, color = 'black') +
labs(x = 'Độ tinh khiết', y = 'Trung vị', title = "Biểu đồ cột thể hiện trung vị giá theo màu của kim cương")

Về mặt kỹ thuật: Tương tự với những lệnh của các biểu đồ trên mà
thay vào đó ta đổi từ biến cut thành color
Nhận xét: Kim cương màu J có trung vị về giá cao nhất (4234) và
thấp nhất với màu E (1739). Qua biểu đồ có thể thấy sự tăng giảm trung
vị carat giữa các loại màu không đồng đều. Ngoài ra có độ chênh lệch khá
lớn giữa kim cương màu I và J hoặc giữa kim cương màu F và G, còn lại độ
chênh lệch là không đáng kể.
Biểu đồ 20:
bd20<- diamonds
bd20 %>% group_by(color) %>% summarise(m = mean(price)) %>%
ggplot(aes(color,m)) +
geom_col(fill='purple') +
geom_text(aes(label = round(m,0)),vjust = 2, color = 'black') +
labs(x = 'Độ tinh khiết', y = 'Trung bình', title = "Biểu đồ cột thể hiện trung bình giá theo màu của kim cương")

Về mặt kỹ thuật: Tương tự với những lệnh của các biểu đồ trên mà
thay vào đó ta đổi từ biến cut thành color
Nhận xét: Trung bình về giá của kim cương màu J là cao nhất
(5324) và thấp nhất là màu E (3077). Có thể thấy sự tăng dần về trung
bình giá theo thứ tự màu của kim cương với độ chênh lệch là không quá
nhiều. Với biểu đồ này, khi tiến hành chọn lựa mua kim cương ta cũng có
thể dễ dàng đưa ra đánh giá và quyết định hơn.
Biểu đồ 21:
bd21 <- diamonds
bd21 %>% group_by(color) %>% summarise(v = var(price)) %>%
ggplot(aes(color,v)) +
geom_col(fill='red') +
geom_text(aes(label = round(v,0)),vjust = 2, color = 'white') +
labs(x = 'Độ tinh khiết', y = 'Phương sai', title = "Biểu đồ cột thể hiện phương sai về giá theo màu của kim cương")

Về mặt kỹ thuật: Tương tự với những lệnh của các biểu đồ trên mà
thay vào đó ta đổi từ biến cut thành color
Nhận xét: Ta có thể thấy sự biến động về giá tại kim cương màu I
là cao nhất (22300945) và thấp nhất là với kim cương màu (11266703). Độ
chênh lệch của sự biến động về giá giữa kim cương màu D và E là không
đáng kể gần như bằng nhau, trong đó độ chênh lệch nhiều nhất là giữa màu
H và I. Đây là biểu đồ về độ biến động về giá của kim cương theo màu, do
đó ít nhiều ta cũng dễ dàng đưa ra quyết định mua hàng hơn sau khi có
được thông tin từ biểu đò.
Biểu đồ 22:
bd22 <- diamonds
library(scales)
##
## Attaching package: 'scales'
## The following object is masked from 'package:purrr':
##
## discard
## The following object is masked from 'package:readr':
##
## col_factor
bd22 %>% group_by(cut,color) %>% summarise(n=n()) %>%
ggplot(aes(x = cut,y = n)) +
geom_col(position = 'dodge', fill = 'white') +
facet_wrap(~color) +
geom_text(aes(label = n),vjust = -1, color = 'black') +
labs(x = 'Loại', y = 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

- Về mặt kỹ thuật:
- group_by(cut, color): Hàm này nhóm các hàng trong bd22 theo các giá
trị của hai cột: “cut” (loại cắt) và “color” (màu sắc). Điều này giống
như việc sắp xếp dữ liệu theo từng loại cắt và màu sắc.
- summarise(n = n()): Hàm này tính tần suất (số lượng) của các quan
sát trong mỗi nhóm được tạo ra ở bước trước. Kết quả của phép tính này
được lưu vào một cột mới có tên “n”.
- ggplot(aes(x = cut, y = n)): Dòng lệnh này tạo ra một biểu đồ cột
(ggplot) bằng cách ánh xạ các giá trị của cột “cut” lên trục hoành (x)
và giá trị của cột “n” (số lượng) lên trục tung (y).
- position = ‘dodge’ (tùy chọn bố cục): Thiết lập này đảm bảo các cột
được sắp xếp cạnh nhau theo từng nhóm (loại cắt), tránh chồng chéo lên
nhau.
- fill = ‘white’ (tùy chọn màu sắc): Thiết lập này tô màu trắng cho
các cột.
- facet_wrap(~color): Hàm này tạo ra một bố cục nhiều biểu đồ, mỗi
biểu đồ đại diện cho một màu sắc của kim cương. Biểu đồ được sắp xếp
theo các màu sắc khác nhau.
- aes(label = n): Thiết lập này xác định nhãn là giá trị của cột “n”
(số lượng).
- vjust = -1 (tùy chọn căn chỉnh): Thiết lập này điều chỉnh vị trí dọc
của các nhãn, đặt chúng hơi thấp hơn so với đỉnh của các cột.
- color = ‘black’ (tùy chọn màu sắc): Thiết lập này tô màu đen cho các
nhãn. labs(x = ‘Loại’, y = ‘Số lượng’): Hãm này đặt nhãn cho trục hoành
(“Loại”) và trục tung (“Số lượng”).
- Nhận xét:
Với tổng số 7 màu sắc cùng với 5 loại, ta có thể thấy 7 biểu đồ tương
ứng với từng màu sắc và mỗi màu sắc có số lượng loại cụ thể
Nhìn sơ qua có thể dễ dàng nhận thấy cả 7 màu đều có loại Ideal cao
nhất và Fair ít nhất
Với loại Ideal, màu G có số lượng nhiều nhất (4884) và màu J có số
lượng thấp nhất (896)
Với mức Premium và Very Good, các màu đều có số lượng không quá chênh
lệch, tất cả đều ở mức trung bình, không quá nhiều và cũng không quá
ít
Với mức Good và Fair, số lượng ít hơn hẳn các mức còn lại, sự chênh
lệch với mức Ideal là quá rõ rệt
Biểu đồ 23:
bd23 <- diamonds
bd23 %>% group_by(cut,clarity) %>% summarise(n=n()) %>%
ggplot(aes(x = cut,y = n)) +
geom_col(position = 'dodge', fill = 'white') +
facet_wrap(~clarity) +
geom_text(aes(label = n),vjust = -0.5, color = 'black') +
labs(x = 'Loại', y = 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

- Về mặt kỹ thuật:
- group_by(cut, clarity): Hàm này nhóm các hàng trong bd23 theo các
giá trị của hai cột: “cut” (loại cắt) và “clarity” (độ tinh khiết). Điều
này giống như việc sắp xếp dữ liệu theo từng loại cắt và độ tinh
khiết.
- summarise(n = n()): Hàm này tính tần suất (số lượng) của các quan
sát trong mỗi nhóm được tạo ra ở bước trước. Kết quả của phép tính này
được lưu vào một cột mới có tên “n”.
- ggplot(aes(x = cut, y = n)): Dòng lệnh này tạo ra một biểu đồ cột
(ggplot) bằng cách ánh xạ các giá trị của cột “cut” lên trục hoành (x)
và giá trị của cột “n” (số lượng) lên trục tung (y).
- position = ‘dodge’ (tùy chọn bố cục): Thiết lập này đảm bảo các cột
được sắp xếp cạnh nhau theo từng nhóm (loại cắt), tránh chồng chéo lên
nhau.
- fill = ‘white’ (tùy chọn màu sắc): Thiết lập này tô màu trắng cho
các cột.
- facet_wrap(~clarity): Hàm này tạo ra một bố cục nhiều biểu đồ, mỗi
biểu đồ đại diện cho một độ tinh khiết của kim cương. Biểu đồ được sắp
xếp theo các độ tinh khiết khác nhau.
- aes(label = n): Thiết lập này xác định nhãn là giá trị của cột “n”
(số lượng).
- vjust = -1 (tùy chọn căn chỉnh): Thiết lập này điều chỉnh vị trí dọc
của các nhãn, đặt chúng hơi thấp hơn so với đỉnh của các cột.
- color = ‘black’ (tùy chọn màu sắc): Thiết lập này tô màu đen cho các
nhãn. labs(x = ‘Loại’, y = ‘Số lượng’): Hãm này đặt nhãn cho trục hoành
(“Loại”) và trục tung (“Số lượng”).
- Nhận xét:
Với tổng số 8 độ tinh khiết cùng với 5 loại, ta có thể thấy 8 biểu đồ
tương ứng với từng độ tinh khiết và mỗi độ tinh khiết có số lượng loại
cụ thể
Nhìn sơ qua, cả 8 độ tinh khiết đa số có loại Ideal chiếm cao nhất và
Fair ít nhất
Với loại Ideal, độ tinh khiết SI1 có số lượng nhiều nhất (4282) và I1
có số lượng thấp nhất (146)
Với mức Premium và Very Good, các độ tinh khiết có số lượng khá chênh
lệch nhaunhau
Với mức Good và Fair, số lượng ít hơn hẳn các mức còn lại, sự chênh
lệch với mức Ideal là quá rõ rệt
Biểu đồ 24:
bd24 <- diamonds
bd24 %>% group_by(clarity,color) %>% summarise(n=n()) %>%
ggplot(aes(x = clarity,y = n)) +
geom_col(position = 'dodge', fill = 'white') +
facet_wrap(~color) +
geom_text(aes(label = n),vjust = 0, color = 'black') +
labs(x = 'Độ tinh khiết', y = 'Số lượng')
## `summarise()` has grouped output by 'clarity'. You can override using the
## `.groups` argument.

- Về mặt kỹ thuật:
- group_by(clarity, color): Hàm này nhóm các hàng trong bd24 theo các
giá trị của hai cột: “clarity” (độ tinh khiết) và “color” (màu sắc).
Điều này giống như việc sắp xếp dữ liệu theo từng độ tinh khiết và màu
sắc.
- summarise(n = n()): Hàm này tính tần suất (số lượng) của các quan
sát trong mỗi nhóm được tạo ra ở bước trước. Kết quả của phép tính này
được lưu vào một cột mới có tên “n”.
- ggplot(aes(x = clarity, y = n)): Dòng lệnh này tạo ra một biểu đồ
cột (ggplot) bằng cách ánh xạ các giá trị của cột “clarity” lên trục
hoành (x) và giá trị của cột “n” (số lượng) lên trục tung (y).
- position = ‘dodge’ (tùy chọn bố cục): Thiết lập này đảm bảo các cột
được sắp xếp cạnh nhau theo từng nhóm (độ tinh khiết), tránh chồng chéo
lên nhau.
- fill = ‘white’ (tùy chọn màu sắc): Thiết lập này tô màu trắng cho
các cột.
- facet_wrap(~color): Hàm này tạo ra một bố cục nhiều biểu đồ, mỗi
biểu đồ đại diện cho một màu sắc của kim cương. Biểu đồ được sắp xếp
theo các màu sắc khác nhau.
- aes(label = n): Thiết lập này xác định nhãn là giá trị của cột “n”
(số lượng).
- vjust = -0.5 (tùy chọn căn chỉnh): Thiết lập này điều chỉnh vị trí
dọc của các nhãn, đặt chúng hơi thấp hơn so với đỉnh của các cột.
- color = ‘black’ (tùy chọn màu sắc): Thiết lập này tô màu đen cho các
nhãn. labs(x = ‘Độ tinh khiết’, y = ‘Số lượng’): Hãm này đặt nhãn cho
trục hoành (“Độ tinh khiết”) và trục tung (“Số lượng”).
- Nhận xét: Với tổng số 8 độ tinh khiết cùng với 7 màu, ta có thể thấy
7 biểu đồ tương ứng với từng màu và mỗi màu có số lượng loại cụ thể
Nhìn sơ qua, cả 7 màu đa số có độ tinh khiết SI1 chiếm cao nhất và I1
ít nhất
Với độ tinh khiết VS2, màu G có số lượng nhiều nhất (2347) và J có số
lượng thấp nhất (731)
Với các độ tinh khiết còn lại, thì giữa các màu không có quá nhiều sự
chênh lệch
Biểu đồ 25:
bd25 <- diamonds
bd25 <- bd25 %>% group_by(cut, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
bd25 %>% ggplot(aes(x = cut, y = n)) +
geom_col(data = bd25 %>% filter(color == 'D'), fill = 'red') +
geom_col(data = bd25 %>% filter(color == 'J'), fill = 'blue') +
labs(x = 'Loại', y = 'Số lượng')

- Về mặt kỹ thuật:
- group_by(cut, color): Nhóm dữ liệu trong “bd25” theo hai trường
“cut” (Loại) và “color” (Màu sắc).
- summarise(n = n()): Tính toán số lượng viên kim cương trong mỗi nhóm
và lưu trữ kết quả trong một cột mới có tên “n”.
- ggplot(aes(x = cut, y = n)): Xác định “cut” là trục hoành và “n” là
trục tung.
- geom_col(data = bd25 %>% filter(color == ‘D’), fill = ‘red’):
Thêm một biểu đồ cột cho dữ liệu kim cương màu “D” với màu tô là
đỏ.
- geom_col(data = bd25 %>% filter(color == ‘J’), fill = ‘blue’):
Thêm một biểu đồ cột cho dữ liệu kim cương màu “J” với màu tô là xanh
lam.
- labs(x = ‘Loại’, y = ‘Số lượng’): Thêm nhãn cho trục hoành là “Loại”
và trục tung là “Số lượng”.
- Nhận xét:
Ta có thể thấy sự chênh lệch số lượng giữa 2 màu D và J là khá lớn.
Đặc biệt là ở 3 loại Ideal - Premium - Very Good
Sự chênh lệch lớn nhất là ở mức Ideal
Còn ở 2 mức cuối là Fair và Good, khoảng cách không quá xa
Biểu đồ 26:
bd26 <- diamonds
bd26 <- bd26 %>% group_by(cut, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
bd26 %>% ggplot(aes(x = cut, y = n)) +
geom_col(data = bd26 %>% filter(color == 'E'), fill = 'red') +
geom_col(data = bd26 %>% filter(color == 'J'), fill = 'blue') +
labs(x = 'Loại', y = 'Số lượng')

- Về mặt kỹ thuật:
- group_by(cut, color): Nhóm dữ liệu trong “bd26” theo hai trường
“cut” (Loại) và “color” (Màu sắc).
- summarise(n = n()): Tính toán số lượng viên kim cương trong mỗi nhóm
và lưu trữ kết quả trong một cột mới có tên “n”.
- ggplot(aes(x = cut, y = n)): Xác định “cut” là trục hoành và “n” là
trục tung.
- geom_col(data = bd26 %>% filter(color == ‘E’), fill = ‘red’):
Thêm một biểu đồ cột cho dữ liệu kim cương màu “E” với màu tô là
đỏ.
- geom_col(data = bd26 %>% filter(color == ‘J’), fill = ‘blue’):
Thêm một biểu đồ cột cho dữ liệu kim cương màu “J” với màu tô là xanh
lam.
- labs(x = ‘Loại’, y = ‘Số lượng’): Thêm nhãn cho trục hoành là “Loại”
và trục tung là “Số lượng”.
- Nhận xét: Ta có thể thấy sự chênh lệch số lượng giữa 2 màu E và J là
khá lớn. Đặc biệt là ở 4 loại Ideal - Premium - Very Good - Good, dễ
dàng nhận thấy phần màu đỏ đại diện cho màu E chiếm ưu thế hơn
Sự chênh lệch lớn nhất là ở mức Ideal, khi mà số lượng của màu J còn
không nhiều bằng phân nửa màu E
Còn ở mức cuối là Fair, số lượng của cả hai gần như xấp xỉ nhau
Biểu đồ 27:
bd27 <- diamonds
bd27 <- bd27 %>% group_by(cut, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
bd27 %>% ggplot(aes(x = cut, y = n)) +
geom_col(data = bd27 %>% filter(color == 'H'), fill = 'red') +
geom_col(data = bd27 %>% filter(color == 'I'), fill = 'blue') +
labs(x = 'Loại', y = 'Số lượng')

- Về mặt kỹ thuật:
- group_by(cut, color): Nhóm dữ liệu trong “bd27” theo hai trường
“cut” (Loại) và “color” (Màu sắc).
- summarise(n = n()): Tính toán số lượng viên kim cương trong mỗi nhóm
và lưu trữ kết quả trong một cột mới có tên “n”.
- ggplot(aes(x = cut, y = n)): Xác định “cut” là trục hoành và “n” là
trục tung.
- geom_col(data = bd27 %>% filter(color == ‘H’), fill = ‘red’):
Thêm một biểu đồ cột cho dữ liệu kim cương màu “D” với màu tô là
đỏ.
- geom_col(data = bd27 %>% filter(color == ‘I’), fill = ‘blue’):
Thêm một biểu đồ cột cho dữ liệu kim cương màu “J” với màu tô là xanh
lam.
- labs(x = ‘Loại’, y = ‘Số lượng’): Thêm nhãn cho trục hoành là “Loại”
và trục tung là “Số lượng”.
- Nhận xét:
Ta có thể thấy sự chênh lệch số lượng giữa 2 màu H và I là khá lớn.
Đặc biệt là ở 4 loại Ideal - Premium - Very Good - Good
Sự chênh lệch lớn nhất là ở mức Good, khi màu I có số lượng lớn hơn
gấp 3 lần màu H
Còn ở mức cuối là Fair, cũng có sự chênh lệch nhưng không đáng kể
Biểu đồ 28:
bd28 <- diamonds
bd28 <- bd28 %>% mutate(caratC = cut(carat,5, label = c('rất nhỏ', 'nhỏ','vừa','lớn','rất lớn')))
bd28 %>% ggplot(aes(x = caratC)) +
geom_bar(fill = 'red') +
theme_classic() +
labs(title = "Biểu đồ hình cột thể hiện số lượng kim cương trong mỗi nhóm carat")

- Về mặt kỹ thuật:
- mutate() để thêm một biến mới vào đối tượng “bd28”. Biến mới có tên
“caratC” được tạo ra bằng cách phân chia giá trị carat thành 5 nhóm:
“rất nhỏ”, “nhỏ”, “vừa”, “lớn”, “rất lớn”.
- Hàm cut() được sử dụng để thực hiện việc phân chia này.
- Tham số đầu tiên của cut() là carat, biến mà chúng ta muốn phân
chia.
- Tham số thứ hai là 5, số lượng nhóm mà chúng ta muốn tạo.
- Tham số thứ ba là label, một vector chứa tên cho các nhóm.
- ggplot(aes(x = caratC)) tạo ra một khung vẽ ggplot với trục x được
xác định bởi biến “caratC”.
- geom_bar(fill = ‘red’) thêm một biểu đồ hình cột vào khung vẽ. Màu
của các cột được tô màu đỏ.
- theme_classic(): Áp dụng giao diện cổ điển cho biểu đồ.
- labs(title = “Biểu đồ hình cột thể hiện số lượng kim cương trong mỗi
nhóm carat”): Thêm tiêu đề cho biểu đồ.
- Nhận xét: Sau khi đã chia nhỏ ra làm 5 nhóm, ta có thể thấy số lượng
kim cương thuộc nhóm rất nhỏ là chiếm cao nhất với hơn 4000 viên, sau đó
là nhỏ và vừa. Còn kim cương thuộc nhóm lớn và rất lớn có thể có nhưng
vì quá ít nên biểu đồ không thể hiện lên. Ngoài ra thì độ chênh lệch số
lượng viên kim cương giữa các nhóm là rất cao.
Biểu đồ 29:
bd29 <- diamonds
bd29 <- bd29 %>% mutate(priceC = cut(price,3, label = c('Mắc','Trung bình','Rẻ')))
bd29 %>% ggplot(aes(x = priceC)) +
geom_bar(fill = 'brown') +
theme_classic() +
labs(title = "Biểu đồ hình cột thể hiện số lượng kim cương trong mỗi nhóm price")

- Về mặt kỹ thuật:
- mutate() để thêm một biến mới vào đối tượng “bd29”. Biến mới có tên
“priceC” được tạo ra bằng cách phân chia giá trị carat thành 3 nhóm:
“Mắc”, “Trung bình”, “Rẻ”.
- Hàm cut() được sử dụng để thực hiện việc phân chia này.
- Tham số đầu tiên của cut() là carat, biến mà chúng ta muốn phân
chia.
- Tham số thứ hai là 3, số lượng nhóm mà chúng ta muốn tạo.
- Tham số thứ ba là label, một vector chứa tên cho các nhóm.
- ggplot(aes(x = priceC)) tạo ra một khung vẽ ggplot với trục x được
xác định bởi biến “priceC”.
- geom_bar(fill = ‘red’) thêm một biểu đồ hình cột vào khung vẽ. Màu
của các cột được tô màu đỏ.
- theme_classic(): Áp dụng giao diện cổ điển cho biểu đồ.
- labs(title = “Biểu đồ hình cột thể hiện số lượng kim cương trong mỗi
nhóm price”): Thêm tiêu đề cho biểu đồ.
- Nhận xét: Để dễ dàng đánh giá về giá của các viên kim cương, ta đã
phân nhỏ chúng ra thành 3 nhóm. Trong đó có thể dễ dàng thấy rằng số
lượng viên kim cương thuộc nhóm Mắc là cao nhất với hơn 4000 viên và
thấp nhất là với nhóm Rẻ chưa đến 1000 viên. Ngoài ra ta cũng thấy được
độ chênh lệch giữa các nhóm là khá cao, nhất là khi so các nhóm còn lại
với nhóm Mắc.
Biểu đồ 30:
bd30 <- diamonds
bd30 <- bd30 %>% mutate(depthC = cut(depth,5, label = c('Sâu','Khá sâu','Trung bình','Khá nông','Nông')))
bd30 %>% ggplot(aes(x = depthC)) +
geom_bar(fill = 'yellow') +
theme_classic() +
labs(title = "Biểu đồ hình cột thể hiện số lượng kim cương trong mỗi nhóm depth")

- Về mặt kỹ thuật:
- mutate() để thêm một biến mới vào đối tượng “bd30”. Biến mới có tên
“depthC” được tạo ra bằng cách phân chia giá trị carat thành 5 nhóm:
“Sâu”, “Khá sâu”, “Trung bình”, “Khá nông”, “Nông”.
- Hàm cut() được sử dụng để thực hiện việc phân chia này.
- Tham số đầu tiên của cut() là depth, biến mà chúng ta muốn phân
chia.
- Tham số thứ hai là 5, số lượng nhóm mà chúng ta muốn tạo.
- Tham số thứ ba là label, một vector chứa tên cho các nhóm.
- ggplot(aes(x = depthC)) tạo ra một khung vẽ ggplot với trục x được
xác định bởi biến “caratC”.
- geom_bar(fill = ‘yellow’) thêm một biểu đồ hình cột vào khung vẽ.
Màu của các cột được tô màu vàng.
- theme_classic(): Áp dụng giao diện cổ điển cho biểu đồ.
- labs(title = “Biểu đồ hình cột thể hiện số lượng kim cương trong mỗi
nhóm depth”): Thêm tiêu đề cho biểu đồ.
- Nhận xét: Nhìn vào biểu đồ, sau khi đã chia nhỏ độ sâu của viên kim
cương thành 5 nhóm, ta có thể thấy số lượng viên kim cương có độ sâu
trung bình là cao nhất, kế đến là nhóm khá nông và khá sâu, 2 nhóm còn
lại có thể có nhưng vì quá ít nên biểu đồ đã không thể hiện lên. Ngoài
ra có thể thấy khi so các nhóm còn lại với nhóm độ sâu trung bình ta
thấy sự cách biệt là rất lớn.
