Biểu đồ
Biểu đồ của dữ liệu cut
d %>% ggplot(aes(x = cut)) +
geom_bar() +
labs(title = "Hình 1: Biểu đồ số lượng kim cương theo mặt cắt",x = 'Loại', y = 'Số lượng')

- Qua biểu đồ chúng ta thấy các viên kim cương được chia thành 5 loại.
Trong đó loại Ideal có số lượng kimm cương cao nhất, Fair chứa số lượng
kim cương thấp nhất.
d %>% group_by(cut) %>% summarise(n = n()) %>%
ggplot(aes(cut,n)) +
geom_col(fill='lightblue') +
geom_text(aes(label = n),vjust = 2, color = 'white') +
labs(title = "Hình 2: Biểu đồ số lượng kim cương theo mặt cắt",x = 'Loại', y = 'Số lượng')

Số lượng viên kim cương thuộc loai Fair: 1610
Số lượng viên kim cương thuộc loại Good: 4906
Số lượng viên kim cương thuộc loại Very Good: 12082
Số lượng viên kim cương thuộc loại Premium: 13791
Số lượng viên kim cương thuộc loại Ideal: 21551
Kết luận: Số kim cương loại Ideal nhiều gấp 13 lần
loại Fair, nhiều gấp 4 lần loại Good, nhiều gấp 1.7 lần loại Very Good
và gấp 1.5 lần loai Premium.
Biểu đồ của dữ liệu color
d %>% group_by(color) %>% summarise(n = n()) %>%
ggplot(aes(color,n)) +
geom_col(fill='pink') +
geom_text(aes(label = n),vjust = 2, color = 'white') +
labs(title = "Hình 3: Biểu đồ số lượng kim cương theo màu sắc",x = 'Loại', y = 'Số lượng')

Viên kim cương có màu G có số lượng nhiều nhất (11292), viên kim
cương có màu J có số lượng ít nhất (2808).
Số lượng kim cương màu G nhiều gấp 4 lần so với màu J.
Biểu đồ của dữ liệu clarity
d %>% group_by(clarity) %>% summarise(n = n()) %>%
ggplot(aes(clarity,n)) +
geom_col(fill='lightgreen') +
geom_text(aes(label = n),vjust = 2, color = 'white') +
labs(title ="Hình 4: Biểu đồ số lượng kim cương theo độ tinh khiết",x = 'Loại', y = 'Số lượng')

Loại SI1 có số lượng kim cương cao nhất (13065)
Loại I1 có số lượng kim cương thấp nhất (741)
Số lượng kim cương có độ tinh khiết I1(Bao thể hiện thị):
741
Số lượng kim cương có độ tinh khiết SI2/SI1(Bao thể nhỏ):
9194/13605
Số lượng kim cương có độ tinh khiết VS2/VS1(Bao thể nhỏ cấp 2/
cấp 1):12258/8171
Số lượng kim cương có độ tinh khiết VVS2/VVS1(Khuyết tật rất
nhỏ):5066/3655
Số lượng kim cương có độ tinh khiết IF(Hoàn toàn tinh khiết):
1790
Biểu đồ với số lượng các loại diamond được phân loại theo
màu sắc
d %>% ggplot(mapping = aes(x = cut, fill = color)) +
geom_bar() +
scale_fill_manual(values = sort(unique(diamonds$color)))+
labs(title = "Hình 5: Biểu đồ số lượng kim cương chia theo màu sắc",x = 'Loại', y = 'Số lượng')

- Số lượng màu sắc các viên kim cương được phân bố đồng đều tại các
loại. Trong đó, màu D,E,G,H là màu có số lượng nhiều nhất trong các
loại
Biểu đồ trung bình trọng lượng diamond theo màu
sắc
d %>% group_by(color) %>% summarise(m= mean(carat)) %>%
ggplot(aes(x = color,y = m)) +
geom_col(position = 'dodge') +
geom_text(aes(label = round(m,2)), vjust = 2, color = 'green') +
labs(title = "Hình 6: Biểu đồ mean của kim cương theo màu sắc",x = 'Màu', y = 'Mean')

- Biểu đồ thể hiện trung bình trọng lượng kim cương theo màu sắc.
Trong đó, trung bình kim cương màu D và E là ngang nhau. Màu J có số
trung bình cao nhất là 1.16
Biểu đồ phương sai trọng lượng diamond theo màu
sắc
d %>% group_by(color) %>% summarise(v= var(carat)) %>%
ggplot(aes(x = color,y = v)) +
geom_col(position = 'dodge') +
geom_text(aes(label = round(v,2)), vjust = 2, color = 'green') +
labs(title = "Hình 7: Biểu đồ var của kim cương theo màu sắc",x = 'Màu', y = 'Var')

- Phương sai của màu J có phương sai cao nhất là 0.35, màu D có phương
sai thấp nhất là 0.13
Biểu đồ tỷ lệ phần trăm các loại diamond
d %>% ggplot(mapping = aes(x = cut, y = ..prop.., group = 1)) +
geom_bar() +
scale_y_continuous(labels = scales::percent_format())+
labs(title = "Hình 8: Biểu đồ số lượng kim cương theo mặt cắt đơn vị phần trăm",x = 'Loại', y = 'Số lượng')

Kim cương thuộc loại Fair và Good có số lượng dưới 20%.
Kim cương thuộc loại Very Good, Premium, Ideal có số lượng kim
cương trên 20%.
d %>% ggplot(mapping = aes(x = cut, fill = clarity)) +
geom_bar() +
facet_wrap(~ color) +
scale_fill_manual(values = sort(unique(diamonds$clarity))) +
labs(title = "Hình 9: Số lượng các loại diamond theo clarity và màu sắc", x = "Loại", y = "Số lượng")

Biểu đồ màu sắc J có độ biến động thấp, sau đó là biểu đồ màu
I.
Biểu đồ màu sắc G có độ biến động cao. Trong đó, loại Ideal của G
cao nhất so với các màu sắc còn lại.
Độ tinh khiết của kim cương có SI1, SI2, VS1, VS2 là biến động
nhiều ở các biểu đồ.
Biểu đồ trung bình giá kim cương theo từng loại cắt và màu
sắc
d %>% ggplot() +
stat_summary(mapping = aes(x = cut, y = price, fill = color), fun.y = "mean", geom = "bar", position = "dodge") +
coord_flip() +
scale_fill_brewer(palette = "Set3") +
labs(title = "Hình 10: Biểu đồ trung bình giá kim cương theo từng loại cắt và màu sắc",x = "Loại cắt", y = "Giá trung bình")

Biểu đồ tần suất của các loại cắt kim cương theo giá trị
(price)
d %>% ggplot( aes(x = cut, y = price, fill = color)) +
geom_bar(stat = "summary", fun.y = "mean")+
labs(title = "Hình 11: Tần suất cá loại cắt kim cương theo giá trị", x = "Loại", y = "Giá trị")

- Giá trị của các viên kim cương thuộc loại Premium có giá trị trung
bình cao nhất. Trong đó, màu J là màu có giá trị trung bình cao
nhất.
Biểu đồ tần suất của các loại cắt kim cương theo trọng lượng
(carat)
d %>% ggplot(aes(x = cut, y = carat, fill = color)) +
geom_bar(stat = "summary", fun.y = "mean")+
labs(title = "Hình 12: Tần suất các loại cắt kim cương theo trọng lượng", x = "Loại", y = "Trọng lượng")

- Trọng lượng của viên kiim cương loại Fair có trọng lượng trung bình
cao nhất.
Biểu đồ tần suất của các loại cắt kim cương
Biểu đồ tần suất của các loại cắt kim cương theo giá trị
(price), với màu sắc phụ thuộc vào độ trong suốt
d %>% ggplot(aes(x = cut, y = price, fill = clarity)) +
geom_bar(stat = "summary", fun.y = "mean", position = "dodge")+
labs(title = "Hình 13: Tần suất kim cương theo giá trị phụ thuộc vào màu sắc và độ trong suốt", x = "Loại", y = "Giá trị")

Giá trị trung bình của kim cương theo độ tình khiết IF ở loại
Very Good có giá trị cao nhất.
Giá trị trung bình của kim cương theo độ tình khiết VVS1 loại
Premium có giá trị cao nhất.
Giá trị trung bình của kim cương theo độ tình khiết VVS2 loại
Premium có giá trị cao nhất.
Giá trị trung bình của kim cương theo độ tình khiết VS1 loại
Premium có giá trị cao nhất.
Giá trị trung bình của kim cương theo độ tình khiết VS2 loại
Premium có giá trị cao nhất.
Giá trị trung bình của kim cương theo độ tình khiết SI1 loại
Premium có giá trị cao nhất.
Giá trị trung bình của kim cương theo độ tình khiết SI2 loại
Premium có giá trị cao nhất.
Giá trị trung bình của kim cương theo độ tình khiết I1 loại Ideal
có giá trị cao nhất.
Biểu đồ tần suất của các loại cắt kim cương theo trọng lượng
(carat), với màu sắc phụ thuộc vào độ trong suốt
d %>% ggplot( aes(x = cut, y = carat, fill = clarity)) +
geom_bar(stat = "summary", fun.y = "mean", position = "dodge")+
labs(title = "Hình 14: Tần suất kim cương theo trong lượng phụ thuộc vào màu sắc và độ trong suốt", x = "Loại", y = "Trọng lượng")

- Biểu đồ loại Fair có trọng lượng trung bình cao nhất với độ tinh
khiết I1, SI2, SI1, VS2.
Biểu đồ tần suất của các loại cắt kim cương theo giá trị
(price), với màu sắc phụ thuộc vào độ trong suốt, được phân loại theo
màu sắc của kim cương
d %>% ggplot(aes(x = cut, y = price, fill = clarity)) +
geom_bar(stat = "summary", fun.y = "mean", position = "dodge") +
facet_wrap(~color)+
labs(title = "Hình 15: Tần suất các loại kim cương theo giá trị", x = "Loại", y = "Giá trị")

Biểu đồ trung bình giá trị của các loại cắt kim cương với màu
sắc được phân loại
d %>% group_by(cut, color) %>% summarise(mean_price = mean(price)) %>%
ggplot(aes(x = cut, y = mean_price, fill = color)) +
geom_bar(stat = "identity", position = "dodge")+
labs(title = "Hình 16: Trung bình giá trị của các loại cắt kim cương với màu sắc", x = "Loại", y = "Giá trị trung bình")

Biểu đồ này hiển thị trung bình giá trị của các loại cắt kim
cương theo màu sắc.
Giá trị trung bình của màu D,E loại Fair cao nhất.
Giá trị trung bình của màu F,G,H,I,J loại Premium cao
nhất.
Biểu đồ tần suất của các loại cắt kim cương theo màu sắc và
độ trong suốt
d%>% group_by(cut, color, clarity) %>% count() %>%
ggplot(aes(x = cut, y = n, fill = color, color = clarity)) +
geom_bar(stat = "identity") +
labs(title = "Hình 17: Tần suất của các loại cắt kim cương theo màu sắc và độ trong suốt", x = "Loại", y = "Tần suất")

group_by(cut, color, clarity) %>% : Nhóm dữ liệu theo
cut, color và clarity
count() %>% : Đếm số lượng mẫu trong mỗi nhóm
ggplot(aes(x = cut, y = n, fill = color, color = clarity)) +
: Thiết lập biến x, y, màu sắc và màu viền
geom_bar(stat = “identity”) : Vẽ biểu đồ bar-chart
- Biểu đồ này hiển thị tần suất của các loại cắt kim cương theo màu
sắc và độ trong suốt. Trục x đại diện cho các loại cắt, trục y đại diện
cho tần suất, màu sắc biểu đồ phản ánh màu sắc của kim cương, và màu
viền biểu đồ phản ánh độ trong suốt của kim cương.
Biểu đồ tần suất của các loại cắt kim cương theo độ trong
suốt và màu sắc
d %>% group_by(clarity, color) %>% count() %>%
ggplot(aes(x = clarity, y = n, fill = color)) +
geom_bar(stat = "identity") +
labs(title = "Hình 18: Tần suất của các loại cắt kim cương theo độ trong suốt và màu sắc", x = "Loại", y = "Tần suất")

So sánh tần suất của các loại cắt kim cương trong từng màu
sắc cụ thể
tmp <- diamonds
tmp <- tmp %>% group_by(cut, color) %>% summarise(n = n())
tmp %>% ggplot(aes(x = cut, y = n)) +
geom_col(data = tmp %>% filter(color == 'D'), fill = 'yellow') +
geom_col(data = tmp %>% filter(color == 'J'), fill = 'green')+
labs(title = "Hình 19: So sánh tần suất của các loại cắt kim cương màu D và J", x = "Loại", y = "Tần suất")

Loại Fair có số kim cương màu J nhiều hơn màu D
Loại Good, Very Good, Premium số kim cương màu J vs D xấp xỉ
nhau
Loại Ideal có số kim cương màu J ít hơn màu D
Biểu đồ trung bình giá trị của các loại cắt kim cương với
màu sắc và độ trong suốt
d %>%group_by(cut, color, clarity) %>%summarise(mean_price = mean(price)) %>% arrange(desc(mean_price)) %>%
ggplot(aes(x = cut, y = mean_price, fill = color, color = clarity)) +
geom_bar(stat = "identity", position = "dodge")+
labs(title = "Hình 20: Biểu đồ trung bình giá trị của các loại cắt kim cương với màu sắc và độ trong suốt", x = "Loại", y = "Trung bình giá trị")

Trục x biểu thị các loại cắt kim cương (cut): Fair, Good, Very
Good, Premium và Ideal.
Trục y biểu thị giá trị trung bình của cột price (mean_price) dựa
trên các nhóm cut, color và clarity.
Mỗi cột biểu thị giá trị trung bình của price cho một nhóm cut,
color và clarity cụ thể.
Màu sắc của các cột được đặt bởi giá trị color, và màu sắc của
đường viền (color) của các cột được đặt bởi giá trị clarity.
Các cột được xếp chồng lên nhau (position = “dodge”) để so sánh
giá trị trung bình của price giữa các nhóm cut.
Số lượng viên kim cương theo từng mức độ tinh khiết (clarity)
cho ba màu sắc ‘D’, ‘I’ và ’J
tmp <- diamonds
tmp <- tmp %>% group_by(clarity, color) %>% summarise(n = n())
tmp %>% ggplot(aes(x = clarity, y = n)) +
geom_col(data = tmp %>% filter(color == 'D'), fill = 'darkgreen') +
geom_col(data = tmp %>% filter(color == 'I'),fill = 'purple') +
geom_col(data = tmp %>% filter(color == 'J'), fill = 'darkblue') +
labs(x = "Độ tinh khiết", y = "Số lượng") +
labs( title = "Hình 21: Đồ thị số lượng viên kim cương theo từng mức độ tinh khiết (clarity) cho ba màu sắc 'D', 'I' và 'J'")

số lượng viên kim cương ‘J’ cao hơn ‘D’ và ‘I’ cho hầu hết các
mức độ tinh khiết.
Số lương viên kim cương màu D xuất hiện ở mức độ tinh khiết SI2,
SI1,VS2,VVS2
Biểu đồ giá trị trung bình độ sâu của kim
cương
d%>% group_by(cut, clarity)%>%summarise(m=mean(depth))%>%ggplot(aes(x=cut, y= m))+
geom_col(position='dodge')+
facet_wrap(~clarity)+
geom_text(aes(label= round(m)), vjust=2, color='red')+
labs(x= 'Loại', y= 'Độ sâu trung bình',title='Hình 22: Giá trị trung bình của depth theo cut và clarity ')

group_by(cut, clarity) : Nhóm dữ liệu theo cột “cut” và
“clarity”.
summarise(m = mean(depth)) : Tính giá trị trung bình của cột
“depth” trong mỗi nhóm và tạo một cột mới có tên “m” để lưu giá trị
trung bình.
ggplot(aes(x = cut, y = m)) : Tạo một đối tượng ggplot với
trục x là “cut” và trục y là “m”.
geom_col(position = ‘dodge’) : Vẽ biểu đồ cột sử dụng hình
dạng mặc định và sử dụng phương pháp “dodge” để xếp chồng các cột của
các nhóm.
facet_wrap(~clarity) : Chia biểu đồ thành các panel riêng
biệt dựa trên cột “clarity”.
geom_text(aes(label = round(m)), vjust = 2, color = ‘red’):
Thêm nhãn dữ liệu trên mỗi cột, với giá trị được làm tròn và màu chữ đỏ.
Tham số vjust = 2 làm tăng khoảng cách giữa cột và nhãn.
- Độ sâu trung bình của các loại kim cương ở các mức độ tinh khiết
không có sự chênh lệch nhiều, đều dao động ở các mức độ
60,61,62,63,64.
d %>% group_by(cut,color) %>% summarise(m = mean(depth)) %>%
ggplot(aes(x = cut,y = m)) +
geom_col(position = 'dodge') +
facet_wrap(~color) +
geom_text(aes(label= round(m)), vjust=2, color='red')+
labs(x= 'Loại', y= 'Độ sâu trung bình',title='Hình 23: Giá trị trung bình của depth theo cut và color ')

Độ sâu trung bình của các loại kim cương ở các màu sắc khác nhau
không có sự chênh lệch nhiều, đều dao động ở các mức độ
60,61,62,63,64.
Biểu đồ tỷ lệ phần trăm số lượng kim cương theo màu
sắc
d %>% ggplot() +
geom_bar(mapping = aes(x = cut, y = ..prop.., group = color, fill = color)) +
scale_y_continuous(labels = scales::percent_format()) +
scale_fill_manual(values = sort(unique(diamonds$color)))+
facet_wrap(~clarity)+
labs(x= 'Loại', y= 'Phần trăm',title='Hình 24: Biểu đồ tỷ lệ phần trăm số lượng kim cương theo màu sắc ')

Biểu đồ này hiển thị tỷ lệ phần trăm của mỗi loại diamond dựa
trên cột “cut” của bộ dữ liệu “diamonds”, và các thanh bar được phân
loại theo cột “color”. Màu sắc các thanh bar được sắp xếp theo thứ tự
giá trị màu sắc.
Số lượng kim cương ở các mức độ tinh khiết đều có sự biến
động.
Trong đó, I1,SI2,SI1 màu sắc ở các loại có sự biến động.
VS2, VS1 tăng đều.
so sánh số lượng các mẫu kim cương cho từng mức độ cắt và màu
sắc
d %>% group_by(cut,color) %>% summarise(n=n()) %>%
ggplot(aes(x = cut,y = n)) +
geom_col(position = 'dodge') +
facet_wrap(~color) +
geom_text(aes(label = n),vjust = 2, color = 'green') +
labs(title='Hình 25: Biểu đồ so sánh số lượng các mẫu kim cương cho từng mức độ cắt và màu sắc ',x = 'Loại', y = 'Số lượng')

-Nhìn chung các viên kim cương theo màu sắc ở các loại đều có xu
hướng tăng.
- Trong đó loại Ideal có số lương kim cương theo màu sắc là cao
nhất.
Biểu đồ số lượng viên kim cương theo từng mức độ tinh khiết
(clarity) cho hai màu sắc “H” và “I”
df_new <- diamonds %>%
group_by(clarity, color) %>%
summarise(n = n()) %>%
mutate(color = factor(color, levels = c("H", "I")))
df_new %>%
ggplot(aes(x = clarity, y = n, fill = color)) +
geom_col(position = position_dodge()) +
labs(title = "Hình 26: Đồ thị số lượng viên kim cương theo từng mức độ tinh khiết (clarity) cho hai màu sắc 'G' và 'J'") + labs(x = "Độ tinh khiết", y = "Số lượng")

Biểu đồ này giúp trực quan hóa và so sánh số lượng viên kim cương
theo từng mức độ tinh khiết cho hai màu sắc ‘G’ và ‘J’. Bằng cách sử
dụng các cột và màu sắc, chúng ta có thể dễ dàng so sánh số lượng giữa
các nhóm và nhận thấy phân bố của viên kim cương theo mức độ tinh khiết
và màu sắc của chúng.
Nhìn chung, ta thấy màu H có số lượng viên kim cương nhiều hơn
màu I.
Mức độ tinh khiết SI1 là có số lượng kim cương cao nhất.
** Biểu đồ số lượng viên kim cương theo chất lượng cắt và màu sắc (D
và J)**
tmp <- diamonds
tmp <- tmp %>% group_by(cut, color) %>% summarise(n = n())
tmp %>% ggplot(aes(x = cut, y = n)) +
geom_col(data = tmp %>% filter(color == 'D'), fill = 'lightblue') +
geom_col(data = tmp %>% filter(color == 'J'), fill = 'blue')+labs(x="Chất lượng",y="Số lượng")+
labs( title = "Hình 27: Số lượng viên kim cương theo chất lượng cắt và màu sắc (D và J)")

Nhìn chung, số lượng viên kim cương ‘D’ cao hơn ‘J’ cho tất cả
các mức chất lượng cắt. Cả hai màu đều có xu hướng giảm số lượng viên
kim cương khi chất lượng cắt giảm.
Phân bố số lượng viên kim cương theo màu sắc: Màu ‘J’ có xu hướng
phân bố đều hơn giữa các mức chất lượng cắt. Màu ‘D’ có xu hướng tập
trung nhiều hơn ở các mức chất lượng cắt ‘Ideal’.
Dữ liệu trong biểu đồ cho thấy chất lượng cắt ảnh hưởng đến số lượng
viên kim cương. Màu sắc cũng ảnh hưởng đến số lượng viên kim cương,
nhưng mức độ ảnh hưởng thấp hơn so với chất lượng cắt.
Biểu đồ trung vị giá theo biến cut
d %>% group_by(cut) %>% summarise(m= median(price)) %>%
ggplot(aes(x = cut,y = m)) +
geom_col(position = 'dodge') +
geom_text(aes(label = round(m,2)), vjust = 2, color = 'white') +
labs(x = 'Loại', y = 'Trung vị',title = "Hình 28: Biểu đồ trung vị giá theo biến cut")

Trung vị Price của loại kim cương loại Fair là 3282
Trung vị Price của loại kim cương loại Good là 3050.5
Trung vị Price của loại kim cương loại Very Good là 2648
Trung vị Price của loại kim cương loại Premium là 3185
Trung vị Price của loại kim cương loại Ideal là 1810
Biểu đồ độ lệch chuẩn của table theo độ tinh
khiết
d %>% group_by(clarity) %>% summarise(m= sd(table)) %>%
ggplot(aes(x = clarity,y = m)) +
geom_col(position = 'dodge') +
geom_text(aes(label = round(m,2)), vjust = 2, color = 'red') +
labs(x = 'Độ tinh khiết', y = 'Độ lệch chuẩn',title = "Hình 29: Độ lệch chuẩn của table theo độ tinh khiết")

Độ lệch chuẩn của kim cương về bề mặt kim cương I1 là : 2.57 Độ lệch
chuẩn của kim cương về bề mặt kim cương SI2 là : 2.33 Độ lệch chuẩn của
kim cương về bề mặt kim cương SI1 là : 2.25 Độ lệch chuẩn của kim cương
về bề mặt kim cương VS2 là : 2.16 Độ lệch chuẩn của kim cương về bề mặt
kim cương VS1 là : 2.23 Độ lệch chuẩn của kim cương về bề mặt kim cương
VVS2 là : 2.07 Độ lệch chuẩn của kim cương về bề mặt kim cương VVS1 là :
2.02 Độ lệch chuẩn của kim cương về bề mặt kim cương IF là : 1.98
Biểu đồ số lượng kim cương sắp xếp theo độ lớn
d <- diamonds
d <- d %>% mutate(caratC = cut(carat,5, label = c('rất nhỏ', 'nhỏ','vừa','lớn','rất lớn')))
d %>% ggplot(aes(x = caratC)) +
geom_bar(fill = 'pink')+
labs(title = "Hình 30: Biểu đồ số lượng kim cương sắp xếp theo độ lớn")

Kim cương rất nhỏ chiếm số lượng lớn kim cương.
kim cương vừa có số lượng thấp.
Lớn và rất lớn không có kim cương tồn tại.
