1 Giới thiệu bộ dữ liệu diamonds

Bộ dữ liệu Diamonds là một bộ dữ liệu phổ biến trong lĩnh vực khoa học dữ liệu. Bộ dữ liệu bao gồm những thuộc tính và những thông tin liên quan về những viên kim cương. Bộ dữ liệu gồm có 53940 quan sát tương đương với 53940 viên kim cương và 10 đối tương đương với 10 thuộc tính.

Ý nghĩa từng đối tượng:

  • carat: Trọng lượng của kim cương, đơn vị là carat.

  • cut: Chất lượng cắt của kim cương. Có thể là ‘Fair’, ‘Good’, ‘Very Good’, ‘Premium’, hoặc ‘Ideal’.

  • color: Màu sắc của kim cương, từ J (kém nhất) đến D (tốt nhất).

  • clarity: Độ tinh khiết của kim cương. Có thể là ‘I1’ (kém nhất), ‘SI2’, ‘SI1’, ‘VS2’, ‘VS1’, ‘VVS2’, ‘VVS1’, hoặc ‘IF’ (tốt nhất).

  • depth: Tỉ lệ giữa chiều cao và chiều rộng của kim cương, được tính bằng phần trăm.

  • table: Tỉ lệ giữa chiều rộng của mặt trên cùng (bàn) và chiều rộng tổng thể của kim cương, được tính bằng phần trăm.

  • price: Giá của kim cương, đơn vị là USD.

  • x: Chiều dài của kim cương, đơn vị là mm.

  • y: Chiều rộng của kim cương, đơn vị là mm.

  • z: Chiều cao của kim cương, đơn vị là mm.

2 30 Biểu đồ

library(tidyverse)
tmp <- diamonds 
tmp <- tmp %>% mutate(caratk = cut(carat,3, label = c('nhỏ','vừa','lớn')))
tmp %>% ggplot(aes(x = caratk)) +
  geom_bar(fill = 'black')

2.1 Giải thích biểu đồ 1:

đồ thị giúp so sánh số lượng kim cương có kích thước lớn, vừa và nhỏ. Trong đó số viên kim cương kích thước nhỏ chiếm số lượng lớn nhất trong toàn bộ dữ liệu, với số lượng hơn 50000. Tiếp đến là kim cương kích thước vừa khoảng với số lượng khoảng 2000 viên. Không có kim cương loại lớn.


library(tidyverse)
tmp <- tmp %>% group_by(cut, color) %>% summarise(SL = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
tmp %>% ggplot(aes(x = cut, y = SL)) +
  geom_col(data = tmp %>% filter(color == 'D'), fill = 'yellow') +
  geom_col(data = tmp %>% filter(color == 'J'), fill = 'pink')

2.2 Giải thích biểu đồ 2:

Đồ thị này cho ta so sánh được tổng số lượng kim cương màu màu D và màu J của các loại kim cương(cut) có trong bộ dữ liệu. Cụ thể là tổng số kim cương màu D và J của kim cương loại Fair là ít nhất khoảng dưới 250 viên, tiếp đến là loại Good khoảng 600 viên, tiếp đó là loại Very Good và Premium lần lượt với khoảng 1500 viên và 1550 viên. Loại Ideal là loại có tổng số kim cương màu D và J lớn nhất trong bộ dữ liệu với khoảng 2800 viên.Trong đồ thị này,màu vàng biểu diễn kim cương màu D còn màu hồng biểu diễn cho kim cương màu J.


library(tidyverse)
tmp <- diamonds 
tmp <- tmp %>% group_by(cut, color) %>% summarise(SL = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
tmp %>% ggplot(aes(x = cut, y = SL)) +
  geom_col(data = tmp %>% filter(color == 'E'), fill = 'red') +
  geom_col(data = tmp %>% filter(color == 'F'), fill = 'pink') +
  geom_col(data = tmp %>% filter(color == 'D'), fill = 'blue')

2.3 Giải Thích biểu đồ 3:

Đồ thị này cho ta so sánh được tổng số lượng kim cương màu màu E,F và màu D của các loại kim cương(cut) có trong bộ dữ liệu. Cụ thể là tổng số kim cương màu D,E và F của kim cương loại Fair là ít nhất khoảng gần 300 viên, tiếp đến là loại Good khoảng 750 viên, tiếp đó là loại Premium và loại Very Good lần lượt với khoảng 2400 viên và 2450 viên. Loại Ideal là loại có tổng số kim cương màu D,E và F lớn nhất trong bộ dữ liệu với khoảng 3800 viên.


library(tidyverse)
tmp <- diamonds 
ggplot(diamonds, aes(x = cut, y = carat)) +
  geom_bar(stat = "summary", fun = "mean", fill = "skyblue") +
  labs(title = "Giá trị trung bình", x = "Cut", y = "tb")

2.4 Giải thích biểu đồ 4:

geom_bar() được sử dụng để vẽ biểu đồ bar chart, với stat = summary để tính toán thống kê trên dữ liệu (trong trường hợp này, giá trị trung bình của carat) và fun = mean để chỉ định rằng chúng ta muốn tính giá trị trung bình. labs() được sử dụng để đặt tiêu đề cho biểu đồ và các nhãn trục. Biểu đồ bar chart hiển thị giá trị trung bình của carat cho từng mức độ cut trong bộ dữ liệu diamonds.Cụ thể là giá trị khối lượng trung bình của kim cương loại Fair là lớn nhất khoảng 1.05 và thấp nhất là kim cương loại Ideal khoảng 0.78


library(ggplot2)


# Tính độ lệch chuẩn của carat cho mỗi mức độ cut
SD <- aggregate(carat ~ cut, data = diamonds, FUN = sd)

# Tạo biểu đồ bar chart
ggplot(SD, aes(x = cut, y = carat)) +
  geom_bar(stat = "identity", fill = "orange") +
  labs(title = "Độ lệch chuẩn", x = "Cut", y = "Sd")

2.5 Giải thích biểu đồ 5:

  • Chúng ta sử dụng hàm aggregate() để tính độ lệch chuẩn của carat cho mỗi mức độ cut trong bộ dữ liệu diamonds.

  • Sau đó, chúng ta tạo biểu đồ bar chart với trục x biểu thị các mức độ cut và trục y biểu thị độ lệch chuẩn của carat tương ứng.

Biểu đồ này sẽ hiển thị độ lệch chuẩn của carat cho mỗi mức độ cut, giúp ta hiểu về mức độ biến động của carat trong từng loại kim cương


library(ggplot2)
data(diamonds)

# lọc ra những viên kim cương màu D
filtered_data_D <- subset(diamonds, color == "D")

# Tính giá trung bình của các loại kim cương màu D
average_price <- aggregate(price ~ cut, data = filtered_data_D, FUN = mean)
ggplot(average_price, aes(x = cut, y = price, fill = cut)) +
  geom_bar(stat = "identity") +
  labs(title = "Giá trung bình của các loại kim cương màu D", x = "Cut", y = "Average Price") +
  scale_fill_discrete(name = "Cut")

2.6 Giải thích biểu đồ 6

  • average_price <- aggregate(price ~ cut, data = filtered_data_D, FUN = mean): dùn để tính giá trung bình cho các viên kim cương màu D.

  • labs(title = ) dùng để đặt tên cho các trục và tên của tiêu đề

  • scale_fill_discrete(name = “Cut”): dùng để chú giải cho biểu đồ

Đồ thị này giúp chúng ta có thể so sánh giá trung bình của kim cương màu D ứng với các kiểu kim cương ( cut)

library(ggplot2)
data(diamonds)
# lọc ra các viên kim cương màu E và F
filtered_data_EF <- subset(diamonds, color %in% c("E", "F"))

# Tính gIá trung bình của kim cương 2 màu E và màu F
average_price <- aggregate(price ~ color, data = filtered_data_EF, FUN = mean)

# Create a bar chart for average prices
ggplot(average_price, aes(x = color, y = price, fill = color)) +
  geom_bar(stat = "identity") +
  labs(title = "Giá trung bình của 2 màu kim cương E và F", x = "Color", y = "Average Price") +
  scale_fill_discrete(name = "Color")

2.7 Giải thích biểu đồ 7:

  • Trục x của biểu đồ biểu thị các màu kim cương, bao gồm “E” và “F”.

  • Trục y của biểu đồ biểu thị giá trị trung bình của các viên kim cương tương ứng với mỗi màu.

  • Mỗi cột trong biểu đồ biểu diễn giá trị trung bình của mỗi màu kim cương.

  • Biểu đồ này cho chúng ta biết rằng trung bình giá của các viên kim cương màu “E” và “F” là bao nhiêu. Nếu có sự khác biệt đáng kể giữa hai màu kim cương này, chúng ta có thể nhận thấy sự biến động trong giá trị trung bình của giá giữa chúng.

  • Điều này có thể hữu ích trong việc hiểu về giá trị trung bình của các viên kim cương có màu khác nhau trong thị trường.

library(ggplot2)
data("diamonds")



# Vẽ biểu đồ cột
ggplot(diamonds, aes(x = cut)) +
  geom_bar(fill = "skyblue", color = "red") +
  labs(title = "Số lượng kim cương theo chất lượng cắt",
       x = "Chất lượng cắt",
       y = "Số lượng")

2.8 Giải thích biểu đồ 8

  • geom_bar() được sử dụng để tạo biểu đồ cột.

  • fill được sử dụng để chỉ định màu của các cột, và color là màu của đường viền cột.

  • labs() được sử dụng để đặt tiêu đề cho biểu đồ và các trục.

Biểu đồ này cho chúng ta một cái nhìn tổng quan về phân phối số lượng kim cương theo chất lượng cắt của chúng. Đối với mỗi loại chất lượng cắt, chúng ta có thể thấy số lượng tương ứng của kim cương.

library(ggplot2)
data("diamonds")
ggplot(diamonds, aes(x = cut, y = price)) +
  geom_bar(stat = "summary", fun = "mean", fill = "red", color = "black") +
  labs(title = "Biểu đồ giá trung bình của Kim cương theo Chất lượng cắt",
       x = "Chất lượng cắt",
       y = "Giá trung bình (USD)")

2.9 Giải thích biểu đồ 9

Trong đó:

  • aes(x = cut, y = price): Ta sử dụng cột cut để làm trục x (chất lượng cắt) và cột price để làm trục y (giá).

  • geom_bar(stat = "summary", fun = "mean"): Sử dụng geom_bar() với stat = "summary" để tính giá trung bình và vẽ các cột. Chúng ta sử dụng fun = "mean" để tính giá trung bình.

  • fill = "red", color = "black": Đặt màu fill cho các cột là màu đỏ và màu viền là màu đen.

  • labs(): Đặt tiêu đề cho biểu đồ và các trục.

Biểu đồ này sẽ hiển thị giá trung bình của kim cương theo mỗi mức chất lượng cắt tương ứng.

library(ggplot2)
data("diamonds")
ggplot(diamonds, aes(x = cut, y = price)) +
  geom_bar(stat = "summary", fun = "mean", fill = "purple", color = "black") +
  labs(title = "Biểu đồ giá trung bình của Kim cương theo Chất lượng cắt",
       x = "Chất lượng cắt",
       y = "Giá trung bình (USD)") + coord_flip()

2.10 Giải thích biểu đồ 10

Trong đó:

  • aes(x = cut, y = price): Ta sử dụng cột cut để làm trục x (chất lượng cắt) và cột price để làm trục y (giá).

  • geom_bar(stat = "summary", fun = "mean"): Sử dụng geom_bar() với stat = "summary" để tính giá trung bình và vẽ các cột. Chúng ta sử dụng fun = "mean" để tính giá trung bình.

  • fill = "purple", color = "black": Đặt màu fill cho các cột là màu tím và màu viền là màu đen.

  • labs(): Đặt tiêu đề cho biểu đồ và các trục.

  • coord_flip(): làm cho biểu đồ nằm ngang

Biểu đồ này sẽ hiển thị giá trung bình của kim cương theo mỗi mức chất lượng cắt tương ứng.

library(ggplot2)
data("diamonds")
ggplot(diamonds, aes(x = cut, y = y)) +
  geom_bar(stat = "summary", fun = "mean", fill = "green", color = "black") +
  labs(title = "Độ rộng y trung bình của Kim cương theo Chất lượng cắt",
       x = "Chất lượng cắt",
       y = "Độ rộng y trung bình (mm)")

2.11 GIải thích biểu đồ 11

Trong biểu đồ này:

  • aes(x = cut, y = y): Chúng ta sử dụng cột cut để làm trục x (chất lượng cắt) và cột yđể làm trục y (độ rộng y).

  • geom_bar(stat = "summary", fun = "mean"): Sử dụng geom_bar() với stat = "summary" để tính độ rộng y trung bình và vẽ các cột. Chúng ta sử dụng fun = "mean" để tính giá trung bình.

  • fill = "green", color = "black": Đặt màu fill cho các cột là màu xanh lá cây và màu viền là màu đen.

  • labs(): Đặt tiêu đề cho biểu đồ và các trục.

Biểu đồ này sẽ hiển thị độ rộng y trung bình của kim cương theo mỗi mức chất lượng cắt tương ứng.

library(ggplot2)
data("diamonds")
ggplot(diamonds, aes(x = cut, y = y)) +
  geom_bar(stat = "summary", fun = "mean", fill = "green", color = "black") +
  labs(title = "Độ rộng y trung bình của Kim cương theo Chất lượng cắt",
       x = "Chất lượng cắt",
       y = "Độ rộng y trung bình (mm)") + coord_flip()

2.12 GIải thích biểu đồ 12

Trong biểu đồ này:

  • aes(x = cut, y = y): Chúng ta sử dụng cột cut để làm trục x (chất lượng cắt) và cột yđể làm trục y (độ rộng y).

  • geom_bar(stat = "summary", fun = "mean"): Sử dụng geom_bar() với stat = "summary" để tính độ rộng y trung bình và vẽ các cột. Chúng ta sử dụng fun = "mean" để tính giá trung bình.

  • fill = "green", color = "black": Đặt màu fill cho các cột là màu xanh lá cây và màu viền là màu đen.

  • labs(): Đặt tiêu đề cho biểu đồ và các trục.

  • coord_flip(): làm cho đồ thị nằm ngang

Biểu đồ này sẽ hiển thị độ rộng y trung bình của kim cương theo mỗi mức chất lượng cắt tương ứng.

library(ggplot2)
data("diamonds")
# Tính giá trung bình của độ dài x theo chất lượng cắt
mean_x <- aggregate(diamonds$x, by = list(diamonds$cut), FUN = mean)

# Vẽ biểu đồ cột
ggplot(diamonds, aes(x = cut, y = x)) +
  geom_bar(stat = "summary", fun = "mean", fill = "skyblue", color = "black") +
  geom_text(data = mean_x, aes(x = Group.1, y = x, label = round(x, 1)), vjust = -0.5) +
  labs(title = "Độ dài x trung bình của Kim cương theo Chất lượng cắt",
       x = "Chất lượng cắt",
       y = "Độ dài x trung bình (mm)") 

2.13 Giải thích biểu đồ 13

  • Chúng ta sử dụng hàm aggregate() để tính giá trung bình của độ dài x theo mỗi mức chất lượng cắt.

  • geom_text() được sử dụng để thêm số trung bình lên các cột, với các tham số x là nhóm (mức chất lượng cắt), y là giá trị trung bình của độ dài x, và label là số trung bình (được làm tròn đến 1 chữ số thập phân).

  • vjust = -0.5 được sử dụng để căn chỉnh văn bản lên trên các cột.

Biểu đồ này sẽ hiển thị độ dài x trung bình của kim cương theo mỗi mức chất lượng cắt, và số trung bình sẽ được hiển thị trên đỉnh của từng cột.

# Load thư viện ggplot2
library(ggplot2)

# Vẽ biểu đồ cột
ggplot(diamonds, aes(x = cut, y = x)) +
  geom_bar(stat = "summary", fun = "mean", fill = "blue", color = "black") +
  labs(title = "Độ dài x trung bình của Kim cương theo Chất lượng cắt",
       x = "Chất lượng cắt",
       y = "Độ dài x trung bình (mm)")

2.14 Giải thích biểu đồ 14

Trong biểu đồ này:

  • aes(x = cut, y = x): Chúng ta sử dụng cột “cut” để làm trục x (chất lượng cắt) và cột “x” để làm trục y (độ dài x).

  • geom_bar(stat = "summary", fun = "mean"): Sử dụng geom_bar() với stat = "summary" để tính độ dài x trung bình và vẽ các cột. Chúng ta sử dụng fun = "mean" để tính giá trung bình.

  • fill = "blue", color = "black": Đặt màu fill cho các cột là màu xanh da trời và màu viền là màu đen.

  • labs(): Đặt tiêu đề cho biểu đồ và các trục.

Biểu đồ này sẽ hiển thị độ dài x trung bình của kim cương theo mỗi mức chất lượng cắt tương ứng.

# Load thư viện ggplot2
library(ggplot2)

# Tính độ dài trung bình của các mẫu kim cương theo màu sắc
mean_length <- aggregate(diamonds$x, by = list(diamonds$color), FUN = mean)

# Vẽ biểu đồ cột
ggplot(mean_length, aes(x = Group.1, y = x)) +
  geom_bar(stat = "identity", fill = "red", color = "black") +
  geom_text(aes(label = round(x, 1)), vjust = -0.5, color = "black") +
  labs(title = "Độ dài trung bình của Kim cương theo Màu sắc",
       x = "Màu sắc",
       y = "Độ dài trung bình (mm)")

2.15 Giải thích biểu đồ 15

Trong đó:

  • Chúng ta sử dụng hàm aggregate() để tính độ dài trung bình của các mẫu kim cương theo màu sắc.

  • geom_bar(stat = "identity") được sử dụng để vẽ các cột dựa trên giá trị trong cột y.

  • geom_text() được sử dụng để thêm số trên các cột, với các tham số label là giá trị độ dài trung bình của từng màu sắc (được làm tròn đến 1 chữ số thập phân).

  • vjust = -0.5 được sử dụng để căn chỉnh văn bản lên trên các cột.

  • color = "black" được sử dụng để đặt màu cho văn bản là màu đen.

Biểu đồ này sẽ hiển thị độ dài trung bình của kim cương theo mỗi màu sắc, và số trung bình sẽ được hiển thị trên đỉnh của từng cột.

# Load thư viện ggplot2
library(ggplot2)
# Tính độ sâu trung bình của các mẫu kim cương theo chất lượng cắt
mean_depth <- aggregate(diamonds$depth, by = list(diamonds$cut), FUN = mean)

# Vẽ biểu đồ cột
ggplot(mean_depth, aes(x = Group.1, y = x)) +
  geom_bar(stat = "identity", fill = "orange", color = "black") +
  geom_text(aes(label = round(x, 1)), vjust = -0.5, color = "green") +
  labs(title = "Độ sâu trung bình của Kim cương theo Chất lượng cắt",
       x = "Chất lượng cắt",
       y = "Độ sâu trung bình (%)")

2.16 Giải thích biểu đồ 16

Trong biểu đồ này: - Chúng ta sử dụng hàm aggregate() để tính độ sâu trung bình của các mẫu kim cương theo chất lượng cắt.

  • geom_bar(stat = "identity") được sử dụng để vẽ các cột dựa trên giá trị trong cột y.

  • geom_text() được sử dụng để thêm số trung bình lên các cột, với label là giá trị độ sâu trung bình của từng loại chất lượng cắt (được làm tròn đến 1 chữ số thập phân).

  • vjust = -0.5 được sử dụng để căn chỉnh văn bản lên trên các cột.

  • fill = “orange”, color = “black” : màu của biểu đồ là màu cam và của chữ số trên các cột là màu xanh lá.

Biểu đồ này sẽ hiển thị độ sâu trung bình của kim cương theo mỗi mức chất lượng cắt tương ứng.

# Load thư viện ggplot2
library(ggplot2)

# Tính độ lệch chuẩn của giá cho các kim cương màu E, F và J
std_dev <- aggregate(price ~ color, data = subset(diamonds, color %in% c("E", "F", "J")), FUN = sd)

# Vẽ biểu đồ cột
ggplot(std_dev, aes(x = color, y = price)) +
  geom_bar(stat = "identity", fill = "skyblue", color = "black") +
  geom_text(aes(label = round(price, 1)), vjust = -0.5, color = "red") +
  labs(title = "Độ lệch chuẩn về giá của Kim cương màu E, F, J",
       x = "Màu sắc",
       y = "Độ lệch chuẩn giá")

2.17 Giải thích biểu đồ 17

Trong đó:

  • Chúng ta sử dụng hàm subset() để lấy các mẫu kim cương có màu sắc là E, F và J từ bộ dữ liệu diamonds.

  • Sau đó, chúng ta tính độ lệch chuẩn của giá cho mỗi màu sắc sử dụng hàm aggregate() với FUN = sd.

  • geom_bar(stat = "identity") được sử dụng để vẽ các cột dựa trên giá trị trong cột y.

  • geom_text() được sử dụng để thêm số độ lệch chuẩn lên các cột, với label là giá trị độ lệch chuẩn của từng màu sắc (được làm tròn đến 1 chữ số thập phân).

  • vjust = -0.5 được sử dụng để căn chỉnh văn bản lên trên các cột.

  • fill = “skyblue”, color = “black”: biểu đồ màu xanh da trời và viền đen

  • color = “red”: số trên biểu đồ màu đỏ

Biểu đồ này sẽ hiển thị độ lệch chuẩn về giá của các kim cương màu E, F và J.

# Load thư viện ggplot2
library(ggplot2)

# Tính độ lệch chuẩn của giá cho các kim cương màu D, F và J
std_dev <- aggregate(price ~ color, data = subset(diamonds, color %in% c("D", "F", "J")), FUN = sd)

# Vẽ biểu đồ cột
ggplot(std_dev, aes(x = price, y = color)) +
  geom_bar(stat = "identity", fill = "yellow", color = "black") +
  geom_text(aes(label = round(price, 1)), hjust = -0.3, color = "red") +
  labs(title = "Độ lệch chuẩn về giá của Kim cương màu D, F, J",
       x = "Độ lệch chuẩn giá",
       y = "Màu sắc") +
  coord_flip()

2.18 Giải thích biểu đồ 18:

Tương tự như biểu đồ 17, chỉ đổi màu E thành màu D

# Load thư viện ggplot2
library(ggplot2)

# Tính số lượng của mỗi mức độ clarity
clarity_count <- table(diamonds$clarity)

# Chuyển table thành dataframe để dễ vẽ biểu đồ
clarity_df <- as.data.frame(clarity_count)
names(clarity_df) <- c("Clarity", "Count")

# Vẽ biểu đồ cột
ggplot(clarity_df, aes(x = Clarity, y = Count)) +
  geom_bar(stat = "identity", fill = "blue", color = "black") +
  geom_text(aes(label = Count), vjust = -0.8, color = "black") +
  labs(title = "Số lượng các mức Clarity của Kim cương",
       x = "Clarity",
       y = "Số lượng")

2.19 Giải thích biểu đồ 19

Trong đó:

  • Chúng ta sử dụng hàm table() để tính số lượng của mỗi mức độ clarity trong cột clarity.

  • Sau đó, chúng ta chuyển kết quả của table() thành một dataframe để dễ dàng vẽ biểu đồ.

  • geom_bar(stat = "identity") được sử dụng để vẽ các cột dựa trên giá trị trong cột y.

  • geom_text() được sử dụng để thêm số lượng của từng mức clarity lên trên các cột.

Biểu đồ này sẽ hiển thị số lượng các mức độ clarity của kim cương, giúp phân tích phân bố của dữ liệu trong cột clarity.

# Load thư viện ggplot2
library(ggplot2)

# Tính giá trung bình của mỗi mức độ clarity
clarity_price <- aggregate(diamonds$price, by = list(diamonds$clarity), FUN = mean)

# Vẽ biểu đồ cột
ggplot(clarity_price, aes(x = Group.1, y = x)) +
  geom_bar(stat = "identity", fill = "black", color = "red") +
  geom_text(aes(label = round(x, 1)), vjust = -0.5, color = "green") +
  labs(title = "Giá trung bình của Kim cương theo Mức độ Clarity",
       x = "Mức độ Clarity",
       y = "Giá trung bình")

2.20 Giải thích đồ thị 20

Trong đó:

  • Chúng ta sử dụng hàm aggregate() để tính giá trung bình của mỗi mức độ clarity trong cột price.

  • geom_bar(stat = "identity") được sử dụng để vẽ các cột dựa trên giá trị trong cột y.

  • geom_text() được sử dụng để thêm giá trị giá trung bình lên trên các cột.

  • aes(label = round(x, 1)), vjust = -0.5, color = “green”: để làm tròn giá trung bình đến 1 chữ số thập phân và màu chữ số trên các cột là màu xanh lá

  • labs(title ): đặt tên tiêu đề và các trục

Biểu đồ này sẽ hiển thị giá trung bình của kim cương theo mỗi mức độ clarity, giúp phân tích mối quan hệ giữa giá và clarity của kim cương.

# Load thư viện ggplot2
library(ggplot2)

# Tính giá trung bình của mỗi mức độ clarity
clarity_price <- aggregate(diamonds$price, by = list(diamonds$clarity), FUN = mean)

# Vẽ biểu đồ cột
ggplot(clarity_price, aes(x = Group.1, y = x)) +
  geom_bar(stat = "identity", fill = "black", color = "red") +
  geom_text(aes(label = round(x, 1)), vjust = -0.5, color = "green") +
  labs(title = "Giá trung bình của Kim cương theo Mức độ Clarity",
       x = "Mức độ Clarity",
       y = "Giá trung bình") + coord_flip()

2.21 Giải thích đồ thị 21

Giống đồ thị 20 nhưng chỉ thay đổi vị trí 2 trục tọa độ

# Load thư viện ggplot2
library(ggplot2)

# Tính giá trung bình của kim cương có màu J theo chất lượng cắt
avg_price <- aggregate(diamonds$price, by = list(diamonds$cut), FUN = mean)

# Vẽ biểu đồ cột
ggplot(subset(diamonds, color == "J"), aes(x = cut, y = price)) +
  geom_bar(stat = "summary", fun = "mean", fill = "green", color = "black") +
  labs(title = "Giá trung bình của Kim cương màu J theo Chất lượng cắt",
       x = "Chất lượng cắt",
       y = "Giá trung bình")

2.22 Giải thích đồ thị 22

Trong đó:

  • Chúng ta sử dụng hàm aggregate() để tính giá trung bình của các mẫu kim cương có màu J theo chất lượng cắt.

  • subset(diamonds, color == "J") được sử dụng để lấy ra chỉ các mẫu kim cương có màu J.

  • geom_bar(stat = "summary", fun = "mean") được sử dụng để vẽ các cột biểu diễn giá trung bình của các mẫu kim cương theo chất lượng cắt.

  • Các cài đặt khác như tiêu đề và chủ đề của biểu đồ vẫn được giữ nguyên.

Biểu đồ này sẽ hiển thị giá trung bình của các mẫu kim cương màu J theo từng mức chất lượng cắt.

# Load thư viện ggplot2
library(ggplot2)

# Tính độ sâu trung bình của mỗi mức độ clarity
clarity_depth <- aggregate(diamonds$depth, by = list(diamonds$clarity), FUN = mean)

# Vẽ biểu đồ cột
ggplot(clarity_depth, aes(x = Group.1, y = x)) +
  geom_bar(stat = "identity", fill = "skyblue", color = "black") +
  geom_text(aes(label = round(x, 1)), vjust = -0.5, color = "orange") +
  labs(title = "Độ sâu trung bình của Kim cương theo Mức độ Clarity",
       x = "Mức độ Clarity",
       y = "Độ sâu trung bình")

2.23 Giải thích đồ thị 23

Trong đó:

  • Chúng ta sử dụng hàm aggregate() để tính độ sâu trung bình của mỗi mức độ clarity trong cột depth.

  • geom_bar(stat = "identity") được sử dụng để vẽ các cột dựa trên giá trị trong cột y.

  • geom_text() được sử dụng để thêm số liệu độ sâu trung bình lên trên các cột, với label là giá trị độ sâu trung bình của từng mức độ clarity (được làm tròn đến 1 chữ số thập phân).

  • Các cài đặt khác như tiêu đề và chủ đề của biểu đồ vẫn được giữ nguyên tương tự các biểu đồ trên

Biểu đồ này sẽ hiển thị độ sâu trung bình của kim cương theo mỗi mức độ clarity, giúp phân tích mối quan hệ giữa clarity và độ sâu của kim cương.

# Load thư viện ggplot2
library(ggplot2)

# Tính trọng lượng trung bình của mỗi mức độ clarity
clarity_carat <- aggregate(diamonds$carat, by = list(diamonds$clarity), FUN = mean)

# Vẽ biểu đồ cột
ggplot(clarity_carat, aes(x = Group.1, y = x)) +
  geom_bar(stat = "identity", fill = "green", color = "black") +
  geom_text(aes(label = round(x, 2)), vjust = -0.5, color = "blue") +
  labs(title = "Trọng lượng trung bình của Kim cương theo Mức độ Clarity",
       x = "Mức độ Clarity",
       y = "Trọng lượng trung bình (carat)") + coord_flip()

2.24 Giải thích đồ thị 24

Trong đó:

  • Chúng ta sử dụng hàm aggregate() để tính trọng lượng trung bình của mỗi mức độ clarity trong cột carat.

  • geom_bar(stat = "identity") được sử dụng để vẽ các cột dựa trên giá trị trong cột y.

  • geom_text() được sử dụng để thêm số liệu trọng lượng trung bình lên trên các cột, với label là giá trị trọng lượng trung bình của từng mức độ clarity (được làm tròn đến 2 chữ số thập phân).

  • Các cài đặt khác như tiêu đề và chủ đề của biểu đồ vẫn được giữ nguyên như các đồ thị trên

Biểu đồ này sẽ hiển thị trọng lượng trung bình của kim cương theo mỗi mức độ clarity, giúp phân tích mối quan hệ giữa clarity và trọng lượng của kim cương.

tmp %>% group_by(clarity,color) %>% summarise(n=n()) %>%
  ggplot(aes(x = clarity,y = n)) +
    geom_col(position = 'dodge') +
    geom_col(fill='red') +
    facet_wrap(~color) +
    geom_text(aes(label = n),vjust = 0.5, color = 'darkgreen') +
    labs(x = 'Độ tinh khiết', y = 'Số lượng')
## `summarise()` has grouped output by 'clarity'. You can override using the
## `.groups` argument.

2.25 Giải thích biểu đồ 25

Biểu đồ 25 là tập hợp của những biểu đồ nhỏ thể hiện số lượng theo độ tinh khiết của từng màu. Ví dụ: nhìn vào biểu đồ nhỏ thứ nhất ta có thể thấy số lượng viên kim cương màu D có độ tinh khiết I1 là 42, số lượng viên kim cương màu D có độ tinh khiết SI2 là 1370,…

tmp <- diamonds
tmp %>% group_by(clarity) %>% summarise(m= mean(carat)) %>%
  ggplot(aes(x = clarity,y = m)) +
    geom_col(position = 'dodge') +
    geom_col(fill='green') +
    geom_text(aes(label = round(m,2)), vjust = 2, color = 'blue') +
    labs(x = 'Độ tinh khiết', y = 'Trọng lượng trung bình')

2.26 Giải thích biểu đồ 26

Biểu đồ 26 thể hiện trọng lượng trung bình của những viên kim cương theo độ tinh khiết. Ta thấy màu I1 có trọng lượng trung bình lớn nhất với 1.28 carat còn bé nhất là VVS1 với 0.5 carat

# Load thư viện ggplot2
library(ggplot2)
# Tính độ sâu trung bình của các mẫu kim cương theo chất lượng cắt
mean_depth <- aggregate(diamonds$depth, by = list(diamonds$cut), FUN = mean)

# Vẽ biểu đồ cột
ggplot(mean_depth, aes(x = Group.1, y = x)) +
  geom_bar(stat = "identity", fill = "lightgreen", color = "black") +
  geom_text(aes(label = round(x, 1)), vjust = -0.5, color = "green") +
  labs(title = "Độ sâu trung bình của Kim cương theo Chất lượng cắt",
       x = "Chất lượng cắt",
       y = "Độ sâu trung bình (%)")

2.27 Giải thích biểu đồ 27

Trong biểu đồ này: - Chúng ta sử dụng hàm aggregate() để tính độ sâu trung bình của các mẫu kim cương theo chất lượng cắt.

  • geom_bar(stat = "identity") được sử dụng để vẽ các cột dựa trên giá trị trong cột y.

  • geom_text() được sử dụng để thêm số trung bình lên các cột, với label là giá trị độ sâu trung bình của từng loại chất lượng cắt (được làm tròn đến 1 chữ số thập phân).

  • vjust = -0.5 được sử dụng để căn chỉnh văn bản lên trên các cột.

  • fill = “orange”, color = “black” : màu của biểu đồ là màu cam và của chữ số trên các cột là màu xanh lá.

tmp <- diamonds
tmp %>% group_by(color) %>% summarise(m= mean(y)) %>%
  ggplot(aes(x = color,y = m)) +
    geom_col(position = 'dodge') +
    geom_col(fill='darkgreen') +
    geom_text(aes(label = round(m,2)), vjust = 2, color = 'red') +
    labs(x = 'Màu', y = 'Chiều rộng trung bình')

2.28 Giải thích biểu đồ 28

Biểu đồ 28 thể hiện chiều rộng trung bình của những viên kim cương theo màu. Ta thấy màu J có chiều dài trung bình lớn nhất với 6.52 mm còn ngắn nhẩt là màu D và E với 5.42 mm

# Load thư viện ggplot2
library(ggplot2)

# Tính giá trung bình của kim cương có màu J theo chất lượng cắt
avg_price <- aggregate(diamonds$price, by = list(diamonds$cut), FUN = mean)

# Vẽ biểu đồ cột
ggplot(subset(diamonds, color == "J"), aes(x = cut, y = price)) +
  geom_bar(stat = "summary", fun = "mean", fill = "green", color = "black") +
  labs(title = "Giá trung bình của Kim cương màu J theo Chất lượng cắt",
       x = "Chất lượng cắt",
       y = "Giá trung bình") + coord_flip()

2.29 Giải thích đồ thị 29

Trong đó:

  • Chúng ta sử dụng hàm aggregate() để tính giá trung bình của các mẫu kim cương có màu J theo chất lượng cắt.

  • subset(diamonds, color == "J") được sử dụng để lấy ra chỉ các mẫu kim cương có màu J.

  • geom_bar(stat = "summary", fun = "mean") được sử dụng để vẽ các cột biểu diễn giá trung bình của các mẫu kim cương theo chất lượng cắt.

  • Các cài đặt khác như tiêu đề và chủ đề của biểu đồ vẫn được giữ nguyên.

library(ggplot2)
data("diamonds")
# Tính giá trung bình của độ dài x theo chất lượng cắt
mean_x <- aggregate(diamonds$x, by = list(diamonds$cut), FUN = mean)

# Vẽ biểu đồ cột
ggplot(diamonds, aes(x = cut, y = x)) +
  geom_bar(stat = "summary", fun = "mean", fill = "skyblue", color = "black") +
  geom_text(data = mean_x, aes(x = Group.1, y = x, label = round(x, 1)), vjust = -0.5) +
  labs(title = "Độ dài x trung bình của Kim cương theo Chất lượng cắt",
       x = "Chất lượng cắt",
       y = "Độ dài x trung bình (mm)") + coord_flip()

2.30 Giải thích biểu đồ 30

  • Chúng ta sử dụng hàm aggregate() để tính giá trung bình của độ dài x theo mỗi mức chất lượng cắt.

  • geom_text() được sử dụng để thêm số trung bình lên các cột, với các tham số x là nhóm (mức chất lượng cắt), y là giá trị trung bình của độ dài x, và label là số trung bình (được làm tròn đến 1 chữ số thập phân).

  • vjust = -0.5 được sử dụng để căn chỉnh văn bản lên trên các cột.

---
title: "Nhiệm vụ 4"
author: "Nhhao"
date: "`r format(Sys.time(), '%H:%M:%S, %d - %m - %Y')`"
output:
  html_document: 
    code_download: true
    code_folding: hide
    toc_float: true
    toc: true
    number_sections: true
---

```{r setup, include=FALSE}
library(tidyverse)
library(scales)
```
 
# **Giới thiệu bộ dữ liệu diamonds**

Bộ dữ liệu Diamonds là một bộ dữ liệu phổ biến trong lĩnh vực khoa học dữ liệu. Bộ dữ liệu bao gồm những thuộc tính và những thông tin liên quan về những viên kim cương. Bộ dữ liệu gồm có 53940 quan sát tương đương với 53940 viên kim cương và 10 đối tương đương với 10 thuộc tính.

Ý nghĩa từng đối tượng:

- carat: Trọng lượng của kim cương, đơn vị là carat.

- cut: Chất lượng cắt của kim cương. Có thể là ‘Fair’, ‘Good’, ‘Very Good’, ‘Premium’, hoặc ‘Ideal’.

- color: Màu sắc của kim cương, từ J (kém nhất) đến D (tốt nhất).

- clarity: Độ tinh khiết của kim cương. Có thể là ‘I1’ (kém nhất), ‘SI2’, ‘SI1’, ‘VS2’, ‘VS1’, ‘VVS2’, ‘VVS1’, hoặc ‘IF’ (tốt nhất).

- depth: Tỉ lệ giữa chiều cao và chiều rộng của kim cương, được tính bằng phần trăm.

- table: Tỉ lệ giữa chiều rộng của mặt trên cùng (bàn) và chiều rộng tổng thể của kim cương, được tính bằng phần trăm.

- price: Giá của kim cương, đơn vị là USD.

- x: Chiều dài của kim cương, đơn vị là mm.

- y: Chiều rộng của kim cương, đơn vị là mm.

- z: Chiều cao của kim cương, đơn vị là mm.

# **30 Biểu đồ**

```{r}
library(tidyverse)
tmp <- diamonds 
tmp <- tmp %>% mutate(caratk = cut(carat,3, label = c('nhỏ','vừa','lớn')))
tmp %>% ggplot(aes(x = caratk)) +
  geom_bar(fill = 'black')
```



## **Giải thích biểu đồ 1:**

đồ thị giúp so sánh số lượng kim cương có kích thước lớn, vừa và nhỏ.
Trong đó số viên kim cương kích thước nhỏ chiếm số lượng lớn nhất trong toàn bộ dữ liệu, với số lượng hơn 50000.
Tiếp đến là kim cương kích thước vừa khoảng với số lượng khoảng 2000 viên. Không có kim cương loại lớn.


- - -

```{r}
library(tidyverse)
tmp <- tmp %>% group_by(cut, color) %>% summarise(SL = n())
tmp %>% ggplot(aes(x = cut, y = SL)) +
  geom_col(data = tmp %>% filter(color == 'D'), fill = 'yellow') +
  geom_col(data = tmp %>% filter(color == 'J'), fill = 'pink')

```


## **Giải thích biểu đồ 2:**

Đồ thị này cho ta so sánh được tổng số lượng kim cương màu màu D và màu J của các loại kim cương(cut) có trong bộ dữ liệu. Cụ thể là tổng số kim cương màu D và J của kim cương loại Fair là ít nhất khoảng dưới 250 viên, tiếp đến là loại Good khoảng 600 viên, tiếp đó là loại Very Good và Premium lần lượt với khoảng 1500 viên và 1550 viên. Loại Ideal là loại có tổng số kim cương màu D và J lớn nhất trong bộ dữ liệu với khoảng 2800 viên.Trong đồ thị này,màu vàng biểu diễn kim cương màu D còn màu hồng biểu diễn cho kim cương màu J.


- - -


```{r}
library(tidyverse)
tmp <- diamonds 
tmp <- tmp %>% group_by(cut, color) %>% summarise(SL = n())
tmp %>% ggplot(aes(x = cut, y = SL)) +
  geom_col(data = tmp %>% filter(color == 'E'), fill = 'red') +
  geom_col(data = tmp %>% filter(color == 'F'), fill = 'pink') +
  geom_col(data = tmp %>% filter(color == 'D'), fill = 'blue')

```

## **Giải Thích biểu đồ 3:**

Đồ thị này cho ta so sánh được tổng số lượng kim cương màu màu E,F và màu D của các loại kim cương(cut) có trong bộ dữ liệu. Cụ thể là tổng số kim cương màu D,E và F của kim cương loại Fair là ít nhất khoảng gần 300 viên, tiếp đến là loại Good khoảng 750 viên, tiếp đó là loại Premium và loại Very Good lần lượt với khoảng 2400 viên và 2450 viên. Loại Ideal là loại có tổng số kim cương màu D,E và F lớn nhất trong bộ dữ liệu với khoảng 3800 viên.


- - -



```{r}
library(tidyverse)
tmp <- diamonds 
ggplot(diamonds, aes(x = cut, y = carat)) +
  geom_bar(stat = "summary", fun = "mean", fill = "skyblue") +
  labs(title = "Giá trị trung bình", x = "Cut", y = "tb")

```



## **Giải thích biểu đồ 4:**

geom_bar() được sử dụng để vẽ biểu đồ bar chart, với stat = summary để tính toán thống kê trên dữ liệu
(trong trường hợp này, giá trị trung bình của carat) và fun = mean để chỉ định rằng chúng ta muốn tính
giá trị trung bình.
labs() được sử dụng để đặt tiêu đề cho biểu đồ và các nhãn trục.
Biểu đồ bar chart hiển thị giá trị trung bình của carat cho
từng mức độ cut trong bộ dữ liệu diamonds.Cụ thể là giá trị khối lượng trung bình của kim cương loại Fair là lớn nhất
khoảng 1.05 và thấp nhất là kim cương loại Ideal khoảng 0.78

- - -



```{r}
library(ggplot2)


# Tính độ lệch chuẩn của carat cho mỗi mức độ cut
SD <- aggregate(carat ~ cut, data = diamonds, FUN = sd)

# Tạo biểu đồ bar chart
ggplot(SD, aes(x = cut, y = carat)) +
  geom_bar(stat = "identity", fill = "orange") +
  labs(title = "Độ lệch chuẩn", x = "Cut", y = "Sd")

```


## **Giải thích biểu đồ 5:**

- Chúng ta sử dụng hàm aggregate() để tính độ lệch chuẩn của carat cho mỗi mức độ cut trong bộ dữ liệu diamonds.

- Sau đó, chúng ta tạo biểu đồ bar chart với trục x biểu thị các mức độ cut và trục y biểu thị độ lệch chuẩn 
của carat tương ứng.

**Biểu đồ này sẽ hiển thị độ lệch chuẩn của carat cho mỗi mức độ cut, giúp ta hiểu về mức độ biến động
của carat trong từng loại kim cương**


- - - 



```{r}
library(ggplot2)
data(diamonds)

# lọc ra những viên kim cương màu D
filtered_data_D <- subset(diamonds, color == "D")

# Tính giá trung bình của các loại kim cương màu D
average_price <- aggregate(price ~ cut, data = filtered_data_D, FUN = mean)
ggplot(average_price, aes(x = cut, y = price, fill = cut)) +
  geom_bar(stat = "identity") +
  labs(title = "Giá trung bình của các loại kim cương màu D", x = "Cut", y = "Average Price") +
  scale_fill_discrete(name = "Cut")
```


## **Giải thích biểu đồ 6**

- average_price <- aggregate(price ~ cut, data = filtered_data_D, FUN = mean): dùn để tính giá trung bình cho các
viên kim cương màu D.

- labs(title = ) dùng để đặt tên cho các trục và tên của tiêu đề

- scale_fill_discrete(name = "Cut"): dùng để chú giải cho biểu đồ

**Đồ thị này giúp chúng ta có thể so sánh giá trung bình của kim cương màu D ứng với các kiểu  kim cương ( cut)**




```{r}
library(ggplot2)
data(diamonds)
# lọc ra các viên kim cương màu E và F
filtered_data_EF <- subset(diamonds, color %in% c("E", "F"))

# Tính gIá trung bình của kim cương 2 màu E và màu F
average_price <- aggregate(price ~ color, data = filtered_data_EF, FUN = mean)

# Create a bar chart for average prices
ggplot(average_price, aes(x = color, y = price, fill = color)) +
  geom_bar(stat = "identity") +
  labs(title = "Giá trung bình của 2 màu kim cương E và F", x = "Color", y = "Average Price") +
  scale_fill_discrete(name = "Color")

```


## **Giải thích biểu đồ 7:**

- Trục x của biểu đồ biểu thị các màu kim cương, bao gồm "E" và "F".

- Trục y của biểu đồ biểu thị giá trị trung bình của các viên kim cương tương ứng với mỗi màu.

- Mỗi cột trong biểu đồ biểu diễn giá trị trung bình của mỗi màu kim cương.

- Biểu đồ này cho chúng ta biết rằng trung bình giá của các viên kim cương màu "E" và "F" là bao nhiêu. Nếu có sự khác biệt đáng kể giữa hai màu kim cương này, chúng ta có thể nhận thấy sự biến động trong giá trị trung bình của giá giữa chúng. 

- Điều này có thể hữu ích trong việc hiểu về giá trị trung bình của các viên kim cương có màu khác nhau trong thị trường.




```{r}
library(ggplot2)
data("diamonds")



# Vẽ biểu đồ cột
ggplot(diamonds, aes(x = cut)) +
  geom_bar(fill = "skyblue", color = "red") +
  labs(title = "Số lượng kim cương theo chất lượng cắt",
       x = "Chất lượng cắt",
       y = "Số lượng")

```



## **Giải thích biểu đồ 8**

- `geom_bar()` được sử dụng để tạo biểu đồ cột.

- `fill` được sử dụng để chỉ định màu của các cột, và `color` là màu của đường viền cột.

- `labs()` được sử dụng để đặt tiêu đề cho biểu đồ và các trục.

**Biểu đồ này cho chúng ta một cái nhìn tổng quan về phân phối số lượng kim cương theo chất lượng cắt của chúng. Đối với mỗi loại chất lượng cắt, chúng ta có thể thấy số lượng tương ứng của kim cương.**



```{r}
library(ggplot2)
data("diamonds")
ggplot(diamonds, aes(x = cut, y = price)) +
  geom_bar(stat = "summary", fun = "mean", fill = "red", color = "black") +
  labs(title = "Biểu đồ giá trung bình của Kim cương theo Chất lượng cắt",
       x = "Chất lượng cắt",
       y = "Giá trung bình (USD)")


```



## **Giải thích biểu đồ 9**

Trong đó:

- `aes(x = cut, y = price)`: Ta sử dụng cột **cut** để làm trục x (chất lượng cắt) và cột **price** để làm trục y (giá).

- `geom_bar(stat = "summary", fun = "mean")`: Sử dụng `geom_bar()` với `stat = "summary"` để tính giá trung bình và vẽ các cột. Chúng ta sử dụng `fun = "mean"` để tính giá trung bình.

- `fill = "red", color = "black"`: Đặt màu fill cho các cột là màu đỏ và màu viền là màu đen.

- `labs()`: Đặt tiêu đề cho biểu đồ và các trục.

**Biểu đồ này sẽ hiển thị giá trung bình của kim cương theo mỗi mức chất lượng cắt tương ứng.**



```{r}
library(ggplot2)
data("diamonds")
ggplot(diamonds, aes(x = cut, y = price)) +
  geom_bar(stat = "summary", fun = "mean", fill = "purple", color = "black") +
  labs(title = "Biểu đồ giá trung bình của Kim cương theo Chất lượng cắt",
       x = "Chất lượng cắt",
       y = "Giá trung bình (USD)") + coord_flip()

```


## **Giải thích biểu đồ 10**

Trong đó:

- `aes(x = cut, y = price)`: Ta sử dụng cột **cut** để làm trục x (chất lượng cắt) và cột **price** để làm trục y (giá).

- `geom_bar(stat = "summary", fun = "mean")`: Sử dụng `geom_bar()` với `stat = "summary"` để tính giá trung bình và vẽ các cột. Chúng ta sử dụng `fun = "mean"` để tính giá trung bình.

- `fill = "purple", color = "black"`: Đặt màu fill cho các cột là màu tím và màu viền là màu đen.

- `labs()`: Đặt tiêu đề cho biểu đồ và các trục.

- coord_flip(): làm cho biểu đồ nằm ngang

**Biểu đồ này sẽ hiển thị giá trung bình của kim cương theo mỗi mức chất lượng cắt tương ứng.**


```{r}
library(ggplot2)
data("diamonds")
ggplot(diamonds, aes(x = cut, y = y)) +
  geom_bar(stat = "summary", fun = "mean", fill = "green", color = "black") +
  labs(title = "Độ rộng y trung bình của Kim cương theo Chất lượng cắt",
       x = "Chất lượng cắt",
       y = "Độ rộng y trung bình (mm)")

```


## **GIải thích biểu đồ 11**

Trong biểu đồ này:

- `aes(x = cut, y = y)`: Chúng ta sử dụng cột **cut** để làm trục x (chất lượng cắt) và cột **y**để làm trục y (độ rộng y).

- `geom_bar(stat = "summary", fun = "mean")`: Sử dụng `geom_bar()` với `stat = "summary"` để tính độ rộng y trung bình và vẽ các cột. Chúng ta sử dụng `fun = "mean"` để tính giá trung bình.

- `fill = "green", color = "black"`: Đặt màu fill cho các cột là màu xanh lá cây và màu viền là màu đen.

- `labs()`: Đặt tiêu đề cho biểu đồ và các trục.


**Biểu đồ này sẽ hiển thị độ rộng y trung bình của kim cương theo mỗi mức chất lượng cắt tương ứng.**



```{r}
library(ggplot2)
data("diamonds")
ggplot(diamonds, aes(x = cut, y = y)) +
  geom_bar(stat = "summary", fun = "mean", fill = "green", color = "black") +
  labs(title = "Độ rộng y trung bình của Kim cương theo Chất lượng cắt",
       x = "Chất lượng cắt",
       y = "Độ rộng y trung bình (mm)") + coord_flip()

```

## **GIải thích biểu đồ 12**

Trong biểu đồ này:

- `aes(x = cut, y = y)`: Chúng ta sử dụng cột **cut** để làm trục x (chất lượng cắt) và cột **y**để làm trục y (độ rộng y).

- `geom_bar(stat = "summary", fun = "mean")`: Sử dụng `geom_bar()` với `stat = "summary"` để tính độ rộng y trung bình và vẽ các cột. Chúng ta sử dụng `fun = "mean"` để tính giá trung bình.

- `fill = "green", color = "black"`: Đặt màu fill cho các cột là màu xanh lá cây và màu viền là màu đen.

- `labs()`: Đặt tiêu đề cho biểu đồ và các trục.

- coord_flip(): làm cho đồ thị nằm ngang

**Biểu đồ này sẽ hiển thị độ rộng y trung bình của kim cương theo mỗi mức chất lượng cắt tương ứng.**



```{r}
library(ggplot2)
data("diamonds")
# Tính giá trung bình của độ dài x theo chất lượng cắt
mean_x <- aggregate(diamonds$x, by = list(diamonds$cut), FUN = mean)

# Vẽ biểu đồ cột
ggplot(diamonds, aes(x = cut, y = x)) +
  geom_bar(stat = "summary", fun = "mean", fill = "skyblue", color = "black") +
  geom_text(data = mean_x, aes(x = Group.1, y = x, label = round(x, 1)), vjust = -0.5) +
  labs(title = "Độ dài x trung bình của Kim cương theo Chất lượng cắt",
       x = "Chất lượng cắt",
       y = "Độ dài x trung bình (mm)") 
```



## **Giải thích biểu đồ 13**

- Chúng ta sử dụng hàm `aggregate()` để tính giá trung bình của độ dài x theo mỗi mức chất lượng cắt.

- `geom_text()` được sử dụng để thêm số trung bình lên các cột, với các tham số `x` là nhóm (mức chất lượng cắt), `y` là giá trị trung bình của độ dài **x**, và `label` là số trung bình (được làm tròn đến 1 chữ số thập phân).

- `vjust = -0.5` được sử dụng để căn chỉnh văn bản lên trên các cột.

 **Biểu đồ này sẽ hiển thị độ dài x trung bình của kim cương theo mỗi mức chất lượng cắt, và số trung bình sẽ được hiển thị trên đỉnh của từng cột.**



```{r}
# Load thư viện ggplot2
library(ggplot2)

# Vẽ biểu đồ cột
ggplot(diamonds, aes(x = cut, y = x)) +
  geom_bar(stat = "summary", fun = "mean", fill = "blue", color = "black") +
  labs(title = "Độ dài x trung bình của Kim cương theo Chất lượng cắt",
       x = "Chất lượng cắt",
       y = "Độ dài x trung bình (mm)")
```

## **Giải thích biểu đồ 14**


Trong biểu đồ này:


- `aes(x = cut, y = x)`: Chúng ta sử dụng cột "cut" để làm trục x (chất lượng cắt) và cột "x" để làm trục y (độ dài x).
- `geom_bar(stat = "summary", fun = "mean")`: Sử dụng `geom_bar()` với `stat = "summary"` để tính độ dài x trung bình và vẽ các cột. Chúng ta sử dụng `fun = "mean"` để tính giá trung bình.

- `fill = "blue", color = "black"`: Đặt màu fill cho các cột là màu xanh da trời và màu viền là màu đen.

- `labs()`: Đặt tiêu đề cho biểu đồ và các trục.

**Biểu đồ này sẽ hiển thị độ dài x trung bình của kim cương theo mỗi mức chất lượng cắt tương ứng.**



```{r}
# Load thư viện ggplot2
library(ggplot2)

# Tính độ dài trung bình của các mẫu kim cương theo màu sắc
mean_length <- aggregate(diamonds$x, by = list(diamonds$color), FUN = mean)

# Vẽ biểu đồ cột
ggplot(mean_length, aes(x = Group.1, y = x)) +
  geom_bar(stat = "identity", fill = "red", color = "black") +
  geom_text(aes(label = round(x, 1)), vjust = -0.5, color = "black") +
  labs(title = "Độ dài trung bình của Kim cương theo Màu sắc",
       x = "Màu sắc",
       y = "Độ dài trung bình (mm)")

```


## **Giải thích biểu đồ 15**


Trong đó: 

- Chúng ta sử dụng hàm `aggregate()` để tính độ dài trung bình của các mẫu kim cương theo màu sắc.

- `geom_bar(stat = "identity")` được sử dụng để vẽ các cột dựa trên giá trị trong cột y.

- `geom_text()` được sử dụng để thêm số trên các cột, với các tham số `label` là giá trị độ dài trung bình của từng màu sắc (được làm tròn đến 1 chữ số thập phân).

- `vjust = -0.5` được sử dụng để căn chỉnh văn bản lên trên các cột.

- `color = "black"` được sử dụng để đặt màu cho văn bản là màu đen.

**Biểu đồ này sẽ hiển thị độ dài trung bình của kim cương theo mỗi màu sắc, và số trung bình sẽ được hiển thị trên đỉnh của từng cột.**



```{r}
# Load thư viện ggplot2
library(ggplot2)
# Tính độ sâu trung bình của các mẫu kim cương theo chất lượng cắt
mean_depth <- aggregate(diamonds$depth, by = list(diamonds$cut), FUN = mean)

# Vẽ biểu đồ cột
ggplot(mean_depth, aes(x = Group.1, y = x)) +
  geom_bar(stat = "identity", fill = "orange", color = "black") +
  geom_text(aes(label = round(x, 1)), vjust = -0.5, color = "green") +
  labs(title = "Độ sâu trung bình của Kim cương theo Chất lượng cắt",
       x = "Chất lượng cắt",
       y = "Độ sâu trung bình (%)")

```


## **Giải thích biểu đồ 16**

Trong biểu đồ này:
- Chúng ta sử dụng hàm `aggregate()` để tính độ sâu trung bình của các mẫu kim cương theo chất lượng cắt.

- `geom_bar(stat = "identity")` được sử dụng để vẽ các cột dựa trên giá trị trong cột y.

- `geom_text()` được sử dụng để thêm số trung bình lên các cột, với `label` là giá trị độ sâu trung bình của từng loại chất lượng cắt (được làm tròn đến 1 chữ số thập phân).

- `vjust = -0.5` được sử dụng để căn chỉnh văn bản lên trên các cột.

- fill = "orange", color = "black" : màu của biểu đồ là màu cam và của chữ số trên các cột là màu xanh lá.

**Biểu đồ này sẽ hiển thị độ sâu trung bình của kim cương theo mỗi mức chất lượng cắt tương ứng.**



```{r}
# Load thư viện ggplot2
library(ggplot2)

# Tính độ lệch chuẩn của giá cho các kim cương màu E, F và J
std_dev <- aggregate(price ~ color, data = subset(diamonds, color %in% c("E", "F", "J")), FUN = sd)

# Vẽ biểu đồ cột
ggplot(std_dev, aes(x = color, y = price)) +
  geom_bar(stat = "identity", fill = "skyblue", color = "black") +
  geom_text(aes(label = round(price, 1)), vjust = -0.5, color = "red") +
  labs(title = "Độ lệch chuẩn về giá của Kim cương màu E, F, J",
       x = "Màu sắc",
       y = "Độ lệch chuẩn giá")

```


## **Giải thích biểu đồ 17**


Trong đó:

- Chúng ta sử dụng hàm `subset()` để lấy các mẫu kim cương có màu sắc là E, F và J từ bộ dữ liệu `diamonds`.

- Sau đó, chúng ta tính độ lệch chuẩn của giá cho mỗi màu sắc sử dụng hàm `aggregate()` với `FUN = sd`.

- `geom_bar(stat = "identity")` được sử dụng để vẽ các cột dựa trên giá trị trong cột y.

- `geom_text()` được sử dụng để thêm số độ lệch chuẩn lên các cột, với `label` là giá trị độ lệch chuẩn của từng màu sắc (được làm tròn đến 1 chữ số thập phân).

- `vjust = -0.5` được sử dụng để căn chỉnh văn bản lên trên các cột.

- fill = "skyblue", color = "black": biểu đồ màu xanh da trời và viền đen

- color = "red": số trên biểu đồ màu đỏ

**Biểu đồ này sẽ hiển thị độ lệch chuẩn về giá của các kim cương màu E, F và J.**



```{r}
# Load thư viện ggplot2
library(ggplot2)

# Tính độ lệch chuẩn của giá cho các kim cương màu D, F và J
std_dev <- aggregate(price ~ color, data = subset(diamonds, color %in% c("D", "F", "J")), FUN = sd)

# Vẽ biểu đồ cột
ggplot(std_dev, aes(x = price, y = color)) +
  geom_bar(stat = "identity", fill = "yellow", color = "black") +
  geom_text(aes(label = round(price, 1)), hjust = -0.3, color = "red") +
  labs(title = "Độ lệch chuẩn về giá của Kim cương màu D, F, J",
       x = "Độ lệch chuẩn giá",
       y = "Màu sắc") +
  coord_flip()
```

## **Giải thích biểu đồ 18:**


Tương tự như biểu đồ 17, chỉ đổi màu E thành màu D



```{r}
# Load thư viện ggplot2
library(ggplot2)

# Tính số lượng của mỗi mức độ clarity
clarity_count <- table(diamonds$clarity)

# Chuyển table thành dataframe để dễ vẽ biểu đồ
clarity_df <- as.data.frame(clarity_count)
names(clarity_df) <- c("Clarity", "Count")

# Vẽ biểu đồ cột
ggplot(clarity_df, aes(x = Clarity, y = Count)) +
  geom_bar(stat = "identity", fill = "blue", color = "black") +
  geom_text(aes(label = Count), vjust = -0.8, color = "black") +
  labs(title = "Số lượng các mức Clarity của Kim cương",
       x = "Clarity",
       y = "Số lượng")

```


## **Giải thích biểu đồ 19**

Trong đó:

- Chúng ta sử dụng hàm `table()` để tính số lượng của mỗi mức độ clarity trong cột `clarity`.

- Sau đó, chúng ta chuyển kết quả của `table()` thành một dataframe để dễ dàng vẽ biểu đồ.

- `geom_bar(stat = "identity")` được sử dụng để vẽ các cột dựa trên giá trị trong cột y.

- `geom_text()` được sử dụng để thêm số lượng của từng mức clarity lên trên các cột.


**Biểu đồ này sẽ hiển thị số lượng các mức độ clarity của kim cương, giúp phân tích phân bố của dữ liệu trong cột clarity.**



```{r}
# Load thư viện ggplot2
library(ggplot2)

# Tính giá trung bình của mỗi mức độ clarity
clarity_price <- aggregate(diamonds$price, by = list(diamonds$clarity), FUN = mean)

# Vẽ biểu đồ cột
ggplot(clarity_price, aes(x = Group.1, y = x)) +
  geom_bar(stat = "identity", fill = "black", color = "red") +
  geom_text(aes(label = round(x, 1)), vjust = -0.5, color = "green") +
  labs(title = "Giá trung bình của Kim cương theo Mức độ Clarity",
       x = "Mức độ Clarity",
       y = "Giá trung bình")

```



## **Giải thích đồ thị 20**

Trong đó:

- Chúng ta sử dụng hàm `aggregate()` để tính giá trung bình của mỗi mức độ clarity trong cột `price`.

- `geom_bar(stat = "identity")` được sử dụng để vẽ các cột dựa trên giá trị trong cột y.

- `geom_text()` được sử dụng để thêm giá trị giá trung bình lên trên các cột.

- aes(label = round(x, 1)), vjust = -0.5, color = "green": để làm tròn giá trung bình đến 1 chữ số thập phân và màu chữ số trên các cột là màu xanh lá

- labs(title ): đặt tên tiêu đề và các trục

**Biểu đồ này sẽ hiển thị giá trung bình của kim cương theo mỗi mức độ clarity, giúp phân tích mối quan hệ giữa giá và clarity của kim cương.**



```{r}
# Load thư viện ggplot2
library(ggplot2)

# Tính giá trung bình của mỗi mức độ clarity
clarity_price <- aggregate(diamonds$price, by = list(diamonds$clarity), FUN = mean)

# Vẽ biểu đồ cột
ggplot(clarity_price, aes(x = Group.1, y = x)) +
  geom_bar(stat = "identity", fill = "black", color = "red") +
  geom_text(aes(label = round(x, 1)), vjust = -0.5, color = "green") +
  labs(title = "Giá trung bình của Kim cương theo Mức độ Clarity",
       x = "Mức độ Clarity",
       y = "Giá trung bình") + coord_flip()

```


## **Giải thích đồ thị 21**

Giống đồ thị 20 nhưng chỉ thay đổi vị trí 2 trục tọa độ



```{r}
# Load thư viện ggplot2
library(ggplot2)

# Tính giá trung bình của kim cương có màu J theo chất lượng cắt
avg_price <- aggregate(diamonds$price, by = list(diamonds$cut), FUN = mean)

# Vẽ biểu đồ cột
ggplot(subset(diamonds, color == "J"), aes(x = cut, y = price)) +
  geom_bar(stat = "summary", fun = "mean", fill = "green", color = "black") +
  labs(title = "Giá trung bình của Kim cương màu J theo Chất lượng cắt",
       x = "Chất lượng cắt",
       y = "Giá trung bình")
```


## **Giải thích đồ thị 22**


Trong đó: 


- Chúng ta sử dụng hàm `aggregate()` để tính giá trung bình của các mẫu kim cương có màu J theo chất lượng cắt.

- `subset(diamonds, color == "J")` được sử dụng để lấy ra chỉ các mẫu kim cương có màu J.

- `geom_bar(stat = "summary", fun = "mean")` được sử dụng để vẽ các cột biểu diễn giá trung bình của các mẫu kim cương theo chất lượng cắt.

- Các cài đặt khác như tiêu đề và chủ đề của biểu đồ vẫn được giữ nguyên.

**Biểu đồ này sẽ hiển thị giá trung bình của các mẫu kim cương màu J theo từng mức chất lượng cắt.**




```{r}
# Load thư viện ggplot2
library(ggplot2)

# Tính độ sâu trung bình của mỗi mức độ clarity
clarity_depth <- aggregate(diamonds$depth, by = list(diamonds$clarity), FUN = mean)

# Vẽ biểu đồ cột
ggplot(clarity_depth, aes(x = Group.1, y = x)) +
  geom_bar(stat = "identity", fill = "skyblue", color = "black") +
  geom_text(aes(label = round(x, 1)), vjust = -0.5, color = "orange") +
  labs(title = "Độ sâu trung bình của Kim cương theo Mức độ Clarity",
       x = "Mức độ Clarity",
       y = "Độ sâu trung bình")
```



## **Giải thích đồ thị 23**

Trong đó:

- Chúng ta sử dụng hàm `aggregate()` để tính độ sâu trung bình của mỗi mức độ clarity trong cột `depth`.

- `geom_bar(stat = "identity")` được sử dụng để vẽ các cột dựa trên giá trị trong cột y.

- `geom_text()` được sử dụng để thêm số liệu độ sâu trung bình lên trên các cột, với `label` là giá trị độ sâu trung bình của từng mức độ clarity (được làm tròn đến 1 chữ số thập phân).

- Các cài đặt khác như tiêu đề và chủ đề của biểu đồ vẫn được giữ nguyên tương tự các biểu đồ trên

**Biểu đồ này sẽ hiển thị độ sâu trung bình của kim cương theo mỗi mức độ clarity, giúp phân tích mối quan hệ giữa clarity và độ sâu của kim cương.**



```{r}
# Load thư viện ggplot2
library(ggplot2)

# Tính trọng lượng trung bình của mỗi mức độ clarity
clarity_carat <- aggregate(diamonds$carat, by = list(diamonds$clarity), FUN = mean)

# Vẽ biểu đồ cột
ggplot(clarity_carat, aes(x = Group.1, y = x)) +
  geom_bar(stat = "identity", fill = "green", color = "black") +
  geom_text(aes(label = round(x, 2)), vjust = -0.5, color = "blue") +
  labs(title = "Trọng lượng trung bình của Kim cương theo Mức độ Clarity",
       x = "Mức độ Clarity",
       y = "Trọng lượng trung bình (carat)") + coord_flip()

```


## **Giải thích đồ thị 24**


Trong đó:

- Chúng ta sử dụng hàm `aggregate()` để tính trọng lượng trung bình của mỗi mức độ clarity trong cột `carat`.

- `geom_bar(stat = "identity")` được sử dụng để vẽ các cột dựa trên giá trị trong cột y.

- `geom_text()` được sử dụng để thêm số liệu trọng lượng trung bình lên trên các cột, với `label` là giá trị trọng lượng trung bình của từng mức độ clarity (được làm tròn đến 2 chữ số thập phân).

- Các cài đặt khác như tiêu đề và chủ đề của biểu đồ vẫn được giữ nguyên như các đồ thị trên

**Biểu đồ này sẽ hiển thị trọng lượng trung bình của kim cương theo mỗi mức độ clarity, giúp phân tích mối quan hệ giữa clarity và trọng lượng của kim cương.**




```{r}
tmp %>% group_by(clarity,color) %>% summarise(n=n()) %>%
  ggplot(aes(x = clarity,y = n)) +
    geom_col(position = 'dodge') +
    geom_col(fill='red') +
    facet_wrap(~color) +
    geom_text(aes(label = n),vjust = 0.5, color = 'darkgreen') +
    labs(x = 'Độ tinh khiết', y = 'Số lượng')
```

## **Giải thích biểu đồ 25**


Biểu đồ 25 là tập hợp của những biểu đồ nhỏ thể hiện số lượng theo độ tinh khiết của từng màu. Ví dụ: nhìn vào biểu đồ nhỏ thứ nhất ta có thể thấy số lượng viên kim cương màu D có độ tinh khiết I1 là 42, số lượng viên kim cương màu D có độ tinh khiết SI2 là 1370,...



```{r}
tmp <- diamonds
tmp %>% group_by(clarity) %>% summarise(m= mean(carat)) %>%
  ggplot(aes(x = clarity,y = m)) +
    geom_col(position = 'dodge') +
    geom_col(fill='green') +
    geom_text(aes(label = round(m,2)), vjust = 2, color = 'blue') +
    labs(x = 'Độ tinh khiết', y = 'Trọng lượng trung bình')
```


## **Giải thích biểu đồ 26**

Biểu đồ 26 thể hiện trọng lượng trung bình của những viên kim cương theo độ tinh khiết. Ta thấy màu I1 có trọng lượng trung bình lớn nhất với 1.28 carat còn bé nhất là VVS1 với 0.5 carat




```{r}
# Load thư viện ggplot2
library(ggplot2)
# Tính độ sâu trung bình của các mẫu kim cương theo chất lượng cắt
mean_depth <- aggregate(diamonds$depth, by = list(diamonds$cut), FUN = mean)

# Vẽ biểu đồ cột
ggplot(mean_depth, aes(x = Group.1, y = x)) +
  geom_bar(stat = "identity", fill = "lightgreen", color = "black") +
  geom_text(aes(label = round(x, 1)), vjust = -0.5, color = "green") +
  labs(title = "Độ sâu trung bình của Kim cương theo Chất lượng cắt",
       x = "Chất lượng cắt",
       y = "Độ sâu trung bình (%)")

```


## **Giải thích biểu đồ 27**

Trong biểu đồ này:
- Chúng ta sử dụng hàm `aggregate()` để tính độ sâu trung bình của các mẫu kim cương theo chất lượng cắt.

- `geom_bar(stat = "identity")` được sử dụng để vẽ các cột dựa trên giá trị trong cột y.

- `geom_text()` được sử dụng để thêm số trung bình lên các cột, với `label` là giá trị độ sâu trung bình của từng loại chất lượng cắt (được làm tròn đến 1 chữ số thập phân).

- `vjust = -0.5` được sử dụng để căn chỉnh văn bản lên trên các cột.

- fill = "orange", color = "black" : màu của biểu đồ là màu cam và của chữ số trên các cột là màu xanh lá.



```{r}
tmp <- diamonds
tmp %>% group_by(color) %>% summarise(m= mean(y)) %>%
  ggplot(aes(x = color,y = m)) +
    geom_col(position = 'dodge') +
    geom_col(fill='darkgreen') +
    geom_text(aes(label = round(m,2)), vjust = 2, color = 'red') +
    labs(x = 'Màu', y = 'Chiều rộng trung bình')
```

## **Giải thích biểu đồ 28**
Biểu đồ 28 thể hiện chiều rộng trung bình của những viên kim cương theo màu. Ta thấy màu J có chiều dài trung bình lớn nhất với 6.52 mm còn ngắn nhẩt là màu D và E với 5.42 mm


```{r}
# Load thư viện ggplot2
library(ggplot2)

# Tính giá trung bình của kim cương có màu J theo chất lượng cắt
avg_price <- aggregate(diamonds$price, by = list(diamonds$cut), FUN = mean)

# Vẽ biểu đồ cột
ggplot(subset(diamonds, color == "J"), aes(x = cut, y = price)) +
  geom_bar(stat = "summary", fun = "mean", fill = "green", color = "black") +
  labs(title = "Giá trung bình của Kim cương màu J theo Chất lượng cắt",
       x = "Chất lượng cắt",
       y = "Giá trung bình") + coord_flip()

```


## **Giải thích đồ thị 29**


Trong đó: 


- Chúng ta sử dụng hàm `aggregate()` để tính giá trung bình của các mẫu kim cương có màu J theo chất lượng cắt.

- `subset(diamonds, color == "J")` được sử dụng để lấy ra chỉ các mẫu kim cương có màu J.

- `geom_bar(stat = "summary", fun = "mean")` được sử dụng để vẽ các cột biểu diễn giá trung bình của các mẫu kim cương theo chất lượng cắt.

- Các cài đặt khác như tiêu đề và chủ đề của biểu đồ vẫn được giữ nguyên.



```{r}
library(ggplot2)
data("diamonds")
# Tính giá trung bình của độ dài x theo chất lượng cắt
mean_x <- aggregate(diamonds$x, by = list(diamonds$cut), FUN = mean)

# Vẽ biểu đồ cột
ggplot(diamonds, aes(x = cut, y = x)) +
  geom_bar(stat = "summary", fun = "mean", fill = "skyblue", color = "black") +
  geom_text(data = mean_x, aes(x = Group.1, y = x, label = round(x, 1)), vjust = -0.5) +
  labs(title = "Độ dài x trung bình của Kim cương theo Chất lượng cắt",
       x = "Chất lượng cắt",
       y = "Độ dài x trung bình (mm)") + coord_flip()

```



## **Giải thích biểu đồ 30**

- Chúng ta sử dụng hàm `aggregate()` để tính giá trung bình của độ dài x theo mỗi mức chất lượng cắt.

- `geom_text()` được sử dụng để thêm số trung bình lên các cột, với các tham số `x` là nhóm (mức chất lượng cắt), `y` là giá trị trung bình của độ dài **x**, và `label` là số trung bình (được làm tròn đến 1 chữ số thập phân).

- `vjust = -0.5` được sử dụng để căn chỉnh văn bản lên trên các cột.


