Giới thiệu về bộ dữ liệu diamonds
- Bộ dữ liệu có 10 cột tương ứng với 10 biến
- carat: Trọng lượng của viên kim cương (carat)
- cut: Chất lượng đường cắt (Fair, Good, Very Good, Ideal, Premium)
color: Màu sắc của viên kim cương (từ D (tốt nhất) đến J (kém
nhất))
- price: Giá trị của viên kim cương (đơn vị USD)
- clarity: Độ trong suốt của viên kim cương (từ IF (tốt nhất) đến I1
(kém nhất))
- depth: Tỷ lệ phần trăm độ sâu (tính theo z / x)
- table: Chiều rộng của mặt bàn (tính theo % của đường kính)
- x: Chiều dài của viên kim cương (mm) = y: Chiều rộng của viên kim
cương (mm)
- z: Độ sâu của viên kim cương (mm)
names(tcd)
## [1] "carat" "cut" "color" "clarity" "depth" "table" "price"
## [8] "x" "y" "z"
- Bảng dữ liệu của bộ dataset diamonds
tcd
## # A tibble: 53,940 × 10
## carat cut color clarity depth table price x y z
## <dbl> <ord> <ord> <ord> <dbl> <dbl> <int> <dbl> <dbl> <dbl>
## 1 0.23 Ideal E SI2 61.5 55 326 3.95 3.98 2.43
## 2 0.21 Premium E SI1 59.8 61 326 3.89 3.84 2.31
## 3 0.23 Good E VS1 56.9 65 327 4.05 4.07 2.31
## 4 0.29 Premium I VS2 62.4 58 334 4.2 4.23 2.63
## 5 0.31 Good J SI2 63.3 58 335 4.34 4.35 2.75
## 6 0.24 Very Good J VVS2 62.8 57 336 3.94 3.96 2.48
## 7 0.24 Very Good I VVS1 62.3 57 336 3.95 3.98 2.47
## 8 0.26 Very Good H SI1 61.9 55 337 4.07 4.11 2.53
## 9 0.22 Fair E VS2 65.1 61 337 3.87 3.78 2.49
## 10 0.23 Very Good H VS1 59.4 61 338 4 4.05 2.39
## # ℹ 53,930 more rows
Phân tích bộ dữ liệu với biểu đồ bar chart
1. Biểu đồ thể hiện mặt cắt của các loại kim cương
tcd %>% ggplot(aes(x = cut)) +
geom_bar() +
labs(X = 'loại', y = 'số lượng')

- Biểu đồ biểu diễn theo dạng dọc
2. Biểu đồ thể hiện mặt cắt của các loại kim cương
tcd %>% ggplot(aes(x = cut)) +
geom_bar() +
labs(x = 'Loại','Số lượng') +
coord_flip()

- Biểu đồ thể hiện theo dạng ngang
3. Biểu đồ thể hiện số lượng kim cương thuộc các loại khác nhau
tcd %>% group_by(cut) %>% summarise(freq= n()) %>%
ggplot(aes(x = cut, y = freq)) +
geom_col(fill= 'lightblue') +
geom_text(aes(label =freq), vjust =2, color = 'white') +
labs(x= 'Loại', y= 'Số lượng')

- Số lượng kim cương thuộc loại Fair là 1610
- Số lượng kim cương thuộc loại Good là 4906
- Số lượng kim cương thuộc loại Very Good là 12082
- Số lượng kim cương thuộc loại Premium là 13791
- Số lượng kim cương thuộc loại Ideal là 21551
Nhận xét: Số lượng kim cương thuộc loại Ideal là cao
nhất gấp gần 13.4 lần loại Fair, 4.4 lần loại Good, 1,8 lần loại Very
Good, 1,5 lần loại Premium
4. Biểu đồ thể hiện tỉ lệ phần trăm về số lượng của các loại kim
cương
tcd %>% group_by(cut) %>% summarise(n = n()) %>%
ggplot(aes(cut,n)) +
geom_col(fill='pink') +
geom_text(aes(label = percent(n/length(tcd$carat))),vjust = 2, color = 'white') +
labs(x = 'Loại', y = 'Số lượng')

- Số lượng kim cương loại Fair chiếm 3.0%
- Số lượng kim cương loại Good chiếm 9.1%
- Số lượng kim cương loại Very Good chiếm 22.4%
- Số lượng kim cương loại Premium chiếm 25.6%
- Số lượng kim cương loại Ideal chiếm 40.0%
Nhận xét: Kim cương loại Ideal chiếm % số lượng cao
nhất, kim cương loại Fair chiếm % số lượng thấp nhất
5. Biểu đồ thể hiện số lượng kim cương theo loại color với màu sắc
đường viền cắt
tcd %>% group_by(cut,color) %>% summarise(n=n()) %>%
ggplot(aes(x = cut,y = n)) +
geom_col(position = 'dodge') +
facet_wrap(~color) +
labs(x = 'Loại', y = 'Số lượng')

6. Biểu đồ này thể hiện số lượng kim cương trong mỗi phân loại này
(color)
ggplot(diamonds, aes(x = color)) +
geom_bar()

Nhận xét: Nhìn vào biểu đồ trên ta thấy:
- Kim cương có màu G chiếm số lượng cao nhất
- Kim cương có màu J chiếm số lượng thấp nhất
- Kim cương có các màu D,E,F,H,I chiếm số lượng gần tương tự nhưng vẫn
có sự chênh lệch giữa các màu với nhau
7. Biểu đồ thể hiện số lượng kim cương trong mỗi phân loại độ trong
suốt (clarity)
ggplot(diamonds, aes(x = clarity)) +
geom_bar()

Nhận xét: Từ biểu đồ trên ta thấy:
- Số lượng kim cương phân loại theo độ trong suốt >10000 bao gồm :
SI1,VS2
- Số lượng kim cương phân loại theo độ trong suốt
>=5000&<10000 bao gồm : SI2,VS1,WS2
- Số lượng kim cương phân loại theo độ trong suốt <5000 bao gồm :
WS1,IF,I1
- Số lượng kim cương phân loại theo độ trong suốt SI1 là cao nhất, I1
là thấp nhất
8. Biểu đồ này thể hiện trung bình giá kim cương theo từng loại cắt
và màu sắc
tcd %>% ggplot() +
stat_summary(mapping = aes(x = cut, y = price, fill = color), fun.y = "mean", geom = "bar", position = "dodge") +
coord_flip() +
scale_fill_brewer(palette = "Set3") +
labs(title = "Trung bình giá kim cương theo từng loại cắt và màu sắc",x = "Loại cắt", y = "Giá trung bình")

9. Biểu đồ này thể hiện số lượng các loại kim cương được phân loại
theo màu sắc
tcd %>% ggplot(mapping = aes(x = cut, fill = color)) +
geom_bar() +
scale_fill_manual(values = sort(unique(diamonds$color)))+
labs(title = "Biểu đồ số lượng kim cương chia theo màu sắc",x = 'Loại', y = 'Số lượng')

Nhận xét: Từ biểu đồ trên ta thấy ( dựa vào tiêu chí
là số lượng và loại ):
- Kim cương loại Fair có các loại màu tương tự nhau chiếm tỉ lệ về màu
sắc khá đồng đều
- Kim cương loại Good có các loại màu tương tự nhau chiếm tỉ lệ về màu
sắc khá đồng đều
- Kim cương loại Very Good và Premium có số lương màu E,F,G,H cao hơn
so với màu D,I,J
- Kim cương loại Ideal có số lượng màu E,F,G cao hơn nhiều so với các
màu còn lại, màu G chiếm đa số
10. Biểu đồ thể hiện giá trị kim cương lớn nhất theo độ trong
ggplot(diamonds, aes(x = clarity, y = price)) +
geom_bar(stat = "summary", fun = max)

11. Biểu đồ thể hiện giá trị kim cương nhỏ nhất theo màu sắc:
ggplot(diamonds, aes(x = color, y = price)) +
geom_bar(stat = "summary", fun = min)

12. Biểu đồ thể hiện tổng giá trị kim cương theo loại cắt và màu
sắc:
ggplot(diamonds, aes(x = cut, fill = color, y = price)) +
geom_bar(position = "stack", stat = "summary", fun = "sum")

Nhận xét: Từ biểu đồ trên ta thấy ( dựa vào tiêu chí
price và cut ) :
- Kim cương loại Fair có các loại màu tương tự nhau chiếm tỉ lệ về màu
sắc khá đồng đều
- Kim cương loại Good có các loại màu tương tự nhau chiếm tỉ lệ về màu
sắc khá đồng đều
- Kim cương loại Very Good và Premium có số lương màu E,F,G,H cao hơn
so với màu D,I,J
- Kim cương loại Ideal có số lượng màu E,F,G cao hơn nhiều so với các
màu còn lại, màu G chiếm đa số
13. Biểu đồ thể hiện giá trị trung bình kim cương theo loại cắt và
độ trong:
ggplot(diamonds, aes(x = cut, fill = clarity, y = price)) +
geom_bar(position = "stack", stat = "summary", fun = "mean")

14. Biểu đồ thể hiện số lượng kim cương theo kích thước và màu
sắc:
ggplot(diamonds, aes(x = carat, fill = color)) +
geom_bar(binwidth = 0.5)

Nhận xét: Từ iểu đồ trên cho thấy số lượng kim cương
theo kích thước và màu sắc, với các cột được nhóm lại theo khoảng kích
thước 0.5 và màu sắc tương ứng.
15. Biểu đồ thể hiện số lượng kim cương theo kích thước và loại
cắt:
ggplot(diamonds, aes(x = carat, fill = cut)) +
geom_bar(binwidth = 0.5)

Nhận xét: Từ biểu đồ trên cho thấy số lượng kim
cương theo kích thước và loại cắt, với các cột được nhóm lại theo khoảng
kích thước 0.5 và loại cắt tương ứng.
16. Biểu đồ thể hiện giá trị trung bình kim cương theo loại cắt và
màu sắc:
ggplot(diamonds, aes(x = cut, fill = color, y = price)) +
stat_summary(fun = "mean", geom = "bar")

Nhận xét: Từ biểu đồ trên cho ta thấy:
- Màu J chiếm đa số tất cả các loại cắt, bên cạnh đó còn có một vài
loại cắt có màu I và H như là: Fair, Good, Very Good
17. Biểu đồ thể hiện giá trị trung bình kim cương theo màu sắc và độ
trong:
ggplot(diamonds, aes(x = color, fill = clarity, y = price)) +
geom_bar(position = "stack", stat = "summary", fun = "mean")

Nhận xét: Từ biểu đồ trên cho thấy giá trị trung
bình của kim cương theo từng màu sắc và độ trong, với các cột được xếp
chồng lên nhau.
18. Biểu đồ thể hiện trung bình giá trị các loại cắt kim cương với
màu sắc
tcd %>% group_by(cut,color) %>% summarise(m = mean(price)) %>% ggplot(aes(x = cut,y = m, fill = color)) + geom_col(position = 'dodge') + labs(x = 'Loại', y = 'Số lượng')

Nhận xét:
19. Biểu đồ thể hiện trung bình giá kim cương theo màu sắc
diamonds %>%
group_by(color) %>%
summarise(mean_price = mean(price)) %>%
ggplot(aes(x = color, y = mean_price)) +
geom_bar(stat = "identity") +
xlab("Color") +
ylab("Price") +
ggtitle("Giá kim cương theo màu sắc")

20. Biểu đồ thể hiện tỷ lệ kim cương theo độ trong suốt
diamonds %>%
count(clarity) %>%
mutate(proportion = n / sum(n)) %>%
ggplot(aes(x = clarity, y = proportion)) +
geom_bar(stat = "identity") +
xlab("Clarity") +
ylab("Proportion") +
ggtitle("Tỷ lệ kim cương theo độ trong suốt")

21. Biểu đồ thể hiện phân phối kích thước carat của kim cương
ggplot(diamonds, aes(x = carat)) +
geom_histogram(binwidth = 0.5) +
xlab("Carat") +
ylab("Frequency") +
ggtitle("Phân phối kích thước carat của kim cương")

22. Biểu đồ thể hiện Tần suất các loại kim cương theo giá trị
tcd %>% ggplot(aes(x = cut, y = price, fill = clarity)) +
geom_bar(stat = "summary", fun.y = "mean", position = "dodge") +
facet_wrap(~color)+
labs(title = "Tần suất các loại kim cương theo giá trị", x = "Loại", y = "Giá trị")

23. Biểu đồ thể hiện trung bình giá kim cương theo kiểu cắt
diamonds %>%
group_by(cut) %>%
summarise(mean_price = mean(price)) %>%
ggplot(aes(x = cut, y = mean_price)) +
geom_bar(stat = "identity") +
xlab("Cut") +
ylab("Price") +
ggtitle("Trung bình giá kim cương theo kiểu cắt")

24. Biểu đồ thể hiện số lượng kim cương theo màu sắc và độ trong
suốt
diamonds %>%
group_by(color, clarity) %>%
summarise(count = n()) %>%
ggplot(aes(x = color, y = count, fill = clarity)) +
geom_bar(stat = "identity", position = "dodge") +
xlab("Color") +
ylab("Count") +
ggtitle("Số lượng kim cương theo màu sắc và độ trong suốt
") +
scale_fill_discrete(name = "Clarity")

25. Biểu đồ thể hiện trung bình giá kim cương theo kiểu cắt và độ
trong suốt
diamonds %>%
group_by(cut, clarity) %>%
summarise(mean_price = mean(price)) %>%
ggplot(aes(x = cut, y = mean_price, fill = clarity)) +
geom_bar(stat = "identity", position = "dodge") +
xlab("Cut") +
ylab("Price") +
ggtitle("Trung bình giá kim cương theo kiểu cắt và độ trong suốt") +
scale_fill_discrete(name = "Clarity")

26. Biểu đồ thể hiện số lượng kim cương theo kiểu cắt và độ trong
suốt
diamonds %>%
group_by(cut, clarity) %>%
summarise(count = n()) %>%
ggplot(aes(x = cut, y = count, fill = clarity)) +
geom_bar(stat = "identity", position = "dodge") +
xlab("Cut") +
ylab("Count") +
ggtitle("Số lượng kim cương theo kiểu cắt và độ trong suốt") +
scale_fill_discrete(name = "Clarity")

27. Biểu đồ thể hiện trung bình giá kim cương theo màu sắc, kiểu cắt
và độ trong suốt
diamonds %>%
group_by(color, cut, clarity) %>%
summarise(mean_price = mean(price)) %>%
ggplot(aes(x = color, y = mean_price, fill = interaction(cut, clarity))) +
geom_bar(stat = "identity", position = "dodge") +
xlab("Color") +
ylab("Average Price") +
ggtitle("Trung bình giá kim cương theo màu sắc, kiểu cắt và độ trong suốt") +
scale_fill_discrete(name = "Cut & Clarity")

28. Biểu đồ thể hiện số lượng kim cương theo màu sắc, kiểu cắt và độ
trong suốt
diamonds %>%
group_by(color, cut, clarity) %>%
summarise(count = n()) %>%
ggplot(aes(x = color, y = count, fill = interaction(cut, clarity))) +
geom_bar(stat = "identity", position = "dodge") +
xlab("Color") +
ylab("Count") +
ggtitle("Số lượng kim cương theo màu sắc, kiểu cắt và độ trong suốt") +
scale_fill_discrete(name = "Cut & Clarity")

29. Biểu đồ thể hiện trung bình giá trị của các loại cắt kim cương
với màu sắc và độ trong suốt
tcd %>%group_by(cut, color, clarity) %>%summarise(mean_price = mean(price)) %>% arrange(desc(mean_price)) %>%
ggplot(aes(x = cut, y = mean_price, fill = color, color = clarity)) +
geom_bar(stat = "identity", position = "dodge")+
labs(title = "Trung bình giá trị của các loại cắt kim cương với màu sắc và độ trong suốt", x = "Loại", y = "Trung bình giá trị")

30. Biểu đồ thể hiện Độ sâu trung bình’,title=’Giá trị trung bình
của depth theo cut và clarity
tcd %>% group_by(cut, clarity)%>%summarise(m=mean(depth))%>%ggplot(aes(x=cut, y= m))+
geom_col(position='dodge')+
facet_wrap(~clarity)+
geom_text(aes(label= round(m)), vjust=2, color='white')+
labs(x= 'Loại', y= 'Độ sâu trung bình',title='Giá trị trung bình của depth theo cut và clarity ')

---
title: "Nhiệm vụ 4"
author: "tcdat"
date: "`r format(Sys.time(), '%H:%M:%S, %d - %m - %Y')`"
output: 
  html_document:
    code_download: true
    code_folding: hide
    theme: "default"
    toc: TRUE
    toc_float: TRUE
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE, warning = FALSE, message = FALSE)
library(tidyverse)
library(scales)
library(ggplot2)
tcd <- diamonds
tcd
```
### **Giới thiệu về bộ dữ liệu diamonds**

- Bộ dữ liệu có 10 cột tương ứng với 10 biến 
- carat: Trọng lượng của viên kim cương (carat)
- cut: Chất lượng đường cắt (Fair, Good, Very Good, Ideal, Premium) color: Màu sắc của viên kim cương (từ D (tốt nhất) đến J (kém nhất))
- price: Giá trị của viên kim cương (đơn vị USD)
- clarity: Độ trong suốt của viên kim cương (từ IF (tốt nhất) đến I1 (kém nhất))
- depth: Tỷ lệ phần trăm độ sâu (tính theo z / x)
- table: Chiều rộng của mặt bàn (tính theo % của đường kính)
- x: Chiều dài của viên kim cương (mm)
= y: Chiều rộng của viên kim cương (mm)
- z: Độ sâu của viên kim cương (mm)
```{r}
names(tcd)
```

- Bảng dữ liệu của bộ dataset diamonds 

```{r}
tcd
```


### **Phân tích bộ dữ liệu với biểu đồ bar chart** 
### 1. Biểu đồ thể hiện mặt cắt của các loại kim cương
```{r}

tcd %>% ggplot(aes(x = cut)) + 
  geom_bar() + 
  labs(X = 'loại', y = 'số lượng')
```

- Biểu đồ biểu diễn theo dạng dọc 


### 2. Biểu đồ thể hiện mặt cắt của các loại kim cương 

```{r}
tcd %>% ggplot(aes(x = cut)) +
  geom_bar() +
  labs(x = 'Loại','Số lượng') +
coord_flip()
```

- Biểu đồ thể hiện theo dạng ngang 

### 3. Biểu đồ thể hiện số lượng kim cương thuộc các loại khác nhau 

```{r}
tcd %>% group_by(cut) %>% summarise(freq= n()) %>% 
  ggplot(aes(x = cut, y = freq)) +
  geom_col(fill= 'lightblue') +
  geom_text(aes(label =freq), vjust =2, color = 'white') +
  labs(x= 'Loại', y= 'Số lượng')
```

- Số lượng kim cương thuộc loại Fair là 1610
- Số lượng kim cương thuộc loại Good là 4906
- Số lượng kim cương thuộc loại Very Good là 12082
- Số lượng kim cương thuộc loại Premium là 13791
- Số lượng kim cương thuộc loại Ideal là 21551

**Nhận xét:**  Số lượng kim cương thuộc loại Ideal là cao nhất gấp gần 13.4 lần loại Fair, 4.4 lần loại Good, 1,8 lần loại Very Good, 1,5 lần loại Premium   

### 4. Biểu đồ thể hiện tỉ lệ phần trăm về số lượng của các loại kim cương 

```{r}
tcd %>% group_by(cut) %>% summarise(n = n()) %>%
  ggplot(aes(cut,n)) +
    geom_col(fill='pink') +
    geom_text(aes(label = percent(n/length(tcd$carat))),vjust = 2, color = 'white') +
    labs(x = 'Loại', y = 'Số lượng')
```

- Số lượng kim cương loại Fair chiếm 3.0%
- Số lượng kim cương loại Good chiếm 9.1%
- Số lượng kim cương loại Very Good chiếm 22.4%
- Số lượng kim cương loại Premium chiếm 25.6%
- Số lượng kim cương loại Ideal chiếm 40.0% 

**Nhận xét:** Kim cương loại Ideal chiếm % số lượng cao nhất, kim cương loại Fair chiếm % số lượng thấp nhất 


### 5. Biểu đồ thể hiện số lượng kim cương theo loại color với màu sắc đường viền cắt


```{r}
tcd %>% group_by(cut,color) %>% summarise(n=n()) %>%
  ggplot(aes(x = cut,y = n)) +
    geom_col(position = 'dodge') +
    facet_wrap(~color) +
    labs(x = 'Loại', y = 'Số lượng')
```

### 6. Biểu đồ này thể hiện số lượng kim cương trong mỗi phân loại này (color)

```{r}
ggplot(diamonds, aes(x = color)) +
  geom_bar()
```

**Nhận xét:** Nhìn vào biểu đồ trên ta thấy:

- Kim cương có màu G chiếm số lượng cao nhất 
- Kim cương có màu J chiếm số lượng thấp nhất 
- Kim cương có các màu D,E,F,H,I chiếm số lượng gần tương tự nhưng vẫn có sự chênh lệch giữa các màu với nhau 

### 7. Biểu đồ thể hiện số lượng kim cương trong mỗi phân loại độ trong suốt (clarity)

```{r}
ggplot(diamonds, aes(x = clarity)) +
  geom_bar()
```

**Nhận xét:** Từ biểu đồ trên ta thấy:

- Số lượng kim cương phân loại theo độ trong suốt >10000 bao gồm : SI1,VS2 
- Số lượng kim cương phân loại theo độ trong suốt >=5000&<10000 bao gồm : SI2,VS1,WS2
- Số lượng kim cương phân loại theo độ trong suốt <5000 bao gồm : WS1,IF,I1 
- Số lượng kim cương phân loại theo độ trong suốt SI1 là cao nhất, I1 là thấp nhất 

### 8. Biểu đồ này thể hiện trung bình giá kim cương theo từng loại cắt và màu sắc
```{r}
tcd %>% ggplot() +
  stat_summary(mapping = aes(x = cut, y = price, fill = color), fun.y = "mean", geom = "bar", position = "dodge") +
  coord_flip() +
  scale_fill_brewer(palette = "Set3") +
  labs(title = "Trung bình giá kim cương theo từng loại cắt và màu sắc",x = "Loại cắt", y = "Giá trung bình")
```

### 9. Biểu đồ này thể hiện số lượng các loại kim cương  được phân loại theo màu sắc
```{r}
tcd %>% ggplot(mapping = aes(x = cut, fill = color)) +
  geom_bar() +
  scale_fill_manual(values = sort(unique(diamonds$color)))+
   labs(title = "Biểu đồ số lượng kim cương chia theo màu sắc",x = 'Loại', y = 'Số lượng')
```

**Nhận xét:** Từ biểu đồ trên ta thấy ( dựa vào tiêu chí là số lượng và loại ):

- Kim cương loại Fair có các loại màu tương tự nhau chiếm tỉ lệ về màu sắc khá đồng đều 
- Kim cương loại Good có các loại màu tương tự nhau chiếm tỉ lệ về màu sắc khá đồng đều 
- Kim cương loại Very Good và Premium có số lương màu E,F,G,H cao hơn so với màu D,I,J 
- Kim cương loại Ideal có số lượng màu E,F,G cao hơn nhiều so với các màu còn lại, màu G chiếm đa số  

### 10. Biểu đồ thể hiện giá trị kim cương lớn nhất theo độ trong 
```{r}
ggplot(diamonds, aes(x = clarity, y = price)) +
  geom_bar(stat = "summary", fun = max)

```

### 11. Biểu đồ thể hiện giá trị kim cương nhỏ nhất theo màu sắc:

```{r}
ggplot(diamonds, aes(x = color, y = price)) +
  geom_bar(stat = "summary", fun = min)

```

### 12. Biểu đồ thể hiện tổng giá trị kim cương theo loại cắt và màu sắc:

```{r}
ggplot(diamonds, aes(x = cut, fill = color, y = price)) +
  geom_bar(position = "stack", stat = "summary", fun = "sum")
```

**Nhận xét:** Từ biểu đồ trên ta thấy ( dựa vào tiêu chí price và cut ) :

- Kim cương loại Fair có các loại màu tương tự nhau chiếm tỉ lệ về màu sắc khá đồng đều 
- Kim cương loại Good có các loại màu tương tự nhau chiếm tỉ lệ về màu sắc khá đồng đều 
- Kim cương loại Very Good và Premium có số lương màu E,F,G,H cao hơn so với màu D,I,J 
- Kim cương loại Ideal có số lượng màu E,F,G cao hơn nhiều so với các màu còn lại, màu G chiếm đa số  

### 13. Biểu đồ thể hiện giá trị trung bình kim cương theo loại cắt và độ trong:
```{r}
ggplot(diamonds, aes(x = cut, fill = clarity, y = price)) +
  geom_bar(position = "stack", stat = "summary", fun = "mean")
```

### 14. Biểu đồ thể hiện số lượng kim cương theo kích thước và màu sắc: 

```{r}
ggplot(diamonds, aes(x = carat, fill = color)) +
  geom_bar(binwidth = 0.5)
```

**Nhận xét:** Từ iểu đồ trên cho thấy số lượng kim cương theo kích thước và màu sắc, với các cột được nhóm lại theo khoảng kích thước 0.5 và màu sắc tương ứng.

### 15.  Biểu đồ thể hiện số lượng kim cương theo kích thước và loại cắt:
```{r}
ggplot(diamonds, aes(x = carat, fill = cut)) +
  geom_bar(binwidth = 0.5)
```

**Nhận xét:** Từ biểu đồ trên cho thấy số lượng kim cương theo kích thước và loại cắt, với các cột được nhóm lại theo khoảng kích thước 0.5 và loại cắt tương ứng.

### 16. Biểu đồ thể hiện giá trị trung bình kim cương theo loại cắt và màu sắc: 
```{r}
ggplot(diamonds, aes(x = cut, fill = color, y = price)) +
  stat_summary(fun = "mean", geom = "bar")
```

**Nhận xét:** Từ biểu đồ trên cho ta thấy:

- Màu J chiếm đa số tất cả các loại cắt, bên cạnh đó còn có một vài loại cắt có màu I và H như là: Fair, Good, Very Good 

### 17. Biểu đồ thể hiện giá trị trung bình kim cương theo màu sắc và độ trong: 
```{r}
ggplot(diamonds, aes(x = color, fill = clarity, y = price)) +
  geom_bar(position = "stack", stat = "summary", fun = "mean")
```

**Nhận xét:** Từ biểu đồ trên cho thấy giá trị trung bình của kim cương theo từng màu sắc và độ trong, với các cột được xếp chồng lên nhau.

### 18. Biểu đồ thể hiện trung bình giá trị các loại cắt kim cương với màu sắc 

```{r}
tcd %>% group_by(cut,color) %>% summarise(m = mean(price)) %>% ggplot(aes(x = cut,y = m, fill = color)) + geom_col(position = 'dodge') + labs(x = 'Loại', y = 'Số lượng')
```

**Nhận xét:** 

### 19. Biểu đồ thể hiện trung bình giá kim cương theo màu sắc 

```{r}
diamonds %>%
  group_by(color) %>%
  summarise(mean_price = mean(price)) %>%
  ggplot(aes(x = color, y = mean_price)) +
  geom_bar(stat = "identity") +
  xlab("Color") +
  ylab("Price") +
  ggtitle("Giá kim cương theo màu sắc")
```

### 20. Biểu đồ thể hiện tỷ lệ kim cương theo độ trong suốt 

```{r}
diamonds %>%
  count(clarity) %>%
  mutate(proportion = n / sum(n)) %>%
  ggplot(aes(x = clarity, y = proportion)) +
  geom_bar(stat = "identity") +
  xlab("Clarity") +
  ylab("Proportion") +
  ggtitle("Tỷ lệ kim cương theo độ trong suốt")
```

### 21. Biểu đồ thể hiện phân phối kích thước carat của kim cương

```{r}
ggplot(diamonds, aes(x = carat)) +
  geom_histogram(binwidth = 0.5) +
  xlab("Carat") +
  ylab("Frequency") +
  ggtitle("Phân phối kích thước carat của kim cương")
```

### 22. Biểu đồ thể hiện Tần suất các loại kim cương theo giá trị

```{r}
tcd %>% ggplot(aes(x = cut, y = price, fill = clarity)) +
  geom_bar(stat = "summary", fun.y = "mean", position = "dodge") +
  facet_wrap(~color)+
  labs(title = "Tần suất các loại kim cương theo giá trị", x = "Loại", y = "Giá trị")
```

### 23. Biểu đồ thể hiện trung bình giá kim cương theo kiểu cắt

```{r}
diamonds %>%
  group_by(cut) %>%
  summarise(mean_price = mean(price)) %>%
  ggplot(aes(x = cut, y = mean_price)) +
  geom_bar(stat = "identity") +
  xlab("Cut") +
  ylab("Price") +
  ggtitle("Trung bình giá kim cương theo kiểu cắt")
```

### 24. Biểu đồ thể hiện số lượng kim cương theo màu sắc và độ trong suốt

```{r}
diamonds %>%
  group_by(color, clarity) %>%
  summarise(count = n()) %>%
  ggplot(aes(x = color, y = count, fill = clarity)) +
  geom_bar(stat = "identity", position = "dodge") +
  xlab("Color") +
  ylab("Count") +
  ggtitle("Số lượng kim cương theo màu sắc và độ trong suốt
") +
  scale_fill_discrete(name = "Clarity")
```

### 25. Biểu đồ thể hiện trung bình giá kim cương theo kiểu cắt và độ trong suốt

```{r}
diamonds %>%
  group_by(cut, clarity) %>%
  summarise(mean_price = mean(price)) %>%
  ggplot(aes(x = cut, y = mean_price, fill = clarity)) +
  geom_bar(stat = "identity", position = "dodge") +
  xlab("Cut") +
  ylab("Price") +
  ggtitle("Trung bình giá kim cương theo kiểu cắt và độ trong suốt") +
  scale_fill_discrete(name = "Clarity")
```

### 26. Biểu đồ thể hiện số lượng kim cương theo kiểu cắt và độ trong suốt

```{r}
diamonds %>%
  group_by(cut, clarity) %>%
  summarise(count = n()) %>%
  ggplot(aes(x = cut, y = count, fill = clarity)) +
  geom_bar(stat = "identity", position = "dodge") +
  xlab("Cut") +
  ylab("Count") +
  ggtitle("Số lượng kim cương theo kiểu cắt và độ trong suốt") +
  scale_fill_discrete(name = "Clarity")
```

### 27. Biểu đồ thể hiện trung bình giá kim cương theo màu sắc, kiểu cắt và độ trong suốt

```{r}
diamonds %>%
  group_by(color, cut, clarity) %>%
  summarise(mean_price = mean(price)) %>%
  ggplot(aes(x = color, y = mean_price, fill = interaction(cut, clarity))) +
  geom_bar(stat = "identity", position = "dodge") +
  xlab("Color") +
  ylab("Average Price") +
  ggtitle("Trung bình giá kim cương theo màu sắc, kiểu cắt và độ trong suốt") +
  scale_fill_discrete(name = "Cut & Clarity")
```

### 28. Biểu đồ thể hiện số lượng kim cương theo màu sắc, kiểu cắt và độ trong suốt

```{r}
diamonds %>%
  group_by(color, cut, clarity) %>%
  summarise(count = n()) %>%
  ggplot(aes(x = color, y = count, fill = interaction(cut, clarity))) +
  geom_bar(stat = "identity", position = "dodge") +
  xlab("Color") +
  ylab("Count") +
  ggtitle("Số lượng kim cương theo màu sắc, kiểu cắt và độ trong suốt") +
  scale_fill_discrete(name = "Cut & Clarity")
```

### 29. Biểu đồ thể hiện trung bình giá trị của các loại cắt kim cương với màu sắc và độ trong suốt
 
```{r}
tcd %>%group_by(cut, color, clarity) %>%summarise(mean_price = mean(price)) %>% arrange(desc(mean_price)) %>%
  ggplot(aes(x = cut, y = mean_price, fill = color, color = clarity)) +
  geom_bar(stat = "identity", position = "dodge")+
   labs(title = "Trung bình giá trị của các loại cắt kim cương với màu sắc và độ trong suốt", x = "Loại", y = "Trung bình giá trị")
```

### 30. Biểu đồ thể hiện Độ sâu trung bình',title='Giá trị trung bình của depth theo cut và clarity

```{r}
tcd %>% group_by(cut, clarity)%>%summarise(m=mean(depth))%>%ggplot(aes(x=cut, y= m))+
  geom_col(position='dodge')+
  facet_wrap(~clarity)+
  geom_text(aes(label= round(m)), vjust=2, color='white')+ 
  labs(x= 'Loại', y= 'Độ sâu trung bình',title='Giá trị trung bình của depth theo cut và clarity ')
```




