GIỚI THIỆU TỔNG QUAN VỀ BỘ DỮ LIỆU DIAMONDS

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ forcats   1.0.0     ✔ readr     2.1.5
## ✔ ggplot2   3.4.4     ✔ stringr   1.5.1
## ✔ lubridate 1.9.3     ✔ tibble    3.2.1
## ✔ purrr     1.0.2     ✔ tidyr     1.3.0
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(ggplot2)
library(scales)
## 
## Attaching package: 'scales'
## 
## The following object is masked from 'package:purrr':
## 
##     discard
## 
## The following object is masked from 'package:readr':
## 
##     col_factor
hieu <- diamonds
hieu
## # A tibble: 53,940 × 10
##    carat cut       color clarity depth table price     x     y     z
##    <dbl> <ord>     <ord> <ord>   <dbl> <dbl> <int> <dbl> <dbl> <dbl>
##  1  0.23 Ideal     E     SI2      61.5    55   326  3.95  3.98  2.43
##  2  0.21 Premium   E     SI1      59.8    61   326  3.89  3.84  2.31
##  3  0.23 Good      E     VS1      56.9    65   327  4.05  4.07  2.31
##  4  0.29 Premium   I     VS2      62.4    58   334  4.2   4.23  2.63
##  5  0.31 Good      J     SI2      63.3    58   335  4.34  4.35  2.75
##  6  0.24 Very Good J     VVS2     62.8    57   336  3.94  3.96  2.48
##  7  0.24 Very Good I     VVS1     62.3    57   336  3.95  3.98  2.47
##  8  0.26 Very Good H     SI1      61.9    55   337  4.07  4.11  2.53
##  9  0.22 Fair      E     VS2      65.1    61   337  3.87  3.78  2.49
## 10  0.23 Very Good H     VS1      59.4    61   338  4     4.05  2.39
## # ℹ 53,930 more rows

Thông tin cơ bản về bộ dữ liệu:

dim(hieu)
## [1] 53940    10
  • Số lượng: 53.940 viên kim cương

  • Biến: 10 đặc tính

  • Price: Giá thành của các viên kim cương (USD)

  • Carat: Trọng lượng của các viên kim cương (carat)

  • Cut: Chất lượng cắt (Khá, Tốt, Rất tốt, Đặc biệt, Lý tưởng)

  • Color: Các Màu của viên Kim cương (J - kém nhất, D - tốt nhất)

  • Clarity: Độ trong của viên kim cương

  • x: Chiều dài (mm)

  • y: Chiều rộng (mm)

  • z: Độ sâu (mm)

  • Depth: Độ sâu vết cắt

  • Table: Chiều rộng đỉnh kim cương so với điểm rộng nhất

1. Biểu đồ 1:

Phân loại kim cương theo kiểu cắt

hieu %>% ggplot(aes(x = cut)) +
    geom_bar() +
    labs(x = 'Loại', y = 'Số lượng') +
    coord_flip() +
    labs(title = 'Số kim cương theo kiểu cắt(biểu đồ ngang)')

* Biểu đồ ngang trên cho ta thấy được kiểu Gía của kim cương theo từng kiểu cắt. Ta thấy số kim cương sẽ tăng dần từ Fair, Good, Very Good, Premium, Ideal.

2. Biểu đồ 2:

Phân loại kim cương theo độ trong suốt và tính giá trung bình của từng loại

hieu %>% group_by(clarity) %>% summarise(m= mean(price)) %>%
  ggplot(aes(x = clarity,y = m)) +
  geom_col(position = 'dodge') +  
  geom_text(aes(label = round(m,1)), vjust = 2, color = 'green') +
  labs(x = 'độ trong suốt', y = 'giá')

  • Ta gắn: x là độ trong suốt, y là giá trung bình của từng loại

  • Các số liệu sẽ có màu xanh lá cây, được làm tròn 01 chữ số thập phân và được điều chỉnh ở vị trí dọc cách cột với đơn vị là 2. Qua biểu đồ trên ta thấy kim cương có độ trong suốt SI2 là có giá trung bình cao nhất, tiếp đến là SI2, thấp hơn nữa lần lượt là VS2, I1, VS1, WS2, IF và thấp nhất là Ws1.

3. Biểu đồ 3:

Phân loại kim cương theo màu sắc và tính số lượng của từng màu sắc

hieu %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(color,n)) +
    geom_col(fill='red') +
    geom_text(aes(label = n),vjust = 2, color = 'black') +
    xlab('Color') +
    ylab('Số lượng') +
    labs(title ='Số lượng kim cương theo màu sắc')

  • x là màu sắc của kim cương
  • y là số lượng của từng loại màu sắc.
  • Các số liệu có màu đen, được điều chỉnh ở vị trí dọc cách cột 2 đơn vị. Màu của các cột là màu đỏ . Qua biểu đồ trên ta thấy được nhiều nhất là màu G với 11292 viên, tiếp đến là E với 9797 viên, F với 9542 viên, H với 8304 viên,D với 6775 viên, I với 5422 viên và ít nhất là màu J với 2808 viên.

4.Biểu đồ 4:

Phân loại kim cương theo trọng lượng carat ở các mốc 0.5, 1.0, 1.5, 2.0 và tính số lượng của từng mốc khối lượng

hieu %>% group_by(carat) %>% filter(carat == 0.5 | carat == 1.00 | carat == 1.5 | carat == 2.05) %>% summarise(n = n()) %>%
  ggplot(aes(carat,n)) +
    geom_col(fill='purple') +
     geom_text(aes(label = n),vjust = 2, color = 'white') +
    xlab('Carat') +
    ylab('Số lượng')

Ta gắn: x là carat và y là số lượng từng mốc carat. Các cột biểu đồ có màu xanh lá cây, các số liệu có màu trắng, được điều chỉnh ở vị trí dọc cách cột 2 đơn vị . Qua biểu đồ trên ta thấy được số kim cương có trọng lượng 1.0 carat là nhiều nhất và thấp nhất là 2.0.

5. Biểu đồ 5:

Phân loại kiểu cắt kim cương và tính trọng lượng trung bình (carat)

hieu %>% group_by(cut) %>% summarise(m= mean(carat)) %>%
  ggplot(aes(x = cut,y = m)) +
  geom_col(position = 'dodge') +
  geom_text(aes(label = round(m,2)), vjust = 2, color = 'yellow') +
  labs(x = 'Kiểu cắt', y = 'Trọng lượng trung bình')

  • Ta gắn: x là kiểu cắt, y là trọng lượng trung bình.

  • Các số liệu sẽ có màu đỏ, được làm tròn đến 2 chữ thập phân và được điều chỉnh ở vị trí dọc cách cột với đơn vị là 2. Qua biểu đồ ta thấy được trọng lương trung bình của kim cương tăng từ Ideal(0.7 carat) < Very Good(0.81 carat) < Good(0.85 carat) < Premium(0.89 carat) < Fair(1.05 carat).

6. Biểu đồ 6:

Phân loại kim cương theo màu sắc và tính giá trung bình của từng loại

hieu %>% group_by(color) %>% summarise(m= mean(price)) %>%
  ggplot(aes(x = color,y = m)) +
  geom_col(position = 'dodge') +
  geom_text(aes(label = round(m,0)), vjust = 2, color = 'white') +
  labs(x = 'màu sắc', y = 'Gía trung bình')

  • Ở biểu đồ trên thì ta gắn: x là màu sắc, y là giá trung bình của từng loại
  • Các số liệu sẽ có màu xanh lá cây, được làm tròn 0 chữ số thập phân và được điều chỉnh ở vị trí dọc cách cột với đơn vị là 2. Qua biểu đồ trên .
  • Ta thấy màu J có giá trung bình cao nhất và giảm dần từ I, H, G, F, D và thấp nhất là màu D VỚI 3170 Đơn vị giá.

7. Biểu đồ 7:

Phân loại kim cương theo kiểu cắt và tính số lượng của từng màu

hieu %>% group_by(cut) %>% summarise(n = n()) %>%
  ggplot(aes(cut,n)) +
  geom_col(fill='green') +
  geom_text(aes(label = n),vjust = 2, color = 'white') +
  labs(x = 'Kiểu Cắt', y = 'Số lượng')

*Ở biểu đồ trên thì ta gắn x là kiểu cắt, y là số lượng của từng loại.

  • Các số liệu sẽ có màu đỏ và được điều chỉnh ở vị trí dọc cách cột với đơn vị là 2; các cột sẽ có màu xanh lá cây.

  • Qua biểu đồ trên ta thấy loại Fair có số lượng ít nhất và tăng dần theo kiểu cắt Good, Very Good, Premium và kiểu cắt Premium là cố số lượng nhiều nhất.

8. Biểu đồ 8:

Phân loại kim cương theo độ trong suốt và tính trọng lượng trung bình của chúng theo đơn vị carat

hieu %>% group_by(clarity) %>% summarise(m= mean(carat)) %>%
  ggplot(aes(x = clarity,y = m)) +
  geom_col(position = 'dodge') +
  geom_text(aes(label = round(m,5)), vjust = 2, color = 'orange') +
  labs(x = 'độ trong suốt', y = 'trọng lượng trung bình')

  • Ở biểu đồ trên thì ta gắn x là độ trong suốt, y là khối lượng trung bình của từng loại
  • Các số liệu sẽ có màu xanh lá cây, được làm tròn 5 chữ số thập phân và được điều chỉnh ở vị trí dọc cách cột với đơn vị là 2. Và ta thấy được kim cương có độ trong suốt cao nhất là I1, thấp hơn đó là SI2 và giảm dần từ SI1, VS2, VS1, WS2, WS1, và thấp nhất là IF.

9. Biểu đồ 9:

Phân loại kim cương theo kiểu cắt và tính giá trung bình

hieu %>% group_by(cut) %>% summarise(n = mean(price)) %>%
  ggplot(aes(cut,n)) +
  geom_col(fill='lightgreen') +
  geom_text(aes(label = round(n,2)),vjust = 2, color = 'white') +
  labs(x = 'Loại', y = 'Số lượng')

  • Ta gắn x là kiểu cắt, y là số lượng.
  • Các số liệu sẽ có màu đỏ, được làm tròn đến 2 chữ thập phân và được điều chỉnh ở vị trí dọc cách cột với đơn vị là 2; cột biểu đồ có màu xanh lá cây. Qua biểu đồ ta thấy giá trung bình của từng kiểu cắt sẽ tăng dần từ Ideal, Good, Very Good, Fair, Premium.

10. Biểu đồ 10:

Phân loại kim cương theo màu sắc và tính trọng lượng trung bình theo đơn vị carat của từng loại

hieu %>% group_by(color) %>% summarise(m= mean(carat)) %>%
  ggplot(aes(x = color,y = m)) +
  geom_col(position = 'dodge') +
  geom_text(aes(label = round(m,2)), vjust = 2, color = 'white') +
  labs(x = 'Màu', y = 'Trọng lượng trung bình')

  • Ở biểu đồ trên thì ta gắn x là màu sắc, y là trọng lượng trung bình của từng loại
  • Các số liệu sẽ có màu xanh lá cây, được làm tròn 2 chữ số thập phân và được điều chỉnh ở vị trí dọc cách cột với đơn vị là 2. Qua biểu đồ trên ta thấy màu J có trọng lượng trung bình cao nhất là giảm dần từ I, H , G , F, màu D Và E có trọng lượng trung bình thấp nhất.

11. Biểu đồ 11:

Phân loại kim cương theo tổng giá và kiểu cắt

ggplot(diamonds , aes_string(x = "cut", y = "price")) +
  geom_bar(stat = "identity") +
  labs(title = "Giá kim cương theo kiểu cắt",
       x = "Kiểu cắt",
       y = "Giá")
## Warning: `aes_string()` was deprecated in ggplot2 3.0.0.
## ℹ Please use tidy evaluation idioms with `aes()`.
## ℹ See also `vignette("ggplot2-in-packages")` for more information.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

  • Ta thấy giá kim cương sẽ tăng dần từ Fair < Good < Very Good < Premium < Ideal.

12. Biểu đồ 12:

Phân loại kim cương theo độ trong suốt và tính số lượng

hieu %>% group_by(clarity) %>% summarise(n = n()) %>%
  ggplot(aes(x = clarity,y = n)) +
  geom_col(position = 'dodge') +
  geom_text(aes(label = round(n,2)), vjust = 2, color = 'white') +
  labs(x = 'độ trong suốt', y = 'số lượng')

  • Ở biểu đồ trên thì ta gắn x là độ trong suốt, y là số lượng của từng loại
  • Các số liệu sẽ có màu xanh lá cây, được làm tròn 5 chữ số thập phân và được điều chỉnh ở vị trí dọc cách cột với đơn vị là 2. Qua biểu đồ trên ta thấy độ trong suốt có số lượng nhiều nhất là SI1, giảm dần từ VS2 ,SI2, VS1, WS2, WS1, IF và I1 là độ trong suốt có số lượng thấp nhất.

13. Biểu đồ 13:

Phân loại kim cương theo kiểu cắt

hieu %>% ggplot(aes(x = cut)) +
    geom_bar() +
    labs(x = 'Loại', y = 'Số lượng') +
    labs(title = 'Số kim cương theo kiểu cắt(biểu đồ dọc)')

  • Biểu đồ dọc trên cho ta thấy được kiểu Gía của kim cương theo từng kiểu cắt.
  • Ta thấy số kim cương sẽ tăng dần từ Fair < Good < Very Good< Premium < Ideal.

14. Biểu đồ 14:

Thêm 1 cột dữ liêu caratC vào bộ dữ liệu t để đánh giá trọng lượng của các viên kim cương theo mức độ ‘rất nhỏ’ ‘nhỏ’, ‘vừa’ và ‘lớn’

hieu <- hieu %>% mutate(caratC = cut(carat,4, label = c('rất nhỏ', 'nhỏ','vừa','lớn')))
hieu %>% ggplot(aes(x = caratC)) +
  geom_bar(fill = 'orange') +
  labs(x = 'phân loại', y = 'số lượng')

  • Các cột biểu đồ có màu đỏ.

  • Qua biểu đồ trên ta thấy số lượng kim cương có trọng lượng ‘rất nhỏ’ là lớn nhất và giảm dần từ ‘nhỏ’, ‘vừa’ và thấp nhất là loại ‘lớn’.

15. Biểu đồ 15:

Phân loại kim cương theo kiểu cắt và màu sắc sau đó tính số lượng

hieu <- diamonds 
vo <- hieu %>% group_by(cut, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
vo %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = vo %>% filter(color == 'D'), fill = 'pink') +
  geom_col(data = vo %>% filter(color == 'J'), fill = 'white')

  • Ở biểu đồ trên thì ta gắn x là kiểu cắt, y là số lượng của từng loại
  • Ta sẽ lọc các loại kim cương có màu D,cột biểu đồ có màu đỏ và lọc các loại kim cương có màu J, biểu đồ có màu xanh dương.
  • Qua biểu đồ trên ta đã lọc được số lượng kim cương màu D phân bổ ít nhất ở kiểu cắt Fair và tăng dần lên từ Good, Very Good, Premium, và nhiều nhất là Ideal, và số lượng kim cương có màu J cũng phẩn bổ tương tự như kim cương có màu D.

16. Biểu đồ 16:

Tương tự như biểu đồ số 15, lần này thay vì lọc các kim cương có màu ‘D’ VÀ ‘J’ thì ta sẽ lọc các kim cương có màu ‘E’ VÀ ‘H’

hieu <- diamonds 
vo <- hieu %>% group_by(cut, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
vo %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = vo %>% filter(color == 'E'), fill = 'white') +
  geom_col(data = vo %>% filter(color == 'H'), fill = 'darkgreen')

  • Tương tự như biểu đồ số 15, lần này thay vì lọc các kim cương có màu ‘D’ VÀ ‘J’ thì ta sẽ lọc các kim cương có màu ‘E’ VÀ ‘H’.
  • Ở biểu đồ này ta thấy màu E không phân bổ ở loại kim cương có kiểu cắt Fair, Premium, và màu sắc này phân bổ nhiều nhất ở kiểu cắt Ideal giảm dần từ Very Good, Good. Màu H phân bổ ở các kiểu cắt, nhiều nhất là Ideal và giảm dần từ Premium, Very Good, Good và thấp nhất là Fair.

17. Biểu đồ 17:

Thêm 1 cột dữ liêu priceC vào bộ dữ liệu t để đánh giá gía cả của các viên kim cương theo mức độ ‘rất thấp’ ‘thấp’, ‘vừa’, ‘cao’ và ‘rất cao’

hieu <- hieu %>% mutate(priceC = cut(price,5, label = c('rất thấp', 'thấp','vừa','cao','rất cao')))
hieu %>% ggplot(aes(x = priceC)) +
  geom_bar(fill = 'orange') +
  labs(x = 'phân loại', y = 'số lượng')

  • Các cột biểu đồ có màu đỏ. Qua biểu đồ trên ta thấy số lượng kim cương có giá ‘rất thấp’ là lớn nhất và giảm dần từ ‘thấp’, ‘vừa’, ‘cao’ và thấp nhất là loại ‘rất cao’.

18. Biểu đồ 18:

Phân loại kim cương theo kiểu độ trong suốt và màu sắc sau đó tính số lượng

vo <- hieu %>% group_by(clarity, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'clarity'. You can override using the
## `.groups` argument.
vo %>% ggplot(aes(x = clarity, y = n)) +
  geom_col(data = vo %>% filter(color == 'F'), fill = 'gray') +
  geom_col(data = vo %>% filter(color == 'J'), fill = 'blue')

  • Ở biểu đồ trên thì ta gắn x là độ trong suốt, y là số lượng của từng loại.
  • Ta sẽ lọc các loại kim cương có màu ‘F’,cột biểu đồ có màu đỏ và lọc các loại kim cương có màu J, biểu đồ có màu xanh dương.
  • Qua biểu đồ trên ta thấy các màu phân bổ ở tất cả độ trong suốt. Trong đó màu J sẽ phân bổ nhiều nhất ở SI1 rồi giảm dần từ VS2, VS1, SI2, WS2, WS1, IF và thấp nhất là I1. Còn màu F Phân bổ nhiều nhất ở VS2 rồi giảm dần từ SI1, SI2, VS1, WS2, WS1, IF và tháp nhất là I1.

19. Biểu đồ 19:

Phân loại kim cương theo kiểu độ trong suốt và kiểu cắt sau đó tính số lượng

vh <- hieu %>% group_by(clarity, cut) %>% summarise(n = n())
## `summarise()` has grouped output by 'clarity'. You can override using the
## `.groups` argument.
vh %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = vh %>% filter(clarity == 'IF'), fill = 'red') +
  geom_col(data = vh %>% filter(clarity == 'I1'), fill = 'green')

  • Ở biểu đồ trên thì ta gắn x là kiểu cắt, y là số lượng của từng loại
  • Ta lọc các kim cương có độ trong suốt ‘IF’ là các cột màu đỏ, các kim cương có độ trong suốt ‘I1’ là các cột màu xanh. Qua biểu đồ trên ta thấy kim cương có độ trong suốt ‘IF’ chỉ phân bổ ở kiểu cắt Ideal, Very Good, Premium theo số lượng giảm dần.
  • Trong khi đó độ trong suốt I1 phân bổ ở mọi kiểu cắt, nhiều nhất là Premium và giảm dần từ Fair, Idea, Good, thấp nhất là Very Good.

20. Biểu đồ 20:

Biểu đồ thể hiện mối quan hệ giữa trọng lượng và số lượng của các viên kim cương

hieu1 <- hieu %>% mutate(caratC = cut(carat,5, label = c('Rất Nhỏ', 'Nhỏ','Vừa','Lớn','Rất Lớn')))
hieu1 %>% ggplot(aes(x = caratC)) +
  geom_bar(fill = 'darkblue') +
  labs(x = 'Trọng lương', y = 'Số Lượng')

  • Ta gắn x là ‘Loại’, y là ‘Số Lượng’.
  • Tạo ra một biểu đồ thể hiện mối quan hệ giữa trọng lượng các viên kim cương và số lượng của chúng gồm 5 cột màu đỏ. Trục hoành (x) là trọng lượng của các viên kim cương lần lượt là ‘rất nhỏ’, ‘nhỏ’, ‘vừa’, ‘lớn’, ‘rất lớn’. Trục tung(y) là số lượng của các viên kim cương ứng với trọng lượng đó.
  • Qua biểu đồ trên ta thấy trọng lượng của các viên kim cương chiếm đa số (khoảng hơn 40000 viên) là Rất Nhỏ và giảm dần xuống khi đó trọng lượng của các viên kim cương Rất lớn là ít nhất

21. Biểu đồ 21:

Biểu đồ thể hiện 4 đặc tính độ trong của các viên kim cương

hieu2 <- hieu %>% group_by(color, clarity) %>% summarise(n = n())
## `summarise()` has grouped output by 'color'. You can override using the
## `.groups` argument.
  • Tạo ra một biểu đồ gồm 4 cột xanh dương, đỏ, xanh lá, vàng, trục hoành (x) ứng với mức độ tinh khiết của viên kim cương lần lượt là VS1,VS2,VVS2,VVS1, trục tung (y) số lượng của các viên kim cương đó.

  • Theo biểu đồđồ ta thấy là viên kim cương có độ trong VS2 có số lượng nhiều nhất (gần 12500 viên kim cương). Tiếp theo là viên kim cương có độ trong là VS1 (khoảng hơn 7500 viên) và VVS2 (khoảng hơn 5000 viên). Và viên kim cương có độ trong VVS1 chiếm số lượng ít nhất trong 4 loại (khoảng hơn 2500 viên).

22. Biểu đồ 22:

Phân loại kim cương theo trung bình giá thành theo chất lượng cắt (cut)

hieu %>% group_by(cut) %>% summarise(mp= mean(price)) %>%
  ggplot(aes(x = cut,y = mp)) +
    geom_col(position = 'dodge') +
    geom_text(aes(label = round(mp,2)), vjust = 2, color = 'white') +
    labs(x = 'Loại', y = 'Mean Price')

* Theo biểu đồ ta thấy:Loại Fair có mức giá trung bình là 4358.76, Loại Good có mức giá trung bình là 3829.8, Loại Very Good có mức giá trung bình là 3981.76, Loại Premium có mức giá trung bình là 4584.76, Loại Ideal có mức giá trung bình là 3457.54.

23. Biểu đồ 23:

Tương tự như biểu đồ số 18, lần này thay vì lọc các kim cương có màu ‘F’ VÀ ‘J’ thì ta sẽ lọc các kim cương có màu ‘E’ VÀ ‘G’

vo <- hieu %>% group_by(clarity, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'clarity'. You can override using the
## `.groups` argument.
vo %>% ggplot(aes(x = clarity, y = n)) +
  geom_col(data = vo %>% filter(color == 'E'), fill = 'gray') +
  geom_col(data = vo %>% filter(color == 'G'), fill = 'blue')

  • Ở biểu đồ này ta thấy màu E chỉ phân bổ ở loại kim cương độ trong suốt là SI2,VS2 và SI1. Còn kim cương màu G phân bổ ở tất cả độ trong suốt, trong đó nhiều nhất là VS2, giảm dần từ VS1, SI1, SI2, VVS2, VVS1, IF và phân bổ ít nhất ở I1.

24. Biểu đồ 24:

Phân loại rung bình giá kim cương theo màu sắc, kiểu cắt và độ trong suốt

hieu %>%
  group_by(color, cut, clarity) %>%
  summarise(mean_price = mean(price)) %>%
  ggplot(aes(x = color, y = mean_price, fill = interaction(cut, clarity))) +
  geom_bar(stat = "identity", position = "dodge") +
  xlab("Color") +
  ylab("Average Price") +
  ggtitle("Trung bình giá kim cương theo màu sắc, kiểu cắt và độ trong suốt") +
  scale_fill_discrete(name = "Cut & Clarity")
## `summarise()` has grouped output by 'color', 'cut'. You can override using the
## `.groups` argument.

25. Biểu đồ 25:

Phân loại kim cương theo độ trong suốt và tính số lượng của các màu

hieu %>%
  group_by(cut, clarity) %>%
  summarise(count = n()) %>%
  ggplot(aes(x = cut, y = count, fill = clarity)) +
  geom_bar(stat = "identity", position = "dodge") +
  xlab("Cut") +
  ylab("Count") +
  ggtitle("Số lượng kim cương theo kiểu cắt và độ trong suốt") +
  scale_fill_discrete(name = "Clarity")
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

26. Biểu đồ 26:

Tương tự như biểu đồ số 19, lần này thay vì lọc các kim cương có độ trong suốt ‘iF’ VÀ ‘i1’ thì ta sẽ lọc các kim cương có độ trong suốt ‘SI1’ VÀ ‘SI2’

vth <- hieu %>% group_by(clarity, cut) %>% summarise(n = n())
## `summarise()` has grouped output by 'clarity'. You can override using the
## `.groups` argument.
vth %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = vth %>% filter(clarity == 'SI1'), fill = 'red') +
  geom_col(data = vth %>% filter(clarity == 'SI2'), fill = 'green')

  • Ở biểu đồ này ta thấy độ trong suốt SI1 không phân bổ ở loại kim cương có kiểu cắt Fair, phân bố nhiều nhất ở kiểu cắt Ideal giảm dần từ Very Good, Premium và phân bổ ít nhất ở kiểu cắt Good.
  • Kim cương có độ trong suốt SI2 phân bổ ở tất cả kiểu cắt, nhiều nhất ở kiểu cắt Premium giảm dần từ Ideal, Very Good, Good và phân bổ ít nhất ở kiểu cắt Fair.

27. Biểu đồ 27:

Phân loại kim cương theo kiểu cắt và màu sắc sau đó tính số lượng

hieu %>% group_by(cut,color) %>% summarise(n=n()) %>%
  ggplot(aes(x = cut,y = n)) +
    geom_col(position = 'dodge') +
    facet_wrap(~color) +
    labs(x = 'Loại', y = 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

  • Ta gắn x là loại, y la số lượng và ta chia thành 7 biểu đồ theo 7 loại màu sắc để so sánh.
  • Qua 7 biểu đồ ta nhận xét các màu sắc phân bổ nhiều nhất ở kim cương có kiểu cắt Ideal, giảm dần qua các kiểu cắt Premium, Very Good, Good và phân bổ ít nhất ở kiểu cắt Fair.

28. Biểu đồ 28:

Phân loại kim cương theo kiểu cắt và tính trung bình tỷ lệ độ sâu (trung bình z/x)

hieu %>% group_by(cut) %>% summarise(m= mean(depth)) %>%
  ggplot(aes(x = cut,y = m)) +
  geom_col(position = 'dodge') +
  geom_text(aes(label = round(m,2)), vjust = 2, color = 'darkgrey') +
  labs(x = 'Kiểu cắt', y = 'Mean')

***Ta phân loại kim cương theo kiểu cắt và tính trung bình tỷ lệ độ sâu (trung bình z/x). ta gắn x là kiểu cắt, y là trung bình. các số liệu được làm tròn 2 chữ số thập phân, được điều chỉnh ở vị trí cách cột dọc 2 đơn vị và có màu xanh lá cây. Qua biểu đồ trên ta thấy kiểu cắt Fair có độ sâu trung bình lớn nhất, giảm dần từ Good, Very Good, Ideal và thấp nhất là Premium

29. Biểu đồ 29:

Phân loại kim cương theo độ trong suốt

hieu %>% ggplot(aes(x = price)) +
  geom_histogram(binwidth = 500, fill = 'green', color = 'red') +
  labs(x = 'Price', y = 'Số lượng')

  • Ta gắn x là giá của kim cương , y là số lượng. Trục hoành(x) là các mức giá của kim cương và trục tung (y) là số lượng của các viên kim cương tương ứng với các mức giá.
  • Theo đồ thị ta thấy khoảng giá từ 0-5000(USD) có số lượng các viên kim cương nhiều nhất và sô lượng các viên kim cương giảm dần về sau khi mức giá tăng lên đến khoảng gần 200000(USD). ## 30. Biểu đồ 30:

Phân loại kim cương theo màu sắc và tính trung bình tỷ lệ độ sâu của từng loại

hieu %>% group_by(color) %>% summarise(m = mean(depth)) %>%
  ggplot(aes(color,m)) +
  geom_col(fill='lightpink') +
  geom_text(aes(label = round(m,2)),vjust = 2, color = 'lightyellow') +
  labs(x = 'Loại', y = 'Số lượng')

  • Các cột biểu đồ có màu xanh lá cây, các dữ liệu có màu đỏ, được làm tròn đến 2 chữ số thập phân và được điều chỉnh ở vị trí dọc cách cột 2 đơn vị.
  • Qua biểu đồ trên ta thấy các loại màu của kim cương sẽ có xấp xỉ trung bình tỷ lệ độ sâu bằng nhau. Trong đó cao nhất là màu J và thấp nhất là màu E.
---
title: "Nhiệm Vụ 4"
author: "VoHieu"
date: "`r format(Sys.time(), '%H:%M:%S, %d - %m - %Y')`"
output:
  html_document:
    code_download: true
    code_folding: show
    theme: "default"
    toc_depth: 3
    toc_float: true
    toc: true
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
```

## GIỚI THIỆU TỔNG QUAN VỀ BỘ DỮ LIỆU DIAMONDS

```{r}
library(dplyr)
library(tidyverse)
library(ggplot2)
library(scales)
hieu <- diamonds
hieu
```
## Thông tin cơ bản về bộ dữ liệu:
```{r}
dim(hieu)
``` 
* Số lượng: 53.940 viên kim cương

* Biến: 10 đặc tính

* Price: Giá thành của các viên kim cương (USD)

* Carat: Trọng lượng của các viên kim cương (carat)

* Cut: Chất lượng cắt (Khá, Tốt, Rất tốt, Đặc biệt, Lý tưởng)

* Color: Các Màu của viên Kim cương (J - kém nhất, D - tốt nhất)

* Clarity: Độ trong của viên kim cương

* x: Chiều dài (mm)

* y: Chiều rộng (mm)

* z: Độ sâu (mm)

* Depth: Độ sâu vết cắt

* Table: Chiều rộng đỉnh kim cương so với điểm rộng nhất


## 1. Biểu đồ 1:

*Phân loại kim cương theo kiểu cắt*

```{r}
hieu %>% ggplot(aes(x = cut)) +
    geom_bar() +
    labs(x = 'Loại', y = 'Số lượng') +
    coord_flip() +
    labs(title = 'Số kim cương theo kiểu cắt(biểu đồ ngang)')
```
* Biểu đồ ngang trên cho ta thấy được kiểu Gía của kim cương theo từng kiểu cắt. Ta thấy số kim cương sẽ tăng dần từ Fair, Good, Very Good, Premium, Ideal.

## 2. Biểu đồ 2:

 *Phân loại kim cương theo độ trong suốt và tính giá trung bình của từng loại*

```{r}
hieu %>% group_by(clarity) %>% summarise(m= mean(price)) %>%
  ggplot(aes(x = clarity,y = m)) +
  geom_col(position = 'dodge') +  
  geom_text(aes(label = round(m,1)), vjust = 2, color = 'green') +
  labs(x = 'độ trong suốt', y = 'giá')
```

* Ta gắn: x là độ trong suốt, y là giá trung bình của từng loại
 
* Các số liệu sẽ có màu xanh lá cây, được làm tròn 01 chữ số thập phân và được điều chỉnh ở vị trí dọc cách cột với đơn vị là 2. Qua biểu đồ trên ta thấy kim cương có độ trong suốt SI2 là có giá trung bình cao nhất, tiếp đến là SI2, thấp hơn nữa lần lượt là VS2, I1, VS1, WS2, IF và thấp nhất là Ws1.


## 3. Biểu đồ 3:

*Phân loại kim cương theo màu sắc và tính số lượng của từng màu sắc*

```{r}
hieu %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(color,n)) +
    geom_col(fill='red') +
    geom_text(aes(label = n),vjust = 2, color = 'black') +
    xlab('Color') +
    ylab('Số lượng') +
    labs(title ='Số lượng kim cương theo màu sắc')
```

* x là màu sắc của kim cương
* y là số lượng của từng loại màu sắc. 
* Các số liệu có màu đen, được điều chỉnh ở vị trí dọc cách cột 2 đơn vị. Màu của các cột là màu đỏ  . Qua biểu đồ trên ta thấy được nhiều nhất là màu G với 11292 viên, tiếp đến là E với 9797 viên, F với 9542 viên, H với 8304 viên,D với 6775 viên, I với 5422 viên và ít nhất là màu J với 2808 viên.

## 4.Biểu đồ 4:

 *Phân loại kim cương theo trọng lượng carat ở các mốc 0.5, 1.0, 1.5, 2.0 và tính số lượng của từng mốc khối lượng*
 
```{r}
hieu %>% group_by(carat) %>% filter(carat == 0.5 | carat == 1.00 | carat == 1.5 | carat == 2.05) %>% summarise(n = n()) %>%
  ggplot(aes(carat,n)) +
    geom_col(fill='purple') +
     geom_text(aes(label = n),vjust = 2, color = 'white') +
    xlab('Carat') +
    ylab('Số lượng')
```
 *Ta gắn: x là carat và y là số lượng từng mốc carat. 
 *Các cột biểu đồ có màu xanh lá cây, các số liệu có màu trắng, được điều chỉnh ở vị trí dọc cách cột 2 đơn vị . Qua biểu đồ trên ta thấy được số kim cương có trọng lượng 1.0 carat là nhiều nhất và thấp nhất là 2.0.

## 5. Biểu đồ 5:

*Phân loại kiểu cắt kim cương và tính trọng lượng trung bình (carat)*

```{r}
hieu %>% group_by(cut) %>% summarise(m= mean(carat)) %>%
  ggplot(aes(x = cut,y = m)) +
  geom_col(position = 'dodge') +
  geom_text(aes(label = round(m,2)), vjust = 2, color = 'yellow') +
  labs(x = 'Kiểu cắt', y = 'Trọng lượng trung bình')
```

* Ta gắn: x là kiểu cắt, y là trọng lượng trung bình.

* Các số liệu sẽ có màu đỏ, được làm tròn đến 2 chữ thập phân và được điều chỉnh ở vị trí dọc cách cột với đơn vị là 2. Qua biểu đồ ta thấy được trọng lương trung bình của kim cương tăng từ Ideal(0.7 carat) < Very Good(0.81 carat) < Good(0.85 carat) < Premium(0.89 carat) < Fair(1.05 carat).


## 6. Biểu đồ 6:

*Phân loại kim cương theo màu sắc và tính giá trung bình của từng loại*

```{r}
hieu %>% group_by(color) %>% summarise(m= mean(price)) %>%
  ggplot(aes(x = color,y = m)) +
  geom_col(position = 'dodge') +
  geom_text(aes(label = round(m,0)), vjust = 2, color = 'white') +
  labs(x = 'màu sắc', y = 'Gía trung bình')
```

* Ở biểu đồ trên thì ta gắn: x là màu sắc, y là giá trung bình của từng loại
* Các số liệu sẽ có màu xanh lá cây, được làm tròn 0 chữ số thập phân và được điều chỉnh ở vị trí dọc cách cột với đơn vị là 2. Qua biểu đồ trên .
* Ta thấy màu J có giá trung bình cao nhất và giảm dần từ I, H, G, F, D và thấp nhất là màu D VỚI 3170 Đơn vị giá.

## 7. Biểu đồ 7:

*Phân loại kim cương theo kiểu cắt và tính số lượng của từng màu*

```{r}
hieu %>% group_by(cut) %>% summarise(n = n()) %>%
  ggplot(aes(cut,n)) +
  geom_col(fill='green') +
  geom_text(aes(label = n),vjust = 2, color = 'white') +
  labs(x = 'Kiểu Cắt', y = 'Số lượng')
```

*Ở biểu đồ trên thì ta gắn x là kiểu cắt, y là số lượng của từng loại.

* Các số liệu sẽ có màu đỏ và được điều chỉnh ở vị trí dọc cách cột với đơn vị là 2; các cột sẽ có màu xanh lá cây. 

* Qua biểu đồ trên ta thấy loại Fair có số lượng ít nhất và tăng dần theo kiểu cắt Good, Very Good, Premium và kiểu cắt Premium là cố số lượng nhiều nhất.


## 8. Biểu đồ 8:

*Phân loại kim cương theo độ trong suốt và tính trọng lượng trung bình của chúng theo đơn vị carat*

```{r}
hieu %>% group_by(clarity) %>% summarise(m= mean(carat)) %>%
  ggplot(aes(x = clarity,y = m)) +
  geom_col(position = 'dodge') +
  geom_text(aes(label = round(m,5)), vjust = 2, color = 'orange') +
  labs(x = 'độ trong suốt', y = 'trọng lượng trung bình')
```

* Ở biểu đồ trên thì ta gắn x là độ trong suốt, y là khối lượng trung bình của từng loại
* Các số liệu sẽ có màu xanh lá cây, được làm tròn 5 chữ số thập phân và được điều chỉnh ở vị trí dọc cách cột với đơn vị là 2. Và ta thấy được kim cương có độ trong suốt cao nhất là I1, thấp hơn đó là SI2 và giảm dần từ SI1, VS2, VS1, WS2, WS1, và thấp nhất là IF.

## 9. Biểu đồ 9:

*Phân loại kim cương theo kiểu cắt và tính giá trung bình*

```{r}
hieu %>% group_by(cut) %>% summarise(n = mean(price)) %>%
  ggplot(aes(cut,n)) +
  geom_col(fill='lightgreen') +
  geom_text(aes(label = round(n,2)),vjust = 2, color = 'white') +
  labs(x = 'Loại', y = 'Số lượng')
```

* Ta gắn x là kiểu cắt, y là số lượng.
* Các số liệu sẽ có màu đỏ, được làm tròn đến 2 chữ thập phân và được điều chỉnh ở vị trí dọc cách cột với đơn vị là 2; cột biểu đồ có màu xanh lá cây. Qua biểu đồ ta thấy giá trung bình của từng kiểu cắt sẽ tăng dần từ Ideal, Good, Very Good, Fair, Premium.


## 10. Biểu đồ 10:

*Phân loại kim cương theo màu sắc và tính trọng lượng trung bình theo đơn vị carat của từng loại*

```{r}
hieu %>% group_by(color) %>% summarise(m= mean(carat)) %>%
  ggplot(aes(x = color,y = m)) +
  geom_col(position = 'dodge') +
  geom_text(aes(label = round(m,2)), vjust = 2, color = 'white') +
  labs(x = 'Màu', y = 'Trọng lượng trung bình')
```

* Ở biểu đồ trên thì ta gắn x là màu sắc, y là trọng lượng trung bình của từng loại
* Các số liệu sẽ có màu xanh lá cây, được làm tròn 2 chữ số thập phân và được điều chỉnh ở vị trí dọc cách cột với đơn vị là 2. Qua biểu đồ trên ta thấy màu J có trọng lượng trung bình cao nhất là giảm dần từ I, H , G , F, màu D Và E có trọng lượng trung bình thấp nhất.

## 11. Biểu đồ 11:

*Phân loại kim cương theo tổng giá và kiểu cắt*

```{r}
ggplot(diamonds , aes_string(x = "cut", y = "price")) +
  geom_bar(stat = "identity") +
  labs(title = "Giá kim cương theo kiểu cắt",
       x = "Kiểu cắt",
       y = "Giá")
```

*  Ta thấy giá kim cương sẽ tăng dần từ Fair < Good < Very Good < Premium < Ideal.


## 12. Biểu đồ 12:

*Phân loại kim cương theo độ trong suốt và tính số lượng *

```{r}
hieu %>% group_by(clarity) %>% summarise(n = n()) %>%
  ggplot(aes(x = clarity,y = n)) +
  geom_col(position = 'dodge') +
  geom_text(aes(label = round(n,2)), vjust = 2, color = 'white') +
  labs(x = 'độ trong suốt', y = 'số lượng')
```

* Ở biểu đồ trên thì ta gắn x là độ trong suốt, y là số lượng của từng loại
* Các số liệu sẽ có màu xanh lá cây, được làm tròn 5 chữ số thập phân và được điều chỉnh ở vị trí dọc cách cột với đơn vị là 2. Qua biểu đồ trên ta thấy độ trong suốt có số lượng nhiều nhất là SI1, giảm dần từ VS2 ,SI2, VS1, WS2, WS1, IF và I1 là độ trong suốt có số lượng thấp nhất.


## 13. Biểu đồ 13:

*Phân loại kim cương theo kiểu cắt*

```{r}
hieu %>% ggplot(aes(x = cut)) +
    geom_bar() +
    labs(x = 'Loại', y = 'Số lượng') +
    labs(title = 'Số kim cương theo kiểu cắt(biểu đồ dọc)')
```

* Biểu đồ dọc trên cho ta thấy được kiểu Gía của kim cương theo từng kiểu cắt.
* Ta thấy số kim cương sẽ tăng dần từ Fair < Good < Very Good< Premium < Ideal.


## 14. Biểu đồ 14:

*Thêm 1 cột dữ liêu caratC vào bộ dữ liệu t để đánh giá trọng lượng của các viên kim cương theo mức độ 'rất nhỏ' 'nhỏ', 'vừa' và 'lớn'*

```{r}
hieu <- hieu %>% mutate(caratC = cut(carat,4, label = c('rất nhỏ', 'nhỏ','vừa','lớn')))
hieu %>% ggplot(aes(x = caratC)) +
  geom_bar(fill = 'orange') +
  labs(x = 'phân loại', y = 'số lượng')
```

* Các cột biểu đồ có màu đỏ.

* Qua biểu đồ trên ta thấy số lượng kim cương có trọng lượng 'rất nhỏ' là lớn nhất và giảm dần từ 'nhỏ', 'vừa' và thấp nhất là loại 'lớn'.

## 15. Biểu đồ 15:

*Phân loại kim cương theo kiểu cắt và màu sắc sau đó tính số lượng*

```{r}
hieu <- diamonds 
vo <- hieu %>% group_by(cut, color) %>% summarise(n = n())
vo %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = vo %>% filter(color == 'D'), fill = 'pink') +
  geom_col(data = vo %>% filter(color == 'J'), fill = 'white')
```

* Ở biểu đồ trên thì ta gắn x là kiểu cắt, y là số lượng của từng loại
* Ta sẽ lọc các loại kim cương có màu D,cột biểu đồ có màu đỏ và lọc các loại kim cương có màu J, biểu đồ có màu xanh dương. 
* Qua biểu đồ trên ta đã lọc được số lượng kim cương màu D phân bổ ít nhất ở kiểu cắt Fair và tăng dần lên từ Good, Very Good, Premium, và nhiều nhất là Ideal, và số lượng kim cương có màu J cũng phẩn bổ tương tự như kim cương có màu D.


## 16. Biểu đồ 16:

*Tương tự như biểu đồ số 15, lần này thay vì lọc các kim cương có màu 'D' VÀ 'J' thì ta sẽ lọc các kim cương có màu 'E' VÀ 'H'*

```{r}
hieu <- diamonds 
vo <- hieu %>% group_by(cut, color) %>% summarise(n = n())
vo %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = vo %>% filter(color == 'E'), fill = 'white') +
  geom_col(data = vo %>% filter(color == 'H'), fill = 'darkgreen')

```

* Tương tự như biểu đồ số 15, lần này thay vì lọc các kim cương có màu 'D' VÀ 'J' thì ta sẽ lọc các kim cương có màu 'E' VÀ 'H'. 
* Ở biểu đồ này ta thấy màu E không phân bổ ở loại kim cương có kiểu cắt Fair, Premium, và màu sắc này phân bổ nhiều nhất ở kiểu cắt Ideal giảm dần từ Very Good, Good. Màu H phân bổ ở các kiểu cắt, nhiều nhất là Ideal và giảm dần từ Premium, Very Good, Good và thấp nhất là Fair.


## 17. Biểu đồ 17:

*Thêm 1 cột dữ liêu priceC vào bộ dữ liệu t để đánh giá gía cả của các viên kim cương theo mức độ 'rất thấp' 'thấp', 'vừa', 'cao' và 'rất cao'*

```{r}
hieu <- hieu %>% mutate(priceC = cut(price,5, label = c('rất thấp', 'thấp','vừa','cao','rất cao')))
hieu %>% ggplot(aes(x = priceC)) +
  geom_bar(fill = 'orange') +
  labs(x = 'phân loại', y = 'số lượng')
```

* Các cột biểu đồ có màu đỏ. Qua biểu đồ trên ta thấy số lượng kim cương có giá 'rất thấp' là lớn nhất và giảm dần từ 'thấp', 'vừa', 'cao' và thấp nhất là loại 'rất cao'.



## 18. Biểu đồ 18:

*Phân loại kim cương theo kiểu độ trong suốt và màu sắc sau đó tính số lượng*

```{r}
vo <- hieu %>% group_by(clarity, color) %>% summarise(n = n())
vo %>% ggplot(aes(x = clarity, y = n)) +
  geom_col(data = vo %>% filter(color == 'F'), fill = 'gray') +
  geom_col(data = vo %>% filter(color == 'J'), fill = 'blue')

```

* Ở biểu đồ trên thì ta gắn x là độ trong suốt, y là số lượng của từng loại.
* Ta sẽ lọc các loại kim cương có màu 'F',cột biểu đồ có màu đỏ và lọc các loại kim cương có màu J, biểu đồ có màu xanh dương. 
* Qua biểu đồ trên ta thấy các màu phân bổ ở tất cả độ trong suốt. Trong đó màu J sẽ phân bổ nhiều nhất ở SI1 rồi giảm dần từ VS2, VS1, SI2, WS2, WS1, IF và thấp nhất là I1. Còn màu F Phân bổ nhiều nhất ở VS2 rồi giảm dần từ SI1, SI2, VS1, WS2, WS1, IF và tháp nhất là I1.


## 19. Biểu đồ 19:

 *Phân loại kim cương theo kiểu độ trong suốt và kiểu cắt sau đó tính số lượng*

```{r}

vh <- hieu %>% group_by(clarity, cut) %>% summarise(n = n())
vh %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = vh %>% filter(clarity == 'IF'), fill = 'red') +
  geom_col(data = vh %>% filter(clarity == 'I1'), fill = 'green')
```

* Ở biểu đồ trên thì ta gắn x là kiểu cắt, y là số lượng của từng loại
* Ta lọc các kim cương có độ trong suốt 'IF' là các cột màu đỏ, các kim cương có độ trong suốt 'I1' là các cột màu xanh. Qua biểu đồ trên ta thấy kim cương có độ trong suốt 'IF' chỉ phân bổ ở kiểu cắt Ideal, Very Good, Premium theo số lượng giảm dần. 
* Trong khi đó độ trong suốt I1 phân bổ ở mọi kiểu cắt, nhiều nhất là Premium và giảm dần từ Fair, Idea, Good, thấp nhất là Very Good.



##  20. Biểu đồ 20:

*Biểu đồ thể hiện mối quan hệ giữa trọng lượng và số lượng của các viên kim cương*


```{r}
hieu1 <- hieu %>% mutate(caratC = cut(carat,5, label = c('Rất Nhỏ', 'Nhỏ','Vừa','Lớn','Rất Lớn')))
hieu1 %>% ggplot(aes(x = caratC)) +
  geom_bar(fill = 'darkblue') +
  labs(x = 'Trọng lương', y = 'Số Lượng')
```

* Ta gắn x là 'Loại', y là 'Số Lượng'. 
* Tạo ra một biểu đồ thể hiện mối quan hệ giữa trọng lượng các viên kim cương và số lượng của chúng gồm 5 cột màu đỏ. Trục hoành (x) là trọng lượng của các viên kim cương lần lượt là ‘rất nhỏ’, ‘nhỏ’, ‘vừa’, ‘lớn’, ‘rất lớn’. Trục tung(y) là số lượng của các viên kim cương ứng với trọng lượng đó.
* Qua biểu đồ trên ta thấy trọng lượng của các viên kim cương chiếm đa số (khoảng hơn 40000 viên) là Rất Nhỏ và giảm dần xuống khi đó trọng lượng của các viên kim cương Rất lớn là ít nhất


## 21. Biểu đồ 21:

 *Biểu đồ thể hiện 4 đặc tính độ trong của các viên kim cương*
 
```{r echo=TRUE, warning=FALSE}
hieu2 <- hieu %>% group_by(color, clarity) %>% summarise(n = n())
```

* Tạo ra một biểu đồ gồm 4 cột xanh dương, đỏ, xanh lá, vàng, trục hoành (x) ứng với mức độ tinh khiết của viên kim cương lần lượt là VS1,VS2,VVS2,VVS1, trục tung (y) số lượng của các viên kim cương đó.

* Theo biểu đồđồ ta thấy là viên kim cương có độ trong VS2 có số lượng nhiều nhất (gần 12500 viên kim cương). Tiếp theo là viên kim cương có độ trong là VS1 (khoảng hơn 7500 viên) và VVS2 (khoảng hơn 5000 viên). Và viên kim cương có độ trong VVS1 chiếm số lượng ít nhất trong 4 loại (khoảng hơn 2500 viên).

## 22. Biểu đồ 22:

*Phân loại kim cương theo trung bình giá thành theo chất lượng cắt (cut)*

```{r}
hieu %>% group_by(cut) %>% summarise(mp= mean(price)) %>%
  ggplot(aes(x = cut,y = mp)) +
    geom_col(position = 'dodge') +
    geom_text(aes(label = round(mp,2)), vjust = 2, color = 'white') +
    labs(x = 'Loại', y = 'Mean Price')

```
* Theo biểu đồ ta thấy:Loại Fair có mức giá trung bình là 4358.76, Loại Good có mức giá trung bình là 3829.8, Loại Very Good có mức giá trung bình là 3981.76, Loại Premium có mức giá trung bình là 4584.76, Loại Ideal có mức giá trung bình là 3457.54.

## 23. Biểu đồ 23:

*Tương tự như biểu đồ số 18, lần này thay vì lọc các kim cương có màu 'F' VÀ 'J' thì ta sẽ lọc các kim cương có màu 'E' VÀ 'G'*

```{r}
vo <- hieu %>% group_by(clarity, color) %>% summarise(n = n())
vo %>% ggplot(aes(x = clarity, y = n)) +
  geom_col(data = vo %>% filter(color == 'E'), fill = 'gray') +
  geom_col(data = vo %>% filter(color == 'G'), fill = 'blue')
```

* Ở biểu đồ này ta thấy màu E chỉ phân bổ ở loại kim cương độ trong suốt là SI2,VS2 và SI1. Còn kim cương màu G phân bổ ở tất cả độ trong suốt, trong đó nhiều nhất là VS2, giảm dần từ VS1, SI1, SI2, VVS2, VVS1, IF và phân bổ ít nhất ở I1.


## 24. Biểu đồ 24:

*Phân loại rung bình giá kim cương theo màu sắc, kiểu cắt và độ trong suốt*

```{r}
hieu %>%
  group_by(color, cut, clarity) %>%
  summarise(mean_price = mean(price)) %>%
  ggplot(aes(x = color, y = mean_price, fill = interaction(cut, clarity))) +
  geom_bar(stat = "identity", position = "dodge") +
  xlab("Color") +
  ylab("Average Price") +
  ggtitle("Trung bình giá kim cương theo màu sắc, kiểu cắt và độ trong suốt") +
  scale_fill_discrete(name = "Cut & Clarity")
```

## 25. Biểu đồ 25:

*Phân loại kim cương theo độ trong suốt và tính số lượng của các màu*

```{r}
hieu %>%
  group_by(cut, clarity) %>%
  summarise(count = n()) %>%
  ggplot(aes(x = cut, y = count, fill = clarity)) +
  geom_bar(stat = "identity", position = "dodge") +
  xlab("Cut") +
  ylab("Count") +
  ggtitle("Số lượng kim cương theo kiểu cắt và độ trong suốt") +
  scale_fill_discrete(name = "Clarity")
```

## 26. Biểu đồ 26:

*Tương tự như biểu đồ số 19, lần này thay vì lọc các kim cương có độ trong suốt 'iF' VÀ 'i1' thì ta sẽ lọc các kim cương có độ trong suốt 'SI1' VÀ 'SI2'*

```{r}
vth <- hieu %>% group_by(clarity, cut) %>% summarise(n = n())
vth %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = vth %>% filter(clarity == 'SI1'), fill = 'red') +
  geom_col(data = vth %>% filter(clarity == 'SI2'), fill = 'green')

```

* Ở biểu đồ này ta thấy độ trong suốt SI1 không phân bổ ở loại kim cương có kiểu cắt Fair, phân bố nhiều nhất ở kiểu cắt Ideal giảm dần từ Very Good, Premium và phân bổ ít nhất ở kiểu cắt Good. 
* Kim cương có độ trong suốt SI2 phân bổ ở tất cả kiểu cắt, nhiều nhất ở kiểu cắt Premium giảm dần từ Ideal, Very Good, Good và phân bổ ít nhất ở kiểu cắt Fair.


## 27. Biểu đồ 27:

*Phân loại kim cương theo kiểu cắt và màu sắc sau đó tính số lượng*

```{r}
hieu %>% group_by(cut,color) %>% summarise(n=n()) %>%
  ggplot(aes(x = cut,y = n)) +
    geom_col(position = 'dodge') +
    facet_wrap(~color) +
    labs(x = 'Loại', y = 'Số lượng')
```

* Ta gắn x là loại, y la số lượng và ta chia thành 7 biểu đồ theo 7 loại màu sắc để so sánh.  
* Qua 7 biểu đồ ta nhận xét các màu sắc phân bổ nhiều nhất ở kim cương có kiểu cắt Ideal, giảm dần qua các kiểu cắt Premium, Very Good, Good và phân bổ ít nhất ở kiểu cắt Fair.

## 28. Biểu đồ 28:

*Phân loại kim cương theo kiểu cắt và tính trung bình tỷ lệ độ sâu (trung bình z/x)*

```{r}
hieu %>% group_by(cut) %>% summarise(m= mean(depth)) %>%
  ggplot(aes(x = cut,y = m)) +
  geom_col(position = 'dodge') +
  geom_text(aes(label = round(m,2)), vjust = 2, color = 'darkgrey') +
  labs(x = 'Kiểu cắt', y = 'Mean')
```

***Ta phân loại kim cương theo kiểu cắt và tính trung bình tỷ lệ độ sâu (trung bình z/x). ta gắn x là kiểu cắt, y là trung bình. các số liệu được làm tròn 2 chữ số thập phân, được điều chỉnh ở vị trí cách cột dọc 2 đơn vị và có màu xanh lá cây. Qua biểu đồ trên ta thấy kiểu cắt Fair có độ sâu trung bình lớn nhất, giảm dần từ Good, Very Good, Ideal và thấp nhất là Premium

## 29.  Biểu đồ 29:

*Phân loại kim cương theo độ trong suốt*

```{r}
hieu %>% ggplot(aes(x = price)) +
  geom_histogram(binwidth = 500, fill = 'green', color = 'red') +
  labs(x = 'Price', y = 'Số lượng')
```

* Ta gắn x là giá của kim cương , y là số lượng. Trục hoành(x) là các mức giá của kim cương và trục tung (y) là số lượng của các viên kim cương tương ứng với các mức giá.
* Theo đồ thị ta thấy khoảng giá từ 0-5000(USD) có số lượng các viên kim cương nhiều nhất và sô lượng các viên kim cương giảm dần về sau khi mức giá tăng lên đến khoảng gần 200000(USD).
## 30. Biểu đồ 30:

*Phân loại kim cương theo màu sắc và tính trung bình tỷ lệ độ sâu của từng loại*

```{r}
hieu %>% group_by(color) %>% summarise(m = mean(depth)) %>%
  ggplot(aes(color,m)) +
  geom_col(fill='lightpink') +
  geom_text(aes(label = round(m,2)),vjust = 2, color = 'lightyellow') +
  labs(x = 'Loại', y = 'Số lượng')
```

* Các cột biểu đồ có màu xanh lá cây, các dữ liệu có màu đỏ, được làm tròn đến 2 chữ số thập phân và được điều chỉnh ở vị trí dọc cách cột 2 đơn vị. 
* Qua biểu đồ trên ta thấy các loại màu của kim cương sẽ có xấp xỉ trung bình tỷ lệ độ sâu bằng nhau. Trong đó cao nhất là màu J và thấp nhất là màu E.


