“23:23:53, 02 - 03 - 2024”

#ĐỒ THỊ DẠNG BAR CHART CHO BỘ DỮ LIỆU DIAMOND

library(datasets)
data(package = 'datasets')
library(ggplot2)
data(package = 'ggplot2')
dq <- diamonds

#Đồ Thị Số 1

library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ lubridate 1.9.3     ✔ tibble    3.2.1
## ✔ purrr     1.0.2     ✔ tidyr     1.3.0
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(scales)
## 
## Attaching package: 'scales'
## 
## The following object is masked from 'package:purrr':
## 
##     discard
## 
## The following object is masked from 'package:readr':
## 
##     col_factor
dq <- diamonds
dq %>% ggplot(aes(x = cut)) +
    geom_bar() +
    labs(x = 'Loại', y = 'Số lượng')

- Ta phân loại kim cương theo kiểu cắt, có Fair; Good; Very Good; Premium; Ideal
- Gán cho trục x nhãn là " Loại ", gán cho trục y nhãn là "Số lượng"
=> Loại "Ideal" có số lượng nhiều nhất, trên 20000
=> Loại " Fair " có số lượng ít nhất, dưới 5000
=> Loại " Good " có số lượng là 5000

#Đồ Thị Số 2

library(tidyverse)
library(scales)
dq <- diamonds
dq %>% ggplot(aes(x = color)) +
    geom_bar() +
    labs(x = 'Màu sắc', y = 'Số lượng')

- Ta phân loại kim cương theo màu sắc, có D, E, F, G, H, I ,J
- Gán cho trục x nhãn là " Màu sắc ", gán cho trục y nhãn là "Số lượng"
=> Màu "G" có số lượng nhiều nhất
=> Màu " J " có số lượng ít nhấT
=> Màu " E " và màu "F" có số lượng gần bằng nhau

#Đồ Thị Số 3

library(tidyverse)
library(scales)
dq <- diamonds
dq %>% ggplot(aes(x = clarity)) +
    geom_bar() +
    labs(x = 'Độ tinh khiết', y = 'Số lượng')

- Ta phân loại kim cương theo độ tinh khiết, có I1, SI1, SI2, VS1,VS2,VVS1,VVS2,IF
- Gán cho trục x nhãn là " Độ tinh khiết ", gán cho trục y nhãn là "Số lượng"
=> Loại "SI1" có số lượng nhiều nhất
=> Loại " I1 " có số lượng ít nhấT

#Đồ Thị Số 4

 dq <- diamonds
dq %>% ggplot(aes(x = cut)) +
    geom_bar() +
    labs(x = 'Loại', y = 'Số lượng') +
    coord_flip()  

  • Phân loại kim cương theo kiểu cắt
  • Đồ thị xoay ngang cho ta thấy số lượng kim cương từng loại giảm dần từ Ideal -> Premium -> Very Good -> Good -> Fair

#Đồ Thị Số 5

dq <- diamonds
dq %>% ggplot(aes(x = color)) +
    geom_bar() +
    labs(x = 'Màu sắc', y = 'Số lượng') +
coord_flip()

  • Phân loại kim cương theo màu sắc
  • Đồ thị xoay ngang cho ta thấy số lượng kim cương từng loại tăng dần từ màu J -> I -> H -> G; sau đó giảm xuống F rồi tăng lên E rồi giảm về D

#Đồ thị số 6

    dq <- diamonds
dq %>% ggplot(aes(x = clarity)) +
    geom_bar() +
    labs(x = 'Độ tinh khiết', y = 'Số lượng') +
  coord_flip()

  • Phân loại kim cương theo độ tinh khiết
  • Đồ thị xoay ngang cho ta thấy số lượng kim cương từng loại tăng dần từ IF -> VVS1 -> VVS2 -> VS1 -> VS2 -> SI1; sau đó giảm dần từ SI1 -> SI2 -> I1

#Đồ thị số 7

    dq %>% group_by(cut) %>% summarise(n = n()) %>%
  ggplot(aes(cut,n)) +
    geom_col(fill='skyblue') +
    geom_text(aes(label = n),vjust = 2, color = 'red') +
    labs(x = 'Loại', y = 'Số lượng')

- Ta Phân loại kim cương theo từng loại và tính số lượng của từng loại. x là loại của kim cương, y là số lượng của từng loại.
- Các số liệu có màu đỏ, được điều chỉnh ở vị trí dọc cách cột 2 đơn vị. Màu của các cột là màu xanh da trời.
- Qua biểu đồ trên ta thấy được nhiều nhất là loại Ideal với 21551 viên, tiếp đến là Premium với 13791 viên
- Very Good với 12082 viên, Good với 4906 viên,Fair với 1610 viên

#Đồ thị số 8

 dq %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(color,n)) +
    geom_col(fill='turquoise') +
    geom_text(aes(label = n),vjust = 2, color = 'red') +
    labs(x = 'Màu sắc', y = 'Số lượng')

  • Ta Phân loại kim cương theo màu sắc và tính số lượng của từng màu sắc.
  • x là màu sắc của kim cương, y là số lượng của từng loại màu sắc.
  • Các số liệu có màu đỏ, được điều chỉnh ở vị trí dọc cách cột 2 đơn vị. Màu của các cột là xanh ngọc.
  • Qua biểu đồ trên ta thấy được nhiều nhất là màu G với 11292 viên, tiếp đến là E với 9797 viên
  • F với 9542 viên, H với 8304 viên,D với 6775 viên
  • I với 5422 viên và ít nhất là màu J với 2808 viên

#Đồ thị số 9

dq %>% group_by(clarity) %>% summarise(n = n()) %>%
  ggplot(aes(clarity,n)) +
    geom_col(fill='green') +
    geom_text(aes(label = n),vjust = 2, color = 'red') +
    labs(x = 'Độ tinh khiết', y = 'Số lượng')

  • Ta Phân loại kim cương theo độ tinh khiết và tính số lượng của từng loại.
  • x là độ tinh khiết của kim cương, y là số lượng của từng loại.
  • Các số liệu có màu đỏ, được điều chỉnh ở vị trí dọc cách cột 2 đơn vị. Màu của các cột là xanh lá cây.
  • Qua biểu đồ trên ta thấy được nhiều nhất là loại SI1 với 13065 viên, tiếp đến là VS2 với 12258 viên
  • SI2 với 9194 viên, VS1 với 8171 viên,VVS2 với 5066 viên
  • VVS1 với 3655 viên, IF với 1790 viên và ít nhất là I1 với 741 viên

#Đồ thị số 10

    dq %>% group_by(cut) %>% summarise(n = n()) %>%
  ggplot(aes(cut,n)) +
    geom_col(fill='green') +
    geom_text(aes(label = percent(n/length(dq$carat))),vjust = 2, color = 'red') +
    labs(x = 'Loại', y = 'Số lượng')

- Ta Phân loại kim cương theo từng loại và tính phần trăm số lượng của từng loại. x là loại của kim cương, y là số lượng của từng loại.
- Các số liệu có màu đỏ, được điều chỉnh ở vị trí dọc cách cột 2 đơn vị. Màu của các cột là màu xanh lá cây.
- Qua biểu đồ trên ta thấy được nhiều nhất là loại Ideal với 40.0%, tiếp đến là Premium với 25.6%
- Very Good với 22.4%, Good với 9.1% ,Fair với 3.0%

#Đồ thị số 11

    dq %>% group_by(cut,color) %>% summarise(n=n()) %>%
  ggplot(aes(x = cut,y = n)) +
    geom_col(position = 'dodge') +
    facet_wrap(~color) +
    labs(x = 'Loại', y = 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

  • Ta phân nhóm kim cương theo kiểu cắt và màu sắc sau đó tính số lượng.
  • Ta gắn x là loại, y la số lượng
  • Chia thành 7 biểu đồ theo 7 loại màu sắc để so sánh.
  • Qua 7 biểu đồ ta nhận xét các màu sắc phân bổ nhiều nhất ở kim cương có kiểu cắt Ideal, giảm dần qua các kiểu cắt Premium, Very Good, Good và phân bổ ít nhất ở kiểu cắt Fair

#Đồ thị số 12

    dq <- diamonds
  dq %>% group_by(cut,color) %>% summarise(n=n()) %>%
  ggplot(aes(x = cut,y = n)) +
    geom_col(position = 'dodge') +
    facet_wrap(~color) +
    geom_text(aes(label = n),vjust = 2, color = 'green') +
    labs(x = 'Loại', y = 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

  • Ta phân nhóm kim cương theo kiểu cắt và màu sắc sau đó tính số lượng.
  • Ta gắn x là loại, y la số lượng
  • Các số liệu có màu xanh lá, được điều chỉnh ở vị trí dọc cách cột 2 đơn vị.
  • Chia thành 7 biểu đồ theo 7 loại màu sắc để so sánh.
  • Qua 7 biểu đồ ta nhận xét các màu sắc phân bổ nhiều nhất ở kim cương có kiểu cắt Ideal, giảm dần qua các kiểu cắt Premium, Very Good, Good và phân bổ ít nhất ở kiểu cắt Fair

#Đồ thị số 13

dq <- diamonds
dq %>% group_by(cut,color) %>% summarise(m = mean(price)) %>%
  ggplot(aes(x = cut,y = m)) +
    geom_col(position = 'dodge') +
    facet_wrap(~color) +
    geom_text(aes(label = round(m))) +
    labs(x = 'cut', y = 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

  • Ta phân nhóm kim cương theo kiểu cắt và màu sắc sau đó tính trung bình về giá của từng loại.
  • Ta gắn x là loại, y la số lượng
  • Chia thành 7 biểu đồ theo 7 loại màu sắc để so sánh.
  • Qua 7 biểu đồ ta nhận xét giá trung bình của loại ‘Premium’ là cao nhất ờ hầu hết các màu trừ màu G và màu H
  • Gía trung bình của loại ‘Ideal’ là thấp nhất ở các màu trừ màu J

#Đồ thị số 14

dq <- diamonds
dq <- dq %>% group_by(cut, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
dq %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = dq %>% filter(color == 'E'), fill = 'purple') +
  geom_col(data = dq %>% filter(color == 'H'), fill = 'turquoise')

  • Ta phân loại kim cương theo kiểu cắt và màu sắc sau đó tính số lượng .
  • Ở biểu đồ trên thì ta gắn x là kiểu cắt, y là số lượng của từng loại;
  • Ta sẽ lọc các loại kim cương có màu E,cột biểu đồ có màu tím và lọc các loại kim cương có màu H, biểu đồ có màu xanh ngọc.
  • Qua biểu đồ trên ta đã lọc được số lượng kim cương màu H phân bổ ít nhất ở kiểu cắt Fair và tăng dần lên từ Good, Very Good, Premium, và nhiều nhất là Ideal. Và số lượng kim cương có màu E phân bổ ở 3 loại nhiều nhất là loại ’ Ideal’ sau đó là ‘Very Good’ và ít nhất là ‘Good’

#Đồ thị số 15

dq <- diamonds
dq <- dq %>% group_by(cut, clarity) %>% summarise(n = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
dq %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = dq %>% filter(clarity == 'VS1'), fill = 'skyblue') +
  geom_col(data = dq %>% filter(clarity == 'IF'), fill = 'pink')

  • Ta phân loại kim cương theo kiểu cắt và độ tinh khiết sau đó tính số lượng .
  • Ở biểu đồ trên thì ta gắn x là kiểu cắt, y là số lượng của từng loại;
  • Ta sẽ lọc các loại kim cương có độ tinh khiết là VS1,cột biểu đồ có màu xanh da trời và lọc các loại kim cương có độ tinh khiết IF, biểu đồ có màu hồng.
  • Qua biểu đồ trên ta đã lọc được số lượng kim cương độ tinh khiết VS1 phân bổ ít nhất ở kiểu cắt Fair và tăng dần lên từ Good, Very Good, Premium, và nhiều nhất là Ideal. Và số lượng kim cương có độ tinh khiết IF phân bổ nhiều nhất là loại ’ Ideal’ sau đó là ‘Very Good’, tiếp đến là ’ Premium’ , sau đó là ’ Good’ và ít nhất là ‘Fair’

#Đồ thị số 16

dq <- diamonds 
dq <- dq %>% mutate(caratC = cut(carat,5, label = c('rất nhỏ', 'nhỏ','vừa','lớn','rất lớn')))
dq %>% ggplot(aes(x = caratC)) +
  geom_bar(fill = 'skyblue')

  • Ta thêm 1 cột dữ liêu caratC vào bộ dữ liệu để đánh giá trọng lượng của các viên kim cương theo mức độ ‘rất nhỏ’ ‘nhỏ’, ‘vừa’ và ‘lớn’.
  • Các cột biểu đồ có màu xanh da trời.
  • Qua biểu đồ trên ta thấy số lượng kim cương có trọng lượng ‘rất nhỏ’ là lớn nhất và giảm dần từ ‘nhỏ’, ‘vừa’, ‘lớn’ và thấp nhất là loại ‘rất lớn’

#Đồ thị số 17

dq <- diamonds 
dq <- dq %>% mutate(price = cut(price,3, label = c('thấp','vừa','cao')))
dq %>% ggplot(aes(x = price)) +
  geom_bar(fill = 'pink')

  • Ta thêm 1 cột dữ liêu price vào bộ dữ liệu để đánh giá về giá cả của các viên kim cương theo mức độ ‘thấp’,‘vừa’,‘cao’.
  • Các cột biểu đồ có màu hồng .
  • Qua biểu đồ trên ta thấy số lượng kim cương có giá ‘thấp’ là lớn nhất trên 40000 viên và giảm dần xuống ‘vừa’ và thấp nhất là loại ‘cao’

#Đồ thị số 18

dq <- diamonds 
dq <- dq %>% mutate(depth = cut(depth,5, label = c('rất nhỏ', 'nhỏ','vừa','lớn','rất lớn')))
dq %>% ggplot(aes(x = depth)) +
  geom_bar(fill = 'blue')

  • Ta thêm 1 cột dữ liêu depth vào bộ dữ liệu để đánh giá về khoảng cách từ mặt đến đáy của các viên kim cương theo mức độ ‘rất nhỏ’,‘nhỏ’,‘vừa’,‘lớn’,‘rất lớn’.
  • Các cột biểu đồ có màu xanh dương .
  • Qua biểu đồ trên ta thấy số lượng kim cương có khoảng cách ‘vừa’ là lớn nhất trên 50000 viên và giảm dần xuống ‘lớn’, ‘nhỏ’ và thấp nhất là loại ‘rất nhỏ’ và ’ rất lớn’

#Đồ Thị Số 19

  dq %>% group_by(clarity) %>% summarise(m= mean(carat)) %>%
  ggplot(aes(x = clarity,y = m)) +
  geom_col(position = 'dodge') +
  geom_text(aes(label = round(m,5)), vjust = 2, color = 'green') +
  labs(x = 'độ tinh khiết', y = 'trọng lượng trung bình')

  • Ta phân loại kim cương theo độ tinh khiết và tính trọng lượng trung bình của chúng theo đơn vị carat.
  • Ở biểu đồ trên thì ta gắn x là độ tinh khiết, y là khối lượng trung bình của từng loại
  • Các số liệu sẽ có màu xanh lá cây, được làm tròn 5 chữ số thập phân và được điều chỉnh ở vị trí dọc cách cột với đơn vị là 2. Và ta thấy được kim cương có độ trong suốt cao nhất là I1, thấp hơn đó là SI2 và giảm dần từ SI1, VS2, VS1, WS2, WS1, và thấp nhất là IF.

#Đồ Thị Số 20

  dq %>% group_by(clarity) %>% summarise(n = n()) %>%
  ggplot(aes(clarity,n)) +
  geom_col(fill='green') +
  geom_text(aes(label = percent(n/length(dq$price))),vjust = 2, color = 'red') +
  labs(x = 'Loại', y = 'Số lượng')

  • Ta phân loại kim cương theo độ tinh khiết và tính số lượng của các màu.
  • Ta gắn x là ‘Loại’, y là ‘Số Lượng’.
  • Các cột biểu đồ được tô màu xanh lá cây, các số liệu là tỷ lệ giá tiền của mỗi loại kim cương, các số liệu này có màu đỏ và được điều chỉnh vị trí dọc các cột dữ liệu với đơn vị là 2.
  • Qua biểu đồ trên ta thấy kim cương có độ trong suốt SI1 chiếm tỷ lệ giá cao nhất là 24,2%, giảm dần từ VS2, SI2, VS1, VVS2, VVS1, IF, I1 là 1,4%

#Đồ thị số 21

dq <- diamonds
dq <- dq %>% group_by(cut, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
dq %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = dq %>% filter(color == 'G'), fill = 'red') +
  geom_col(data = dq %>% filter(color == 'D'), fill = 'turquoise')

  • Ta phân loại kim cương theo kiểu cắt và màu sắc sau đó tính số lượng .
  • Ở biểu đồ trên thì ta gắn x là kiểu cắt, y là số lượng của từng loại;
  • Ta sẽ lọc các loại kim cương có màu G,cột biểu đồ có màu đỏ và lọc các loại kim cương có màu D, biểu đồ có màu xanh ngọc.
  • Qua biểu đồ trên ta đã lọc được số lượng kim cương màu G phân bổ ít nhất ở kiểu cắt Fair và tăng dần lên từ Good, Very Good, Premium, và nhiều nhất là Ideal. Và số lượng kim cương có màu D phân bổ nhiều nhất là loại ’ Ideal’ sau đó giảm dần là ‘Premium’; ‘Very Good’; ‘Good’; và ít nhất là ‘Fair’

#Đồ thị số 22

dq <- diamonds
dq %>% group_by(carat) %>% filter(carat == 0.5 | carat == 1.00 | carat == 1.5 | carat == 2.05) %>% summarise(n = n()) %>%
  ggplot(aes(carat,n)) +
    geom_col(fill='skyblue') +
     geom_text(aes(label = n),vjust = 2, color = 'red') +
    xlab('Carat') +
    ylab('Số lượng')

  • Ta phân loại kim cương theo trọng lượng carat ở các mốc 0.5, 1.0, 1.5, 2.0 và tính số lượng của từng mốc khối lương.
  • Ta gắn x là carat và y là số lượng từng mốc carat.
  • Các cột biểu đồ có màu xanh da trời, các số liệu có màu đỏ, được điều chỉnh ở vị trí dọc cách cột 2 đơn vị .
  • Qua biểu đồ trên ta thấy được số kim cương có trọng lượng 1.0 carat là nhiều nhất với 1558 viên và thấp nhất là 2.0 với 67 viên
  • Ngoài ra kim cương có trọng lượng 0.5 có số lượng là 1258 viên, 1,0 có số lượng là 1558 viên

#Đồ thị số 23

dq <- diamonds
dq <- dq %>% group_by(cut, clarity) %>% summarise(n = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
dq %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = dq %>% filter(clarity == 'SI1'), fill = 'blue') +
  geom_col(data = dq %>% filter(clarity == 'SI2'), fill = 'turquoise') +
  geom_col(data = dq %>% filter(clarity == 'IF'), fill = 'pink')

  • Ta phân loại kim cương theo kiểu cắt và độ tinh khiết sau đó tính số lượng .
  • Ở biểu đồ trên thì ta gắn x là kiểu cắt, y là số lượng của từng loại;
  • Ta sẽ lọc các loại kim cương loại SI1,cột biểu đồ có màu xanh và lọc các loại kim cương loại SI2, biểu đồ có màu xanh ngọc, lọc các viên kim cương loại IF, biểu đồ có màu hồng
  • Qua biểu đồ trên ta đã lọc được số lượng kim cương loại SI1 phân bổ nhiều nhất ở kiểu cắt ‘Ideal’ sau đó tới ‘Very Good’ và ‘Premium’ với ‘Good’ gần như bằng nhau và không có viên nào loại ‘Fair’
  • Số lượng viên kim cương loại SI2 chiếm phần lớn trong 3 loại SI1 SI2 VÀ IF, và SI2 chiếm số lượng nhiều nhất ở loại ‘Premium’ và ít nhất ở ‘Fair’
  • Số lượng viên kim cương loại IF tăng dần từ Good -> Very Good -> Premium -> Ideal

#Đồ thị số 23

dq <- diamonds
dq <- dq %>% group_by(cut, clarity) %>% summarise(n = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
dq %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = dq %>% filter(clarity == 'SI1'), fill = 'blue') +
  geom_col(data = dq %>% filter(clarity == 'VS2'), fill = 'turquoise') +
   geom_col(data = dq %>% filter(clarity == 'SI2'), fill = 'red') +
   geom_col(data = dq %>% filter(clarity == 'VVS1'), fill = 'black')

  geom_col(data = dq %>% filter(clarity == 'VVS2'), fill = 'pink')
## geom_col: just = 0.5, width = NULL, na.rm = FALSE
## stat_identity: na.rm = FALSE
## position_stack
  • Ta phân loại kim cương theo kiểu cắt và độ tinh khiết sau đó tính số lượng .
  • Ở biểu đồ trên thì ta gắn x là kiểu cắt, y là số lượng của từng loại;
  • Ta sẽ lọc các loại kim cương loại SI1,cột biểu đồ có màu xanh và lọc các loại kim cương loại VS2, biểu đồ có màu xanh ngọc, lọc các viên kim cương loại VVS1, biểu đồ có màu đen, các kim cương loại VVS2, biểu đồ cột có màu hồng
  • Qua biểu đồ ta thấy ở loại Fair SI2 chiếm diện tích lớn nhất
  • Ở loại Good SI2 chiếm diện tích lớn nhất sau đó là SI1 và VVS1
  • Ở loại Very Good SI2 chiếm diện tích lớn nhất sau đó là VVS1, SI1 và VS2
  • Ở loại Premium VS2 chiếm diện tích lớn nhất sau đó là VVS1 và sau đó là SI2
  • Ở loại Ideal VS2 chiếm diện tích nhiều nhất, sau đó là VVS1 và SI2

#Đồ thị số 24

dq <- diamonds
dq <- dq %>% group_by(cut, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
dq %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = dq %>% filter(color == 'D'), fill = 'red') +
    geom_col(data = dq %>% filter(color == 'J'), fill = 'blue') +
    geom_col(data = dq %>% filter(color == 'G'), fill = 'pink') +
    geom_col(data = dq %>% filter(color == 'H'), fill = 'brown') +
    geom_col(data = dq %>% filter(color == 'E'), fill = 'purple') +
    geom_col(data = dq %>% filter(color == 'F'), fill = 'yellow') +
  geom_col(data = dq %>% filter(color == 'I'), fill = 'turquoise')

  • Ta phân loại kim cương theo kiểu cắt và màu sắc sau đó tính số lượng .
  • Ở biểu đồ trên thì ta gắn x là kiểu cắt, y là số lượng của từng loại;
  • Ta sẽ lọc các loại kim cương màu D,cột biểu đồ có màu đỏ
  • lọc các loại kim cương màu J, biểu đồ có màu xanh
  • lọc các viên kim cương màu G, biểu đồ có màu hồng
  • các kim cương có màu H, biểu đồ cột có màu nâu
  • lọc các viên kim cương màu E, biểu đồ có màu tím
  • lọc các viên kim cương màu F, biểu đồ có màu vàng
  • lọc các viên kim cương màu I, biểu đồ có màu xanh ngọc
  • Qua biểu đồ ta thấy ở loại Fair F và I chiếm diện tích gần như bằng nhau
  • Ở loại Good I chiếm diện tích lớn nhất sau đó là F và E
  • Ở loại Very Good I chiếm diện tích lớn nhất sau đó là F,E
  • Ở loại Premium I chiếm diện tích lớn nhất sau đó là F, G và sau đó là D
  • Ở loại Ideal I chiếm diện tích lớn nhất sau đó là I,sau đó là F,G và E

#Đồ thị số 25

dq <- diamonds
dq <- dq %>% group_by(cut, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
dq %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = dq %>% filter(color == 'D'), fill = 'red') +
    geom_col(data = dq %>% filter(color == 'J'), fill = 'blue') +
    geom_col(data = dq %>% filter(color == 'G'), fill = 'pink') +
    geom_col(data = dq %>% filter(color == 'H'), fill = 'brown') +
    geom_col(data = dq %>% filter(color == 'E'), fill = 'purple') +
    geom_col(data = dq %>% filter(color == 'F'), fill = 'yellow') +
  geom_col(data = dq %>% filter(color == 'I'), fill = 'turquoise') +
  coord_flip() 

  • Đồ thị nằm ngang của đồ thị 25
  • Qua đồ thị ta thấy số lượng giảm dần từ loại Ideal -> Premium -> Very Good -> Good -> Fair

#Đồ thị số 26

    dq %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(color,n)) +
    geom_col(fill='pink') +
    geom_text(aes(label = percent(n/length(dq$price))),vjust = 2, color = 'black') +
    labs(x = 'Màu', y = 'Số lượng')
## Warning: Unknown or uninitialised column: `price`.
## Unknown or uninitialised column: `price`.

  • Ta phân loại kim cương theo màu sắc và tính số lượng giá của từng loại.
  • Ta gắn x là ‘Màu’, y là ‘Số Lượng’.
  • Các cột biểu đồ được tô màu hồng, các số liệu là tỷ lệ giá tiền của mỗi loại kim cương, các số liệu này có màu đen và được điều chỉnh vị trí dọc các cột dữ liệu với đơn vị là 2.
  • Qua biểu đồ trên ta thấy kim cương màu G chiếm tỷ lệ cao nhất về giá với 20.93%
  • Kim cương màu J chiếm tỷ lệ thấp nhất về giá với 5.21%
  • Kim cương màu G cao hơn và gấp kim cương màu I là 2,08 lần
  • Kim cương màu H cao hơn và gấp kim cương màu J là 2,95 lần
  • Kim cương màu I cao hơn và gấp kim cương màu J là 1,93 lần

#Đồ thị số 27

    dq %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(color,n)) +
    geom_col(fill='pink') +
    geom_text(aes(label = percent(n/length(dq$price))),vjust = 2, color = 'black') +
    labs(x = 'Màu', y = 'Số lượng') +
  coord_flip()
## Warning: Unknown or uninitialised column: `price`.
## Unknown or uninitialised column: `price`.

- Đây là đồ thị nằm ngang của đồ thị số 26
- Qua đồ thị ta thấy  số lượng kim cương tăng dần từ màu J -> I -> H -> G, sau giảm dần

#Đồ thị số 28

dq <- diamonds
dq %>% group_by(color) %>% summarise(m = mean(depth)) %>%
  ggplot(aes(color,m)) +
  geom_col(fill='skyblue') +
  geom_text(aes(label = round(m,2)),vjust = 2, color = 'red') +
  labs(x = 'Loại', y = 'Số lượng')

  • Ta phân loại kim cương theo màu sắc và tính trung bình tỷ lệ độ sâu của từng loại.
  • Các cột biểu đồ có màu xanh da trời, các dữ liệu có màu đỏ, được làm tròn đến 2 chữ số thập phân và được điều chỉnh ở vị trí dọc cách cột 2 đơn vị.
  • Qua biểu đồ trên ta thấy các loại màu của kim cương sẽ có xấp xỉ trung bình tỷ lệ độ sâu bằng nhau. Trong đó cao nhất là màu J với 61.89 và thấp nhất là màu E với 61.66

#Đồ thị số 29

dq %>% group_by(clarity) %>% summarise(m= mean(carat)) %>%
  ggplot(aes(x = clarity,y = m)) +
  geom_col(position = 'dodge') +
  geom_text(aes(label = round(m,3)), vjust = 2, color = 'green') +
  labs(x = 'độ tinh khiết', y = 'trọng lượng trung bình')

  • Ta phân loại kim cương theo độ tinh khiết và tính trọng lượng trung bình của chúng theo đơn vị carat.
  • Ở biểu đồ trên thì ta gắn x là độ tinh khiết, y là khối lượng trung bình của từng loại
  • Các số liệu sẽ có màu xanh lá cây, được làm tròn 3 chữ số thập phân và được điều chỉnh ở vị trí dọc cách cột với đơn vị là 2.
  • Ta thấy được kim cương có độ trong suốt cao nhất là I1 với 1.284, thấp hơn đó là SI2 và giảm dần từ SI1, VS2, VS1, WS2, WS1, và thấp nhất là IF với 0.505

#Đồ thị số 30

dq %>% group_by(clarity) %>% summarise(m= mean(carat)) %>%
  ggplot(aes(x = clarity,y = m)) +
  geom_col(position = 'dodge') +
  geom_text(aes(label = round(m,3)), vjust = 2, color = 'green') +
  labs(x = 'độ tinh khiết', y = 'trọng lượng trung bình') +
    coord_flip()

  • Đồ thị nằm ngang của đồ thị số 30
  • Qua đồ thị ta thấy trọng lượng trung bình của độ tinh khiết tăng dần từ IF -> VVS1 -> VVS2 -> VS1 ->VS2 -> SI1 -> SI1 -> I1
---
title: "NHIỆM VỤ 4"
author: "Nguyễm Diễm Quỳnh"
date: "2024-03-02"
output:
 html_document:
    number_sections: true
    toc: true
    toc_depth: 1
    toc_float: true
    code_download: true
    code_folding: show
  
---
"`r format(Sys.time(), '%H:%M:%S, %d - %m - %Y')`"
```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
```


#ĐỒ THỊ DẠNG BAR CHART CHO BỘ DỮ LIỆU DIAMOND


```{r}
library(datasets)
data(package = 'datasets')
library(ggplot2)
data(package = 'ggplot2')
dq <- diamonds
```

#Đồ Thị Số 1

```{r}
library(tidyverse)
library(scales)
dq <- diamonds
dq %>% ggplot(aes(x = cut)) +
    geom_bar() +
    labs(x = 'Loại', y = 'Số lượng')
```
    
    - Ta phân loại kim cương theo kiểu cắt, có Fair; Good; Very Good; Premium; Ideal
    - Gán cho trục x nhãn là " Loại ", gán cho trục y nhãn là "Số lượng"
    => Loại "Ideal" có số lượng nhiều nhất, trên 20000
    => Loại " Fair " có số lượng ít nhất, dưới 5000
    => Loại " Good " có số lượng là 5000
    
#Đồ Thị Số 2
```{r}
library(tidyverse)
library(scales)
dq <- diamonds
dq %>% ggplot(aes(x = color)) +
    geom_bar() +
    labs(x = 'Màu sắc', y = 'Số lượng')
```
    
    - Ta phân loại kim cương theo màu sắc, có D, E, F, G, H, I ,J
    - Gán cho trục x nhãn là " Màu sắc ", gán cho trục y nhãn là "Số lượng"
    => Màu "G" có số lượng nhiều nhất
    => Màu " J " có số lượng ít nhấT
    => Màu " E " và màu "F" có số lượng gần bằng nhau
    
#Đồ Thị Số 3    
```{r}
library(tidyverse)
library(scales)
dq <- diamonds
dq %>% ggplot(aes(x = clarity)) +
    geom_bar() +
    labs(x = 'Độ tinh khiết', y = 'Số lượng')
```
    
    - Ta phân loại kim cương theo độ tinh khiết, có I1, SI1, SI2, VS1,VS2,VVS1,VVS2,IF
    - Gán cho trục x nhãn là " Độ tinh khiết ", gán cho trục y nhãn là "Số lượng"
    => Loại "SI1" có số lượng nhiều nhất
    => Loại " I1 " có số lượng ít nhấT
    
#Đồ Thị Số 4    
```{r}
 dq <- diamonds
dq %>% ggplot(aes(x = cut)) +
    geom_bar() +
    labs(x = 'Loại', y = 'Số lượng') +
    coord_flip()  
```

 
 - Phân loại kim cương theo kiểu cắt
 -  Đồ thị xoay ngang cho ta thấy số lượng kim cương từng loại giảm dần từ Ideal -> Premium -> Very Good -> Good -> Fair
 
#Đồ Thị Số 5
```{r}

dq <- diamonds
dq %>% ggplot(aes(x = color)) +
    geom_bar() +
    labs(x = 'Màu sắc', y = 'Số lượng') +
coord_flip()
```

 - Phân loại kim cương theo màu sắc
 -  Đồ thị xoay ngang cho ta thấy số lượng kim cương từng loại tăng dần từ màu J -> I -> H -> G; sau đó giảm xuống F rồi tăng lên E rồi giảm về D
 
 
#Đồ thị số 6 
```{r}
    dq <- diamonds
dq %>% ggplot(aes(x = clarity)) +
    geom_bar() +
    labs(x = 'Độ tinh khiết', y = 'Số lượng') +
  coord_flip()
```
 
 - Phân loại kim cương theo độ tinh khiết
 -  Đồ thị xoay ngang cho ta thấy số lượng kim cương từng loại tăng dần từ IF -> VVS1 -> VVS2 -> VS1 -> VS2 -> SI1; sau đó giảm dần từ SI1 -> SI2 -> I1
 
#Đồ thị số 7 
```{r}
    dq %>% group_by(cut) %>% summarise(n = n()) %>%
  ggplot(aes(cut,n)) +
    geom_col(fill='skyblue') +
    geom_text(aes(label = n),vjust = 2, color = 'red') +
    labs(x = 'Loại', y = 'Số lượng')
```
    
    
    - Ta Phân loại kim cương theo từng loại và tính số lượng của từng loại. x là loại của kim cương, y là số lượng của từng loại.
    - Các số liệu có màu đỏ, được điều chỉnh ở vị trí dọc cách cột 2 đơn vị. Màu của các cột là màu xanh da trời.
    - Qua biểu đồ trên ta thấy được nhiều nhất là loại Ideal với 21551 viên, tiếp đến là Premium với 13791 viên
    - Very Good với 12082 viên, Good với 4906 viên,Fair với 1610 viên
    
  
#Đồ thị số 8  
```{r}
 dq %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(color,n)) +
    geom_col(fill='turquoise') +
    geom_text(aes(label = n),vjust = 2, color = 'red') +
    labs(x = 'Màu sắc', y = 'Số lượng')
```
  
  
  - Ta Phân loại kim cương theo màu sắc và tính số lượng của từng màu sắc. 
  - x là màu sắc của kim cương, y là số lượng của từng loại màu sắc. 
  - Các số liệu có màu đỏ, được điều chỉnh ở vị trí dọc cách cột 2 đơn vị. Màu của các cột là xanh ngọc.
  - Qua biểu đồ trên ta thấy được nhiều nhất là màu G với 11292 viên, tiếp đến là E với 9797 viên
  - F với 9542 viên, H với 8304 viên,D với 6775 viên
  - I với 5422 viên và ít nhất là màu J với 2808 viên
  
  
#Đồ thị số 9  
```{r}
dq %>% group_by(clarity) %>% summarise(n = n()) %>%
  ggplot(aes(clarity,n)) +
    geom_col(fill='green') +
    geom_text(aes(label = n),vjust = 2, color = 'red') +
    labs(x = 'Độ tinh khiết', y = 'Số lượng')
```
  
  
  - Ta Phân loại kim cương theo độ tinh khiết và tính số lượng của từng loại. 
  - x là độ tinh khiết của kim cương, y là số lượng của từng loại. 
  - Các số liệu có màu đỏ, được điều chỉnh ở vị trí dọc cách cột 2 đơn vị. Màu của các cột là xanh lá cây.
  - Qua biểu đồ trên ta thấy được nhiều nhất là loại SI1 với 13065 viên, tiếp đến là VS2 với 12258 viên
  - SI2 với 9194 viên, VS1 với 8171 viên,VVS2 với 5066 viên
  - VVS1 với 3655 viên, IF với 1790 viên và ít nhất là I1  với 741 viên
  

#Đồ thị số 10
```{r}
    dq %>% group_by(cut) %>% summarise(n = n()) %>%
  ggplot(aes(cut,n)) +
    geom_col(fill='green') +
    geom_text(aes(label = percent(n/length(dq$carat))),vjust = 2, color = 'red') +
    labs(x = 'Loại', y = 'Số lượng')
```
  
    
    
    - Ta Phân loại kim cương theo từng loại và tính phần trăm số lượng của từng loại. x là loại của kim cương, y là số lượng của từng loại.
    - Các số liệu có màu đỏ, được điều chỉnh ở vị trí dọc cách cột 2 đơn vị. Màu của các cột là màu xanh lá cây.
    - Qua biểu đồ trên ta thấy được nhiều nhất là loại Ideal với 40.0%, tiếp đến là Premium với 25.6%
    - Very Good với 22.4%, Good với 9.1% ,Fair với 3.0%
    
#Đồ thị số 11    
```{r}
    dq %>% group_by(cut,color) %>% summarise(n=n()) %>%
  ggplot(aes(x = cut,y = n)) +
    geom_col(position = 'dodge') +
    facet_wrap(~color) +
    labs(x = 'Loại', y = 'Số lượng')
```
  
  
  - Ta phân nhóm  kim cương theo kiểu cắt và màu sắc sau đó tính số lượng. 
  - Ta gắn x là loại, y la số lượng 
  - Chia thành 7 biểu đồ theo 7 loại màu sắc để so sánh. 
  - Qua 7 biểu đồ ta nhận xét các màu sắc phân bổ nhiều nhất ở kim cương có kiểu cắt Ideal, giảm dần qua các kiểu cắt Premium, Very Good, Good và phân bổ ít nhất ở kiểu cắt Fair

#Đồ thị số 12
```{r}
    dq <- diamonds
  dq %>% group_by(cut,color) %>% summarise(n=n()) %>%
  ggplot(aes(x = cut,y = n)) +
    geom_col(position = 'dodge') +
    facet_wrap(~color) +
    geom_text(aes(label = n),vjust = 2, color = 'green') +
    labs(x = 'Loại', y = 'Số lượng')
```
 
 
  - Ta phân nhóm  kim cương theo kiểu cắt và màu sắc sau đó tính số lượng. 
  - Ta gắn x là loại, y la số lượng
  - Các số liệu có màu xanh lá, được điều chỉnh ở vị trí dọc cách cột 2 đơn vị.
  - Chia thành 7 biểu đồ theo 7 loại màu sắc để so sánh. 
  - Qua 7 biểu đồ ta nhận xét các màu sắc phân bổ nhiều nhất ở kim cương có kiểu cắt Ideal, giảm dần qua các kiểu cắt Premium, Very Good, Good và phân bổ ít nhất ở kiểu cắt Fair
  
#Đồ thị số 13  
```{r}
dq <- diamonds
dq %>% group_by(cut,color) %>% summarise(m = mean(price)) %>%
  ggplot(aes(x = cut,y = m)) +
    geom_col(position = 'dodge') +
    facet_wrap(~color) +
    geom_text(aes(label = round(m))) +
    labs(x = 'cut', y = 'Số lượng')
```
  
  
  - Ta phân nhóm  kim cương theo kiểu cắt và màu sắc sau đó tính trung bình về giá của từng loại. 
  - Ta gắn x là loại, y la số lượng
  - Chia thành 7 biểu đồ theo 7 loại màu sắc để so sánh. 
  - Qua 7 biểu đồ ta nhận xét giá trung bình của loại 'Premium' là cao nhất ờ hầu hết các màu trừ màu G và màu H
  - Gía trung bình của loại 'Ideal' là thấp nhất ở các màu trừ màu J

  
#Đồ thị số 14
```{r}
dq <- diamonds
dq <- dq %>% group_by(cut, color) %>% summarise(n = n())
dq %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = dq %>% filter(color == 'E'), fill = 'purple') +
  geom_col(data = dq %>% filter(color == 'H'), fill = 'turquoise')
```
  
  
  - Ta phân loại kim cương theo kiểu cắt và màu sắc sau đó tính số lượng . 
  - Ở biểu đồ trên thì ta gắn x là kiểu cắt, y là số lượng của từng loại; 
  - Ta sẽ lọc các loại kim cương có màu E,cột biểu đồ có màu tím và lọc các loại kim cương có màu H, biểu đồ có màu xanh ngọc. 
  - Qua biểu đồ trên ta đã lọc được số lượng kim cương màu H phân bổ ít nhất ở kiểu cắt Fair và tăng dần lên từ Good, Very Good, Premium, và nhiều nhất là Ideal. Và số lượng kim cương có màu E phân bổ ở 3 loại nhiều nhất là loại ' Ideal' sau đó là 'Very Good' và ít nhất là 'Good'
  
#Đồ thị số 15
```{r}
dq <- diamonds
dq <- dq %>% group_by(cut, clarity) %>% summarise(n = n())
dq %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = dq %>% filter(clarity == 'VS1'), fill = 'skyblue') +
  geom_col(data = dq %>% filter(clarity == 'IF'), fill = 'pink')
```


  
  - Ta phân loại kim cương theo kiểu cắt và độ tinh khiết sau đó tính số lượng . 
  - Ở biểu đồ trên thì ta gắn x là kiểu cắt, y là số lượng của từng loại; 
  - Ta sẽ lọc các loại kim cương có độ tinh khiết là VS1,cột biểu đồ có màu xanh da trời và lọc các loại kim cương có độ tinh khiết IF, biểu đồ có màu hồng. 
  - Qua biểu đồ trên ta đã lọc được số lượng kim cương độ tinh khiết VS1 phân bổ ít nhất ở kiểu cắt Fair và tăng dần lên từ Good, Very Good, Premium, và nhiều nhất là Ideal. Và số lượng kim cương có độ tinh khiết IF phân bổ nhiều nhất là loại ' Ideal' sau đó là 'Very Good', tiếp đến là ' Premium' , sau đó là ' Good' và ít nhất là 'Fair'
  
#Đồ thị số 16
```{r}
dq <- diamonds 
dq <- dq %>% mutate(caratC = cut(carat,5, label = c('rất nhỏ', 'nhỏ','vừa','lớn','rất lớn')))
dq %>% ggplot(aes(x = caratC)) +
  geom_bar(fill = 'skyblue')
```
  
  
  - Ta thêm 1 cột dữ liêu caratC vào bộ dữ liệu để đánh giá trọng lượng của các viên kim cương theo mức độ ‘rất nhỏ’ ‘nhỏ’, ‘vừa’ và ‘lớn’. 
  - Các cột biểu đồ có màu xanh da trời. 
  - Qua biểu đồ trên ta thấy số lượng kim cương có trọng lượng ‘rất nhỏ’ là lớn nhất và giảm dần từ ‘nhỏ’, ‘vừa’, 'lớn' và thấp nhất là loại ‘rất lớn’
  
#Đồ thị số 17
```{r}
dq <- diamonds 
dq <- dq %>% mutate(price = cut(price,3, label = c('thấp','vừa','cao')))
dq %>% ggplot(aes(x = price)) +
  geom_bar(fill = 'pink')
```
 
  
  - Ta thêm 1 cột dữ liêu price vào bộ dữ liệu để đánh giá về giá cả của các viên kim cương theo mức độ 'thấp','vừa','cao'.
  - Các cột biểu đồ có màu hồng . 
  - Qua biểu đồ trên ta thấy số lượng kim cương có giá ‘thấp’ là lớn nhất trên 40000 viên và giảm dần xuống ‘vừa’ và thấp nhất là loại ‘cao’
  
#Đồ thị số 18
```{r}
dq <- diamonds 
dq <- dq %>% mutate(depth = cut(depth,5, label = c('rất nhỏ', 'nhỏ','vừa','lớn','rất lớn')))
dq %>% ggplot(aes(x = depth)) +
  geom_bar(fill = 'blue')
```
 
 
 - Ta thêm 1 cột dữ liêu depth vào bộ dữ liệu để đánh giá về khoảng cách từ mặt đến đáy của các viên kim cương theo mức độ 'rất nhỏ','nhỏ','vừa','lớn','rất lớn'.
  - Các cột biểu đồ có màu xanh dương . 
  - Qua biểu đồ trên ta thấy số lượng kim cương có khoảng cách ‘vừa’ là lớn nhất trên 50000 viên và giảm dần xuống ‘lớn’, 'nhỏ' và thấp nhất là loại ‘rất nhỏ’ và ' rất lớn'
  
  

#Đồ Thị Số 19
```{r}
  dq %>% group_by(clarity) %>% summarise(m= mean(carat)) %>%
  ggplot(aes(x = clarity,y = m)) +
  geom_col(position = 'dodge') +
  geom_text(aes(label = round(m,5)), vjust = 2, color = 'green') +
  labs(x = 'độ tinh khiết', y = 'trọng lượng trung bình')
```
 
 
  - Ta phân loại kim cương theo độ tinh khiết và tính trọng lượng trung bình của chúng theo đơn vị carat. 
  - Ở biểu đồ trên thì ta gắn x là độ tinh khiết, y là khối lượng trung bình của từng loại
  - Các số liệu sẽ có màu xanh lá cây, được làm tròn 5 chữ số thập phân và được điều chỉnh ở vị trí dọc cách cột với đơn vị là 2. Và ta thấy được kim cương có độ trong suốt cao nhất là I1, thấp hơn đó là SI2 và giảm dần từ SI1, VS2, VS1, WS2, WS1, và thấp nhất là IF.
  
  
#Đồ Thị Số 20
```{r} 
  dq %>% group_by(clarity) %>% summarise(n = n()) %>%
  ggplot(aes(clarity,n)) +
  geom_col(fill='green') +
  geom_text(aes(label = percent(n/length(dq$price))),vjust = 2, color = 'red') +
  labs(x = 'Loại', y = 'Số lượng')
```

  
  - Ta phân loại kim cương theo độ tinh khiết và tính số lượng của các màu. 
  - Ta gắn x là ‘Loại’, y là ‘Số Lượng’. 
  - Các cột biểu đồ được tô màu xanh lá cây, các số liệu là tỷ lệ giá tiền của mỗi loại kim cương, các số liệu này có màu đỏ và được điều chỉnh vị trí dọc các cột dữ liệu với đơn vị là 2. 
  - Qua biểu đồ trên ta thấy kim cương có độ trong suốt SI1 chiếm tỷ lệ giá cao nhất là 24,2%, giảm dần từ VS2, SI2, VS1, VVS2, VVS1, IF, I1 là 1,4%
  
#Đồ thị số 21
```{r}
dq <- diamonds
dq <- dq %>% group_by(cut, color) %>% summarise(n = n())
dq %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = dq %>% filter(color == 'G'), fill = 'red') +
  geom_col(data = dq %>% filter(color == 'D'), fill = 'turquoise')
```
  
  
  - Ta phân loại kim cương theo kiểu cắt và màu sắc sau đó tính số lượng . 
  - Ở biểu đồ trên thì ta gắn x là kiểu cắt, y là số lượng của từng loại; 
  - Ta sẽ lọc các loại kim cương có màu G,cột biểu đồ có màu đỏ và lọc các loại kim cương có màu D, biểu đồ có màu xanh ngọc. 
  - Qua biểu đồ trên ta đã lọc được số lượng kim cương màu G phân bổ ít nhất ở kiểu cắt Fair và tăng dần lên từ Good, Very Good, Premium, và nhiều nhất là Ideal. Và số lượng kim cương có màu D phân bổ nhiều nhất là loại ' Ideal' sau đó giảm dần là 'Premium'; 'Very Good'; 'Good'; và ít nhất là 'Fair'
  
#Đồ thị số 22
```{r}
dq <- diamonds
dq %>% group_by(carat) %>% filter(carat == 0.5 | carat == 1.00 | carat == 1.5 | carat == 2.05) %>% summarise(n = n()) %>%
  ggplot(aes(carat,n)) +
    geom_col(fill='skyblue') +
     geom_text(aes(label = n),vjust = 2, color = 'red') +
    xlab('Carat') +
    ylab('Số lượng')
```



  - Ta phân loại kim cương theo trọng lượng carat ở các mốc 0.5, 1.0, 1.5, 2.0 và tính số lượng của từng mốc khối lương. 
  - Ta gắn x là carat và y là số lượng từng mốc carat. 
  - Các cột biểu đồ có màu xanh da trời, các số liệu có màu đỏ, được điều chỉnh ở vị trí dọc cách cột 2 đơn vị . 
  - Qua biểu đồ trên ta thấy được số kim cương có trọng lượng 1.0 carat là nhiều nhất với 1558 viên và thấp nhất là 2.0 với 67 viên
  - Ngoài ra kim cương có trọng lượng 0.5 có số lượng là 1258 viên, 1,0 có số lượng là 1558 viên

#Đồ thị số 23
```{r}
dq <- diamonds
dq <- dq %>% group_by(cut, clarity) %>% summarise(n = n())
dq %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = dq %>% filter(clarity == 'SI1'), fill = 'blue') +
  geom_col(data = dq %>% filter(clarity == 'SI2'), fill = 'turquoise') +
  geom_col(data = dq %>% filter(clarity == 'IF'), fill = 'pink')
```
  
  
  
  - Ta phân loại kim cương theo kiểu cắt và độ tinh khiết sau đó tính số lượng . 
  - Ở biểu đồ trên thì ta gắn x là kiểu cắt, y là số lượng của từng loại; 
  - Ta sẽ lọc các loại kim cương loại SI1,cột biểu đồ có màu xanh và lọc các loại kim cương loại SI2, biểu đồ có màu xanh ngọc, lọc các viên kim cương loại IF, biểu đồ có màu hồng 
  - Qua biểu đồ trên ta đã lọc được số lượng kim cương loại SI1 phân bổ nhiều nhất ở kiểu cắt 'Ideal' sau đó tới 'Very Good' và 'Premium' với 'Good' gần như bằng nhau và không có viên nào loại 'Fair'
  - Số lượng viên kim cương loại SI2 chiếm phần lớn trong 3 loại SI1 SI2 VÀ IF, và SI2 chiếm số lượng nhiều nhất ở loại 'Premium' và ít nhất ở 'Fair'
  - Số lượng viên kim cương loại IF tăng dần từ Good -> Very Good -> Premium -> Ideal
  
#Đồ thị số 23
```{r}
dq <- diamonds
dq <- dq %>% group_by(cut, clarity) %>% summarise(n = n())
dq %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = dq %>% filter(clarity == 'SI1'), fill = 'blue') +
  geom_col(data = dq %>% filter(clarity == 'VS2'), fill = 'turquoise') +
   geom_col(data = dq %>% filter(clarity == 'SI2'), fill = 'red') +
   geom_col(data = dq %>% filter(clarity == 'VVS1'), fill = 'black')
  geom_col(data = dq %>% filter(clarity == 'VVS2'), fill = 'pink')
```
  
  
  - Ta phân loại kim cương theo kiểu cắt và độ tinh khiết sau đó tính số lượng . 
  - Ở biểu đồ trên thì ta gắn x là kiểu cắt, y là số lượng của từng loại; 
  - Ta sẽ lọc các loại kim cương loại SI1,cột biểu đồ có màu xanh và lọc các loại kim cương loại VS2, biểu đồ có màu xanh ngọc, lọc các viên kim cương loại VVS1, biểu đồ có màu đen, các kim cương loại VVS2, biểu đồ cột có màu hồng
  - Qua biểu đồ ta thấy ở loại Fair SI2 chiếm diện tích lớn nhất
  - Ở loại Good SI2 chiếm diện tích lớn nhất sau đó là SI1 và VVS1
  - Ở loại Very Good SI2 chiếm diện tích lớn nhất sau đó là VVS1, SI1 và VS2
  - Ở loại Premium VS2 chiếm diện tích lớn nhất sau đó là VVS1 và sau đó là SI2
  - Ở loại Ideal VS2 chiếm diện tích nhiều nhất, sau đó là VVS1 và SI2
  
#Đồ thị số 24
```{r}
dq <- diamonds
dq <- dq %>% group_by(cut, color) %>% summarise(n = n())
dq %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = dq %>% filter(color == 'D'), fill = 'red') +
    geom_col(data = dq %>% filter(color == 'J'), fill = 'blue') +
    geom_col(data = dq %>% filter(color == 'G'), fill = 'pink') +
    geom_col(data = dq %>% filter(color == 'H'), fill = 'brown') +
    geom_col(data = dq %>% filter(color == 'E'), fill = 'purple') +
    geom_col(data = dq %>% filter(color == 'F'), fill = 'yellow') +
  geom_col(data = dq %>% filter(color == 'I'), fill = 'turquoise')
```  

  
  - Ta phân loại kim cương theo kiểu cắt và màu sắc sau đó tính số lượng . 
  - Ở biểu đồ trên thì ta gắn x là kiểu cắt, y là số lượng của từng loại; 
  - Ta sẽ lọc các loại kim cương màu D,cột biểu đồ có màu đỏ 
  - lọc các loại kim cương màu J, biểu đồ có màu xanh
  - lọc các viên kim cương màu G, biểu đồ có màu hồng
  - các kim cương có màu H, biểu đồ cột có màu nâu
  - lọc các viên kim cương màu E, biểu đồ có màu tím
  - lọc các viên kim cương màu F, biểu đồ có màu vàng
  - lọc các viên kim cương màu I, biểu đồ có màu xanh ngọc
  - Qua biểu đồ ta thấy ở loại Fair F và I chiếm diện tích gần như bằng nhau
  - Ở loại Good I chiếm diện tích lớn nhất sau đó là F và E
  - Ở loại Very Good I chiếm diện tích lớn nhất sau đó là F,E
  - Ở loại Premium I chiếm diện tích lớn nhất sau đó là F, G và sau đó là D
  - Ở loại Ideal I chiếm diện tích lớn nhất sau đó là I,sau đó là F,G và E
  
#Đồ thị số 25

```{r}
dq <- diamonds
dq <- dq %>% group_by(cut, color) %>% summarise(n = n())
dq %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = dq %>% filter(color == 'D'), fill = 'red') +
    geom_col(data = dq %>% filter(color == 'J'), fill = 'blue') +
    geom_col(data = dq %>% filter(color == 'G'), fill = 'pink') +
    geom_col(data = dq %>% filter(color == 'H'), fill = 'brown') +
    geom_col(data = dq %>% filter(color == 'E'), fill = 'purple') +
    geom_col(data = dq %>% filter(color == 'F'), fill = 'yellow') +
  geom_col(data = dq %>% filter(color == 'I'), fill = 'turquoise') +
  coord_flip() 
```  

  
  - Đồ thị nằm ngang của đồ thị 25
  - Qua đồ thị ta thấy số lượng giảm dần từ loại Ideal -> Premium -> Very Good -> Good -> Fair

#Đồ thị số 26

```{r}
    dq %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(color,n)) +
    geom_col(fill='pink') +
    geom_text(aes(label = percent(n/length(dq$price))),vjust = 2, color = 'black') +
    labs(x = 'Màu', y = 'Số lượng')
```
    
  
  - Ta phân loại kim cương theo màu sắc và tính số lượng giá của từng loại. 
  - Ta gắn x là ‘Màu’, y là ‘Số Lượng’. 
  - Các cột biểu đồ được tô màu hồng, các số liệu là tỷ lệ giá tiền của mỗi loại kim cương, các số liệu này có màu đen và được điều chỉnh vị trí dọc các cột dữ liệu với đơn vị là 2. 
  - Qua biểu đồ trên ta thấy kim cương màu G chiếm tỷ lệ cao nhất về giá với 20.93%
  - Kim cương màu J chiếm tỷ lệ thấp nhất về giá với 5.21%
  - Kim cương màu G cao hơn và gấp kim cương màu I là 2,08 lần
  - Kim cương màu H cao hơn và gấp kim cương màu J là 2,95 lần
  - Kim cương màu I cao hơn và gấp kim cương màu J là 1,93 lần
  
#Đồ thị số 27

```{r}
    dq %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(color,n)) +
    geom_col(fill='pink') +
    geom_text(aes(label = percent(n/length(dq$price))),vjust = 2, color = 'black') +
    labs(x = 'Màu', y = 'Số lượng') +
  coord_flip()
```
    
    - Đây là đồ thị nằm ngang của đồ thị số 26
    - Qua đồ thị ta thấy  số lượng kim cương tăng dần từ màu J -> I -> H -> G, sau giảm dần
    
#Đồ thị số 28 

```{r}
dq <- diamonds
dq %>% group_by(color) %>% summarise(m = mean(depth)) %>%
  ggplot(aes(color,m)) +
  geom_col(fill='skyblue') +
  geom_text(aes(label = round(m,2)),vjust = 2, color = 'red') +
  labs(x = 'Loại', y = 'Số lượng')
```

 
  - Ta phân loại kim cương theo màu sắc và tính trung bình tỷ lệ độ sâu của từng loại. 
  - Các cột biểu đồ có màu xanh da trời, các dữ liệu có màu đỏ, được làm tròn đến 2 chữ số thập phân và được điều chỉnh ở vị trí dọc cách cột 2 đơn vị. 
  - Qua biểu đồ trên ta thấy các loại màu của kim cương sẽ có xấp xỉ trung bình tỷ lệ độ sâu bằng nhau. Trong đó cao nhất là màu J với 61.89 và thấp nhất là màu E với 61.66
  
#Đồ thị số 29

```{r}
dq %>% group_by(clarity) %>% summarise(m= mean(carat)) %>%
  ggplot(aes(x = clarity,y = m)) +
  geom_col(position = 'dodge') +
  geom_text(aes(label = round(m,3)), vjust = 2, color = 'green') +
  labs(x = 'độ tinh khiết', y = 'trọng lượng trung bình')
```

  
  - Ta phân loại kim cương theo độ tinh khiết và tính trọng lượng trung bình của chúng theo đơn vị carat. 
  - Ở biểu đồ trên thì ta gắn x là độ tinh khiết, y là khối lượng trung bình của từng loại
  - Các số liệu sẽ có màu xanh lá cây, được làm tròn 3 chữ số thập phân và được điều chỉnh ở vị trí dọc cách cột với đơn vị là 2.
  - Ta thấy được kim cương có độ trong suốt cao nhất là I1 với 1.284, thấp hơn đó là SI2 và giảm dần từ SI1, VS2, VS1, WS2, WS1, và thấp nhất là IF với 0.505
  
  
#Đồ thị số 30
```{r}
dq %>% group_by(clarity) %>% summarise(m= mean(carat)) %>%
  ggplot(aes(x = clarity,y = m)) +
  geom_col(position = 'dodge') +
  geom_text(aes(label = round(m,3)), vjust = 2, color = 'green') +
  labs(x = 'độ tinh khiết', y = 'trọng lượng trung bình') +
    coord_flip()
```

  
  - Đồ thị nằm ngang của đồ thị số 30
  - Qua đồ thị ta thấy trọng lượng trung bình của độ tinh khiết tăng dần từ IF -> VVS1 -> VVS2 -> VS1 ->VS2 -> SI1 -> SI1 -> I1