Nhiệm vụ 4

Ở nhiệm vụ này, chúng ta sẽ tiến hành các thao tác để vẽ các biểu đồ nhằm phân tích số liệu của một bộ dữ liệu. Cụ thể ở đây, chúng ta sẽ sử dụng bộ dataset Diamonds, đây là một bộ dataset nằm trong package ggplot2. Ta sẽ tiến hành xem một số thông tin cơ bản của dataset này

library(ggplot2)
data(package = 'ggplot2')
lg <- diamonds
str(lg)
## tibble [53,940 × 10] (S3: tbl_df/tbl/data.frame)
##  $ carat  : num [1:53940] 0.23 0.21 0.23 0.29 0.31 0.24 0.24 0.26 0.22 0.23 ...
##  $ cut    : Ord.factor w/ 5 levels "Fair"<"Good"<..: 5 4 2 4 2 3 3 3 1 3 ...
##  $ color  : Ord.factor w/ 7 levels "D"<"E"<"F"<"G"<..: 2 2 2 6 7 7 6 5 2 5 ...
##  $ clarity: Ord.factor w/ 8 levels "I1"<"SI2"<"SI1"<..: 2 3 5 4 2 6 7 3 4 5 ...
##  $ depth  : num [1:53940] 61.5 59.8 56.9 62.4 63.3 62.8 62.3 61.9 65.1 59.4 ...
##  $ table  : num [1:53940] 55 61 65 58 58 57 57 55 61 61 ...
##  $ price  : int [1:53940] 326 326 327 334 335 336 336 337 337 338 ...
##  $ x      : num [1:53940] 3.95 3.89 4.05 4.2 4.34 3.94 3.95 4.07 3.87 4 ...
##  $ y      : num [1:53940] 3.98 3.84 4.07 4.23 4.35 3.96 3.98 4.11 3.78 4.05 ...
##  $ z      : num [1:53940] 2.43 2.31 2.31 2.63 2.75 2.48 2.47 2.53 2.49 2.39 ...

Từ kết quả trên, ta đọc được 1 số thông tin như sau:

  • Dataset gồm có 53940 hàng tương đương 53940 viên kim cương được nghiên cứu

  • Gồm có 10 biến, đó là:

    • price: Giá của viên kim cương (USD)
    • carat: Trọng lượng của viên kim cương (carat)
    • cut: Chất lượng của vết cắt (Fair, Good, Very Good, Excellent, Ideal)
    • color: Màu sắc của viên kim cương
    • clarity: Độ trong của viên kim cương
    • x: Chiều dài của viên kim cương (mm)
    • y: Chiều rộng của viên kim cương (mm)
    • z: Độ sâu của viên kim cương (mm)
    • table: Chiều rộng của đỉnh kim cương so với điểm rộng nhất
    • depth: Tỷ lệ phần trăm độ sâu Từ những dữ liệu trên, ta sẽ tiến hành trực quan hoá dữ liệu

Vẽ biểu đồ

Biểu đồ 1

Ở biểu đồ đầu tiên, ta tiến hành xem các thông số về Color

library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ lubridate 1.9.3     ✔ tibble    3.2.1
## ✔ purrr     1.0.2     ✔ tidyr     1.3.1
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(scales)
## 
## Attaching package: 'scales'
## 
## The following object is masked from 'package:purrr':
## 
##     discard
## 
## The following object is masked from 'package:readr':
## 
##     col_factor
lg %>% ggplot(aes(x = color)) +
    geom_bar() +
    labs(x = 'Loại', y = 'Số lượng') + labs(title = ': Số lượng kim cương của từng màu')

Từ biểu đồ trên, có thể thấy được tổng quát về màu sắc của các viên kim cương chúng ta phân tích

Biểu đồ 2

Vẫn là phân tích về màu sắc tuy nhiên bây giờ chúng ta sẽ quy đổi sang số liệu % nhằm có cái nhìn tổng quan hơn

lg %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(color,n)) +
    geom_col(fill='orange') +
    geom_text(aes(label = percent(n/length(lg$carat))),vjust = 2, color = 'black') +
    labs(x = 'Loại', y = 'Số lượng') + labs(title = ': % kim cương của từng màu ')

Từ đây ta cũng dễ dàng nắm bắt tỉ trọng màu sắc của các loại hơn

Biểu đồ 3

Tiếp tục là về màu sắc, tuy nhiên ở đây chúng ta sẽ phân tích từng màu sắc theo độ trong

lg %>% group_by(clarity,color) %>% summarise(n=n()) %>%
  ggplot(aes(x = clarity,y = n)) +
    geom_col(position = 'dodge') +
    facet_wrap(~color) +
    labs(x = 'Loại', y = 'Số lượng') + labs(title = ': Số lượng kim cương của từng màu theo độ trong')
## `summarise()` has grouped output by 'clarity'. You can override using the
## `.groups` argument.

Theo bảng trên, dễ dãng thấy được màu E,F,G là trong nhất còn I,J có độ trong thấp nhất

Biểu đồ 4

Ta sẽ tạo một biểu đồ histogram hiển thị phân phối giá của kim cương theo màu sắc.

lg %>% ggplot(aes(x = price, fill = color)) +
  geom_histogram(binwidth = 500)

Biểu đồ 5

Cũng với bảng trên, lần này ta sẽ cho thẳng số liệu của từng thành phần trong mỗi bảng

lg %>% group_by(clarity,color) %>% summarise(n=n()) %>%
  ggplot(aes(x = clarity,y = n)) +
    geom_col(position = 'dodge') +
    facet_wrap(~color) +
    geom_text(aes(label = n),vjust = 0, color = 'orange') +
    labs(x = 'Loại', y = 'Số lượng') + labs(title = ': Số lượng kim cương của từng màu theo độ trong')
## `summarise()` has grouped output by 'clarity'. You can override using the
## `.groups` argument.

Từ đây, dễ dàng thấy được chính xác thông số của chúng

Biểu đồ 6

Bây giờ ta sẽ phân tích số lượng kim cương của từng loại màu theo chiều dài

Trước tiên, ta sẽ mã hóa chiều dài (biến x) của viên kim cương dựa trên tứ phân vị của nó như sau:Ngắn - Trung bình - Trung bình khá - Dài. Tiếp đến ta sẽ vẽ biểu đồ thể hiện số lượng kim cương của từng loại màu theo các chiều dài khác nhau.

a4 <- quantile(lg$x, probs = .25)
a5 <- quantile(lg$x, probs = .50)
a6 <- quantile(lg$x, probs = .75)

lg$chieudai <- case_when(lg$x <= a4 ~ 'Ngắn', 
                            lg$x > a4 & lg$x <= a5 ~ 'Trung bình', 
                            lg$x > a5 & lg$x <= a6 ~ 'Trung bình khá', 
                            lg$x > a6 ~ 'Dài')

lng <- lg %>% group_by(color, chieudai) %>% summarise(n = n())

lng %>% ggplot(aes(x = color,y = n)) +
          geom_col(fill = 'orange') +
          facet_wrap(~chieudai) +
          labs(x = 'Màu', y = 'Số lượng') + labs(title = 'Số lượng kim cương của từng màu theo chiều dài')

Biểu đồ 7

Dựa vào dữ liệu chiều dài đã được mã hóa ở trên, ta sẽ tiến hành đánh giá chất lượng kim cương theo chiều dài và loại màu thông qua giá trung bình.

long <- lg %>% group_by(chieudai,color) %>% summarise(avg_price6 = mean(price))

long %>% ggplot(aes(x = color, y = avg_price6)) +
          geom_col(fill = 'orange') +
          facet_wrap(~chieudai) +
          geom_text(aes(label = round(avg_price6)), vjust = 0, color = 'black') +
          labs(x = 'Màu', y = 'Average Price') + labs(title = 'Giá trung bình của từng màu theo chiều dài')

Từ biểu đồ, ta có thể thấy được ở mức chiều dài Dài kim cương có giá trung bình cao hơn rất nhiều so với các chiều dài còn lại Và ở đây ta có thể thấy rõ màu của các loại kim cương không ảnh hưởng nhiều đến giá của nó, mức giá trung bình giữa các màu chênh lệch nhau không lớn.

Biểu đồ 8

Ta sẽ tiến hành đánh giá chất lượng kim cương theo chất lượng cut và loại màu thông qua giá trung bình

lg %>% group_by(cut,color) %>% summarise(n=n()) %>%
  ggplot(aes(x = cut,y = n)) +
    geom_col(fill = 'orange') +
    geom_text(aes(label = n),vjust = 0, color = 'black') +
    facet_wrap(~color) +
    labs(x = 'Thang đo Cut', y = 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

Biểu đồ 9

Ta sẽ tiến hành đánh giá chất lượng kim cương theo trọng lương và loại màu

Trước tiên, ta sẽ mã hóa trọng lượng (biến carat) của viên kim cương dựa trên tứ phân vị của nó như sau:Rất nhẹ - Nhẹ - Vừa- Nặng - Rất nặng. Tiếp đến ta sẽ vẽ biểu đồ thể hiện số lượng kim cương của từng loại màu theo các khối lượng khác nhau.

lg1 <- lg %>% mutate(KL = cut(carat,5, label = c('Rất nhẹ', 'Nhẹ','Vừa','Nặng','Rất nặng')))

Sau đó ta vẽ biểu đồ

lg1 %>% group_by(KL,color) %>% summarise(n=n()) %>%
  ggplot(aes(x = KL,y = n)) +
    geom_col(fill = 'orange') +
    geom_text(aes(label = n),vjust = 0, color = 'black') +
    facet_wrap(~color) +
    labs(x = 'Trọng lượng Carat', y = 'Số lượng')
## `summarise()` has grouped output by 'KL'. You can override using the `.groups`
## argument.

Biểu đồ 10

Tạo ra một biểu đồ mật độ hiển thị phân bố màu sắc của kim cương. Trục x thể hiện màu sắc, trục y thể hiện mật độ (tần suất xuất hiện) của các màu sắc. Màu của biểu đồ được đặt thành màu cam.

lg %>% ggplot(aes(x = color)) +
  geom_density(fill = 'orange')

Biểu đồ 11

Tạo ra một biểu đồ mật độ xếp chồng hiển thị phân phối màu sắc của kim cương theo kiểu cắt. Trục x thể hiện màu sắc, trục y thể hiện mật độ (tần suất xuất hiện) của các màu sắc. Các lớp chồng lên nhau thể hiện mật độ của từng kiểu cắt

lg %>% ggplot(aes(x = color, fill = cut)) +
  geom_density()

Biểu đồ 12

Tạo biểu đồ mật độ phân bố màu sắc kim cương theo từng kiểu cắt.

lg %>% ggplot(aes(x = color)) +
  geom_density(fill = 'orange') +
  facet_wrap(~cut)

Biểu đồ 13

Biểu đồ thể hiện giá trị trung bình của số kim cương phân theo màu

lg %>% group_by(color) %>% summarise(m= mean(carat)) %>%
  ggplot(aes(x = color,y = m)) +
    geom_col(fill = 'orange') +
    geom_text(aes(label = round(m,2)), vjust = 0, color = 'black') +
    labs(x = 'Màu', y = 'Mean')

Biểu đồ 14

Biểu đồ thể hiện tỉ lệ kim cương theo loại và màu

lg <- lg %>% group_by(cut, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
lg %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = lg %>% filter(color == 'D'), fill = 'red') +
  geom_col(data = lg %>% filter(color == 'J'), fill = 'orange')

Biểu đồ này hiển thị hai cột riêng biệt, một màu đỏ và một màu xanh, thể hiện số lượng kim cương theo từng kiểu cắt (cut) cho hai màu sắc ‘D’ và ‘J’.

Biểu đồ 15

Biểu đồ tỉ số cut kim cương

lg %>% group_by(cut) %>% summarise(n = n()) %>%
  ggplot(aes(cut,n)) +
    geom_col(fill='orange') +
    geom_text(aes(label = percent(n/length(lg$cut))),vjust = 2, color = 'black') +
    labs(x = 'Loại', y = 'Số lượng')

Biểu đồ 16

Biểu đồ hiển thị các cột xếp chồng lên nhau theo từng màu sắc.

lg %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(x = '', y = n,fill = color)) +
    geom_col() +
    geom_text(aes(label = n),position = position_stack(vjust = 1))

Biểu đồ 17

Biểu đồ hiển thị một hình tròn được chia thành các miếng bánh theo tỉ lệ số lượng kim cương của mỗi màu sắc

lg %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(x = '', y = n,fill = color)) +
    geom_col(color = 'black') +
    coord_polar('y') +
    geom_text(aes(x = 1.3, label = n),position = position_stack(vjust = .5)) +
    theme_void()

Biểu đồ 18

Ta sẽ tiến hành mã hóa biến carat của dataset này dựa trên các tứ phân vị để mã hóa thành 4 giá trị: Nhỏ - Vừa - Khá Lớn - Lớn. Sau đó ta vẽ biểu đồ dựa trên số lượng các giá trị vừa mã hóa.

a <- quantile(mtl$carat, probs = .25)
b <- quantile(mtl$carat, probs = .50)
c <- quantile(mtl$carat, probs = .75)

mtl$KL <- case_when(mtl$carat <= a ~ 'Nhỏ', 
                            mtl$carat > a & mtl$carat <= b ~ 'Vừa', 
                            mtl$carat > b & mtl$carat <= c ~ 'Khá Lớn', 
                            mtl$carat > c ~ 'Lớn')

mtl %>% ggplot(aes(x = KL)) +
          geom_bar(fill = 'purple') +
          labs(x = 'Trọng lượng', y = 'Số viên kim cương') + labs(title = 'Số lượng kim cương theo từng trọng lượng')

Ta có thể thấy, số lượng kim cương ở mỗi trọng lượng gần như bằng nhau, chỉ số viên ở phần có trọng lượng Nhỏ là nhỉnh hơn 3 loại còn lại.

Biểu đồ 19

Từ dữ liệu về biến carat đã được mã hóa ở trên, ta sẽ tiếp tục đánh giá chất lượng của các viên kim cương dựa trên trọng lượng của nó thông qua mức giá trung bình.

mtl5 <- mtl %>% group_by(KL) %>% summarise(avg_price4 = mean(price))

mtl5 %>% ggplot(aes(x = KL, y = avg_price4)) + 
          geom_col(fill = 'blue') + 
          geom_text(aes(label = round(avg_price4)),vjust = 2, color = 'white') +
          labs(x = 'Trọng lượng', y = 'Average Price') + labs(title = 'Giá trung bình theo trọng lượng')

Ở biểu đồ này ta có thể thấy rất rõ sự chênh lệch giá trung bình giữa các viên kim cương có trọng lượng khác nhau:

  • Các viên có trọng lượng Lớn có mức giá cao hơn rất nhiều so với 3 loại còn lại, điều đó thể hiện trọng lượng càng nặng thì giá càng cao.

  • Các viên kim cương Nhỏ có mức giá rất thấp.

  • Ta có thể kết luận mức giá của kim cương tỷ lệ thuận với trọng lượng của nó, kim cương càng nặng giá càng cao cũng như càng nhẹ thì giá càng thấp.

Biểu đồ 20

Tương tự như ở trọng lượng, ta sẽ tiến hành mã hóa biến depth dựa trên tứ phân vị của nó để chia thành 4 giá trị: Thấp - Trung Bình Thấp - Trung Bình - Sâu và sau đó sẽ tiến hành vẽ biểu đồ dựa trên số lượng kim cương các loại.

a1 <- quantile(mtl$depth, probs = .25)
a2 <- quantile(mtl$depth, probs = .50)
a3 <- quantile(mtl$depth, probs = .75)

mtl$dosau <- case_when(mtl$depth <= a1 ~ 'Thấp', 
                            mtl$depth > a1 & mtl$depth <= a2 ~ 'Trung bình thấp', 
                            mtl$depth > a2 & mtl$depth <= a3 ~ 'Trung bình', 
                            mtl$depth > a3 ~ 'Sâu')

mtl %>% ggplot(aes(x = dosau)) +
          geom_bar(fill = 'orange') +
          labs(x = 'Độ sâu', y = 'Số viên kim cương') + labs(title = 'Số lượng kim cương theo từng độ sâu')

Ta có thể thấy số lượng kim cương phân tán đều cho các độ sâu, điều này là hợp lý bởi vì chúng ta mã hóa dữ liệu dựa trên tứ phân vị của biến depth.

Biểu đồ 21

Từ dữ liệu biến depth đã được mã hóa ở trên, ta tiến hành đánh giá chất lượng của kim cương dựa trên độ sâu của nó thông qua mức giá trung bình:

mtl6 <- mtl %>% group_by(dosau) %>% summarise(avg_price5 = mean(price))

mtl6 %>% ggplot(aes(x = dosau, y = avg_price5)) + 
          geom_col(fill = 'red') + 
          geom_text(aes(label = round(avg_price5)),vjust = 2, color = 'white') +
          labs(x = 'Độ Sâu', y = 'Average Price') + labs(title = 'Giá trung bình theo độ sâu')

Ở biểu đồ này, ta thấy giá trung bình ở độ sâu SâuThấp cao hơn hẳn 2 độ sâu còn lại.

Biểu đồ 22

Từ dữ liệu của biến carat đã được mã hóa ở trên, ta kết hợp cùng với biến cut để tạo nên biểu đồ thể hiện số lượng của từng loại trọng lượng và chất lượng vết cắt.

mtl10 <- mtl %>% group_by(KL, cut) %>% summarise(n1 = n())

mtl10 %>% ggplot(aes(x = cut,y = n1)) +
          geom_col(data = mtl10 %>% filter(KL == 'Nhỏ'), fill = 'red') +
          geom_col(data = mtl10 %>% filter(KL == 'Vừa'), fill = 'blue') +
          geom_col(data = mtl10 %>% filter(KL == 'Khá Lớn'), fill = 'yellow') +
           geom_col(data = mtl10 %>% filter(KL == 'Lớn'), fill = 'pink') +
          labs(x = 'Chất lượng vết cắt', y = 'Số lượng') + labs(title = 'Số lượng kim cương theo trọng lượng của từng chất lượng vết cắt')

Theo biểu đồ trên, ta thấy kim cương có trọng lượng lớn hầu như chiếm nhiều nhất ở tất cả các loại cut.

Biểu đồ 23

Từ biến price ta sẽ chia nó thành 5 giá trị tương ứng với giá của nó như sau: Rất Rẻ - Rẻ - Trung bình - Đắt - Rất Đắt, từ đó ta sẽ tiến hành vẽ biểu đồ thể hiện số lượng kim cương theo từng giá trị đã được mã hóa.

mtl <- mtl %>% mutate(price.coded = case_when(
                        price < 500 ~ 'Rất rẻ',
                        price >= 500 & price < 1000 ~ 'Rẻ', 
                        price >=1000 & price <2000 ~ 'Trung bình',
                        price >=2000 & price <3000 ~ 'Đắt',
                        price >= 3000 ~ 'Rất Đắt'))

mtl11 <- mtl %>% group_by(price.coded) %>% summarise(n_price = n())

mtl11 %>% ggplot(aes(x = price.coded, y = n_price)) +
          geom_col(fill = 'blue') +
          geom_text(aes(label = n_price), vjust = 2, color = 'white')+
          labs(title = 'Số lượng kim cương theo giá', x = 'Price', y = 'Số lượng')

Ta dễ dàng nhận xét được rằng đa số viên kim cương được thống kê trong dataset này có mức giá đắt là trên 3000 USD với 23606 viên kim cương, và lớn hơn rất nhiều so với 1729 viên kim cương có giá nhỏ hơn 500 USD.

Biểu đồ 24

Như các cách ở trên, ta dễ dàng tạo được 1 biểu đồ số lượng viên kim cương theo chiều rộng bằng cách mã hóa dữ liệu của biến này theo các giá trị như sau:Nhỏ - Vừa - Rộng. Sau đó sẽ đếm số kim cương theo từng chiều rộng khác nhau.

mtl$chieurong <- case_when(mtl$y < 5.5 ~ 'Nhỏ', mtl$y >=5.5 & mtl$y < 6.5 ~ 'Vừa', mtl$y >= 6.5 ~ 'Rộng')

mtl14 <- mtl %>% group_by(chieurong) %>% summarise(n14 = n())

mtl14 %>% ggplot(aes(x = chieurong, y = n14)) +
          geom_col(fill = 'orange') +
          geom_text(aes(label = n14), vjust = 2, color = 'red')+
          labs(title = 'Số lượng kim cương theo chiều rộng', x = 'Chiều rộng', y = 'Số lượng')

Vậy ta có thể thấy, đa số viên kim cương là nhỏ (chiều rộng nhỏ hơn 5.5mm).

Biểu đồ 25

Ta sẽ tiến hành mã hóa dữ liệu biến table thành các giá trị character như sau: Mặt bàn hẹp - Mặt bàn trung bình - Mặt bàn rộng. Và sau đó sẽ đếm số kim cương theo độ rộng của mặt bàn.

mtl$matban <- case_when(mtl$table <= 55 ~ 'Mặt bàn hẹp', mtl$table >55 & mtl$table <= 60 ~ 'Mặt bàn trung bình', mtl$table > 60 ~ 'Mặt bàn rộng')

mtl15 <- mtl %>% group_by(matban) %>% summarise(n15 = n())

mtl15 %>% ggplot(aes(x = matban, y = n15)) +
          geom_col(fill = 'green') +
          geom_text(aes(label = n15), vjust = 2, color = 'blue')+
          labs(title = 'Số lượng kim cương theo độ rộng của mặt bàn', x = 'Mặt bàn', y = 'Số lượng')

Các viên kim cương trong dataset này đa số có mặt bàn trung bình (table lớn hơn 55 và nhỏ hơn 60).

Biểu đồ 26

Ta tiến hành tính giá trị trung bình của biến price theo dữ liệu biến y(chiều rộng) đã được mã hóa ở trên và vẽ biểu đồ thể hiện mức giá trung bình theo từng chiều rộng để có thể đánh giá chất lượng kim cương của từng độ rộng khác nhau.

mtl16 <- mtl %>% group_by(chieurong) %>% summarise(avg_price15= mean(price))

mtl16 %>% ggplot(aes(x = chieurong, y = avg_price15))+
          geom_col(fill = 'green') +
          geom_text(aes(label = round(avg_price15)), vjust = 2, color ='white') +
          labs(title = 'Giá trung bình của kim cương theo chiều rộng', x = 'Chiều rộng', y = 'Average Price')

Từ biểu đồ 2.16, ta dễ dàng nhận ra chiều rộng cũng sẽ tỷ lệ thuận với giá của viên kim cương. Những viên kim cương có chiều rộng lớn hơn 6.5mm có giá cao hơn rất nhiều so với những viên kim cương khác.

Biểu đồ 27

Ta tiến hành tính giá trị trung bình của biến price theo dữ liệu biến table(độ rộng mặt bàn) đã được mã hóa ở trên và vẽ biểu đồ thể hiện mức giá trung bình theo từng loại mặt bàn để có thể đánh giá chất lượng kim cương của từng loại khác nhau.

mtl16 <- mtl %>% group_by(matban) %>% summarise(avg_price16= mean(price))

mtl16 %>% ggplot(aes(x = matban, y = avg_price16))+
          geom_col(fill = 'purple') +
          geom_text(aes(label = round(avg_price16)), vjust = 2, color ='white') +
          labs(title = 'Giá trung bình của kim cương theo độ rộng mặt bàn', x = 'Độ rộng mặt bàn', y = 'Average Price')

Từ biểu đồ 2.16, ta có thể thấy mức giá trung bình không chênh lệch nhiều giữa các độ rộng mặt bàn khác nhau nên có thể đưa ra 1 kết luận chủ quan rằng độ rộng mặt bàn không ảnh hưởng nhiều đến giá trị của viên kim cương.

Biểu đồ 28

Đầu tiên, ta sẽ tiến hành rút trích dữ liệu các viên kim cương có màu loại D, sao đó từ các biến KL được mã hóa từ carat và biến price.coded được mã hóa từ biến price ta sẽ thực hiện vẽ biểu đồ đếm số lượng các viên kim cương để có thể đánh giá chất lượng của viên kim cương màu D dựa trên trọng lượng của chúng

mtl17 <- mtl %>% filter(color == 'D') %>%
                group_by(KL,price.coded) %>%
                summarise(n17 = n())

mtl17 %>% ggplot(aes(x = price.coded, y = n17)) + 
          geom_col(fill = 'black') +
          facet_wrap(~KL) +
          geom_text(aes(label = n17),vjust = 0.5, color = 'red')+
          labs(title = 'Mức giá của kim cương màu loại D theo trọng lượng', x = 'Mức giá', y = 'Số lượng')

Ở các viên kim cương màu loại D, giá trị gần như sẽ phụ thuộc vào trọng lượng của viên kim cương đó, trọng lượng càng lớn giá càng đắt, trọng lượng càng nhỏ giá càng rẻ. Điều này là hợp lý vì ở biểu đồ 2.13 đã chứng minh giá trị của viên kim cương tỷ lệ thuận với trọng lượng của nó.

Biểu đồ 29

Ta rút trích dữ liệu các viên kim cương có màu loại E, sau đó sẽ tính mức giá trung bình của các viên kim cương này theo biến cut để có thể đánh giá được ảnh hưởng của chất lượng vết cắt đến giá trị của kim cương màu loại E.

mtl18 <- mtl %>% filter(color == 'E') %>%
                group_by(cut) %>%
                summarise(avg_price18 = mean(price))

mtl18 %>% ggplot(aes(x = cut, y = avg_price18)) + 
          geom_col(fill = 'grey') +         
       geom_text(aes(label = round(avg_price18)),vjust = 2, color = 'brown')+
          labs(title = 'Mức giá trung bình của kim cương màu loại E theo chất lượng vết cắt', x = 'Chất lượng vết cắt', y = 'Average Price')

Nhìn chung, mức giá trung bình của kim cương loại E theo chất lượng vết cắt phân bố không khác nhiều so với mức giá trung bình trên toàn bộ kim cương theo chất lượng vết cắt (biểu đồ 2.3). Có 1 điểm khác nhỏ là ở kim cương loại E, chất lượng Fair có giá trị cao nhất, điều này khác so với trên toàn bộ kim cương thì chất lượng Premium có giá trị cao nhất.

Biểu đồ 30

Ta rút trích dữ liệu các viên kim cương có màu loại F, sau đó sẽ tính số lượng của các viên kim cương này theo biến clarity có mức giá như thế nào để có thể đánh giá được ảnh hưởng của độ trong đến giá trị của kim cương màu loại F.

mtl19 <- mtl %>% filter(color == 'F') %>%
                group_by(clarity,price.coded) %>%
                summarise(n19 = n())

mtl19 %>% ggplot(aes(x = price.coded, y = n19)) + 
          geom_col(fill = 'brown') +       
          facet_wrap(~clarity) +
          labs(title = 'Mức giá của kim cương màu F theo độ trong', x = 'Mức giá', y = 'Số lượng')

Ở biểu đồ 2.19, ta có thể thấy những viên kim cương màu loại E có mức giá đắt và rất đắt tập trung chủ yếu ở độ trong SI1 và SI2, điều này là hợp lí bởi vì ở biểu đồ 2.2 khi phân tích mức giá trung bình của từng độ trong thì SI1 và SI2 là 2 nhóm độ trong dẫn đầu ở giá. Vậy ta có thể kết luận rằng mức giá sẽ giảm dần từ SI2 - SI1 - VS2 - VS1 - VVS2 - VVS1 - IF I1

---
title: "Nhiệm vụ 4"
author: "MTLonggg"
date: "`r format(Sys.time(), '%H:%M:%S, %d - %m - %Y')`"
output:
  html_document:
    code_download: true
    code_folding: show
    theme: "default"
    toc_depth: 2
    toc_float: true
    toc: true
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
```
# Nhiệm vụ 4

Ở nhiệm vụ này, chúng ta sẽ tiến hành các thao tác để vẽ các biểu đồ nhằm phân tích số liệu của một bộ dữ liệu. Cụ thể ở đây, chúng ta sẽ sử dụng bộ dataset ***Diamonds***, đây là một bộ dataset nằm trong package ***ggplot2***. Ta sẽ tiến hành xem một số thông tin cơ bản của dataset này
```{r}
library(ggplot2)
data(package = 'ggplot2')
lg <- diamonds
str(lg)
```
Từ kết quả trên, ta đọc được 1 số thông tin như sau:

- Dataset gồm có 53940 hàng tương đương 53940 viên kim cương được nghiên cứu

- Gồm có 10 biến, đó là:

  - **price**: Giá của viên kim cương (USD)
  - **carat**: Trọng lượng của viên kim cương (carat)
  - **cut**: Chất lượng của vết cắt (Fair, Good, Very Good, Excellent, Ideal)
  - **color**: Màu sắc của viên kim cương
  - **clarity**: Độ trong của viên kim cương
  - **x**: Chiều dài của viên kim cương (mm)
  - **y**: Chiều rộng của viên kim cương (mm)
  - **z**: Độ sâu của viên kim cương (mm)
  - **table**: Chiều rộng của đỉnh kim cương so với điểm rộng nhất
  - **depth**: Tỷ lệ phần trăm độ sâu
Từ những dữ liệu trên, ta sẽ tiến hành trực quan hoá dữ liệu

# Vẽ biểu đồ

## Biểu đồ 1

Ở biểu đồ đầu tiên, ta tiến hành xem các thông số về **Color** 
```{r}
library(tidyverse)
library(scales)
lg %>% ggplot(aes(x = color)) +
    geom_bar() +
    labs(x = 'Loại', y = 'Số lượng') + labs(title = ': Số lượng kim cương của từng màu')
    
```
Từ biểu đồ trên, có thể thấy được tổng quát về màu sắc của các viên kim cương chúng ta phân tích

## Biểu đồ 2 
Vẫn là phân tích về màu sắc tuy nhiên bây giờ chúng ta sẽ quy đổi sang số liệu **%** nhằm có cái nhìn tổng quan hơn
```{r}
lg %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(color,n)) +
    geom_col(fill='orange') +
    geom_text(aes(label = percent(n/length(lg$carat))),vjust = 2, color = 'black') +
    labs(x = 'Loại', y = 'Số lượng') + labs(title = ': % kim cương của từng màu ')
```
Từ đây ta cũng dễ dàng nắm bắt tỉ trọng màu sắc của các loại hơn

## Biểu đồ 3
Tiếp tục là về màu sắc, tuy nhiên ở đây chúng ta sẽ phân tích từng ***màu sắc*** theo  ***độ trong*** 
```{r}
lg %>% group_by(clarity,color) %>% summarise(n=n()) %>%
  ggplot(aes(x = clarity,y = n)) +
    geom_col(position = 'dodge') +
    facet_wrap(~color) +
    labs(x = 'Loại', y = 'Số lượng') + labs(title = ': Số lượng kim cương của từng màu theo độ trong')
```
Theo bảng trên, dễ dãng thấy được màu E,F,G là trong nhất còn I,J có độ trong thấp nhất

## Biểu đồ 4
Ta sẽ tạo một biểu đồ histogram hiển thị phân phối giá của kim cương theo màu sắc.
```{r}
lg %>% ggplot(aes(x = price, fill = color)) +
  geom_histogram(binwidth = 500)
```

## Biểu đồ 5
Cũng với bảng trên, lần này ta sẽ cho thẳng số liệu của từng thành phần trong mỗi bảng
```{r}
lg %>% group_by(clarity,color) %>% summarise(n=n()) %>%
  ggplot(aes(x = clarity,y = n)) +
    geom_col(position = 'dodge') +
    facet_wrap(~color) +
    geom_text(aes(label = n),vjust = 0, color = 'orange') +
    labs(x = 'Loại', y = 'Số lượng') + labs(title = ': Số lượng kim cương của từng màu theo độ trong')
```
Từ đây, dễ dàng thấy được chính xác thông số của chúng

## Biểu đồ 6
Bây giờ ta sẽ phân tích  số lượng kim cương của từng loại màu theo chiều dài

Trước tiên, ta sẽ mã hóa chiều dài (biến **x**) của viên kim cương dựa trên tứ phân vị của nó như sau:**Ngắn - Trung bình - Trung bình khá - Dài**. Tiếp đến ta sẽ vẽ biểu đồ thể hiện số lượng kim cương của từng loại màu theo các chiều dài khác nhau.
```{r message=FALSE}
a4 <- quantile(lg$x, probs = .25)
a5 <- quantile(lg$x, probs = .50)
a6 <- quantile(lg$x, probs = .75)

lg$chieudai <- case_when(lg$x <= a4 ~ 'Ngắn', 
                            lg$x > a4 & lg$x <= a5 ~ 'Trung bình', 
                            lg$x > a5 & lg$x <= a6 ~ 'Trung bình khá', 
                            lg$x > a6 ~ 'Dài')

lng <- lg %>% group_by(color, chieudai) %>% summarise(n = n())

lng %>% ggplot(aes(x = color,y = n)) +
          geom_col(fill = 'orange') +
          facet_wrap(~chieudai) +
          labs(x = 'Màu', y = 'Số lượng') + labs(title = 'Số lượng kim cương của từng màu theo chiều dài')
```

## Biểu đồ 7
Dựa vào dữ liệu chiều dài đã được mã hóa ở trên, ta sẽ tiến hành đánh giá chất lượng kim cương theo chiều dài và loại màu thông qua giá trung bình.

```{r message=FALSE}
long <- lg %>% group_by(chieudai,color) %>% summarise(avg_price6 = mean(price))

long %>% ggplot(aes(x = color, y = avg_price6)) +
          geom_col(fill = 'orange') +
          facet_wrap(~chieudai) +
          geom_text(aes(label = round(avg_price6)), vjust = 0, color = 'black') +
          labs(x = 'Màu', y = 'Average Price') + labs(title = 'Giá trung bình của từng màu theo chiều dài')
```

Từ biểu đồ, ta có thể thấy được ở mức chiều dài **Dài** kim cương có giá trung bình cao hơn rất nhiều so với các chiều dài còn lại
Và ở đây ta có thể thấy rõ màu của các loại kim cương không ảnh hưởng nhiều đến giá của nó, mức giá trung bình giữa các màu chênh lệch nhau không lớn.

## Biểu đồ 8
Ta sẽ tiến hành đánh giá chất lượng kim cương theo chất lượng cut và loại màu thông qua giá trung bình
```{r}
lg %>% group_by(cut,color) %>% summarise(n=n()) %>%
  ggplot(aes(x = cut,y = n)) +
    geom_col(fill = 'orange') +
    geom_text(aes(label = n),vjust = 0, color = 'black') +
    facet_wrap(~color) +
    labs(x = 'Thang đo Cut', y = 'Số lượng')
```

## Biểu đồ 9
Ta sẽ tiến hành đánh giá chất lượng kim cương theo trọng lương và loại màu 

Trước tiên, ta sẽ mã hóa trọng lượng (biến **carat**) của viên kim cương dựa trên tứ phân vị của nó như sau:**Rất nhẹ - Nhẹ - Vừa- Nặng - Rất nặng**. Tiếp đến ta sẽ vẽ biểu đồ thể hiện số lượng kim cương của từng loại màu theo các khối lượng khác nhau.
```{r}
lg1 <- lg %>% mutate(KL = cut(carat,5, label = c('Rất nhẹ', 'Nhẹ','Vừa','Nặng','Rất nặng')))
```
Sau đó ta vẽ biểu đồ 

```{r}
lg1 %>% group_by(KL,color) %>% summarise(n=n()) %>%
  ggplot(aes(x = KL,y = n)) +
    geom_col(fill = 'orange') +
    geom_text(aes(label = n),vjust = 0, color = 'black') +
    facet_wrap(~color) +
    labs(x = 'Trọng lượng Carat', y = 'Số lượng')
```

## Biểu đồ 10
Tạo ra một biểu đồ mật độ hiển thị phân bố màu sắc của kim cương. Trục x thể hiện màu sắc, trục y thể hiện mật độ (tần suất xuất hiện) của các màu sắc. Màu của biểu đồ được đặt thành màu cam.
```{r}
lg %>% ggplot(aes(x = color)) +
  geom_density(fill = 'orange')

```

## Biểu đồ 11
Tạo ra một biểu đồ mật độ xếp chồng hiển thị phân phối màu sắc của kim cương theo kiểu cắt. Trục x thể hiện màu sắc, trục y thể hiện mật độ (tần suất xuất hiện) của các màu sắc. Các lớp chồng lên nhau thể hiện mật độ của từng kiểu cắt
```{r}
lg %>% ggplot(aes(x = color, fill = cut)) +
  geom_density()
```

## Biểu đồ 12 
Tạo biểu đồ mật độ phân bố màu sắc kim cương theo từng kiểu cắt.
```{r}
lg %>% ggplot(aes(x = color)) +
  geom_density(fill = 'orange') +
  facet_wrap(~cut)
```

## Biểu đồ 13
Biểu đồ thể hiện giá trị trung bình của số kim cương phân theo màu
```{r}
lg %>% group_by(color) %>% summarise(m= mean(carat)) %>%
  ggplot(aes(x = color,y = m)) +
    geom_col(fill = 'orange') +
    geom_text(aes(label = round(m,2)), vjust = 0, color = 'black') +
    labs(x = 'Màu', y = 'Mean')
```

## Biểu đồ 14
Biểu đồ thể hiện tỉ lệ kim cương theo loại và màu
```{r}
lg <- lg %>% group_by(cut, color) %>% summarise(n = n())
lg %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = lg %>% filter(color == 'D'), fill = 'red') +
  geom_col(data = lg %>% filter(color == 'J'), fill = 'orange')
```
Biểu đồ này hiển thị hai cột riêng biệt, một màu đỏ và một màu xanh, thể hiện số lượng kim cương theo từng kiểu cắt (cut) cho hai màu sắc 'D' và 'J'.

## Biểu đồ 15
Biểu đồ tỉ số cut kim cương
```{r}
lg %>% group_by(cut) %>% summarise(n = n()) %>%
  ggplot(aes(cut,n)) +
    geom_col(fill='orange') +
    geom_text(aes(label = percent(n/length(lg$cut))),vjust = 2, color = 'black') +
    labs(x = 'Loại', y = 'Số lượng')
```

## Biểu đồ 16
Biểu đồ  hiển thị các cột xếp chồng lên nhau theo từng màu sắc.
```{r}
lg %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(x = '', y = n,fill = color)) +
    geom_col() +
    geom_text(aes(label = n),position = position_stack(vjust = 1))
```

## Biểu đồ 17
Biểu đồ hiển thị một hình tròn được chia thành các miếng bánh theo tỉ lệ số lượng kim cương của mỗi màu sắc
```{r}
lg %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(x = '', y = n,fill = color)) +
    geom_col(color = 'black') +
    coord_polar('y') +
    geom_text(aes(x = 1.3, label = n),position = position_stack(vjust = .5)) +
    theme_void()
```

## Biểu đồ 18
```{r include=FALSE}
mtl <- diamonds
```

Ta sẽ tiến hành mã hóa biến **carat** của dataset này dựa trên các tứ phân vị để mã hóa thành 4 giá trị: **Nhỏ - Vừa - Khá Lớn - Lớn**. Sau đó ta vẽ biểu đồ dựa trên số lượng các giá trị vừa mã hóa.

```{r}
a <- quantile(mtl$carat, probs = .25)
b <- quantile(mtl$carat, probs = .50)
c <- quantile(mtl$carat, probs = .75)

mtl$KL <- case_when(mtl$carat <= a ~ 'Nhỏ', 
                            mtl$carat > a & mtl$carat <= b ~ 'Vừa', 
                            mtl$carat > b & mtl$carat <= c ~ 'Khá Lớn', 
                            mtl$carat > c ~ 'Lớn')

mtl %>% ggplot(aes(x = KL)) +
          geom_bar(fill = 'purple') +
          labs(x = 'Trọng lượng', y = 'Số viên kim cương') + labs(title = 'Số lượng kim cương theo từng trọng lượng')
```


Ta có thể thấy, số lượng kim cương ở mỗi trọng lượng gần như bằng nhau, chỉ số viên ở phần có trọng lượng **Nhỏ** là nhỉnh hơn 3 loại còn lại.

## Biểu đồ 19

Từ dữ liệu về biến **carat** đã được mã hóa ở trên, ta sẽ tiếp tục đánh giá chất lượng của các viên kim cương dựa trên trọng lượng của nó thông qua mức giá trung bình.

```{r}
mtl5 <- mtl %>% group_by(KL) %>% summarise(avg_price4 = mean(price))

mtl5 %>% ggplot(aes(x = KL, y = avg_price4)) + 
          geom_col(fill = 'blue') + 
          geom_text(aes(label = round(avg_price4)),vjust = 2, color = 'white') +
          labs(x = 'Trọng lượng', y = 'Average Price') + labs(title = 'Giá trung bình theo trọng lượng')
```

Ở biểu đồ này ta có thể thấy rất rõ sự chênh lệch giá trung bình giữa các viên kim cương có trọng lượng khác nhau:

- Các viên có trọng lượng **Lớn** có mức giá cao hơn rất nhiều so với 3 loại còn lại, điều đó thể hiện trọng lượng càng nặng thì giá càng cao.

- Các viên kim cương **Nhỏ** có mức giá rất thấp.

- Ta có thể kết luận mức giá của kim cương tỷ lệ thuận với trọng lượng của nó, kim cương càng nặng giá càng cao cũng như càng nhẹ thì giá càng thấp.

## Biểu đồ 20

Tương tự như ở trọng lượng, ta sẽ tiến hành mã hóa biến **depth** dựa trên tứ phân vị của nó để chia thành 4 giá trị: **Thấp - Trung Bình Thấp - Trung Bình - Sâu** và sau đó sẽ tiến hành vẽ biểu đồ dựa trên số lượng kim cương các loại.

```{r}
a1 <- quantile(mtl$depth, probs = .25)
a2 <- quantile(mtl$depth, probs = .50)
a3 <- quantile(mtl$depth, probs = .75)

mtl$dosau <- case_when(mtl$depth <= a1 ~ 'Thấp', 
                            mtl$depth > a1 & mtl$depth <= a2 ~ 'Trung bình thấp', 
                            mtl$depth > a2 & mtl$depth <= a3 ~ 'Trung bình', 
                            mtl$depth > a3 ~ 'Sâu')

mtl %>% ggplot(aes(x = dosau)) +
          geom_bar(fill = 'orange') +
          labs(x = 'Độ sâu', y = 'Số viên kim cương') + labs(title = 'Số lượng kim cương theo từng độ sâu')
```

Ta có thể thấy số lượng kim cương phân tán đều cho các độ sâu, điều này là hợp lý bởi vì chúng ta mã hóa dữ liệu dựa trên tứ phân vị của biến **depth**.

## Biểu đồ 21

Từ dữ liệu biến **depth** đã được mã hóa ở trên, ta tiến hành đánh giá chất lượng của kim cương dựa trên độ sâu của nó thông qua mức giá trung bình:
```{r}
mtl6 <- mtl %>% group_by(dosau) %>% summarise(avg_price5 = mean(price))

mtl6 %>% ggplot(aes(x = dosau, y = avg_price5)) + 
          geom_col(fill = 'red') + 
          geom_text(aes(label = round(avg_price5)),vjust = 2, color = 'white') +
          labs(x = 'Độ Sâu', y = 'Average Price') + labs(title = 'Giá trung bình theo độ sâu')
```

Ở biểu đồ này, ta thấy giá trung bình ở độ sâu **Sâu** và **Thấp** cao hơn hẳn 2 độ sâu còn lại.

## Biểu đồ 22

Từ dữ liệu của biến **carat** đã được mã hóa ở trên, ta kết hợp cùng với biến **cut** để tạo nên biểu đồ thể hiện số lượng của từng loại trọng lượng và chất lượng vết cắt.
```{r message=FALSE, warning=FALSE}
mtl10 <- mtl %>% group_by(KL, cut) %>% summarise(n1 = n())

mtl10 %>% ggplot(aes(x = cut,y = n1)) +
          geom_col(data = mtl10 %>% filter(KL == 'Nhỏ'), fill = 'red') +
          geom_col(data = mtl10 %>% filter(KL == 'Vừa'), fill = 'blue') +
          geom_col(data = mtl10 %>% filter(KL == 'Khá Lớn'), fill = 'yellow') +
           geom_col(data = mtl10 %>% filter(KL == 'Lớn'), fill = 'pink') +
          labs(x = 'Chất lượng vết cắt', y = 'Số lượng') + labs(title = 'Số lượng kim cương theo trọng lượng của từng chất lượng vết cắt')
```

Theo biểu đồ trên, ta thấy kim cương có trọng lượng lớn hầu như chiếm nhiều nhất ở tất cả các loại **cut**.

## Biểu đồ 23

Từ biến **price** ta sẽ chia nó thành 5 giá trị tương ứng với giá của nó như sau: **Rất Rẻ - Rẻ - Trung bình - Đắt - Rất Đắt**, từ đó ta sẽ tiến hành vẽ biểu đồ thể hiện số lượng kim cương theo từng giá trị đã được mã hóa.

```{r}
mtl <- mtl %>% mutate(price.coded = case_when(
                        price < 500 ~ 'Rất rẻ',
                        price >= 500 & price < 1000 ~ 'Rẻ', 
                        price >=1000 & price <2000 ~ 'Trung bình',
                        price >=2000 & price <3000 ~ 'Đắt',
                        price >= 3000 ~ 'Rất Đắt'))

mtl11 <- mtl %>% group_by(price.coded) %>% summarise(n_price = n())

mtl11 %>% ggplot(aes(x = price.coded, y = n_price)) +
          geom_col(fill = 'blue') +
          geom_text(aes(label = n_price), vjust = 2, color = 'white')+
          labs(title = 'Số lượng kim cương theo giá', x = 'Price', y = 'Số lượng')
```

Ta dễ dàng nhận xét được rằng đa số viên kim cương được thống kê trong dataset này có mức giá đắt là trên 3000 USD với 23606 viên kim cương, và lớn hơn rất nhiều so với 1729 viên kim cương có giá nhỏ hơn 500 USD.

## Biểu đồ 24

Như các cách ở trên, ta dễ dàng tạo được 1 biểu đồ số lượng viên kim cương theo chiều rộng bằng cách mã hóa dữ liệu của biến này theo các giá trị như sau:**Nhỏ - Vừa - Rộng**. Sau đó sẽ đếm số kim cương theo từng chiều rộng khác nhau.

```{r}
mtl$chieurong <- case_when(mtl$y < 5.5 ~ 'Nhỏ', mtl$y >=5.5 & mtl$y < 6.5 ~ 'Vừa', mtl$y >= 6.5 ~ 'Rộng')

mtl14 <- mtl %>% group_by(chieurong) %>% summarise(n14 = n())

mtl14 %>% ggplot(aes(x = chieurong, y = n14)) +
          geom_col(fill = 'orange') +
          geom_text(aes(label = n14), vjust = 2, color = 'red')+
          labs(title = 'Số lượng kim cương theo chiều rộng', x = 'Chiều rộng', y = 'Số lượng')
```

Vậy ta có thể thấy, đa số viên kim cương là nhỏ (chiều rộng nhỏ hơn 5.5mm).

## Biểu đồ 25

Ta sẽ tiến hành mã hóa dữ liệu biến **table** thành các giá trị **character** như sau: **Mặt bàn hẹp - Mặt bàn trung bình - Mặt bàn rộng**. Và sau đó sẽ đếm số kim cương theo độ rộng của mặt bàn.

```{r}
mtl$matban <- case_when(mtl$table <= 55 ~ 'Mặt bàn hẹp', mtl$table >55 & mtl$table <= 60 ~ 'Mặt bàn trung bình', mtl$table > 60 ~ 'Mặt bàn rộng')

mtl15 <- mtl %>% group_by(matban) %>% summarise(n15 = n())

mtl15 %>% ggplot(aes(x = matban, y = n15)) +
          geom_col(fill = 'green') +
          geom_text(aes(label = n15), vjust = 2, color = 'blue')+
          labs(title = 'Số lượng kim cương theo độ rộng của mặt bàn', x = 'Mặt bàn', y = 'Số lượng')
```

Các viên kim cương trong dataset này đa số có mặt bàn trung bình (**table** lớn hơn 55 và nhỏ hơn 60).

## Biểu đồ 26

Ta tiến hành tính giá trị trung bình của biến **price** theo dữ liệu biến **y**(chiều rộng) đã được mã hóa ở trên và vẽ biểu đồ thể hiện mức giá trung bình theo từng chiều rộng để có thể đánh giá chất lượng kim cương của từng độ rộng khác nhau.

```{r}
mtl16 <- mtl %>% group_by(chieurong) %>% summarise(avg_price15= mean(price))

mtl16 %>% ggplot(aes(x = chieurong, y = avg_price15))+
          geom_col(fill = 'green') +
          geom_text(aes(label = round(avg_price15)), vjust = 2, color ='white') +
          labs(title = 'Giá trung bình của kim cương theo chiều rộng', x = 'Chiều rộng', y = 'Average Price')
          
```

Từ biểu đồ 2.16, ta dễ dàng nhận ra chiều rộng cũng sẽ tỷ lệ thuận với giá của viên kim cương. Những viên kim cương có chiều rộng lớn hơn 6.5mm có giá cao hơn rất nhiều so với những viên kim cương khác.

## Biểu đồ 27

Ta tiến hành tính giá trị trung bình của biến **price** theo dữ liệu biến **table**(độ rộng mặt bàn) đã được mã hóa ở trên và vẽ biểu đồ thể hiện mức giá trung bình theo từng loại mặt bàn để có thể đánh giá chất lượng kim cương của từng loại khác nhau.

```{r}
mtl16 <- mtl %>% group_by(matban) %>% summarise(avg_price16= mean(price))

mtl16 %>% ggplot(aes(x = matban, y = avg_price16))+
          geom_col(fill = 'purple') +
          geom_text(aes(label = round(avg_price16)), vjust = 2, color ='white') +
          labs(title = 'Giá trung bình của kim cương theo độ rộng mặt bàn', x = 'Độ rộng mặt bàn', y = 'Average Price')
          
```

Từ biểu đồ 2.16, ta có thể thấy mức giá trung bình không chênh lệch nhiều giữa các độ rộng mặt bàn khác nhau nên có thể đưa ra 1 kết luận chủ quan rằng độ rộng mặt bàn không ảnh hưởng nhiều đến giá trị của viên kim cương.

## Biểu đồ 28

Đầu tiên, ta sẽ tiến hành rút trích dữ liệu các viên kim cương có màu loại D, sao đó từ các biến **KL** được mã hóa từ **carat** và biến **price.coded** được mã hóa từ biến **price** ta sẽ thực hiện vẽ biểu đồ đếm số lượng các viên kim cương để có thể đánh giá chất lượng của viên kim cương màu D dựa trên trọng lượng của chúng

```{r message=FALSE, warning=FALSE}
mtl17 <- mtl %>% filter(color == 'D') %>%
                group_by(KL,price.coded) %>%
                summarise(n17 = n())

mtl17 %>% ggplot(aes(x = price.coded, y = n17)) + 
          geom_col(fill = 'black') +
          facet_wrap(~KL) +
          geom_text(aes(label = n17),vjust = 0.5, color = 'red')+
          labs(title = 'Mức giá của kim cương màu loại D theo trọng lượng', x = 'Mức giá', y = 'Số lượng')
```

Ở các viên kim cương màu loại D, giá trị gần như sẽ phụ thuộc vào trọng lượng của viên kim cương đó, trọng lượng càng lớn giá càng đắt, trọng lượng càng nhỏ giá càng rẻ. Điều này là hợp lý vì ở biểu đồ 2.13 đã chứng minh giá trị của viên kim cương tỷ lệ thuận với trọng lượng của nó.

## Biểu đồ 29

Ta rút trích dữ liệu các viên kim cương có màu loại E, sau đó sẽ tính mức giá trung bình của các viên kim cương này theo biến **cut** để có thể đánh giá được ảnh hưởng của chất lượng vết cắt đến giá trị của kim cương màu loại E.

```{r message=FALSE, warning=FALSE}
mtl18 <- mtl %>% filter(color == 'E') %>%
                group_by(cut) %>%
                summarise(avg_price18 = mean(price))

mtl18 %>% ggplot(aes(x = cut, y = avg_price18)) + 
          geom_col(fill = 'grey') +         
       geom_text(aes(label = round(avg_price18)),vjust = 2, color = 'brown')+
          labs(title = 'Mức giá trung bình của kim cương màu loại E theo chất lượng vết cắt', x = 'Chất lượng vết cắt', y = 'Average Price')
```

Nhìn chung, mức giá trung bình của kim cương loại E theo chất lượng vết cắt phân bố không khác nhiều so với mức giá trung bình trên toàn bộ kim cương theo chất lượng vết cắt (biểu đồ 2.3). Có 1 điểm khác nhỏ là ở kim cương loại E, chất lượng **Fair** có giá trị cao nhất, điều này khác so với trên toàn bộ kim cương thì chất lượng **Premium** có giá trị cao nhất.

## Biểu đồ 30

Ta rút trích dữ liệu các viên kim cương có màu loại F, sau đó sẽ tính số lượng của các viên kim cương này theo biến **clarity** có mức giá như thế nào để có thể đánh giá được ảnh hưởng của độ trong đến giá trị của kim cương màu loại F.

```{r message=FALSE, warning=FALSE}
mtl19 <- mtl %>% filter(color == 'F') %>%
                group_by(clarity,price.coded) %>%
                summarise(n19 = n())

mtl19 %>% ggplot(aes(x = price.coded, y = n19)) + 
          geom_col(fill = 'brown') +       
          facet_wrap(~clarity) +
          labs(title = 'Mức giá của kim cương màu F theo độ trong', x = 'Mức giá', y = 'Số lượng')
```

Ở biểu đồ 2.19, ta có thể thấy những viên kim cương màu loại E có mức giá đắt và rất đắt tập trung chủ yếu ở độ trong SI1 và SI2, điều này là hợp lí bởi vì ở biểu đồ 2.2 khi phân tích mức giá trung bình của từng độ trong thì SI1 và SI2 là 2 nhóm độ trong dẫn đầu ở giá. Vậy ta có thể kết luận rằng mức giá sẽ giảm dần từ **SI2 - SI1 - VS2 - VS1 - VVS2 - VVS1 - IF I1**


