1 Giới thiệu

1.1 Cài và Load bộ dữ liệu vào R

install.packages("tidyverse", repos="https://cran.rstudio.com/")
## Installing package into 'C:/Users/ASUS/AppData/Local/R/win-library/4.3'
## (as 'lib' is unspecified)
## package 'tidyverse' successfully unpacked and MD5 sums checked
## 
## The downloaded binary packages are in
##  C:\Users\ASUS\AppData\Local\Temp\RtmpucrkLZ\downloaded_packages
library(tidyverse)
## Warning: package 'tidyverse' was built under R version 4.3.3
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ ggplot2   3.4.4     ✔ tibble    3.2.1
## ✔ lubridate 1.9.3     ✔ tidyr     1.3.0
## ✔ purrr     1.0.2
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(scales)
## 
## Attaching package: 'scales'
## 
## The following object is masked from 'package:purrr':
## 
##     discard
## 
## The following object is masked from 'package:readr':
## 
##     col_factor
a <- diamonds

Giải thích các câu lệnh - Install.packages(“tidyverse”): Dòng này sẽ cài đặt gói “tidyverse” vào trong môi trường R - library(tidyverse): Dòng này sẽ tải gói “tidyverse” vào bộ nhớ để sử dụng bất kỳ chức năng nào từ tidyverse - library(scales): Dòng này tải gói “scales” vào bộ nhớ làm việc. “Scales” là một gói trong “tidyverse” được sử dụng để tạo và tùy chỉnh các biểu đồ. - a <- diamonds: Dòng này tải dữ liệu diamonds từ gói dữ liệu mẫu trong tidyverse và gán vào obj a

Kết quả là: Có một obj a bao gồm 53940 obs. of 10 variables

1.2 Thông tin cơ bản của bộ dữ liệu

is.data.frame(a)
## [1] TRUE
length(a)
## [1] 10
names(a)
##  [1] "carat"   "cut"     "color"   "clarity" "depth"   "table"   "price"  
##  [8] "x"       "y"       "z"
dim(a)
## [1] 53940    10
library(skimr)
skim(a)
Data summary
Name a
Number of rows 53940
Number of columns 10
_______________________
Column type frequency:
factor 3
numeric 7
________________________
Group variables None

Variable type: factor

skim_variable n_missing complete_rate ordered n_unique top_counts
cut 0 1 TRUE 5 Ide: 21551, Pre: 13791, Ver: 12082, Goo: 4906
color 0 1 TRUE 7 G: 11292, E: 9797, F: 9542, H: 8304
clarity 0 1 TRUE 8 SI1: 13065, VS2: 12258, SI2: 9194, VS1: 8171

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
carat 0 1 0.80 0.47 0.2 0.40 0.70 1.04 5.01 ▇▂▁▁▁
depth 0 1 61.75 1.43 43.0 61.00 61.80 62.50 79.00 ▁▁▇▁▁
table 0 1 57.46 2.23 43.0 56.00 57.00 59.00 95.00 ▁▇▁▁▁
price 0 1 3932.80 3989.44 326.0 950.00 2401.00 5324.25 18823.00 ▇▂▁▁▁
x 0 1 5.73 1.12 0.0 4.71 5.70 6.54 10.74 ▁▁▇▃▁
y 0 1 5.73 1.14 0.0 4.72 5.71 6.54 58.90 ▇▁▁▁▁
z 0 1 3.54 0.71 0.0 2.91 3.53 4.04 31.80 ▇▁▁▁▁

2 Vẽ Đồ Thị Dạng Bar Chart

2.1 Đồ Thị 1: Đồ thị thể hiện số lượng kim cương theo từng biến cut, color, clarity

a %>% ggplot(aes(x = cut)) +
    geom_bar() +
    labs(x = 'Loại', y = 'Số lượng')

Giải Thích Câu Lệnh: - a %>% ggplot(aes(x = cut)): Dòng này sử dụng toán tử %>% từ gói dplyr để chuyển đổi dữ liệu trong a thành một luồng dữ liệu và đưa vào ggplot2. Trong hàm ggplot(), aes(x = cut) thiết lập một mối quan hệ giữa dữ liệu và các tham số trên trục x, trong trường hợp này là cut, là một biến trong diamonds chứa thông tin về các loại kim cương. - Hàm geom_bar() được sử dụng để tạo ra các cột dựa trên số lần xuất hiện của mỗi giá trị của biến cut - labs(x = ‘Loại’, y = ‘Số lượng’): Dòng này sử dụng hàm labs() để đặt tên cho trục x và trục y của biểu đồ. Trong trường hợp này, trục x được gán nhãn là “Loại” và trục y được gán nhãn là “Số lượng”

2.2 Đồ Thị 2: Đồ thị biểu thị số lượng các quan sát cho từng màu sắc của kim cương

a %>% ggplot(aes(x = color)) +
    geom_bar() +
    labs(x = 'Màu', y = 'Số lượng')

Giải Thích Câu Lệnh: - a %>% ggplot(aes(x = color)): Dòng này sử dụng toán tử %>% từ gói dplyr để chuyển đổi dữ liệu trong a thành một luồng dữ liệu và đưa vào ggplot2. Trong hàm ggplot(), aes(x = color) thiết lập một mối quan hệ giữa dữ liệu và các tham số trên trục x, trong trường hợp này là color, là một biến trong diamonds chứa thông tin về các màu sắc của kim cương. - Hàm geom_bar() được sử dụng để tạo ra các cột dựa trên số lần xuất hiện của mỗi giá trị của biến color - labs(x = ‘Màu’, y = ‘Số lượng’): Dòng này sử dụng hàm labs() để đặt tên cho trục x và trục y của biểu đồ. Trong trường hợp này, trục x được gán nhãn là “Màu” và trục y được gán nhãn là “Số lượng”

2.3 Đồ Thị 3: Đồ thị thể hiện mối quan hệ giữa độ trong của viên kim cương (clarity) và số lượng các viên kim cương

a %>% ggplot(aes(x = clarity)) +
    geom_bar() +
    labs(x = 'Mức độ tinh khiết', y = 'Số lượng')

Giải Thích Câu Lệnh: - a %>% ggplot(aes(x = clarity)): Dòng này sử dụng toán tử %>% từ gói dplyr để chuyển đổi dữ liệu trong a thành một luồng dữ liệu và đưa vào ggplot2. Trong hàm ggplot(), aes(x = clarity) thiết lập một mối quan hệ giữa dữ liệu và các tham số trên trục x, trong trường hợp này là clarity, là một biến trong diamonds chứa thông tin về mức độ tinh khiết của kim cương. - Hàm geom_bar() được sử dụng để tạo ra các cột dựa trên số lần xuất hiện của mỗi giá trị của biến clarity - labs(x = ‘Mức độ tinh khiết’, y = ‘Số lượng’): Dòng này sử dụng hàm labs() để đặt tên cho trục x và trục y của biểu đồ. Trong trường hợp này, trục x được gán nhãn là “Mức độ tinh khiết” và trục y được gán nhãn là “Số lượng”

2.4 Đồ Thị 4: Biểu đồ cột với chú thích số lượng theo từng biến: cut, color, clarity

a %>% group_by(cut) %>% summarise(n = n()) %>%
  ggplot(aes(cut,n)) +
    geom_col(fill='red') +
    geom_text(aes(label = n),vjust = 2, color = 'black') +
    labs(x = 'Loại', y = 'Số lượng')

Giải thích câu lệnh - a %>% group_by(cut) %>% summarise(n = n()): Nhóm dữ liệu trong a theo giá trị của biến cut, sau đó tính tổng số lượng các mẫu trong mỗi nhóm.

  • ggplot(aes(cut,n)): Tạo một khung biểu đồ mới, thiết lập mối quan hệ giữa biến cut trên trục x và số lượng trên trục y.

  • geom_col(fill=‘red’): Thêm một layer biểu đồ cột vào khung biểu đồ với màu nền đỏ.

  • geom_text(aes(label = n),vjust = 2, color = ‘black’): Thêm các nhãn số lượng lên trên các cột. Các nhãn này được lấy từ giá trị của biến n và được căn chỉnh dọc (vjust = 2) và màu chữ là đen (color = ‘black’).

  • labs(x = ‘Loại’, y = ‘Số lượng’): Đặt nhãn cho trục x là “Loại” và trục y là “Số lượng”.

2.5 Đồ Thị 5: Đồ thị thể hiện mối quan hệ giữa màu sắc của viên kim cương (color) và số lượng các viên kim cương(chú thích số lượng)

a %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(color,n)) +
    geom_col(fill='green') +
    geom_text(aes(label = n),vjust = 2, color = 'red') +
    labs(x = 'Màu', y = 'Số lượng')

Giải thích câu lệnh - a %>% group_by(color) %>% summarise(n = n()): Nhóm dữ liệu trong a theo giá trị của biến color, sau đó tính tổng số lượng các mẫu trong mỗi nhóm.

  • ggplot(aes(color,n)): Tạo một khung biểu đồ mới, thiết lập mối quan hệ giữa biến color trên trục x và số lượng trên trục y.

  • geom_col(fill=‘green’): Thêm một layer biểu đồ cột vào khung biểu đồ với màu nền xanh lá cây.

  • geom_text(aes(label = n),vjust = 2, color = ‘red’): Thêm các nhãn số lượng lên trên các cột. Các nhãn này được lấy từ giá trị của biến n và được căn chỉnh dọc (vjust = 2) và màu chữ là đỏ (color = ‘red’).

  • labs(x = ‘Màu’, y = ‘Số lượng’): Đặt nhãn cho trục x là “Màu” và trục y là “Số lượng”.

2.6 Đồ Thị 6: Đồ thị thể hiện mối quan hệ giữa độ trong của viên kim cương (clarity) và số lượng các viên kim cương(chú thích số lượng)

a %>% group_by(clarity) %>% summarise(n = n()) %>%
  ggplot(aes(clarity,n)) +
    geom_col(fill='yellow') +
    geom_text(aes(label = n),vjust = 1, color = 'red') +
    labs(x = 'Mức độ tinh khiết', y = 'Số lượng')

Giải thích câu lệnh - a %>% group_by(clarity) %>% summarise(n = n()): Nhóm dữ liệu trong a theo giá trị của biến clarity, sau đó tính tổng số lượng các mẫu trong mỗi nhóm.

  • ggplot(aes(clarity,n)): Tạo một khung biểu đồ mới, thiết lập mối quan hệ giữa biến clarity trên trục x và số lượng trên trục y.

  • geom_col(fill=‘yellow’): Thêm một layer biểu đồ cột vào khung biểu đồ với màu nền vàng.

  • geom_text(aes(label = n),vjust = 1, color = ‘red’): Thêm các nhãn số lượng lên trên các cột. Các nhãn này được lấy từ giá trị của biến n và được căn chỉnh dọc (vjust = 1) và màu chữ là đổ (color = ‘red’).

  • labs(x = ‘Mức độ tinh khiết’, y = ‘Số lượng’) Đặt nhãn cho trục x là “Mức độ tinh khiết” và trục y là “Số lượng”.

2.7 Đồ Thị 7: Đồ thị thể hiện số lượng kim cương theo từng biến: color, cut, clarity và thể hiện tỷ lệ phần trăm trên tổng số viên kim cương

a %>% group_by(cut) %>% summarise(n = n()) %>%
  ggplot(aes(cut,n)) +
    geom_col(fill='green') +
    geom_text(aes(label = scales::percent(n/length(a$carat))),vjust = 1, color = 'red') +
    labs(x = 'Loại', y = 'Số lượng')

Giải thích câu lệnh: - a %>% group_by(cut) %>% summarise(n = n()): Nhóm dữ liệu trong a theo giá trị của biến cut, sau đó tính tổng số lượng các mẫu trong mỗi nhóm và lưu vào biến n.

  • ggplot(aes(cut,n)): Tạo một khung biểu đồ mới, thiết lập mối quan hệ giữa biến cut trên trục x và số lượng trên trục y.

  • geom_col(fill=‘green’): Thêm một layer biểu đồ cột vào khung biểu đồ với màu nền là màu xanh lá cây.

  • **geom_text(aes(label = scales::percent(n/length(a\(carat))),vjust = 1, color = 'red'):** Thêm các nhãn số liệu lên trên đỉnh của mỗi cột. Các nhãn này là tỉ lệ phần trăm của số lượng mẫu trong mỗi nhóm so với tổng số lượng mẫu (được tính bằng n/length(d\)carat)). Các nhãn được căn chỉnh dọc (vjust = 1) và được định dạng màu đỏ.

  • labs(x = ‘Loại’, y = ‘Số lượng’): Đặt nhãn cho trục x là “Loại” và trục y là “Số lượng”.

2.8 Đồ Thị 8: Đồ thị thể hiện mối quan hệ giữa màu sắc của viên kim cương (color) và số lượng các viên kim cương đồng thời thể hiện tỷ lệ phần trăm của các viên kim cương trên tổng số viên kim cương

a %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(color,n)) +
    geom_col(fill='black') +
    geom_text(aes(label = scales::percent(n/length(a$depth))),vjust = 1, color = 'white') +
    labs(x = 'Màu', y = 'Số lượng')

Giải thích câu lệnh: - a %>% group_by(color) %>% summarise(n = n()): Nhóm dữ liệu trong a theo giá trị của biến color, sau đó tính tổng số lượng các mẫu trong mỗi nhóm và lưu vào biến n.

  • ggplot(aes(color,n)): Tạo một khung biểu đồ mới, thiết lập mối quan hệ giữa biến color trên trục x và số lượng trên trục y.

  • geom_col(fill=‘black’): Thêm một layer biểu đồ cột vào khung biểu đồ với màu nền là màu đen.

  • **geom_text(aes(label = scales::percent(n/length(a\(depth))),vjust = 1, color = 'white'):** Thêm các nhãn số liệu lên trên đỉnh của mỗi cột. Các nhãn này là tỉ lệ phần trăm của số lượng mẫu trong mỗi nhóm so với tổng số lượng mẫu (được tính bằng n/length(a\)depth)). Các nhãn được căn chỉnh dọc (vjust = 1) và được định dạng màu trắng.

  • labs(x = ‘Màu’, y = ‘Số lượng’): Đặt nhãn cho trục x là “Màu” và trục y là “Số lượng”.

2.9 Đồ Thị 9: Đồ thị thể hiện mối quan hệ giữa độ trong của viên kim cương (clarity) và số lượng các viên kim cương đồng thời thể hiện tỷ lệ phần trăm của các viên kim cương trên tổng số viên kim cương

a %>% group_by(clarity) %>% summarise(n = n()) %>%
  ggplot(aes(clarity,n)) +
    geom_col(fill='violet') +
    geom_text(aes(label = scales::percent(n/length(a$price))),vjust = 1, color = 'black') +
    labs(x = 'Mức độ tinh khiết', y = 'Số lượng')

Giải thích câu lệnh: - a %>% group_by(clarity) %>% summarise(n = n()): Nhóm dữ liệu trong a theo giá trị của biến clarity, sau đó tính tổng số lượng các mẫu trong mỗi nhóm và lưu vào biến n.

  • ggplot(aes(clarity,n)): Tạo một khung biểu đồ mới, thiết lập mối quan hệ giữa biến clarity trên trục x và số lượng trên trục y.

  • geom_col(fill=‘violet’): Thêm một layer biểu đồ cột vào khung biểu đồ với màu nền là màu tím.

  • **geom_text(aes(label = scales::percent(n/length(a\(price))),vjust = 1, color = 'black'):** Thêm các nhãn số liệu lên trên đỉnh của mỗi cột. Các nhãn này là tỉ lệ phần trăm của số lượng mẫu trong mỗi nhóm so với tổng số lượng mẫu (được tính bằng n/length(a\)price)). Các nhãn được căn chỉnh dọc (vjust = 1) và được định dạng màu đen.

  • labs(x = ‘Mức độ tinh khiết’, y = ‘Số lượng’): Đặt nhãn cho trục x là “Mức độ tinh khiết” và trục y là “Số lượng”.

2.10 Đồ Thị 10: Biểu đồ cột kép theo mặt cắt (cut) phân tách theo màu sắc (color)

a %>% group_by(cut,color) %>% summarise(n=n()) %>%
  ggplot(aes(x = cut,y = n)) +
    geom_col(position = 'dodge') +
    facet_wrap(~color) +
    geom_text(aes(label = n),vjust = 1, color = 'green') +
    labs(x = 'Loại', y = 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

Giải thích câu lệnh : - a %>% group_by(cut, color) %>% summarise(n = n()): Nhóm dữ liệu trong a theo giá trị của biến cut và color, sau đó tính tổng số lượng các mẫu trong mỗi nhóm và lưu vào biến n.

  • ggplot(aes(x = cut, y = n)): Tạo một khung biểu đồ mới, thiết lập mối quan hệ giữa biến cut trên trục x và số lượng trên trục y.

  • geom_col(position = ‘dodge’): Thêm một layer biểu đồ cột vào khung biểu đồ. Với tham số position = ‘dodge’, các cột được vẽ cách xa nhau, mỗi nhóm cột tương ứng với một giá trị của biến color.

  • facet_wrap(~color): Chia biểu đồ thành nhiều “panes” (phần nhỏ) dựa trên giá trị của biến color, tức là tạo ra nhiều biểu đồ con, mỗi biểu đồ con cho một giá trị riêng của biến color.

  • geom_text(aes(label = n), vjust = 1, color = ‘green’): Thêm các nhãn số liệu lên trên đỉnh của mỗi cột. Các nhãn này được lấy từ biến n và được căn chỉnh dọc (vjust = 1) và định dạng màu chữ là màu xanh lá cây.

  • labs(x = ‘Loại’, y = ‘Số lượng’): Đặt nhãn cho trục x là “Loại” và trục y là “Số lượng”.

2.11 Đồ Thị 11: Biểu đồ cột kép theo mặt cắt (cut) phân tách theo độ trong(clarity)

a %>% group_by(cut,clarity) %>% summarise(n=n()) %>%
  ggplot(aes(x = cut,y = n)) +
    geom_col(position = 'dodge') +
    facet_wrap(~clarity) +
    geom_text(aes(label = n),vjust = 1, color = 'red') +
    labs(x = 'Loại', y = 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

Giải thích câu lệnh : - a %>% group_by(cut, clarity) %>% summarise(n = n()): Nhóm dữ liệu trong a theo giá trị của biến cut và clarity, sau đó tính tổng số lượng các mẫu trong mỗi nhóm và lưu vào biến n.

  • ggplot(aes(x = cut, y = n)): Tạo một khung biểu đồ mới, thiết lập mối quan hệ giữa biến cut trên trục x và số lượng trên trục y.

  • geom_col(position = ‘dodge’): Thêm một layer biểu đồ cột vào khung biểu đồ. Với tham số position = ‘dodge’, các cột được vẽ cách xa nhau, mỗi nhóm cột tương ứng với một giá trị của biến clarity.

  • facet_wrap(~clarity): Chia biểu đồ thành nhiều “panes” (phần nhỏ) dựa trên giá trị của biến clarity, tức là tạo ra nhiều biểu đồ con, mỗi biểu đồ con cho một giá trị riêng của biến clarity.

  • geom_text(aes(label = n), vjust = 1, color = ‘red’): Thêm các nhãn số liệu lên trên đỉnh của mỗi cột. Các nhãn này được lấy từ biến n và được căn chỉnh dọc (vjust = 1) và định dạng màu chữ là màu đỏ.

  • labs(x = ‘Loại’, y = ‘Số lượng’): Đặt nhãn cho trục x là “Loại” và trục y là “Số lượng”.

2.12 Đồ Thị 12: Biểu đồ cột kép theo màu sắc (color) và phân tách theo độ trong (clarity)

a %>% group_by(color,clarity) %>% summarise(n=n()) %>%
  ggplot(aes(x = color,y = n)) +
    geom_col(position = 'dodge') +
    facet_wrap(~clarity) +
    geom_text(aes(label = n),vjust = 1, color = 'white') +
    labs(x = 'Màu', y = 'Số lượng')
## `summarise()` has grouped output by 'color'. You can override using the
## `.groups` argument.

Giải thích câu lệnh : - a %>% group_by(color, clarity) %>% summarise(n = n()): Nhóm dữ liệu trong a theo giá trị của biến color và clarity, sau đó tính tổng số lượng các mẫu trong mỗi nhóm và lưu vào biến n.

  • ggplot(aes(x = color, y = n)): Tạo một khung biểu đồ mới, thiết lập mối quan hệ giữa biến color trên trục x và số lượng trên trục y.

  • geom_col(position = ‘dodge’): Thêm một layer biểu đồ cột vào khung biểu đồ. Với tham số position = ‘dodge’, các cột được vẽ cách xa nhau, mỗi nhóm cột tương ứng với một giá trị của biến clarity.

  • facet_wrap(~clarity): Chia biểu đồ thành nhiều “panes” (phần nhỏ) dựa trên giá trị của biến clarity, tức là tạo ra nhiều biểu đồ con, mỗi biểu đồ con cho một giá trị riêng của biến clarity.

  • geom_text(aes(label = n), vjust = 1, color = ‘white’): Thêm các nhãn số liệu lên trên đỉnh của mỗi cột. Các nhãn này được lấy từ biến n và được căn chỉnh dọc (vjust = 1) và định dạng màu chữ là màu trắng.

  • labs(x = ‘Màu’, y = ‘Số lượng’): Đặt nhãn cho trục x là “Màu” và trục y là “Số lượng”.

2.13 Đồ Thị 13: Biểu đồ cột kép theo theo độ trong (clarity) và phân tách theo màu sắc (color)

a %>% group_by(color,clarity) %>% summarise(n=n()) %>%
  ggplot(aes(x = clarity,y = n)) +
    geom_col(position = 'dodge') +
    facet_wrap(~color) +
    geom_text(aes(label = n),vjust = 1, color = 'black') +
    labs(x = 'Mức độ tinh khiết', y = 'Số lượng')
## `summarise()` has grouped output by 'color'. You can override using the
## `.groups` argument.

Giải thích câu lệnh : - a %>% group_by(color, clarity) %>% summarise(n = n()): Nhóm dữ liệu trong a theo giá trị của biến color và clarity, sau đó tính tổng số lượng các mẫu trong mỗi nhóm và lưu vào biến n.

  • ggplot(aes(x = clarity, y = n)): Tạo một khung biểu đồ mới, thiết lập mối quan hệ giữa biến clarity trên trục x và số lượng trên trục y.

  • geom_col(position = ‘dodge’): Thêm một layer biểu đồ cột vào khung biểu đồ. Với tham số position = ‘dodge’, các cột được vẽ cách xa nhau, mỗi nhóm cột tương ứng với một giá trị của biến color.

  • facet_wrap(~color): Chia biểu đồ thành nhiều “panes” (phần nhỏ) dựa trên giá trị của biến color, tức là tạo ra nhiều biểu đồ con, mỗi biểu đồ con cho một giá trị riêng của biến color.

  • geom_text(aes(label = n), vjust = 1, color = ‘black’): Thêm các nhãn số liệu lên trên đỉnh của mỗi cột. Các nhãn này được lấy từ biến n và được căn chỉnh dọc (vjust = 1) và định dạng màu chữ là màu đen.

  • labs(x = ‘Mức độ tinh khiết’, y = ‘Số lượng’): Đặt nhãn cho trục x là “Mức độ tinh khiết” và trục y là “Số lượng”.

2.14 Đồ Thị 14: Biểu đồ cột kép theo màu sắc (color) và phân tách theo mặt cắt (cut)

a %>% group_by(cut,color) %>% summarise(n=n()) %>%
  ggplot(aes(x = color,y = n)) +
    geom_col(position = 'dodge') +
    facet_wrap(~cut) +
    geom_text(aes(label = n),vjust = 1, color = 'violet') +
    labs(x = 'Màu', y = 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

Giải thích câu lệnh : - a %>% group_by(cut, color) %>% summarise(n = n()): Nhóm dữ liệu trong a theo giá trị của biến cut và color, sau đó tính tổng số lượng các mẫu trong mỗi nhóm và lưu vào biến n.

  • ggplot(aes(x = color, y = n)): Tạo một khung biểu đồ mới, thiết lập mối quan hệ giữa biến color trên trục x và số lượng trên trục y.

  • geom_col(position = ‘dodge’): Thêm một layer biểu đồ cột vào khung biểu đồ. Với tham số position = ‘dodge’, các cột được vẽ cách xa nhau, mỗi nhóm cột tương ứng với một giá trị của biến cut.

  • facet_wrap(~cut): Chia biểu đồ thành nhiều “panes” (phần nhỏ) dựa trên giá trị của biến color, tức là tạo ra nhiều biểu đồ con, mỗi biểu đồ con cho một giá trị riêng của biến cut.

  • geom_text(aes(label = n), vjust = 1, color = ‘violet’): Thêm các nhãn số liệu lên trên đỉnh của mỗi cột. Các nhãn này được lấy từ biến n và được căn chỉnh dọc (vjust = 1) và định dạng màu chữ là màu tím.

  • labs(x = ‘Màu’, y = ‘Số lượng’): Đặt nhãn cho trục x là “Màu” và trục y là “Số lượng”.

2.15 Đồ Thị 15: Biểu đồ cột kép theo theo độ trong (clarity) và phân tách theo mặt cắt (cut)

a %>% group_by(cut,clarity) %>% summarise(n=n()) %>%
  ggplot(aes(x = clarity,y = n)) +
    geom_col(position = 'dodge') +
    facet_wrap(~cut) +
    geom_text(aes(label = n),vjust = 1, color = 'red') +
    labs(x = 'Loại', y = 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

Giải thích câu lệnh : - a %>% group_by(cut, clarity) %>% summarise(n = n()): Nhóm dữ liệu trong a theo giá trị của biến cut và clarity, sau đó tính tổng số lượng các mẫu trong mỗi nhóm và lưu vào biến n.

  • ggplot(aes(x = clarity, y = n)): Tạo một khung biểu đồ mới, thiết lập mối quan hệ giữa biến clarity trên trục x và số lượng trên trục y.

  • geom_col(position = ‘dodge’): Thêm một layer biểu đồ cột vào khung biểu đồ. Với tham số position = ‘dodge’, các cột được vẽ cách xa nhau, mỗi nhóm cột tương ứng với một giá trị của biến cut.

  • facet_wrap(~cut): Chia biểu đồ thành nhiều “panes” (phần nhỏ) dựa trên giá trị của biến cut, tức là tạo ra nhiều biểu đồ con, mỗi biểu đồ con cho một giá trị riêng của biến cut.

  • geom_text(aes(label = n), vjust = 1, color = ‘red’): Thêm các nhãn số liệu lên trên đỉnh của mỗi cột. Các nhãn này được lấy từ biến n và được căn chỉnh dọc (vjust = 1) và định dạng màu chữ là màu đỏ.

  • labs(x = ‘Loại’, y = ‘Số lượng’): Đặt nhãn cho trục x là “Loại” và trục y là “Số lượng”.

2.16 Đồ Thị 16: Biểu đồ cột thể hiện trung bình trọng lượng carat theo chất lượng cắt (cut)

a %>% group_by(cut) %>% summarise(m= mean(carat)) %>%
  ggplot(aes(x = cut,y = m)) +
    geom_col(position = 'dodge') +
    geom_text(aes(label = round(m,2)), vjust = 2, color = 'white') +
    labs(x = 'Loại', y = 'Mean')

Giải thích câu lệnh : - a %>% group_by(cut) %>% summarise(m= mean(carat)): Nhóm dữ liệu trong a theo các giá trị của biến cut, sau đó tính trung bình (mean()) của trọng lượng kim cương (carat) trong mỗi nhóm và lưu vào biến m.

  • ggplot(aes(x = cut, y = m)): Tạo một khung biểu đồ mới, thiết lập mối quan hệ giữa biến cut trên trục x và giá trị trung bình (m) trên trục y.

  • geom_col(position = ‘dodge’): Thêm một layer biểu đồ cột vào khung biểu đồ, với các cột được sắp xếp cạnh nhau theo giá trị của biến cut. Tham số position = ‘dodge’ được sử dụng để sắp xếp các cột cạnh nhau.

  • geom_text(aes(label = round(m,2)), vjust = 2, color = ‘white’): Thêm các nhãn số liệu lên trên đỉnh của mỗi cột. Giá trị của các nhãn là giá trị trung bình của trọng lượng kim cương được làm tròn với hai chữ số sau dấu thập phân (round(m,2)). Các nhãn này được căn chỉnh dọc (vjust = 2) và được màu chữ là màu trắng để phản ánh trên nền cột.

  • labs(x = ‘Loại’, y = ‘Mean’): Đặt nhãn cho trục x là “Loại” và trục y là “Mean” (Trung bình).

2.17 Đồ Thị 17: Biểu đồ cột thể hiện trung bình trọng lượng carat theo màu sắc (color)

a %>% group_by(color) %>% summarise(m= mean(carat)) %>%
  ggplot(aes(x = color,y = m)) +
    geom_col(position = 'dodge') +
    geom_text(aes(label = round(m,2)), vjust = 2, color = 'red') +
    labs(x = 'Màu', y = 'Mean')

Giải thích câu lệnh : - a %>% group_by(color) %>% summarise(m= mean(carat)): Nhóm dữ liệu trong a theo các giá trị của biến color, sau đó tính trung bình (mean()) của trọng lượng kim cương (carat) trong mỗi nhóm và lưu vào biến m.

  • ggplot(aes(x = color, y = m)): Tạo một khung biểu đồ mới, thiết lập mối quan hệ giữa biến color trên trục x và giá trị trung bình (m) trên trục y.

  • geom_col(position = ‘dodge’): Thêm một layer biểu đồ cột vào khung biểu đồ, với các cột được sắp xếp cạnh nhau theo giá trị của biến color. Tham số position = ‘dodge’ được sử dụng để sắp xếp các cột cạnh nhau.

  • geom_text(aes(label = round(m,2)), vjust = 2, color = ‘red’): Thêm các nhãn số liệu lên trên đỉnh của mỗi cột. Giá trị của các nhãn là giá trị trung bình của trọng lượng kim cương được làm tròn với hai chữ số sau dấu thập phân (round(m,2)). Các nhãn này được căn chỉnh dọc (vjust = 2) và được màu chữ là màu đỏ để phản ánh trên nền cột.

  • labs(x = ‘Màu’, y = ‘Mean’): Đặt nhãn cho trục x là “Màu” và trục y là “Mean” (Trung bình).

2.18 Đồ Thị 18: Biểu đồ cột thể hiện trung bình trọng lượng carat theo độ tinh khiết (color)

a %>% group_by(clarity) %>% summarise(m= mean(carat)) %>%
  ggplot(aes(x = clarity,y = m)) +
    geom_col(position = 'dodge') +
    geom_text(aes(label = round(m,2)), vjust = 2, color = 'blue') +
    labs(x = 'Mức Độ Tinh Khiết', y = 'Mean')

2.19 Đồ Thị 19: Biểu đồ cột thể hiện trung bình giá thành theo chất lượng cắt (cut)

a %>% group_by(cut) %>% summarise(mp= mean(price)) %>%
  ggplot(aes(x = cut,y = mp)) +
    geom_col(position = 'dodge') +
    geom_text(aes(label = round(mp,2)), vjust = 2, color = 'white') +
    labs(x = 'Loại', y = 'Mean Price')

Giải thích câu lệnh : - a %>% group_by(cut) %>% summarise(mp= mean(price)): Nhóm dữ liệu trong a theo các giá trị của biến cut, sau đó tính trung bình (mean()) của giá kim cương (price) trong mỗi nhóm và lưu vào biến mp.

  • ggplot(aes(x = cut, y = mp)): Tạo một khung biểu đồ mới, thiết lập mối quan hệ giữa biến cut trên trục x và giá trị trung bình (mp) trên trục y.

  • geom_col(position = ‘dodge’): Thêm một layer biểu đồ cột vào khung biểu đồ, với các cột được sắp xếp cạnh nhau theo giá trị của biến cut. Tham số position = ‘dodge’ được sử dụng để sắp xếp các cột cạnh nhau.

  • geom_text(aes(label = round(mp,2)), vjust = 2, color = ‘white’): Thêm các nhãn số liệu lên trên đỉnh của mỗi cột. Giá trị của các nhãn là giá trị trung bình của giá kim cương được làm tròn với hai chữ số sau dấu thập phân (round(mp,2)). Các nhãn này được căn chỉnh dọc (vjust = 2) và được màu chữ là màu trắng để phản ánh trên nền cột.

  • labs(x = ‘Loại’, y = ‘Mean Price’): Đặt nhãn cho trục x là “Loại” và trục y là “Mean Price” (Giá Trung bình).

2.20 Đồ Thị 20: Biểu đồ cột thể hiện trung bình giá thành theo màu sắc (color)

a %>% group_by(color) %>% summarise(mp= mean(price)) %>%
  ggplot(aes(x = color,y = mp)) +
    geom_col(position = 'dodge') +
    geom_text(aes(label = round(mp,2)), vjust = 2, color = 'red') +
    labs(x = 'Màu', y = 'Mean Price')

Giải thích câu lệnh : - a %>% group_by(color) %>% summarise(mp= mean(price)): Nhóm dữ liệu trong a theo các giá trị của biến color, sau đó tính trung bình (mean()) của giá kim cương (price) trong mỗi nhóm và lưu vào biến mp.

  • ggplot(aes(x = color, y = mp)): Tạo một khung biểu đồ mới, thiết lập mối quan hệ giữa biến color trên trục x và giá trị trung bình (mp) trên trục y.

  • geom_col(position = ‘dodge’): Thêm một layer biểu đồ cột vào khung biểu đồ, với các cột được sắp xếp cạnh nhau theo giá trị của biến color. Tham số position = ‘dodge’ được sử dụng để sắp xếp các cột cạnh nhau.

  • geom_text(aes(label = round(mp,2)), vjust = 2, color = ‘red’): Thêm các nhãn số liệu lên trên đỉnh của mỗi cột. Giá trị của các nhãn là giá trị trung bình của giá kim cương được làm tròn với hai chữ số sau dấu thập phân (round(mp,2)). Các nhãn này được căn chỉnh dọc (vjust = 2) và được màu chữ là màu đỏ để phản ánh trên nền cột.

  • labs(x = ‘Màu’, y = ‘Mean Price’): Đặt nhãn cho trục x là “Màu” và trục y là “Mean Price” (Giá Trung bình).

2.21 Đồ Thị 21: Biểu đồ cột thể hiện trung bình giá thành theo độ trong (clarity)

a %>% group_by(clarity) %>% summarise(mp= mean(price)) %>%
  ggplot(aes(x = clarity,y = mp)) +
    geom_col(position = 'dodge') +
    geom_text(aes(label = round(mp,2)), vjust = 2, color = 'blue') +
    labs(x = 'Mức Độ Tinh Khiết', y = 'Mean')

Giải thích câu lệnh : - a %>% group_by(clarity) %>% summarise(mp= mean(price)): Nhóm dữ liệu trong a theo các giá trị của biến clarity, sau đó tính trung bình (mean()) của giá kim cương (price) trong mỗi nhóm và lưu vào biến mp.

  • ggplot(aes(x = clarrity, y = mp)): Tạo một khung biểu đồ mới, thiết lập mối quan hệ giữa biến clarity trên trục x và giá trị trung bình (mp) trên trục y.

  • geom_col(position = ‘dodge’): Thêm một layer biểu đồ cột vào khung biểu đồ, với các cột được sắp xếp cạnh nhau theo giá trị của biến clarity. Tham số position = ‘dodge’ được sử dụng để sắp xếp các cột cạnh nhau.

  • geom_text(aes(label = round(mp,2)), vjust = 2, color = ‘blue’): Thêm các nhãn số liệu lên trên đỉnh của mỗi cột. Giá trị của các nhãn là giá trị trung bình của giá kim cương được làm tròn với hai chữ số sau dấu thập phân (round(mp,2)). Các nhãn này được căn chỉnh dọc (vjust = 2) và được màu chữ là màu xanh dương để phản ánh trên nền cột.

  • labs(x = ‘Mức độ tinh khiết’, y = ‘Mean Price’): Đặt nhãn cho trục x là “Mức độ tinh khiết” và trục y là “Mean Price” (Giá Trung bình).

2.22 Đồ Thị 22: Biểu đồ cột thể hiện trung bình độ sâu của vết cắt (depth) theo độ trong(clarity)

a %>% group_by(clarity) %>% summarise(md= mean(depth)) %>%
  ggplot(aes(x = clarity,y = md)) +
    geom_col(position = 'dodge') +
    geom_text(aes(label = round(md,2)), vjust = 2, color = 'blue') +
    labs(x = 'Mức Độ Tinh Khiết', y = 'Mean')

Giải thích câu lệnh: - a %>% group_by(clarity) %>% summarise(md= mean(depth)): Nhóm dữ liệu trong a theo các giá trị của biến clarity, sau đó tính trung bình (mean()) của chiều cao (depth) trong mỗi nhóm và lưu vào biến md.

  • ggplot(aes(x = clarity, y = md)): Tạo một khung biểu đồ mới, thiết lập mối quan hệ giữa biến clarity trên trục x và giá trị trung bình (md) trên trục y.

  • geom_col(position = ‘dodge’): Thêm một layer biểu đồ cột vào khung biểu đồ, với các cột được sắp xếp cạnh nhau theo giá trị của biến clarity. Tham số position = ‘dodge’ được sử dụng để sắp xếp các cột cạnh nhau.

  • geom_text(aes(label = round(md,2)), vjust = 2, color = ‘blue’): Thêm các nhãn số liệu lên trên đỉnh của mỗi cột. Giá trị của các nhãn là giá trị trung bình của chiều cao được làm tròn với hai chữ số sau dấu thập phân (round(md,2)). Các nhãn này được căn chỉnh dọc (vjust = 2) và được màu chữ là màu xanh dương để phản ánh trên nền cột.

  • labs(x = ‘Mức độ tinh khiết’, y = ‘Mean Depth’): Đặt nhãn cho trục x là “Mức độ tinh khiết” và trục y là “Mean Depth” (Trung bình chiều cao).

2.23 Đồ Thị 23: Đồ thị so sánh số lượng viên kim cương giữa 2 màu theo chất lượng cắt (cut)

a1 <- a %>% group_by(cut, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
a %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = a1 %>% filter(color == 'I'), fill = 'black') +
  geom_col(data = a1 %>% filter(color == 'J'), fill = 'red')

Giải thích câu lệnh: - a1 <- a %>% group_by(cut, color) %>% summarise(n = n()): Tạo một bộ dữ liệu mới a1 bằng cách nhóm dữ liệu trong a theo các giá trị của biến cut và color, sau đó tính số lượng mẫu trong mỗi nhóm và lưu vào biến n.

  • a %>% ggplot(aes(x = cut, y = n)): Tạo một khung biểu đồ mới, thiết lập mối quan hệ giữa biến cut trên trục x và số lượng (n) trên trục y.

  • (data = a1 %>% filter(color == ‘I’), fill = ‘black’): Thêm một layer biểu đồ cột vào khung biểu đồ, với dữ liệu được lấy từ a1 sau khi lọc ra những dòng có giá trị của biến color là ‘I’. Các cột này sẽ được tô màu đen.

  • geom_col(data = a1 %>% filter(color == ‘J’), fill = ‘red’): Thêm một layer biểu đồ cột vào khung biểu đồ, với dữ liệu được lấy từ a1 sau khi lọc ra những dòng có giá trị của biến color là ‘J’. Các cột này sẽ được tô màu đỏ.

2.24 Đồ Thị 24: Đồ thị thể hiện mối quan hệ giữa trọng lượng và số lượng của các viên kim cương

a2 <- a %>% mutate(caratC = cut(carat,5, label = c('rất nhỏ', 'nhỏ','vừa','lớn','rất lớn')))
a2 %>% ggplot(aes(x = caratC)) +
  geom_bar(fill = 'red')

Giải thích câu lệnh : - a2 <- a %>% mutate(caratC = cut(carat,5, label = c(‘rất nhỏ’, ‘nhỏ’,‘vừa’,‘lớn’,‘rất lớn’))): Tạo một bộ dữ liệu mới a2 từ bộ dữ liệu a. Trong bộ dữ liệu này, một biến mới được thêm vào là caratC. Biến này được tạo ra bằng cách chia biến carat thành 5 nhóm sử dụng hàm cut(). Nhãn của các nhóm được đặt lần lượt là ‘rất nhỏ’, ‘nhỏ’, ‘vừa’, ‘lớn’, ‘rất lớn’.

  • a2 %>% ggplot(aes(x = caratC)): Tạo một khung biểu đồ mới, thiết lập mối quan hệ giữa biến caratC trên trục x.

  • geom_bar(fill = ‘red’): Thêm một layer biểu đồ cột vào khung biểu đồ với màu nền là màu đỏ. Mỗi cột trong biểu đồ này đại diện cho số lượng mẫu trong mỗi nhóm của biến caratC.

2.25 Đồ Thị 25:

a3 <- a %>% group_by(color, clarity) %>% summarise(n = n())
## `summarise()` has grouped output by 'color'. You can override using the
## `.groups` argument.
a %>% ggplot(aes(x = clarity, y = n)) +
  geom_col(data = a3 %>% filter(clarity == 'VS1'), fill = 'blue') +
  geom_col(data = a3 %>% filter(clarity == 'VS2'), fill = 'red')

Giải thích dữ liệu: - a3 <- a %>% group_by(color, clarity) %>% summarise(n = n()): Tạo một bộ dữ liệu mới a3 bằng cách nhóm dữ liệu trong a theo các giá trị của biến color và clarity, sau đó tính số lượng mẫu trong mỗi nhóm và lưu vào biến n.

  • a %>% ggplot(aes(x = color, y = n)): Tạo một khung biểu đồ mới, thiết lập mối quan hệ giữa biến color trên trục x và số lượng (n) trên trục y.

  • geom_col(data = a3 %>% filter(clarity == ‘I1’), fill = ‘blue’): Thêm một layer biểu đồ cột vào khung biểu đồ, với dữ liệu được lấy từ a3 sau khi lọc ra những dòng có giá trị của biến clarity là ‘I1’. Các cột này sẽ được tô màu xanh lam.

  • geom_col(data = a3 %>% filter(clarity == ‘VS2’), fill = ‘red’): Thêm một layer biểu đồ cột vào khung biểu đồ, với dữ liệu được lấy từ a3 sau khi lọc ra những dòng có giá trị của biến clarity là ‘VS2’. Các cột này sẽ được tô màu đỏ.

2.26 Đồ Thị 26: Đồ thị thể hiện Giá của các viên Kim cương

a %>% ggplot(aes(x = price)) +
  geom_histogram(binwidth = 500, fill = 'green', color = 'red')

Giải thích câu lệnh: - a %>% ggplot(aes(x = price)): Tạo một khung biểu đồ mới, thiết lập mối quan hệ giữa biến price trên trục x.

  • geom_histogram(binwidth = 500, fill = ‘green’, color = ‘red’): Thêm một layer biểu đồ histogram vào khung biểu đồ. Các thanh histogram được tạo ra với chiều rộng của mỗi biến là 500 (đơn vị giá). Màu nền của histogram được tô màu xanh lá cây (fill = ‘green’) và màu viền của histogram được tô màu đỏ (color = ‘red’).

2.27 Đồ Thị 27: Đồ thị thể hiện độ sâu của vết cắt của các viên kim cương

a %>% ggplot(aes(x = depth)) +
  geom_histogram(binwidth = 1, fill = 'violet', color = 'black')

Giải thích câu lệnh: - a %>% ggplot(aes(x = depth)): Tạo một khung biểu đồ mới, thiết lập mối quan hệ giữa biến depth trên trục x.

  • geom_histogram(binwidth = 1, fill = ‘violet’, color = ‘black’): Thêm một layer biểu đồ histogram vào khung biểu đồ. Các thanh histogram được tạo ra với chiều rộng của mỗi biến là 1 đơn vị. Màu nền của histogram được tô màu tím (fill = ‘violet’) và màu viền của histogram được tô màu đen (color = ‘black’).

2.28 Đồ Thị 28: Đồ Thị thể hiện giá của các viên kim cương có phân loại theo màu sắc

a %>% ggplot(aes(x = price, fill = color)) +
  geom_histogram(binwidth = 2000)

Giải thích câu lệnh: - a %>% ggplot(aes(x = price, fill = color)): Tạo một khung biểu đồ mới, thiết lập mối quan hệ giữa biến price trên trục x và sử dụng biến color để tạo các nhóm màu sắc.

  • geom_histogram(binwidth = 2000): Thêm một layer biểu đồ histogram vào khung biểu đồ. Các thanh histogram được tạo ra với chiều rộng của mỗi biến là 2000 đơn vị giá. Các nhóm màu sắc sẽ phân biệt các thanh histogram dựa trên giá trị của biến color.

2.29 Đồ Thị 29: so sánh phân phối độ sâu của kim cương cho từng màu sắc khác nhau.

a %>% ggplot(aes(x = depth, fill = color)) +
  geom_histogram(binwidth = 2)

Giải thích câu lệnh: - a %>% ggplot(aes(x = depth, fill = color)): Tạo một khung biểu đồ mới, thiết lập mối quan hệ giữa biến depth trên trục x và sử dụng biến color để tạo các nhóm màu sắc.

  • geom_histogram(binwidth = 2): Thêm một layer biểu đồ histogram vào khung biểu đồ. Các thanh histogram được tạo ra với chiều rộng của mỗi biến là 2 đơn vị độ sâu. Các nhóm màu sắc sẽ phân biệt các thanh histogram dựa trên giá trị của biến color.

2.30 Đồ Thị 30: phân phối của giá kim cương (biến “price”) dựa trên màu sắc của chúng (biến “color”).

a %>% ggplot(aes(x = price)) +
  geom_histogram(binwidth = 500, fill = 'black', color = 'white') +
  facet_wrap(~color)

Giải thích câu lệnh: - a %>% ggplot(aes(x = price)): Tạo một khung biểu đồ mới, thiết lập mối quan hệ giữa biến price trên trục x.

  • geom_histogram(binwidth = 500, fill = ‘black’, color = ‘white’): Thêm một layer biểu đồ histogram vào khung biểu đồ. Các thanh histogram được tạo ra với chiều rộng của mỗi biến là 500 đơn vị giá. Màu nền của histogram được tô màu đen (fill = ‘black’) và màu viền của histogram được tô màu trắng (color = ‘white’).

  • facet_wrap(~color): Tạo các biểu đồ con (facets) dựa trên biến color, tức là mỗi biểu đồ con sẽ hiển thị dữ liệu cho một mức của biến color.

