library(DT)
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ ggplot2   3.5.0     ✔ tibble    3.2.1
## ✔ lubridate 1.9.3     ✔ tidyr     1.3.0
## ✔ purrr     1.0.2     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
t<- diamonds
datatable(t)
## Warning in instance$preRenderHook(instance): It seems your data is too big for
## client-side DataTables. You may consider server-side processing:
## https://rstudio.github.io/DT/server.html

Sử dụng bộ dữ liệu có sẵn trong R

  • Bộ dữ liệu được dụng là bộ dữ liệu Diamonds có sẵn trong R

  • Bộ dữ liệu diamonds trong R là một tập dữ liệu phổ biến được sử dụng trong các ví dụ và hướng dẫn về phân tích dữ liệu. Nó bao gồm thông tin về 53.940 viên kim cương cắt tròn, với 10 biến mô tả các đặc điểm khác nhau của mỗi viên kim cương:

    • carat: Trọng lượng của viên kim cương (carat)
    • cut: Chất lượng đường cắt (Fair, Good, Very Good, Ideal, Premium)
    • color: Màu sắc của viên kim cương (từ D (tốt nhất) đến J (kém nhất))
    • price: Giá trị của viên kim cương (đơn vị USD)
    • clarity: Độ trong suốt của viên kim cương (từ IF (tốt nhất) đến I1 (kém nhất))
    • depth: Tỷ lệ phần trăm độ sâu (tính theo z / x)
    • table: Chiều rộng của mặt bàn (tính theo % của đường kính)
    • x: Chiều dài của viên kim cương (mm)
    • y: Chiều rộng của viên kim cương (mm)
    • z: Độ sâu của viên kim cương (mm)

## Thông tin cơ bản của bộ dữ liệu

is.data.frame(t)
## [1] TRUE
length(t)
## [1] 10
names(t)
##  [1] "carat"   "cut"     "color"   "clarity" "depth"   "table"   "price"  
##  [8] "x"       "y"       "z"
dim(t)
## [1] 53940    10
library(skimr)
skim(t)
Data summary
Name t
Number of rows 53940
Number of columns 10
_______________________
Column type frequency:
factor 3
numeric 7
________________________
Group variables None

Variable type: factor

skim_variable n_missing complete_rate ordered n_unique top_counts
cut 0 1 TRUE 5 Ide: 21551, Pre: 13791, Ver: 12082, Goo: 4906
color 0 1 TRUE 7 G: 11292, E: 9797, F: 9542, H: 8304
clarity 0 1 TRUE 8 SI1: 13065, VS2: 12258, SI2: 9194, VS1: 8171

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
carat 0 1 0.80 0.47 0.2 0.40 0.70 1.04 5.01 ▇▂▁▁▁
depth 0 1 61.75 1.43 43.0 61.00 61.80 62.50 79.00 ▁▁▇▁▁
table 0 1 57.46 2.23 43.0 56.00 57.00 59.00 95.00 ▁▇▁▁▁
price 0 1 3932.80 3989.44 326.0 950.00 2401.00 5324.25 18823.00 ▇▂▁▁▁
x 0 1 5.73 1.12 0.0 4.71 5.70 6.54 10.74 ▁▁▇▃▁
y 0 1 5.73 1.14 0.0 4.72 5.71 6.54 58.90 ▇▁▁▁▁
z 0 1 3.54 0.71 0.0 2.91 3.53 4.04 31.80 ▇▁▁▁▁
library(DT)
library(tidyverse)
t<- diamonds
datatable(t)
## Warning in instance$preRenderHook(instance): It seems your data is too big for
## client-side DataTables. You may consider server-side processing:
## https://rstudio.github.io/DT/server.html

Phân tích dữ liệu với Bar-Chart

Giới thiệu

  • Biểu đồ thanh (Bar chart) là một dạng biểu đồ thống kê thị trường phổ biến, sử dụng các thanh dọc hoặc ngang để biểu diễn dữ liệu theo thời gian hoặc theo các nhóm khác nhau. Mỗi thanh đại diện cho một giá trị cụ thể, và độ dài của thanh thể hiện giá trị đó.

  • Ý nghĩa của biểu đồ thanh:

    • So sánh dữ liệu: Biểu đồ thanh giúp so sánh trực quan các giá trị khác nhau trong cùng một nhóm hoặc giữa các nhóm khác nhau.
    • Xác định xu hướng: Biểu đồ thanh có thể giúp xác định xu hướng tăng hoặc giảm của dữ liệu theo thời gian.
    • Phân bố dữ liệu: Biểu đồ thanh giúp so sánh sự phân bố của dữ liệu giữa các nhóm khác nhau.
library(dplyr)
library(tidyverse)
library(scales)
## 
## Attaching package: 'scales'
## The following object is masked from 'package:purrr':
## 
##     discard
## The following object is masked from 'package:readr':
## 
##     col_factor

Vẽ Đồ Thị Dạng Bar Chart

Đồ Thị 1

t %>% group_by(cut) %>% summarise(n = n()) %>%
  ggplot(aes(cut,n)) +
  geom_col(fill='red') +
   geom_text(aes(label = n),vjust = 2, color = 'blue') +
  labs(x = 'Loại', y = 'Số lượng')

Nhận xét kết quả

Kết quả nhận được là một biểu đồ dạng Bar_Chart thể hiện gồm số lượng của những loại kim cương(Fair(1610), Good(4906), Very good(12082), Premium(13791), Ideal(21551)).Qua biểu đồ trên chúng ta sẽ thấy được số lượng của Ideal chiếm nhiều nhất(21551) trong 5 loại trên. Chiếm tỷ lệ thấp nhất là Fair với 1610 viên kim cương . Số lượng kim cương giảm dần từ Ideal đến Fair. Có sự chênh lệch lớn giữa loại lớn nhất và thấp nhất.

Đồ Thị 2

t %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(color,n)) +
  geom_col(fill='red') +
   geom_text(aes(label = n),vjust = 2, color = 'blue') +
  labs(x = 'Loại', y = 'Số lượng')

Nhận xét kết quả - Kết quả nhận được là một biểu đồ dạng Bar_Chart gồm 7 cột tương ứng với 7 màu D,E,F,G,H,I,J - Dựa vào biểu đồ ta biết được số lượng của mỗi loại: - D có 6775 viên - E có 9797 viến - F có 9542 viến - G có 11292 viên - H có 8304 viên - I có 5422 viên - J có 2808 viên - Trong đó số lượng của G chiếm nhiều nhất 11292 kim cương, thấp nhất là J với 2808 viên

Đồ Thị 3

t %>% group_by(clarity) %>% summarise(n = n()) %>%
  ggplot(aes(clarity,n)) +
  geom_col(fill='red') +
   geom_text(aes(label = n),vjust = 2, color = 'blue') +
  labs(x = 'Loại', y = 'Số lượng')

Nhận xét kết quả - Kết quả nhận được là một biểu đồ dạng Bar_Chart gồm 8 cột tương ứng với 8 độ trong suốt khác nhau:I1, SI2, SI1, VS2, VS1, VVS2, VVS1, IF - I1 chiếm 741 viên kim cương thấp nhất trong các loại - SI2 chiếm 9194 viên - SI1 chiếm 13065 viên nhiều nhất trong các loại - VS2 chiếm 12258 viên - VS1 chiếm 8171 viên - VVS2 chiếm 5066 viên - VVS1 chiếm 3655 viên - IF chiếm 1790 viên

Đồ Thị 4

t %>% group_by(clarity) %>% summarise(n = n()) %>%
  ggplot(aes(clarity,n)) +
  geom_col(fill='red') +
   geom_text(aes(label = percent(n/length(t$carat))),vjust = 2, color = 'blue') +
  labs(x = 'Loại', y = 'Số lượng')

Nhận xét kết quả
- Kết quả nhận được là một biểu đồ dạng Bar_Chart gồm 8 cột tương ứng với 8 độ trong suốt khác nhau:I1, SI2, SI1, VS2, VS1, VVS2, VVS1, IF - I1 chiếm 1,4% viên kim cương - SI2 chiếm 17% viên - SI1 chiếm 24,2% viên nhiều nhất trong các loại - VS2 chiếm 22,7% viên - VS1 chiếm 15,1% viên - VVS2 chiếm 9,4% viên - VVS1 chiếm 6,8% viên - IF chiếm 3,3% viên thấp nhất trong các loại - Chênh lệch giữa SI1(nhiều nhất) và I1(thấp nhất) là hơn 17 lần

Đồ Thị 5

t %>% group_by(cut) %>% summarise(n = n()) %>%
  ggplot(aes(cut,n)) +
  geom_col(fill='red') +
   geom_text(aes(label = percent(n/length(t$carat))),vjust = 2, color = 'blue') +
  labs(x = 'Loại', y = 'Số lượng')

Nhận xét kết quả
- Kết quả nhận được là một biểu đồ dạng Bar_Chart thể hiện gồm số lượng của 5 loại kim cương: Fair, Good, Very good, Premium, Ideal. - Fair chiếm 3% kim cương có tỷ trọng nhỏ nhất - Good chiếm 9.1% kim cương - Very good chiếm 22.4% kim cương - Premium chiếm 25.6% kim cương - Ideal chiếm 40% kim cương có tỷ trọng lớn nhất - Số lượng kim cương tăng dần từ Fair đến Ideal - Số lượng loại lớn nhất(Ideal) và nhỏ nhất(Fair) chênh lệch với nhau hơn 13 lần

Đồ Thị 6

t%>% group_by(cut) %>% summarise(v= var(carat)) %>%
  ggplot(aes(x = cut,y = v)) +
    geom_col(position = 'dodge') +
    geom_text(aes(label = round(v,2)), vjust = 2, color = 'blue') +
     labs(x = 'Loại', y = 'Số lượng')

Nhận xét kết quả
- Dây là là một biểu đò dang Bar_Chart thể hiện mức độ chenh lệch của biến cut(chất lượn đường cắt) theo biến cut - Biểu đồ cho thấy mức độ chênh lệch giữa các biến của “cut” dao động trong khoảng 0.19 đến 0.27 - Nhóm “Fair và Premium” có mức độ chênh lệch cao nhất (khoảng 0.27 ). - Nhóm “Ideal” có mức đọ chênh lệch thấp nhất (khoảng 0.19 ).

Đồ Thị 7

t %>% group_by(clarity,color) %>% summarise(n=n()) %>%
  ggplot(aes(x = color,y = n)) +
    geom_col(position = 'dodge') +
    facet_wrap(~clarity) +
    geom_text(aes(label = n),vjust = 0, color = 'blue') +
    labs(x = 'color', y = 'Số lượng')
## `summarise()` has grouped output by 'clarity'. You can override using the
## `.groups` argument.

Nhận xét kết quả
- Ta nhận được là một biểu đồ dạng Bar_Chart thể hiện số lượng của các loại kim cương trong biến color theo từng nhóm gồm 7 biểu đồ nhỏ tương ứng với từng loại trong cột clarity(I1, SI2, SI1, VS2, VS1, VVS2, VVS1, IF) - Qua đây ta sẽ thấy rõ độ phân tán về số lượng của của cột color theo các nhóm clarity

Đồ Thị 8

t %>% group_by(clarity,color) %>% summarise(n=n()) %>%
  ggplot(aes(x = clarity,y = n)) +
    geom_col(position = 'dodge') +
    facet_wrap(~color) +
    geom_text(aes(label = n),vjust = 0, color = 'red') +
    labs(x = 'clarity', y = 'Số lượng',title='Hình 1.10: Số lượng kim cương theo độ trong suốt và màu')
## `summarise()` has grouped output by 'clarity'. You can override using the
## `.groups` argument.

Nhận xét kết quả

  • Ta nhận được là một biểu đồ dạng Bar_Chart thể hiện số lượng của các loại kim cương trong biến clarity theo từng nhóm gồm 7 biểu đồ nhỏ tương ứng với từng loại trong cột color(D,E,F,G,H,I,J)
  • Qua đây ta sẽ thấy rõ độ phân tán về số lượng của của cột clarity theo các nhóm color

Đồ Thị 9

t%>% group_by(clarity,color)%>%summarise(m=mean(depth))%>%ggplot(aes(x=color, y= m))+
  geom_col(position='dodge')+
  facet_wrap(~clarity)+
  geom_text(aes(label= round(m,1)), vjust=2, color='blue')+ labs(x= 'color', y= 'Meann')
## `summarise()` has grouped output by 'clarity'. You can override using the
## `.groups` argument.

Nhận xét kết quả - Biểu đồ thể hiện mối quan hệ giữa màu sắc(color) và độ sâu trung bình (Mean Depth) của kim cương, phân theo độ trong suốt(Clarity). - Mỗi thanh màu đại diện cho độ sâu trung bình của kim cương có cùng độ trong suốt và màu sắc. - Có thể quan sát thấy sự khác biệt về độ sâu trung bình giữa các độ trong suốt khác nhau trong cùng một màu sắc. - Qua biểu đồ trên ta thầy được giá trị trung bình của độ sâu (depth) khá là ổn định dao động trong khoảng 61-64

Đồ Thị 10

t%>% group_by(clarity,color)%>%summarise(m=mean(depth))%>%ggplot(aes(x=clarity, y= m))+
  geom_col(position='dodge')+
  facet_wrap(~color)+
  geom_text(aes(label= round(m,1)), vjust=2, color='blue')+ labs(x= 'clarity', y= 'Meann')
## `summarise()` has grouped output by 'clarity'. You can override using the
## `.groups` argument.

Nhận xét biểu đồ

  • Biểu đồ thể hiện mối quan hệ giữa độ trong suốt (Clarity) và độ sâu trung bình (Mean Depth) của kim cương, phân theo màu sắc (Color).
  • Mỗi thanh màu đại diện cho độ sâu trung bình của kim cương có cùng độ trong suốt và màu sắc.
  • Có thể quan sát thấy sự khác biệt về độ sâu trung bình giữa các độ trong suốt khác nhau trong cùng một màu sắc.
  • Qua biểu đồ trên ta thầy được giá trị trung bình của độ sâu (depth) khá là ổn định dao động trong khoảng 61-64

Đồ Thị 11

a<- t %>% group_by(cut, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
a %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data =  a%>% filter(color == 'H'), fill = 'blue') +
  geom_col(data =  a%>% filter(color == 'F'), fill = 'red')+labs()

Nhận xét biểu đồ - Biểu đồ cho thấy số lượng màu H theo cut(chất lượng) cực kỳ ít so với số lượng màu F theo cut(chất lượng) ## Đồ Thị 12

t %>% ggplot(aes(x = price)) +
  geom_histogram(binwidth = 400, fill = 'blue', color = 'red')

Nhận xét biểu đồ - Biểu đồ tăng từ phải sang trái cho thấy số lượng viên kim cương có giá trị trên 5000 ít hơn số viên kim cương có giá trị dưới 5000

Đồ Thị 13

t %>% ggplot(aes(x = price, fill = color)) +
  geom_histogram(binwidth = 400)

Nhận xét biểu đồ - Biểu đồ thể hiện giá theo các loại biến color(D,E,F,G,H,I,J) khác nhau ## Đồ Thị 14

t %>% ggplot(aes(x = price)) +
  geom_histogram(binwidth = 400, fill = 'blue', color = 'red') +
  facet_wrap(~color)

Nhận xét biểu đồ - 7 biểu đồ thể hiện giá theo 7 loại màu: D,E,F,G,H,I,J

BIỂU ĐỒ 15

t <- t %>% mutate(priceC = cut(price,5, label = c('rất thấp', 'thấp','vừa','cao','rất cao')))
t %>% ggplot(aes(x = priceC)) +
  geom_bar(fill = 'red') +
  labs(x = 'phân loại', y = 'số lượng')

Nhận xét kết quả
- Ta thêm 1 cột dữ liêu priceC vào bộ dữ liệu t để đánh giá Gía cả của các viên kim cương theo mức độ ‘rất thấp’ ‘thấp’, ‘vừa’, ‘cao’ và ‘rất cao’. Các cột biểu đồ có màu đỏ. Qua biểu đồ trên ta thấy số lượng kim cương có giá ‘rất thấp’ là lớn nhất và giảm dần từ ‘thấp’, ‘vừa’, ‘cao’ và thấp nhất là loại ‘rất cao’

BIỂU ĐỒ 16

t <- diamonds 
b <- t %>% group_by(cut, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
b %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = b %>% filter(color == 'D'), fill = 'red') +
  geom_col(data = b %>% filter(color == 'J'), fill = 'blue')

Nhận xét kết quả
Ta phân loại kim cương theo kiểu cắt và màu sắc sau đó tính số lượng . Ở biểu đồ trên thì ta gắn x là kiểu cắt, y là số lượng của từng loại; ta sẽ lọc các loại kim cương có màu D,cột biểu đồ có màu đỏ và lọc các loại kim cương có màu J, biểu đồ có màu xanh dương. Qua biểu đồ trên ta đã lọc được số lượng kim cương màu D phân bổ ít nhất ở kiểu cắt Fair và tăng dần lên từ Good, Very Good, Premium, và nhiều nhất là Ideal. Và số lượng kim cương có màu J cũng phẩn bổ tương tự như kim cương có màu D # BIỂU ĐỒ 17

t <- diamonds 
b <- t %>% group_by(cut, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
b %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = b %>% filter(color == 'E'), fill = 'red') +
  geom_col(data = b %>% filter(color == 'H'), fill = 'blue')

***Tương tự như biểu đồ số 17, lần này thay vì lọc các kim cương có màu ‘D’ VÀ ‘J’ thì ta sẽ lọc các kim cương có màu ‘E’ VÀ ‘H’. Ở biểu đồ này ta thấy màu E không phân bổ ở loại kim cương có kiểu cắt Fair, Premium, và màu sắc này phân bổ nhiều nhất ở kiểu cắt Ideal giảm dần từ Very Good, Good. Màu H phân bổ ở các kiểu cắt, nhiều nhất là Ideal và giảm dần từ Premium, Very Good, Good và thấp nhất là Fair # BIỂU ĐỒ 18

b <- t %>% group_by(clarity, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'clarity'. You can override using the
## `.groups` argument.
b %>% ggplot(aes(x = clarity, y = n)) +
  geom_col(data = b %>% filter(color == 'F'), fill = 'red') +
  geom_col(data = b %>% filter(color == 'J'), fill = 'blue')

Ta phân loại kim cương theo kiểu độ trong suốt và màu sắc sau đó tính số lượng . Ở biểu đồ trên thì ta gắn x là độ trong suốt, y là số lượng của từng loại; ta sẽ lọc các loại kim cương có màu ‘F’,cột biểu đồ có màu đỏ và lọc các loại kim cương có màu J, biểu đồ có màu xanh dương. Qua biểu đồ trên ta thấy các màu phân bổ ở tất cả độ trong suốt. Trong đó màu J sẽ phân bổ nhiều nhất ở SI1 rồi giảm dần từ VS2, VS1, SI2, WS2, WS1, IF và thấp nhất là I1. Còn màu F Phân bổ nhiều nhất ở VS2 rồi giảm dần từ SI1, SI2, VS1, WS2, WS1, IF và tháp nhất là I1.

BIỂU ĐỒ 19

b <- t %>% group_by(clarity, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'clarity'. You can override using the
## `.groups` argument.
b %>% ggplot(aes(x = clarity, y = n)) +
  geom_col(data = b %>% filter(color == 'E'), fill = 'red') +
  geom_col(data = b %>% filter(color == 'G'), fill = 'blue')

Tương tự như biểu đồ số 18, lần này thay vì lọc các kim cương có màu ‘F’ VÀ ‘J’ thì ta sẽ lọc các kim cương có màu ‘E’ VÀ ‘G’. Ở biểu đồ này ta thấy màu E chỉ phân bổ ở loại kim cương độ trong suốt là SI2,VS2 và SI1. Còn kim cương màu G phân bổ ở tất cả độ trong suốt, trong đó nhiều nhất là VS2, giảm dần từ VS1, SI1, SI2, VVS2, VVS1, IF và phân bổ ít nhất ở I1.

BIỂU ĐỒ 20

c <- t %>% group_by(clarity, cut) %>% summarise(n = n())
## `summarise()` has grouped output by 'clarity'. You can override using the
## `.groups` argument.
c %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = c %>% filter(clarity == 'IF'), fill = 'red') +
  geom_col(data = c %>% filter(clarity == 'I1'), fill = 'blue')

Ta phân loại kim cương theo kiểu độ trong suốt và kiểu cắt sau đó tính số lượng . Ở biểu đồ trên thì ta gắn x là kiểu cắt, y là số lượng của từng loại; Ta lọc các kim cương có độ trong suốt ‘IF’ là các cột màu đỏ, các kim cương có độ trong suốt ‘I1’ là các cột màu xanh. Qua biểu đồ trên ta thấy kim cương có độ trong suốt ‘IF’ chỉ phân bổ ở kiểu cắt Ideal, Very Good, Premium theo số lượng giảm dần. Trong khi đó độ trong suốt I1 phân bổ ở mọi kiểu cắt, nhiều nhất là Premium và giảm dần từ Fair, Idea, Good, thấp nhất là Very Good.

BIỂU ĐỒ 21

f <- t %>% group_by(clarity, cut) %>% summarise(n = n())
## `summarise()` has grouped output by 'clarity'. You can override using the
## `.groups` argument.
f %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = f %>% filter(clarity == 'SI1'), fill = 'red') +
  geom_col(data = f %>% filter(clarity == 'SI2'), fill = 'blue')

Tương tự như biểu đồ số 20, lần này thay vì lọc các kim cương có độ trong suốt ‘iF’ VÀ ‘i1’ thì ta sẽ lọc các kim cương có độ trong suốt ‘SI1’ VÀ ‘SI2’. Ở biểu đồ này ta thấy độ trong suốt SI1 không phân bổ ở loại kim cương có kiểu cắt Fair, phân bố nhiều nhất ở kiểu cắt Ideal giảm dần từ Very Good, Premium và phân bổ ít nhất ở kiểu cắt Good. Kim cương có độ trong suốt SI2 phân bổ ở tất cả kiểu cắt, nhiều nhất ở kiểu cắt Premium giảm dần từ Ideal, Very Good, Good và phân bổ ít nhất ở kiểu cắt Fair.

BIỂU ĐỒ 22

t %>% group_by(cut) %>% summarise(n = n()) %>%
  ggplot(aes(cut,n)) +
  geom_col(fill='green') +
  geom_text(aes(label = percent(n/length(t$carat))),vjust = 2, color = 'red') +
  labs(x = 'Loại', y = 'Số lượng')

Ta phân loại kim cương theo kiểu cắt và tính số lượng của các kiểu cắt. ta gắn x là ‘Loại’, y là ‘Số Lượng’. Các cột biểu đồ được tô màu xanh lá cây, các số liệu là tỷ khối lượng của mỗi kiểu cắt, các số liệu này có màu đỏ và được điều chỉnh vị trí dọc các cột dữ liệu với đơn vị là 2. Qua biểu đồ trên ta thấy Kiểu cắt Ideal chiếm tỷ lệ cao nhất về trọng lượng (đơn vị carat) và giảm dần từ Premium, Very Good, Good và kiểu cắt Fair có tỷ lệ trọng lượng thấp nhất

BIỂU ĐỒ 23

t %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(color,n)) +
  geom_col(fill='green') +
  geom_text(aes(label = percent(n/length(t$carat))),vjust = 2, color = 'red') +
  labs(x = 'Loại', y = 'Số lượng')

Ta phân loại kim cương theo kiểu màu sắc và tính số lượng của các màu. ta gắn x là ‘Loại’, y là ‘Số Lượng’. Các cột biểu đồ được tô màu xanh lá cây, các số liệu là tỷ lệ khối lượng của mỗi kiểu cắt, các số liệu này có màu đỏ và được điều chỉnh vị trí dọc các cột dữ liệu với đơn vị là 2. Qua biểu đồ trên ta thấy kim cương màu G chiếm tỷ lệ cao nhất về trọng lượng(20,93), giảm dần là E, F, H, D, I và kim cương màu J chiếm tỷ lệ thấp nhất (5,21%)

BIỂU ĐỒ 24

t %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(color,n)) +
  geom_col(fill='green') +
  geom_text(aes(label = percent(n/length(t$price))),vjust = 2, color = 'red') +
  labs(x = 'Loại', y = 'Số lượng')

Ta phân loại kim cương theo kiểu màu sắc và tính số lượng của các màu. ta gắn x là ‘Loại’, y là ‘Số Lượng’. Các cột biểu đồ được tô màu xanh lá cây, các số liệu là tỷ lệ giá tiền của mỗi kiểu cắt, các số liệu này có màu đỏ và được điều chỉnh vị trí dọc các cột dữ liệu với đơn vị là 2. Qua biểu đồ trên ta thấy kim cương màu G chiếm tỷ lệ cao nhất về giá(20,93%), giảm dần là E, F, H, D, I và kim cương màu J chiếm tỷ lệ thấp nhất (5,21%)

BIỂU ĐỒ 25

t %>% group_by(clarity) %>% summarise(n = n()) %>%
  ggplot(aes(clarity,n)) +
  geom_col(fill='green') +
  geom_text(aes(label = percent(n/length(t$price))),vjust = 2, color = 'red') +
  labs(x = 'Loại', y = 'Số lượng')

Ta phân loại kim cương theo độ trong suốt và tính số lượng của các màu. ta gắn x là ‘Loại’, y là ‘Số Lượng’. Các cột biểu đồ được tô màu xanh lá cây, các số liệu là tỷ lệ giá tiền của mỗi loại kim cương, các số liệu này có màu đỏ và được điều chỉnh vị trí dọc các cột dữ liệu với đơn vị là 2. Qua biểu đồ trên ta thấy kim cương có độ trong suốt SI1 chiếm tỷ lệ giá cao nhất (24,2%), giảm dần từ VS2, SI2, VS1, VVS2, VVS1, IF, I1(1,4%)

BIỂU ĐỒ 26

t %>% group_by(cut) %>% summarise(n = n()) %>%
  ggplot(aes(cut,n)) +
  geom_col(fill='green') +
  geom_text(aes(label = percent(n/length(t$price))),vjust = 2, color = 'red') +
  labs(x = 'Loại', y = 'Số lượng')

BIỂU ĐỒ 27

t %>% group_by(cut,color) %>% summarise(n=n()) %>%
  ggplot(aes(x = cut,y = n)) +
    geom_col(position = 'dodge') +
    facet_wrap(~color) +
    labs(x = 'Loại', y = 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

Ta phân loại kim cương theo kiểu cắt và màu sắc sau đó tính số lượng. ta gắn x là loại, y la số lượng và ta chia thành 7 biểu đồ theo 7 loại màu sắc để so sánh. Qua 7 biểu đồ ta nhận xét các màu sắc phân bổ nhiều nhất ở kim cương có kiểu cắt Ideal, giảm dần qua các kiểu cắt Premium, Very Good, Good và phân bổ ít nhất ở kiểu cắt Fair

BIỂU ĐỒ 28

t %>% group_by(color) %>% summarise(m = mean(depth)) %>%
  ggplot(aes(color,m)) +
  geom_col(fill='green') +
  geom_text(aes(label = round(m,2)),vjust = 2, color = 'red') +
  labs(x = 'Loại', y = 'Số lượng')

Ta phân loại kim cương theo màu sắc và tính trung bình tỷ lệ độ sâu của từng loại. Các cột biểu đồ có màu xanh lá cây, các dữ liệu có màu đỏ, được làm tròn đến 2 chữ số thập phân và được điều chỉnh ở vị trí dọc cách cột 2 đơn vị. Qua biểu đồ trên ta thấy các loại màu của kim cương sẽ có xấp xỉ trung bình tỷ lệ độ sâu bằng nhau. Trong đó cao nhất là màu J và thấp nhất là màu E.

BIỂU ĐỒ 29

t %>% ggplot(aes(x = clarity)) +
  geom_bar() +
  labs(x = 'Cấp độ tinh khiết', y = 'Số lượng') +
  coord_flip() +
  labs(title = 'Cấp độ tinh khiết của kim cương (biểu đồ ngang)')

Ta phân loại kim cương theo độ trong suốt. ta gắn x là cấp độ tinh khiết, y là số lượng Và đây là biểu đồ ngang. Qua biểu đồ trên ta thấy SI1 có độ tinh khiết cao nhất, giảm dần từ VS2, SI2, VS1, VVS2, IF và I1 là kim cương có độ trong suốt thấp nhất

BIỂU ĐỒ 30

t %>% group_by(cut) %>% summarise(m= mean(depth)) %>%
  ggplot(aes(x = cut,y = m)) +
  geom_col(position = 'dodge') +
  geom_text(aes(label = round(m,2)), vjust = 2, color = 'green') +
  labs(x = 'Kiểu cắt', y = 'Mean')

Ta phân loại kim cương theo kiểu cắt và tính trung bình tỷ lệ độ sâu (trung bình z/x). ta gắn x là kiểu cắt, y là trung bình. các số liệu được làm tròn 2 chữ số thập phân, được điều chỉnh ở vị trí cách cột dọc 2 đơn vị và có màu xanh lá cây. Qua biểu đồ trên ta thấy kiểu cắt Fair có độ sâu trung bình lớn nhất, giảm dần từ Good, Very Good, Ideal và thấp nhất là Premium

---
title: "Phân tích bộ dữ liệu Diamonds"
author: "Thanh Trọng"
date: "2024-03-02"
output:
  html_document:
    toc: true
    number section: true
    toc_float: true
    code_folding: show
    code_download: true
  word_document:
    toc: true
  pdf_document:
    toc: true
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
```
```{r}
library(DT)
library(tidyverse)
t<- diamonds
datatable(t)
```
# ***Sử dụng bộ dữ liệu có sẵn trong R***

  - Bộ dữ liệu được dụng là bộ dữ liệu Diamonds có sẵn trong R 
  - Bộ dữ liệu diamonds trong R là một tập dữ liệu phổ biến được sử dụng trong các ví dụ và hướng dẫn về phân tích dữ liệu. Nó bao gồm thông tin về 53.940 viên kim cương cắt tròn, với 10 biến mô tả các đặc điểm khác nhau của mỗi viên kim cương:

     - carat: Trọng lượng của viên kim cương (carat)
     - cut: Chất lượng đường cắt (Fair, Good, Very Good, Ideal, Premium)
     - color: Màu sắc của viên kim cương (từ D (tốt nhất) đến J (kém nhất))
     - price: Giá trị của viên kim cương (đơn vị USD)
     - clarity: Độ trong suốt của viên kim cương (từ IF (tốt nhất) đến I1 (kém nhất))
     - depth: Tỷ lệ phần trăm độ sâu (tính theo z / x)
     - table: Chiều rộng của mặt bàn (tính theo % của đường kính)
     - x: Chiều dài của viên kim cương (mm)
     - y: Chiều rộng của viên kim cương (mm)
     - z: Độ sâu của viên kim cương (mm)

  ## **Thông tin cơ bản của bộ dữ liệu**
```{r}
is.data.frame(t)
length(t)
names(t)
dim(t)
library(skimr)
skim(t)
```
 

```{r}
library(DT)
library(tidyverse)
t<- diamonds
datatable(t)
```

# ***Phân tích dữ liệu với Bar-Chart***

## **Giới thiệu**
  - Biểu đồ thanh (Bar chart) là một dạng biểu đồ thống kê thị trường phổ biến, sử dụng các thanh dọc hoặc ngang để biểu diễn dữ liệu theo thời gian hoặc theo các nhóm khác nhau. Mỗi thanh đại diện cho một giá trị cụ thể, và độ dài của thanh thể hiện giá trị đó.

  - Ý nghĩa của biểu đồ thanh:
    - So sánh dữ liệu: Biểu đồ thanh giúp so sánh trực quan các giá trị khác nhau trong cùng một nhóm hoặc giữa các nhóm khác nhau.
    - Xác định xu hướng: Biểu đồ thanh có thể giúp xác định xu hướng tăng hoặc giảm của dữ liệu theo thời gian.
    - Phân bố dữ liệu: Biểu đồ thanh giúp so sánh sự phân bố của dữ liệu giữa các nhóm khác nhau.
    
    
```{r}
library(dplyr)
library(tidyverse)
library(scales)
```
# **Vẽ Đồ Thị Dạng Bar Chart**

## Đồ Thị 1
```{r}
t %>% group_by(cut) %>% summarise(n = n()) %>%
  ggplot(aes(cut,n)) +
  geom_col(fill='red') +
   geom_text(aes(label = n),vjust = 2, color = 'blue') +
  labs(x = 'Loại', y = 'Số lượng')
```
***Nhận xét kết quả***

   Kết quả nhận được là một biểu đồ dạng Bar_Chart thể hiện gồm số lượng của những loại kim cương(Fair(1610), Good(4906), Very good(12082), Premium(13791), Ideal(21551)).Qua biểu đồ trên chúng ta sẽ thấy được số lượng của **Ideal** chiếm nhiều nhất(21551) trong 5 loại trên. Chiếm tỷ lệ thấp nhất là **Fair** với 1610 viên kim cương . Số lượng kim cương giảm dần từ Ideal đến Fair. Có sự chênh lệch lớn giữa loại lớn nhất và thấp nhất.
   
## Đồ Thị 2
```{r}
t %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(color,n)) +
  geom_col(fill='red') +
   geom_text(aes(label = n),vjust = 2, color = 'blue') +
  labs(x = 'Loại', y = 'Số lượng')
```
***Nhận xét kết quả***
   - Kết quả nhận được là một biểu đồ dạng Bar_Chart gồm 7 cột tương ứng với 7 màu D,E,F,G,H,I,J
   - Dựa vào biểu đồ ta biết được số lượng của mỗi loại:
     - D có 6775 viên
     - E có 9797 viến
     - F có 9542 viến
     - G có 11292 viên
     - H có 8304 viên
     - I có 5422 viên
     - J có 2808 viên 
     - Trong đó số lượng của G chiếm nhiều nhất 11292 kim cương,  thấp nhất là J với 2808 viên
     
## Đồ Thị 3
```{r}
t %>% group_by(clarity) %>% summarise(n = n()) %>%
  ggplot(aes(clarity,n)) +
  geom_col(fill='red') +
   geom_text(aes(label = n),vjust = 2, color = 'blue') +
  labs(x = 'Loại', y = 'Số lượng')
```     
  
***Nhận xét kết quả***
   - Kết quả nhận được là một biểu đồ dạng Bar_Chart gồm 8 cột tương ứng với 8 độ trong suốt khác nhau:I1, SI2, SI1, VS2, VS1, VVS2, VVS1, IF
   - I1 chiếm 741 viên kim cương thấp nhất trong các loại
   - SI2 chiếm 9194 viên 
   - SI1 chiếm 13065 viên nhiều nhất trong các loại
   - VS2 chiếm 12258 viên
   - VS1 chiếm 8171 viên 
   - VVS2 chiếm 5066 viên 
   - VVS1 chiếm 3655 viên 
   - IF chiếm 1790 viên 
   
## Đồ Thị 4
```{r}
t %>% group_by(clarity) %>% summarise(n = n()) %>%
  ggplot(aes(clarity,n)) +
  geom_col(fill='red') +
   geom_text(aes(label = percent(n/length(t$carat))),vjust = 2, color = 'blue') +
  labs(x = 'Loại', y = 'Số lượng')
```     
  
***Nhận xét kết quả***   
    - Kết quả nhận được là một biểu đồ dạng Bar_Chart gồm 8 cột tương ứng với 8 độ trong suốt khác nhau:I1, SI2, SI1, VS2, VS1, VVS2, VVS1, IF
   - I1 chiếm 1,4% viên kim cương
   - SI2 chiếm 17% viên 
   - SI1 chiếm 24,2% viên nhiều nhất trong các loại
   - VS2 chiếm 22,7% viên
   - VS1 chiếm 15,1% viên 
   - VVS2 chiếm 9,4% viên 
   - VVS1 chiếm 6,8% viên 
   - IF chiếm 3,3% viên thấp nhất trong các loại
   - Chênh lệch giữa SI1(nhiều nhất) và I1(thấp nhất) là hơn 17 lần

## Đồ Thị 5
```{r}
t %>% group_by(cut) %>% summarise(n = n()) %>%
  ggplot(aes(cut,n)) +
  geom_col(fill='red') +
   geom_text(aes(label = percent(n/length(t$carat))),vjust = 2, color = 'blue') +
  labs(x = 'Loại', y = 'Số lượng')
```     
  
***Nhận xét kết quả***   
   - Kết quả nhận được là một biểu đồ dạng Bar_Chart thể hiện gồm số lượng của 5 loại kim cương: Fair, Good, Very good, Premium, Ideal.
   - Fair chiếm 3% kim cương có tỷ trọng nhỏ nhất
     - Good chiếm 9.1% kim cương
     - Very good chiếm 22.4% kim cương 
     - Premium chiếm 25.6% kim cương
     - Ideal chiếm 40% kim cương có tỷ trọng lớn nhất
     - Số lượng kim cương tăng dần từ Fair đến Ideal
     - Số lượng loại lớn nhất(Ideal) và nhỏ nhất(Fair) chênh lệch với nhau hơn **13 lần**

## Đồ Thị 6
```{r}
t%>% group_by(cut) %>% summarise(v= var(carat)) %>%
  ggplot(aes(x = cut,y = v)) +
    geom_col(position = 'dodge') +
    geom_text(aes(label = round(v,2)), vjust = 2, color = 'blue') +
     labs(x = 'Loại', y = 'Số lượng')
```

***Nhận xét kết quả***   
- Dây là là một biểu đò dang Bar_Chart thể hiện mức độ chenh lệch của biến cut(chất lượn đường cắt) theo biến cut
  - Biểu đồ cho thấy mức độ chênh lệch giữa các biến của "cut" dao động trong khoảng 0.19 đến 0.27 
  - Nhóm "Fair và Premium " có mức độ chênh lệch cao nhất (khoảng 0.27 ).
  - Nhóm "Ideal" có mức đọ chênh lệch thấp nhất (khoảng 0.19 ).
  
## Đồ Thị 7
```{r}
t %>% group_by(clarity,color) %>% summarise(n=n()) %>%
  ggplot(aes(x = color,y = n)) +
    geom_col(position = 'dodge') +
    facet_wrap(~clarity) +
    geom_text(aes(label = n),vjust = 0, color = 'blue') +
    labs(x = 'color', y = 'Số lượng')
```
***Nhận xét kết quả***  
 -  Ta nhận được là một biểu đồ dạng Bar_Chart thể hiện số lượng của các loại kim cương trong biến color theo từng nhóm gồm 7 biểu đồ nhỏ tương ứng với từng loại trong cột clarity(I1, SI2, SI1, VS2, VS1, VVS2, VVS1, IF)
 - Qua đây ta sẽ thấy rõ độ phân tán về số lượng của của cột color theo các nhóm clarity

## Đồ Thị 8
```{r}
t %>% group_by(clarity,color) %>% summarise(n=n()) %>%
  ggplot(aes(x = clarity,y = n)) +
    geom_col(position = 'dodge') +
    facet_wrap(~color) +
    geom_text(aes(label = n),vjust = 0, color = 'red') +
    labs(x = 'clarity', y = 'Số lượng',title='Hình 1.10: Số lượng kim cương theo độ trong suốt và màu')
```
 
***Nhận xét kết quả***  

  -  Ta nhận được là một biểu đồ dạng Bar_Chart thể hiện số lượng của các loại kim cương trong biến clarity theo từng nhóm gồm 7 biểu đồ nhỏ tương ứng với từng loại trong cột color(D,E,F,G,H,I,J)
 - Qua đây ta sẽ thấy rõ độ phân tán về số lượng của của cột clarity theo các nhóm color
 
## Đồ Thị 9
```{r}
t%>% group_by(clarity,color)%>%summarise(m=mean(depth))%>%ggplot(aes(x=color, y= m))+
  geom_col(position='dodge')+
  facet_wrap(~clarity)+
  geom_text(aes(label= round(m,1)), vjust=2, color='blue')+ labs(x= 'color', y= 'Meann')
```

***Nhận xét kết quả*** 
- Biểu đồ thể hiện mối quan hệ giữa màu sắc(color) và độ sâu trung bình (Mean Depth) của kim cương, phân theo độ trong suốt(Clarity).
- Mỗi thanh màu đại diện cho độ sâu trung bình của kim cương có cùng độ trong suốt và màu sắc.
- Có thể quan sát thấy sự khác biệt về độ sâu trung bình giữa các độ trong suốt khác nhau trong cùng một màu sắc.
- Qua biểu đồ trên ta thầy được giá trị trung bình của độ sâu (depth) khá là ổn định dao động trong khoảng 61-64

## Đồ Thị 10
```{r}
t%>% group_by(clarity,color)%>%summarise(m=mean(depth))%>%ggplot(aes(x=clarity, y= m))+
  geom_col(position='dodge')+
  facet_wrap(~color)+
  geom_text(aes(label= round(m,1)), vjust=2, color='blue')+ labs(x= 'clarity', y= 'Meann')
```

***Nhận xét biểu đồ***

- Biểu đồ thể hiện mối quan hệ giữa độ trong suốt (Clarity) và độ sâu trung bình (Mean Depth) của kim cương, phân theo màu sắc (Color).
- Mỗi thanh màu đại diện cho độ sâu trung bình của kim cương có cùng độ trong suốt và màu sắc.
- Có thể quan sát thấy sự khác biệt về độ sâu trung bình giữa các độ trong suốt khác nhau trong cùng một màu sắc.
- Qua biểu đồ trên ta thầy được giá trị trung bình của độ sâu (depth) khá là ổn định dao động trong khoảng 61-64

## Đồ Thị 11
```{r}
a<- t %>% group_by(cut, color) %>% summarise(n = n())
a %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data =  a%>% filter(color == 'H'), fill = 'blue') +
  geom_col(data =  a%>% filter(color == 'F'), fill = 'red')+labs()
```
***Nhận xét biểu đồ***
- Biểu đồ cho thấy số lượng màu H theo cut(chất lượng) cực kỳ ít so với số lượng màu F theo cut(chất lượng) 
## Đồ Thị 12
``` {r}
t %>% ggplot(aes(x = price)) +
  geom_histogram(binwidth = 400, fill = 'blue', color = 'red')
```
***Nhận xét biểu đồ***
- Biểu đồ tăng từ phải sang trái cho thấy số lượng viên kim cương có giá trị trên 5000 ít hơn số viên kim cương có giá trị dưới 5000

## Đồ Thị 13
```{r}
t %>% ggplot(aes(x = price, fill = color)) +
  geom_histogram(binwidth = 400)
```
***Nhận xét biểu đồ***
- Biểu đồ thể hiện giá theo các loại biến color(D,E,F,G,H,I,J) khác nhau
## Đồ Thị 14
```{r}
t %>% ggplot(aes(x = price)) +
  geom_histogram(binwidth = 400, fill = 'blue', color = 'red') +
  facet_wrap(~color)
```
***Nhận xét biểu đồ***
- 7 biểu đồ thể hiện giá theo 7 loại màu: D,E,F,G,H,I,J

# BIỂU ĐỒ 15

```{r echo=TRUE, warning=FALSE}
t <- t %>% mutate(priceC = cut(price,5, label = c('rất thấp', 'thấp','vừa','cao','rất cao')))
t %>% ggplot(aes(x = priceC)) +
  geom_bar(fill = 'red') +
  labs(x = 'phân loại', y = 'số lượng')
```
***Nhận xét kết quả***  
- Ta thêm 1 cột dữ liêu priceC vào bộ dữ liệu t để đánh giá Gía cả của các viên kim cương theo mức độ 'rất thấp' 'thấp', 'vừa', 'cao' và 'rất cao'. Các cột biểu đồ có màu đỏ. Qua biểu đồ trên ta thấy số lượng kim cương có giá 'rất thấp' là lớn nhất và giảm dần từ 'thấp', 'vừa', 'cao' và thấp nhất là loại 'rất cao'

# BIỂU ĐỒ 16

```{r echo=TRUE, warning=FALSE}
t <- diamonds 
b <- t %>% group_by(cut, color) %>% summarise(n = n())
b %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = b %>% filter(color == 'D'), fill = 'red') +
  geom_col(data = b %>% filter(color == 'J'), fill = 'blue')
```
***Nhận xét kết quả***  
***Ta phân loại kim cương theo kiểu cắt và màu sắc sau đó tính số lượng . Ở biểu đồ trên thì ta gắn x là kiểu cắt, y là số lượng của từng loại; ta sẽ lọc các loại kim cương có màu D,cột biểu đồ có màu đỏ và lọc các loại kim cương có màu J, biểu đồ có màu xanh dương. Qua biểu đồ trên ta đã lọc được số lượng kim cương màu D phân bổ ít nhất ở kiểu cắt Fair và tăng dần lên từ Good, Very Good, Premium, và nhiều nhất là Ideal. Và số lượng kim cương có màu J cũng phẩn bổ tương tự như kim cương có màu D***
# BIỂU ĐỒ 17

```{r echo=TRUE, warning=FALSE}
t <- diamonds 
b <- t %>% group_by(cut, color) %>% summarise(n = n())
b %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = b %>% filter(color == 'E'), fill = 'red') +
  geom_col(data = b %>% filter(color == 'H'), fill = 'blue')

```

***Tương tự như biểu đồ số 17, lần này thay vì lọc các kim cương có màu 'D' VÀ 'J' thì ta sẽ lọc các kim cương có màu 'E' VÀ 'H'. Ở biểu đồ này ta thấy màu E không phân bổ ở loại kim cương có kiểu cắt Fair, Premium, và màu sắc này phân bổ nhiều nhất ở kiểu cắt Ideal giảm dần từ Very Good, Good. Màu H phân bổ ở các kiểu cắt, nhiều nhất là Ideal và giảm dần từ Premium, Very Good, Good và thấp nhất là Fair
# BIỂU ĐỒ 18

```{r echo=TRUE, warning=FALSE}
b <- t %>% group_by(clarity, color) %>% summarise(n = n())
b %>% ggplot(aes(x = clarity, y = n)) +
  geom_col(data = b %>% filter(color == 'F'), fill = 'red') +
  geom_col(data = b %>% filter(color == 'J'), fill = 'blue')

```

***Ta phân loại kim cương theo kiểu độ trong suốt và màu sắc sau đó tính số lượng . Ở biểu đồ trên thì ta gắn x là độ trong suốt, y là số lượng của từng loại; ta sẽ lọc các loại kim cương có màu 'F',cột biểu đồ có màu đỏ và lọc các loại kim cương có màu J, biểu đồ có màu xanh dương.  Qua biểu đồ trên ta thấy các màu phân bổ ở tất cả độ trong suốt. Trong đó màu J sẽ phân bổ nhiều nhất ở SI1 rồi giảm dần từ VS2, VS1, SI2, WS2, WS1, IF và thấp nhất là I1. Còn màu F Phân bổ nhiều nhất ở VS2 rồi giảm dần từ SI1, SI2, VS1, WS2, WS1, IF và tháp nhất là I1.***

# BIỂU ĐỒ 19

```{r echo=TRUE, warning=FALSE}
b <- t %>% group_by(clarity, color) %>% summarise(n = n())
b %>% ggplot(aes(x = clarity, y = n)) +
  geom_col(data = b %>% filter(color == 'E'), fill = 'red') +
  geom_col(data = b %>% filter(color == 'G'), fill = 'blue')
```

***Tương tự như biểu đồ số 18, lần này thay vì lọc các kim cương có màu 'F' VÀ 'J' thì ta sẽ lọc các kim cương có màu 'E' VÀ 'G'. Ở biểu đồ này ta thấy màu E chỉ phân bổ ở loại kim cương độ trong suốt là SI2,VS2 và SI1. Còn kim cương màu G phân bổ ở tất cả độ trong suốt, trong đó nhiều nhất là VS2, giảm dần từ VS1, SI1, SI2, VVS2, VVS1, IF và phân bổ ít nhất ở I1.***

# BIỂU ĐỒ 20

```{r echo=TRUE, warning=FALSE}

c <- t %>% group_by(clarity, cut) %>% summarise(n = n())
c %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = c %>% filter(clarity == 'IF'), fill = 'red') +
  geom_col(data = c %>% filter(clarity == 'I1'), fill = 'blue')
```

***Ta phân loại kim cương theo kiểu độ trong suốt và kiểu cắt sau đó tính số lượng . Ở biểu đồ trên thì ta gắn x là kiểu cắt, y là số lượng của từng loại; Ta lọc các kim cương có độ trong suốt 'IF' là các cột màu đỏ, các kim cương có độ trong suốt 'I1' là các cột màu xanh. Qua biểu đồ trên ta thấy kim cương có độ trong suốt 'IF' chỉ phân bổ ở kiểu cắt Ideal, Very Good, Premium theo số lượng giảm dần. Trong khi đó độ trong suốt I1 phân bổ ở mọi kiểu cắt, nhiều nhất là Premium và giảm dần từ Fair, Idea, Good, thấp nhất là Very Good.***

# BIỂU ĐỒ 21

```{r echo=TRUE, warning=FALSE}
f <- t %>% group_by(clarity, cut) %>% summarise(n = n())
f %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = f %>% filter(clarity == 'SI1'), fill = 'red') +
  geom_col(data = f %>% filter(clarity == 'SI2'), fill = 'blue')

```

***Tương tự như biểu đồ số 20, lần này thay vì lọc các kim cương có độ trong suốt 'iF' VÀ 'i1' thì ta sẽ lọc các kim cương có độ trong suốt 'SI1' VÀ 'SI2'. Ở biểu đồ này ta thấy độ trong suốt SI1 không phân bổ ở loại kim cương có kiểu cắt Fair, phân bố nhiều nhất ở kiểu cắt Ideal giảm dần từ Very Good, Premium và phân bổ ít nhất ở kiểu cắt Good. Kim cương có độ trong suốt SI2 phân bổ ở tất cả kiểu cắt, nhiều nhất ở kiểu cắt Premium giảm dần từ Ideal, Very Good, Good và phân bổ ít nhất ở kiểu cắt Fair.***

# BIỂU ĐỒ 22

```{r echo=TRUE, warning=FALSE}
t %>% group_by(cut) %>% summarise(n = n()) %>%
  ggplot(aes(cut,n)) +
  geom_col(fill='green') +
  geom_text(aes(label = percent(n/length(t$carat))),vjust = 2, color = 'red') +
  labs(x = 'Loại', y = 'Số lượng')
```

***Ta phân loại kim cương theo kiểu cắt và tính số lượng của các kiểu cắt. ta gắn x là 'Loại', y là 'Số Lượng'. Các cột biểu đồ được tô màu xanh lá cây, các số liệu là tỷ khối lượng của mỗi kiểu cắt, các số liệu này có màu đỏ và được điều chỉnh  vị trí dọc các cột dữ liệu với đơn vị là 2. Qua biểu đồ trên ta thấy Kiểu cắt Ideal chiếm tỷ lệ cao nhất về trọng lượng (đơn vị carat) và giảm dần từ Premium, Very Good, Good và kiểu cắt Fair có tỷ lệ trọng lượng thấp nhất***

# BIỂU ĐỒ 23

```{r echo=TRUE, warning=FALSE}
t %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(color,n)) +
  geom_col(fill='green') +
  geom_text(aes(label = percent(n/length(t$carat))),vjust = 2, color = 'red') +
  labs(x = 'Loại', y = 'Số lượng')
```

***Ta phân loại kim cương theo kiểu màu sắc và tính số lượng của các màu. ta gắn x là 'Loại', y là 'Số Lượng'. Các cột biểu đồ được tô màu xanh lá cây, các số liệu là tỷ lệ khối lượng của mỗi kiểu cắt, các số liệu này có màu đỏ và được điều chỉnh  vị trí dọc các cột dữ liệu với đơn vị là 2. Qua biểu đồ trên ta thấy kim cương màu G chiếm tỷ lệ cao nhất về trọng lượng(20,93), giảm dần là E, F, H, D, I và kim cương màu J chiếm tỷ lệ thấp nhất (5,21%)***

# BIỂU ĐỒ 24

```{r echo=TRUE, warning=FALSE}
t %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(color,n)) +
  geom_col(fill='green') +
  geom_text(aes(label = percent(n/length(t$price))),vjust = 2, color = 'red') +
  labs(x = 'Loại', y = 'Số lượng')
```

***Ta phân loại kim cương theo kiểu màu sắc và tính số lượng của các màu. ta gắn x là 'Loại', y là 'Số Lượng'. Các cột biểu đồ được tô màu xanh lá cây, các số liệu là tỷ lệ giá tiền của mỗi kiểu cắt, các số liệu này có màu đỏ và được điều chỉnh  vị trí dọc các cột dữ liệu với đơn vị là 2. Qua biểu đồ trên ta thấy kim cương màu G chiếm tỷ lệ cao nhất về giá(20,93%), giảm dần là E, F, H, D, I và kim cương màu J chiếm tỷ lệ thấp nhất (5,21%)***

# BIỂU ĐỒ 25

```{r echo=TRUE, warning=FALSE}
t %>% group_by(clarity) %>% summarise(n = n()) %>%
  ggplot(aes(clarity,n)) +
  geom_col(fill='green') +
  geom_text(aes(label = percent(n/length(t$price))),vjust = 2, color = 'red') +
  labs(x = 'Loại', y = 'Số lượng')
```

***Ta phân loại kim cương theo độ trong suốt và tính số lượng của các màu. ta gắn x là 'Loại', y là 'Số Lượng'. Các cột biểu đồ được tô màu xanh lá cây, các số liệu là tỷ lệ giá tiền của mỗi loại kim cương, các số liệu này có màu đỏ và được điều chỉnh  vị trí dọc các cột dữ liệu với đơn vị là 2. Qua biểu đồ trên ta thấy kim cương có độ trong suốt SI1 chiếm tỷ lệ giá cao nhất (24,2%), giảm dần từ VS2, SI2, VS1, VVS2, VVS1, IF, I1(1,4%)***

# BIỂU ĐỒ 26

```{r echo=TRUE, warning=FALSE}
t %>% group_by(cut) %>% summarise(n = n()) %>%
  ggplot(aes(cut,n)) +
  geom_col(fill='green') +
  geom_text(aes(label = percent(n/length(t$price))),vjust = 2, color = 'red') +
  labs(x = 'Loại', y = 'Số lượng')

```

# BIỂU ĐỒ 27

```{r echo=TRUE, warning=FALSE}
t %>% group_by(cut,color) %>% summarise(n=n()) %>%
  ggplot(aes(x = cut,y = n)) +
    geom_col(position = 'dodge') +
    facet_wrap(~color) +
    labs(x = 'Loại', y = 'Số lượng')
```

***Ta phân loại kim cương theo kiểu cắt và màu sắc sau đó tính số lượng. ta gắn x là loại, y la số lượng và ta chia thành 7 biểu đồ theo 7 loại màu sắc để so sánh. Qua 7 biểu đồ ta nhận xét các màu sắc phân bổ nhiều nhất ở kim cương có kiểu cắt Ideal, giảm dần qua các kiểu cắt Premium, Very Good, Good và phân bổ ít nhất ở kiểu cắt Fair ***

# BIỂU ĐỒ 28

```{r echo=TRUE, warning=FALSE}

t %>% group_by(color) %>% summarise(m = mean(depth)) %>%
  ggplot(aes(color,m)) +
  geom_col(fill='green') +
  geom_text(aes(label = round(m,2)),vjust = 2, color = 'red') +
  labs(x = 'Loại', y = 'Số lượng')
```

***Ta phân loại kim cương theo màu sắc và tính trung bình tỷ lệ độ sâu của từng loại. Các cột biểu đồ có màu xanh lá cây, các dữ liệu có màu đỏ, được làm tròn đến 2 chữ số thập phân và được điều chỉnh ở vị trí dọc cách cột 2 đơn vị. Qua biểu đồ trên ta thấy các loại màu của kim cương sẽ có xấp xỉ trung bình tỷ lệ độ sâu bằng nhau. Trong đó cao nhất là màu J và thấp nhất là màu E.***

# BIỂU ĐỒ 29

```{r echo=TRUE, warning=FALSE}
t %>% ggplot(aes(x = clarity)) +
  geom_bar() +
  labs(x = 'Cấp độ tinh khiết', y = 'Số lượng') +
  coord_flip() +
  labs(title = 'Cấp độ tinh khiết của kim cương (biểu đồ ngang)')
```

***Ta phân loại kim cương theo độ trong suốt. ta gắn x là cấp độ tinh khiết, y là số lượng Và đây là biểu đồ ngang. Qua biểu đồ trên ta thấy SI1 có độ tinh khiết cao nhất, giảm dần từ VS2, SI2, VS1, VVS2, IF và I1 là kim cương có độ trong suốt thấp nhất***

# BIỂU ĐỒ 30

```{r echo=TRUE, warning=FALSE}
t %>% group_by(cut) %>% summarise(m= mean(depth)) %>%
  ggplot(aes(x = cut,y = m)) +
  geom_col(position = 'dodge') +
  geom_text(aes(label = round(m,2)), vjust = 2, color = 'green') +
  labs(x = 'Kiểu cắt', y = 'Mean')
```

***Ta phân loại kim cương theo kiểu cắt và tính trung bình tỷ lệ độ sâu (trung bình z/x). ta gắn x là kiểu cắt, y là trung bình. các số liệu được làm tròn 2 chữ số thập phân, được điều chỉnh ở vị trí cách cột dọc 2 đơn vị và có màu xanh lá cây. Qua biểu đồ trên ta thấy kiểu cắt Fair có độ sâu trung bình lớn nhất, giảm dần từ Good, Very Good, Ideal và thấp nhất là Premium***