library(DT)
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.4 ✔ readr 2.1.5
## ✔ forcats 1.0.0 ✔ stringr 1.5.1
## ✔ ggplot2 3.5.0 ✔ tibble 3.2.1
## ✔ lubridate 1.9.3 ✔ tidyr 1.3.0
## ✔ purrr 1.0.2
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
t<- diamonds
datatable(t)
## Warning in instance$preRenderHook(instance): It seems your data is too big for
## client-side DataTables. You may consider server-side processing:
## https://rstudio.github.io/DT/server.html
Sử dụng bộ dữ liệu có sẵn trong R
Bộ dữ liệu được dụng là bộ dữ liệu Diamonds có sẵn trong
R
Bộ dữ liệu diamonds trong R là một tập dữ liệu phổ biến được sử
dụng trong các ví dụ và hướng dẫn về phân tích dữ liệu. Nó bao gồm thông
tin về 53.940 viên kim cương cắt tròn, với 10 biến mô tả các đặc điểm
khác nhau của mỗi viên kim cương:
- carat: Trọng lượng của viên kim cương (carat)
- cut: Chất lượng đường cắt (Fair, Good, Very Good, Ideal,
Premium)
- color: Màu sắc của viên kim cương (từ D (tốt nhất) đến J (kém
nhất))
- price: Giá trị của viên kim cương (đơn vị USD)
- clarity: Độ trong suốt của viên kim cương (từ IF (tốt nhất) đến I1
(kém nhất))
- depth: Tỷ lệ phần trăm độ sâu (tính theo z / x)
- table: Chiều rộng của mặt bàn (tính theo % của đường kính)
- x: Chiều dài của viên kim cương (mm)
- y: Chiều rộng của viên kim cương (mm)
- z: Độ sâu của viên kim cương (mm)
## Thông tin cơ bản của bộ dữ liệu
is.data.frame(t)
## [1] TRUE
length(t)
## [1] 10
names(t)
## [1] "carat" "cut" "color" "clarity" "depth" "table" "price"
## [8] "x" "y" "z"
dim(t)
## [1] 53940 10
library(skimr)
skim(t)
Data summary
Name |
t |
Number of rows |
53940 |
Number of columns |
10 |
_______________________ |
|
Column type frequency: |
|
factor |
3 |
numeric |
7 |
________________________ |
|
Group variables |
None |
Variable type: factor
cut |
0 |
1 |
TRUE |
5 |
Ide: 21551, Pre: 13791, Ver: 12082, Goo: 4906 |
color |
0 |
1 |
TRUE |
7 |
G: 11292, E: 9797, F: 9542, H: 8304 |
clarity |
0 |
1 |
TRUE |
8 |
SI1: 13065, VS2: 12258, SI2: 9194, VS1: 8171 |
Variable type: numeric
carat |
0 |
1 |
0.80 |
0.47 |
0.2 |
0.40 |
0.70 |
1.04 |
5.01 |
▇▂▁▁▁ |
depth |
0 |
1 |
61.75 |
1.43 |
43.0 |
61.00 |
61.80 |
62.50 |
79.00 |
▁▁▇▁▁ |
table |
0 |
1 |
57.46 |
2.23 |
43.0 |
56.00 |
57.00 |
59.00 |
95.00 |
▁▇▁▁▁ |
price |
0 |
1 |
3932.80 |
3989.44 |
326.0 |
950.00 |
2401.00 |
5324.25 |
18823.00 |
▇▂▁▁▁ |
x |
0 |
1 |
5.73 |
1.12 |
0.0 |
4.71 |
5.70 |
6.54 |
10.74 |
▁▁▇▃▁ |
y |
0 |
1 |
5.73 |
1.14 |
0.0 |
4.72 |
5.71 |
6.54 |
58.90 |
▇▁▁▁▁ |
z |
0 |
1 |
3.54 |
0.71 |
0.0 |
2.91 |
3.53 |
4.04 |
31.80 |
▇▁▁▁▁ |
library(DT)
library(tidyverse)
t<- diamonds
datatable(t)
## Warning in instance$preRenderHook(instance): It seems your data is too big for
## client-side DataTables. You may consider server-side processing:
## https://rstudio.github.io/DT/server.html
Phân tích dữ liệu với Bar-Chart
Giới thiệu
Biểu đồ thanh (Bar chart) là một dạng biểu đồ thống kê thị trường
phổ biến, sử dụng các thanh dọc hoặc ngang để biểu diễn dữ liệu theo
thời gian hoặc theo các nhóm khác nhau. Mỗi thanh đại diện cho một giá
trị cụ thể, và độ dài của thanh thể hiện giá trị đó.
Ý nghĩa của biểu đồ thanh:
- So sánh dữ liệu: Biểu đồ thanh giúp so sánh trực quan các giá trị
khác nhau trong cùng một nhóm hoặc giữa các nhóm khác nhau.
- Xác định xu hướng: Biểu đồ thanh có thể giúp xác định xu hướng tăng
hoặc giảm của dữ liệu theo thời gian.
- Phân bố dữ liệu: Biểu đồ thanh giúp so sánh sự phân bố của dữ liệu
giữa các nhóm khác nhau.
library(dplyr)
library(tidyverse)
library(scales)
##
## Attaching package: 'scales'
## The following object is masked from 'package:purrr':
##
## discard
## The following object is masked from 'package:readr':
##
## col_factor
Vẽ Đồ Thị Dạng Bar Chart
Đồ Thị 1
t %>% group_by(cut) %>% summarise(n = n()) %>%
ggplot(aes(cut,n)) +
geom_col(fill='red') +
geom_text(aes(label = n),vjust = 2, color = 'blue') +
labs(x = 'Loại', y = 'Số lượng')
Nhận xét kết quả
Kết quả nhận được là một biểu đồ dạng Bar_Chart thể hiện gồm số lượng
của những loại kim cương(Fair(1610), Good(4906), Very good(12082),
Premium(13791), Ideal(21551)).Qua biểu đồ trên chúng ta sẽ thấy được số
lượng của Ideal chiếm nhiều nhất(21551) trong 5 loại
trên. Chiếm tỷ lệ thấp nhất là Fair với 1610 viên kim
cương . Số lượng kim cương giảm dần từ Ideal đến Fair. Có sự chênh lệch
lớn giữa loại lớn nhất và thấp nhất.
Đồ Thị 2
t %>% group_by(color) %>% summarise(n = n()) %>%
ggplot(aes(color,n)) +
geom_col(fill='red') +
geom_text(aes(label = n),vjust = 2, color = 'blue') +
labs(x = 'Loại', y = 'Số lượng')
Nhận xét kết quả - Kết quả nhận được là một
biểu đồ dạng Bar_Chart gồm 7 cột tương ứng với 7 màu D,E,F,G,H,I,J - Dựa
vào biểu đồ ta biết được số lượng của mỗi loại: - D có 6775 viên - E có
9797 viến - F có 9542 viến - G có 11292 viên - H có 8304 viên - I có
5422 viên - J có 2808 viên - Trong đó số lượng của G chiếm nhiều nhất
11292 kim cương, thấp nhất là J với 2808 viên
Đồ Thị 3
t %>% group_by(clarity) %>% summarise(n = n()) %>%
ggplot(aes(clarity,n)) +
geom_col(fill='red') +
geom_text(aes(label = n),vjust = 2, color = 'blue') +
labs(x = 'Loại', y = 'Số lượng')

Nhận xét kết quả - Kết quả nhận được là một
biểu đồ dạng Bar_Chart gồm 8 cột tương ứng với 8 độ trong suốt khác
nhau:I1, SI2, SI1, VS2, VS1, VVS2, VVS1, IF - I1 chiếm 741 viên kim
cương thấp nhất trong các loại - SI2 chiếm 9194 viên - SI1 chiếm 13065
viên nhiều nhất trong các loại - VS2 chiếm 12258 viên - VS1 chiếm 8171
viên - VVS2 chiếm 5066 viên - VVS1 chiếm 3655 viên - IF chiếm 1790
viên
Đồ Thị 4
t %>% group_by(clarity) %>% summarise(n = n()) %>%
ggplot(aes(clarity,n)) +
geom_col(fill='red') +
geom_text(aes(label = percent(n/length(t$carat))),vjust = 2, color = 'blue') +
labs(x = 'Loại', y = 'Số lượng')

Nhận xét kết quả
- Kết quả nhận được là một biểu đồ dạng Bar_Chart gồm 8 cột tương ứng
với 8 độ trong suốt khác nhau:I1, SI2, SI1, VS2, VS1, VVS2, VVS1, IF -
I1 chiếm 1,4% viên kim cương - SI2 chiếm 17% viên - SI1 chiếm 24,2% viên
nhiều nhất trong các loại - VS2 chiếm 22,7% viên - VS1 chiếm 15,1% viên
- VVS2 chiếm 9,4% viên - VVS1 chiếm 6,8% viên - IF chiếm 3,3% viên thấp
nhất trong các loại - Chênh lệch giữa SI1(nhiều nhất) và I1(thấp nhất)
là hơn 17 lần
Đồ Thị 5
t %>% group_by(cut) %>% summarise(n = n()) %>%
ggplot(aes(cut,n)) +
geom_col(fill='red') +
geom_text(aes(label = percent(n/length(t$carat))),vjust = 2, color = 'blue') +
labs(x = 'Loại', y = 'Số lượng')

Nhận xét kết quả
- Kết quả nhận được là một biểu đồ dạng Bar_Chart thể hiện gồm số lượng
của 5 loại kim cương: Fair, Good, Very good, Premium, Ideal. - Fair
chiếm 3% kim cương có tỷ trọng nhỏ nhất - Good chiếm 9.1% kim cương -
Very good chiếm 22.4% kim cương - Premium chiếm 25.6% kim cương - Ideal
chiếm 40% kim cương có tỷ trọng lớn nhất - Số lượng kim cương tăng dần
từ Fair đến Ideal - Số lượng loại lớn nhất(Ideal) và nhỏ nhất(Fair)
chênh lệch với nhau hơn 13 lần
Đồ Thị 6
t%>% group_by(cut) %>% summarise(v= var(carat)) %>%
ggplot(aes(x = cut,y = v)) +
geom_col(position = 'dodge') +
geom_text(aes(label = round(v,2)), vjust = 2, color = 'blue') +
labs(x = 'Loại', y = 'Số lượng')

Nhận xét kết quả
- Dây là là một biểu đò dang Bar_Chart thể hiện mức độ chenh lệch của
biến cut(chất lượn đường cắt) theo biến cut - Biểu đồ cho thấy mức độ
chênh lệch giữa các biến của “cut” dao động trong khoảng 0.19 đến 0.27 -
Nhóm “Fair và Premium” có mức độ chênh lệch cao nhất (khoảng 0.27 ). -
Nhóm “Ideal” có mức đọ chênh lệch thấp nhất (khoảng 0.19 ).
Đồ Thị 7
t %>% group_by(clarity,color) %>% summarise(n=n()) %>%
ggplot(aes(x = color,y = n)) +
geom_col(position = 'dodge') +
facet_wrap(~clarity) +
geom_text(aes(label = n),vjust = 0, color = 'blue') +
labs(x = 'color', y = 'Số lượng')
## `summarise()` has grouped output by 'clarity'. You can override using the
## `.groups` argument.
Nhận xét kết quả
- Ta nhận được là một biểu đồ dạng Bar_Chart thể hiện số lượng của các
loại kim cương trong biến color theo từng nhóm gồm 7 biểu đồ nhỏ tương
ứng với từng loại trong cột clarity(I1, SI2, SI1, VS2, VS1, VVS2, VVS1,
IF) - Qua đây ta sẽ thấy rõ độ phân tán về số lượng của của cột color
theo các nhóm clarity
Đồ Thị 8
t %>% group_by(clarity,color) %>% summarise(n=n()) %>%
ggplot(aes(x = clarity,y = n)) +
geom_col(position = 'dodge') +
facet_wrap(~color) +
geom_text(aes(label = n),vjust = 0, color = 'red') +
labs(x = 'clarity', y = 'Số lượng',title='Hình 1.10: Số lượng kim cương theo độ trong suốt và màu')
## `summarise()` has grouped output by 'clarity'. You can override using the
## `.groups` argument.

Nhận xét kết quả
- Ta nhận được là một biểu đồ dạng Bar_Chart thể hiện số lượng của các
loại kim cương trong biến clarity theo từng nhóm gồm 7 biểu đồ nhỏ tương
ứng với từng loại trong cột color(D,E,F,G,H,I,J)
- Qua đây ta sẽ thấy rõ độ phân tán về số lượng của của cột clarity
theo các nhóm color
Đồ Thị 9
t%>% group_by(clarity,color)%>%summarise(m=mean(depth))%>%ggplot(aes(x=color, y= m))+
geom_col(position='dodge')+
facet_wrap(~clarity)+
geom_text(aes(label= round(m,1)), vjust=2, color='blue')+ labs(x= 'color', y= 'Meann')
## `summarise()` has grouped output by 'clarity'. You can override using the
## `.groups` argument.

Nhận xét kết quả - Biểu đồ thể hiện mối
quan hệ giữa màu sắc(color) và độ sâu trung bình (Mean Depth) của kim
cương, phân theo độ trong suốt(Clarity). - Mỗi thanh màu đại diện cho độ
sâu trung bình của kim cương có cùng độ trong suốt và màu sắc. - Có thể
quan sát thấy sự khác biệt về độ sâu trung bình giữa các độ trong suốt
khác nhau trong cùng một màu sắc. - Qua biểu đồ trên ta thầy được giá
trị trung bình của độ sâu (depth) khá là ổn định dao động trong khoảng
61-64
Đồ Thị 10
t%>% group_by(clarity,color)%>%summarise(m=mean(depth))%>%ggplot(aes(x=clarity, y= m))+
geom_col(position='dodge')+
facet_wrap(~color)+
geom_text(aes(label= round(m,1)), vjust=2, color='blue')+ labs(x= 'clarity', y= 'Meann')
## `summarise()` has grouped output by 'clarity'. You can override using the
## `.groups` argument.

Nhận xét biểu đồ
- Biểu đồ thể hiện mối quan hệ giữa độ trong suốt (Clarity) và độ sâu
trung bình (Mean Depth) của kim cương, phân theo màu sắc (Color).
- Mỗi thanh màu đại diện cho độ sâu trung bình của kim cương có cùng
độ trong suốt và màu sắc.
- Có thể quan sát thấy sự khác biệt về độ sâu trung bình giữa các độ
trong suốt khác nhau trong cùng một màu sắc.
- Qua biểu đồ trên ta thầy được giá trị trung bình của độ sâu (depth)
khá là ổn định dao động trong khoảng 61-64
Đồ Thị 11
a<- t %>% group_by(cut, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
a %>% ggplot(aes(x = cut, y = n)) +
geom_col(data = a%>% filter(color == 'H'), fill = 'blue') +
geom_col(data = a%>% filter(color == 'F'), fill = 'red')+labs()
Nhận xét biểu đồ - Biểu đồ cho thấy số lượng
màu H theo cut(chất lượng) cực kỳ ít so với số lượng màu F theo cut(chất
lượng) ## Đồ Thị 12
t %>% ggplot(aes(x = price)) +
geom_histogram(binwidth = 400, fill = 'blue', color = 'red')
Nhận xét biểu đồ - Biểu đồ tăng từ phải sang
trái cho thấy số lượng viên kim cương có giá trị trên 5000 ít hơn số
viên kim cương có giá trị dưới 5000
Đồ Thị 13
t %>% ggplot(aes(x = price, fill = color)) +
geom_histogram(binwidth = 400)
Nhận xét biểu đồ - Biểu đồ thể hiện giá theo
các loại biến color(D,E,F,G,H,I,J) khác nhau ## Đồ Thị 14
t %>% ggplot(aes(x = price)) +
geom_histogram(binwidth = 400, fill = 'blue', color = 'red') +
facet_wrap(~color)
Nhận xét biểu đồ - 7 biểu đồ thể hiện giá theo
7 loại màu: D,E,F,G,H,I,J
BIỂU ĐỒ 15
t <- t %>% mutate(priceC = cut(price,5, label = c('rất thấp', 'thấp','vừa','cao','rất cao')))
t %>% ggplot(aes(x = priceC)) +
geom_bar(fill = 'red') +
labs(x = 'phân loại', y = 'số lượng')
Nhận xét kết quả
- Ta thêm 1 cột dữ liêu priceC vào bộ dữ liệu t để đánh giá Gía cả của
các viên kim cương theo mức độ ‘rất thấp’ ‘thấp’, ‘vừa’, ‘cao’ và ‘rất
cao’. Các cột biểu đồ có màu đỏ. Qua biểu đồ trên ta thấy số lượng kim
cương có giá ‘rất thấp’ là lớn nhất và giảm dần từ ‘thấp’, ‘vừa’, ‘cao’
và thấp nhất là loại ‘rất cao’
BIỂU ĐỒ 16
t <- diamonds
b <- t %>% group_by(cut, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
b %>% ggplot(aes(x = cut, y = n)) +
geom_col(data = b %>% filter(color == 'D'), fill = 'red') +
geom_col(data = b %>% filter(color == 'J'), fill = 'blue')
Nhận xét kết quả
Ta phân loại kim cương theo kiểu cắt và màu sắc sau đó tính
số lượng . Ở biểu đồ trên thì ta gắn x là kiểu cắt, y là số lượng của
từng loại; ta sẽ lọc các loại kim cương có màu D,cột biểu đồ có màu đỏ
và lọc các loại kim cương có màu J, biểu đồ có màu xanh dương. Qua biểu
đồ trên ta đã lọc được số lượng kim cương màu D phân bổ ít nhất ở kiểu
cắt Fair và tăng dần lên từ Good, Very Good, Premium, và nhiều nhất là
Ideal. Và số lượng kim cương có màu J cũng phẩn bổ tương tự như kim
cương có màu D # BIỂU ĐỒ 17
t <- diamonds
b <- t %>% group_by(cut, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
b %>% ggplot(aes(x = cut, y = n)) +
geom_col(data = b %>% filter(color == 'E'), fill = 'red') +
geom_col(data = b %>% filter(color == 'H'), fill = 'blue')

***Tương tự như biểu đồ số 17, lần này thay vì lọc các kim cương có
màu ‘D’ VÀ ‘J’ thì ta sẽ lọc các kim cương có màu ‘E’ VÀ ‘H’. Ở biểu đồ
này ta thấy màu E không phân bổ ở loại kim cương có kiểu cắt Fair,
Premium, và màu sắc này phân bổ nhiều nhất ở kiểu cắt Ideal giảm dần từ
Very Good, Good. Màu H phân bổ ở các kiểu cắt, nhiều nhất là Ideal và
giảm dần từ Premium, Very Good, Good và thấp nhất là Fair # BIỂU ĐỒ
18
b <- t %>% group_by(clarity, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'clarity'. You can override using the
## `.groups` argument.
b %>% ggplot(aes(x = clarity, y = n)) +
geom_col(data = b %>% filter(color == 'F'), fill = 'red') +
geom_col(data = b %>% filter(color == 'J'), fill = 'blue')

Ta phân loại kim cương theo kiểu độ trong suốt và màu sắc
sau đó tính số lượng . Ở biểu đồ trên thì ta gắn x là độ trong suốt, y
là số lượng của từng loại; ta sẽ lọc các loại kim cương có màu ‘F’,cột
biểu đồ có màu đỏ và lọc các loại kim cương có màu J, biểu đồ có màu
xanh dương. Qua biểu đồ trên ta thấy các màu phân bổ ở tất cả độ trong
suốt. Trong đó màu J sẽ phân bổ nhiều nhất ở SI1 rồi giảm dần từ VS2,
VS1, SI2, WS2, WS1, IF và thấp nhất là I1. Còn màu F Phân bổ nhiều nhất
ở VS2 rồi giảm dần từ SI1, SI2, VS1, WS2, WS1, IF và tháp nhất là
I1.
BIỂU ĐỒ 19
b <- t %>% group_by(clarity, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'clarity'. You can override using the
## `.groups` argument.
b %>% ggplot(aes(x = clarity, y = n)) +
geom_col(data = b %>% filter(color == 'E'), fill = 'red') +
geom_col(data = b %>% filter(color == 'G'), fill = 'blue')

Tương tự như biểu đồ số 18, lần này thay vì lọc các kim
cương có màu ‘F’ VÀ ‘J’ thì ta sẽ lọc các kim cương có màu ‘E’ VÀ ‘G’. Ở
biểu đồ này ta thấy màu E chỉ phân bổ ở loại kim cương độ trong suốt là
SI2,VS2 và SI1. Còn kim cương màu G phân bổ ở tất cả độ trong suốt,
trong đó nhiều nhất là VS2, giảm dần từ VS1, SI1, SI2, VVS2, VVS1, IF và
phân bổ ít nhất ở I1.
BIỂU ĐỒ 20
c <- t %>% group_by(clarity, cut) %>% summarise(n = n())
## `summarise()` has grouped output by 'clarity'. You can override using the
## `.groups` argument.
c %>% ggplot(aes(x = cut, y = n)) +
geom_col(data = c %>% filter(clarity == 'IF'), fill = 'red') +
geom_col(data = c %>% filter(clarity == 'I1'), fill = 'blue')

Ta phân loại kim cương theo kiểu độ trong suốt và kiểu
cắt sau đó tính số lượng . Ở biểu đồ trên thì ta gắn x là kiểu cắt, y là
số lượng của từng loại; Ta lọc các kim cương có độ trong suốt ‘IF’ là
các cột màu đỏ, các kim cương có độ trong suốt ‘I1’ là các cột màu xanh.
Qua biểu đồ trên ta thấy kim cương có độ trong suốt ‘IF’ chỉ phân bổ ở
kiểu cắt Ideal, Very Good, Premium theo số lượng giảm dần. Trong khi đó
độ trong suốt I1 phân bổ ở mọi kiểu cắt, nhiều nhất là Premium và giảm
dần từ Fair, Idea, Good, thấp nhất là Very Good.
BIỂU ĐỒ 21
f <- t %>% group_by(clarity, cut) %>% summarise(n = n())
## `summarise()` has grouped output by 'clarity'. You can override using the
## `.groups` argument.
f %>% ggplot(aes(x = cut, y = n)) +
geom_col(data = f %>% filter(clarity == 'SI1'), fill = 'red') +
geom_col(data = f %>% filter(clarity == 'SI2'), fill = 'blue')

Tương tự như biểu đồ số 20, lần này thay vì lọc các kim
cương có độ trong suốt ‘iF’ VÀ ‘i1’ thì ta sẽ lọc các kim cương có độ
trong suốt ‘SI1’ VÀ ‘SI2’. Ở biểu đồ này ta thấy độ trong suốt SI1 không
phân bổ ở loại kim cương có kiểu cắt Fair, phân bố nhiều nhất ở kiểu cắt
Ideal giảm dần từ Very Good, Premium và phân bổ ít nhất ở kiểu cắt Good.
Kim cương có độ trong suốt SI2 phân bổ ở tất cả kiểu cắt, nhiều nhất ở
kiểu cắt Premium giảm dần từ Ideal, Very Good, Good và phân bổ ít nhất ở
kiểu cắt Fair.
BIỂU ĐỒ 22
t %>% group_by(cut) %>% summarise(n = n()) %>%
ggplot(aes(cut,n)) +
geom_col(fill='green') +
geom_text(aes(label = percent(n/length(t$carat))),vjust = 2, color = 'red') +
labs(x = 'Loại', y = 'Số lượng')

Ta phân loại kim cương theo kiểu cắt và tính số lượng của
các kiểu cắt. ta gắn x là ‘Loại’, y là ‘Số Lượng’. Các cột biểu đồ được
tô màu xanh lá cây, các số liệu là tỷ khối lượng của mỗi kiểu cắt, các
số liệu này có màu đỏ và được điều chỉnh vị trí dọc các cột dữ liệu với
đơn vị là 2. Qua biểu đồ trên ta thấy Kiểu cắt Ideal chiếm tỷ lệ cao
nhất về trọng lượng (đơn vị carat) và giảm dần từ Premium, Very Good,
Good và kiểu cắt Fair có tỷ lệ trọng lượng thấp nhất
BIỂU ĐỒ 23
t %>% group_by(color) %>% summarise(n = n()) %>%
ggplot(aes(color,n)) +
geom_col(fill='green') +
geom_text(aes(label = percent(n/length(t$carat))),vjust = 2, color = 'red') +
labs(x = 'Loại', y = 'Số lượng')

Ta phân loại kim cương theo kiểu màu sắc và tính số lượng
của các màu. ta gắn x là ‘Loại’, y là ‘Số Lượng’. Các cột biểu đồ được
tô màu xanh lá cây, các số liệu là tỷ lệ khối lượng của mỗi kiểu cắt,
các số liệu này có màu đỏ và được điều chỉnh vị trí dọc các cột dữ liệu
với đơn vị là 2. Qua biểu đồ trên ta thấy kim cương màu G chiếm tỷ lệ
cao nhất về trọng lượng(20,93), giảm dần là E, F, H, D, I và kim cương
màu J chiếm tỷ lệ thấp nhất (5,21%)
BIỂU ĐỒ 24
t %>% group_by(color) %>% summarise(n = n()) %>%
ggplot(aes(color,n)) +
geom_col(fill='green') +
geom_text(aes(label = percent(n/length(t$price))),vjust = 2, color = 'red') +
labs(x = 'Loại', y = 'Số lượng')

Ta phân loại kim cương theo kiểu màu sắc và tính số lượng
của các màu. ta gắn x là ‘Loại’, y là ‘Số Lượng’. Các cột biểu đồ được
tô màu xanh lá cây, các số liệu là tỷ lệ giá tiền của mỗi kiểu cắt, các
số liệu này có màu đỏ và được điều chỉnh vị trí dọc các cột dữ liệu với
đơn vị là 2. Qua biểu đồ trên ta thấy kim cương màu G chiếm tỷ lệ cao
nhất về giá(20,93%), giảm dần là E, F, H, D, I và kim cương màu J chiếm
tỷ lệ thấp nhất (5,21%)
BIỂU ĐỒ 25
t %>% group_by(clarity) %>% summarise(n = n()) %>%
ggplot(aes(clarity,n)) +
geom_col(fill='green') +
geom_text(aes(label = percent(n/length(t$price))),vjust = 2, color = 'red') +
labs(x = 'Loại', y = 'Số lượng')

Ta phân loại kim cương theo độ trong suốt và tính số
lượng của các màu. ta gắn x là ‘Loại’, y là ‘Số Lượng’. Các cột biểu đồ
được tô màu xanh lá cây, các số liệu là tỷ lệ giá tiền của mỗi loại kim
cương, các số liệu này có màu đỏ và được điều chỉnh vị trí dọc các cột
dữ liệu với đơn vị là 2. Qua biểu đồ trên ta thấy kim cương có độ trong
suốt SI1 chiếm tỷ lệ giá cao nhất (24,2%), giảm dần từ VS2, SI2, VS1,
VVS2, VVS1, IF, I1(1,4%)
BIỂU ĐỒ 26
t %>% group_by(cut) %>% summarise(n = n()) %>%
ggplot(aes(cut,n)) +
geom_col(fill='green') +
geom_text(aes(label = percent(n/length(t$price))),vjust = 2, color = 'red') +
labs(x = 'Loại', y = 'Số lượng')

BIỂU ĐỒ 27
t %>% group_by(cut,color) %>% summarise(n=n()) %>%
ggplot(aes(x = cut,y = n)) +
geom_col(position = 'dodge') +
facet_wrap(~color) +
labs(x = 'Loại', y = 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

Ta phân loại kim cương theo kiểu cắt và màu sắc sau đó
tính số lượng. ta gắn x là loại, y la số lượng và ta chia thành 7 biểu
đồ theo 7 loại màu sắc để so sánh. Qua 7 biểu đồ ta nhận xét các màu sắc
phân bổ nhiều nhất ở kim cương có kiểu cắt Ideal, giảm dần qua các kiểu
cắt Premium, Very Good, Good và phân bổ ít nhất ở kiểu cắt Fair
BIỂU ĐỒ 28
t %>% group_by(color) %>% summarise(m = mean(depth)) %>%
ggplot(aes(color,m)) +
geom_col(fill='green') +
geom_text(aes(label = round(m,2)),vjust = 2, color = 'red') +
labs(x = 'Loại', y = 'Số lượng')

Ta phân loại kim cương theo màu sắc và tính trung bình tỷ
lệ độ sâu của từng loại. Các cột biểu đồ có màu xanh lá cây, các dữ liệu
có màu đỏ, được làm tròn đến 2 chữ số thập phân và được điều chỉnh ở vị
trí dọc cách cột 2 đơn vị. Qua biểu đồ trên ta thấy các loại màu của kim
cương sẽ có xấp xỉ trung bình tỷ lệ độ sâu bằng nhau. Trong đó cao nhất
là màu J và thấp nhất là màu E.
BIỂU ĐỒ 29
t %>% ggplot(aes(x = clarity)) +
geom_bar() +
labs(x = 'Cấp độ tinh khiết', y = 'Số lượng') +
coord_flip() +
labs(title = 'Cấp độ tinh khiết của kim cương (biểu đồ ngang)')

Ta phân loại kim cương theo độ trong suốt. ta gắn x là
cấp độ tinh khiết, y là số lượng Và đây là biểu đồ ngang. Qua biểu đồ
trên ta thấy SI1 có độ tinh khiết cao nhất, giảm dần từ VS2, SI2, VS1,
VVS2, IF và I1 là kim cương có độ trong suốt thấp nhất
BIỂU ĐỒ 30
t %>% group_by(cut) %>% summarise(m= mean(depth)) %>%
ggplot(aes(x = cut,y = m)) +
geom_col(position = 'dodge') +
geom_text(aes(label = round(m,2)), vjust = 2, color = 'green') +
labs(x = 'Kiểu cắt', y = 'Mean')

Ta phân loại kim cương theo kiểu cắt và tính trung bình
tỷ lệ độ sâu (trung bình z/x). ta gắn x là kiểu cắt, y là trung bình.
các số liệu được làm tròn 2 chữ số thập phân, được điều chỉnh ở vị trí
cách cột dọc 2 đơn vị và có màu xanh lá cây. Qua biểu đồ trên ta thấy
kiểu cắt Fair có độ sâu trung bình lớn nhất, giảm dần từ Good, Very
Good, Ideal và thấp nhất là Premium
---
title: "Phân tích bộ dữ liệu Diamonds"
author: "Thanh Trọng"
date: "2024-03-02"
output:
  html_document:
    toc: true
    number section: true
    toc_float: true
    code_folding: show
    code_download: true
  word_document:
    toc: true
  pdf_document:
    toc: true
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
```
```{r}
library(DT)
library(tidyverse)
t<- diamonds
datatable(t)
```
# ***Sử dụng bộ dữ liệu có sẵn trong R***

  - Bộ dữ liệu được dụng là bộ dữ liệu Diamonds có sẵn trong R 
  - Bộ dữ liệu diamonds trong R là một tập dữ liệu phổ biến được sử dụng trong các ví dụ và hướng dẫn về phân tích dữ liệu. Nó bao gồm thông tin về 53.940 viên kim cương cắt tròn, với 10 biến mô tả các đặc điểm khác nhau của mỗi viên kim cương:

     - carat: Trọng lượng của viên kim cương (carat)
     - cut: Chất lượng đường cắt (Fair, Good, Very Good, Ideal, Premium)
     - color: Màu sắc của viên kim cương (từ D (tốt nhất) đến J (kém nhất))
     - price: Giá trị của viên kim cương (đơn vị USD)
     - clarity: Độ trong suốt của viên kim cương (từ IF (tốt nhất) đến I1 (kém nhất))
     - depth: Tỷ lệ phần trăm độ sâu (tính theo z / x)
     - table: Chiều rộng của mặt bàn (tính theo % của đường kính)
     - x: Chiều dài của viên kim cương (mm)
     - y: Chiều rộng của viên kim cương (mm)
     - z: Độ sâu của viên kim cương (mm)

  ## **Thông tin cơ bản của bộ dữ liệu**
```{r}
is.data.frame(t)
length(t)
names(t)
dim(t)
library(skimr)
skim(t)
```
 

```{r}
library(DT)
library(tidyverse)
t<- diamonds
datatable(t)
```

# ***Phân tích dữ liệu với Bar-Chart***

## **Giới thiệu**
  - Biểu đồ thanh (Bar chart) là một dạng biểu đồ thống kê thị trường phổ biến, sử dụng các thanh dọc hoặc ngang để biểu diễn dữ liệu theo thời gian hoặc theo các nhóm khác nhau. Mỗi thanh đại diện cho một giá trị cụ thể, và độ dài của thanh thể hiện giá trị đó.

  - Ý nghĩa của biểu đồ thanh:
    - So sánh dữ liệu: Biểu đồ thanh giúp so sánh trực quan các giá trị khác nhau trong cùng một nhóm hoặc giữa các nhóm khác nhau.
    - Xác định xu hướng: Biểu đồ thanh có thể giúp xác định xu hướng tăng hoặc giảm của dữ liệu theo thời gian.
    - Phân bố dữ liệu: Biểu đồ thanh giúp so sánh sự phân bố của dữ liệu giữa các nhóm khác nhau.
    
    
```{r}
library(dplyr)
library(tidyverse)
library(scales)
```
# **Vẽ Đồ Thị Dạng Bar Chart**

## Đồ Thị 1
```{r}
t %>% group_by(cut) %>% summarise(n = n()) %>%
  ggplot(aes(cut,n)) +
  geom_col(fill='red') +
   geom_text(aes(label = n),vjust = 2, color = 'blue') +
  labs(x = 'Loại', y = 'Số lượng')
```
***Nhận xét kết quả***

   Kết quả nhận được là một biểu đồ dạng Bar_Chart thể hiện gồm số lượng của những loại kim cương(Fair(1610), Good(4906), Very good(12082), Premium(13791), Ideal(21551)).Qua biểu đồ trên chúng ta sẽ thấy được số lượng của **Ideal** chiếm nhiều nhất(21551) trong 5 loại trên. Chiếm tỷ lệ thấp nhất là **Fair** với 1610 viên kim cương . Số lượng kim cương giảm dần từ Ideal đến Fair. Có sự chênh lệch lớn giữa loại lớn nhất và thấp nhất.
   
## Đồ Thị 2
```{r}
t %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(color,n)) +
  geom_col(fill='red') +
   geom_text(aes(label = n),vjust = 2, color = 'blue') +
  labs(x = 'Loại', y = 'Số lượng')
```
***Nhận xét kết quả***
   - Kết quả nhận được là một biểu đồ dạng Bar_Chart gồm 7 cột tương ứng với 7 màu D,E,F,G,H,I,J
   - Dựa vào biểu đồ ta biết được số lượng của mỗi loại:
     - D có 6775 viên
     - E có 9797 viến
     - F có 9542 viến
     - G có 11292 viên
     - H có 8304 viên
     - I có 5422 viên
     - J có 2808 viên 
     - Trong đó số lượng của G chiếm nhiều nhất 11292 kim cương,  thấp nhất là J với 2808 viên
     
## Đồ Thị 3
```{r}
t %>% group_by(clarity) %>% summarise(n = n()) %>%
  ggplot(aes(clarity,n)) +
  geom_col(fill='red') +
   geom_text(aes(label = n),vjust = 2, color = 'blue') +
  labs(x = 'Loại', y = 'Số lượng')
```     
  
***Nhận xét kết quả***
   - Kết quả nhận được là một biểu đồ dạng Bar_Chart gồm 8 cột tương ứng với 8 độ trong suốt khác nhau:I1, SI2, SI1, VS2, VS1, VVS2, VVS1, IF
   - I1 chiếm 741 viên kim cương thấp nhất trong các loại
   - SI2 chiếm 9194 viên 
   - SI1 chiếm 13065 viên nhiều nhất trong các loại
   - VS2 chiếm 12258 viên
   - VS1 chiếm 8171 viên 
   - VVS2 chiếm 5066 viên 
   - VVS1 chiếm 3655 viên 
   - IF chiếm 1790 viên 
   
## Đồ Thị 4
```{r}
t %>% group_by(clarity) %>% summarise(n = n()) %>%
  ggplot(aes(clarity,n)) +
  geom_col(fill='red') +
   geom_text(aes(label = percent(n/length(t$carat))),vjust = 2, color = 'blue') +
  labs(x = 'Loại', y = 'Số lượng')
```     
  
***Nhận xét kết quả***   
    - Kết quả nhận được là một biểu đồ dạng Bar_Chart gồm 8 cột tương ứng với 8 độ trong suốt khác nhau:I1, SI2, SI1, VS2, VS1, VVS2, VVS1, IF
   - I1 chiếm 1,4% viên kim cương
   - SI2 chiếm 17% viên 
   - SI1 chiếm 24,2% viên nhiều nhất trong các loại
   - VS2 chiếm 22,7% viên
   - VS1 chiếm 15,1% viên 
   - VVS2 chiếm 9,4% viên 
   - VVS1 chiếm 6,8% viên 
   - IF chiếm 3,3% viên thấp nhất trong các loại
   - Chênh lệch giữa SI1(nhiều nhất) và I1(thấp nhất) là hơn 17 lần

## Đồ Thị 5
```{r}
t %>% group_by(cut) %>% summarise(n = n()) %>%
  ggplot(aes(cut,n)) +
  geom_col(fill='red') +
   geom_text(aes(label = percent(n/length(t$carat))),vjust = 2, color = 'blue') +
  labs(x = 'Loại', y = 'Số lượng')
```     
  
***Nhận xét kết quả***   
   - Kết quả nhận được là một biểu đồ dạng Bar_Chart thể hiện gồm số lượng của 5 loại kim cương: Fair, Good, Very good, Premium, Ideal.
   - Fair chiếm 3% kim cương có tỷ trọng nhỏ nhất
     - Good chiếm 9.1% kim cương
     - Very good chiếm 22.4% kim cương 
     - Premium chiếm 25.6% kim cương
     - Ideal chiếm 40% kim cương có tỷ trọng lớn nhất
     - Số lượng kim cương tăng dần từ Fair đến Ideal
     - Số lượng loại lớn nhất(Ideal) và nhỏ nhất(Fair) chênh lệch với nhau hơn **13 lần**

## Đồ Thị 6
```{r}
t%>% group_by(cut) %>% summarise(v= var(carat)) %>%
  ggplot(aes(x = cut,y = v)) +
    geom_col(position = 'dodge') +
    geom_text(aes(label = round(v,2)), vjust = 2, color = 'blue') +
     labs(x = 'Loại', y = 'Số lượng')
```

***Nhận xét kết quả***   
- Dây là là một biểu đò dang Bar_Chart thể hiện mức độ chenh lệch của biến cut(chất lượn đường cắt) theo biến cut
  - Biểu đồ cho thấy mức độ chênh lệch giữa các biến của "cut" dao động trong khoảng 0.19 đến 0.27 
  - Nhóm "Fair và Premium " có mức độ chênh lệch cao nhất (khoảng 0.27 ).
  - Nhóm "Ideal" có mức đọ chênh lệch thấp nhất (khoảng 0.19 ).
  
## Đồ Thị 7
```{r}
t %>% group_by(clarity,color) %>% summarise(n=n()) %>%
  ggplot(aes(x = color,y = n)) +
    geom_col(position = 'dodge') +
    facet_wrap(~clarity) +
    geom_text(aes(label = n),vjust = 0, color = 'blue') +
    labs(x = 'color', y = 'Số lượng')
```
***Nhận xét kết quả***  
 -  Ta nhận được là một biểu đồ dạng Bar_Chart thể hiện số lượng của các loại kim cương trong biến color theo từng nhóm gồm 7 biểu đồ nhỏ tương ứng với từng loại trong cột clarity(I1, SI2, SI1, VS2, VS1, VVS2, VVS1, IF)
 - Qua đây ta sẽ thấy rõ độ phân tán về số lượng của của cột color theo các nhóm clarity

## Đồ Thị 8
```{r}
t %>% group_by(clarity,color) %>% summarise(n=n()) %>%
  ggplot(aes(x = clarity,y = n)) +
    geom_col(position = 'dodge') +
    facet_wrap(~color) +
    geom_text(aes(label = n),vjust = 0, color = 'red') +
    labs(x = 'clarity', y = 'Số lượng',title='Hình 1.10: Số lượng kim cương theo độ trong suốt và màu')
```
 
***Nhận xét kết quả***  

  -  Ta nhận được là một biểu đồ dạng Bar_Chart thể hiện số lượng của các loại kim cương trong biến clarity theo từng nhóm gồm 7 biểu đồ nhỏ tương ứng với từng loại trong cột color(D,E,F,G,H,I,J)
 - Qua đây ta sẽ thấy rõ độ phân tán về số lượng của của cột clarity theo các nhóm color
 
## Đồ Thị 9
```{r}
t%>% group_by(clarity,color)%>%summarise(m=mean(depth))%>%ggplot(aes(x=color, y= m))+
  geom_col(position='dodge')+
  facet_wrap(~clarity)+
  geom_text(aes(label= round(m,1)), vjust=2, color='blue')+ labs(x= 'color', y= 'Meann')
```

***Nhận xét kết quả*** 
- Biểu đồ thể hiện mối quan hệ giữa màu sắc(color) và độ sâu trung bình (Mean Depth) của kim cương, phân theo độ trong suốt(Clarity).
- Mỗi thanh màu đại diện cho độ sâu trung bình của kim cương có cùng độ trong suốt và màu sắc.
- Có thể quan sát thấy sự khác biệt về độ sâu trung bình giữa các độ trong suốt khác nhau trong cùng một màu sắc.
- Qua biểu đồ trên ta thầy được giá trị trung bình của độ sâu (depth) khá là ổn định dao động trong khoảng 61-64

## Đồ Thị 10
```{r}
t%>% group_by(clarity,color)%>%summarise(m=mean(depth))%>%ggplot(aes(x=clarity, y= m))+
  geom_col(position='dodge')+
  facet_wrap(~color)+
  geom_text(aes(label= round(m,1)), vjust=2, color='blue')+ labs(x= 'clarity', y= 'Meann')
```

***Nhận xét biểu đồ***

- Biểu đồ thể hiện mối quan hệ giữa độ trong suốt (Clarity) và độ sâu trung bình (Mean Depth) của kim cương, phân theo màu sắc (Color).
- Mỗi thanh màu đại diện cho độ sâu trung bình của kim cương có cùng độ trong suốt và màu sắc.
- Có thể quan sát thấy sự khác biệt về độ sâu trung bình giữa các độ trong suốt khác nhau trong cùng một màu sắc.
- Qua biểu đồ trên ta thầy được giá trị trung bình của độ sâu (depth) khá là ổn định dao động trong khoảng 61-64

## Đồ Thị 11
```{r}
a<- t %>% group_by(cut, color) %>% summarise(n = n())
a %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data =  a%>% filter(color == 'H'), fill = 'blue') +
  geom_col(data =  a%>% filter(color == 'F'), fill = 'red')+labs()
```
***Nhận xét biểu đồ***
- Biểu đồ cho thấy số lượng màu H theo cut(chất lượng) cực kỳ ít so với số lượng màu F theo cut(chất lượng) 
## Đồ Thị 12
``` {r}
t %>% ggplot(aes(x = price)) +
  geom_histogram(binwidth = 400, fill = 'blue', color = 'red')
```
***Nhận xét biểu đồ***
- Biểu đồ tăng từ phải sang trái cho thấy số lượng viên kim cương có giá trị trên 5000 ít hơn số viên kim cương có giá trị dưới 5000

## Đồ Thị 13
```{r}
t %>% ggplot(aes(x = price, fill = color)) +
  geom_histogram(binwidth = 400)
```
***Nhận xét biểu đồ***
- Biểu đồ thể hiện giá theo các loại biến color(D,E,F,G,H,I,J) khác nhau
## Đồ Thị 14
```{r}
t %>% ggplot(aes(x = price)) +
  geom_histogram(binwidth = 400, fill = 'blue', color = 'red') +
  facet_wrap(~color)
```
***Nhận xét biểu đồ***
- 7 biểu đồ thể hiện giá theo 7 loại màu: D,E,F,G,H,I,J

# BIỂU ĐỒ 15

```{r echo=TRUE, warning=FALSE}
t <- t %>% mutate(priceC = cut(price,5, label = c('rất thấp', 'thấp','vừa','cao','rất cao')))
t %>% ggplot(aes(x = priceC)) +
  geom_bar(fill = 'red') +
  labs(x = 'phân loại', y = 'số lượng')
```
***Nhận xét kết quả***  
- Ta thêm 1 cột dữ liêu priceC vào bộ dữ liệu t để đánh giá Gía cả của các viên kim cương theo mức độ 'rất thấp' 'thấp', 'vừa', 'cao' và 'rất cao'. Các cột biểu đồ có màu đỏ. Qua biểu đồ trên ta thấy số lượng kim cương có giá 'rất thấp' là lớn nhất và giảm dần từ 'thấp', 'vừa', 'cao' và thấp nhất là loại 'rất cao'

# BIỂU ĐỒ 16

```{r echo=TRUE, warning=FALSE}
t <- diamonds 
b <- t %>% group_by(cut, color) %>% summarise(n = n())
b %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = b %>% filter(color == 'D'), fill = 'red') +
  geom_col(data = b %>% filter(color == 'J'), fill = 'blue')
```
***Nhận xét kết quả***  
***Ta phân loại kim cương theo kiểu cắt và màu sắc sau đó tính số lượng . Ở biểu đồ trên thì ta gắn x là kiểu cắt, y là số lượng của từng loại; ta sẽ lọc các loại kim cương có màu D,cột biểu đồ có màu đỏ và lọc các loại kim cương có màu J, biểu đồ có màu xanh dương. Qua biểu đồ trên ta đã lọc được số lượng kim cương màu D phân bổ ít nhất ở kiểu cắt Fair và tăng dần lên từ Good, Very Good, Premium, và nhiều nhất là Ideal. Và số lượng kim cương có màu J cũng phẩn bổ tương tự như kim cương có màu D***
# BIỂU ĐỒ 17

```{r echo=TRUE, warning=FALSE}
t <- diamonds 
b <- t %>% group_by(cut, color) %>% summarise(n = n())
b %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = b %>% filter(color == 'E'), fill = 'red') +
  geom_col(data = b %>% filter(color == 'H'), fill = 'blue')

```

***Tương tự như biểu đồ số 17, lần này thay vì lọc các kim cương có màu 'D' VÀ 'J' thì ta sẽ lọc các kim cương có màu 'E' VÀ 'H'. Ở biểu đồ này ta thấy màu E không phân bổ ở loại kim cương có kiểu cắt Fair, Premium, và màu sắc này phân bổ nhiều nhất ở kiểu cắt Ideal giảm dần từ Very Good, Good. Màu H phân bổ ở các kiểu cắt, nhiều nhất là Ideal và giảm dần từ Premium, Very Good, Good và thấp nhất là Fair
# BIỂU ĐỒ 18

```{r echo=TRUE, warning=FALSE}
b <- t %>% group_by(clarity, color) %>% summarise(n = n())
b %>% ggplot(aes(x = clarity, y = n)) +
  geom_col(data = b %>% filter(color == 'F'), fill = 'red') +
  geom_col(data = b %>% filter(color == 'J'), fill = 'blue')

```

***Ta phân loại kim cương theo kiểu độ trong suốt và màu sắc sau đó tính số lượng . Ở biểu đồ trên thì ta gắn x là độ trong suốt, y là số lượng của từng loại; ta sẽ lọc các loại kim cương có màu 'F',cột biểu đồ có màu đỏ và lọc các loại kim cương có màu J, biểu đồ có màu xanh dương.  Qua biểu đồ trên ta thấy các màu phân bổ ở tất cả độ trong suốt. Trong đó màu J sẽ phân bổ nhiều nhất ở SI1 rồi giảm dần từ VS2, VS1, SI2, WS2, WS1, IF và thấp nhất là I1. Còn màu F Phân bổ nhiều nhất ở VS2 rồi giảm dần từ SI1, SI2, VS1, WS2, WS1, IF và tháp nhất là I1.***

# BIỂU ĐỒ 19

```{r echo=TRUE, warning=FALSE}
b <- t %>% group_by(clarity, color) %>% summarise(n = n())
b %>% ggplot(aes(x = clarity, y = n)) +
  geom_col(data = b %>% filter(color == 'E'), fill = 'red') +
  geom_col(data = b %>% filter(color == 'G'), fill = 'blue')
```

***Tương tự như biểu đồ số 18, lần này thay vì lọc các kim cương có màu 'F' VÀ 'J' thì ta sẽ lọc các kim cương có màu 'E' VÀ 'G'. Ở biểu đồ này ta thấy màu E chỉ phân bổ ở loại kim cương độ trong suốt là SI2,VS2 và SI1. Còn kim cương màu G phân bổ ở tất cả độ trong suốt, trong đó nhiều nhất là VS2, giảm dần từ VS1, SI1, SI2, VVS2, VVS1, IF và phân bổ ít nhất ở I1.***

# BIỂU ĐỒ 20

```{r echo=TRUE, warning=FALSE}

c <- t %>% group_by(clarity, cut) %>% summarise(n = n())
c %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = c %>% filter(clarity == 'IF'), fill = 'red') +
  geom_col(data = c %>% filter(clarity == 'I1'), fill = 'blue')
```

***Ta phân loại kim cương theo kiểu độ trong suốt và kiểu cắt sau đó tính số lượng . Ở biểu đồ trên thì ta gắn x là kiểu cắt, y là số lượng của từng loại; Ta lọc các kim cương có độ trong suốt 'IF' là các cột màu đỏ, các kim cương có độ trong suốt 'I1' là các cột màu xanh. Qua biểu đồ trên ta thấy kim cương có độ trong suốt 'IF' chỉ phân bổ ở kiểu cắt Ideal, Very Good, Premium theo số lượng giảm dần. Trong khi đó độ trong suốt I1 phân bổ ở mọi kiểu cắt, nhiều nhất là Premium và giảm dần từ Fair, Idea, Good, thấp nhất là Very Good.***

# BIỂU ĐỒ 21

```{r echo=TRUE, warning=FALSE}
f <- t %>% group_by(clarity, cut) %>% summarise(n = n())
f %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = f %>% filter(clarity == 'SI1'), fill = 'red') +
  geom_col(data = f %>% filter(clarity == 'SI2'), fill = 'blue')

```

***Tương tự như biểu đồ số 20, lần này thay vì lọc các kim cương có độ trong suốt 'iF' VÀ 'i1' thì ta sẽ lọc các kim cương có độ trong suốt 'SI1' VÀ 'SI2'. Ở biểu đồ này ta thấy độ trong suốt SI1 không phân bổ ở loại kim cương có kiểu cắt Fair, phân bố nhiều nhất ở kiểu cắt Ideal giảm dần từ Very Good, Premium và phân bổ ít nhất ở kiểu cắt Good. Kim cương có độ trong suốt SI2 phân bổ ở tất cả kiểu cắt, nhiều nhất ở kiểu cắt Premium giảm dần từ Ideal, Very Good, Good và phân bổ ít nhất ở kiểu cắt Fair.***

# BIỂU ĐỒ 22

```{r echo=TRUE, warning=FALSE}
t %>% group_by(cut) %>% summarise(n = n()) %>%
  ggplot(aes(cut,n)) +
  geom_col(fill='green') +
  geom_text(aes(label = percent(n/length(t$carat))),vjust = 2, color = 'red') +
  labs(x = 'Loại', y = 'Số lượng')
```

***Ta phân loại kim cương theo kiểu cắt và tính số lượng của các kiểu cắt. ta gắn x là 'Loại', y là 'Số Lượng'. Các cột biểu đồ được tô màu xanh lá cây, các số liệu là tỷ khối lượng của mỗi kiểu cắt, các số liệu này có màu đỏ và được điều chỉnh  vị trí dọc các cột dữ liệu với đơn vị là 2. Qua biểu đồ trên ta thấy Kiểu cắt Ideal chiếm tỷ lệ cao nhất về trọng lượng (đơn vị carat) và giảm dần từ Premium, Very Good, Good và kiểu cắt Fair có tỷ lệ trọng lượng thấp nhất***

# BIỂU ĐỒ 23

```{r echo=TRUE, warning=FALSE}
t %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(color,n)) +
  geom_col(fill='green') +
  geom_text(aes(label = percent(n/length(t$carat))),vjust = 2, color = 'red') +
  labs(x = 'Loại', y = 'Số lượng')
```

***Ta phân loại kim cương theo kiểu màu sắc và tính số lượng của các màu. ta gắn x là 'Loại', y là 'Số Lượng'. Các cột biểu đồ được tô màu xanh lá cây, các số liệu là tỷ lệ khối lượng của mỗi kiểu cắt, các số liệu này có màu đỏ và được điều chỉnh  vị trí dọc các cột dữ liệu với đơn vị là 2. Qua biểu đồ trên ta thấy kim cương màu G chiếm tỷ lệ cao nhất về trọng lượng(20,93), giảm dần là E, F, H, D, I và kim cương màu J chiếm tỷ lệ thấp nhất (5,21%)***

# BIỂU ĐỒ 24

```{r echo=TRUE, warning=FALSE}
t %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(color,n)) +
  geom_col(fill='green') +
  geom_text(aes(label = percent(n/length(t$price))),vjust = 2, color = 'red') +
  labs(x = 'Loại', y = 'Số lượng')
```

***Ta phân loại kim cương theo kiểu màu sắc và tính số lượng của các màu. ta gắn x là 'Loại', y là 'Số Lượng'. Các cột biểu đồ được tô màu xanh lá cây, các số liệu là tỷ lệ giá tiền của mỗi kiểu cắt, các số liệu này có màu đỏ và được điều chỉnh  vị trí dọc các cột dữ liệu với đơn vị là 2. Qua biểu đồ trên ta thấy kim cương màu G chiếm tỷ lệ cao nhất về giá(20,93%), giảm dần là E, F, H, D, I và kim cương màu J chiếm tỷ lệ thấp nhất (5,21%)***

# BIỂU ĐỒ 25

```{r echo=TRUE, warning=FALSE}
t %>% group_by(clarity) %>% summarise(n = n()) %>%
  ggplot(aes(clarity,n)) +
  geom_col(fill='green') +
  geom_text(aes(label = percent(n/length(t$price))),vjust = 2, color = 'red') +
  labs(x = 'Loại', y = 'Số lượng')
```

***Ta phân loại kim cương theo độ trong suốt và tính số lượng của các màu. ta gắn x là 'Loại', y là 'Số Lượng'. Các cột biểu đồ được tô màu xanh lá cây, các số liệu là tỷ lệ giá tiền của mỗi loại kim cương, các số liệu này có màu đỏ và được điều chỉnh  vị trí dọc các cột dữ liệu với đơn vị là 2. Qua biểu đồ trên ta thấy kim cương có độ trong suốt SI1 chiếm tỷ lệ giá cao nhất (24,2%), giảm dần từ VS2, SI2, VS1, VVS2, VVS1, IF, I1(1,4%)***

# BIỂU ĐỒ 26

```{r echo=TRUE, warning=FALSE}
t %>% group_by(cut) %>% summarise(n = n()) %>%
  ggplot(aes(cut,n)) +
  geom_col(fill='green') +
  geom_text(aes(label = percent(n/length(t$price))),vjust = 2, color = 'red') +
  labs(x = 'Loại', y = 'Số lượng')

```

# BIỂU ĐỒ 27

```{r echo=TRUE, warning=FALSE}
t %>% group_by(cut,color) %>% summarise(n=n()) %>%
  ggplot(aes(x = cut,y = n)) +
    geom_col(position = 'dodge') +
    facet_wrap(~color) +
    labs(x = 'Loại', y = 'Số lượng')
```

***Ta phân loại kim cương theo kiểu cắt và màu sắc sau đó tính số lượng. ta gắn x là loại, y la số lượng và ta chia thành 7 biểu đồ theo 7 loại màu sắc để so sánh. Qua 7 biểu đồ ta nhận xét các màu sắc phân bổ nhiều nhất ở kim cương có kiểu cắt Ideal, giảm dần qua các kiểu cắt Premium, Very Good, Good và phân bổ ít nhất ở kiểu cắt Fair ***

# BIỂU ĐỒ 28

```{r echo=TRUE, warning=FALSE}

t %>% group_by(color) %>% summarise(m = mean(depth)) %>%
  ggplot(aes(color,m)) +
  geom_col(fill='green') +
  geom_text(aes(label = round(m,2)),vjust = 2, color = 'red') +
  labs(x = 'Loại', y = 'Số lượng')
```

***Ta phân loại kim cương theo màu sắc và tính trung bình tỷ lệ độ sâu của từng loại. Các cột biểu đồ có màu xanh lá cây, các dữ liệu có màu đỏ, được làm tròn đến 2 chữ số thập phân và được điều chỉnh ở vị trí dọc cách cột 2 đơn vị. Qua biểu đồ trên ta thấy các loại màu của kim cương sẽ có xấp xỉ trung bình tỷ lệ độ sâu bằng nhau. Trong đó cao nhất là màu J và thấp nhất là màu E.***

# BIỂU ĐỒ 29

```{r echo=TRUE, warning=FALSE}
t %>% ggplot(aes(x = clarity)) +
  geom_bar() +
  labs(x = 'Cấp độ tinh khiết', y = 'Số lượng') +
  coord_flip() +
  labs(title = 'Cấp độ tinh khiết của kim cương (biểu đồ ngang)')
```

***Ta phân loại kim cương theo độ trong suốt. ta gắn x là cấp độ tinh khiết, y là số lượng Và đây là biểu đồ ngang. Qua biểu đồ trên ta thấy SI1 có độ tinh khiết cao nhất, giảm dần từ VS2, SI2, VS1, VVS2, IF và I1 là kim cương có độ trong suốt thấp nhất***

# BIỂU ĐỒ 30

```{r echo=TRUE, warning=FALSE}
t %>% group_by(cut) %>% summarise(m= mean(depth)) %>%
  ggplot(aes(x = cut,y = m)) +
  geom_col(position = 'dodge') +
  geom_text(aes(label = round(m,2)), vjust = 2, color = 'green') +
  labs(x = 'Kiểu cắt', y = 'Mean')
```

***Ta phân loại kim cương theo kiểu cắt và tính trung bình tỷ lệ độ sâu (trung bình z/x). ta gắn x là kiểu cắt, y là trung bình. các số liệu được làm tròn 2 chữ số thập phân, được điều chỉnh ở vị trí cách cột dọc 2 đơn vị và có màu xanh lá cây. Qua biểu đồ trên ta thấy kiểu cắt Fair có độ sâu trung bình lớn nhất, giảm dần từ Good, Very Good, Ideal và thấp nhất là Premium***