“23:42:07, 02 - 03 - 2024”
ĐỒ THỊ DẠNG BAR CHART
CHO BỘ DỮ LIỆU DIAMOND
library(datasets)
data(package = 'datasets')
library(ggplot2)
data(package = 'ggplot2')
dq <- diamonds
Đồ Thị Số 1
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.4 ✔ readr 2.1.5
## ✔ forcats 1.0.0 ✔ stringr 1.5.1
## ✔ lubridate 1.9.3 ✔ tibble 3.2.1
## ✔ purrr 1.0.2 ✔ tidyr 1.3.0
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(scales)
##
## Attaching package: 'scales'
##
## The following object is masked from 'package:purrr':
##
## discard
##
## The following object is masked from 'package:readr':
##
## col_factor
dq <- diamonds
dq %>% ggplot(aes(x = cut)) +
geom_bar() +
labs(x = 'Loại', y = 'Số lượng')

- Ta phân loại kim cương theo kiểu cắt, có Fair; Good; Very Good;
Premium; Ideal
- Gán cho trục x nhãn là ” Loại “, gán cho trục y nhãn là”Số lượng”
=> Loại “Ideal” có số lượng nhiều nhất, trên 20000 => Loại ” Fair
” có số lượng ít nhất, dưới 5000 => Loại ” Good ” có số lượng là
5000
Đồ Thị Số 2
library(tidyverse)
library(scales)
dq <- diamonds
dq %>% ggplot(aes(x = color)) +
geom_bar() +
labs(x = 'Màu sắc', y = 'Số lượng')

- Ta phân loại kim cương theo màu sắc, có D, E, F, G, H, I ,J
- Gán cho trục x nhãn là " Màu sắc ", gán cho trục y nhãn là "Số lượng"
=> Màu "G" có số lượng nhiều nhất
=> Màu " J " có số lượng ít nhấT
=> Màu " E " và màu "F" có số lượng gần bằng nhau
Đồ Thị Số 3
library(tidyverse)
library(scales)
dq <- diamonds
dq %>% ggplot(aes(x = clarity)) +
geom_bar() +
labs(x = 'Độ tinh khiết', y = 'Số lượng')

- Ta phân loại kim cương theo độ tinh khiết, có I1, SI1, SI2, VS1,VS2,VVS1,VVS2,IF
- Gán cho trục x nhãn là " Độ tinh khiết ", gán cho trục y nhãn là "Số lượng"
=> Loại "SI1" có số lượng nhiều nhất
=> Loại " I1 " có số lượng ít nhấT
Đồ Thị Số 4
dq <- diamonds
dq %>% ggplot(aes(x = cut)) +
geom_bar() +
labs(x = 'Loại', y = 'Số lượng') +
coord_flip()

- Phân loại kim cương theo kiểu cắt
- Đồ thị xoay ngang cho ta thấy số lượng kim cương từng loại giảm dần
từ Ideal -> Premium -> Very Good -> Good -> Fair
Đồ Thị Số 5
dq <- diamonds
dq %>% ggplot(aes(x = color)) +
geom_bar() +
labs(x = 'Màu sắc', y = 'Số lượng') +
coord_flip()

- Phân loại kim cương theo màu sắc
- Đồ thị xoay ngang cho ta thấy số lượng kim cương từng loại tăng dần
từ màu J -> I -> H -> G; sau đó giảm xuống F rồi tăng lên E rồi
giảm về D
Đồ thị số 6
dq <- diamonds
dq %>% ggplot(aes(x = clarity)) +
geom_bar() +
labs(x = 'Độ tinh khiết', y = 'Số lượng') +
coord_flip()

- Phân loại kim cương theo độ tinh khiết
- Đồ thị xoay ngang cho ta thấy số lượng kim cương từng loại tăng dần
từ IF -> VVS1 -> VVS2 -> VS1 -> VS2 -> SI1; sau đó giảm
dần từ SI1 -> SI2 -> I1
Đồ thị số 7
dq %>% group_by(cut) %>% summarise(n = n()) %>%
ggplot(aes(cut,n)) +
geom_col(fill='skyblue') +
geom_text(aes(label = n),vjust = 2, color = 'red') +
labs(x = 'Loại', y = 'Số lượng')

- Ta Phân loại kim cương theo từng loại và tính số lượng của từng
loại. x là loại của kim cương, y là số lượng của từng loại.
- Các số liệu có màu đỏ, được điều chỉnh ở vị trí dọc cách cột 2 đơn
vị. Màu của các cột là màu xanh da trời.
- Qua biểu đồ trên ta thấy được nhiều nhất là loại Ideal với 21551
viên, tiếp đến là Premium với 13791 viên
- Very Good với 12082 viên, Good với 4906 viên,Fair với 1610 viên
Đồ thị số 8
dq %>% group_by(color) %>% summarise(n = n()) %>%
ggplot(aes(color,n)) +
geom_col(fill='turquoise') +
geom_text(aes(label = n),vjust = 2, color = 'red') +
labs(x = 'Màu sắc', y = 'Số lượng')

- Ta Phân loại kim cương theo màu sắc và tính số lượng của từng màu
sắc.
- x là màu sắc của kim cương, y là số lượng của từng loại màu
sắc.
- Các số liệu có màu đỏ, được điều chỉnh ở vị trí dọc cách cột 2 đơn
vị. Màu của các cột là xanh ngọc.
- Qua biểu đồ trên ta thấy được nhiều nhất là màu G với 11292 viên,
tiếp đến là E với 9797 viên
- F với 9542 viên, H với 8304 viên,D với 6775 viên
- I với 5422 viên và ít nhất là màu J với 2808 viên
Đồ thị số 9
dq %>% group_by(clarity) %>% summarise(n = n()) %>%
ggplot(aes(clarity,n)) +
geom_col(fill='green') +
geom_text(aes(label = n),vjust = 2, color = 'red') +
labs(x = 'Độ tinh khiết', y = 'Số lượng')

- Ta Phân loại kim cương theo độ tinh khiết và tính số lượng của từng
loại.
- x là độ tinh khiết của kim cương, y là số lượng của từng loại.
- Các số liệu có màu đỏ, được điều chỉnh ở vị trí dọc cách cột 2 đơn
vị. Màu của các cột là xanh lá cây.
- Qua biểu đồ trên ta thấy được nhiều nhất là loại SI1 với 13065 viên,
tiếp đến là VS2 với 12258 viên
- SI2 với 9194 viên, VS1 với 8171 viên,VVS2 với 5066 viên
- VVS1 với 3655 viên, IF với 1790 viên và ít nhất là I1 với 741
viên
Đồ thị số 10
dq %>% group_by(cut) %>% summarise(n = n()) %>%
ggplot(aes(cut,n)) +
geom_col(fill='green') +
geom_text(aes(label = percent(n/length(dq$carat))),vjust = 2, color = 'red') +
labs(x = 'Loại', y = 'Số lượng')

- Ta Phân loại kim cương theo từng loại và tính phần trăm số lượng của
từng loại. x là loại của kim cương, y là số lượng của từng loại.
- Các số liệu có màu đỏ, được điều chỉnh ở vị trí dọc cách cột 2 đơn
vị. Màu của các cột là màu xanh lá cây.
- Qua biểu đồ trên ta thấy được nhiều nhất là loại Ideal với 40.0%,
tiếp đến là Premium với 25.6%
- Very Good với 22.4%, Good với 9.1% ,Fair với 3.0%
Đồ thị số 11
dq %>% group_by(cut,color) %>% summarise(n=n()) %>%
ggplot(aes(x = cut,y = n)) +
geom_col(position = 'dodge') +
facet_wrap(~color) +
labs(x = 'Loại', y = 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

- Ta phân nhóm kim cương theo kiểu cắt và màu sắc sau đó tính số
lượng.
- Ta gắn x là loại, y la số lượng
- Chia thành 7 biểu đồ theo 7 loại màu sắc để so sánh.
- Qua 7 biểu đồ ta nhận xét các màu sắc phân bổ nhiều nhất ở kim cương
có kiểu cắt Ideal, giảm dần qua các kiểu cắt Premium, Very Good, Good và
phân bổ ít nhất ở kiểu cắt Fair
Đồ thị số 12
dq <- diamonds
dq %>% group_by(cut,color) %>% summarise(n=n()) %>%
ggplot(aes(x = cut,y = n)) +
geom_col(position = 'dodge') +
facet_wrap(~color) +
geom_text(aes(label = n),vjust = 2, color = 'green') +
labs(x = 'Loại', y = 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

- Ta phân nhóm kim cương theo kiểu cắt và màu sắc sau đó tính số
lượng.
- Ta gắn x là loại, y la số lượng
- Các số liệu có màu xanh lá, được điều chỉnh ở vị trí dọc cách cột 2
đơn vị.
- Chia thành 7 biểu đồ theo 7 loại màu sắc để so sánh.
- Qua 7 biểu đồ ta nhận xét các màu sắc phân bổ nhiều nhất ở kim cương
có kiểu cắt Ideal, giảm dần qua các kiểu cắt Premium, Very Good, Good và
phân bổ ít nhất ở kiểu cắt Fair
Đồ thị số 13
dq <- diamonds
dq %>% group_by(cut,color) %>% summarise(m = mean(price)) %>%
ggplot(aes(x = cut,y = m)) +
geom_col(position = 'dodge') +
facet_wrap(~color) +
geom_text(aes(label = round(m))) +
labs(x = 'cut', y = 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

- Ta phân nhóm kim cương theo kiểu cắt và màu sắc sau đó tính trung
bình về giá của từng loại.
- Ta gắn x là loại, y la số lượng
- Chia thành 7 biểu đồ theo 7 loại màu sắc để so sánh.
- Qua 7 biểu đồ ta nhận xét giá trung bình của loại ‘Premium’ là cao
nhất ờ hầu hết các màu trừ màu G và màu H
- Gía trung bình của loại ‘Ideal’ là thấp nhất ở các màu trừ màu
J
Đồ thị số 14
dq <- diamonds
dq <- dq %>% group_by(cut, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
dq %>% ggplot(aes(x = cut, y = n)) +
geom_col(data = dq %>% filter(color == 'E'), fill = 'purple') +
geom_col(data = dq %>% filter(color == 'H'), fill = 'turquoise')

- Ta phân loại kim cương theo kiểu cắt và màu sắc sau đó tính số lượng
.
- Ở biểu đồ trên thì ta gắn x là kiểu cắt, y là số lượng của từng
loại;
- Ta sẽ lọc các loại kim cương có màu E,cột biểu đồ có màu tím và lọc
các loại kim cương có màu H, biểu đồ có màu xanh ngọc.
- Qua biểu đồ trên ta đã lọc được số lượng kim cương màu H phân bổ ít
nhất ở kiểu cắt Fair và tăng dần lên từ Good, Very Good, Premium, và
nhiều nhất là Ideal. Và số lượng kim cương có màu E phân bổ ở 3 loại
nhiều nhất là loại ’ Ideal’ sau đó là ‘Very Good’ và ít nhất là
‘Good’
Đồ thị số 15
dq <- diamonds
dq <- dq %>% group_by(cut, clarity) %>% summarise(n = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
dq %>% ggplot(aes(x = cut, y = n)) +
geom_col(data = dq %>% filter(clarity == 'VS1'), fill = 'skyblue') +
geom_col(data = dq %>% filter(clarity == 'IF'), fill = 'pink')

- Ta phân loại kim cương theo kiểu cắt và độ tinh khiết sau đó tính số
lượng .
- Ở biểu đồ trên thì ta gắn x là kiểu cắt, y là số lượng của từng
loại;
- Ta sẽ lọc các loại kim cương có độ tinh khiết là VS1,cột biểu đồ có
màu xanh da trời và lọc các loại kim cương có độ tinh khiết IF, biểu đồ
có màu hồng.
- Qua biểu đồ trên ta đã lọc được số lượng kim cương độ tinh khiết VS1
phân bổ ít nhất ở kiểu cắt Fair và tăng dần lên từ Good, Very Good,
Premium, và nhiều nhất là Ideal. Và số lượng kim cương có độ tinh khiết
IF phân bổ nhiều nhất là loại ’ Ideal’ sau đó là ‘Very Good’, tiếp đến
là ’ Premium’ , sau đó là ’ Good’ và ít nhất là ‘Fair’
Đồ thị số 16
dq <- diamonds
dq <- dq %>% mutate(caratC = cut(carat,5, label = c('rất nhỏ', 'nhỏ','vừa','lớn','rất lớn')))
dq %>% ggplot(aes(x = caratC)) +
geom_bar(fill = 'skyblue')

- Ta thêm 1 cột dữ liêu caratC vào bộ dữ liệu để đánh giá trọng lượng
của các viên kim cương theo mức độ ‘rất nhỏ’ ‘nhỏ’, ‘vừa’ và ‘lớn’.
- Các cột biểu đồ có màu xanh da trời.
- Qua biểu đồ trên ta thấy số lượng kim cương có trọng lượng ‘rất nhỏ’
là lớn nhất và giảm dần từ ‘nhỏ’, ‘vừa’, ‘lớn’ và thấp nhất là loại ‘rất
lớn’
Đồ thị số 17
dq <- diamonds
dq <- dq %>% mutate(price = cut(price,3, label = c('thấp','vừa','cao')))
dq %>% ggplot(aes(x = price)) +
geom_bar(fill = 'pink')

- Ta thêm 1 cột dữ liêu price vào bộ dữ liệu để đánh giá về giá cả của
các viên kim cương theo mức độ ‘thấp’,‘vừa’,‘cao’.
- Các cột biểu đồ có màu hồng .
- Qua biểu đồ trên ta thấy số lượng kim cương có giá ‘thấp’ là lớn
nhất trên 40000 viên và giảm dần xuống ‘vừa’ và thấp nhất là loại
‘cao’
Đồ thị số 18
dq <- diamonds
dq <- dq %>% mutate(depth = cut(depth,5, label = c('rất nhỏ', 'nhỏ','vừa','lớn','rất lớn')))
dq %>% ggplot(aes(x = depth)) +
geom_bar(fill = 'blue')

- Ta thêm 1 cột dữ liêu depth vào bộ dữ liệu để đánh giá về khoảng
cách từ mặt đến đáy của các viên kim cương theo mức độ ‘rất
nhỏ’,‘nhỏ’,‘vừa’,‘lớn’,‘rất lớn’.
- Các cột biểu đồ có màu xanh dương .
- Qua biểu đồ trên ta thấy số lượng kim cương có khoảng cách ‘vừa’ là
lớn nhất trên 50000 viên và giảm dần xuống ‘lớn’, ‘nhỏ’ và thấp nhất là
loại ‘rất nhỏ’ và ’ rất lớn’
Đồ Thị Số 19
dq %>% group_by(clarity) %>% summarise(m= mean(carat)) %>%
ggplot(aes(x = clarity,y = m)) +
geom_col(position = 'dodge') +
geom_text(aes(label = round(m,5)), vjust = 2, color = 'green') +
labs(x = 'độ tinh khiết', y = 'trọng lượng trung bình')

- Ta phân loại kim cương theo độ tinh khiết và tính trọng lượng trung
bình của chúng theo đơn vị carat.
- Ở biểu đồ trên thì ta gắn x là độ tinh khiết, y là khối lượng trung
bình của từng loại
- Các số liệu sẽ có màu xanh lá cây, được làm tròn 5 chữ số thập phân
và được điều chỉnh ở vị trí dọc cách cột với đơn vị là 2. Và ta thấy
được kim cương có độ trong suốt cao nhất là I1, thấp hơn đó là SI2 và
giảm dần từ SI1, VS2, VS1, WS2, WS1, và thấp nhất là IF.
Đồ Thị Số 20
dq %>% group_by(clarity) %>% summarise(n = n()) %>%
ggplot(aes(clarity,n)) +
geom_col(fill='green') +
geom_text(aes(label = percent(n/length(dq$price))),vjust = 2, color = 'red') +
labs(x = 'Loại', y = 'Số lượng')

- Ta phân loại kim cương theo độ tinh khiết và tính số lượng của các
màu.
- Ta gắn x là ‘Loại’, y là ‘Số Lượng’.
- Các cột biểu đồ được tô màu xanh lá cây, các số liệu là tỷ lệ giá
tiền của mỗi loại kim cương, các số liệu này có màu đỏ và được điều
chỉnh vị trí dọc các cột dữ liệu với đơn vị là 2.
- Qua biểu đồ trên ta thấy kim cương có độ trong suốt SI1 chiếm tỷ lệ
giá cao nhất là 24,2%, giảm dần từ VS2, SI2, VS1, VVS2, VVS1, IF, I1 là
1,4%
Đồ thị số 21
dq <- diamonds
dq <- dq %>% group_by(cut, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
dq %>% ggplot(aes(x = cut, y = n)) +
geom_col(data = dq %>% filter(color == 'G'), fill = 'red') +
geom_col(data = dq %>% filter(color == 'D'), fill = 'turquoise')

- Ta phân loại kim cương theo kiểu cắt và màu sắc sau đó tính số lượng
.
- Ở biểu đồ trên thì ta gắn x là kiểu cắt, y là số lượng của từng
loại;
- Ta sẽ lọc các loại kim cương có màu G,cột biểu đồ có màu đỏ và lọc
các loại kim cương có màu D, biểu đồ có màu xanh ngọc.
- Qua biểu đồ trên ta đã lọc được số lượng kim cương màu G phân bổ ít
nhất ở kiểu cắt Fair và tăng dần lên từ Good, Very Good, Premium, và
nhiều nhất là Ideal. Và số lượng kim cương có màu D phân bổ nhiều nhất
là loại ’ Ideal’ sau đó giảm dần là ‘Premium’; ‘Very Good’; ‘Good’; và
ít nhất là ‘Fair’
Đồ thị số 22
dq <- diamonds
dq %>% group_by(carat) %>% filter(carat == 0.5 | carat == 1.00 | carat == 1.5 | carat == 2.05) %>% summarise(n = n()) %>%
ggplot(aes(carat,n)) +
geom_col(fill='skyblue') +
geom_text(aes(label = n),vjust = 2, color = 'red') +
xlab('Carat') +
ylab('Số lượng')

- Ta phân loại kim cương theo trọng lượng carat ở các mốc 0.5, 1.0,
1.5, 2.0 và tính số lượng của từng mốc khối lương.
- Ta gắn x là carat và y là số lượng từng mốc carat.
- Các cột biểu đồ có màu xanh da trời, các số liệu có màu đỏ, được
điều chỉnh ở vị trí dọc cách cột 2 đơn vị .
- Qua biểu đồ trên ta thấy được số kim cương có trọng lượng 1.0 carat
là nhiều nhất với 1558 viên và thấp nhất là 2.0 với 67 viên
- Ngoài ra kim cương có trọng lượng 0.5 có số lượng là 1258 viên, 1,0
có số lượng là 1558 viên
Đồ thị số 23
dq <- diamonds
dq <- dq %>% group_by(cut, clarity) %>% summarise(n = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
dq %>% ggplot(aes(x = cut, y = n)) +
geom_col(data = dq %>% filter(clarity == 'SI1'), fill = 'blue') +
geom_col(data = dq %>% filter(clarity == 'SI2'), fill = 'turquoise') +
geom_col(data = dq %>% filter(clarity == 'IF'), fill = 'pink')

- Ta phân loại kim cương theo kiểu cắt và độ tinh khiết sau đó tính số
lượng .
- Ở biểu đồ trên thì ta gắn x là kiểu cắt, y là số lượng của từng
loại;
- Ta sẽ lọc các loại kim cương loại SI1,cột biểu đồ có màu xanh và lọc
các loại kim cương loại SI2, biểu đồ có màu xanh ngọc, lọc các viên kim
cương loại IF, biểu đồ có màu hồng
- Qua biểu đồ trên ta đã lọc được số lượng kim cương loại SI1 phân bổ
nhiều nhất ở kiểu cắt ‘Ideal’ sau đó tới ‘Very Good’ và ‘Premium’ với
‘Good’ gần như bằng nhau và không có viên nào loại ‘Fair’
- Số lượng viên kim cương loại SI2 chiếm phần lớn trong 3 loại SI1 SI2
VÀ IF, và SI2 chiếm số lượng nhiều nhất ở loại ‘Premium’ và ít nhất ở
‘Fair’
- Số lượng viên kim cương loại IF tăng dần từ Good -> Very Good
-> Premium -> Ideal
Đồ thị số 23
dq <- diamonds
dq <- dq %>% group_by(cut, clarity) %>% summarise(n = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
dq %>% ggplot(aes(x = cut, y = n)) +
geom_col(data = dq %>% filter(clarity == 'SI1'), fill = 'blue') +
geom_col(data = dq %>% filter(clarity == 'VS2'), fill = 'turquoise') +
geom_col(data = dq %>% filter(clarity == 'SI2'), fill = 'red') +
geom_col(data = dq %>% filter(clarity == 'VVS1'), fill = 'black')

geom_col(data = dq %>% filter(clarity == 'VVS2'), fill = 'pink')
## geom_col: just = 0.5, width = NULL, na.rm = FALSE
## stat_identity: na.rm = FALSE
## position_stack
- Ta phân loại kim cương theo kiểu cắt và độ tinh khiết sau đó tính số
lượng .
- Ở biểu đồ trên thì ta gắn x là kiểu cắt, y là số lượng của từng
loại;
- Ta sẽ lọc các loại kim cương loại SI1,cột biểu đồ có màu xanh và lọc
các loại kim cương loại VS2, biểu đồ có màu xanh ngọc, lọc các viên kim
cương loại VVS1, biểu đồ có màu đen, các kim cương loại VVS2, biểu đồ
cột có màu hồng
- Qua biểu đồ ta thấy ở loại Fair SI2 chiếm diện tích lớn nhất
- Ở loại Good SI2 chiếm diện tích lớn nhất sau đó là SI1 và VVS1
- Ở loại Very Good SI2 chiếm diện tích lớn nhất sau đó là VVS1, SI1 và
VS2
- Ở loại Premium VS2 chiếm diện tích lớn nhất sau đó là VVS1 và sau đó
là SI2
- Ở loại Ideal VS2 chiếm diện tích nhiều nhất, sau đó là VVS1 và
SI2
Đồ thị số 24
dq <- diamonds
dq <- dq %>% group_by(cut, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
dq %>% ggplot(aes(x = cut, y = n)) +
geom_col(data = dq %>% filter(color == 'D'), fill = 'red') +
geom_col(data = dq %>% filter(color == 'J'), fill = 'blue') +
geom_col(data = dq %>% filter(color == 'G'), fill = 'pink') +
geom_col(data = dq %>% filter(color == 'H'), fill = 'brown') +
geom_col(data = dq %>% filter(color == 'E'), fill = 'purple') +
geom_col(data = dq %>% filter(color == 'F'), fill = 'yellow') +
geom_col(data = dq %>% filter(color == 'I'), fill = 'turquoise')

- Ta phân loại kim cương theo kiểu cắt và màu sắc sau đó tính số lượng
.
- Ở biểu đồ trên thì ta gắn x là kiểu cắt, y là số lượng của từng
loại;
- Ta sẽ lọc các loại kim cương màu D,cột biểu đồ có màu đỏ
- lọc các loại kim cương màu J, biểu đồ có màu xanh
- lọc các viên kim cương màu G, biểu đồ có màu hồng
- các kim cương có màu H, biểu đồ cột có màu nâu
- lọc các viên kim cương màu E, biểu đồ có màu tím
- lọc các viên kim cương màu F, biểu đồ có màu vàng
- lọc các viên kim cương màu I, biểu đồ có màu xanh ngọc
- Qua biểu đồ ta thấy ở loại Fair F và I chiếm diện tích gần như bằng
nhau
- Ở loại Good I chiếm diện tích lớn nhất sau đó là F và E
- Ở loại Very Good I chiếm diện tích lớn nhất sau đó là F,E
- Ở loại Premium I chiếm diện tích lớn nhất sau đó là F, G và sau đó
là D
- Ở loại Ideal I chiếm diện tích lớn nhất sau đó là I,sau đó là F,G và
E
Đồ thị số 25
dq <- diamonds
dq <- dq %>% group_by(cut, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
dq %>% ggplot(aes(x = cut, y = n)) +
geom_col(data = dq %>% filter(color == 'D'), fill = 'red') +
geom_col(data = dq %>% filter(color == 'J'), fill = 'blue') +
geom_col(data = dq %>% filter(color == 'G'), fill = 'pink') +
geom_col(data = dq %>% filter(color == 'H'), fill = 'brown') +
geom_col(data = dq %>% filter(color == 'E'), fill = 'purple') +
geom_col(data = dq %>% filter(color == 'F'), fill = 'yellow') +
geom_col(data = dq %>% filter(color == 'I'), fill = 'turquoise') +
coord_flip()

- Đồ thị nằm ngang của đồ thị 25
- Qua đồ thị ta thấy số lượng giảm dần từ loại Ideal -> Premium
-> Very Good -> Good -> Fair
Đồ thị số 26
dq %>% group_by(color) %>% summarise(n = n()) %>%
ggplot(aes(color,n)) +
geom_col(fill='pink') +
geom_text(aes(label = percent(n/length(dq$price))),vjust = 2, color = 'black') +
labs(x = 'Màu', y = 'Số lượng')
## Warning: Unknown or uninitialised column: `price`.
## Unknown or uninitialised column: `price`.

- Ta phân loại kim cương theo màu sắc và tính số lượng giá của từng
loại.
- Ta gắn x là ‘Màu’, y là ‘Số Lượng’.
- Các cột biểu đồ được tô màu hồng, các số liệu là tỷ lệ giá tiền của
mỗi loại kim cương, các số liệu này có màu đen và được điều chỉnh vị trí
dọc các cột dữ liệu với đơn vị là 2.
- Qua biểu đồ trên ta thấy kim cương màu G chiếm tỷ lệ cao nhất về giá
với 20.93%
- Kim cương màu J chiếm tỷ lệ thấp nhất về giá với 5.21%
- Kim cương màu G cao hơn và gấp kim cương màu I là 2,08 lần
- Kim cương màu H cao hơn và gấp kim cương màu J là 2,95 lần
- Kim cương màu I cao hơn và gấp kim cương màu J là 1,93 lần
Đồ thị số 27
dq %>% group_by(color) %>% summarise(n = n()) %>%
ggplot(aes(color,n)) +
geom_col(fill='pink') +
geom_text(aes(label = percent(n/length(dq$price))),vjust = 2, color = 'black') +
labs(x = 'Màu', y = 'Số lượng') +
coord_flip()
## Warning: Unknown or uninitialised column: `price`.
## Unknown or uninitialised column: `price`.

- Đây là đồ thị nằm ngang của đồ thị số 26
- Qua đồ thị ta thấy số lượng kim cương tăng dần từ màu J -> I -> H -> G, sau giảm dần
Đồ thị số 28
dq <- diamonds
dq %>% group_by(color) %>% summarise(m = mean(depth)) %>%
ggplot(aes(color,m)) +
geom_col(fill='skyblue') +
geom_text(aes(label = round(m,2)),vjust = 2, color = 'red') +
labs(x = 'Loại', y = 'Số lượng')

- Ta phân loại kim cương theo màu sắc và tính trung bình tỷ lệ độ sâu
của từng loại.
- Các cột biểu đồ có màu xanh da trời, các dữ liệu có màu đỏ, được làm
tròn đến 2 chữ số thập phân và được điều chỉnh ở vị trí dọc cách cột 2
đơn vị.
- Qua biểu đồ trên ta thấy các loại màu của kim cương sẽ có xấp xỉ
trung bình tỷ lệ độ sâu bằng nhau. Trong đó cao nhất là màu J với 61.89
và thấp nhất là màu E với 61.66
Đồ thị số 29
dq %>% group_by(clarity) %>% summarise(m= mean(carat)) %>%
ggplot(aes(x = clarity,y = m)) +
geom_col(position = 'dodge') +
geom_text(aes(label = round(m,3)), vjust = 2, color = 'green') +
labs(x = 'độ tinh khiết', y = 'trọng lượng trung bình')

- Ta phân loại kim cương theo độ tinh khiết và tính trọng lượng trung
bình của chúng theo đơn vị carat.
- Ở biểu đồ trên thì ta gắn x là độ tinh khiết, y là khối lượng trung
bình của từng loại
- Các số liệu sẽ có màu xanh lá cây, được làm tròn 3 chữ số thập phân
và được điều chỉnh ở vị trí dọc cách cột với đơn vị là 2.
- Ta thấy được kim cương có độ trong suốt cao nhất là I1 với 1.284,
thấp hơn đó là SI2 và giảm dần từ SI1, VS2, VS1, WS2, WS1, và thấp nhất
là IF với 0.505
Đồ thị số 30
dq %>% group_by(clarity) %>% summarise(m= mean(carat)) %>%
ggplot(aes(x = clarity,y = m)) +
geom_col(position = 'dodge') +
geom_text(aes(label = round(m,3)), vjust = 2, color = 'green') +
labs(x = 'độ tinh khiết', y = 'trọng lượng trung bình') +
coord_flip()

- Đồ thị nằm ngang của đồ thị số 30
- Qua đồ thị ta thấy trọng lượng trung bình của độ tinh khiết tăng dần
từ IF -> VVS1 -> VVS2 -> VS1 ->VS2 -> SI1 -> SI1 ->
I1