Thực hiện thao tác vẽ
biểu đồ trên bộ dữ liệu Diamonds.
Giới thiệu về
bộ dữ liệu diamonds
library(ggplot2)
str(diamonds)
## tibble [53,940 × 10] (S3: tbl_df/tbl/data.frame)
## $ carat : num [1:53940] 0.23 0.21 0.23 0.29 0.31 0.24 0.24 0.26 0.22 0.23 ...
## $ cut : Ord.factor w/ 5 levels "Fair"<"Good"<..: 5 4 2 4 2 3 3 3 1 3 ...
## $ color : Ord.factor w/ 7 levels "D"<"E"<"F"<"G"<..: 2 2 2 6 7 7 6 5 2 5 ...
## $ clarity: Ord.factor w/ 8 levels "I1"<"SI2"<"SI1"<..: 2 3 5 4 2 6 7 3 4 5 ...
## $ depth : num [1:53940] 61.5 59.8 56.9 62.4 63.3 62.8 62.3 61.9 65.1 59.4 ...
## $ table : num [1:53940] 55 61 65 58 58 57 57 55 61 61 ...
## $ price : int [1:53940] 326 326 327 334 335 336 336 337 337 338 ...
## $ x : num [1:53940] 3.95 3.89 4.05 4.2 4.34 3.94 3.95 4.07 3.87 4 ...
## $ y : num [1:53940] 3.98 3.84 4.07 4.23 4.35 3.96 3.98 4.11 3.78 4.05 ...
## $ z : num [1:53940] 2.43 2.31 2.31 2.63 2.75 2.48 2.47 2.53 2.49 2.39 ...
names(diamonds)
## [1] "carat" "cut" "color" "clarity" "depth" "table" "price"
## [8] "x" "y" "z"
Sau khi dùng lệnh lệnh str() và names(), ta thu được thông tin
của bộ dữ liệu Diamonds gồm có:
10 cột có tên lần lượt là: carat, cut, color, clarity, depth,
table, price, x, y, z.
53,940 quan sát
Công cụ vẽ đồ thị:
Dùng packages ggplot2.
Câu lệnh geom_bar: vẽ đồ thị dạng bar, tương tự với các dạng biểu
đồ column, histogram,…
+Labs: dùng để đặt tên, ví dụ như là các trục x,y và title: đặt tên cho
biểu đồ.
+Fill: chọn màu cho biểu đồ.
aes: xác định dữ liệu cần vẽ biểu đồ.
Vẽ biểu đồ
cột color theo dạng đồ thị bar.
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(magrittr)
library(scales)
r <- diamonds
r %>% ggplot(aes(x = color)) +
geom_bar(fill='green') +
labs(x = 'Loại', y = 'Số lượng', title = 'Color of Diamonds')

- Quan sát biểu đồ trên, ta thấy được:
- Tỷ lệ khoảng cách số lượng trên đồ thị là 1 đơn vị tương ứng với
1500.
- Đồ thị tên là Color of Diamonds.
- Cột x là Loại (D,E,F,G,H,I,J), cột y là Số lượng.
- Cột G là cột có số lượng nhiều nhất (gần 11500).
- Cột J là cột có số lượng nhỏ nhất (gần 3000).
Vẽ đồ thị cột
cut theo dạng đồ thị bar.
r %>% ggplot(aes(x = cut)) +
geom_bar(fill='pink') +
labs(x = 'Mặt cắt kim cương', y= 'Số lượng' , title = 'Cut of Diamonds')

- Quan sát đồ thị trên:
- Tỷ lệ khoảng cách số lượng trên đồ thị là 1 đơn vị tương ứng với
2500.
- Đồ thị tên là Cut of Diamonds.
- Cột x là Loại mặt cắt (Fair,Good, Very Good, Premium, Ideal), cột y
là Số lượng.
- Cột Ideal có số lượng nhiều nhất
- Cột Fair có số lượng ít nhất
- Nhìn vào biểu đồ ta thấy số lượng mỗi lại tăng dần theo thứ tự loại
mặt cắt.
Vẽ biểu đồ
cột carat theo dạng bar.
r %>% ggplot(aes(x = carat)) +
geom_bar(fill='purple') +
labs(x = 'carat', y= 'Số lượng' , title = 'Carat of Diamonds')

- Nhận xét:
- Tỷ lệ khoảng cách số lượng trên đồ thị là 1 đơn vị tương ứng với
500.
- Đồ thị tên là Carat of Diamonds.
- Cột x là carat(0.23,0.,…), cột y là Số lượng.
- Cột khoảng từ 0 đến 0.5 có số lượng nhiều nhất
- Cột từ 4 đến5 có số lượng ít nhất
- Nhìn vào biểu đồ ta thấy số lượng mỗi lại giảm dần theo thứ tự loại
mặt cắt.
Vẽ biểu đồ
clarity theo dạng bar.
r %>% ggplot(aes(x = clarity)) +
geom_bar(fill='red') +
labs(x = 'độ trong', y= 'Số lượng' , title = 'Clarity of Diamonds')

- Quan sát đồ thị trên:
- Tỷ lệ khoảng cách số lượng trên đồ thị là 1 đơn vị tương ứng với
2500.
- Đồ thị tên là Clarity of Diamonds.
- Cột x là độ trong (I1,SI2,SI1,VS2,VS1,VVS@.VVS1.IF), cột y là Số
lượng.
- Cột SI1 có số lượng nhiều nhất
- Cột I1 có số lượng ít nhất
Vẽ biểu đồ
cột depth theo dạng bar.
r %>% ggplot(aes(x = depth)) +
geom_bar(fill='blue') +
labs(x = 'độ sâu', y= 'Số lượng' , title = 'Depth of Diamonds')

- Quan sát đồ thị trên:
- Tỷ lệ khoảng cách số lượng trên đồ thị là 1 đơn vị tương ứng với
500.
- Đồ thị tên là Depth of Diamonds.
- Cột x là độ sâu (50 ~ 80), cột y là Số lượng.
- Đa phần các giá trị có độ sâu từ 60 ~ 63.
- Các cột còn lại có các quan sát nhưng không nhiều.
Vẽ biểu đồ
cột table theo dạng bar.
r %>% ggplot(aes(x = table)) +
geom_bar(fill='black') +
labs(x = 'table', y= 'Số lượng' , title = 'table of Diamonds')

- Quan sát đồ thị trên:
- Tỷ lệ khoảng cách số lượng trên đồ thị là 1 đơn vị tương ứng với
2500.
- Đồ thị tên là Table of Diamonds.
- Cột x table, cột y là Số lượng.
- Đa phần các giá trị có độ sâu từ 50 ~ 60.
- Các cột còn lại có các quan sát nhưng không nhiều.
Vẽ biểu đồ
cột price theo dạng bar.
r %>% ggplot(aes(x = price)) +
geom_bar(fill='brown') +
labs(x = 'giá', y= 'Số lượng' , title = 'price of Diamonds')

- Quan sát đồ thị trên:
- Tỷ lệ khoảng cách số lượng trên đồ thị là 1 đơn vị tương ứng với
50.
- Đồ thị tên là Price of Diamonds.
- Cột x là giá, cột y là Số lượng.
- Đa phần các giá trị có độ sâu từ 1000 trở xuống.
- Giá càng tăng số lượng càng ít.
Vẽ biểu đồ
cột x theo dạng bar.
r %>% ggplot(aes(x = x)) +
geom_bar(fill='violet') +
labs(x = 'x', y= 'Số lượng' , title = 'X of Diamonds')

- Quan sát đồ thị trên:
- Tỷ lệ khoảng cách số lượng trên đồ thị là 1 đơn vị tương ứng với
50.
- Đồ thị tên là X of Diamonds.
- Cột x là x, cột y là Số lượng.
- Cột có số lượng lớn nhất là khoảng 4.4.
Vẽ biểu đồ
cột y theo dạng bar.
r %>% ggplot(aes(x = y)) +
geom_bar(fill='salmon') +
labs(x = 'y', y= 'Số lượng' , title = 'Y of Diamonds')

- Quan sát đồ thị trên:
- Tỷ lệ khoảng cách số lượng trên đồ thị là 1 đơn vị tương ứng với
50.
- Đồ thị tên là Y of Diamonds.
- Cột x là y, cột y là Số lượng.
- Cột có số lượng nhiều là các cột từ 5 đến 10.
- Các cột còn lại có các quan sát nhưng không nhiều.
Vẽ biểu đồ
cột z theo dạng bar.
r %>% ggplot(aes(x = z)) +
geom_bar(fill='navy') +
labs(x = 'z', y= 'Số lượng' , title = 'Z of Diamonds')

- Quan sát đồ thị trên:
- Tỷ lệ khoảng cách số lượng trên đồ thị là 1 đơn vị tương ứng với
100.
- Đồ thị tên là Z of Diamonds.
- Cột x lad z, cột y là Số lượng.
- Đa phần các giá trị có độ sâu từ 2,5 đến 5.
- Các cột còn lại có các quan sát nhưng không nhiều.
