“18:28:40, 02 - 03 - 2024”
***

0.1 Giới thiệu về nguồn gốc của bộ dữ liệu Diamonds.

  • Diamonds là một trong các dữ bộ dữ liệu của packages ggplot2.
  • Trong bài viết này chúng ta sẽ gán diamonds thành r.
  • ggplot2 là một packages hỗ trợ vẽ các dạng đồ thị như bar chart,histogram,pie,…
  • Khi dùng ggplot2 để vẽ đồ thị chúng ta có:
    • ggplot():chỉ định phần dữ liệu dùng để vẽ đồ thị.
    • geom_: chỉ định dạng đồ thị cần vẽ.

0.2 Giới thiệu về bộ dữ liệu diamonds

library(ggplot2)
str(diamonds)
## tibble [53,940 × 10] (S3: tbl_df/tbl/data.frame)
##  $ carat  : num [1:53940] 0.23 0.21 0.23 0.29 0.31 0.24 0.24 0.26 0.22 0.23 ...
##  $ cut    : Ord.factor w/ 5 levels "Fair"<"Good"<..: 5 4 2 4 2 3 3 3 1 3 ...
##  $ color  : Ord.factor w/ 7 levels "D"<"E"<"F"<"G"<..: 2 2 2 6 7 7 6 5 2 5 ...
##  $ clarity: Ord.factor w/ 8 levels "I1"<"SI2"<"SI1"<..: 2 3 5 4 2 6 7 3 4 5 ...
##  $ depth  : num [1:53940] 61.5 59.8 56.9 62.4 63.3 62.8 62.3 61.9 65.1 59.4 ...
##  $ table  : num [1:53940] 55 61 65 58 58 57 57 55 61 61 ...
##  $ price  : int [1:53940] 326 326 327 334 335 336 336 337 337 338 ...
##  $ x      : num [1:53940] 3.95 3.89 4.05 4.2 4.34 3.94 3.95 4.07 3.87 4 ...
##  $ y      : num [1:53940] 3.98 3.84 4.07 4.23 4.35 3.96 3.98 4.11 3.78 4.05 ...
##  $ z      : num [1:53940] 2.43 2.31 2.31 2.63 2.75 2.48 2.47 2.53 2.49 2.39 ...
names(diamonds)
##  [1] "carat"   "cut"     "color"   "clarity" "depth"   "table"   "price"  
##  [8] "x"       "y"       "z"
library(skimr)
skim(diamonds)
Data summary
Name diamonds
Number of rows 53940
Number of columns 10
_______________________
Column type frequency:
factor 3
numeric 7
________________________
Group variables None

Variable type: factor

skim_variable n_missing complete_rate ordered n_unique top_counts
cut 0 1 TRUE 5 Ide: 21551, Pre: 13791, Ver: 12082, Goo: 4906
color 0 1 TRUE 7 G: 11292, E: 9797, F: 9542, H: 8304
clarity 0 1 TRUE 8 SI1: 13065, VS2: 12258, SI2: 9194, VS1: 8171

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
carat 0 1 0.80 0.47 0.2 0.40 0.70 1.04 5.01 ▇▂▁▁▁
depth 0 1 61.75 1.43 43.0 61.00 61.80 62.50 79.00 ▁▁▇▁▁
table 0 1 57.46 2.23 43.0 56.00 57.00 59.00 95.00 ▁▇▁▁▁
price 0 1 3932.80 3989.44 326.0 950.00 2401.00 5324.25 18823.00 ▇▂▁▁▁
x 0 1 5.73 1.12 0.0 4.71 5.70 6.54 10.74 ▁▁▇▃▁
y 0 1 5.73 1.14 0.0 4.72 5.71 6.54 58.90 ▇▁▁▁▁
z 0 1 3.54 0.71 0.0 2.91 3.53 4.04 31.80 ▇▁▁▁▁
  • Sau khi dùng lệnh lệnh str() và names(), ta thu được thông tin của bộ dữ liệu Diamonds gồm có:

  • 10 cột có tên lần lượt là: carat, cut, color, clarity, depth, table, price, x, y, z.

  • 53,940 quan sát

    • Mỗi một quan sát tương ứng với 1 viên kim cương.
    • 10 biến tương ứng với các đặc tính của kim cương.
  • Giải thích đặc tính:

  • Carat:Trọng lượng của viên kim cương (gram)

  • Cut: giác cắt tạo ra khi xử lý kim cương thô.

  • Color: màu của viên kim cương.

  • Clarity: độ tinh khiết của kim cương.

  • Depth: độ sâu của kim cương.

  • Table :Bề mặt của kim cương nằm ở trên đỉnh kim cương.

  • Price: giá thành của kim cương.

  • x: chiều dài của kim cương.

  • y: chiều rộng kim cương.

  • z: Chiều cao kim cương.

  • Công cụ vẽ đồ thị:

  • Dùng packages ggplot2.

  • Câu lệnh geom_bar: vẽ đồ thị dạng bar, tương tự với các dạng biểu đồ column, histogram,…
    +Labs: dùng để đặt tên, ví dụ như là các trục x,y và title: đặt tên cho biểu đồ.
    +Fill: chọn màu cho biểu đồ.

  • aes: xác định dữ liệu cần vẽ biểu đồ.
    +Group_by:phân nhóm dữ liệu.
    +Summarise: Tạo biến mới.

  • mean: trung bình

  • median: trung vị

  • var: phương sai

0.3 Vẽ biểu đồ cột color theo dạng đồ thị bar.

Trong bộ dữ liệu Diamonds, kim cương có 7 màu sắc, chúng được phân vào hai cấp độ màu sắc khác nhau:
+D,E,F: cấp độ không màu (Colorless)
+G,H,I,J: Cấp độ gần như không màu(Near Colorless)
+Dưới đây là số lượng viên kim cương của mỗi màu:

table(diamonds$color)
## 
##     D     E     F     G     H     I     J 
##  6775  9797  9542 11292  8304  5422  2808

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(magrittr)
library(scales)
r <- diamonds
r %>% ggplot(aes(x = color)) +
    geom_bar(fill='green') +
    labs(x = 'Loại', y = 'Số lượng', title = 'Color of Diamonds')

  • Quan sát biểu đồ trên, ta thấy được:
    • Tỷ lệ khoảng cách số lượng trên đồ thị là 1 đơn vị tương ứng với 1500.
    • Đồ thị tên là Color of Diamonds.
    • Cột x là Loại (D,E,F,G,H,I,J), cột y là Số lượng.
    • Cột G là cột có số lượng nhiều nhất (11292).
    • Cột J là cột có số lượng nhỏ nhất ( 2808).
    • Khi so sánh hai màu G và J ta thấy màu G gần bằng 4 lần màu J.
    • Dựa vào biểu đồ ta thấy rõ số kim cương không màu ít hơn kim cương gần như không màu.

0.4 Vẽ đồ thị cột cut theo dạng đồ thị bar.

Giác cắt kim cương_yếu tố quang trọngđể đánh giá 1 viên kim cương có đẹp hay không.
* Người ta lập ra 1 thang đo nhằm đánh giá giác cắt kim cương theo 2 tiêu chí là tỷ lệ và góc độ của mặt cắt:
+ Ideal: mức độ lý tưởng
+Premium: mức độ tuyệt vời
+Very Good: mức độ rất tốt
+Good: mức độ tốt
+Fair: mức độ trung bình
* Số lương viên kim cương của mỗi loại mặt cắt:

table(r$cut)
## 
##      Fair      Good Very Good   Premium     Ideal 
##      1610      4906     12082     13791     21551
r %>% ggplot(aes(x = cut)) +
    geom_bar(fill='pink') +
    labs(x = 'Mặt cắt kim cương', y= 'Số lượng' , title = 'Cut of Diamonds')

  • Quan sát đồ thị trên:
    • Tỷ lệ khoảng cách số lượng trên đồ thị là 1 đơn vị tương ứng với 2500.
    • Đồ thị tên là Cut of Diamonds.
    • Cột x là Loại mặt cắt (Fair,Good, Very Good, Premium, Ideal), cột y là Số lượng.
    • Cột Ideal có số lượng nhiều nhất (21551)
      +Mặt cắt Ideal chiếm gần nửa số lượng quan sát. +Khi chế tác các viên kim cương, người thợ luôn phải tính toán tỉ mỉ trước khi chế tác, nên loại Ideal cut chiếm số lượng nhiều.
    • Cột Fair có số lượng ít nhất (1610)
    • Nhìn vào biểu đồ ta thấy số lượng mỗi lại tăng dần theo thứ tự loại mặt cắt.

0.5 Vẽ biểu đồ cột carat theo dạng bar.

Ta có thể xác định trọng lượng của viên kim cương bằng cân điện tử, việc xác định trọng lượng rất quan trọng trọng việc đánh giá giá thành của viên kim cương.

r %>% ggplot(aes(x = carat)) +
    geom_bar(fill='purple') +
    labs(x = 'carat', y= 'Số lượng' , title = 'Carat of Diamonds')

  • Nhận xét:
    • Tỷ lệ khoảng cách số lượng trên đồ thị là 1 đơn vị tương ứng với 500.
    • Đồ thị tên là Carat of Diamonds.
    • Cột x là carat(0.23,0.,…), cột y là Số lượng.
    • Cột khoảng từ 0 đến 0.5 có số lượng nhiều nhất
    • Cột từ 4 đến5 có số lượng ít nhất
    • Nhìn vào biểu đồ ta thấy số lượng mỗi lại giảm dần theo thứ tự loại mặt cắt.

0.6 Vẽ biểu đồ clarity theo dạng bar.

Thang đo độ tinh khiết của kim cương:

  • Internally Flawless ( kim cương độ sạch IF ): không nhìn thấy tạp chất bên trong mà chỉ có một vài vết mờ trên bề mặt của nó. Độ tinh khiết IF của kim cương được đánh giá là tuyệt vời.

  • Very Very Slightly Included ( độ trong kim cương VVS1, VVS2 ): các tạp chất bên trong cực kỳ nhỏ và khó nhìn thấy dưới kính hiển vi đá quý có độ phóng đại 10 lần. Độ tinh khiết khi rơi vào nhóm này được đánh giá cao.

  • Very Slightly Included (Độ sạch kim cương VS1, VS2): có các tạp chất rất nhỏ, có thể nhìn thấy dưới độ phóng đại 10 lần. khi rơi vào nhóm này độ tinh khiết được đánh giá trên mức trung bình.

  • Slightly Included ( Độ tinh khiết kim cương SI1, SI2 ): kim cương có các tạp chất dễ nhận thấy dưới độ phóng đại 10 lần. Độ tinh khiết của nhóm này được đánh giá ở mức trung bình.

  • Included ( Độ sạch của kim cương I1– I3 ): các tạp chất rõ ràng có thể nhìn thấy bằng mắt thường

  • Số lượng kim cương của mỗi clarrity:

table(r$color)
## 
##     D     E     F     G     H     I     J 
##  6775  9797  9542 11292  8304  5422  2808

r %>% ggplot(aes(x = clarity)) +
    geom_bar(fill='red') +
    labs(x = 'độ trong', y= 'Số lượng' , title = 'Clarity of Diamonds')

  • Quan sát đồ thị trên:
    • Tỷ lệ khoảng cách số lượng trên đồ thị là 1 đơn vị tương ứng với 2500.
    • Đồ thị tên là Clarity of Diamonds.
    • Cột x là độ trong (I1,SI2,SI1,VS2,VS1,VVS2.VVS1.IF), cột y là Số lượng.
    • Cột SI1 có số lượng nhiều nhất (13065), những viên kim cương chứa tạp chất dễ thấy chiếm số lượng nhiều.
    • Cột I1 có số lượng ít nhất (741)
    • Số lượng kim cương SI1 gấp 10 lần so với I1
    • Số lượng kim cương chênh lệch giữa các mức độ không quá nhiều.

0.7 Vẽ biểu đồ cột depth theo dạng bar.

r %>% ggplot(aes(x = depth)) +
    geom_bar(fill='blue') +
    labs(x = 'độ sâu', y= 'Số lượng' , title = 'Depth of Diamonds')

  • Quan sát đồ thị trên:
    • Tỷ lệ khoảng cách số lượng trên đồ thị là 1 đơn vị tương ứng với 500.
    • Đồ thị tên là Depth of Diamonds.
    • Cột x là độ sâu (50 ~ 80), cột y là Số lượng.
    • Đa phần các giá trị có độ sâu từ 60 ~ 63.
    • Các cột còn lại có các quan sát nhưng không nhiều.

0.8 Vẽ biểu đồ cột table theo dạng bar.

r %>% ggplot(aes(x = table)) +
    geom_bar(fill='black') +
    labs(x = 'table', y= 'Số lượng' , title = 'table of Diamonds')

  • Quan sát đồ thị trên:
    • Tỷ lệ khoảng cách số lượng trên đồ thị là 1 đơn vị tương ứng với 2500.
    • Đồ thị tên là Table of Diamonds.
    • Cột x table, cột y là Số lượng.
    • Đa phần các giá trị có độ sâu từ 50 ~ 60.
    • Các cột còn lại có các quan sát nhưng không nhiều.

0.9 Vẽ biểu đồ cột price theo dạng bar.

r %>% ggplot(aes(x = price)) +
    geom_bar(fill='brown') +
    labs(x = 'giá', y= 'Số lượng' , title = 'price of Diamonds')

  • Quan sát đồ thị trên:
    • Tỷ lệ khoảng cách số lượng trên đồ thị là 1 đơn vị tương ứng với 50.
    • Đồ thị tên là Price of Diamonds.
    • Cột x là giá, cột y là Số lượng.
    • Đa phần các giá trị có độ sâu từ 1000 trở xuống.
    • Giá càng tăng số lượng càng ít.

0.10 Vẽ biểu đồ cột x theo dạng bar.

Phân loại x thành 2 nhóm ngắn và dài để dễ quan sát hơn

r %>% mutate(x1 = cut(x,2,label = c('ngắn','dài'))) %>% ggplot(aes(x = x1)) +
    geom_bar(fill='violet') + 
    labs(x = 'x', y= 'Số lượng' , title = 'X of Diamonds')

  • Quan sát đồ thị trên:
    • Tỷ lệ khoảng cách số lượng trên đồ thị là 1 đơn vị tương ứng với 50.
    • Đồ thị tên là X of Diamonds.
    • Cột x là x, cột y là Số lượng.
    • Cột dài có số lượng lớn hơn cột ngắn.

0.11 Vẽ biểu đồ cột y theo dạng bar.

Chia y thành 2 nhóm gồm lớn và nhỏ.

r %>% mutate(y1 = cut(y,2,label = c(' nhỏ','lớn'))) %>% ggplot(aes(x = y1)) +
    geom_bar(fill='salmon') + 
    labs(x = 'chiều rộng', y= 'Số lượng' , title = 'Y of Diamonds')

  • Quan sát đồ thị trên:
    • Tỷ lệ khoảng cách số lượng trên đồ thị là 1 đơn vị tương ứng với 50.
    • Đồ thị tên là Y of Diamonds.
    • Cột x là y, cột y là Số lượng.
    • Cột nhỏ có số lượng nhiều hơn
    • Cột còn lại có các quan sát nhưng không nhiều.

0.12 Vẽ biểu đồ cột z theo dạng bar.

Phân loại biến z thành 2 nhóm thấp và cao

r %>% mutate(z1 = cut(z,2,label = c('thấp','cao'))) %>%  ggplot(aes(x = z1)) +
    geom_bar(fill='navy') +
    labs(x = 'chiều cao', y= 'Số lượng' , title = 'Z of Diamonds')

  • Quan sát đồ thị trên:
    • Tỷ lệ khoảng cách số lượng trên đồ thị là 1 đơn vị tương ứng với 100.
    • Đồ thị tên là Z of Diamonds.
    • Cột x là z, cột y là Số lượng.
    • Đa phần các giá trị có độ sâu từ 2,5 đến 5.
    • Cột thấp có số lượng nhiều hơn cột cao.
    • Các cột còn lại có các quan sát nhưng không nhiều.

0.13 ** Tổng kết quan sát x,y,z.**

  • Số lượng viên kim cương có chiều dài lớn chiếm >50% trên tổng số.
  • Số lượng viên kim cương có chiều rộng nhỏ hơn áp đảo số còn lại.
  • Số viên kim cương có chiều cao thấp áp đảo kim cương còn lại.
  • Nhìn chung, số lượng viên kim cương có kích thước lớn không nhiều, dẫn đến giá thành không cao.

0.14 Vẽ đồ thị theo color và carat.

  • Thao tác thực hiện: sử dụng group_by để phân nhóm dữ liệu theo hai tiêu chí là cut và color. Sau đó sử dung summarise để tạo ra biến mới tương ứng với những nhóm đã phân ra trước đó. sử dụng những biến mới để vẽ đồ thị bằng geom_col và facet_wrap để vẽ ra từng biểu đồ tương ứng với các nhóm.

r %>% group_by(color,cut) %>% summarise(n=n()) %>%
  ggplot(aes(x= cut,y= n)) + 
  geom_col(fill= 'green') + facet_wrap(~color) +
  labs( x= 'Loại', y= 'Số lượng')
## `summarise()` has grouped output by 'color'. You can override using the
## `.groups` argument.

  • Nhận xét:
    • Tỷ lệ trên cột số lượng là 500 tương ứng với 1 đơn vị.
    • Có 7 đồ thị : đồ thị loại D (color) với cut, loại E với Cut,loại F với Cut, loại G với Cut,loại H với cut, loại I với cut, loại J với cut.
    • Ở 7 đồ thị trên loại Ideal luôn có số lượng lớn nhất và Fair có số lượng nhỏ nhất.
    • Ta thấy tổ hợp giữa G và cut có tần số xuất hiện nhiều nhất và J và cut có số lượng ít nhất.

0.15 Vẽ đồ thị theo carat và color.

r %>% group_by(color,carat) %>% summarise(n=n()) %>%
  ggplot(aes(x= carat,y= n)) + 
  geom_col(fill= 'purple') + facet_wrap(~color) +
  labs( x= 'Loại', y= 'Số lượng')
## `summarise()` has grouped output by 'color'. You can override using the
## `.groups` argument.

  • Nhận xét:
    • Tỷ lệ trên cột số lượng là 100 tương ứng với 1 đơn vị.
    • Có 7 đồ thị : đồ thị loại D (color) với carat, loại E với carat,loại F với Carat, loại G với Carat,loại H với carat, loại I với carat, loại J với carat.
    • Ta thấy tổ hợp giữa E và carat có tần số xuất hiện nhiều nhất ; J và carat có số lượng ít nhất.

0.16 Vẽ đồ thị theo depth và color.

r %>% group_by(color,depth) %>% summarise(n=n()) %>%
  ggplot(aes(x= depth,y= n)) + 
  geom_col(fill= 'blue') + facet_wrap(~color) +
  labs( x= 'Loại', y= 'Số lượng')
## `summarise()` has grouped output by 'color'. You can override using the
## `.groups` argument.

  • Nhận xét:
    • Tỷ lệ trên cột số lượng là 50 tương ứng với 1 đơn vị.
    • Có 7 đồ thị : đồ thị loại D (color) với depth, loại E với depth,loại F với depth, loại G với deptht,loại H với depth, loại I với depth, loại J với depth.
    • Ta thấy tổ hợp giữa G và deptht có tần số xuất hiện nhiều nhất ; J và depth có số lượng ít nhất.

0.17 Vẽ đồ thị theo clarity và color.

r %>% group_by(color,clarity) %>% summarise(n=n()) %>%
  ggplot(aes(x= clarity,y= n)) + 
  geom_col(fill= 'red') + facet_wrap(~color) +
  labs( x= 'Loại', y= 'Số lượng')
## `summarise()` has grouped output by 'color'. You can override using the
## `.groups` argument.

  • Nhận xét:
    • Tỷ lệ trên cột số lượng là 250 tương ứng với 1 đơn vị.
    • Có 7 đồ thị : đồ thị loại D (color) với clarity, loại E với claruty,loại F với Clarity, loại G với Clarity,loại H với clarity, loại I với clarity, loại J với clarity.
    • Trong mỗi đồ thị thì tổ hợp color và SI1,SI2 luôn có tần số xuất hiện cao nhất.
    • Ta thấy tổ hợp giữa E và clarity có tần số xuất hiện nhiều nhất ; J và clarity có số lượng ít nhất.

0.18 Vẽ đồ thị theo table và color.

r %>% group_by(color,table) %>% summarise(n=n()) %>%
  ggplot(aes(x= table,y= n)) + 
  geom_col(fill= 'black') + facet_wrap(~color) +
  labs( x= 'Loại', y= 'Số lượng')
## `summarise()` has grouped output by 'color'. You can override using the
## `.groups` argument.

  • Nhận xét:
    • Tỷ lệ trên cột số lượng là 250 tương ứng với 1 đơn vị.
    • Có 7 đồ thị : đồ thị loại D (color) với table, loại E với table,loại F với table, loại G với table,loại H với table, loại I với table, loại J với table.
    • Ta thấy tổ hợp giữa E và table có tần số xuất hiện nhiều nhất ; J và table có số lượng ít nhất.

0.19 Vẽ đồ thị theo price và color.

r %>% group_by(color,price) %>% summarise(n=n()) %>%
  ggplot(aes(x= price,y= n)) + 
  geom_col(fill= 'brown') + geom_text(aes(label=round(n,2)), vjust=2, color='black') + facet_wrap(~color) +
  labs( x= 'Loại', y= 'Số lượng')
## `summarise()` has grouped output by 'color'. You can override using the
## `.groups` argument.

  • Nhận xét:
    • Tỷ lệ trên cột số lượng là 10 tương ứng với 1 đơn vị.
    • Có 7 đồ thị : đồ thị loại D (color) với price, loại E với price,loại F với price, loại G với price,loại H với price, loại I với price, loại J với price.
    • Ta thấy tổ hợp giữa F và price có tần số xuất hiện nhiều nhất ; J và price có số lượng ít nhất.

0.20 Vẽ đồ thị theo x và color.

r %>% group_by(color,x) %>% summarise(n=n()) %>%
  ggplot(aes(x= x,y= n)) + 
  geom_col(fill= 'violet') + facet_wrap(~color) +
  labs( x= 'Loại', y= 'Số lượng')
## `summarise()` has grouped output by 'color'. You can override using the
## `.groups` argument.

  • Nhận xét:
    • Tỷ lệ trên cột số lượng là 12.5 tương ứng với 1 đơn vị.
    • Có 7 đồ thị : đồ thị loại D (color) với x, loại E với x,loại F với x, loại G với x,loại H với x, loại I với x, loại J với x.
    • Ta thấy tổ hợp giữa G và x có tần số xuất hiện nhiều nhất ; J và x có số lượng ít nhất.

0.21 Vẽ đồ thị theo y và color.

r %>% group_by(color,y) %>% summarise(n=n()) %>%
  ggplot(aes(x= y,y= n)) + 
  geom_col(fill= 'salmon') + facet_wrap(~color) +
  labs( x= 'Loại', y= 'Số lượng')
## `summarise()` has grouped output by 'color'. You can override using the
## `.groups` argument.

  • Nhận xét:
    • Tỷ lệ trên cột số lượng là 15 tương ứng với 1 đơn vị.

    • Có 7 đồ thị : đồ thị loại D (color) với y, loại E với y,loại F với y, loại G với y,loại H với y, loại I với y, loại J với y.

    • Ta thấy tổ hợp giữa E và y có tần số xuất hiện nhiều nhất

    +J và y có số lượng ít nhất , luôn khiêm tốn hơn so với các màu khác.

0.22 Vẽ đồ thị theo z và color.

r %>% group_by(color,z) %>% summarise(n=n()) %>%
  ggplot(aes(x= z,y= n)) + 
  geom_col(fill= 'navy') + facet_wrap(~color) +
  labs( x= 'Loại', y= 'Số lượng')
## `summarise()` has grouped output by 'color'. You can override using the
## `.groups` argument.

  • Nhận xét:
    • Tỷ lệ trên cột số lượng là 100 tương ứng với 1 đơn vị.
    • Có 7 đồ thị : đồ thị loại D (color) với z, loại E với z,loại F với z, loại G với z,loại H với z, loại I với z, loại J với z.
    • Ta thấy tổ hợp giữa G và z có tần số xuất hiện nhiều nhất ; J và z có số lượng ít nhất.

0.23 Vẽ đồ thị theo carat và cut.

r %>% group_by(cut,carat) %>% summarise(n=n()) %>%
  ggplot(aes(x= carat,y= n)) + 
  geom_col(fill= 'pink') + facet_wrap(~cut) +
  labs( x= 'Loại', y= 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

  • Nhận xét:
    • Tỷ lệ trên cột số lượng là 100 tương ứng với 1 đơn vị.
    • Có 5 đồ thị : đồ thị loại Fair (cut) với carat, loại Good với carat,loại Very Good với Carat, loại Premium với Carat,loại Ideal với carat.
    • Ta thấy tổ hợp giữa Ideal và carat có tần số xuất hiện nhiều nhất ; Fair và carat có số lượng ít nhất.

0.24 Vẽ đồ thị theo cut và price.

r %>% group_by(cut,price) %>% summarise(n=n()) %>%
  ggplot(aes(x= price,y= n)) + 
  geom_col(fill= 'brown') + facet_wrap(~cut) +
  labs( x= 'Loại', y= 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

  • Nhận xét:
    • Tỷ lệ trên cột số lượng là 10 tương ứng với 1 đơn vị.
    • Có 5 đồ thị : đồ thị loại Fair (cut) với price, loại Good với price,loại Very Good với price, loại Premium với price,loại Ideal với price.
    • Ta thấy tổ hợp giữa Ideal và price có tần số xuất hiện nhiều nhất ; Fair và price có số lượng ít nhất.

0.25 Vẽ đồ thị theo cut và clarity.

r %>% group_by(cut,clarity) %>% summarise(n=n()) %>%
  ggplot(aes(x= clarity,y= n)) + 
  geom_col(fill= 'red') + facet_wrap(~cut) +
  labs( x= 'Loại', y= 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

  • Nhận xét:
    • Tỷ lệ trên cột số lượng là 500 tương ứng với 1 đơn vị.
    • Có 5 đồ thị : đồ thị loại Fair (cut) với clarity, loại Good với clarity,loại Very Good với clarity, loại Premium với clarity,loại Ideal với clarity.
    • Ta thấy tổ hợp giữa Ideal và clarity có tần số xuất hiện nhiều nhất ; Fair và clarity có số lượng ít nhất.
    • Trong 5 đồ thị tổ hợp SI1 và cut luôn có tần số xuất hiện cao nhất.

0.26 Vẽ đồ thị theo cut và table.

r %>% group_by(cut,table) %>% summarise(n=n()) %>%
  ggplot(aes(x= table,y= n)) + 
  geom_col(fill= 'black') + facet_wrap(~cut) +
  labs( x= 'Loại', y= 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

  • Nhận xét:
    • Tỷ lệ trên cột số lượng là 1000 tương ứng với 1 đơn vị.
    • Có 5 đồ thị : đồ thị loại Fair (cut) với table, loại Good với table,loại Very Good với table, loại Premium với table,loại Ideal với table.
    • Ta thấy tổ hợp giữa Ideal và table có tần số xuất hiện nhiều nhất ; Fair và table có số lượng ít nhất.

0.27 Vẽ đồ thị theo cut và depth.

r %>% group_by(cut,depth) %>% summarise(n=n()) %>% 
  ggplot(aes(x=depth,y=n)) +
  geom_col(fill= 'blue') + facet_wrap(~cut) +
  labs(x= 'Loại',y= 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

  • Nhận xét:
    • Tỷ lệ trên cột số lượng là 250 tương ứng với 1 đơn vị.
    • Có 5 đồ thị : đồ thị loại Fair (cut) với depth, loại Good với depth,loại Very Good với depth, loại Premium với depth,loại Ideal với depth.
    • Ta thấy tổ hợp giữa Ideal và depth có tần số xuất hiện nhiều nhất ; Fair và depth có số lượng ít nhất.

0.28 Vẽ đồ thị theo cut và x.

r %>% group_by(cut,x) %>% summarise(n=n()) %>% 
  ggplot(aes(x=x,y=n)) +
  geom_col(fill= 'violet') + facet_wrap(~cut) +
  labs(x= 'Loại',y= 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

  • Nhận xét:
    • Tỷ lệ trên cột số lượng là 50 tương ứng với 1 đơn vị.
    • Có 5 đồ thị : đồ thị loại Fair (cut) với x, loại Good với x,loại Very Good với x, loại Premium với x,loại Ideal với x.
    • Ta thấy tổ hợp giữa Ideal và x có tần số xuất hiện nhiều nhất ; Fair và x có số lượng ít nhất.

0.29 Vẽ đồ thị theo cut và y.

r %>% group_by(cut,y) %>% summarise(n=n()) %>% 
  ggplot(aes(x=y,y=n)) +
  geom_col(fill= 'salmon') + facet_wrap(~cut) +
  labs(x= 'Loại',y= 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

  • Nhận xét:
    • Tỷ lệ trên cột số lượng là 50 tương ứng với 1 đơn vị.
    • Có 5 đồ thị : đồ thị loại Fair (cut) với y, loại Good với y,loại Very Good với y, loại Premium với y,loại Ideal với y.
    • Ta thấy tổ hợp giữa Ideal và y có tần số xuất hiện nhiều nhất ; Fair và y có số lượng ít nhất.

0.30 Vẽ đồ thị theo cut và z.

r %>% group_by(cut,z) %>% summarise(n=n()) %>% 
  ggplot(aes(x=z,y=n)) +
  geom_col(fill= 'navy') + facet_wrap(~cut) +
  labs(x= 'Loại',y= 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

  • Nhận xét:
    • Tỷ lệ trên cột số lượng là 50 tương ứng với 1 đơn vị.
    • Có 5 đồ thị : đồ thị loại Fair (cut) với z, loại Good với z,loại Very Good với z, loại Premium với z,loại Ideal với z.
    • Ta thấy tổ hợp giữa Ideal và z có tần số xuất hiện nhiều nhất ; Fair và z có số lượng ít nhất.

0.31 Vẽ đồ thị theo price và color trên cùng 1 đồ thị.

r %>% ggplot(aes(x = price, fill = color)) +
  geom_bar()  

0.32 Vẽ đồ thị phân loại price.

  • Thao tác thực hiện : dùng mutate tạo biến mới tên price1 gán cho các giá trị phân loại price theo 3 tiêu chuẩn :thấp, vừa, cao. Dùng cut để cắt price thành 3 nhóm dựa trên giá trị.
r <- r %>% mutate(price1 = cut(price,3,label = c('thấp','vừa','cao')))
r %>% ggplot(aes(x=price1)) +
  geom_bar(fill='pink')

  • Nhận xét:
    • Quan sát biểu đồ ta thấy loại giá thấp có số lượng nhiều nhất, còn giá cao có số lượng ít nhất.

0.33 Vẽ đồ thị phân loại depth.

  • Thực hiện thao tác giống phân loại price.
r <- r %>% mutate(depth1 = cut(depth,4,label = c('rất nhỏ','nhỏ','vừa','lớn')))
r %>% ggplot(aes(x=depth1)) +
  geom_bar(fill='salmon')

  • Nhận xét:
    • Loại depth vừa có số lượng nhiều nhất.
    • Hai loại rất nhỏ và lớn có nhưng số lượng rất ít.

0.34 Vẽ đồ thị giá trị trung bình của table theo biến cut.

  • Thao tác thực hiện:
    • Group_by(cut): thực hiện việc nhóm dữ liệu theo các giá trị của biến cut.
      +Summarise(w=mean(table)): trong mỗi nhóm được tạo bởi group_by, tính các giá trị trung bình của các giá trị trong biến table, lưu trữ nó trong 1 biến mới có tên w.
      +aes(label = round(w, 2)) định dạng văn bản được hiển thị dưới dạng các giá trị được làm tròn (đến hai chữ số thập phân) trong biến w.
      +vjust = 2 điều chỉnh vị trí theo chiều dọc của các nhãn văn bản hơi cao hơn các thanh để dễ đọc hơn.
      +color = ‘black’ đặt màu của các nhãn văn bản thành màu đen.
r %>% group_by(cut) %>% summarise(w=mean(table)) %>%
  ggplot(aes(x=cut,y=w)) + 
  geom_col(position= 'dodge', fill='salmon') +
  geom_text(aes(label= round(w,2)),vjust= 2, color= 'black') +
              labs(x='cut', y= 'mean')

  • Nhận xét:
    +Cột Fair có trung bình(điểm chính giữa) cao nhất 59.05 theo biến cut.
    +Cột Ideal có trung bình thấp nhất là 55.95 tính theo cut.

0.35 Vẽ đồ thị trung vị của depth theo biến clarity.

  • Thao tác thực hiện:
    • Group_by(clarity): thực hiện việc nhóm dữ liệu theo các giá trị của biến clarity.
      +Summarise(w=mean(depth)): trong mỗi nhóm được tạo bởi group_by, tính các giá trị trung bình của các giá trị trong biến depth, lưu trữ nó trong 1 biến mới có tên e.
      +aes(label = round(e, 2)) định dạng văn bản được hiển thị dưới dạng các giá trị được làm tròn (đến hai chữ số thập phân) trong biến e.
      +vjust = 2 điều chỉnh vị trí theo chiều dọc của các nhãn văn bản hơi cao hơn các thanh để dễ đọc hơn.
      +color = ‘red’ đặt màu của các nhãn văn bản thành màu đỏ.
r %>% group_by(clarity) %>% summarise(e=median(depth)) %>%
  ggplot(aes(x=clarity,y=e)) +
  geom_col(position='dodge',fill='violet') +
  geom_text(aes(label=round(e,2)), vjust=2, color='red') + labs(x='clarity',y='median')

  • Nhận xét:
    +Quan sát biểu đồ ta thấy trung vị(điểm ở giữa) của depth theo các loại clarity đều xấp xỉ nhau.
    +Cột I1 có điểm trung vị cao nhất của depth theo I1 là 62.2.

0.36 Vẽ đồ thi phương sai của y theo biến color.

  • Thao tác thực hiện:
    • Group_by(color): thực hiện việc nhóm dữ liệu theo các giá trị của biến color.
      +Summarise(w=mean(y)): trong mỗi nhóm được tạo bởi group_by, tính các giá trị trung bình của các giá trị trong biến y, lưu trữ nó trong 1 biến mới có tên g.
      +aes(label = round(e, 2)) định dạng văn bản được hiển thị dưới dạng các giá trị được làm tròn (đến hai chữ số thập phân) trong biến g.
      +vjust = 2 điều chỉnh vị trí theo chiều dọc của các nhãn văn bản hơi cao hơn các thanh để dễ đọc hơn.
      +color = ‘black’ đặt màu của các nhãn văn bản thành màu đen.
r %>% group_by(color) %>% summarise(g=var(y)) %>% 
  ggplot(aes(x=color,y=g)) +
  geom_col(position='dodge',fill='navy') +
  geom_text(aes(label=round(g,2)),vjust=2, color='black') + labs(x='màu',y='phương sai')

  • Nhận xét:
    +Cột H có phương sai (độ phân tán) của y cao nhất là 1.74.
    +Cột D có phương sai của y thấp nhất là 0.88.

0.37 Vẽ đồ thi phương sai của price theo biến color.

  • Thao tác thực hiện:
    • Group_by(color): thực hiện việc nhóm dữ liệu theo các giá trị của biến color.
      +Summarise(w=mean(price)): trong mỗi nhóm được tạo bởi group_by, tính các giá trị trung bình của các giá trị trong biến price, lưu trữ nó trong 1 biến mới có tên k.
      +aes(label = round(k, 2)) định dạng văn bản được hiển thị dưới dạng các giá trị được làm tròn (đến hai chữ số thập phân) trong biến g.
      +vjust = 2 điều chỉnh vị trí theo chiều dọc của các nhãn văn bản hơi cao hơn các thanh để dễ đọc hơn.
      +color = ‘black’ đặt màu của các nhãn văn bản thành màu đen.
r %>% group_by(color) %>% summarise(k=var(price)) %>% 
  ggplot(aes(x=color,y=k)) +
  geom_col(position='dodge',fill='green') +
  geom_text(aes(label=round(k,2)),vjust=2, color='black') + labs(x='màu',y='phương sai')

  • Nhận xét:
    +Cột I có phương sai (độ phân tán) của price cao nhất là 22300944.68.
    +Cột E có phương sai của price thấp nhất là 1183397.31.

0.38 Vẽ biểu đồ phương sai của x theo color.

r %>% group_by(color) %>% summarise(o=var(x)) %>% 
  ggplot(aes(x=color,y=o)) +
  geom_col(position='dodge',fill='yellow') +
  geom_text(aes(label=round(o,2)),vjust=2, color='black') + labs(x='màu',y='phương sai')

  • Nhận xét:
    +Cột I có phương sai (độ phân tán) của x cao nhất là 1.57.
    +Cột D có phương sai của x thấp nhất là 0.88.

0.39 Vẽ biểu đồ phương sai của z theo color.

r %>% group_by(color) %>% summarise(u=var(z)) %>% 
  ggplot(aes(x=color,y=u)) +
  geom_col(position='dodge',fill='salmon') +
  geom_text(aes(label=round(u,2)),vjust=2, color='black') + labs(x='màu',y='phương sai')

  • Nhận xét:
    +Cột I có phương sai (độ phân tán) của z cao nhất là 0.59.
    +Cột D có phương sai của z thấp nhất là 0.33.

0.40 Vẽ biểu đồ phương sai của x theo clarity.

r %>% group_by(clarity) %>% summarise(j=var(x)) %>% 
  ggplot(aes(x=clarity,y=j)) +
  geom_col(position='dodge',fill='pink') +
  geom_text(aes(label=round(j,2)),vjust=2, color='black') + labs(x='clarity',y='phương sai')

  • Nhận xét:
    +Cột VS1 có phương sai (độ phân tán) của x cao nhất là 1.18.
    +Cột VVS1 có phương sai của x thấp nhất là 0.72.

0.41 Vẽ biểu đồ phương sai của y theo clarity.

r %>% group_by(clarity) %>% summarise(f=var(y)) %>% 
  ggplot(aes(x=clarity,y=f)) +
  geom_col(position='dodge',fill='blue') +
  geom_text(aes(label=round(f,2)),vjust=2, color='black') + labs(x='clarity',y='phương sai')

  • Nhận xét:
    +Cột SI1 có phương sai (độ phân tán) của y cao nhất là 1.4.
    +Cột VVS1 có phương sai của y thấp nhất là 0.72.

0.42 Vẽ biểu đồ phương sai của z theo clarity.

r %>% group_by(clarity) %>% summarise(d=var(z)) %>% 
  ggplot(aes(x=clarity,y=d)) +
  geom_col(position='dodge',fill='brown') +
  geom_text(aes(label=round(d,2)),vjust=2, color='black') + labs(x='clarity',y='phương sai')

  • Nhận xét:
    +Cột VS1 có phương sai (độ phân tán) của z cao nhất là 0.53.
    +Cột VVS1 có phương sai của z thấp nhất là 0.27.
