1 Giới thiệu tổng quát về bộ dữ liệu Diamonds

  • Bộ dữ liệu Diamonds là bộ dữ liệu đã có sẵn trong Rstudio
  • Gán bộ dữ liệu diamonds thành g
library(ggplot2)
g <- diamonds
  • Bộ dữ liệu Diamonds nói về thông số các tính chất đặc tính của những viên kim cương với các kích thước khác nhau, gồm 53.940 biến ứng với 53.940 kích thước khác nhau của viên kim cương, có 10 quan sát ứng với 10 đặc tính khác nhau như:
dim(g)
## [1] 53940    10
names(g)
##  [1] "carat"   "cut"     "color"   "clarity" "depth"   "table"   "price"  
##  [8] "x"       "y"       "z"
  • Carat: kích thước của viên kim cương
  • Cut: chất lượng cắt (khá, tốt, rất tốt, đặc biệt, lý tưởng)
  • Color: màu sắc (J - kém nhất, D - tốt nhất)
  • Clarity: độ trong suốt (từ IF (tốt nhất) đến I1 (kém nhất))
  • Depth: Tỷ lệ phần trăm độ sâu (tính theo z / x)
  • Table: Chiều rộng của mặt bàn (tính theo % của đường kính)
  • Price: Giá (USD)
  • X: Chiều dài của viên kim cương (mm)
  • Y: Chiều rộng của viên kim cương (mm)
  • Z: Độ sâu của viên kim cương (mm)

2 Vẽ biểu đồ

2.1 Biểu đồ của dữ liệu cut

  • Cut: là chất lượng cắt của mặt kim cương, có 5 loại chất lượng khác nhau tùy vào mặt cắt mà phân bổ thành 6 loại:
    • Ideal: lý tưởng
    • Predium: tuyệt hảo
    • Very good: rất tốt
    • Good: tốt
    • Fair: kém

Vẽ biểu đồ thể hiện chất lượng của mặt cắt của các viên kim cương

  • Biểu đồ biểu thị số lượng các viên kim cương theo mặt cắt (không có số lượng cụ thể)
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
g %>% ggplot(aes(x = cut)) +
    geom_bar() +
    labs(title = "Hình cut1: Biểu đồ số lượng kim cương theo mặt cắt",x = 'Loại', y = 'Số lượng')

Nhận xét: - Từ kết quả trên ta thấy được số lượng kim cương có chất lượng mặt cắt ideal(lý tưởng) chiếm đa số và số lượng viên kim cương có chất lượng fair(kém) là thấp nhất.

  • Biểu đồ biểu thị số lượng các viên kim cương theo mặt cắt (có số lượng cụ thể)
g %>% group_by(cut) %>% summarise(n = n()) %>%
  ggplot(aes(cut,n)) +
    geom_col(fill='pink') +
    geom_text(aes(label = n),vjust = 2, color = 'brown') +
    labs(title  = "Hình 1: Biểu đồ thể hiện chi tiết số lượng các viên kim cương theo chất lượng mặt cắt",x = 'Loại', y = 'Số lượng')

Giải thích - Từ kết quả ta thu được có 1.610 viên kim cương có chất lượng mặt cắt kém, 4.906 viên kim cương có chất lượng mặt cắt tốt, có 12.082 viên kim cương có chất lượng mặt cắt rất tốt, có 13.791 viên kim cương có chất lượng mặt cắt tuyệt hảo và 21.551 viên kim cương có chất lượng mặt cắt lý tưởng. - Vậy số viên kim cương có chất lượng mặt cắt ideal gấp 13 lần loại fair (chiếm 1/2 số lượng viên kim cương)

  • Để dễ dàng tính toán và hình dung ta có thể chuyển biểu đồ như trên sang dạng %.
# Load the scales package
library(scales)

# Define a custom percent function
percent <- function(x) {
  paste0(formatC(x * 100, format = "f", digits = 1), "%")
}

# Use the percent function
result <- percent(0.75)
print(result)
## [1] "75.0%"
g %>% group_by(cut) %>% summarise(n = n()) %>%
  ggplot(aes(cut,n)) +
    geom_col(fill='gray') +
    labs(title = "Biểu đồ thể hiện số lượng kim cương theo mặt cắt dưới dạng phần trăm ") +
    theme_classic() +
    geom_text(aes(label = percent(n/length(g$cut))),vjust = 2, color = 'red') +
    labs(x = 'Thang đo Cut', y = 'Số lượng')

Giải thích: - Nhìn vào biểu đồ ta thấy ngay phần trăm số kim cương loại ideal trên tổng thể là 40%, trong khi đó loại fair chỉ chiếm 3% trên tổng thể tức là các viên kim cương sẽ có chất lượng bề mặt cắt cao nên từ đó sẽ được lựa chọn nhiều và bán được dễ dàng hơn.

2.2 Biểu đồ của dữ liệu color

Vẽ biểu đồ theo màu sắc của các viên kim cương

  • Tổng quan về màu sắc của các viên kim cương có 7 màu từ D đến J tương ứng với 2 cấp độ là không màu (D,E,F) và gần như không màu (G,H,I,J).
table (g$color)
## 
##     D     E     F     G     H     I     J 
##  6775  9797  9542 11292  8304  5422  2808
  • Biểu đồ thể hiện số lượng viên kim cương theo màu sắc
g %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(x = 'màu sắc', y = 'số lượng',fill = color)) +
    geom_col() +
    geom_text(aes(label = n),position = position_stack(vjust = 1))

Nhận xét: - Cấp độ không màu có tổng số kim cương là 6.775 có màu D, 9.797 có màu loại E, 9.542 có màu loại F - Cấp độ gần như không màu có tổng số kim cương là 11.292 có màu G, 8.304 có màu loại H, 5.422 có màu loại I, 2.808 có màu loại J.

  • Biểu đồ nằm ngang thể hiện số lượng viên kim cương theo màu sắc
g %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(n,color)) +
    geom_col(fill='blue') +
    labs(title = " Biểu đồ thể hiện nhóm theo Color (màu sắc) ") +
    geom_text(aes(label = n),vjust = 1, color = 'yellow') +
    labs(x = 'Số lượng', y = 'Các màu sắc')

Nhận xét: - Như ta thấy màu G chiếm đa số trong tất cả các màu là màu phổ biến trong tổng số các viên kim cương lên đến 11.292 số lượng kim cương có màu G - Ngược lại số lượng kim cương màu J chỉ chiếm số ít trong tổng số kim cương là 2.808 viên - Từ đó có thể thấy số lượng viên kim cương màu G gấp 5 lần số lượng kim cương có màu J - Xét theo cấp độ thì tổng số kim cương ở cấp không màu chiếm một lượng ít hơn với cấp gần như không màu

  • Dựa vào đồ thị trên ta chuyển sang dạng % để có thể dễ hình dung và phân tích
g %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(n,color)) +
    geom_col(fill='gray') +
    labs(title = "Biểu đồ thể hiện % theo Color (màu sắc) ") +
    theme_classic() +
    geom_text(aes(label = percent(n/length(g$color))),vjust = 1, color = 'black') +
    labs(x = 'Số lượng', y = 'màu sắc')

Nhận xét: - Cũng tương tự như nhận xết ở trên - Biểu đồ thể hiện % số lượng kim cương của các màu, có 20.93% trên tổng số kim cương có màu G, có 18.16% trên tổng số kim cương có màu E, có 17.96% trên tổng số kim cương có màu F, có 15.39% trên tổng số kim cương có màu H, có 12.56% trên tổng số kim cương có màu D, có 10.05% trên tổng số kim cương có màu I, có 5.21% trên tổng số kim cương có màu J.

2.3 Biểu đồ của dữ liệu clarity

  • Độ tinh khiết/ Độ trong của kim cương là số lượng và khả năng hiển thị của các đặc điểm bên trong (tạp chất) và bên ngoài(vết trầy xước) của một viên kim cương.
  • có 8 cấp độ tinh khiết trong bộ dữ liệu, gồm:
    • Internally Flawless - IF : Hoàn hảo bên trong, chỉ có tỳ vết không quan trọng bên ngoài
    • Very Very Slightly Included - VVS - gồm 2 cấp nhỏ (VVS1, VVS2) : Có những tạp chất, vết trầy nhỏ, khó thấy được
    • Very Slightly Included - VS - có 2 cấp nhỏ (VS1, VS2) : Có những tạp chất, vết trầy từ khó thấy đến dễ thấy
    • Slightly Included - SI - có 2 cấp nhỏ (SI1, SI2) : Có những tạp chất, vết trầy dễ thấy hoặc rất dễ thấy
    • Included - I - có 3 cấp nhỏ (I1,I2,I3) : Không hoàn hảo lẫn bên trong lẫn bên ngoài

Vẽ biểu đồ theo độ tinh khiết (clarity) của các viên kim cương

  • Biểu đồ thể hiện số lượng theo clarity
g %>% group_by(clarity) %>% summarise(n = n()) %>%
  ggplot(aes(clarity,n)) +
    geom_col(fill='lightblue') +
    geom_text(aes(label = n),vjust = 2, color = 'brown') +
    labs(title ="Hình 4: Biểu đồ số lượng kim cương theo clarity (độ tinh khiết)",x = 'độ tinh khiết ', y = 'Số lượng')

Nhận xét: - Loại SI1 có số lượng kim cương cao nhất (13065) - Loại I1 có số lượng kim cương thấp nhất (741) - Số lượng kim cương có độ tinh khiết I1(Bao thể hiện thị): 741 - Số lượng kim cương có độ tinh khiết SI2/SI1(Bao thể nhỏ): 9194/13605 - Số lượng kim cương có độ tinh khiết VS2/VS1(Bao thể nhỏ cấp 2/ cấp 1):12258/8171 - Số lượng kim cương có độ tinh khiết VVS2/VVS1(Khuyết tật rất nhỏ):5066/3655 - Số lượng kim cương có độ tinh khiết IF(Hoàn toàn tinh khiết): 1790

  • Biểu đồ thể hiện phần trăm theo clarity
  • Dựa vào biểu đồ trên ta vẽ thêm biểu đồ thể hiện dưới dạng phần trăm
g %>% group_by(clarity) %>% summarise(n = n()) %>%
  ggplot(aes(clarity, n)) +
    geom_col(fill='purple') +
    geom_text(aes(label = percent(n/length(g$clarity))),vjust = 1, color = 'black')+
    labs(title ="Hình 4: Biểu đồ số lượng kim cương theo clarity (độ tinh khiết)",x = 'Số lượng', y = 'Độ tinh khiết')

Nhận xét: - Tương tự với biểu đồ trên nhưng thay bằng %, với phần trăm là 24,2% - mức SI1 có tỷ lệ chiếm cao nhất - Các tỷ lệ đứng thứ 2,3,4 lần lượt là VS2 22,7% - SI2 17% - VS1 15,1% - Tỷ lệ của 3 mức độ này cách mức độ đứng đầu khoảng 2 - 10% - Từ đó ta thấy được, không có mức độ nào là có số lượng cao hơn hẳn/ rõ rệt hơn các mức còn lại - Mức VVS2 và VVS1 đứng gần áp chót của biểu đồ với tỷ lệ ít hơn : 9,4% và 6,8% - Và cuối cùng, mức có tỷ lệ ít nhất trong bảng lần lượt là IF - 3,3% và I1 - 1,1% - Khoảng cách của 2 mức nhiều và ít nhất là khoảng hơn 22%

2.4 Biểu đồ giá trị trung bình của dữ liệu depth

  • vẽ biểu đồ giá trị trung bình của depth theo cut và clarity
g %>% group_by(cut, clarity)%>%summarise(m=mean(depth))%>%ggplot(aes(x=cut, y= m))+
  geom_col(position='dodge')+
  facet_wrap(~clarity)+
  geom_text(aes(label= round(m)), vjust=2, color='gray')+ 
  labs(x= 'Loại', y= 'Độ sâu trung bình',title='Hình 2: Giá trị trung bình của depth theo cut và clarity ')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

Nhận xét: - group_by(cut, clarity) : Nhóm dữ liệu theo cột “cut” và “clarity”. - summarise(m = mean(depth)) : Tính giá trị trung bình của cột “depth” trong mỗi nhóm và tạo một cột mới có tên “m” để lưu giá trị trung bình. - ggplot(aes(x = cut, y = m)) : Tạo một đối tượng ggplot với trục x là “cut” và trục y là “m”. - geom_col(position = ‘dodge’) : Vẽ biểu đồ cột sử dụng hình dạng mặc định và sử dụng phương pháp “dodge” để xếp chồng các cột của các nhóm. - facet_wrap(~clarity) : Chia biểu đồ thành các panel riêng biệt dựa trên cột “clarity”. - geom_text(aes(label = round(m)), vjust = 2, color = ‘red’): Thêm nhãn dữ liệu trên mỗi cột, với giá trị được làm tròn và màu chữ đỏ. Tham số vjust = 2 làm tăng khoảng cách giữa cột và nhãn. - Độ sâu trung bình của các loại kim cương ở các mức độ tinh khiết không có sự chênh lệch nhiều, đều dao động ở các mức độ 60,61,62,63,64.

  • vẽ biểu đồ giá trị trung bình của depth theo cut và color
g %>% group_by(cut,color) %>% summarise(m = mean(depth)) %>%
  ggplot(aes(x = cut,y = m)) +
    geom_col(position = 'dodge') +
    facet_wrap(~color) +
    geom_text(aes(label= round(m)), vjust=2, color='gray')+ 
  labs(x= 'Loại', y= 'Độ sâu trung bình',title='Hình 23: Giá trị trung bình của depth theo cut và color ')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

Nhận xét: - Độ sâu trung bình của các loại kim cương ở các màu sắc khác nhau không có sự chênh lệch nhiều, đều dao động ở các mức độ 60,61,62,63,64.

2.5 Biểu đồ thể hiện giá trị trung bình giá bán theo biến: cut, color và clarity

Vẽ biểu đồ thể hiện giá trị trung bình giá bán theo màu sắc kim cương

  • Biểu đồ này thể hiện giá trị trung bình của giá bán theo từng màu sắc của kim cương trong bộ dữ liệu diamonds.
g <- diamonds
g %>% group_by(color) %>% summarise(k= mean(price)) %>%
  ggplot(aes(color,k)) +
    geom_col(fill='skyblue') + 
    geom_text(aes(label = round(k,2)),vjust = 1, color = 'black') +
    labs(x = 'Màu', y = 'Số lượng')

Nhận xét: - Trục x: Thể hiện các màu sắc khác nhau của kim cương. - Trục y: Thể hiện giá trị trung bình (k) giá bán, được làm tròn đến 2 chữ số thập phân (round(k, 2)), của kim cương thuộc mỗi màu sắc. - Cột màu xanh nhạt (“skyblue”): Chiều cao của mỗi cột tỷ lệ thuận với giá trị trung bình giá bán của kim cương có màu sắc tương ứng. - Chú thích văn bản màu đen (“black”): Hiển thị giá trị trung bình chính xác (được làm tròn) nằm trên đỉnh mỗi cột. - Ví dụ cụ thể:

  • Màu J cao nhất trong biểu đồ. Điều này có nghĩa là kim cương màu J có giá trị trung bình giá bán cao nhất trong số các màu sắc. Ví dụ, chú thích trên cột màu J có thể hiển thị giá trị 5323,82 USD, cho biết kim cương màu J trung bình có giá bán 5323,82 USD.

  • Màu E thấp nhất trong biểu đồ. Điều này có nghĩa là kim cương màu E có giá trị trung bình giá bán thấp nhất trong số các màu sắc. Ví dụ, chú thích trên cột màu M có thể hiển thị giá trị 3076,75 USD, cho biết kim cương màu M trung bình có giá bán 3076,75 USD.

Vẽ biểu đồ thể hiện giá trị trung bình giá bán theo chất lượng cắt

  • Biểu đồ này thể hiện giá trị trung bình của giá bán theo từng chất lượng cắt của kim cương trong bộ dữ liệu diamonds.
g <- diamonds
g %>% group_by(cut) %>% summarise(k= mean(price)) %>%
  ggplot(aes(cut,k)) +
    geom_col(fill='lightyellow') + 
    geom_text(aes(label = round(k,2)),vjust = 1, color = 'black') +
    labs(x = 'Chất lượng cắt', y = 'Số lượng')

Nhận xét: - Trục x: Thể hiện các chất lượng cắt khác nhau của kim cương, từ “Poor” (kém) đến “Ideal” (hoàn hảo). - Trục y: Thể hiện giá trị trung bình (k) giá bán, được làm tròn đến 2 chữ số thập phân (round(k, 2)), của kim cương thuộc mỗi chất lượng cắt. - Cột màu xanh nhạt (“skyblue”): Chiều cao của mỗi cột tỷ lệ thuận với giá trị trung bình giá bán của kim cương có chất lượng cắt tương ứng. - Chú thích văn bản màu đen (“black”): Hiển thị giá trị trung bình chính xác (được làm tròn) nằm trên đỉnh mỗi cột.

Biểu đồ thể hiện giá trị trung bình giá bán theo độ trong suốt

  • Biểu đồ này thể hiện giá trị trung bình của giá bán theo từng độ trong suốt của kim cương trong bộ dữ liệu diamonds.
g <- diamonds
g %>% group_by(clarity) %>% summarise(k= mean(price)) %>%
  ggplot(aes(clarity,k)) +
    geom_col(fill='lightyellow') + 
    geom_text(aes(label = round(k,2)),vjust = 1, color = 'black') +
    labs(x = 'Độ trong suốt', y = 'Số lượng')

Nhận xét: - Trục x: Thể hiện các độ trong suốt khác nhau của kim cương, từ “I1” (kém trong) đến “IF” (hoàn hảo không tì vết). - Trục y: Thể hiện giá trị trung bình (k) giá bán, được làm tròn đến 2 chữ số thập phân (round(k, 2)), của kim cương thuộc mỗi độ trong suốt. - Cột màu xanh nhạt (“skyblue”): Chiều cao của mỗi cột tỷ lệ thuận với giá trị trung bình giá bán của kim cương có độ trong suốt tương ứng. - Chú thích văn bản màu đen (“black”): Hiển thị giá trị trung bình chính xác (được làm tròn) nằm trên đỉnh mỗi cột.

2.6 Biểu đồ cột thể hiện phương sai giá bán theo các biến: cut, color và clarity.

Biểu đồ cột thể hiện phương sai giá bán theo màu sắc kim cương

  • Biểu đồ này thể hiện phương sai của giá bán theo từng màu sắc của kim cương trong bộ dữ liệu diamonds. Phương sai là một thước đo mức độ phân tán của dữ liệu.
g <- diamonds
g %>% group_by(color) %>% summarise(k= var(price)) %>%
  ggplot(aes(color,k)) +
    geom_col(fill='gray') + 
    geom_text(aes(label = round(k,2)),vjust = 1, color = 'black') +
    labs(x = 'Màu', y = 'Số lượng')

Nhận xét: - Trục x: Thể hiện các màu sắc khác nhau của kim cương. - Trục y: Thể hiện phương sai (k) của giá bán (được làm tròn đến 2 chữ số thập phân (round(k, 2))), cho biết mức độ trải rộng của giá bán - Giá trị cao hơn trên trục y cho biết phương sai cao hơn, nghĩa là giá bán của kim cương có màu sắc đó phân tán rộng hơn xung quanh giá trung bình. - Giá trị thấp hơn menunjukkan phương sai thấp hơn, nghĩa là giá bán của kim cương có màu sắc đó ít phân tán hơn xung quanh giá trung bình. - Các cột màu xám (“gray”): Chiều cao của mỗi cột tỷ lệ thuận với phương sai giá bán của kim cương có màu sắc tương ứng. - Chú thích văn bản màu đen (“black”): Hiển thị phương sai chính xác (được làm tròn) nằm trên đỉnh mỗi cột.

Biểu đồ cột thể hiện phương sai giá bán theo chất lượng cắt

  • Biểu đồ này thể hiện phương sai của giá bán theo từng chất lượng cắt của kim cương trong bộ dữ liệu diamonds. Phương sai là một thước đo mức độ phân tán của dữ liệu.
g <- diamonds
g %>% group_by(cut) %>% summarise(k= var(price)) %>%
  ggplot(aes(cut,k)) +
    geom_col(fill='lightyellow') + 
    geom_text(aes(label = round(k,2)),vjust = 1, color = 'black') +
    labs(x = 'Chất lượng cắt', y = 'Số lượng')

  • Trục x: Thể hiện các chất lượng cắt khác nhau của kim cương, từ “Poor” (kém) đến “Ideal” (hoàn hảo).
  • Trục y: Thể hiện phương sai (k) của giá bán (được làm tròn đến 2 chữ số thập phân (round(k, 2))), cho biết mức độ trải rộng của giá bán
  • Giá trị cao hơn trên trục y cho biết phương sai cao hơn, nghĩa là giá bán của kim cương có chất lượng cắt đó phân tán rộng hơn xung quanh giá trung bình.
  • Giá trị thấp hơn menunjukkan phương sai thấp hơn, nghĩa là giá bán của kim cương có chất lượng cắt đó ít phân tán hơn xung quanh giá trung bình.
  • Các cột màu vàng nhạt (“lightyellow”): Chiều cao của mỗi cột tỷ lệ thuận với phương sai giá bán của kim cương có chất lượng cắt tương ứng.
  • Chú thích văn bản màu đen (“black”): Hiển thị phương sai chính xác (được làm tròn) nằm trên đỉnh mỗi cột.

Biểu đồ cột thể hiện phương sai giá bán theo độ trong suốt

  • Biểu đồ này thể hiện phương sai của giá bán theo từng độ trong suốt của kim cương trong bộ dữ liệu diamonds. Phương sai là một thước đo mức độ phân tán của dữ liệu.
g <- diamonds
g %>% group_by(clarity) %>% summarise(k= var(price)) %>%
  ggplot(aes(clarity,k)) +
    geom_col(fill='lightyellow') + 
    geom_text(aes(label = round(k,2)),vjust = 0.85, color = 'black') +
    labs(x = 'Độ trong suốt', y = 'Số lượng')

Nhận xét: - Trục x: Thể hiện các độ trong suốt khác nhau của kim cương, từ “I1” (kém trong) đến “IF” (hoàn hảo không tì vết). - Trục y: Thể hiện phương sai (k) của giá bán (được làm tròn đến 2 chữ số thập phân (round(k, 2))), cho biết mức độ trải rộng của giá bán - Giá trị cao hơn trên trục y cho biết phương sai cao hơn, nghĩa là giá bán của kim cương có độ trong suốt đó phân tán rộng hơn xung quanh giá trung bình. - Giá trị thấp hơn menunjukkan phương sai thấp hơn, nghĩa là giá bán của kim cương có độ trong suốt đó ít phân tán hơn xung quanh giá trung bình. - Các cột màu vàng nhạt (“lightyellow”): Chiều cao của mỗi cột tỷ lệ thuận với phương sai giá bán của kim cương có độ trong suốt tương ứng. - Chú thích văn bản màu đen (“black”): Hiển thị phương sai chính xác (được làm tròn) nằm gần đỉnh mỗi cột, được điều chỉnh vị trí bằng vjust = 0.85 để tránh chồng chéo lên các cột.

2.7 Biểu đồ cột thể hiện phương sai trọng lượng carat theo các biến: Cut, color, clarity.

Biểu đồ cột thể hiện phương sai trọng lượng carat theo màu sắc kim cương

  • Biểu đồ này thể hiện mức độ phân tán của trọng lượng carat (k) theo từng màu sắc của kim cương trong tập dữ liệu diamonds.
g <- diamonds
g %>% group_by(color) %>% summarise(k= var(carat)) %>%
  ggplot(aes(color,k)) +
    geom_col(fill='lightyellow') + 
    geom_text(aes(label = round(k,2)),vjust = 1, color = 'black') +
    labs(x = 'Màu', y = 'Số lượng')

Nhận xét: - Trục x: Thể hiện các màu sắc khác nhau của kim cương. - Trục y: Thể hiện phương sai (k) của trọng lượng carat (đã được làm tròn đến 2 chữ số thập phân), cho biết mức độ trải rộng của trọng lượng carat: - Giá trị cao hơn trên trục y cho biết phương sai cao hơn, nghĩa là trọng lượng carat của kim cương có màu sắc đó phân tán rộng hơn xung quanh giá trị trung bình. - Giá trị thấp hơn cho biết phương sai thấp hơn, nghĩa là trọng lượng carat của kim cương có màu sắc đó ít phân tán hơn xung quanh giá trị trung bình. - Cột màu vàng nhạt: Chiều cao của mỗi cột tỷ lệ thuận với phương sai trọng lượng carat của kim cương có màu sắc tương ứng. - Chú thích văn bản màu đen: Hiển thị phương sai chính xác (đã được làm tròn) nằm trên đỉnh mỗi cột.

Biểu đồ cột thể hiện phương sai trọng lượng carat theo chất lượng cắt

  • Biểu đồ này thể hiện phương sai của trọng lượng carat theo từng chất lượng cắt của kim cương trong bộ dữ liệu diamonds. Phương sai là một thước đo mức độ phân tán của dữ liệu.
g <- diamonds
g %>% group_by(cut) %>% summarise(k= var(carat)) %>%
  ggplot(aes(cut,k)) +
    geom_col(fill='lightyellow') + 
    geom_text(aes(label = round(k,3)),vjust = 1, color = 'black') +
    labs(x = 'Chất lượng cắt', y = 'Số lượng')

  • Biểu đồ này thể hiện phương sai của trọng lượng carat theo từng chất lượng cắt của kim cương trong bộ dữ liệu diamonds. Phương sai là một thước đo mức độ phân tán của dữ liệu.
    • Trục x: Thể hiện các chất lượng cắt khác nhau của kim cương, từ “Poor” (kém) đến “Ideal” (hoàn hảo).
    • Trục y: Thể hiện phương sai (k) của trọng lượng carat (được làm tròn đến 2 chữ số thập phân (round(k, 2))), cho biết mức độ trải rộng của trọng lượng carat
      • Giá trị cao hơn trên trục y cho biết phương sai cao hơn, nghĩa là trọng lượng carat của kim cương có chất lượng cắt đó phân tán rộng hơn xung quanh giá trị trung bình.
      • Giá trị thấp hơn trên trục y cho biết phương sai thấp hơn, nghĩa là trọng lượng carat của kim cương có chất lượng cắt đó ít phân tán hơn xung quanh giá trị trung bình.
    • Các cột màu vàng nhạt (“yellow”): Chiều cao của mỗi cột tỷ lệ thuận với phương sai trọng lượng carat của kim cương có chất lượng cắt tương ứng.
    • Chú thích văn bản màu đen (“black”): Hiển thị phương sai chính xác (được làm tròn) nằm trên đỉnh mỗi cột.

Biểu đồ cột thể hiện phương sai trọng lượng carat theo độ trong suốt

g <- diamonds
g %>% group_by(clarity) %>% summarise(k= var(carat)) %>%
  ggplot(aes(clarity,k)) +
    geom_col(fill='lightyellow') + 
    geom_text(aes(label = round(k,2)),vjust = 1, color = 'black') +
    labs(x = 'Độ trong suốt', y = 'Số lượng')

  • Biểu đồ này thể hiện phương sai của trọng lượng carat theo từng độ trong suốt của kim cương trong bộ dữ liệu diamonds. Phương sai là một thước đo mức độ phân tán của dữ liệu.

    • Trục x: Thể hiện các độ trong suốt khác nhau của kim cương, từ “I1” (kém trong) đến “IF” (hoàn hảo không tì vết).
    • Trục y: Thể hiện phương sai (k) của trọng lượng carat (được làm tròn đến 2 chữ số thập phân (round(k, 2))), cho biết mức độ trải rộng của trọng lượng carat
    • Giá trị cao hơn trên trục y cho biết phương sai cao hơn, nghĩa là trọng lượng carat của kim cương có độ trong suốt đó phân tán rộng hơn xung quanh giá trị trung bình.
    • Giá trị thấp hơn trên trục y cho biết phương sai thấp hơn, nghĩa là trọng lượng carat của kim cương có độ trong suốt đó ít phân tán hơn xung quanh giá trị trung bình.
    • Các cột màu vàng nhạt (“lightyellow”): Chiều cao của mỗi cột tỷ lệ thuận với phương sai trọng lượng carat của kim cương có độ trong suốt tương ứng. Chú thích văn bản màu đen (“black”): Hiển thị phương sai chính xác (được làm tròn) nằm trên đỉnh mỗi cột.

2.8 Biểu đồ cột kép thể hiện phân bố số lượng kim cương theo chất lượng cắt và màu sắc

Biểu đồ cột kép thể hiện phân bố số lượng kim cương theo chất lượng cắt và màu sắc của kim cương loại E và H

  • Biểu đồ này thể hiện số lượng kim cương theo từng chất lượng cắt (cut) và màu sắc (color) trong bộ dữ liệu diamonds.
g <- diamonds
g <- g %>% group_by(cut, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
g %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = g %>% filter(color == 'E'), fill = 'lightyellow') +
  geom_col(data = g %>% filter(color == 'H'), fill = 'pink')

Nhận xét: - Trục x: Thể hiện các chất lượng cắt khác nhau của kim cương, từ “Fair” (kém) đến “Ideal” (hoàn hảo). - Trục y: Thể hiện số lượng (n) kim cương. - Cột màu vàngvàng nhạt (“skyblue”): Biểu thị số lượng kim cương có màu E theo từng chất lượng cắt. - Cột màu hồng (“pink”): Biểu thị số lượng kim cương có màu H theo từng chất lượng cắt.

Biểu đồ cột kép thể hiện phân bố số lượng kim cương theo chất lượng cắt và màu sắc của kim cương loại E và H

  • Biểu đồ này thể hiện số lượng kim cương theo từng chất lượng cắt (cut) và màu sắc (color) trong bộ dữ liệu diamonds.
g <- diamonds
g <- g %>% group_by(cut, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
g %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = g %>% filter(color == 'E'), fill = 'lightyellow') +
  geom_col(data = g %>% filter(color == 'I'), fill = 'pink')

Nhận xét: - Trục x: Thể hiện các chất lượng cắt khác nhau của kim cương, từ “Fair” (kém) đến “Ideal” (hoàn hảo). - Trục y: Thể hiện số lượng (n) kim cương. - Cột màu xanh nhạt (“skyblue”): Biểu thị số lượng kim cương có màu E theo từng chất lượng cắt. - Cột màu hồng (“pink”): Biểu thị số lượng kim cương có màu I theo từng chất lượng cắt.

2.9 Biểu đồ thanh thể hiện phân bố chất lượng cắt kim cương

  • Biểu đồ này thể hiện phân bố của chất lượng cắt kim cương trong bộ dữ liệu diamonds.
g <- diamonds 
g <- g %>% mutate(caratC = cut(carat,5, label = c('rất nhỏ', 'nhỏ','vừa','lớn','rất lớn')))
g %>% ggplot(aes(x = caratC)) +
  geom_bar(fill = 'blue')

  labs(x= 'Chất lượng cắt')
## $x
## [1] "Chất lượng cắt"
## 
## attr(,"class")
## [1] "labels"

Nhận xét: - Trục x: Thể hiện các chất lượng cắt được chia thành 5 nhóm: “rất nhỏ”, “nhỏ”, “vừa”, “lớn”, “rất lớn”. - Trục y: Thể hiện số lượng kim cương thuộc mỗi nhóm chất lượng cắt. Cột màu vàng: Biểu thị số lượng kim cương cho mỗi nhóm chất lượng cắt.

2.10 Biểu đồ cột kép theo mặt cắt (cut) phân tách theo màu sắc (color)

  • Biểu đồ này thể hiện phân bố số lượng kim cương theo chất lượng cắt (cut) được tách riêng theo màu sắc (color) trong bộ dữ liệu g.
g %>% group_by(cut,color) %>% summarise(n =n()) %>%
  ggplot(aes(x = cut,y = n)) +
    geom_col(position = 'dodge', fill= 'lightyellow') +
    facet_wrap(~color) +
    geom_text(aes(label = n),vjust = 0.65, color = 'black') +
    labs(x = 'Loại', y = 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

Các thành phần:

  • Trục x: Thể hiện các chất lượng cắt khác nhau của kim cương, từ “Poor” (kém) đến “Ideal” (hoàn hảo).
  • Trục y: Thể hiện số lượng (n) kim cương.
  • Các mặt cắt (facets): Biểu đồ được chia thành hai mặt cắt theo màu sắc (color) của kim cương, được phân biệt bằng nhãn ở phía trên mỗi mặt cắt.
    • Mặt cắt D: Biểu thị phân bố số lượng kim cương theo chất lượng cắt cho màu sắc D.
    • Mặt cắt E: Biểu thị phân bố số lượng kim cương theo chất lượng cắt cho màu sắc E.
    • Mặt cắt F: Biểu thị phân bố số lượng kim cương theo chất lượng cắt cho màu sắc F.
    • Mặt cắt G: Biểu thị phân bố số lượng kim cương theo chất lượng cắt cho màu sắc G.
    • Mặt cắt H: Biểu thị phân bố số lượng kim cương theo chất lượng cắt cho màu sắc H.
    • Mặt cắt I: Biểu thị phân bố số lượng kim cương theo chất lượng cắt cho màu sắc I.
    • Mặt cắt J: Biểu thị phân bố số lượng kim cương theo chất lượng cắt cho màu sắc J.
  • Cột màu vàng nhạt (“lightyellow”): Biểu thị số lượng kim cương cho mỗi chất lượng cắt trong mỗi mặt cắt.
  • Chú thích văn bản màu đen (“black”): Hiển thị số lượng kim cương chính xác (n) nằm trên đỉnh mỗi cột, được điều chỉnh vị trí bằng vjust = 0.65 để tránh chồng chéo lên các cột.

2.11 Biểu đồ cột kép theo mặt cắt (cut) phân tách theo màu sắc (color), thể hiện giá trung bình

  • Biểu đồ này thể hiện giá trung bình của kim cương theo chất lượng cắt (cut) được tách riêng theo màu sắc (color) trong bộ dữ liệu g.
g %>% group_by(cut,color) %>% summarise(k =mean(price)) %>%
  ggplot(aes(x = cut,y = k)) +
    geom_col(position = 'dodge', fill= 'lightyellow') +
    facet_wrap(~color) +
    geom_text(aes(label = round(k,1)),vjust = 0.25, color = 'black') +
    labs(x = 'Loại', y = 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

Nhận xét: Các thành phần:

  • Trục x: Thể hiện các chất lượng cắt khác nhau của kim cương, từ “Poor” (kém) đến “Ideal” (hoàn hảo).
  • Trục y: Thể hiện giá trung bình (k) được làm tròn đến 1 chữ số thập phân (round(k, 1)).
  • Các mặt cắt (facets): Biểu đồ được chia thành hai mặt cắt theo màu sắc (color) của kim cương, được phân biệt bằng nhãn ở phía trên mỗi mặt cắt.
    • Mặt cắt D: Biểu thị giá trung bình của kim cương theo chất lượng cắt cho màu sắc D.
    • Mặt cắt E: Biểu thị giá trung bình của kim cương theo chất lượng cắt cho màu sắc E.
    • Mặt cắt F: Biểu thị giá trung bình của kim cương theo chất lượng cắt cho màu sắc F.
    • Mặt cắt G: Biểu thị giá trung bình của kim cương theo chất lượng cắt cho màu sắc G.
    • Mặt cắt H: Biểu thị giá trung bình của kim cương theo chất lượng cắt cho màu sắc H.
    • Mặt cắt I: Biểu thị giá trung bình của kim cương theo chất lượng cắt cho màu sắc I.
    • Mặt cắt J: Biểu thị giá trung bình của kim cương theo chất lượng cắt cho màu sắc J.
  • Cột màu vàng nhạt (“lightyellow”): Biểu thị giá trung bình cho mỗi chất lượng cắt trong mỗi mặt cắt.
  • Chú thích văn bản màu đen (“black”): Hiển thị giá trung bình chính xác (được làm tròn) nằm trên đỉnh mỗi cột, được điều chỉnh vị trí bằng vjust = 0.25 để tránh chồng chéo lên các cột.

2.12 Biểu đồ cột kép theo mặt cắt (cut) phân tách theo màu sắc (color), thể hiện trọng lượng carat trung bình

  • Biểu đồ này thể hiện trọng lượng carat trung bình của kim cương theo chất lượng cắt (cut) được tách riêng theo màu sắc (color) trong bộ dữ liệu g.
g %>% group_by(cut,color) %>% summarise(k=mean(carat)) %>%
  ggplot(aes(x = cut,y = k)) +
    geom_col(position = 'dodge', fill= 'lightyellow') +
    facet_wrap(~color) +
    geom_text(aes(label = round(k,2)),vjust = 0.65, color = 'black') +
    labs(x = 'Loại', y = 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

Nhận xét: Các thành phần:

  • Trục x: Thể hiện các chất lượng cắt khác nhau của kim cương, từ “Poor” (kém) đến “Ideal” (hoàn hảo).
  • Trục y: Thể hiện trọng lượng carat trung bình (k) được làm tròn đến 2 chữ số thập phân (round(k, 2)).
  • Các mặt cắt (facets): Biểu đồ được chia thành hai mặt cắt theo màu sắc (color) của kim cương, được phân biệt bằng nhãn ở phía trên mỗi mặt cắt.
    • Mặt cắt D: Biểu thị trọng lượng carat trung bình của kim cương theo chất lượng cắt cho màu sắc D.
    • Mặt cắt E: Biểu thị trọng lượng carat trung bình của kim cương theo chất lượng cắt cho màu sắc E.
    • Mặt cắt F: Biểu thị trọng lượng carat trung bình của kim cương theo chất lượng cắt cho màu sắc F.
    • Mặt cắt G: Biểu thị trọng lượng carat trung bình của kim cương theo chất lượng cắt cho màu sắc G.
    • Mặt cắt H: Biểu thị trọng lượng carat trung bình của kim cương theo chất lượng cắt cho màu sắc H.
    • Mặt cắt I: Biểu thị trọng lượng carat trung bình của kim cương theo chất lượng cắt cho màu sắc I.
    • Mặt cắt J: Biểu thị trọng lượng carat trung bình của kim cương theo chất lượng cắt cho màu sắc J.
  • Cột màu vàng nhạt (“lightyellow”): Biểu thị trọng lượng carat trung bình cho mỗi chất lượng cắt trong mỗi mặt cắt.
  • Chú thích văn bản màu đen (“black”): Hiển thị trọng lượng carat trung bình chính xác (được làm tròn) nằm trên đỉnh mỗi cột, được điều chỉnh vị trí bằng vjust = 0.65 để tránh chồng chéo lên các cột.

2.13 Biểu đồ cột thể hiện trung vị trọng lượng carat theo các biến: cut, color, clarity

Biểu đồ cột thể hiện trung vị trọng lượng carat theo chất lượng cắt (cut)

  • Biểu đồ này thể hiện trung vị của trọng lượng carat theo chất lượng cắt (cut) trong bộ dữ liệu g.
g %>% group_by(cut) %>% summarise(m= median(carat)) %>%
  ggplot(aes(x = cut,y = m)) +
    geom_col(position = 'dodge', fill= 'lightyellow') +
    geom_text(aes(label = round(m,2)), vjust = 2, color = 'pink') +
    labs(x = 'cut', y = 'Median')

Nhận xét: - Các thành phần:

  • Trục x: Thể hiện các chất lượng cắt khác nhau của kim cương, từ “Fair” (kém) đến “Ideal” (hoàn hảo).
  • Trục y: Thể hiện trọng lượng carat trung vị (m) được làm tròn đến 2 chữ số thập phân (round(m, 2)).
  • Cột màu vàng nhạt (“lightyellow”): Biểu thị trọng lượng carat trung vị cho mỗi chất lượng cắt.
  • Chú thích văn bản màu hồng (“pink”): Hiển thị trọng lượng carat trung vị chính xác (được làm tròn) nằm trên đỉnh mỗi cột, được điều chỉnh vị trí bằng vjust = 2 để tránh chồng chéo lên các cột.
  • Tựa đề “Median”: Thể hiện trên trục y, cho biết giá trị được hiển thị là trung vị.
    • Ý nghĩa:

      Trung vị (median) là giá trị ở giữa của một tập dữ liệu đã được sắp xếp theo thứ tự. So với trung bình cộng (mean), trung vị ít bị ảnh hưởng bởi các giá trị ngoại lai (outliers) - những giá trị nằm rất xa so với phần còn lại của dữ liệu. Do đó, biểu đồ này giúp hiểu rõ hơn về trọng lượng carat điển hình của kim cương theo chất lượng cắt, ít bị ảnh hưởng bởi những viên kim cương có trọng lượng rất cao hoặc rất thấp.

Biểu đồ cột thể hiện trung vị trọng lượng carat theo màu sắc (color)

  • Biểu đồ này thể hiện trung vị của trọng lượng carat theo màu sắc (color) trong bộ dữ liệu g.
g %>% group_by(color) %>% summarise(m= median(carat)) %>%
  ggplot(aes(x = color,y = m)) +
    geom_col(position = 'dodge', fill= 'lightyellow') +
    geom_text(aes(label = round(m,3)), vjust = 2, color = 'pink') +
    labs(x = 'color', y = 'Median')

Nhận xét: Các thành phần:

  • Trục x: Thể hiện các màu sắc khác nhau của kim cương.
  • Trục y: Thể hiện trọng lượng carat trung vị (m) được làm tròn đến 2 chữ số thập phân (round(m, 2)).
  • Cột màu vàng nhạt (“lightyellow”): Biểu thị trọng lượng carat trung vị cho mỗi màu sắc.
  • Chú thích văn bản màu hồng (“pink”): Hiển thị trọng lượng carat trung vị chính xác (được làm tròn) nằm trên đỉnh mỗi cột, được điều chỉnh vị trí bằng vjust = 2 để tránh chồng chéo lên các cột.
  • Tựa đề “Median”: Thể hiện trên trục y, cho biết giá trị được hiển thị là trung vị.
    • Ý nghĩa:
    Trung vị (median) là giá trị ở giữa của một tập dữ liệu đã được sắp xếp theo thứ tự. So với trung bình cộng (mean), trung vị ít bị ảnh hưởng bởi các giá trị ngoại lai (outliers) - những giá trị nằm rất xa so với phần còn lại của dữ liệu. Do đó, biểu đồ này giúp hiểu rõ hơn về trọng lượng carat điển hình của kim cương theo màu sắc, ít bị ảnh hưởng bởi những viên kim cương có trọng lượng rất cao hoặc rất thấp.

Biểu đồ cột thể hiện trung vị trọng lượng carat theo độ tinh khiết (clarity)

Biểu đồ này thể hiện trung vị của trọng lượng carat theo độ tinh khiết (clarity) của kim cương trong bộ dữ liệu g.

g %>% group_by(clarity) %>% summarise(m= median(carat)) %>%
  ggplot(aes(x = clarity,y = m)) +
    geom_col(position = 'dodge', fill= 'lightyellow') +
    geom_text(aes(label = round(m,2)), vjust = 2, color = 'pink') +
    labs(x = 'clarity', y = 'Median')

Nhận xét: - Các thành phần:

  • Trục x: Thể hiện các mức độ tinh khiết khác nhau của kim cương, thường được ký hiệu bằng chữ cái (ví dụ: IF, VVS1, VS1, SI1, v.v.).
  • Trục y: Thể hiện trọng lượng carat trung vị (m) được làm tròn đến 2 chữ số thập phân (round(m, 2)).
  • Cột màu vàng nhạt (“lightyellow”): Biểu thị trọng lượng carat trung vị cho mỗi mức độ tinh khiết.
  • Chú thích văn bản màu hồng (“pink”): Hiển thị trọng lượng carat trung vị chính xác (được làm tròn) nằm trên đỉnh mỗi cột, được điều chỉnh vị trí bằng vjust = 2 để tránh chồng chéo lên các cột.
  • Tựa đề “Median”: Thể hiện trên trục y, cho biết giá trị được hiển thị là trung vị.

2.14 Biểu đồ cột thể hiện trung vị giá của kim cương theo các biến: cut, color, clarity

Biểu đồ cột thể hiện trung vị giá của kim cương theo chất lượng cắt (cut)

Biểu đồ này thể hiện trung vị của giá kim cương theo chất lượng cắt (cut) trong bộ dữ liệu gg.

g %>% group_by(cut) %>% summarise(m= median(price)) %>%
  ggplot(aes(x = cut,y = m)) +
    geom_col(position = 'dodge', fill= 'lightyellow') +
    geom_text(aes(label = round(m,2)), vjust = 2, color = 'pink') +
    labs(x = 'cut', y = 'Median')

Nhận xét: - Các thành phần:

  • Trục x: Thể hiện các chất lượng cắt khác nhau của kim cương, từ “Fair” (kém) đến “Ideal” (hoàn hảo).
  • Trục y: Thể hiện trọng lượng carat trung vị (m) được làm tròn đến 2 chữ số thập phân (round(m, 2)).
  • Cột màu vàng nhạt (“lightyellow”): Biểu thị trọng lượng carat trung vị cho mỗi chất lượng cắt.
  • Chú thích văn bản màu hồng (“pink”): Hiển thị giá kim cương trung vị chính xác (được làm tròn) nằm trên đỉnh mỗi cột, được điều chỉnh vị trí bằng vjust = 2 để tránh chồng chéo lên các cột.
  • Tựa đề “Median”: Thể hiện trên trục y, cho biết giá trị được hiển thị là trung vị.

Biểu đồ cột thể hiện trung vị giá của kim cương theo màu sắc kim cương (color)

  • Biểu đồ này thể hiện trung vị của giá kim cương theo màu sắc (color) trong bộ dữ liệu g.
g %>% group_by(color) %>% summarise(m= median(price)) %>%
  ggplot(aes(x = color,y = m)) +
    geom_col(position = 'dodge', fill= 'lightyellow') +
    geom_text(aes(label = round(m,2)), vjust = 2, color = 'pink') +
    labs(x = 'color', y = 'Median')

Nhận xét: Các thành phần:

  • Trục x: Thể hiện các màu sắc khác nhau của kim cương.
  • Trục y: Thể hiện giá kim cương trung vị (m) được làm tròn đến 2 chữ số thập phân (round(m, 2)).
  • Cột màu nâu (“brown”): Biểu thị trọng lượng carat trung vị cho mỗi màu sắc.
  • Chú thích văn bản màu hồng (“pink”): Hiển thị trọng lượng carat trung vị chính xác (được làm tròn) nằm trên đỉnh mỗi cột, được điều chỉnh vị trí bằng vjust = 2 để tránh chồng chéo lên các cột.
  • Tựa đề “Median”: Thể hiện trên trục y, cho biết giá trị được hiển thị là trung vị.
