1 Giới thiệu về bộ dữ liệu diamonds:

1.1 Mô tả:

Bộ dữ liệu “diamonds” là một tập dữ liệu được tích hợp sẵn trong RStudio, chứa thông tin về 53.940 viên kim cương cắt tròn. Dữ liệu bao gồm các thuộc tính quan trọng như giá, trọng lượng, chất lượng cắt, màu sắc, độ trong, kích thước và tỷ lệ.

1.2 Thông tin cơ bản:

  • Số lượng: 53.940 viên kim cương
  • Biến: 10
    • price: Giá (USD)
    • carat: Trọng lượng (carat)
    • cut: Chất lượng cắt (Khá, Tốt, Rất tốt, Đặc biệt, Lý tưởng)
    • color: Màu (J - kém nhất, D - tốt nhất)
    • clarity: Độ trong (I1 - kém nhất, IF - tốt nhất)
    • x: Chiều dài (mm)
    • y: Chiều rộng (mm)
    • z: Độ sâu (mm)
    • depth: Tỷ lệ phần trăm độ sâu
    • table: Chiều rộng đỉnh kim cương so với điểm rộng nhất

2 Biểu diễn bộ dữ liệu diamonds bằng đồ thị (Bar chart và Histogram)

Mục đích của việc biểu diễn bộ dữ liệu diamonds bằng đồ thị nhằm:

  • Trực quan hóa dữ liệu

  • So sánh dữ liệu

  • Phát hiện thông tin

  • Truyền tải thông tin

  • Tăng tính thuyết phục

2.1 Đồ thị thể hiện số lượng kim cương theo từng biến: color, cut, clarity

2.1.1 Đồ thị thể hiện số lượng kim cương theo biến color

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(ggplot2)
a <- diamonds
table(diamonds$color)
## 
##     D     E     F     G     H     I     J 
##  6775  9797  9542 11292  8304  5422  2808
a %>% ggplot(aes(x= color)) + 
      geom_bar( )+
      labs(x = 'Màu', y= ' Số lượng')

  • Đồ thị thể hiện số lượng kim cương thuộc từng nhóm màu khác nhau trong bộ dữ liệu diamonds.

    • Trục x thể hiện các màu sắc của kim cương.
    • Trục y thể hiện số lượng kim cương tương ứng với mỗi màu.
    • Chiều cao của mỗi cột thể hiện số lượng kim cương thuộc màu đó.
  • Ví dụ:

    • Nếu cột màu “G” cao nhất, nghĩa là có nhiều kim cương thuộc màu “G” nhất trong bộ dữ liệu.
    • Nếu cột màu “J” thấp hơn các cột khác, nghĩa là có ít kim cương thuộc màu “J” hơn so với các màu khác.

2.1.2 Đồ thị thể hiện số lượng kim cương theo biến cut

a <- diamonds
table(diamonds$cut)
## 
##      Fair      Good Very Good   Premium     Ideal 
##      1610      4906     12082     13791     21551
a %>% ggplot(aes(x= cut)) + 
      geom_bar( )+
      labs(x = 'Chất lượng', y= ' Số lượng')


- Biểu đồ thể hiện số lượng kim cương thuộc từng cấp độ chất lượng khác nhau trong bộ dữ liệu diamonds. - Trục x thể hiện các cấp độ chất lượng kim cương, từ thấp đến cao (từ “Fair” đến “Ideal”). - Trục y thể hiện số lượng kim cương tương ứng với mỗi cấp độ chất lượng. - Chiều cao của mỗi cột thể hiện số lượng kim cương thuộc cấp độ chất lượng đó. - Ví dụ:

  • Nếu cột “Ideal” cao nhất, nghĩa là có nhiều kim cương có chất lượng “Ideal” nhất trong bộ dữ liệu.
  • Nếu cột “Very Good” thấp hơn các cột Premium và Ideal, nghĩa là có ít kim cương có chất lượng “Very Good” hơn so với các cấp độ Premium và Ideal.

2.1.3 Đồ thị thể hiện số lượng kim cương theo biến clarity

a <- diamonds
table(diamonds$clarity)
## 
##    I1   SI2   SI1   VS2   VS1  VVS2  VVS1    IF 
##   741  9194 13065 12258  8171  5066  3655  1790
a %>% ggplot(aes(x= clarity)) + 
      geom_bar( )+
      labs(x = 'Độ trong suốt', y= ' Số lượng')

  • Biểu đồ thể hiện số lượng kim cương thuộc từng cấp độ độ trong suốt khác nhau trong bộ dữ liệu diamonds.

    • Trục x thể hiện các cấp độ độ trong suốt kim cương, từ thấp đến cao (từ “I1” đến “IF”).
    • Trục y thể hiện số lượng kim cương tương ứng với mỗi cấp độ độ trong suốt.
    • Chiều cao của mỗi cột thể hiện số lượng kim cương thuộc cấp độ độ trong suốt đó.
  • Ví dụ:

    • Nếu cột “SI1” cao nhất, nghĩa là có nhiều kim cương có độ trong suốt “SI1” nhất trong bộ dữ liệu.
    • Nếu cột “I1” thấp nhất, nghĩa kim cương có độ trong suốt “I1” chiếm số lượng ít nhất trong bộ dữ liệu.

2.2 Biểu đồ cột với chú thích số lượng theo từng biến: cut, color, clarity

2.2.1 Biểu đồ thanh với chú thích số lượng theo màu sắc kim cương( biến color)

a <- diamonds
a %>% group_by(color) %>% summarise(k= n()) %>%
  ggplot(aes(color,k)) +
    geom_col(fill='skyblue') + 
    geom_text(aes(label = k),vjust = 2, color = 'black') +
    labs(x = 'Màu', y = 'Số lượng')

  • Biểu đồ này tiếp tục thể hiện số lượng kim cương thuộc từng nhóm màu khác nhau trong bộ dữ liệu diamonds, tương tự như biểu đồ trước.

  • Điểm khác biệt:

    • Biểu đồ này sử dụng các cột hình chữ nhật (geom_col) thay vì các thanh (geom_bar).
    • Biểu đồ này thêm các chú thích (geom_text) hiển thị số lượng kim cương (biến k) tương ứng với mỗi màu.
  • Các thành phần của code:

    • group_by(color): Nhóm dữ liệu theo màu sắc.

    • summarise(k= n()): Tính tổng số kim cương (n()) cho mỗi nhóm màu, lưu trữ trong biến k.

    • aes(color,k): ánh xạ trục x cho màu sắc (color) và trục y cho số lượng (k).

    • geom_col(fill=‘skyblue’): Vẽ các cột màu xanh da trời (skyblue).

    • geom_text(aes(label = k), vjust = 2, color = ‘black’): Thêm chú thích hiển thị giá trị của biến k (số lượng) tại vị trí trên cùng mỗi cột (vjust=2), màu đen (black).

    • So với biểu đồ ban đầu (a %>% ggplot(aes(x= color)) + geom_bar( ) + labs(x = ‘Màu’, y= ’ Số lượng’)),

      • Biểu đồ này trực quan hơn do hiển thị chính xác số lượng kim cương cho mỗi màu sắc.
      • Mặc dù cả hai đều sử dụng các cột để thể hiện số lượng, việc thêm chú thích số lượng giúp người xem dễ dàng nắm bắt thông tin mà không cần ước lượng chiều cao của các cột.
  • Ví dụ: Khi quan sát biểu đồ ta thấy

    • Cột màu “G” cao nhất và G có số lượng 11292 viên kim cương, nghĩa là có nhiều kim cương thuộc màu “G” nhất trong bộ dữ liệu.
    • Tương tự, cột màu “J” thấp nhất và có số lượng viên kim cương là 2808 viên, nghĩa là có ít kim cương thuộc màu “J” nhất trong bộ dữ liệu.

2.2.2 Biểu đồ thanh với chú thích số lượng theo chất lượng cắt( biến cut)

a <- diamonds
a %>% group_by(cut) %>% summarise(k= n()) %>%
  ggplot(aes(cut,k)) +
    geom_col(fill='skyblue') + 
    geom_text(aes(label = k),vjust = 2, color = 'black') +
    labs(x = 'Chất lượng cắt', y = 'Số lượng')

  • Biểu đồ này thể hiện số lượng kim cương thuộc từng cấp độ chất lượng cắt khác nhau trong bộ dữ liệu diamonds.

    • Trục x: Thể hiện các cấp độ chất lượng cắt kim cương (cut), từ “Fair” (kém) đến “Ideal” (hoàn hảo).

    • Trục y: Thể hiện số lượng kim cương (k) tương ứng với mỗi cấp độ chất lượng cắt.

    • Các cột màu xanh nhạt (“skyblue”): Chiều cao của mỗi cột biểu thị tỷ lệ số lượng kim cương thuộc một cấp độ chất lượng cắt nhất định.

    • Chú thích văn bản màu đen (“black”): Hiển thị chính xác số lượng kim cương cho mỗi cấp độ chất lượng cắt, nằm trên đỉnh cột tương ứng.

    • So với biểu đồ ban đầu (a %>% ggplot(aes(x= cut)) + geom_bar( ) + labs(x = ‘Chất lượng’, y= ’ Số lượng’)),

      • Biểu đồ này cung cấp thêm thông tin chi tiết về số lượng chính xác kim cương ở mỗi cấp độ.
      • Mặc dù cả hai đều sử dụng các cột để thể hiện số lượng, việc thêm chú thích số lượng giúp người xem dễ dàng nắm bắt thông tin mà không cần ước lượng chiều cao của các cột.
  • VD: Quan sát biểu đồ trên ta thấy được

    • Số lượng kim cương nhiều nhất tương ứng với cấp độ chất lượng cắt ” Ideal” là 21551 viên và số lượng kim cương ít nhất tương ứng với cấp độ chất lượng cắt “Fair” là 1610 viên.

2.2.3 Biểu đồ thanh với chú thích số lượng theo độ trong suốt ( biến clarity)

a <- diamonds
a %>% group_by(clarity) %>% summarise(k= n()) %>%
  ggplot(aes(clarity,k)) +
    geom_col(fill='skyblue') + 
    geom_text(aes(label = k),vjust = 2, color = 'black') +
    labs(x = 'Độ trong suốt', y = 'Số lượng')

  • Biểu đồ này thể hiện số lượng kim cương thuộc từng cấp độ độ trong suốt khác nhau trong bộ dữ liệu diamonds.

    • Trục x: Thể hiện các cấp độ độ trong suốt kim cương (clarity), từ “I1” (kém trong) đến “IF” (hoàn hảo không tì vết).

    • Trục y: Thể hiện số lượng kim cương (k) tương ứng với mỗi cấp độ độ trong suốt.

    • Các cột màu xanh nhạt (“skyblue”): Chiều cao của mỗi cột biểu thị tỷ lệ số lượng kim cương thuộc một cấp độ độ trong suốt nhất định.

    • Chú thích văn bản màu đen (“black”): Hiển thị chính xác số lượng kim cương cho mỗi cấp độ độ trong suốt, nằm trên đỉnh cột tương ứng.

    • So với biểu đồ ban đầu (a %>% ggplot(aes(x= clarity)) + geom_bar( ) + labs(x = ‘Độ trong suốt’, y= ’ Số lượng’)),

      • Biểu đồ này cung cấp thêm thông tin chi tiết về số lượng chính xác kim cương ở mỗi cấp độ.
      • Mặc dù cả hai đều sử dụng các cột để thể hiện số lượng, việc thêm chú thích số lượng giúp người xem dễ dàng nắm bắt thông tin mà không cần ước lượng chiều cao của các cột.
  • VD: Quan sát biểu đồ trên ta thấy được

    • Độ trong suốt loại “SI1” chiếm số lượng lớn nhất- 13065 viên và chiếm số lượng kim cương ít nhất trong bộ dữ liệu tương ứng với độ trong suốt loại “I1”

2.3 Biểu đồ cột thể hiện giá trị trung bình trọng lượng carat theo các biến: cut, color, clarity

2.3.1 Biểu đồ cột thể hiện giá trị trung bình trọng lượng carat theo màu sắc kim cương

a <- diamonds
a %>% group_by(color) %>% summarise(k= mean(carat)) %>%
  ggplot(aes(color,k)) +
    geom_col(fill='skyblue') + 
    geom_text(aes(label = round(k,2)),vjust = 1, color = 'black') +
    labs(x = 'Màu', y = 'Số lượng')

  • Biểu đồ này thể hiện giá trị trung bình trọng lượng carat của kim cương thuộc từng màu sắc khác nhau trong bộ dữ liệu diamonds.

    • Trục x: Thể hiện các màu sắc của kim cương.
    • Trục y: Thể hiện giá trị trung bình trọng lượng carat (k) được làm tròn đến 2 chữ số thập phân (round(k, 2)) của kim cương thuộc mỗi màu sắc.
    • Các cột màu xanh nhạt (“skyblue”): Chiều cao của mỗi cột biểu thị giá trị trung bình trọng lượng carat của kim cương có màu sắc tương ứng.
    • Chú thích văn bản màu đen (“black”): Hiển thị giá trị trung bình chính xác ( được làm tròn) nằm trên đỉnh mỗi cột.
  • VD: Ta thấy cột có màu “J” cao nhất trong biểu đồ. Điều này có nghĩa là kim cương màu “J” có giá trị trung bình trọng lượng carat cao nhất trong số các màu sắc có trong bộ dữ liệu. Ví dụ, chú thích trên cột màu “J” có thể hiển thị giá trị 1.16 carat, cho biết kim cương “J” trung bình có trọng lượng 1.16 carat.

2.3.2 Biểu đồ cột thể hiện giá trị trung bình trọng lượng carat theo chất lượng cắt kim cương

a <- diamonds
a %>% group_by(cut) %>% summarise(k= mean(carat)) %>%
  ggplot(aes(cut,k)) +
    geom_col(fill='skyblue') + 
    geom_text(aes(label = round(k,2)),vjust = 1, color = 'black') +
    labs(x = 'Chất lượng cắt', y = 'Số lượng')

  • Biểu đồ này thể hiện giá trị trung bình của trọng lượng carat theo từng chất lượng cắt của kim cương trong bộ dữ liệu diamonds.

    • Trục x: Thể hiện các chất lượng cắt khác nhau của kim cương, từ “Poor” (kém) đến “Ideal” (hoàn hảo).
    • Trục y: Thể hiện giá trị trung bình (k) trọng lượng carat, được làm tròn đến 2 chữ số thập phân (round(k, 2)), của kim cương thuộc mỗi chất lượng cắt.
    • Các cột màu xanh nhạt (“skyblue”): Chiều cao của mỗi cột tỷ lệ thuận với giá trị trung bình trọng lượng carat của kim cương có chất lượng cắt tương ứng.
    • Chú thích văn bản màu đen (“black”): Hiển thị giá trị trung bình chính xác (được làm tròn) nằm trên đỉnh mỗi cột.
  • Ví dụ cụ thể:

    • Ta thấy cột “Fair” tương ứng với giá trị trung bình trọng lượng carat là 1.05, là cột cao nhất trong biểu đồ. Điều này có nghĩa là kim cương có chất lượng cắt “Fair” có giá trị trung bình trọng lượng carat cao nhất trong số các chất lượng cắt có trong bộ dữ liệu.

2.3.3 Biểu đồ cột thể hiện giá trị trung bình trọng lượng carat theo độ trong suốt của kim cương

a <- diamonds
a %>% group_by(clarity) %>% summarise(k= mean(carat)) %>%
  ggplot(aes(clarity,k)) +
    geom_col(fill='skyblue') + 
    geom_text(aes(label = round(k,2)),vjust = 1, color = 'black') +
    labs(x = 'Màu', y = 'Số lượng')

  • Biểu đồ này thể hiện giá trị trung bình của trọng lượng carat theo từng độ trong suốt của kim cương trong bộ dữ liệu diamonds.

    • Trục x: Thể hiện các độ trong suốt khác nhau của kim cương, từ “I1” (kém trong) đến “IF” (hoàn hảo không tì vết).
    • Trục y: Thể hiện giá trị trung bình (k) trọng lượng carat, được làm tròn đến 2 chữ số thập phân (round(k, 2)), của kim cương thuộc mỗi độ trong suốt.
    • Các cột màu xanh nhạt (“skyblue”): Chiều cao của mỗi cột tỷ lệ thuận với giá trị trung bình trọng lượng carat của kim cương có độ trong suốt tương ứng.
    • Chú thích văn bản màu đen (“black”): Hiển thị giá trị trung bình chính xác (được làm tròn) nằm trên đỉnh mỗi cột.
  • Ví dụ cụ thể:

Ta thấy cột “I1” có giá trị trung bình trọng lượng carat là 1.28, là cột cao nhất trong biểu đồ. Điều này có nghĩa là kim cương có độ trong suốt “I1” có giá trị trung bình rọng lượng carat cao nhất trong số các độ trong suốt có trong bộ dữ liệu.

2.4 Biểu đồ thể hiện giá trị trung bình giá bán theo biến: cut, color và clarity

2.4.1 Biểu đồ thể hiện giá trị trung bình giá bán theo màu sắc kim cương

a <- diamonds
a %>% group_by(color) %>% summarise(k= mean(price)) %>%
  ggplot(aes(color,k)) +
    geom_col(fill='skyblue') + 
    geom_text(aes(label = round(k,2)),vjust = 1, color = 'black') +
    labs(x = 'Màu', y = 'Số lượng')

  • Biểu đồ này thể hiện giá trị trung bình của giá bán theo từng màu sắc của kim cương trong bộ dữ liệu diamonds.

    • Trục x: Thể hiện các màu sắc khác nhau của kim cương.
    • Trục y: Thể hiện giá trị trung bình (k) giá bán, được làm tròn đến 2 chữ số thập phân (round(k, 2)), của kim cương thuộc mỗi màu sắc.
    • Cột màu xanh nhạt (“skyblue”): Chiều cao của mỗi cột tỷ lệ thuận với giá trị trung bình giá bán của kim cương có màu sắc tương ứng.
    • Chú thích văn bản màu đen (“black”): Hiển thị giá trị trung bình chính xác (được làm tròn) nằm trên đỉnh mỗi cột.
  • Ví dụ cụ thể:

    • Màu J cao nhất trong biểu đồ. Điều này có nghĩa là kim cương màu J có giá trị trung bình giá bán cao nhất trong số các màu sắc. Ví dụ, chú thích trên cột màu J có thể hiển thị giá trị 5323,82 USD, cho biết kim cương màu J trung bình có giá bán 5323,82 USD.

    • Màu E thấp nhất trong biểu đồ. Điều này có nghĩa là kim cương màu E có giá trị trung bình giá bán thấp nhất trong số các màu sắc. Ví dụ, chú thích trên cột màu M có thể hiển thị giá trị 3076,75 USD, cho biết kim cương màu M trung bình có giá bán 3076,75 USD.

2.4.2 Biểu đồ thể hiện giá trị trung bình giá bán theo chất lượng cắt

a <- diamonds
a %>% group_by(cut) %>% summarise(k= mean(price)) %>%
  ggplot(aes(cut,k)) +
    geom_col(fill='skyblue') + 
    geom_text(aes(label = round(k,2)),vjust = 1, color = 'black') +
    labs(x = 'Chất lượng cắt', y = 'Số lượng')

  • Biểu đồ này thể hiện giá trị trung bình của giá bán theo từng chất lượng cắt của kim cương trong bộ dữ liệu diamonds.

    • Trục x: Thể hiện các chất lượng cắt khác nhau của kim cương, từ “Poor” (kém) đến “Ideal” (hoàn hảo).
    • Trục y: Thể hiện giá trị trung bình (k) giá bán, được làm tròn đến 2 chữ số thập phân (round(k, 2)), của kim cương thuộc mỗi chất lượng cắt.
    • Cột màu xanh nhạt (“skyblue”): Chiều cao của mỗi cột tỷ lệ thuận với giá trị trung bình giá bán của kim cương có chất lượng cắt tương ứng.
    • Chú thích văn bản màu đen (“black”): Hiển thị giá trị trung bình chính xác (được làm tròn) nằm trên đỉnh mỗi cột.
  • Ví dụ cụ thể:

    • Chất lượng cắt “Premium” cao nhất trong biểu đồ. Điều này có nghĩa là kim cương có chất lượng cắt hoàn hảo có giá trị trung bình giá bán cao nhất trong số các chất lượng cắt. Ví dụ, chú thích trên cột “Premium” có thể hiển thị giá trị 4584,26 USD, cho biết kim cương có chất lượng cắt “Premium” trung bình có giá bán 4584,26 USD.

    • Chất lượng cắt ” Ideal” thấp nhất trong biểu đồ. Điều này có nghĩa là kim cương có chất lượng cắt “Ideal” có giá trị trung bình giá bán thấp nhất trong số các chất lượng cắt. Ví dụ, chú thích trên cột “Poor” có thể hiển thị giá trị 3457,54 USD, cho biết kim cương có chất lượng cắt kém trung bình có giá bán 3457,54 USD.

2.4.3 Biểu đồ thể hiện giá trị trung bình giá bán theo độ trong suốt

a <- diamonds
a %>% group_by(clarity) %>% summarise(k= mean(price)) %>%
  ggplot(aes(clarity,k)) +
    geom_col(fill='skyblue') + 
    geom_text(aes(label = round(k,2)),vjust = 1, color = 'black') +
    labs(x = 'Độ trong suốt', y = 'Số lượng')

  • Biểu đồ này thể hiện giá trị trung bình của giá bán theo từng độ trong suốt của kim cương trong bộ dữ liệu diamonds.

    • Trục x: Thể hiện các độ trong suốt khác nhau của kim cương, từ “I1” (kém trong) đến “IF” (hoàn hảo không tì vết).
    • Trục y: Thể hiện giá trị trung bình (k) giá bán, được làm tròn đến 2 chữ số thập phân (round(k, 2)), của kim cương thuộc mỗi độ trong suốt.
    • Cột màu xanh nhạt (“skyblue”): Chiều cao của mỗi cột tỷ lệ thuận với giá trị trung bình giá bán của kim cương có độ trong suốt tương ứng.
    • Chú thích văn bản màu đen (“black”): Hiển thị giá trị trung bình chính xác (được làm tròn) nằm trên đỉnh mỗi cột.
  • Ví dụ cụ thể:

    • Độ trong suốt “SI2” cao nhất trong biểu đồ. Điều này có nghĩa là kim cương có độ trong suốt “SI2” có giá trị trung bình giá bán cao nhất trong số các độ trong suốt. Ví dụ, chú thích trên cột “SI2” có thể hiển thị giá trị 5063,03 USD, cho biết kim cương có độ trong suốt “SI2” trung bình có giá bán 5063,03 USD

    • Độ trong suốt “WS1” thấp nhất trong biểu đồ. Điều này có nghĩa là kim cương có độ trong suốt “WS1” có giá trị trung bình giá bán thấp nhất trong số các độ trong suốt. Ví dụ, chú thích trên cột “WS1” có thể hiển thị giá trị 2523,11 USD, cho biết kim cương có độ trong suốt kém trong trung bình có giá bán 2523,11 USD.

2.5 Biểu đồ cột thể hiện phương sai giá bán theo các biens: cut, color và clarity.

2.5.1 Biểu đồ cột thể hiện phương sai giá bán theo màu sắc kim cương

a <- diamonds
a %>% group_by(color) %>% summarise(k= var(price)) %>%
  ggplot(aes(color,k)) +
    geom_col(fill='skyblue') + 
    geom_text(aes(label = round(k,2)),vjust = 1, color = 'black') +
    labs(x = 'Màu', y = 'Số lượng')

  • Biểu đồ này thể hiện phương sai của giá bán theo từng màu sắc của kim cương trong bộ dữ liệu diamonds. Phương sai là một thước đo mức độ phân tán của dữ liệu.

    • Trục x: Thể hiện các màu sắc khác nhau của kim cương.
    • Trục y: Thể hiện phương sai (k) của giá bán (được làm tròn đến 2 chữ số thập phân (round(k, 2))), cho biết mức độ trải rộng của giá bán
    • Giá trị cao hơn trên trục y cho biết phương sai cao hơn, nghĩa là giá bán của kim cương có màu sắc đó phân tán rộng hơn xung quanh giá trung bình.
    • Giá trị thấp hơn menunjukkan phương sai thấp hơn, nghĩa là giá bán của kim cương có màu sắc đó ít phân tán hơn xung quanh giá trung bình.
    • Các cột màu xanh nhạt (“skyblue”): Chiều cao của mỗi cột tỷ lệ thuận với phương sai giá bán của kim cương có màu sắc tương ứng.
    • Chú thích văn bản màu đen (“black”): Hiển thị phương sai chính xác (được làm tròn) nằm trên đỉnh mỗi cột.
  • Ví dụ cụ thể:

    • Màu “I” cao nhất trong biểu đồ. Điều này có nghĩa là giá bán của kim cương màu D có phương sai cao nhất, cho biết giá bán của chúng phân tán rộng nhất xung quanh giá trung bình. Ví dụ, chú thích trên cột màu I có thể hiển thị giá trị 22300944,68 USD^2, cho biết phương sai giá bán của kim cương màu I trung bình là 22300944,68 USD^2.

    • Màu E thấp nhất trong biểu đồ. Điều này có nghĩa là giá bán của kim cương màu E có phương sai thấp nhất, cho biết giá bán của chúng ít phân tán nhất xung quanh giá trung bình. Ví dụ, chú thích trên cột màu E có thể hiển thị giá trị 11183397,31 USD^2, cho biết phương sai giá bán của kim cương màu M trung bình là 11183397,31 USD^2.

2.5.2 Biểu đồ cột thể hiện phương sai giá bán theo chất lượng cắt

a <- diamonds
a %>% group_by(cut) %>% summarise(k= var(price)) %>%
  ggplot(aes(cut,k)) +
    geom_col(fill='skyblue') + 
    geom_text(aes(label = round(k,2)),vjust = 1, color = 'black') +
    labs(x = 'Chất lượng cắt', y = 'Số lượng')

  • Biểu đồ này thể hiện phương sai của giá bán theo từng chất lượng cắt của kim cương trong bộ dữ liệu diamonds. Phương sai là một thước đo mức độ phân tán của dữ liệu.

    • Trục x: Thể hiện các chất lượng cắt khác nhau của kim cương, từ “Poor” (kém) đến “Ideal” (hoàn hảo).
    • Trục y: Thể hiện phương sai (k) của giá bán (được làm tròn đến 2 chữ số thập phân (round(k, 2))), cho biết mức độ trải rộng của giá bán
    • Giá trị cao hơn trên trục y cho biết phương sai cao hơn, nghĩa là giá bán của kim cương có chất lượng cắt đó phân tán rộng hơn xung quanh giá trung bình.
    • Giá trị thấp hơn menunjukkan phương sai thấp hơn, nghĩa là giá bán của kim cương có chất lượng cắt đó ít phân tán hơn xung quanh giá trung bình.
    • Các cột màu xanh nhạt (“skyblue”): Chiều cao của mỗi cột tỷ lệ thuận với phương sai giá bán của kim cương có chất lượng cắt tương ứng.
    • Chú thích văn bản màu đen (“black”): Hiển thị phương sai chính xác (được làm tròn) nằm trên đỉnh mỗi cột.
  • Ví dụ cụ thể:

    • Chất lượng cắt “Premium” cao nhất trong biểu đồ. Điều này có nghĩa là giá bán của kim cương có chất lượng cắt “Premium” có phương sai cao nhất, cho biết giá bán của chúng phân tán rộng nhất xung quanh giá trung bình. Ví dụ, chú thích trên cột “Premium” có thể hiển thị giá trị 18915583,8 USD^2, cho biết phương sai giá bán của kim cương có chất lượng cắt hoàn hảo trung bình là 18915583,8 USD^2.

    • Chất lượng cắt “Fair” thấp nhất trong biểu đồ. Điều này có nghĩa là giá bán của kim cương có chất lượng cắt kém có phương sai thấp nhất, cho biết giá bán của chúng ít phân tán nhất xung quanh giá trung bình. Ví dụ, chú thích trên cột “Fair” có thể hiển thị giá trị 12676352,83 USD^2, cho biết phương sai giá bán của kim cương có chất lượng cắt kém trung bình là 12676352,83 USD^2

2.5.3 Biểu đồ cột thể hiện phương sai giá bán theo độ trong suốt

a <- diamonds
a %>% group_by(clarity) %>% summarise(k= var(price)) %>%
  ggplot(aes(clarity,k)) +
    geom_col(fill='skyblue') + 
    geom_text(aes(label = round(k,2)),vjust = 0.85, color = 'black') +
    labs(x = 'Độ trong suốt', y = 'Số lượng')

  • Biểu đồ này thể hiện phương sai của giá bán theo từng độ trong suốt của kim cương trong bộ dữ liệu diamonds. Phương sai là một thước đo mức độ phân tán của dữ liệu.

    • Trục x: Thể hiện các độ trong suốt khác nhau của kim cương, từ “I1” (kém trong) đến “IF” (hoàn hảo không tì vết).
    • Trục y: Thể hiện phương sai (k) của giá bán (được làm tròn đến 2 chữ số thập phân (round(k, 2))), cho biết mức độ trải rộng của giá bán
    • Giá trị cao hơn trên trục y cho biết phương sai cao hơn, nghĩa là giá bán của kim cương có độ trong suốt đó phân tán rộng hơn xung quanh giá trung bình.
    • Giá trị thấp hơn menunjukkan phương sai thấp hơn, nghĩa là giá bán của kim cương có độ trong suốt đó ít phân tán hơn xung quanh giá trung bình.
    • Các cột màu xanh nhạt (“skyblue”): Chiều cao của mỗi cột tỷ lệ thuận với phương sai giá bán của kim cương có độ trong suốt tương ứng.
    • Chú thích văn bản màu đen (“black”): Hiển thị phương sai chính xác (được làm tròn) nằm gần đỉnh mỗi cột, được điều chỉnh vị trí bằng vjust = 0.85 để tránh chồng chéo lên các cột.
  • Ví dụ cụ thể:

    • Độ trong suốt “SI2” cao nhất trong biểu đồ. Điều này có nghĩa là giá bán của kim cương có độ trong suốt “SI2” có phương sai cao nhất, cho biết giá bán của chúng phân tán rộng nhất xung quanh giá trung bình. Ví dụ, chú thích trên cột “SI2” có thể hiển thị giá trị 18151507,3 USD^2, cho biết phương sai giá bán của kim cương có độ trong suốt”SI2” trung bình là 18151507,3 USD^2.

    • Độ trong suốt “I1” thấp nhất trong biểu đồ. Điều này có nghĩa là giá bán của kim cương có độ trong suốt kém trong có phương sai thấp nhất, cho biết giá bán của chúng ít phân tán nhất xung quanh giá trung bình. Ví dụ, chú thích trên cột “I1” có thể hiển thị giá trị 7878004,26 USD^2, cho biết phương sai giá bán của kim cương có độ trong suốt kém trong trung bình là 7878004,26 USD^2.

2.6 Biểu đồ cột thể hiện phương sai trọng lượng carat theo các biến: Cut, color, clarity.

2.6.1 Biểu đồ cột thể hiện phương sai trọng lượng carat theo màu sắc kim cương

a <- diamonds
a %>% group_by(color) %>% summarise(k= var(carat)) %>%
  ggplot(aes(color,k)) +
    geom_col(fill='skyblue') + 
    geom_text(aes(label = round(k,2)),vjust = 1, color = 'black') +
    labs(x = 'Màu', y = 'Số lượng')

  • Biểu đồ này thể hiện mức độ phân tán của trọng lượng carat (k) theo từng màu sắc của kim cương trong tập dữ liệu diamonds.

    • Trục x: Thể hiện các màu sắc khác nhau của kim cương.
    • Trục y: Thể hiện phương sai (k) của trọng lượng carat (đã được làm tròn đến 2 chữ số thập phân), cho biết mức độ trải rộng của trọng lượng carat:
    • Giá trị cao hơn trên trục y cho biết phương sai cao hơn, nghĩa là trọng lượng carat của kim cương có màu sắc đó phân tán rộng hơn xung quanh giá trị trung bình.
    • Giá trị thấp hơn cho biết phương sai thấp hơn, nghĩa là trọng lượng carat của kim cương có màu sắc đó ít phân tán hơn xung quanh giá trị trung bình. Cột màu xanh nhạt: Chiều cao của mỗi cột tỷ lệ thuận với phương sai trọng lượng carat của kim cương có màu sắc tương ứng.
    • Chú thích văn bản màu đen: Hiển thị phương sai chính xác (đã được làm tròn) nằm trên đỉnh mỗi cột.
  • Ví dụ:

    • Màu J cao nhất. Điều này có nghĩa là phương sai trọng lượng carat của kim cương màu J là cao nhất. Do đó, trọng lượng carat của kim cương màu J phân tán rộng xung quanh giá trị trung bình. Ví dụ, chú thích trên cột màu J có thể hiển thị giá trị 0.35 carat^2, cho biết phương sai là 0.35 carat^2.

    • Màu D thấp nhất. Điều này có nghĩa là phương sai trọng lượng carat của kim cương màu D là thấp nhất. Do đó, trọng lượng carat của kim cương màu D ít phân tán xung quanh giá trị trung bình. Ví dụ, chú thích trên cột màu D có thể hiển thị giá trị 0.13 carat^2, cho biết phương sai là 0.13 carat^2.

2.6.2 Biểu đồ cột thể hiện phương sai trọng lượng carat theo chất lượng cắt

a <- diamonds
a %>% group_by(cut) %>% summarise(k= var(carat)) %>%
  ggplot(aes(cut,k)) +
    geom_col(fill='skyblue') + 
    geom_text(aes(label = round(k,3)),vjust = 1, color = 'black') +
    labs(x = 'Chất lượng cắt', y = 'Số lượng')

  • Biểu đồ này thể hiện phương sai của trọng lượng carat theo từng chất lượng cắt của kim cương trong bộ dữ liệu diamonds. Phương sai là một thước đo mức độ phân tán của dữ liệu.

    • Trục x: Thể hiện các chất lượng cắt khác nhau của kim cương, từ “Poor” (kém) đến “Ideal” (hoàn hảo).
    • Trục y: Thể hiện phương sai (k) của trọng lượng carat (được làm tròn đến 2 chữ số thập phân (round(k, 2))), cho biết mức độ trải rộng của trọng lượng carat
      • Giá trị cao hơn trên trục y cho biết phương sai cao hơn, nghĩa là trọng lượng carat của kim cương có chất lượng cắt đó phân tán rộng hơn xung quanh giá trị trung bình.
      • Giá trị thấp hơn trên trục y cho biết phương sai thấp hơn, nghĩa là trọng lượng carat của kim cương có chất lượng cắt đó ít phân tán hơn xung quanh giá trị trung bình.
    • Các cột màu xanh nhạt (“skyblue”): Chiều cao của mỗi cột tỷ lệ thuận với phương sai trọng lượng carat của kim cương có chất lượng cắt tương ứng.
    • Chú thích văn bản màu đen (“black”): Hiển thị phương sai chính xác (được làm tròn) nằm trên đỉnh mỗi cột.
  • Ví dụ cụ thể:

    • Chất lượng cắt “Fair” cao nhất trong biểu đồ. Điều này có nghĩa là trọng lượng carat của kim cương có chất lượng cắt “Fair” có phương sai cao nhất, cho biết trọng lượng carat của chúng phân tán rộng nhất xung quanh giá trị trung bình. Ví dụ, chú thích trên cột “Fair” có thể hiển thị giá trị 0.267 carat^2, cho biết phương sai là 0.267 carat^2.

    • Chất lượng cắt “Good” thấp nhất trong biểu đồ. Điều này có nghĩa là trọng lượng carat của kim cương có chất lượng cắt Good có phương sai thấp nhất, cho biết trọng lượng carat của chúng ít phân tán nhất xung quanh giá trị trung bình. Ví dụ, chú thích trên cột “Good” có thể hiển thị giá trị 0.206 carat^2, cho biết phương sai là 0.206 carat^2.

2.6.3 Biểu đồ cột thể hiện phương sai trọng lượng carat theo độ trong suốt

a <- diamonds
a %>% group_by(clarity) %>% summarise(k= var(carat)) %>%
  ggplot(aes(clarity,k)) +
    geom_col(fill='skyblue') + 
    geom_text(aes(label = round(k,2)),vjust = 1, color = 'black') +
    labs(x = 'Độ trong suốt', y = 'Số lượng')

  • Biểu đồ này thể hiện phương sai của trọng lượng carat theo từng độ trong suốt của kim cương trong bộ dữ liệu diamonds. Phương sai là một thước đo mức độ phân tán của dữ liệu.

    • Trục x: Thể hiện các độ trong suốt khác nhau của kim cương, từ “I1” (kém trong) đến “IF” (hoàn hảo không tì vết).
    • Trục y: Thể hiện phương sai (k) của trọng lượng carat (được làm tròn đến 2 chữ số thập phân (round(k, 2))), cho biết mức độ trải rộng của trọng lượng carat
    • Giá trị cao hơn trên trục y cho biết phương sai cao hơn, nghĩa là trọng lượng carat của kim cương có độ trong suốt đó phân tán rộng hơn xung quanh giá trị trung bình.
    • Giá trị thấp hơn trên trục y cho biết phương sai thấp hơn, nghĩa là trọng lượng carat của kim cương có độ trong suốt đó ít phân tán hơn xung quanh giá trị trung bình.
    • Các cột màu xanh nhạt (“skyblue”): Chiều cao của mỗi cột tỷ lệ thuận với phương sai trọng lượng carat của kim cương có độ trong suốt tương ứng. Chú thích văn bản màu đen (“black”): Hiển thị phương sai chính xác (được làm tròn) nằm trên đỉnh mỗi cột.
  • Ví dụ cụ thể:

    • Độ trong suốt “I1” cao nhất trong biểu đồ. Điều này có nghĩa là trọng lượng carat của kim cương có độ trong suốt ” I1” có phương sai cao nhất, cho biết trọng lượng carat của chúng phân tán rộng nhất xung quanh giá trị trung bình. Ví dụ, chú thích trên cột “I1” có thể hiển thị giá trị 0.4 carat^2, cho biết phương sai là 0.4 carat^2.

    • Độ trong suốt “VVS1” thấp nhất trong biểu đồ. Điều này có nghĩa là trọng lượng carat của kim cương có độ trong suốt “VVS1” trong có phương sai thấp nhất, cho biết trọng lượng carat của chúng ít phân tán nhất xung quanh giá trị trung bình. Ví dụ, chú thích trên cột “VVS1” có thể hiển thị giá trị 0.09 carat^2, cho biết phương sai là 0.09 carat^2.

2.7 Biểu đồ cột kép thể hiện phân bố số lượng kim cương theo chất lượng cắt và màu sắc

2.7.1 Biểu đồ cột kép thể hiện phân bố số lượng kim cương theo chất lượng cắt và màu sắc của kim cương loại E và H

a <- diamonds
a <- a %>% group_by(cut, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
a %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = a %>% filter(color == 'E'), fill = 'skyblue') +
  geom_col(data = a %>% filter(color == 'H'), fill = 'pink')

  • Biểu đồ này thể hiện số lượng kim cương theo từng chất lượng cắt (cut) và màu sắc (color) trong bộ dữ liệu diamonds.

    • Trục x: Thể hiện các chất lượng cắt khác nhau của kim cương, từ “Fair” (kém) đến “Ideal” (hoàn hảo).
    • Trục y: Thể hiện số lượng (n) kim cương.
    • Cột màu xanh nhạt (“skyblue”): Biểu thị số lượng kim cương có màu E theo từng chất lượng cắt.
    • Cột màu hồng (“pink”): Biểu thị số lượng kim cương có màu H theo từng chất lượng cắt.
  • Ví dụ:

    • Chất lượng cắt “Very Good”: Ta thấy trên cột “Very Good”, chiều cao của cột màu hồng cao hơn cột màu xanh nhạt. Điều này có nghĩa là có nhiều kim cương màu H hơn kim cương màu E có chất lượng cắt “Very Good”.

2.7.2 Biểu đồ cột kép thể hiện phân bố số lượng kim cương theo chất lượng cắt và màu sắc của kim cương loại E và H

a <- diamonds
a <- a %>% group_by(cut, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
a %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = a %>% filter(color == 'E'), fill = 'skyblue') +
  geom_col(data = a %>% filter(color == 'I'), fill = 'pink')

  • Biểu đồ này thể hiện số lượng kim cương theo từng chất lượng cắt (cut) và màu sắc (color) trong bộ dữ liệu diamonds.

    • Trục x: Thể hiện các chất lượng cắt khác nhau của kim cương, từ “Fair” (kém) đến “Ideal” (hoàn hảo).
    • Trục y: Thể hiện số lượng (n) kim cương.
    • Cột màu xanh nhạt (“skyblue”): Biểu thị số lượng kim cương có màu E theo từng chất lượng cắt.
    • Cột màu hồng (“pink”): Biểu thị số lượng kim cương có màu I theo từng chất lượng cắt.
  • Ví dụ:

    • Chất lượng cắt “Premium”: Ta thấy trên cột “Premium”, chiều cao của cột màu hồng cao hơn cột màu xanh nhạt. Điều này có nghĩa là có nhiều kim cương màu I hơn kim cương màu E có chất lượng cắt “Premium”.

2.8 Biểu đồ thanh thể hiện phân bố chất lượng cắt kim cương

a <- diamonds 
a <- a %>% mutate(caratC = cut(carat,5, label = c('rất nhỏ', 'nhỏ','vừa','lớn','rất lớn')))
a %>% ggplot(aes(x = caratC)) +
  geom_bar(fill = 'yellow')

  labs(x= 'Chất lượng cắt')
## $x
## [1] "Chất lượng cắt"
## 
## attr(,"class")
## [1] "labels"
  • Biểu đồ này thể hiện phân bố của chất lượng cắt kim cương trong bộ dữ liệu diamonds.

    • Trục x: Thể hiện các chất lượng cắt được chia thành 5 nhóm: “rất nhỏ”, “nhỏ”, “vừa”, “lớn”, “rất lớn”.
    • Trục y: Thể hiện số lượng kim cương thuộc mỗi nhóm chất lượng cắt. Cột màu vàng: Biểu thị số lượng kim cương cho mỗi nhóm chất lượng cắt.

2.9 Biểu đồ cột kép theo mặt cắt (cut) phân tách theo màu sắc (color)

a <- diamonds
a %>% group_by(cut,color) %>% summarise(n =n()) %>%
  ggplot(aes(x = cut,y = n)) +
    geom_col(position = 'dodge', fill= 'pink') +
    facet_wrap(~color) +
    geom_text(aes(label = n),vjust = 0.65, color = 'black') +
    labs(x = 'Loại', y = 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

Biểu đồ này thể hiện phân bố số lượng kim cương theo chất lượng cắt (cut) được tách riêng theo màu sắc (color) trong bộ dữ liệu a.

Các thành phần:

  • Trục x: Thể hiện các chất lượng cắt khác nhau của kim cương, từ “Poor” (kém) đến “Ideal” (hoàn hảo).

  • Trục y: Thể hiện số lượng (n) kim cương.

  • Các mặt cắt (facets): Biểu đồ được chia thành hai mặt cắt theo màu sắc (color) của kim cương, được phân biệt bằng nhãn ở phía trên mỗi mặt cắt.

    • Mặt cắt D: Biểu thị phân bố số lượng kim cương theo chất lượng cắt cho màu sắc D.
    • Mặt cắt E: Biểu thị phân bố số lượng kim cương theo chất lượng cắt cho màu sắc E.
    • Mặt cắt F: Biểu thị phân bố số lượng kim cương theo chất lượng cắt cho màu sắc F.
    • Mặt cắt G: Biểu thị phân bố số lượng kim cương theo chất lượng cắt cho màu sắc G.
    • Mặt cắt H: Biểu thị phân bố số lượng kim cương theo chất lượng cắt cho màu sắc H.
    • Mặt cắt I: Biểu thị phân bố số lượng kim cương theo chất lượng cắt cho màu sắc I.
    • Mặt cắt J: Biểu thị phân bố số lượng kim cương theo chất lượng cắt cho màu sắc J.
  • Cột màu hồng (“pink”): Biểu thị số lượng kim cương cho mỗi chất lượng cắt trong mỗi mặt cắt.

  • Chú thích văn bản màu đen (“black”): Hiển thị số lượng kim cương chính xác (n) nằm trên đỉnh mỗi cột, được điều chỉnh vị trí bằng vjust = 0.65 để tránh chồng chéo lên các cột. Ví dụ:

  • Chất lượng cắt “Very Good”: Cột “Very Good” trên mặt cắt F có chiều cao cao hơn cột “Very Good” trên mặt cắt I . Điều này có nghĩa là có nhiều kim cương màu sắc F kim cương màu sắc I có chất lượng cắt “Very Good”. So sánh: Bạn có thể so sánh trực quan sự phân bố số lượng kim cương theo chất lượng cắt giữa hai màu sắc khác nhau bằng cách quan sát chiều cao tương đối của các cột trong cùng một nhóm chất lượng cắt trên hai mặt cắt riêng biệt.

2.10 Biểu đồ cột kép theo mặt cắt (cut) phân tách theo màu sắc (color), thể hiện giá trung bình

a <- diamonds
a %>% group_by(cut,color) %>% summarise(k =mean(price)) %>%
  ggplot(aes(x = cut,y = k)) +
    geom_col(position = 'dodge', fill= 'pink') +
    facet_wrap(~color) +
    geom_text(aes(label = round(k,1)),vjust = 0.25, color = 'black') +
    labs(x = 'Loại', y = 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

Biểu đồ này thể hiện giá trung bình của kim cương theo chất lượng cắt (cut) được tách riêng theo màu sắc (color) trong bộ dữ liệu a.

Các thành phần:

  • Trục x: Thể hiện các chất lượng cắt khác nhau của kim cương, từ “Poor” (kém) đến “Ideal” (hoàn hảo).

  • Trục y: Thể hiện giá trung bình (k) được làm tròn đến 1 chữ số thập phân (round(k, 1)).

  • Các mặt cắt (facets): Biểu đồ được chia thành hai mặt cắt theo màu sắc (color) của kim cương, được phân biệt bằng nhãn ở phía trên mỗi mặt cắt.

    • Mặt cắt D: Biểu thị giá trung bình của kim cương theo chất lượng cắt cho màu sắc D.
    • Mặt cắt E: Biểu thị giá trung bình của kim cương theo chất lượng cắt cho màu sắc E.
    • Mặt cắt F: Biểu thị giá trung bình của kim cương theo chất lượng cắt cho màu sắc F.
    • Mặt cắt G: Biểu thị giá trung bình của kim cương theo chất lượng cắt cho màu sắc G.
    • Mặt cắt H: Biểu thị giá trung bình của kim cương theo chất lượng cắt cho màu sắc H.
    • Mặt cắt I: Biểu thị giá trung bình của kim cương theo chất lượng cắt cho màu sắc I.
    • Mặt cắt J: Biểu thị giá trung bình của kim cương theo chất lượng cắt cho màu sắc J.
  • Cột màu hồng (“pink”): Biểu thị giá trung bình cho mỗi chất lượng cắt trong mỗi mặt cắt.

  • Chú thích văn bản màu đen (“black”): Hiển thị giá trung bình chính xác (được làm tròn) nằm trên đỉnh mỗi cột, được điều chỉnh vị trí bằng vjust = 0.25 để tránh chồng chéo lên các cột. Ví dụ:

  • Chất lượng cắt “Very Good”: Ta thấy “Very Good” trên mặt cắt J cao hơn cột “Very Good” trên mặt cắt G. Điều này có nghĩa là kim cương màu sắc J có giá trung bình khi chất lượng cắt là “Very Good” cao hơn kim cương màu sắc G. So sánh: Bạn có thể so sánh trực quan giá trung bình của kim cương theo chất lượng cắt giữa hai màu sắc khác nhau bằng cách quan sát chiều cao tương đối của các cột trong cùng một nhóm chất lượng cắt trên hai mặt cắt riêng biệt.

2.11 Biểu đồ cột kép theo mặt cắt (cut) phân tách theo màu sắc (color), thể hiện trọng lượng carat trung bình

a <- diamonds
a %>% group_by(cut,color) %>% summarise(k=mean(carat)) %>%
  ggplot(aes(x = cut,y = k)) +
    geom_col(position = 'dodge', fill= 'pink') +
    facet_wrap(~color) +
    geom_text(aes(label = round(k,2)),vjust = 0.65, color = 'black') +
    labs(x = 'Loại', y = 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

Biểu đồ này thể hiện trọng lượng carat trung bình của kim cương theo chất lượng cắt (cut) được tách riêng theo màu sắc (color) trong bộ dữ liệu a.

Các thành phần:

  • Trục x: Thể hiện các chất lượng cắt khác nhau của kim cương, từ “Poor” (kém) đến “Ideal” (hoàn hảo).

  • Trục y: Thể hiện trọng lượng carat trung bình (k) được làm tròn đến 2 chữ số thập phân (round(k, 2)).

  • Các mặt cắt (facets): Biểu đồ được chia thành hai mặt cắt theo màu sắc (color) của kim cương, được phân biệt bằng nhãn ở phía trên mỗi mặt cắt.

    • Mặt cắt D: Biểu thị trọng lượng carat trung bình của kim cương theo chất lượng cắt cho màu sắc D.
    • Mặt cắt E: Biểu thị trọng lượng carat trung bình của kim cương theo chất lượng cắt cho màu sắc E.
    • Mặt cắt F: Biểu thị trọng lượng carat trung bình của kim cương theo chất lượng cắt cho màu sắc F.
    • Mặt cắt G: Biểu thị trọng lượng carat trung bình của kim cương theo chất lượng cắt cho màu sắc G.
    • Mặt cắt H: Biểu thị trọng lượng carat trung bình của kim cương theo chất lượng cắt cho màu sắc H.
    • Mặt cắt I: Biểu thị trọng lượng carat trung bình của kim cương theo chất lượng cắt cho màu sắc I.
    • Mặt cắt J: Biểu thị trọng lượng carat trung bình của kim cương theo chất lượng cắt cho màu sắc J.
  • Cột màu hồng (“pink”): Biểu thị trọng lượng carat trung bình cho mỗi chất lượng cắt trong mỗi mặt cắt.

  • Chú thích văn bản màu đen (“black”): Hiển thị trọng lượng carat trung bình chính xác (được làm tròn) nằm trên đỉnh mỗi cột, được điều chỉnh vị trí bằng vjust = 0.65 để tránh chồng chéo lên các cột. Ví dụ:

  • Chất lượng cắt “Very Good”: Ta quan sat biểu đồ, cột “Very Good” trên mặt cắt J cao hơn cột “Very Good” trên mặt cắt G. Điều này có nghĩa là kim cương màu sắc J có trọng lượng carat trung bình khi chất lượng cắt là “Very Good” cao hơn kim cương màu sắc G.

2.12 Biểu đồ cột thể hiện trung vị trọng lượng carat theo các biến: cut, color, clarity

2.12.1 Biểu đồ cột thể hiện trung vị trọng lượng carat theo chất lượng cắt (cut)

a %>% group_by(cut) %>% summarise(m= median(carat)) %>%
  ggplot(aes(x = cut,y = m)) +
    geom_col(position = 'dodge', fill= 'brown') +
    geom_text(aes(label = round(m,2)), vjust = 2, color = 'pink') +
    labs(x = 'cut', y = 'Median')

Biểu đồ này thể hiện trung vị của trọng lượng carat theo chất lượng cắt (cut) trong bộ dữ liệu a.

  • Các thành phần:

    • Trục x: Thể hiện các chất lượng cắt khác nhau của kim cương, từ “Fair” (kém) đến “Ideal” (hoàn hảo).
    • Trục y: Thể hiện trọng lượng carat trung vị (m) được làm tròn đến 2 chữ số thập phân (round(m, 2)).
    • Cột màu nâu (“brown”): Biểu thị trọng lượng carat trung vị cho mỗi chất lượng cắt.
    • Chú thích văn bản màu hồng (“pink”): Hiển thị trọng lượng carat trung vị chính xác (được làm tròn) nằm trên đỉnh mỗi cột, được điều chỉnh vị trí bằng vjust = 2 để tránh chồng chéo lên các cột.
    • Tựa đề “Median”: Thể hiện trên trục y, cho biết giá trị được hiển thị là trung vị.
      • Ý nghĩa:

        Trung vị (median) là giá trị ở giữa của một tập dữ liệu đã được sắp xếp theo thứ tự. So với trung bình cộng (mean), trung vị ít bị ảnh hưởng bởi các giá trị ngoại lai (outliers) - những giá trị nằm rất xa so với phần còn lại của dữ liệu. Do đó, biểu đồ này giúp hiểu rõ hơn về trọng lượng carat điển hình của kim cương theo chất lượng cắt, ít bị ảnh hưởng bởi những viên kim cương có trọng lượng rất cao hoặc rất thấp.

  • Ví dụ:

Từ biểu đồ ta thấy cột “Good” có chiều cao cao thứ ba trên trục y. Điều này có nghĩa là một nửa số viên kim cương có chất lượng cắt “Good” có trọng lượng carat dưới giá trị trung vị m, và một nửa có trọng lượng carat trên giá trị trung vị m. So sánh: Bạn có thể so sánh trực quan trọng lượng carat trung vị giữa các chất lượng cắt khác nhau bằng cách quan sát chiều cao tương đối của các cột.

2.12.2 Biểu đồ cột thể hiện trung vị trọng lượng carat theo màu sắc (color)

a %>% group_by(color) %>% summarise(m= median(carat)) %>%
  ggplot(aes(x = color,y = m)) +
    geom_col(position = 'dodge', fill= 'brown') +
    geom_text(aes(label = round(m,3)), vjust = 2, color = 'pink') +
    labs(x = 'color', y = 'Median')

Biểu đồ này thể hiện trung vị của trọng lượng carat theo màu sắc (color) trong bộ dữ liệu a.

Các thành phần:

  • Trục x: Thể hiện các màu sắc khác nhau của kim cương.
  • Trục y: Thể hiện trọng lượng carat trung vị (m) được làm tròn đến 2 chữ số thập phân (round(m, 2)).
  • Cột màu nâu (“brown”): Biểu thị trọng lượng carat trung vị cho mỗi màu sắc.
  • Chú thích văn bản màu hồng (“pink”): Hiển thị trọng lượng carat trung vị chính xác (được làm tròn) nằm trên đỉnh mỗi cột, được điều chỉnh vị trí bằng vjust = 2 để tránh chồng chéo lên các cột.
  • Tựa đề “Median”: Thể hiện trên trục y, cho biết giá trị được hiển thị là trung vị.
    • Ý nghĩa:
    Trung vị (median) là giá trị ở giữa của một tập dữ liệu đã được sắp xếp theo thứ tự. So với trung bình cộng (mean), trung vị ít bị ảnh hưởng bởi các giá trị ngoại lai (outliers) - những giá trị nằm rất xa so với phần còn lại của dữ liệu. Do đó, biểu đồ này giúp hiểu rõ hơn về trọng lượng carat điển hình của kim cương theo màu sắc, ít bị ảnh hưởng bởi những viên kim cương có trọng lượng rất cao hoặc rất thấp.

Ví dụ:

Quan sát biểu đồ ta thấy, cột “I” có chiều cao cao thứ hai trên trục y. Điều này có nghĩa là một nửa số viên kim cương có màu sắc “I” có trọng lượng carat dưới giá trị trung vị m, và một nửa có trọng lượng carat trên giá trị trung vị m.

2.12.3 Biểu đồ cột thể hiện trung vị trọng lượng carat theo độ tinh khiết (clarity)

a %>% group_by(clarity) %>% summarise(m= median(carat)) %>%
  ggplot(aes(x = clarity,y = m)) +
    geom_col(position = 'dodge', fill= 'brown') +
    geom_text(aes(label = round(m,2)), vjust = 2, color = 'pink') +
    labs(x = 'clarity', y = 'Median')

Biểu đồ này thể hiện trung vị của trọng lượng carat theo độ tinh khiết (clarity) của kim cương trong bộ dữ liệu a.

  • Các thành phần:

    • Trục x: Thể hiện các mức độ tinh khiết khác nhau của kim cương, thường được ký hiệu bằng chữ cái (ví dụ: IF, VVS1, VS1, SI1, v.v.).
    • Trục y: Thể hiện trọng lượng carat trung vị (m) được làm tròn đến 2 chữ số thập phân (round(m, 2)).
    • Cột màu nâu (“brown”): Biểu thị trọng lượng carat trung vị cho mỗi mức độ tinh khiết.
    • Chú thích văn bản màu hồng (“pink”): Hiển thị trọng lượng carat trung vị chính xác (được làm tròn) nằm trên đỉnh mỗi cột, được điều chỉnh vị trí bằng vjust = 2 để tránh chồng chéo lên các cột.
    • Tựa đề “Median”: Thể hiện trên trục y, cho biết giá trị được hiển thị là trung vị.

Ví dụ:

Độ tinh khiết “VVS2” có chiều cao thứ tư trên trục y. Điều này có nghĩa là một nửa số viên kim cương có độ tinh khiết “VVS1” có trọng lượng carat dưới giá trị trung vị m, và một nửa có trọng lượng carat trên giá trị trung vị m.

2.13 Biểu đồ cột thể hiện trung vị giá của kim cương theo các biến: cut, color, clarity

2.13.1 Biểu đồ cột thể hiện trung vị giá của kim cương theo chất lượng cắt (cut)

a %>% group_by(cut) %>% summarise(m= median(price)) %>%
  ggplot(aes(x = cut,y = m)) +
    geom_col(position = 'dodge', fill= 'brown') +
    geom_text(aes(label = round(m,2)), vjust = 2, color = 'pink') +
    labs(x = 'cut', y = 'Median')

Biểu đồ này thể hiện trung vị của giá kim cương theo chất lượng cắt (cut) trong bộ dữ liệu a.

  • Các thành phần:

    • Trục x: Thể hiện các chất lượng cắt khác nhau của kim cương, từ “Fair” (kém) đến “Ideal” (hoàn hảo).
    • Trục y: Thể hiện trọng lượng carat trung vị (m) được làm tròn đến 2 chữ số thập phân (round(m, 2)).
    • Cột màu nâu (“brown”): Biểu thị trọng lượng carat trung vị cho mỗi chất lượng cắt.
    • Chú thích văn bản màu hồng (“pink”): Hiển thị giá kim cương trung vị chính xác (được làm tròn) nằm trên đỉnh mỗi cột, được điều chỉnh vị trí bằng vjust = 2 để tránh chồng chéo lên các cột.
    • Tựa đề “Median”: Thể hiện trên trục y, cho biết giá trị được hiển thị là trung vị.
  • Ví dụ:

Từ biểu đồ ta thấy cột “Good” có chiều cao cao thứ ba trên trục y. Điều này có nghĩa là một nửa số viên kim cương có chất lượng cắt “Good” có trọng lượng carat dưới giá trị trung vị m, và một nửa có trọng lượng carat trên giá trị trung vị m. So sánh: Bạn có thể so sánh trực quan trọng lượng carat trung vị giữa các chất lượng cắt khác nhau bằng cách quan sát chiều cao tương đối của các cột.

2.13.2 Biểu đồ cột thể hiện trung vị giá của kim cương theo màu sắc kim cương (color)

a %>% group_by(color) %>% summarise(m= median(price)) %>%
  ggplot(aes(x = color,y = m)) +
    geom_col(position = 'dodge', fill= 'brown') +
    geom_text(aes(label = round(m,2)), vjust = 2, color = 'pink') +
    labs(x = 'color', y = 'Median')

Biểu đồ này thể hiện trung vị của giá kim cương theo màu sắc (color) trong bộ dữ liệu a.

Các thành phần:

  • Trục x: Thể hiện các màu sắc khác nhau của kim cương.
  • Trục y: Thể hiện giá kim cương trung vị (m) được làm tròn đến 2 chữ số thập phân (round(m, 2)).
  • Cột màu nâu (“brown”): Biểu thị trọng lượng carat trung vị cho mỗi màu sắc.
  • Chú thích văn bản màu hồng (“pink”): Hiển thị trọng lượng carat trung vị chính xác (được làm tròn) nằm trên đỉnh mỗi cột, được điều chỉnh vị trí bằng vjust = 2 để tránh chồng chéo lên các cột.
  • Tựa đề “Median”: Thể hiện trên trục y, cho biết giá trị được hiển thị là trung vị.

Ví dụ:

Quan sát biểu đồ ta thấy, cột “I” có chiều cao cao thứ hai trên trục y. Điều này có nghĩa là một nửa số viên kim cương có màu sắc “I” có trọng lượng carat dưới giá trị trung vị m, và một nửa có trọng lượng carat trên giá trị trung vị m.

2.13.3 Biểu đồ cột thể hiện trung vị giá của kim cương theo độ trong suốt (clarity)

a %>% group_by(clarity) %>% summarise(m= median(price)) %>%
  ggplot(aes(x = clarity,y = m)) +
    geom_col(position = 'dodge', fill= 'brown') +
    geom_text(aes(label = round(m,2)), vjust = 2, color = 'pink') +
    labs(x = 'clarity', y = 'Median')

Biểu đồ này thể hiện trung vị giá kim cương carat theo độ tinh khiết (clarity) của kim cương trong bộ dữ liệu a.

  • Các thành phần:

    • Trục x: Thể hiện các mức độ tinh khiết khác nhau của kim cương, thường được ký hiệu bằng chữ cái (ví dụ: IF, VVS1, VS1, SI1, v.v.).
    • Trục y: Thể hiện giá kim cương trung vị (m) được làm tròn đến 2 chữ số thập phân (round(m, 2)).
    • Cột màu nâu (“brown”): Biểu thị giá kim cương trung vị cho mỗi mức độ tinh khiết.
    • Chú thích văn bản màu hồng (“pink”): Hiển thị trọng lượng carat trung vị chính xác (được làm tròn) nằm trên đỉnh mỗi cột, được điều chỉnh vị trí bằng vjust = 2 để tránh chồng chéo lên các cột.
    • Tựa đề “Median”: Thể hiện trên trục y, cho biết giá trị được hiển thị là trung vị.
  • Ví dụ:

Độ tinh khiết “VS2” có chiều cao thứ tư trên trục y. Điều này có nghĩa là một nửa số viên kim cương có độ tinh khiết “VS2” có trọng lượng carat dưới giá trị trung vị m, và một nửa có trọng lượng carat trên giá trị trung vị m.

