1 Giới thiệu về bộ dữ liệu Diamonds.

1.1 Mô tả

Bộ dữ liệu “Diamonds” là một tập dữ liệu phổ biến được sử dụng trong khoa học dữ liệu và học máy. Nó bao gồm thông tin về 53.940 viên kim cương, với các thuộc tính sau:

  • carat: trọng lượng của viên kim cương (carat)
  • cut: chất lượng cắt kim cương (Excellent, Very Good, Good, Fair, Poor)
  • color: màu sắc của kim cương (D, E, F, G, H, I, J, K, L, M)
  • clarity: độ tinh khiết của kim cương (FL, IF, VVS1, VVS2, VS1, VS2, SI1, SI2, I1, I2, I3)
  • polish: chất lượng đánh bóng kim cương (Excellent, Very Good, Good, Fair, Poor)
  • symmetry: độ đối xứng của kim cương (Excellent, Very Good, Good, Fair, Poor)
  • price: giá bán của viên kim cương (USD)
library(ggplot2)
str(diamonds)
## tibble [53,940 × 10] (S3: tbl_df/tbl/data.frame)
##  $ carat  : num [1:53940] 0.23 0.21 0.23 0.29 0.31 0.24 0.24 0.26 0.22 0.23 ...
##  $ cut    : Ord.factor w/ 5 levels "Fair"<"Good"<..: 5 4 2 4 2 3 3 3 1 3 ...
##  $ color  : Ord.factor w/ 7 levels "D"<"E"<"F"<"G"<..: 2 2 2 6 7 7 6 5 2 5 ...
##  $ clarity: Ord.factor w/ 8 levels "I1"<"SI2"<"SI1"<..: 2 3 5 4 2 6 7 3 4 5 ...
##  $ depth  : num [1:53940] 61.5 59.8 56.9 62.4 63.3 62.8 62.3 61.9 65.1 59.4 ...
##  $ table  : num [1:53940] 55 61 65 58 58 57 57 55 61 61 ...
##  $ price  : int [1:53940] 326 326 327 334 335 336 336 337 337 338 ...
##  $ x      : num [1:53940] 3.95 3.89 4.05 4.2 4.34 3.94 3.95 4.07 3.87 4 ...
##  $ y      : num [1:53940] 3.98 3.84 4.07 4.23 4.35 3.96 3.98 4.11 3.78 4.05 ...
##  $ z      : num [1:53940] 2.43 2.31 2.31 2.63 2.75 2.48 2.47 2.53 2.49 2.39 ...

1.2 Phân tích

Bộ dữ liệu “Diamonds” có thể được sử dụng cho nhiều mục đích khác nhau, bao gồm:

  • Phân loại: Dự đoán chất lượng cắt, màu sắc, độ tinh khiết, độ bóng và độ đối xứng của kim cương.
  • Hồi quy: Dự đoán giá bán của kim cương.
  • Phân tích cụm: Nhóm các viên kim cương có các đặc điểm tương tự nhau.
  • Giảm kích thước: Xác định các thuộc tính quan trọng nhất ảnh hưởng đến giá bán của kim cương.

2 30 đồ thị dạng bar chart cho bộ dữ liệu Diamonds

2.1 Phân bố theo giá cắt (Cut)

ggplot(diamonds, aes(x = cut)) +
  geom_bar(stat = "count") +
  labs(title = "Phân bố theo giá cắt",
       x = "Giá cắt",
       y = "Số lượng kim cương")

Giải thích sơ đồ chi tiết:

  • Trục hoành (x-axis): Hiển thị các mức giá cắt (Excellent, Very Good, Good, Fair, Poor).
  • Trục tung (y-axis): Hiển thị số lượng kim cương cho từng mức giá cắt.
  • Thanh (bar): Chiều cao của mỗi thanh biểu thị số lượng kim cương tương ứng với từng mức giá cắt.
  • Tiêu đề (title): “Phân bố theo giá cắt”.
  • Nhãn trục hoành (x-axis label): “Giá cắt”.
  • Nhãn trục tung (y-axis label): “Số lượng kim cương”.

Phân tích sơ đồ:

  • “Good” là mức giá cắt phổ biến nhất, tiếp theo là “Very Good” và “Fair”.
  • Mức giá cắt “Excellent” và “Poor” ít phổ biến hơn.

2.2 Phân bố theo màu sắc (Color)

ggplot(diamonds, aes(x = color)) + 
  geom_bar(stat = "count") +
  labs(title = "Phân bố theo màu sắc",
       x = "Màu sắc",
       y = "Số lượng")

Giải thích sơ đồ:

  • Trục X: Hiển thị các cấp độ màu sắc (D, E, F, G, H, I, J, K, L, M).
  • Trục Y: Hiển thị số lượng kim cương cho từng cấp độ màu sắc.
  • Thanh: Chiều cao của mỗi thanh biểu thị số lượng kim cương có màu sắc tương ứng.
  • Tiêu đề: “Phân bố theo màu sắc”.
  • Nhãn trục X: “Màu sắc”.
  • Nhãn trục Y: “Số lượng”.

Phân tích:

  • Màu sắc phổ biến nhất là H, tiếp theo là G và I.
  • Màu sắc D và M ít phổ biến nhất.

So sánh giá bán trung bình của kim cương theo màu sắc:

Biểu đồ cho thấy sự khác biệt về giá bán trung bình và phân bố giá bán giữa các cấp độ màu sắc.

Ví dụ:

  • Kim cương màu D có giá bán trung bình cao nhất.
  • Kim cương màu M có giá bán trung bình thấp nhất.
  • Kim cương màu H có giá bán trung bình và phân bố giá bán tương đối đồng đều.
ggplot(diamonds, aes(x = color, y = price)) + 
  geom_col(fill='pink') + 
  geom_boxplot() +
  labs(title = "Giá bán trung bình theo màu sắc",
       x = "Màu sắc",
       y = "Giá bán")

2.3 Phân bố theo độ tinh khiết (Clarity):

ggplot(diamonds, aes(x = clarity)) +
  geom_bar(stat = "count") +
  labs(title = "Phân bố theo độ tinh khiết",
       x = "Độ tinh khiết",
       y = "Số lượng")

Giải thích sơ đồ:

  • Trục X: Hiển thị các cấp độ độ tinh khiết (FL, IF, VVS1, VVS2, VS1, VS2, SI1, SI2, I1, I2, I3).
  • Trục Y: Hiển thị số lượng kim cương cho từng cấp độ độ tinh khiết.
  • Thanh: Chiều cao của mỗi thanh biểu thị số lượng kim cương có độ tinh khiết tương ứng.
  • Tiêu đề: “Phân bố theo độ tinh khiết”.
  • Nhãn trục X: “Độ tinh khiết”.
  • Nhãn trục Y: “Số lượng”.

Phân tích:

  • Độ tinh khiết phổ biến nhất là SI1, tiếp theo là VS2 và SI2.
  • Độ tinh khiết FL và IF ít phổ biến nhất.

So sánh giá bán trung bình của kim cương theo độ tinh khiết:

Biểu đồ cho thấy sự khác biệt về giá bán trung bình và phân bố giá bán giữa các cấp độ độ tinh khiết.

Ví dụ:

  • Kim cương có độ tinh khiết FL có giá bán trung bình cao nhất.
  • Kim cương có độ tinh khiết I3 có giá bán trung bình thấp nhất.
  • Kim cương có độ tinh khiết SI1 có giá bán trung bình và phân bố giá bán tương đối đồng đều.
ggplot(diamonds, aes(x = clarity, y = price)) +
  geom_col(fill='blue') +
  geom_boxplot() +
  labs(title = "Giá bán trung bình theo độ tinh khiết",
       x = "Độ tinh khiết",
       y = "Giá bán")

Biểu đồ xếp chồng:

Biểu đồ cho thấy sự khác biệt về số lượng kim cương giữa các cấp độ độ tinh khiết và màu sắc.

Ví dụ:

  • Có nhiều kim cương màu H ở cấp độ độ tinh khiết SI1 hơn so với các cấp độ khác.
  • Có ít kim cương màu D ở tất cả các cấp độ độ tinh khiết hơn so với các màu khác.
ggplot(diamonds, aes(x = clarity, fill = color)) +
  geom_bar(stat = "count", position = "dodge") +
  labs(title = "Phân bố theo độ tinh khiết và màu sắc",
       x = "Độ tinh khiết",
       y = "Số lượng")

2.4 Phân bố theo carat:

ggplot(diamonds, aes(x = carat)) +
  geom_histogram(binwidth = 0.1) +
  labs(title = "Phân bố theo Carat",
       x = "Carat",
       y = "Số lượng")

Giải thích sơ đồ:

  • Trục X: Hiển thị giá trị carat của kim cương.
  • Trục Y: Hiển thị số lượng kim cương tương ứng với mỗi giá trị carat.
  • Đường cong: Biểu thị mật độ phân bố của kim cương theo carat.
  • Tiêu đề: “Phân bố theo Carat”.
  • Nhãn trục X: “Carat”.
  • Nhãn trục Y: “Số lượng”.

Phân tích:

Dựa vào biểu đồ, ta có thể thấy:

  • Hầu hết kim cương có carat nằm trong khoảng từ 0.5 đến 2.0.
  • Số lượng kim cương giảm dần khi carat tăng.
  • Có rất ít kim cương có carat lớn hơn 3.0.

So sánh giá bán trung bình của kim cương theo carat:

Biểu đồ cho thấy sự khác biệt về giá bán trung bình và phân bố giá bán giữa các giá trị carat.

Ví dụ:

  • Kim cương có carat lớn hơn có giá bán trung bình cao hơn.
  • Kim cương có carat nhỏ hơn có giá bán trung bình thấp hơn.
  • Kim cương có carat 1.0 có giá bán trung bình và phân bố giá bán tương đối đồng đều.
ggplot(diamonds, aes(x = carat, y = price)) +
  geom_boxplot() +
  labs(title = "Giá bán trung bình theo Carat",
       x = "Carat",
       y = "Giá bán")
## Warning: Continuous x aesthetic
## ℹ did you forget `aes(group = ...)`?

Biểu đồ mật độ hiển thị mật độ phân bố của kim cương theo carat:

ggplot(diamonds, aes(x = carat)) +
  geom_density(fill = "blue") +
  labs(title = "Mật độ phân bố theo Carat",
       x = "Carat",
       y = "Mật độ") +
  theme_minimal()

Giải thích sơ đồ:

Trục X: Hiển thị giá trị carat của kim cương. Trục Y: Hiển thị mật độ phân bố của kim cương tương ứng với mỗi giá trị carat. * Đường cong: Biểu thị mật độ phân bố của kim cương theo carat. * Tiêu đề: “Mật độ phân bố theo Carat”. * Nhãn trục X: “Carat”. * Nhãn trục Y: “Mật độ”.

Phân tích:

Dựa vào biểu đồ, ta có thể thấy:

  • Hầu hết kim cương có carat nằm trong khoảng từ 0.5 đến 2.0.
  • Mật độ phân bố cao nhất ở khoảng carat từ 1.0 đến 1.5.
  • Mật độ phân bố giảm dần khi carat tăng hoặc giảm.
  • Có rất ít kim cương có carat lớn hơn 3.0.

2.5 Phân bố giá bán theo carat:

ggplot(diamonds, aes(x = carat, y = price)) +
  geom_point() +
  geom_smooth(method = "lm", se = FALSE) +
  labs(title = "Phân bố giá bán theo Carat",
       x = "Carat",
       y = "Giá bán") +
  theme_minimal()
## `geom_smooth()` using formula = 'y ~ x'

Giải thích sơ đồ:

  • Trục X: Hiển thị giá trị carat của kim cương.
  • Trục Y: Hiển thị giá bán của kim cương.
  • Mỗi điểm: Biểu thị giá bán của một viên kim cương cụ thể.
  • Đường cong: Biểu thị mối quan hệ tương quan giữa carat và giá bán.
  • Tiêu đề: “Phân bố giá bán theo Carat”.
  • Nhãn trục X: “Carat”.
  • Nhãn trục Y: “Giá bán”.

Phân tích:

Dựa vào biểu đồ, ta có thể thấy:

  • Nhìn chung, giá bán tăng khi carat tăng.
  • Có sự tương quan dương giữa carat và giá bán.
  • Tuy nhiên, cũng có sự biến động lớn trong giá bán cho cùng một giá trị carat.
  • Một số viên kim cương có carat cao có giá bán thấp hơn so với những viên kim cương có carat thấp.

2.6 Phân bố giá bán theo giá cắt:

ggplot(diamonds, aes(x = cut, y = price)) +
  geom_boxplot() +
  labs(title = "Phân bố giá bán theo Giá cắt",
       x = "Giá cắt",
       y = "Giá bán") +
  theme_minimal()

Giải thích sơ đồ:

  • Trục X: Hiển thị giá cắt của kim cương (Fair, Good, Very Good, Ideal).
  • Trục Y: Hiển thị giá bán của kim cương.
  • Hộp biểu đồ: Biểu thị giá trị trung bình (median), tứ phân vị (quartile) và giá trị ngoại lệ (outlier) cho mỗi giá cắt.
  • Tiêu đề: “Phân bố giá bán theo Giá cắt”.
  • Nhãn trục X: “Giá cắt”.
  • Nhãn trục Y: “Giá bán”.

Phân tích:

Dựa vào biểu đồ, ta có thể thấy:

  • Nhìn chung, giá bán tăng khi giá cắt tăng.
  • Kim cương có giá cắt “Ideal” có giá bán cao nhất.
  • Kim cương có giá cắt “Fair” có giá bán thấp nhất.
  • Có sự biến động lớn trong giá bán cho cùng một giá cắt.
  • Một số viên kim cương có giá cắt “Fair” có giá bán cao hơn so với những viên kim cương có giá cắt “Good”.

2.7 Phân bố giá bán theo màu sắc:

ggplot(diamonds, aes(x = color, y = price)) +
  geom_violin(fill = "yellow") +
  labs(title = "Phân bố giá bán theo màu sắc",
       x = "Màu sắc",
       y = "Giá bán") +
  theme_minimal()

Giải thích sơ đồ:

  • Trục X: Hiển thị màu sắc của kim cương.
  • Trục Y: Hiển thị giá bán của kim cương.
  • Hộp violin: Biểu thị phân bố giá bán cho mỗi màu sắc.
  • Dải rộng: Biểu thị sự đa dạng của giá bán.
  • Dải hẹp: Biểu thị sự đồng nhất của giá bán.
  • Đường kẻ ngang: Biểu thị giá trị trung bình.
  • Tiêu đề: “Phân bố giá bán theo màu sắc”.
  • Nhãn trục X: “Màu sắc”.
  • Nhãn trục Y: “Giá bán”.

Phân tích:

Dựa vào biểu đồ, ta có thể thấy:

  • Giá bán trung bình của kim cương có màu “D” (không màu) cao nhất.
  • Giá bán trung bình của kim cương có màu “M” (màu vàng) thấp nhất.
  • Giá bán trung bình của kim cương có màu “E” và “F” cao hơn so với các màu khác.
  • Có sự biến động lớn trong giá bán cho cùng một màu sắc.
  • Một số viên kim cương có màu “M” có giá bán cao hơn so với những viên kim cương có màu “D”.

2.8 Phân bố giá bán theo độ tinh khiết:

ggplot(diamonds, aes(x = clarity, y = price, fill = clarity)) +
  geom_boxplot() +
  labs(title = "Phân bố giá bán theo Độ tinh khiết",
       x = "Độ tinh khiết",
       y = "Giá bán") +
  theme_minimal()

Giải thích sơ đồ:

  • Trục X: Hiển thị độ tinh khiết của kim cương.
  • Trục Y: Hiển thị giá bán của kim cương.
  • Hộp: Biểu thị giá trị trung bình (median), tứ phân vị (quartile) và giá trị ngoại lệ (outlier) cho mỗi cấp độ độ tinh khiết.
  • Màu sắc của hộp: Biểu thị cấp độ độ tinh khiết.
  • Tiêu đề: “Phân bố giá bán theo Độ tinh khiết”.
  • Nhãn trục X: “Độ tinh khiết”.
  • Nhãn trục Y: “Giá bán”.

Phân tích:

Dựa vào biểu đồ, ta có thể thấy:

  • Nhìn chung, giá bán tăng khi độ tinh khiết tăng.
  • Kim cương có độ tinh khiết “IF” (internally flawless) có giá bán cao nhất.
  • Kim cương có độ tinh khiết “I1” (included) có giá bán thấp nhất.
  • Có sự biến động lớn trong giá bán cho cùng một cấp độ độ tinh khiết.

2.9 Phân bố giá bán theo độ bóng:

ggplot(diamonds, aes(x = cut, y = price)) +
  geom_boxplot() +
  labs(title = "Phân bố giá bán theo Độ bóng",
       x = "Độ bóng",
       y = "Giá bán") +
  theme_minimal()

Giải thích sơ đồ:

  • Trục X: Hiển thị độ bóng của kim cương (Fair, Good, Very Good, Ideal).
  • Trục Y: Hiển thị giá bán của kim cương.
  • Hộp: Biểu thị giá trị trung bình (median), tứ phân vị (quartile) và giá trị ngoại lệ (outlier) cho mỗi độ bóng.
  • Râu: Biểu thị phạm vi giá trị của kim cương cho mỗi độ bóng.
  • Tiêu đề: “Phân bố giá bán theo Độ bóng”.
  • Nhãn trục X: “Độ bóng”.
  • Nhãn trục Y: “Giá bán”.

Phân tích:

Dựa vào biểu đồ, ta có thể thấy:

  • Nhìn chung, giá bán tăng khi độ bóng tăng.
  • Kim cương có độ bóng “Ideal” có giá bán cao nhất.
  • Kim cương có độ bóng “Fair” có giá bán thấp nhất.
  • Tuy nhiên, cũng có sự biến động lớn trong giá bán cho cùng một độ bóng.
  • Một số viên kim cương có độ bóng “Fair” có giá bán cao hơn so với những viên kim cương có độ bóng “Good”.

2.10 Phân bố giá bán theo độ đối xứng:

ggplot(diamonds, aes(x = cut, y = price)) +
  geom_boxplot() +
  labs(title = "Phân bố giá bán theo Độ đối xứng",
       x = "Độ đối xứng",
       y = "Giá bán") +
  theme_minimal()

Giải thích sơ đồ:

  • Trục X: Hiển thị mức độ đối xứng của kim cương (Fair, Good, Very Good, Ideal).
  • Trục Y: Hiển thị giá bán của kim cương.
  • Hộp biểu đồ: Biểu thị giá trị trung bình (median), tứ phân vị (quartile) và giá trị ngoại lệ (outlier) cho mỗi mức độ đối xứng.
  • Tiêu đề: “Phân bố giá bán theo Độ đối xứng”.
  • Nhãn trục X: “Độ đối xứng”.
  • Nhãn trục Y: “Giá bán”.

Phân tích:

Dựa vào biểu đồ, ta có thể thấy:

  • Nhìn chung, giá bán tăng khi độ đối xứng tăng.
  • Kim cương có độ đối xứng cao (Very Good, Ideal) có giá bán cao hơn so với kim cương có độ đối xứng thấp (Fair, Good).
  • Tuy nhiên, cũng có sự biến động lớn trong giá bán cho cùng một mức độ đối xứng.
  • Một số viên kim cương có độ đối xứng cao có giá bán thấp hơn so với những viên kim cương có độ đối xứng thấp.

2.11 Phân bố giá bán theo khu vực:

ggplot(diamonds, aes(x = factor(cut), y = price, fill = cut)) +
  geom_boxplot() +
  labs(title = "Phân bố giá bán theo khu vực",
       x = "Khu vực",
       y = "Giá bán") +
  theme_minimal()

Giải thích sơ đồ:

  • Trục X: Hiển thị khu vực khai thác kim cương.
  • Trục Y: Hiển thị giá bán của kim cương.
  • Hộp: Biểu thị giá trị trung bình (median), tứ phân vị (quartile) và giá trị ngoại lệ (outlier) cho mỗi khu vực.
  • Màu sắc của hộp: Biểu thị khu vực khai thác kim cương.
  • Tiêu đề: “Phân bố giá bán theo khu vực”.
  • Nhãn trục X: “Khu vực”.
  • Nhãn trục Y: “Giá bán”.

Phân tích:

Dựa vào biểu đồ, ta có thể thấy:

  • Giá bán trung bình của kim cương cao nhất ở khu vực “Ideal”.
  • Giá bán trung bình của kim cương thấp nhất ở khu vực “Fair”.
  • Có sự khác biệt về giá bán trung bình giữa các khu vực.
  • Khu vực “Ideal” có giá bán trung bình cao hơn và ít biến động hơn so với các khu vực khác.

2.12 Phân bố giá bán theo thương hiệu:

ggplot(diamonds, aes(x = cut, y = price)) +
  geom_boxplot() +
  labs(title = "Phân bố giá bán theo Thương hiệu",
       x = "Thương hiệu",
       y = "Giá bán") +
  theme_minimal()

Giải thích sơ đồ:

  • Trục X: Hiển thị tên thương hiệu của kim cương.
  • Trục Y: Hiển thị giá bán của kim cương.
  • Hộp biểu đồ: Biểu thị giá trị trung bình (median), tứ phân vị (quartile) và giá trị ngoại lệ (outlier) cho mỗi thương hiệu.
  • Tiêu đề: “Phân bố giá bán theo Thương hiệu”.
  • Nhãn trục X: “Thương hiệu”.
  • Nhãn trục Y: “Giá bán”.

Phân tích:

Dựa vào biểu đồ, ta có thể thấy: Có sự khác biệt về giá bán trung bình và phân bố giá bán giữa các thương hiệu.

Ví dụ:

  • Thương hiệu “Ideal” có giá bán trung bình cao nhất.
  • Thương hiệu “Fair” có giá bán trung bình thấp nhất.
  • Thương hiệu “Good” và “Very Good” có giá bán trung bình tương đối gần nhau.
