Giới thiệu


1. Nhiệm vụ

Yêu cầu: Vẽ ít nhất 30 đồ thị dạng bar chart cho bộ dữ liệu Diamonds - một bộ dữ thuộc gói package ggplot2.

2. Bộ dữ liệu Diamonds

library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ ggplot2   3.5.0     ✔ tibble    3.2.1
## ✔ lubridate 1.9.3     ✔ tidyr     1.3.0
## ✔ purrr     1.0.2     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
data(package = 'ggplot2')
a <- diamonds #gán bộ dữ liệu vào a

dim(a)
## [1] 53940    10
names(a)
##  [1] "carat"   "cut"     "color"   "clarity" "depth"   "table"   "price"  
##  [8] "x"       "y"       "z"

Bộ dữ liệu Diamonds cho ta biết một số thông tin và thuộc tính của 53.940 viên kim cương (hàng) ứng với 10 biến (cột) bao gồm:

  • carat (trọng lượng): Đơn vị dùng để đo khối lượng của kim cương (1 carat = 0.2gram).

  • cut (giác cắt): Mô tả cách viên kim cương được cắt và xếp chồng.

  • color (màu sắc): Đánh giá mức độ màu sắc của kim cương, các viên kim cương không có màu sắc (D) được coi là cao cấp.

  • clarity (độ tinh khiết): Đo lường sự trong suốt của kim cương và xác định có hay không có các tạp chất/vết nứt.

  • depth (độ sâu): Đo lường tỷ lệ giữa chiều sâu và đường kính của viên kim cương.

  • table (bề mặt): Mặt được đánh bóng lớn nhất của viên kim Cương.

  • price (giá cả): Giá cả của một viên kim cương.

  • x,y,z (kích thước): Kích thước chiều dài, chiều rộng và chiều sâu của viên kim cương (mm).

Phân tích bộ dữ liệu theo biến lẻ


1. Theo biến carat (trọng lượng)

1.1. Số lượng viên kim cương theo 2 nhóm carat lớn/nhỏ

Đối với một viên kim lượng, trọng lượng carat càng lớn tức giá trị của một viên kim cương càng cao và ngược lại. Để dễ hình dung, ta chia trọng lượng carat thành 2 phần, trọng lượng carat nhỏtrọng lượng carat lớn với:

  • Trọng lượng carat nhỏ: viên kim cương có carat < 1

  • Trọng lượng carat lớn: viên kim cương có carat > 1

library(ggplot2)

a$c1 <- case_when(a$carat<=0.99 ~ 'Nhỏ', a$carat>=1 ~ 'Lớn')

b <- a %>% mutate(c1 = cut(price,2, label = c('Nhỏ', 'Lớn')))
b %>% ggplot(aes(x = c1)) +
  geom_bar(fill = 'skyblue') +
  labs(title = "Hình 1: Số lượng viên kim cương theo 2 nhóm carat", x = 'Trọng lượng', y = 'Số lượng')

=> Kết quả trả về cho chúng ta biết (Hình 1), số lượng viên kim cương có trọng lượng carat nhỏ chiếm đông đảo (gần 90%) trong tổng số 53.940 viên. Cho thấy sự hiếm hoi trong việc tìm kiếm những viên kim cương có trọng lượng carat lớn.

1.2. Số lượng viên kim cương theo 5 nhóm carat

Ta cũng có thể chia số lượng viên kim cương thành 5 nhóm khác nhau là: Rất nhỏ, Nhỏ, Trung bình, Lớn, Rất lớn để dễ so sánh giữa các loại kim cương với nhau như (Hình 2) dưới đây.

c <- a %>% mutate(carat_C = cut(carat,5, label = c('Rất nhỏ', 'Nhỏ','Trung bình','Lớn','Rất lớn'))) #gán dữ liệu vào c

c %>% ggplot(aes(x = carat_C)) +
  geom_bar(fill = 'skyblue') +
  labs(title = "Hình 2: Số lượng viên kim cương theo 5 nhóm carat", x = 'Trọng lượng', y = 'Số lượng')

2. Theo biến cut (giác cắt)

Thông thường, người mua kim cương sẽ quan tâm đến giác cắt vì nó ảnh hưởng lớn đến sự lấp lánh và độ chói của viên kim cương. Các viên kim cương có giác cắt tốt thường có khả năng phản xạ ánh sáng tốt, tạo ra hiệu ứng lấp lánh và sự chói lọi.

2.1. Số lượng kim cương theo biến cut

a %>% ggplot(aes(x = cut)) +
  geom_bar(fill = 'maroon') +
  labs(title = 'Hình 3: Số lượng kim cương theo biến giác cắt (cut)', x = "Loại", y = "Số lượng")

=> Trong (Hình 3), có 5 loại giác cắt khác nhau bao gồm: Fair (Khá tốt), Good (Tốt), Very good (Rất tốt), Premium (Cao cấp) và Ideal (Lý tưởng).

Số lượng kim cương phân bố cho mỗi loại giác cắt tăng dần, với loại Ideal chiếm số lượng lớn nhất, với hơn 20.000 viên. Điều này cho thấy sự tập trung của các nhà sản xuất kim cương vào việc tạo ra các giá trị tốt nhất cho các viên kim cương. Mặc dù loại Fair vẫn tồn tại, nhưng không phân bố nhiều. Người dùng có thể chọn loại kim cương phù hợp với nhu cầu của họ tùy thuộc vào mục đích sử dụng cụ thể.

2.2. Biểu đồ xoay trục số lượng kim cương theo giác cắt (cut)

Trong một số trường hợp, để phục vụ mục đích nghiên cứu, ta cũng có thể lựa chọn biểu dổ xoay trục để thuận tiện cho việc quan sát và phân tích như (Hình 4).

a %>% ggplot(aes(x = cut)) +
    geom_bar(fill = 'maroon') +
    labs(title = 'Hình 4: Biểu đồ xoay trục của số lượng kim cương theo biến giác cắt cut ', x = 'Loại', y = 'Số lượng') +
    coord_flip()

2.3. Biểu đồ tổng số lượng kim cương theo biến giác cắt cut

Nếu (Hình 3)(Hình 4) chỉ cho tao một cái nhìn tổng quát về số lượng kim cương thì với (Hình 5) sẽ cho ta một cái nhìn chi tiết hơn về số lượng kim cương theo từng loại giác cắt.

a %>% group_by(cut) %>% summarise(n = n()) %>%
  ggplot(aes(cut,n)) +
    geom_col(fill='maroon') +
    geom_text(aes(label = n),vjust = 2, color = 'white') +
    labs(title = 'Hình 5: Biểu đồ tổng số lượng kim cương theo biến giác cắt cut', x = 'Loại', y = 'Số lượng')

Cụ thể, ta thấy theo (Hình 5):

  • 1610 viên kim cương thuộc loại giác cắt Fair (Khá tốt).

  • 4906 viên kim cương thuộc loại giác cắt Good (Tốt).

  • 12082 viên kim cương thuộc loại giác cắt Very good (Rất tốt).

  • 13791 viên kim cương thuộc loại giác cắt Premium (Cao cấp).

  • 21551 viên kim cương thuộc loại giác cắt Ideal (Lý tưởng).

2.4. Biểu đồ số lượng kim cương theo biến giác cắt cut (thể hiện %)

Tương tự (Hình 5) ta cũng có thể quan sát bộ dữ liệu dưới dạng thể hiện là % như kết quả ở (Hình 6).

library(scales) 
## 
## Attaching package: 'scales'
## The following object is masked from 'package:purrr':
## 
##     discard
## The following object is masked from 'package:readr':
## 
##     col_factor
a %>% group_by(cut) %>% summarise(n = n()) %>%
  ggplot(aes(cut,n)) +
  geom_col(fill='maroon') +
  geom_text(aes(label = percent(n/length(a$carat))),vjust = 2, color = 'white') +
  labs(title= 'Hình 6: Biểu đồ số lượng kim cương theo biến giác cắt cut (thể hiện %)', x = 'Loại', y = 'Số lượng')

=> Theo (Hình 6):

  • Số lượng kim cương theo giác cắt Fair chiếm: 3.0%

  • Số lượng kim cương theo giác cắt Good chiếm: 9.1%

  • Số lượng kim cương theo giác cắt Very good chiếm: 22.4%

  • Số lượng kim cương theo giác cắt Premium chiếm: 25.6%

  • Số lượng kim cương theo giác cắt Ideal chiếm: 40.0%

Qua phân tích, ta nhận thấy rằng loại kim cương Ideal chiếm tỷ lệ lớn nhất, gần bằng tổng tỷ lệ của hai loại Very Good và Premium kết hợp. Chỉ ra sự ưu tiên cao về chất lượng giác cắt Ideal so với các loại khác trong tập dữ liệu. Điều này có thể thể hiện sự đánh giá cao về mặt chất lượng và sự tinh tế trong quá trình chế tạo kim cương.

3. Theo biến color (màu sắc)

Màu sắc (color) của kim cương đề cập đến mức độ màu sắc tự nhiên của viên kim cương. Kim cương thường được đánh giá dựa trên thang đo màu sắc, và mức độ không màu được coi là lý tưởng.

Trong hệ thống GIA, màu sắc được đánh giá từ D đến Z, với:

  • D, E, F: Vô màu (Colorless)

  • G, H, I, J: Gần vô màu (Near Colorless)

  • K, L, M: Màu rất nhẹ (Faint)

  • N, O, P, Q, R: Màu nhẹ (Very Light)

  • S, T, U, V, W, X, Y, Z: Màu nhẹ đến màu rõ (Light to Fancy)

Mà trong bộ dữ liệu này, ta sẽ chỉ phân tích 2 nhóm màu bao gồm:

  • Vô màu: D, E, F

  • Gần vô màu: G, H, I, J

Số lượng kim cương theo biến color

a %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(color,n)) +
  geom_col(fill='khaki') +
  geom_text(aes(label = percent(n/length(a$color))),vjust = 2, color = 'black') +
  labs(title= 'Hình 7: Biểu đồ số lượng kim cương theo biến color (màu sắc)', x = 'Loại', y = 'Số lượng')

Biểu đồ cung cấp cái nhìn tổng quan về sự phổ biến của các mức độ màu sắc trong bộ dữ liệu Diamonds và thể hiện sự đa dạng của các màu sắc trong thị trường kim cương.

=> Ở đây, chúng ta có thể nhận thấy mức độ phổ biến nhất là màu G, chiếm tỷ lệ 20.93%. Màu sắc tiếp theo là màu E với tỷ lệ 18.16%, và màu ít phổ biến nhất là màu J, chỉ chiếm tỷ lệ 5.21%. Tuy nhiên, từ khía cạnh khách quan, chênh lệch giữa các màu sắc không quá lớn, cho thấy thị trường kim cương có sự đa dạng trong màu sắc và không có một màu sắc nào chiếm ưu thế quá áp đảo. Điều này có thể cho thấy sự đa dạng và sự lựa chọn rộng rãi khi mua kim cương.

4. Theo biến clarity (độ trong suốt)

Clarity (Độ trong suốt) đo lường mức độ và sự xuất hiện của các tạp chất và khuyết điểm bên trong hay bề mặt của viên kim cương bao gồm các phân loại (chỉ tính theo bộ dữ liệu Diamonds):

  • IF - Trong suốt bên trong: Kim cương không có bất kỳ khuyết điểm nào nhìn thấy được bằng kính hiển vi 10x, nhưng có thể có một số tạp chất nhỏ bên ngoài.

  • VVS1 và VVS2 - Rất, rất ít tạp chất: Tạp chất rất nhỏ và khó nhận biết bằng kính hiển vi 10x.

  • VS1 và VS2 - Rất ít tạp chất: Tạp chất nhỏ và khó nhận biết bằng kính hiển vi 10x.

  • SI1 và SI2 - Có tạp chất: Tạp chất nhỏ và có thể nhận biết bằng kính hiển vi 10x.

  • I1 - Có nhiều tạp chất: Tạp chất lớn và rõ ràng thậm chí khi không sử dụng kính hiển vi.

Kim cương có độ trong suốt cao thường có giá trị cao hơn.

a %>% group_by(clarity) %>% summarise(n = n()) %>%
  ggplot(aes(clarity,n)) +
    geom_col(fill='forestgreen') +
    geom_text(aes(label = n),vjust = 0, color = 'navy') +
    labs(title = 'Hình 8: Biểu đồ tổng số lượng kim cương theo biến clarity', x = 'Độ trong suốt', y = 'Số lượng') + 
    coord_flip()

Thông qua (Hình 8), có thể nhận thấy rằng việc loại bỏ hoàn toàn tạp chất trong kim cương là một thách thức, do loại SI1 (có tạp chất) và loại VS2 (rất ít tạp chất) chiếm đa số với hơn 12.000 viên cho mỗi loại. Trong khi đó, kim cương IF (không có tạp chất) chỉ chiếm một lượng rất nhỏ với 1790 viên.

Mặc dù số lượng kim cương không có tạp chất là ít, nhưng những viên này thường được đánh giá cao về chất lượng. Điều này có thể là do các nhà điều tác kim cương tập trung vào việc tôn vinh giá trị và chất lượng cao của kim cương, và họ đã đạt được thành công trong việc giảm số lượng kim cương I1 (có nhiều tạp chất) xuống còn 741 viên.

5. Số lượng kim cương theo biến depth (độ sâu)

Depth (độ sâu) đo lường tỉ lệ giữa chiều cao của viên kim cương và chiều ngang của viên kim cương (đường kính). Depth thường được tính toán theo công thức:

\[ \text{Depth %} = \left( \frac{\text{Chiều cao}}{\text{Đường kính}} \right) \times 100 \]

Khi chọn kim cương, người tiêu dùng thường quan tâm đến sự cân bằng giữa depth và các yếu tố khác như màu sắc, độ trong suốt và giác cắt. Sự cân nhắc này giúp đảm bảo kim cương không chỉ đẹp về mặt màu sắc và trong suốt mà còn có khả năng phản xạ ánh sáng tối ưu.

d <- a %>% mutate(độ.sâu = cut(price,4, label = c('Khá tốt', 'Tốt','Cao cấp','Lý tưởng'))) #gán dữ liệu vào d

d %>% ggplot(aes(x = độ.sâu)) +
  geom_bar(fill = 'seagreen') +
  labs(title = "Hình 9: Số lượng viên kim cương theo biến depth (độ sâu)", x = 'Độ sâu', y = 'Số lượng')

= > Sau khi chia cột biến Depth thành 4 nhóm để phân tích, ta nhận thấy rằng nhóm ‘Khá tốt’ có số lượng kim cương phân bố cao nhất, áp đảo cả 3 nhóm còn lại. Điều này cho thấy rằng việc điều tác và tạo ra kim cương thuộc 3 nhóm còn lại (Tốt, Cao cấp, Lý tưởng) có thể là một thách thức, đặt ra yêu cầu cao về kỹ thuật và chất lượng của quá trình sản xuất kim cương.

6. Số lượng kim cương theo biến price (giá cả)

Trong ngành công nghiệp kim cương, giá cả của một viên kim cương được ảnh hưởng bởi nhiều yếu tố khác nhau, trong đó có các yếu tố chính như carat (trọng lượng), color (màu sắc), clarity (độ trong suốt), và cut (cắt). Yếu tố này được thường được biểu diễn dưới dạng giá trị tiền tệ, ví dụ như VNĐ.

Với bộ dữ liệu Diamonds, ta chia cột price thành 5 nhóm tương ứng:

  • Dưới 500 đơn vị tiền: Rất rẻ

  • Từ 501 đến 1000 đơn vị tiền: Rẻ

  • Từ 1001 đến 1500 đơn vị tiền: Vừa phải

  • Từ 1501 đến 2000 đơn vị tiền: Mắc

  • Trên 2001 đơn vị tiền: Rất mắc

a$giá.cả <- case_when(a$price<= 500 ~ 'Rất rẻ', a$price>=501 & a$price<=1000 ~ 'Rẻ', a$price>=1001 & a$price<=1500 ~ 'Vừa phải', a$price>=1501 & a$price<=2000 ~ 'Mắc', a$price>=2001 ~ 'Rất mắc')

e <- a %>% mutate(giá.cả = cut(price,5, label = c('Rất rẻ', 'Rẻ','Vừa phải','Mắc','Rất mắc')))
e %>% ggplot(aes(x = giá.cả)) +
  geom_bar(fill = 'sandybrown') +
  labs(title = 'Hình 10: Số lượng kim cương theo biến price (giá cả)', x = 'Giá cả', y = 'Số lượng')

=> Kết quả trả về từ (Hình 10) cho thấy một phân phối đáng chú ý về số lượng kim cương dựa trên mức giá. Cụ thể, số lượng kim cương ở mức giá ‘rất rẻ’ và ‘rẻ’ chiếm tỉ lệ vô cùng lớn, với hơn 30.000 viên kim cương. Ngược lại, số lượng kim cương ở mức giá ‘mắc’ và ‘rất mắc’ lại rất ít ỏi.

Dựa vào phân phối này, có thể suy luận rằng nhóm đối tượng chủ yếu của các viên kim cương thuộc mức giá thấp là tầng lớp khách hàng có thu nhập trung bình hoặc thấp. Trong khi đó, những viên kim cương ở mức giá ‘mắc’ và ‘rất mắc’ có thể là sản phẩm dành cho tầng lớp khách hàng giàu có hoặc mong muốn các viên kim cương có chất lượng và đặc tính cao hơn.

Phân tích bộ dữ liệu theo nhóm


1. Phân tích theo trung bình của biến carat (trọng lượng)

Để tiếp cận thông tin chi tiết về trung bình carat cho từng loại giác cắt của viên kim cương, chúng ta có thể dựa vào biểu đồ thống kê chi tiết được minh họa trong (Hình 11).

a %>% group_by(cut) %>% summarise(m= mean(carat)) %>%
  ggplot(aes(x = cut,y = m)) +
    geom_col(fill = 'gold') +
    geom_text(aes(label = round(m,2)), vjust = 2, color = 'red') +
    labs(title = 'Hình 11: Giác cắt theo trung bình biến carat', x = 'Màu', y = 'Trung bình carat')

Dựa vào (Hình 11), chúng ta có thể rút ra các nhận xét quan trọng như sau:

  • Kim cương loại Fair thể hiện trung bình theo biến carat là 1.05, đồng thời có sự phân bố cao nhất trong tất cả các loại giác cắt.

  • Các loại kim cương Good, Very Good, và Premium có trung bình theo biến carat lần lượt là 0.85, 0.81 và 0.89. Điều này cho thấy sự chênh lệch không lớn giữa ba loại này, và chúng đều giữ sự phân bố cao ở mức thứ hai.

  • Kim cương loại Ideal có trung bình theo biến carat thấp nhất là 0.1, và đồng thời thể hiện sự phân bố thấp nhất trong số các loại giác cắt.

2. Phân tích theo biến cut (giác cắt)

2.1. Số lượng viên kim cương có trọng lượng carat < 1 theo biến cut

Chúng ta cũng có thể tiến hành phân tích chi tiết hơn về dòng kim cương có trọng lượng carat nhỏ, tập trung vào yếu tố giác cắt (cut), nhằm đánh giá mức độ hiếm có của các kim cương trong mỗi loại giác cắt khác nhau.

b1 <- diamonds %>% filter(carat < 1) 
b1 %>% ggplot(aes(x=cut)) +
    geom_bar(fill = 'navy') +
    labs(title = 'Hình 12: Số lượng kim cương có trọng lượng carat nhỏ theo giác cắt (cut)', x = 'Giác cắt', y = 'Số lượng') +
    coord_flip()

=> Kết quả phân tích trả về cho biết (Hình 12) kim cương loại lý tưởng (Ideal) chiếm tỷ lệ lớn nhất trong tập dữ liệu, đồng thời kim cương loại khá tốt (Fair) chiếm tỷ lệ thấp nhất. Điều này cho thấy sự rộng lớn và đa dạng của dòng kim cương lý tưởng, với hơn 15,000 viên kim cương trong tập dữ liệu, mặc dù chúng có giác cắt tốt nhưng không hiếm.

2.2. Số lượng viên kim cương có trọng lượng carat > 1 theo biến cut

Tương tự, ta cũng có thể dễ dàng phân tích với các viên kim cương có trọng lượng carat lớn.

b2 <- diamonds %>% filter(carat > 1)
b2 %>% ggplot(aes(x=cut)) +
    geom_bar(fill = 'navy') +
    labs(title = 'Hình 13: Số lượng kim cương có trọng lượng carat lớn theo giác cắt (cut)', x = 'Loại', y = 'Số lượng') +
    coord_flip()

=> Kết quả trả về, như thể hiện trong (Hình 13), thể hiện sự đối ngược giữa kim cương có trọng lượng carat nhỏ và kim cương có trọng lượng carat lớn. Trong trường hợp của kim cương lớn, chúng phân bố rộng rãi đặc biệt trong các loại giác cắt cao cấp (Premium) và lý tưởng (Ideal), đặc biệt là trong loại cao cấp. Tuy nhiên, đối với giác cắt loại khá tốt (Fair), kim cương có trọng lượng carat lớn vẫn duy trì mức độ phân bố thấp.

2.3. Số lượng viên kim cương có độ trong suốt là IF và I1 theo biến cut

Ta xem kim cương loại IF (trong suốt bên trong) là màu xanh lá nhạt, kim cương loại I1 (nhiều tạp chất) là màu xanh lá đậm.

Khi ta muốn xem độ chênh lệch sự phân bố giữa kim cương loại trong suốt và kim cương có nhiều tạp chất, ta có thể quan sát biểu đồ bên dưới.

f <- a %>% group_by(cut, clarity) %>% summarise(n = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
f %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = f %>% filter(clarity == 'IF'), fill = 'darkseagreen') +
  geom_col(data = f %>% filter(clarity == 'I1'), fill = 'darkolivegreen') +
  labs(title = 'Hình 14: Số lượng viên kim cương có độ trong suốt là IF và I1 theo biến cut', x = 'Giác cắt', y = 'Số lượng')

=> Kết quả trả về (Hình 14) cho chúng ta thấy, mặc dù điều chế được những viên kim cương trong suốt bên trong là một thử thách như kim cương có giác cắt loại FairGood hoàn toàn không có độ trong suốt, chứa rất nhiều tạp chất. Tuy vậy các nhà điều chế kim cương vẫn cố gắng điều chế được loại kim cương này, nhằm tôn vinh những giá trị đẹp đẽ nhất của kim cương.

Như kim cương có giác cắt loại Ideal, một dòng kim cương lý tưởng nhưng sự phân bố của dòng kim cương trong suốt đã chiếm đông đảo.

2.4. Số lượng kim cương theo giác cắt của từng độ trong suốt

Với chức năng hỗ trợ của R, ta có thể thấy tùy vào mục đích nhu cầu nghiên cứu và phân tích mà chúng ta có thể chọn sử dụng 1 trong 3 biểu đồ bên dưới.

(Hình 15) cho chúng ta một cái nhìn tổng quát về số lượng kim cương theo giác cắt của từng độ trong suốt. Trong khi đó (Hình 16)(Hình 17) lại cho chúng ta một cái nhìn chi tiết hơn về số lượng kim cương.

a %>% group_by(cut,clarity) %>% summarise(n=n()) %>%
  ggplot(aes(x = cut,y = n)) +
    geom_col(fill = 'mediumslateblue') +
    facet_wrap(~clarity) +
    labs(title = 'Hình 15: Số lượng kim cương theo giác cắt của từng độ trong suốt', x = 'Độ trong suốt', y = 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

a %>% group_by(cut,color) %>% summarise(n=n()) %>%
  ggplot(aes(x = cut,y = n)) +
    geom_col(fill = 'mediumslateblue') +
    facet_wrap(~color) +
    geom_text(aes(label = n),vjust = 0, color = 'mediumblue') +
    labs(title = 'Hình 16: Số lượng kim cương theo giác cắt của từng loại màu', x = 'Loại', y = 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

ggplot(diamonds, aes(x = cut, fill = clarity)) +
  geom_bar(position = 'dodge') +
  facet_wrap(~clarity) +
  labs(title = 'Hình 17: Số lượng kim cương theo giác cắt của từng độ trong suốt (đa màu)', x = 'Giác Cắt', y = 'Số lượng')

Nhưng nhìn chung, chúng ta có thể nhận xét rằng:

  • Kim cương có giác cắt loại Fair có số lượng ít hơn những loại giác cắt khác, chúng chủ yếu tập trung ở những màu F, G, H với lần lượt là 312, 314, 303 viên.

  • Kim cương có giác cắt loại Good phân bố chủ yếu ở màu E, F với số lượng lần lượt là 933, 909.

  • Kim cương có giác cắt loại Very goodPremium có số lượng phân bố không quá chênh lệch nhau cao, chúng tập trung chủ yếu ở màu E, G lần lượt với số lượng là 2400, 23372299, 2924.

  • Kim cương có giác cắt loại Ideal, cấp độ lý tưởng, mặc dù không phân bố nhiều ở màu J chỉ có 896 màu nhưng chúng lại phân bố nhiều ở màu G với 4884.

2.5. Độ lệch chuẩn giá kim cương theo giác cắt

ggplot(diamonds, aes(x = cut, y = sd(price))) +
  geom_bar(fill = 'chartreuse', stat = 'identity') +
  labs(title = 'Hình 18: Độ lệch chuẩn giá kim cương theo giác cắt', x = 'Giác cắt', y = 'Độ lệch chuẩn giá')

=> Mỗi cột biểu diễn một mức độ độ lệch chuẩn tương ứng với loại giác cắt, và màu sắc của cột được chọn là chartreuse để tạo sự nổi bật. Độ lệch chuẩn tương ứng với 5 màu cũng biến thiên theo từng loại giác cắt. Càng là loại giác cắt có mức độ cao như Premium hay Ideal thì độ lệnh chuẩn giá càng lớn và ngược lại, độ lệch chuẩn giá thấp nhất là loại Fair.

2.6. Độ lệch chuẩn giá kim cương theo màu

ggplot(diamonds, aes(x = color, y = sd(price))) +
  geom_bar(fill = 'chartreuse', stat = 'identity') +
  labs(title = 'Hình 19: Độ lệch chuẩn giá kim cương theo màu', x = 'Màu', y = 'Độ lệch chuẩn giá')

Với 7 màu sắc D, E, F, G, H, I, K, ta thấy:

  • Màu G là màu có độ lệch chuẩn giá cao nhất.

  • Mức độ lệch chuẩn giá trung bình là màu Dmàu H.

  • Mức độ lệch chuẩn giá thấp nhất là màu J.

2.7. Độ lệch chuẩn giá kim cương theo độ trong suốt

ggplot(diamonds, aes(x = clarity, y = sd(price))) +
  geom_bar(fill = 'chartreuse', stat = 'identity') +
  labs(title = 'Hình 20: Độ lệch chuẩn mức độ màu của kim cương theo giác cắt', x = 'Giác cắt', y = 'Độ lệch chuẩn mức độ màu')

Với 8 mức độ trong suốt lần lượt là I1, SI2, SI1, VS2, VS1, VVS2, VVS1, IF ta thấy:

  • SI1 là mức có độ lệch chuẩn giá cao nhất.

  • Mức độ lệch chuẩn giá trung bình là độ trong suốt loại SI2VS1.

  • Mức độ lệch chuẩn giá thấp nhất là độ trong suốt loại ÌF.

3. Phân tích theo biến color (màu sắc)

3.1. Số lượng kim cương có giác cắt loại Premium và Good theo biến color

Ta xem kim cương có loại giác cắt là Premium là màu hồng nhạt và kim cương có loại giác cắt là Good có màu hồng đậm.

f <- a %>% group_by(color, cut) %>% summarise(n = n())
## `summarise()` has grouped output by 'color'. You can override using the
## `.groups` argument.
f %>% ggplot(aes(x = color, y = n)) +
  geom_col(data = f %>% filter(cut == 'Premium'), fill = 'lightpink') +
  geom_col(data = f %>% filter(cut == 'Good'), fill = 'brown') +
  labs(title = 'Hình 21: Số lượng kim cương có giác cắt loại Premium và Good theo biến color', x = 'Màu sắc', y = 'Số lượng')

So sánh số lượng kim cương có giác cắt loại Premium và Good theo màu sắc, ta thấy giữa các màu 2 loại kim cường phân bố khá đều nhau.

  • Với kim cương loại Premium chúng tập trung số lượng nhiều ở 3 màu E, F, G và tập trung ít nhất ở màu J.

  • Với kim cương loại Good chúng tập trung nhiều ở màu G và tập trung ít nhất ở màu J (tương tự như loại Premium).

3.2. Số lượng viên kim cương theo biến color của từng loại giác cắt

Ngoài 2 loại kim cương nói trên (giác cắt Premium và Good) ta cũng có thể so sánh cụ thể với từng loại kim cương theo màu sắc với biểu đồ (Hình 22). Hoặc ta có thể xem biểu đồ ở (Hình 23) thể hiện chi tiết tổng số viên kim cương theo biến color của từng loại giác cắt.

a %>% group_by(color,cut) %>% summarise(n=n()) %>%
  ggplot(aes(x = color,y = n)) +
    geom_col(fill = 'red') +
    facet_wrap(~cut) +
    labs(title = 'Hình 22: Số lượng viên kim cương theo biến color của từng loại giác cắt', x = 'Loại', y = 'Số lượng')
## `summarise()` has grouped output by 'color'. You can override using the
## `.groups` argument.

a %>% group_by(color,cut) %>% summarise(n=n()) %>%
  ggplot(aes(x = color,y = n)) +
    geom_col(fill = 'red') +
    facet_wrap(~ cut) +
    geom_text(aes(label = n),vjust = 0, color = 'mediumblue') +
    labs(title = 'Hình 23: Tổng số lượng viên kim cương theo biến color của từng loại giác cắt', x = 'Loại', y = 'Số lượng')
## `summarise()` has grouped output by 'color'. You can override using the
## `.groups` argument.

3.3. Số lượng kim cương theo tổng giá trị biến color của từng loại giác cắt

# Tính tổng giá trị kim cương theo "cut" và "color"
g <- diamonds %>%
  group_by(color, cut) %>%
  summarise(total_price = sum(price))
## `summarise()` has grouped output by 'color'. You can override using the
## `.groups` argument.
# Vẽ biểu đồ bar chart
ggplot(g, aes(x = color, y = total_price, fill = cut)) +
  geom_bar(stat = 'identity') +
  labs(title = 'Hình 24: Số lượng kim cương theo tổng giá trị biến color của từng loại giác cắt', x = 'Màu sắc', y = 'Tổng Giá trị') +
  scale_fill_brewer(palette = 'Set2')  # Sử dụng màu từ bảng màu Brewer

Biểu đồ (Hình 24) tương tự như biểu đồ (Hình 23)(Hình 22), tuy nhiên ưu điểm của loại này là chỉ có một biểu đồ có các cột chồng lên nhau thay vì chia nhỏ ra thành nhiều biểu đồ. Thuận tiện cho việc quan sát và so sánh.

3.4. Tổng giá trị theo phân loại và màu sắc

ggplot(diamonds, aes(x = color, fill = clarity)) +
  geom_bar(position = 'stack') +
  labs(title = 'Hình 25: Tổng giá trị theo phân loại và màu sắc', x = 'Loại', y = 'Tổng giá trị')

Với (Hình 25) ta nhận xét rằng:

  • Độ trong suốt là IF (trong suốt) vì rất khó điều chế nên mức độ phân bố của chúng vô cùng ít, với màu Dmàu J gần như là không có, tập trung phân bố cao ở màu G.

  • Độ trong suốt là SI1, SI2, VS1, VS2 rải rác ở các màu có độ phân bố gần như là đều nhau.

  • Độ trong suốt là VVS1, VVS2 cũng rải rác ở các màu có độ phân bố gần như là đều nhau.

4. Phân tích theo biến clarity (độ trong suốt)

Số lượng viên kim cương theo độ trong suốt của từng loại màu

a %>% group_by(cut,color) %>% summarise(m = mean(price)) %>%
  ggplot(aes(x = cut,y = m)) +
    geom_col(fill = 'gold') +
    facet_wrap(~color) +
    geom_text(aes(label = round(m)), vjust = 2, color = 'red') +
    labs(title = 'Hình 26: Số lượng viên kim cương theo độ trong suốt của từng loại màu', x = 'Loại', y = 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

Các nhóm màu sắc được biểu diễn dưới dạng các nhóm con, và trên mỗi cột, có nhãn hiển thị giá trị trung bình giá làm tròn. Biểu đồ này giúp thấy rõ sự phân bố của giá trị trung bình giá của kim cương trong các nhóm độ trong suốt và màu sắc khác nhau.

5. Phân tích theo biến price (giá cả)

5.1. Trung bình mức giá của từng loại màu theo độ trong suốt

a %>% group_by(clarity,color) %>% summarise(m = mean(price)) %>%
  ggplot(aes(x = clarity,y = m)) +
    geom_col(fill = 'yellowgreen') +
    facet_wrap(~color) +
    labs(title = 'Hình 27: Trung bình mức giá của từng loại màu theo độ trong suốt', x = 'Giác cắt', y = 'Trung bình giá')
## `summarise()` has grouped output by 'clarity'. You can override using the
## `.groups` argument.

Với (Hình 27) ta thấy rằng;

  • Độ trong suốt IF không tạp chất ở màu D có trung bình giá cao vượt trội, áp đảo hơn những loại kim cương khác.

  • Hầu hết từng độ trong suốt ở các màu của viên kim cương đều có trung bình giá xêm xêm nhau, không chệnh lệch quá nhiều.

5.2. Giá trung bình của từng loại giác cắt

ggplot(diamonds, aes(x = cut, y = price)) +
  geom_bar(stat = 'summary', fun = 'mean', fill = 'orange') +
  labs(title = 'Hình 28: Giá trung bình của từng loại giác cắt', x = 'Giác cắt', y = 'Giá trung bình')

Kết quả trả về cho chúng ta thấy,

  • Loại Premium có trung bình giá cao nhất với giá trị trung bình hơn 4500.

  • Loại Fair có trung bình giá cao thứ 2 với giá trị trung bình xấp xĩ gần bằng 4500.

  • Loại Goodvery good có trung bình giá trị cao thứ 3, đều có giá trị trung bình xấp xĩ bằng 4000.

  • Loại Ideal có trung bình giá trị thấp nhát, giá trị trung bình bằng 3500.

ggplot(diamonds, aes(x = cut, fill = cut, y = price)) +                                  
  geom_bar(stat = 'summary', fun = 'mean', position = 'dodge') +
  labs(title = 'Hình 29: Giá trung bình của từng loại giác cắt (đa màu sắc)', x = 'Giác cắt', y = 'Giá trung bình')      

Biểu đồ (Hình 28)(Hình 29) có cùng một cấu trúc cơ bản, nhưng biểu đồ (Hình 29) được thiết kế với một góc thẩm mỹ cao hơn, nhấn mạnh vào sự trực quan và dễ hiểu. Sự chú ý đặc biệt được đặt vào việc tạo điểm nhấn và sự đồng nhất trong màu sắc, giúp biểu đồ trở nên hấp dẫn và dễ theo dõi.

5.3. So sánh giá kim cương giữa các loại màu sắc và giác cắt

ggplot(diamonds, aes(x = cut, fill = color, y = price)) +
  geom_bar(stat = 'summary', fun = 'mean', position = 'dodge') +
  labs(title = 'Hình 30: So sánh giá kim cương giữa các loại màu sắc và giác cắt', x = 'Loại', y = 'Giá') +
  scale_fill_brewer(palette = 'Set4') 
## Warning: Unknown palette: "Set4"

=> Biểu đồ cột so sánh giá kim cương giữa các loại màu sắc và giác cắt. Mỗi cột biểu diễn giá trung bình của kim cương trong từng loại màu sắc, được phân chia theo giác cắt, với màu sắc của cột được đặc trưng bởi loại màu sắc.

---
title: "Nhiệm vụ 4"
author: "Nguyễn Phạm Thúy An"
output:
  html_document:
    toc: true
    number section: true
    toc_float: true
    code_folding: hide
    code_download: true
date: "`r format(Sys.time(), '%H:%M:%S, %d - %m - %Y')`"
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
```

# **Giới thiệu **
***
## **1. Nhiệm vụ**

Yêu cầu: Vẽ ít nhất **30 đồ thị dạng bar chart** cho bộ dữ liệu **Diamonds** - một bộ dữ thuộc gói package *ggplot2*.

## **2. Bộ dữ liệu Diamonds**

```{r}
library(tidyverse)
data(package = 'ggplot2')
a <- diamonds #gán bộ dữ liệu vào a

dim(a)
names(a)
```

Bộ dữ liệu Diamonds cho ta biết một số thông tin và thuộc tính của **53.940 viên kim cương** (hàng) ứng với **10 biến** (cột) bao gồm:

* **carat (trọng lượng)**: Đơn vị dùng để đo khối lượng của kim cương (1 carat = 0.2gram).

* **cut (giác cắt)**: Mô tả cách viên kim cương được cắt và xếp chồng.

* **color (màu sắc)**: Đánh giá mức độ màu sắc của kim cương, các viên kim cương không có màu sắc (D) được coi là cao cấp.

* **clarity (độ tinh khiết)**: Đo lường sự trong suốt của kim cương và xác định có hay không có các tạp chất/vết nứt.

* **depth (độ sâu)**: Đo lường tỷ lệ giữa chiều sâu và đường kính của viên kim cương.

* **table (bề mặt)**:  Mặt được đánh bóng lớn nhất của viên kim Cương.

* **price (giá cả)**: Giá cả của một viên kim cương.

* **x,y,z (kích thước)**: Kích thước chiều dài, chiều rộng và chiều sâu của viên kim cương (mm).

# **Phân tích bộ dữ liệu theo biến lẻ**
***
## **1. Theo biến carat (trọng lượng)**

### **1.1. Số lượng viên kim cương theo 2 nhóm carat lớn/nhỏ**

Đối với một viên kim lượng, trọng lượng carat càng lớn tức giá trị của một viên kim cương càng cao và ngược lại. Để dễ hình dung, ta chia trọng lượng carat thành 2 phần, **trọng lượng carat nhỏ** và **trọng lượng carat lớn** với:

* **Trọng lượng carat nhỏ**: viên kim cương có carat < 1

* **Trọng lượng carat lớn**: viên kim cương có carat > 1

```{r}
library(ggplot2)

a$c1 <- case_when(a$carat<=0.99 ~ 'Nhỏ', a$carat>=1 ~ 'Lớn')

b <- a %>% mutate(c1 = cut(price,2, label = c('Nhỏ', 'Lớn')))
b %>% ggplot(aes(x = c1)) +
  geom_bar(fill = 'skyblue') +
  labs(title = "Hình 1: Số lượng viên kim cương theo 2 nhóm carat", x = 'Trọng lượng', y = 'Số lượng')
```

=> Kết quả trả về cho chúng ta biết *(Hình 1)*, số lượng viên kim cương có trọng lượng carat nhỏ chiếm đông đảo (gần 90%) trong tổng số 53.940 viên. Cho thấy sự hiếm hoi trong việc tìm kiếm những viên kim cương có trọng lượng carat lớn.

### **1.2. Số lượng viên kim cương theo 5 nhóm carat**

Ta cũng có thể chia số lượng viên kim cương thành 5 nhóm khác nhau là: Rất nhỏ, Nhỏ, Trung bình, Lớn, Rất lớn để dễ so sánh giữa các loại kim cương với nhau như *(Hình 2)* dưới đây.

```{r}
c <- a %>% mutate(carat_C = cut(carat,5, label = c('Rất nhỏ', 'Nhỏ','Trung bình','Lớn','Rất lớn'))) #gán dữ liệu vào c

c %>% ggplot(aes(x = carat_C)) +
  geom_bar(fill = 'skyblue') +
  labs(title = "Hình 2: Số lượng viên kim cương theo 5 nhóm carat", x = 'Trọng lượng', y = 'Số lượng')
```

## **2. Theo biến cut (giác cắt)**

Thông thường, người mua kim cương sẽ quan tâm đến giác cắt vì nó ảnh hưởng lớn đến sự lấp lánh và độ chói của viên kim cương. Các viên kim cương có giác cắt tốt thường có khả năng phản xạ ánh sáng tốt, tạo ra hiệu ứng lấp lánh và sự chói lọi. 

### **2.1. Số lượng kim cương theo biến cut**

```{r}
a %>% ggplot(aes(x = cut)) +
  geom_bar(fill = 'maroon') +
  labs(title = 'Hình 3: Số lượng kim cương theo biến giác cắt (cut)', x = "Loại", y = "Số lượng")
```

=> Trong *(Hình 3)*, có 5 loại giác cắt khác nhau bao gồm: **Fair** (Khá tốt), **Good** (Tốt), **Very good** (Rất tốt), **Premium** (Cao cấp) và **Ideal** (Lý tưởng). 

Số lượng kim cương phân bố cho mỗi loại giác cắt tăng dần, với loại Ideal chiếm số lượng lớn nhất, với hơn 20.000 viên. Điều này cho thấy sự tập trung của các nhà sản xuất kim cương vào việc tạo ra các giá trị tốt nhất cho các viên kim cương. Mặc dù loại Fair vẫn tồn tại, nhưng không phân bố nhiều. Người dùng có thể chọn loại kim cương phù hợp với nhu cầu của họ tùy thuộc vào mục đích sử dụng cụ thể.

### **2.2. Biểu đồ xoay trục số lượng kim cương theo giác cắt (cut)** 

Trong một số trường hợp, để phục vụ mục đích nghiên cứu, ta cũng có thể lựa chọn biểu dổ xoay trục để thuận tiện cho việc quan sát và phân tích như *(Hình 4)*.

```{r}
a %>% ggplot(aes(x = cut)) +
    geom_bar(fill = 'maroon') +
    labs(title = 'Hình 4: Biểu đồ xoay trục của số lượng kim cương theo biến giác cắt cut ', x = 'Loại', y = 'Số lượng') +
    coord_flip()
```

### **2.3. Biểu đồ tổng số lượng kim cương theo biến giác cắt cut**

Nếu *(Hình 3)* và *(Hình 4)* chỉ cho tao một cái nhìn tổng quát về số lượng kim cương thì với *(Hình 5)* sẽ cho ta một cái nhìn chi tiết hơn về số lượng kim cương theo từng loại giác cắt.

```{r}
a %>% group_by(cut) %>% summarise(n = n()) %>%
  ggplot(aes(cut,n)) +
    geom_col(fill='maroon') +
    geom_text(aes(label = n),vjust = 2, color = 'white') +
    labs(title = 'Hình 5: Biểu đồ tổng số lượng kim cương theo biến giác cắt cut', x = 'Loại', y = 'Số lượng')
```

Cụ thể, ta thấy theo *(Hình 5)*:

* Có **1610** viên kim cương thuộc loại giác cắt **Fair** (Khá tốt).

* Có **4906** viên kim cương thuộc loại giác cắt **Good** (Tốt).

* Có **12082** viên kim cương thuộc loại giác cắt **Very good** (Rất tốt).

* Có **13791** viên kim cương thuộc loại giác cắt **Premium** (Cao cấp).

* Có **21551** viên kim cương thuộc loại giác cắt **Ideal** (Lý tưởng).

### **2.4. Biểu đồ số lượng kim cương theo biến giác cắt cut (thể hiện %)**

Tương tự *(Hình 5)* ta cũng có thể quan sát bộ dữ liệu dưới dạng thể hiện là % như kết quả ở *(Hình 6)*.

```{r}
library(scales) 

a %>% group_by(cut) %>% summarise(n = n()) %>%
  ggplot(aes(cut,n)) +
  geom_col(fill='maroon') +
  geom_text(aes(label = percent(n/length(a$carat))),vjust = 2, color = 'white') +
  labs(title= 'Hình 6: Biểu đồ số lượng kim cương theo biến giác cắt cut (thể hiện %)', x = 'Loại', y = 'Số lượng')
```

=> Theo *(Hình 6)*:

* Số lượng kim cương theo giác cắt **Fair** chiếm: **3.0%**

* Số lượng kim cương theo giác cắt **Good** chiếm: **9.1%**

* Số lượng kim cương theo giác cắt **Very good** chiếm: **22.4%**

* Số lượng kim cương theo giác cắt **Premium** chiếm: **25.6%**

* Số lượng kim cương theo giác cắt **Ideal** chiếm: **40.0%**

Qua phân tích, ta nhận thấy rằng loại kim cương Ideal chiếm tỷ lệ lớn nhất, gần bằng tổng tỷ lệ của hai loại Very Good và Premium kết hợp. Chỉ ra sự ưu tiên cao về chất lượng giác cắt Ideal so với các loại khác trong tập dữ liệu. Điều này có thể thể hiện sự đánh giá cao về mặt chất lượng và sự tinh tế trong quá trình chế tạo kim cương.

## **3. Theo biến color (màu sắc)**

Màu sắc (color) của kim cương đề cập đến mức độ màu sắc tự nhiên của viên kim cương. Kim cương thường được đánh giá dựa trên thang đo màu sắc, và mức độ không màu được coi là lý tưởng.  

Trong hệ thống GIA, màu sắc được đánh giá từ D đến Z, với:

* **D, E, F**: Vô màu (Colorless)

* **G, H, I, J**: Gần vô màu (Near Colorless)

* **K, L, M**: Màu rất nhẹ (Faint)

* **N, O, P, Q, R**: Màu nhẹ (Very Light)

* **S, T, U, V, W, X, Y, Z**: Màu nhẹ đến màu rõ (Light to Fancy)

Mà trong bộ dữ liệu này, ta sẽ chỉ phân tích 2 nhóm màu bao gồm:

* **Vô màu**: D, E, F

* **Gần vô màu**: G, H, I, J

### **Số lượng kim cương theo biến color**

```{r}
a %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(color,n)) +
  geom_col(fill='khaki') +
  geom_text(aes(label = percent(n/length(a$color))),vjust = 2, color = 'black') +
  labs(title= 'Hình 7: Biểu đồ số lượng kim cương theo biến color (màu sắc)', x = 'Loại', y = 'Số lượng')
```

Biểu đồ cung cấp cái nhìn tổng quan về sự phổ biến của các mức độ màu sắc trong bộ dữ liệu Diamonds và thể hiện sự đa dạng của các màu sắc trong thị trường kim cương.

=> Ở đây, chúng ta có thể nhận thấy mức độ phổ biến nhất là **màu G**, chiếm tỷ lệ **20.93%**. Màu sắc tiếp theo là **màu E** với tỷ lệ **18.16%**, và màu ít phổ biến nhất là **màu J**, chỉ chiếm tỷ lệ **5.21%**. Tuy nhiên, từ khía cạnh khách quan, chênh lệch giữa các màu sắc không quá lớn, cho thấy thị trường kim cương có sự đa dạng trong màu sắc và không có một màu sắc nào chiếm ưu thế quá áp đảo. Điều này có thể cho thấy sự đa dạng và sự lựa chọn rộng rãi khi mua kim cương.

## **4. Theo biến clarity (độ trong suốt)**

Clarity (Độ trong suốt) đo lường mức độ và sự xuất hiện của các tạp chất và khuyết điểm bên trong hay bề mặt của viên kim cương bao gồm các phân loại (chỉ tính theo bộ dữ liệu Diamonds):

* **IF - Trong suốt bên trong**: Kim cương không có bất kỳ khuyết điểm nào nhìn thấy được bằng kính hiển vi 10x, nhưng có thể có một số tạp chất nhỏ bên ngoài.

* **VVS1 và VVS2 - Rất, rất ít tạp chất**: Tạp chất rất nhỏ và khó nhận biết bằng kính hiển vi 10x.

* **VS1 và VS2 - Rất ít tạp chất:** Tạp chất nhỏ và khó nhận biết bằng kính hiển vi 10x.

* **SI1 và SI2 - Có tạp chất:** Tạp chất nhỏ và có thể nhận biết bằng kính hiển vi 10x.

* **I1 - Có nhiều tạp chất:** Tạp chất lớn và rõ ràng thậm chí khi không sử dụng kính hiển vi.

Kim cương có độ trong suốt cao thường có giá trị cao hơn.

```{r}
a %>% group_by(clarity) %>% summarise(n = n()) %>%
  ggplot(aes(clarity,n)) +
    geom_col(fill='forestgreen') +
    geom_text(aes(label = n),vjust = 0, color = 'navy') +
    labs(title = 'Hình 8: Biểu đồ tổng số lượng kim cương theo biến clarity', x = 'Độ trong suốt', y = 'Số lượng') + 
    coord_flip()
```

Thông qua *(Hình 8)*, có thể nhận thấy rằng việc loại bỏ hoàn toàn tạp chất trong kim cương là một thách thức, do loại **SI1** (có tạp chất) và loại **VS2** (rất ít tạp chất) chiếm đa số với hơn 12.000 viên cho mỗi loại. Trong khi đó, kim cương **IF** (không có tạp chất) chỉ chiếm một lượng rất nhỏ với 1790 viên.

Mặc dù số lượng kim cương không có tạp chất là ít, nhưng những viên này thường được đánh giá cao về chất lượng. Điều này có thể là do các nhà điều tác kim cương tập trung vào việc tôn vinh giá trị và chất lượng cao của kim cương, và họ đã đạt được thành công trong việc giảm số lượng kim cương **I1** (có nhiều tạp chất) xuống còn 741 viên.

## **5. Số lượng kim cương theo biến depth (độ sâu)**

Depth (độ sâu) đo lường tỉ lệ giữa chiều cao của viên kim cương và chiều ngang của viên kim cương (đường kính). Depth thường được tính toán theo công thức: 

\[ \text{Depth %} = \left( \frac{\text{Chiều cao}}{\text{Đường kính}} \right) \times 100 \]

Khi chọn kim cương, người tiêu dùng thường quan tâm đến sự cân bằng giữa depth và các yếu tố khác như màu sắc, độ trong suốt và giác cắt. Sự cân nhắc này giúp đảm bảo kim cương không chỉ đẹp về mặt màu sắc và trong suốt mà còn có khả năng phản xạ ánh sáng tối ưu.

```{r}
d <- a %>% mutate(độ.sâu = cut(price,4, label = c('Khá tốt', 'Tốt','Cao cấp','Lý tưởng'))) #gán dữ liệu vào d

d %>% ggplot(aes(x = độ.sâu)) +
  geom_bar(fill = 'seagreen') +
  labs(title = "Hình 9: Số lượng viên kim cương theo biến depth (độ sâu)", x = 'Độ sâu', y = 'Số lượng')
```

= > Sau khi chia cột biến Depth thành 4 nhóm để phân tích, ta nhận thấy rằng nhóm **'Khá tốt'** có số lượng kim cương phân bố cao nhất, áp đảo cả 3 nhóm còn lại. Điều này cho thấy rằng việc điều tác và tạo ra kim cương thuộc 3 nhóm còn lại *(Tốt, Cao cấp, Lý tưởng)* có thể là một thách thức, đặt ra yêu cầu cao về kỹ thuật và chất lượng của quá trình sản xuất kim cương.

## **6. Số lượng kim cương theo biến price (giá cả)**

Trong ngành công nghiệp kim cương, giá cả của một viên kim cương được ảnh hưởng bởi nhiều yếu tố khác nhau, trong đó có các yếu tố chính như **carat** (trọng lượng), **color** (màu sắc), **clarity** (độ trong suốt), và **cut** (cắt). Yếu tố này được thường được biểu diễn dưới dạng giá trị tiền tệ, ví dụ như VNĐ.

Với bộ dữ liệu Diamonds, ta chia cột price thành 5 nhóm tương ứng:

* Dưới 500 đơn vị tiền: **Rất rẻ**

* Từ 501 đến 1000 đơn vị tiền: **Rẻ**

* Từ 1001 đến 1500 đơn vị tiền: **Vừa phải**

* Từ 1501 đến 2000 đơn vị tiền: **Mắc**

* Trên 2001 đơn vị tiền: **Rất mắc**

```{r}
a$giá.cả <- case_when(a$price<= 500 ~ 'Rất rẻ', a$price>=501 & a$price<=1000 ~ 'Rẻ', a$price>=1001 & a$price<=1500 ~ 'Vừa phải', a$price>=1501 & a$price<=2000 ~ 'Mắc', a$price>=2001 ~ 'Rất mắc')

e <- a %>% mutate(giá.cả = cut(price,5, label = c('Rất rẻ', 'Rẻ','Vừa phải','Mắc','Rất mắc')))
e %>% ggplot(aes(x = giá.cả)) +
  geom_bar(fill = 'sandybrown') +
  labs(title = 'Hình 10: Số lượng kim cương theo biến price (giá cả)', x = 'Giá cả', y = 'Số lượng')
```

=> Kết quả trả về từ *(Hình 10)* cho thấy một phân phối đáng chú ý về số lượng kim cương dựa trên mức giá. Cụ thể, số lượng kim cương ở mức giá 'rất rẻ' và 'rẻ' chiếm tỉ lệ vô cùng lớn, với hơn 30.000 viên kim cương. Ngược lại, số lượng kim cương ở mức giá 'mắc' và 'rất mắc' lại rất ít ỏi.

Dựa vào phân phối này, có thể suy luận rằng nhóm đối tượng chủ yếu của các viên kim cương thuộc mức giá thấp là tầng lớp khách hàng có thu nhập trung bình hoặc thấp. Trong khi đó, những viên kim cương ở mức giá 'mắc' và 'rất mắc' có thể là sản phẩm dành cho tầng lớp khách hàng giàu có hoặc mong muốn các viên kim cương có chất lượng và đặc tính cao hơn.

# **Phân tích bộ dữ liệu theo nhóm**
***
## **1. Phân tích theo trung bình của biến carat (trọng lượng)**

Để tiếp cận thông tin chi tiết về trung bình carat cho từng loại giác cắt của viên kim cương, chúng ta có thể dựa vào biểu đồ thống kê chi tiết được minh họa trong *(Hình 11)*.

```{r}
a %>% group_by(cut) %>% summarise(m= mean(carat)) %>%
  ggplot(aes(x = cut,y = m)) +
    geom_col(fill = 'gold') +
    geom_text(aes(label = round(m,2)), vjust = 2, color = 'red') +
    labs(title = 'Hình 11: Giác cắt theo trung bình biến carat', x = 'Màu', y = 'Trung bình carat')
```
Dựa vào *(Hình 11)*, chúng ta có thể rút ra các nhận xét quan trọng như sau:

* Kim cương loại **Fair** thể hiện trung bình theo biến carat là 1.05, đồng thời có sự phân bố cao nhất trong tất cả các loại giác cắt.

* Các loại kim cương **Good**, **Very Good**, và **Premium** có trung bình theo biến carat lần lượt là 0.85, 0.81 và 0.89. Điều này cho thấy sự chênh lệch không lớn giữa ba loại này, và chúng đều giữ sự phân bố cao ở mức thứ hai.

* Kim cương loại **Ideal** có trung bình theo biến carat thấp nhất là 0.1, và đồng thời thể hiện sự phân bố thấp nhất trong số các loại giác cắt.

## **2. Phân tích theo biến cut (giác cắt)**

### **2.1. Số lượng viên kim cương có trọng lượng carat < 1 theo biến cut**

Chúng ta cũng có thể tiến hành phân tích chi tiết hơn về dòng kim cương có trọng lượng carat nhỏ, tập trung vào yếu tố giác cắt (cut), nhằm đánh giá mức độ hiếm có của các kim cương trong mỗi loại giác cắt khác nhau. 

```{r}
b1 <- diamonds %>% filter(carat < 1) 
b1 %>% ggplot(aes(x=cut)) +
    geom_bar(fill = 'navy') +
    labs(title = 'Hình 12: Số lượng kim cương có trọng lượng carat nhỏ theo giác cắt (cut)', x = 'Giác cắt', y = 'Số lượng') +
    coord_flip()
```

=> Kết quả phân tích trả về cho biết *(Hình 12)* kim cương loại lý tưởng (Ideal) chiếm tỷ lệ lớn nhất trong tập dữ liệu, đồng thời kim cương loại khá tốt (Fair) chiếm tỷ lệ thấp nhất. Điều này cho thấy sự rộng lớn và đa dạng của dòng kim cương lý tưởng, với hơn 15,000 viên kim cương trong tập dữ liệu, mặc dù chúng có giác cắt tốt nhưng không hiếm.

### **2.2. Số lượng viên kim cương có trọng lượng carat > 1 theo biến cut**

Tương tự, ta cũng có thể dễ dàng phân tích với các viên kim cương có trọng lượng carat lớn.

```{r}
b2 <- diamonds %>% filter(carat > 1)
b2 %>% ggplot(aes(x=cut)) +
    geom_bar(fill = 'navy') +
    labs(title = 'Hình 13: Số lượng kim cương có trọng lượng carat lớn theo giác cắt (cut)', x = 'Loại', y = 'Số lượng') +
    coord_flip()
```

=> Kết quả trả về, như thể hiện trong *(Hình 13)*, thể hiện sự đối ngược giữa kim cương có trọng lượng carat nhỏ và kim cương có trọng lượng carat lớn. Trong trường hợp của kim cương lớn, chúng phân bố rộng rãi đặc biệt trong các loại giác cắt cao cấp (Premium) và lý tưởng (Ideal), đặc biệt là trong loại cao cấp. Tuy nhiên, đối với giác cắt loại khá tốt (Fair), kim cương có trọng lượng carat lớn vẫn duy trì mức độ phân bố thấp.

### **2.3. Số lượng viên kim cương có độ trong suốt là IF và I1 theo biến cut**

Ta xem kim cương loại **IF** (trong suốt bên trong) là màu xanh lá nhạt, kim cương loại **I1** (nhiều tạp chất) là màu xanh lá đậm.

Khi ta muốn xem độ chênh lệch sự phân bố giữa kim cương loại trong suốt và kim cương có nhiều tạp chất, ta có thể quan sát biểu đồ bên dưới.

```{r}
f <- a %>% group_by(cut, clarity) %>% summarise(n = n())
f %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = f %>% filter(clarity == 'IF'), fill = 'darkseagreen') +
  geom_col(data = f %>% filter(clarity == 'I1'), fill = 'darkolivegreen') +
  labs(title = 'Hình 14: Số lượng viên kim cương có độ trong suốt là IF và I1 theo biến cut', x = 'Giác cắt', y = 'Số lượng')
```

=> Kết quả trả về *(Hình 14)* cho chúng ta thấy, mặc dù điều chế được những viên kim cương trong suốt bên trong là một thử thách như kim cương có giác cắt loại **Fair** và **Good** hoàn toàn không có độ trong suốt, chứa rất nhiều tạp chất. Tuy vậy các nhà điều chế kim cương vẫn cố gắng điều chế được loại kim cương này, nhằm tôn vinh những giá trị đẹp đẽ nhất của kim cương.

Như kim cương có giác cắt loại **Ideal**, một dòng kim cương lý tưởng nhưng sự phân bố của dòng kim cương trong suốt đã chiếm đông đảo. 

### **2.4. Số lượng kim cương theo giác cắt của từng độ trong suốt**

Với chức năng hỗ trợ của R, ta có thể thấy tùy vào mục đích nhu cầu nghiên cứu và phân tích mà chúng ta có thể chọn sử dụng 1 trong 3 biểu đồ bên dưới. 

*(Hình 15)* cho chúng ta một cái nhìn tổng quát về số lượng kim cương theo giác cắt của từng độ trong suốt. Trong khi đó *(Hình 16)* và *(Hình 17)* lại cho chúng ta một cái nhìn chi tiết hơn về số lượng kim cương.

```{r}
a %>% group_by(cut,clarity) %>% summarise(n=n()) %>%
  ggplot(aes(x = cut,y = n)) +
    geom_col(fill = 'mediumslateblue') +
    facet_wrap(~clarity) +
    labs(title = 'Hình 15: Số lượng kim cương theo giác cắt của từng độ trong suốt', x = 'Độ trong suốt', y = 'Số lượng')
```

```{r}
a %>% group_by(cut,color) %>% summarise(n=n()) %>%
  ggplot(aes(x = cut,y = n)) +
    geom_col(fill = 'mediumslateblue') +
    facet_wrap(~color) +
    geom_text(aes(label = n),vjust = 0, color = 'mediumblue') +
    labs(title = 'Hình 16: Số lượng kim cương theo giác cắt của từng loại màu', x = 'Loại', y = 'Số lượng')
```

```{r}
ggplot(diamonds, aes(x = cut, fill = clarity)) +
  geom_bar(position = 'dodge') +
  facet_wrap(~clarity) +
  labs(title = 'Hình 17: Số lượng kim cương theo giác cắt của từng độ trong suốt (đa màu)', x = 'Giác Cắt', y = 'Số lượng')
```

Nhưng nhìn chung, chúng ta có thể nhận xét rằng:

* Kim cương có giác cắt loại **Fair** có số lượng ít hơn những loại giác cắt khác, chúng chủ yếu tập trung ở những màu **F, G, H** với lần lượt là **312, 314, 303** viên.

* Kim cương có giác cắt loại **Good** phân bố chủ yếu ở màu **E, F** với số lượng lần lượt là **933, 909**.

* Kim cương có giác cắt loại **Very good** và **Premium** có số lượng phân bố không quá chênh lệch nhau cao, chúng tập trung chủ yếu ở màu **E, G** lần lượt với số lượng là **2400, 2337** và **2299, 2924**.

* Kim cương có giác cắt loại **Ideal**, cấp độ lý tưởng, mặc dù không phân bố nhiều ở màu **J** chỉ có 896 màu nhưng chúng lại phân bố nhiều ở màu **G** với 4884.

### **2.5. Độ lệch chuẩn giá kim cương theo giác cắt**

```{r}
ggplot(diamonds, aes(x = cut, y = sd(price))) +
  geom_bar(fill = 'chartreuse', stat = 'identity') +
  labs(title = 'Hình 18: Độ lệch chuẩn giá kim cương theo giác cắt', x = 'Giác cắt', y = 'Độ lệch chuẩn giá')
```

=> Mỗi cột biểu diễn một mức độ độ lệch chuẩn tương ứng với loại giác cắt, và màu sắc của cột được chọn là chartreuse để tạo sự nổi bật. Độ lệch chuẩn tương ứng với 5 màu cũng biến thiên theo từng loại giác cắt. Càng là loại giác cắt có mức độ cao như **Premium** hay **Ideal** thì độ lệnh chuẩn giá càng lớn và ngược lại, độ lệch chuẩn giá thấp nhất là loại **Fair**.

### **2.6. Độ lệch chuẩn giá kim cương theo màu**

```{r}
ggplot(diamonds, aes(x = color, y = sd(price))) +
  geom_bar(fill = 'chartreuse', stat = 'identity') +
  labs(title = 'Hình 19: Độ lệch chuẩn giá kim cương theo màu', x = 'Màu', y = 'Độ lệch chuẩn giá')
```

Với 7 màu sắc D, E, F, G, H, I, K, ta thấy:

* **Màu G** là màu có độ lệch chuẩn giá cao nhất.

* Mức độ lệch chuẩn giá trung bình là **màu D** và **màu H**.

* Mức độ lệch chuẩn giá thấp nhất là **màu J**.

### **2.7. Độ lệch chuẩn giá kim cương theo độ trong suốt**

```{r}
ggplot(diamonds, aes(x = clarity, y = sd(price))) +
  geom_bar(fill = 'chartreuse', stat = 'identity') +
  labs(title = 'Hình 20: Độ lệch chuẩn mức độ màu của kim cương theo giác cắt', x = 'Giác cắt', y = 'Độ lệch chuẩn mức độ màu')
```
Với 8 mức độ trong suốt lần lượt là I1, SI2, SI1, VS2, VS1, VVS2, VVS1, IF ta thấy:

* **SI1** là mức có độ lệch chuẩn giá cao nhất.

* Mức độ lệch chuẩn giá trung bình là độ trong suốt loại **SI2** và **VS1**.

* Mức độ lệch chuẩn giá thấp nhất là độ trong suốt loại **ÌF**.

## **3. Phân tích theo biến color (màu sắc)**

### **3.1. Số lượng kim cương có giác cắt loại Premium và Good theo biến color**

Ta xem kim cương có loại giác cắt là **Premium** là màu hồng nhạt và kim cương có loại giác cắt là **Good** có màu hồng đậm. 

```{r}
f <- a %>% group_by(color, cut) %>% summarise(n = n())
f %>% ggplot(aes(x = color, y = n)) +
  geom_col(data = f %>% filter(cut == 'Premium'), fill = 'lightpink') +
  geom_col(data = f %>% filter(cut == 'Good'), fill = 'brown') +
  labs(title = 'Hình 21: Số lượng kim cương có giác cắt loại Premium và Good theo biến color', x = 'Màu sắc', y = 'Số lượng')
```

So sánh số lượng kim cương có giác cắt loại Premium và Good theo màu sắc, ta thấy giữa các màu 2 loại kim cường phân bố khá đều nhau.

* Với kim cương loại **Premium** chúng tập trung số lượng nhiều ở 3 màu **E, F, G** và tập trung ít nhất ở màu J.

* Với kim cương loại **Good** chúng tập trung nhiều ở màu **G** và tập trung ít nhất ở màu **J** (tương tự như loại Premium).

### **3.2. Số lượng viên kim cương theo biến color của từng loại giác cắt**

Ngoài 2 loại kim cương nói trên (giác cắt Premium và Good) ta cũng có thể so sánh cụ thể với từng loại kim cương theo màu sắc với biểu đồ *(Hình 22)*. Hoặc ta có thể xem biểu đồ ở *(Hình 23)* thể hiện chi tiết tổng số viên kim cương theo biến color của từng loại giác cắt.

```{r}
a %>% group_by(color,cut) %>% summarise(n=n()) %>%
  ggplot(aes(x = color,y = n)) +
    geom_col(fill = 'red') +
    facet_wrap(~cut) +
    labs(title = 'Hình 22: Số lượng viên kim cương theo biến color của từng loại giác cắt', x = 'Loại', y = 'Số lượng')
```

```{r}
a %>% group_by(color,cut) %>% summarise(n=n()) %>%
  ggplot(aes(x = color,y = n)) +
    geom_col(fill = 'red') +
    facet_wrap(~ cut) +
    geom_text(aes(label = n),vjust = 0, color = 'mediumblue') +
    labs(title = 'Hình 23: Tổng số lượng viên kim cương theo biến color của từng loại giác cắt', x = 'Loại', y = 'Số lượng')
```

### **3.3. Số lượng kim cương theo tổng giá trị biến color của từng loại giác cắt**

```{r}
# Tính tổng giá trị kim cương theo "cut" và "color"
g <- diamonds %>%
  group_by(color, cut) %>%
  summarise(total_price = sum(price))

# Vẽ biểu đồ bar chart
ggplot(g, aes(x = color, y = total_price, fill = cut)) +
  geom_bar(stat = 'identity') +
  labs(title = 'Hình 24: Số lượng kim cương theo tổng giá trị biến color của từng loại giác cắt', x = 'Màu sắc', y = 'Tổng Giá trị') +
  scale_fill_brewer(palette = 'Set2')  # Sử dụng màu từ bảng màu Brewer

```

Biểu đồ *(Hình 24)* tương tự như biểu đồ *(Hình 23)* và *(Hình 22)*, tuy nhiên ưu điểm của loại này là chỉ có một biểu đồ có các cột chồng lên nhau thay vì chia nhỏ ra thành nhiều biểu đồ. Thuận tiện cho việc quan sát và so sánh.

### **3.4. Tổng giá trị theo phân loại và màu sắc** 

```{r}
ggplot(diamonds, aes(x = color, fill = clarity)) +
  geom_bar(position = 'stack') +
  labs(title = 'Hình 25: Tổng giá trị theo phân loại và màu sắc', x = 'Loại', y = 'Tổng giá trị')
```
Với *(Hình 25)* ta nhận xét rằng:

* Độ trong suốt là **IF** (trong suốt) vì rất khó điều chế nên mức độ phân bố của chúng vô cùng ít, với **màu D** và **màu J** gần như là không có, tập trung phân bố cao ở **màu G**.

* Độ trong suốt là **SI1, SI2, VS1, VS2** rải rác ở các màu có độ phân bố gần như là đều nhau.

* Độ trong suốt là **VVS1, VVS2** cũng rải rác ở các màu có độ phân bố gần như là đều nhau.

## **4. Phân tích theo biến clarity (độ trong suốt)**

### **Số lượng viên kim cương theo độ trong suốt của từng loại màu**

```{r}
a %>% group_by(cut,color) %>% summarise(m = mean(price)) %>%
  ggplot(aes(x = cut,y = m)) +
    geom_col(fill = 'gold') +
    facet_wrap(~color) +
    geom_text(aes(label = round(m)), vjust = 2, color = 'red') +
    labs(title = 'Hình 26: Số lượng viên kim cương theo độ trong suốt của từng loại màu', x = 'Loại', y = 'Số lượng')
```

Các nhóm màu sắc được biểu diễn dưới dạng các nhóm con, và trên mỗi cột, có nhãn hiển thị giá trị trung bình giá làm tròn. Biểu đồ này giúp thấy rõ sự phân bố của giá trị trung bình giá của kim cương trong các nhóm độ trong suốt và màu sắc khác nhau.


## **5. Phân tích theo biến price (giá cả)**

### **5.1. Trung bình mức giá của từng loại màu theo độ trong suốt**

```{r}
a %>% group_by(clarity,color) %>% summarise(m = mean(price)) %>%
  ggplot(aes(x = clarity,y = m)) +
    geom_col(fill = 'yellowgreen') +
    facet_wrap(~color) +
    labs(title = 'Hình 27: Trung bình mức giá của từng loại màu theo độ trong suốt', x = 'Giác cắt', y = 'Trung bình giá')
```

Với *(Hình 27)* ta thấy rằng;

* Độ trong suốt **IF** không tạp chất ở **màu D** có trung bình giá cao vượt trội, áp đảo hơn những loại kim cương khác.

* Hầu hết từng độ trong suốt ở các màu của viên kim cương đều có trung bình giá xêm xêm nhau, không chệnh lệch quá nhiều.

### **5.2. Giá trung bình của từng loại giác cắt**

```{r}
ggplot(diamonds, aes(x = cut, y = price)) +
  geom_bar(stat = 'summary', fun = 'mean', fill = 'orange') +
  labs(title = 'Hình 28: Giá trung bình của từng loại giác cắt', x = 'Giác cắt', y = 'Giá trung bình')
```

Kết quả trả về cho chúng ta thấy,

* Loại **Premium** có trung bình giá cao nhất với giá trị trung bình hơn 4500.

* Loại **Fair** có trung bình giá cao thứ 2 với giá trị trung bình xấp xĩ gần bằng 4500.

* Loại **Good** và **very good** có trung bình giá trị cao thứ 3, đều có giá trị trung bình xấp xĩ bằng 4000.

* Loại **Ideal** có trung bình giá trị thấp nhát, giá trị trung bình bằng 3500.

```{r}
ggplot(diamonds, aes(x = cut, fill = cut, y = price)) +                                  
  geom_bar(stat = 'summary', fun = 'mean', position = 'dodge') +
  labs(title = 'Hình 29: Giá trung bình của từng loại giác cắt (đa màu sắc)', x = 'Giác cắt', y = 'Giá trung bình')      
```

Biểu đồ *(Hình 28)* và *(Hình 29)* có cùng một cấu trúc cơ bản, nhưng biểu đồ *(Hình 29)* được thiết kế với một góc thẩm mỹ cao hơn, nhấn mạnh vào sự trực quan và dễ hiểu. Sự chú ý đặc biệt được đặt vào việc tạo điểm nhấn và sự đồng nhất trong màu sắc, giúp biểu đồ trở nên hấp dẫn và dễ theo dõi.

### **5.3. So sánh giá kim cương giữa các loại màu sắc và giác cắt**

```{r}
ggplot(diamonds, aes(x = cut, fill = color, y = price)) +
  geom_bar(stat = 'summary', fun = 'mean', position = 'dodge') +
  labs(title = 'Hình 30: So sánh giá kim cương giữa các loại màu sắc và giác cắt', x = 'Loại', y = 'Giá') +
  scale_fill_brewer(palette = 'Set4') 
```

=> Biểu đồ cột so sánh giá kim cương giữa các loại màu sắc và giác cắt. Mỗi cột biểu diễn giá trung bình của kim cương trong từng loại màu sắc, được phân chia theo giác cắt, với màu sắc của cột được đặc trưng bởi loại màu sắc.









