GIỚI THIỆU

Bộ dữ liệu DIAMONS là bộ dữ liệu nằm trong packages tidyverse với hơn 50000 quan sát và 10 biến cho ta biết đầy đủ thông tin về các loại kim cương Và dưới đây là các biểu đồ biểu diễn những thông tin của bộ dữ liệu để dễ dàng thống kê và phân tích

library(ggplot2)
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ lubridate 1.9.3     ✔ tibble    3.2.1
## ✔ purrr     1.0.2     ✔ tidyr     1.3.0
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(scales)
## 
## Attaching package: 'scales'
## 
## The following object is masked from 'package:purrr':
## 
##     discard
## 
## The following object is masked from 'package:readr':
## 
##     col_factor
nth <- diamonds

I. Phân tích giá cả trung bình của một số loại kim cương

1. Hình 1.1: Biểu đồ thể hiện mức giá trung bình của kim cương có độ trong suốt VVS1 theo màu

Kim cương có độ trong suốt VVS1 khá ổn định với mức giá trung bình giữa các màu chênh lệch nhau không quá lớn nhưng so mức giá trung bình thấp nhất và cao nhất cũng còn khoảng cách khá xa (gần hai lần)

nth2 <- nth %>% group_by(color,clarity) %>% summarise(n = n(),meanP = mean(price),.groups = 'drop')
nth2 %>% ggplot(aes(x= color, y= meanP)) + geom_col(data = nth2 %>% filter(clarity == 'VVS1'), fill = 'purple')

2. Hình 1.2: Biểu đồ thể hiện mức giá trung bình của kim cương có độ trong suốt SI1 theo màu

Kim cương có độ trong suốt SI1 với mức giá giữa các màu có sự chênh lệch khá lớn , với màu I có mức giá trung bình cao nhất (hơn 5000) gần gấp đôi mức giá trung bình của kim cương có độ trong suốt thấp nhất màu D

nth2 %>% ggplot(aes(x= color, y= meanP)) + geom_col(data = nth2 %>% filter(clarity == 'SI1'), fill = 'yellow')

3. Hình 1.3: Biểu đồ thể hiện mức giá trung bình của kim cương có độ trong suốt IF theo màu

Màu D có mức giá trung bình cao đột biến so với tất cả các màu còn lại, cao hơn gấp từ hai đến ba lần

nth2 %>% ggplot(aes(x= color, y= meanP)) + geom_col(data = nth2 %>% filter(clarity == 'IF'), fill = 'darkcyan')

4. Hình 1.4: So sánh ba biểu đồ kim cương trên

Từ ba biểu đồ trên ta có thể thấy được mức giá trung bình của các loại kim cương khác nhau, để tìm hiểu rõ hơn sự thay đổi trong giá cả đối với các loại kim cương khác nhau ta so sánh ba biểu đồ trên: Cụ thể

  • Kim cương có độ trong suốt VVS1 nhìn chung có mức giá trung bình thấp hơn so với các loại khác nhưng khá ổn định giữa các màu

  • Kim cương có độ trong suốt IF màu D có mức giá cao nhất trong các loại, cao hơn gấp hai đến ba lần so với các loại khác, nhưng cũng là kim cương có độ trong suốt IF mà các màu khác thì mức giá trung bình lại thấp nhất trong các loại

  • Kim cương có độ trong suốt SI1 là oại có mức giá cao và ổn định giữa các màu.

nth3 <- nth %>% group_by(color,clarity) %>% summarise(meanP = mean(price), .groups = 'drop') %>% mutate(clarity= factor(clarity, levels = c("VVS1", "IF", "SI1")))

nth3 %>% ggplot(aes(x= color, y= meanP, fill= clarity)) + geom_col(position = position_dodge())

II. Khối lượng carat trung bình của kim cương theo các yếu tố các nhau

1. Hình 2.1: Biểu đồ khối lượng carat trung bình theo chất lượng chế tác

Khối lượng carat trung bình của mỗi viên kim cương được tổng hợp dưới đây theo chất lượng chế tác của chúng, cụ thể: với chất lượng Fair khối lượng carat trung bình mỗi viên là 1.05, chất lượng Good khối lượng carat trung bình mỗi viên là 0.85, với chất lượng Very Good khối lượng carat trung bình mỗi viên là0.81, với chất lượng Prenium khối lượng carat trung bình mỗi viên là0.89, với chất lượng Ideal khối lượng carat trung bình mỗi viên 0.7

nth %>% group_by(cut) %>% summarise(m= mean(carat)) %>%
  ggplot(aes(x = cut,y = m)) +
    geom_col(fill='black') +
    geom_text(aes(label = round(m,2)), vjust = 2, color = 'green') +
    labs(x = 'Loại', y = 'Mean')

2. Hình 2.2: Biểu đồ khối lượng carat trung bình theo màu

Mỗi loại màu của kim cương có khối lượng carat khác nhau tùy loại. Qua biểu đồ dưới ta thấy khối lượng carat trung bình của viên kim cương màu J lớn nhất 1.16 carat và màu có khối lượng carat bé nhất là màu D và E: 0.66 carat

nth %>% group_by(color) %>% summarise(m= mean(carat)) %>%
  ggplot(aes(x = color,y = m)) +
    geom_col(fill='black') +
    geom_text(aes(label = round(m,2)), vjust = 2, color = 'green') +
    labs(x = 'Color', y = 'Mean')

3. Hình 2.3: Biểu đồ khối lượng carat trung bình theo độ trong suốt

Độ trong suốt của kim cương được chia làm 8 loại khác nhau và theo độ trong suốt mỗi loại có khối lượng carat trung bình được biểu diễn bằng biểu đồ dưới đây cụ thể: khối lượng carat trung bình của kim cương có độ trong suốt I1 cao nhất với 1.28, kim cương có độ trong suốt VVS1 thấp nhất với khối lượng carat trung binh là 0.5

nth %>% group_by(clarity) %>% summarise(m= mean(carat)) %>%
  ggplot(aes(x = clarity,y = m)) +
    geom_col(fill='black') +
    geom_text(aes(label = round(m,2)), vjust = 2, color = 'green') +
    labs(x = 'Độ trong suốt', y = 'Mean')

III. Tổng hợp số lượng kim cương theo các biến khác nhau

1. Hình 3.1: Biểu đồ thể hiện số lượng kim cương theo màu

Qua biểu đồ dưới ta có thể tổng hợp được tất cả số lượng kim cương theo các loại màu khác nhau trong đó: cột cao nhất là kim cương có màu G tức màu G có số lượng kim cương nhiều nhất với hơn 10500 đv; cột thấp nhất là kim cương có màu J tức màu J có số lượng ít nhất với gần 3000 đv.

nth %>% ggplot(aes(x = color)) +
    geom_bar() +
    labs(x = 'Loại ', y = 'Số lượng' )+
    coord_flip()

Cũng như loại biểu đồ trên biểu đồ dưới đây tổng hợp số lương kim cương theo từng loại màu khác nhau nhưng với câu lệnh này ta có thể thông tin chi tiết về từng số lương kim cương như sau: kim cương màu G có số lượng nhiều nhất 11292 đv; kim cương màu J có số lượng ít nhất 2808.

nth %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(color,n)) +
    geom_col(fill='orange') +
    geom_text(aes(label = n),vjust = 2, color = 'black') +
    labs(x = 'loại  ', y = 'Số lượng')

2. Hình 3.2: Biểu đồ thể hiện số lượng kim cương theo chất lượng chế tác

Qua biểu đồ dưới ta có thể tổng hợp được tất cả số lượng kim cương theo chất lượng chế tác khác nhau cụ thể: số lượng kim cương tăng dần theo mức độ chất lượng từ thấp đến cao, cột cao nhất với chất lượng Ideal có hơn 20000 đv kim cương; cột thấp nhất với chất lượng Fair có gần 2500 đv kim cương.

nth %>% ggplot(aes(x = cut)) +
    geom_bar() +
    labs(x = 'Loại', y = 'Số lượng')+
    coord_flip()

Cũng như loại biểu đồ trên biểu đồ dưới đây tổng hợp số lương kim cương theo chất lương chế tác nhưng với câu lệnh này ta có thể thông tin chi tiết về từng số lương kim cương như sau: kim cương có chất lượng Fair, Good, Very Good, Prenium, Ideal có số lượng lần lượt là 1610, 4906, 12082, 13791, 21551.Với số lượng tỉ lệ thuận với chất lượng chế tác của kim cương

nth %>% group_by(cut ) %>% summarise(n = n()) %>%
  ggplot(aes(cut,n)) +
    geom_col(fill='orange') +
    geom_text(aes(label = n),vjust = 2, color = 'black') +
    labs(x = 'loại ', y = 'Số lượng')

3. Hình 3.3: Biểu đồ thể hiện số lượng kim cương theo độ trong suốt

Qua biểu đồ dưới đây ta tổng hợp được số lượng kim cương theo mức độ trong suốt từng loại cụ thể: kim cương loại Sl1 có số lương cao nhất với hơn 15000 đv, kim cương loại I1 thấp nhất với gần 1250 đv.

nth %>% ggplot(aes(x = clarity)) +
    geom_bar() +
    labs(x = 'Loại', y = 'Số lượng') +
    coord_flip()

Cũng như loại biểu đồ trên biểu đồ dưới đây tổng hợp số lương kim cương theo độ trong suốt nhưng với câu lệnh này ta có thể thông tin chi tiết về từng số lương kim cương như sau: kim cương có độ trong suốt Sl1 có số lượng nhiều nhất 13065 đv và kim cương có độ trong suốt I1 có số lượng ít nhất 741 đv.

nth %>% group_by(clarity ) %>% summarise(n = n()) %>%
  ggplot(aes(clarity,n)) +
    geom_col(fill='orange') +
    geom_text(aes(label = n),vjust = 2, color = 'black') +
    labs(x = 'Loại ', y = 'Số lượng')

IV. Phần trăm lượng kim cương theo các loại kim cương khác nhau

1. Hình 4.1 Biểu đồ tỉ lệ phần trăm kim cương theo màu

Biểu đồ dưới đây thể hiện tỉ lệ phần trăm số lượng kim cương theo màu cụ thể: kim cương màu D chiếm 12.56%, kim cương màu E chiếm 18.16.%, kim cương màu F chiếm 17.69%, kim cương màu G chiếm 20.93%, kim cương màu H chiếm 15.39%, kim cương màu I chiếm 10.05%, kim cương màu J chiếm thấp nhất 5.21%

nth %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(color,n)) +
    geom_col(fill='dark blue') +
    geom_text(aes(label = percent(n/length(nth$carat))),vjust = 2, color = 'white') +
    labs(x = 'Loại', y = 'Số lượng')

2. Hình 4.2 Biểu đồ tỉ lệ phần trăm kim cương theo chất lượng chế tác

Biểu đồ dưới đây thể hiện tỉ lệ phần trăm số lượng kim cương theo chất lượng chế tác cụ thể: chiếm tỉ lệ cao nhất là số lương kim cương có chất lượng chế tác Ideal với 40%, thấp nhất là tỉ lệ số lượng kim cương có chất lượng chế tác fair 3%

nth %>% group_by(cut) %>% summarise(n = n()) %>%
  ggplot(aes(cut,n)) +
    geom_col(fill='dark blue') +
    geom_text(aes(label = percent(n/length(nth$carat))),vjust = 2, color = 'white') +
    labs(x = 'Loại', y = 'Số lượng')

3. Hình 4.3 Biểu đồ tỉ lệ phần trăm kim cương theo độ trong suốt

Biểu đồ dưới đây thể hiện tỉ lệ phần trăm số lượng kim cương theo độ trong suốt cụ thể: kim cương có độ trong suốt Sl1 cao nhất chiếm 24.2 %, và kim cương có độ trong suốt thấp nhất chỉ chiếm 1.4%

nth %>% group_by(clarity) %>% summarise(n = n()) %>%
  ggplot(aes(clarity,n)) +
    geom_col(fill='dark blue') +
    geom_text(aes(label = percent(n/length(nth$carat))),vjust = 2, color = 'white') +
    labs(x = 'Loại', y = 'Số lượng')

V. So sánh số lượng giữa các loại kim cương ngẫu nhiên

1. Hình 5.1: Biểu đồ so sánh số lượng kim cương theo chất tác có màu D và J

Qua biểu đồ ta thấy có sự chênh lệch khá lớn giữa hai màu kim cương ,cột màu vàng là kim cương màu D có số lượng gấp đôi kim cương màu J là cột màu đen theo từng laoij kim cương có độ chế tac khác nhau.

th <- nth %>% group_by(cut, color) %>% summarise(n = n(),.groups='drop')
th %>% ggplot(aes(x = cut, y = n)) + 
  geom_col(data = th %>% filter(color == 'D'), fill = 'yellow') +
  geom_col(data = th %>% filter(color == 'J'), fill = 'black')

2. Hình 5.2: Biểu đồ so sánh số lượng kim cương theo chất lượng chế tác có độ trong suốt VS2 và IF

Biểu đồ dưới đây thể hiện hai loại kim cương khác nhau: cột màu vàng thể hiện kim cương có độ trong suốt VS2, cột màu đen thể hiện kim cương có độ trong suốt IF được thống kê theo chất lương chế tác

Quan sát biểu đồ cho ta thấy rõ sự cách biệt lớn về số lượng của hai loại kim cương trên: kim cương có độ trong suốt VS2 có số lương gấp 6 đến 8 lần so với số lượng kim cương có độ trong suốt IF => chứng tỏ trên thị trường loại kim cương có độ trong suốt IF không đc phổ biến chiếm thị phần nhỏ trên tổng số.

th1 <- nth %>% group_by(cut, clarity) %>% summarise(n = n(),.groups='drop')
th1 %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = th1 %>% filter(clarity == 'VS2'), fill = 'yellow') +
  geom_col(data = th1 %>% filter(clarity == 'IF'), fill = 'black')

3. Hình 5.3: Biểu đồ so sánh số lượng kim cương theo màu có độ trong suốt VS1 và VS2

Theo các màu kim cương thống kê dưới đây cho thấy sự so sánh giữa hai loại kim cương có độ trong suốt VS1 và VS2.

So với các loại kim cương so sánh trước thì hai loại này có sự chênh lệch nhưng không cao . Giữa các màu khác nhau số lượng cũng khá đồng đều cả hai loại VS1 và VS2.

th2 <- nth %>% group_by(clarity, color) %>% summarise(n = n(), .groups='drop')
th2 %>% ggplot(aes(x = color, y = n)) +
  geom_col(data = th2 %>% filter(clarity == 'VS2'), fill = 'yellow') +
  geom_col(data = th2 %>% filter(clarity == 'VS1'), fill = 'black')

VI. So sánh theo nhóm kim cương theo số lượng

1. Hình 6.1: Biểu đồ so sánh nhóm kim cương theo màu và chất lượng chế tác

Bằng các câu lệnh dưới ta có nhóm biểu đồ thể hiện số lượng kim cương theo từng loại chế tác khác nhau từ đó có thể dễ dàng quan sát so sánh giữa các màu của loại chế tác này với màu của loại chế tác kia

nth %>% group_by(cut,color) %>% summarise(n=n(),.groups = 'drop') %>%
  ggplot(aes(x = color,y = n)) +
    geom_col(fill="pink") +
    facet_wrap(~cut) +
    labs(x = 'Loại', y = 'Số lượng')

Cũng như biểu đồ trên biểu đồ dưới đây cũng giúp ta quan sát và so sánh những vần đề trên nhưng với câu lệnh geom_text(aes(label = n),vjust = 2, color = ‘white’) ta có thể thấy rõ số liệu một cách cụ thể.

nth %>% group_by(cut,color) %>% summarise(n=n(),.groups = 'drop') %>%
  ggplot(aes(x = color,y = n)) +
    geom_col( fill= 'brown') +
    facet_wrap(~cut) +
    geom_text(aes(label = n),vjust = 2, color = 'white') +
    labs(x = 'Loại', y = 'Số lượng')

2. Hình 6.2: Biểu đồ so sánh nhóm kim cương theo độ trong suốt và chất lượng chế tác

Bằng các câu lệnh dưới ta có nhóm biểu đồ thể hiện số lượng kim cương theo từng loại chế tác khác nhau từ đó có thể dễ dàng quan sát so sánh giữa các loại độ trong suốt kim cương của loại chế tác này với các loại độ trong suốt của loại chế tác kia

nth %>% group_by(cut,clarity) %>% summarise(n=n(),.groups = 'drop') %>%
  ggplot(aes(x = clarity,y = n)) +
    geom_col(fill="pink") +
    facet_wrap(~cut) +
    labs(x = 'Loại', y = 'Số lượng')

Cũng như biểu đồ trên biểu đồ dưới đây cũng giúp ta quan sát và so sánh những vần đề trên nhưng với câu lệnh geom_text(aes(label = n),vjust = 2, color = ‘white’) ta có thể thấy rõ số liệu một cách cụ thể.

nth %>% group_by(clarity,cut) %>% summarise(n=n(),.groups = 'drop') %>%
  ggplot(aes(x = clarity,y = n)) +
    geom_col( fill= 'brown') +
    facet_wrap(~ cut) +
    geom_text(aes(label = n),vjust = 2, color = 'white') +
    labs(x = 'Loại', y = 'Số lượng')

3. Hình 6.3: Biểu đồ so sánh nhóm kim cương theo màu và độ trong suốt

Bằng các câu lệnh dưới ta có nhóm biểu đồ thể hiện số lượng kim cương theo từng loại trong suốt khác nhau từ đó có thể dễ dàng quan sát so sánh giữa các màu của loại trong suốt này với màu của loại trong suốt kia

nth %>% group_by(clarity,color) %>% summarise(n=n(),.groups = 'drop') %>%
  ggplot(aes(x = color,y = n)) +
    geom_col(fill="pink") +
    facet_wrap(~clarity) +
    labs(x = 'Loại', y = 'Số lượng')

Cũng như biểu đồ trên biểu đồ dưới đây cũng giúp ta quan sát và so sánh những vần đề trên nhưng với câu lệnh geom_text(aes(label = n),vjust = 2, color = ‘white’) ta có thể thấy rõ số liệu một cách cụ thể.

nth %>% group_by(clarity,color) %>% summarise(n=n(),.groups = 'drop') %>%
  ggplot(aes(x = color,y = n)) +
    geom_col( fill= 'brown') +
    facet_wrap(~clarity) +
    geom_text(aes(label = n),vjust = 2, color = 'white') +
    labs(x = 'Loại', y = 'Số lượng')

VII. So sánh nhóm kim cương theo mức giá trung bình

1. Hình 7.1: biểu đồ so sánh nhóm kim cương (màu và chất lượng chế tác)

Biểu đồ nhóm sau là thống kê mức giá trung bình của từng loại kim cương chế tác theo tất cả các màu có đầy đủ số liệu trên từng biểu đồ

nth %>% group_by(cut,color) %>% summarise(m = mean(price),.groups = 'drop') %>%
  ggplot(aes(x = color,y = m)) +
    geom_col(position = 'dodge') +
    facet_wrap(~cut ) +
    geom_text(aes(label = round(m))) +
    labs(x = 'Color ', y = 'Số lượng')

2. Hình 7.2: biểu đồ so sánh nhóm kim cương (độ trong suốt và chất lượng chế tác)

Biểu đồ nhóm sau là thống kê mức giá trung bình của từng loại kim cương chế tác theo tất cả các độ trong suốt có đầy đủ số liệu trên từng biểu đồ

nth %>% group_by(cut,clarity) %>% summarise(m = mean(price), .groups = 'drop') %>%
  ggplot(aes(x = clarity,y = m)) +
    geom_col(position = 'dodge') +
    facet_wrap(~cut ) +
    geom_text(aes(label = round(m))) +
    labs(x = 'clarity ', y = 'Số lượng')

3. Hình 7.3: biểu đồ so sánh nhóm kim cương (màu và độ trong suốt )

Biểu đồ nhóm sau là thống kê mức giá trung bình của từng loại kim cương có độ trong suốt khác nhau theo tất cả các màu có đầy đủ số liệu trên từng biểu đồ

nth %>% group_by(clarity,color) %>% summarise(m = mean(price), .groups='drop') %>%
  ggplot(aes(x = color,y = m)) +
    geom_col(position = 'dodge') +
    facet_wrap(~clarity) +
    geom_text(aes(label = round(m))) +
    labs(x = 'Color ', y = 'Số lượng')

VIII. Phân tích số lượng kim cương theo mức giá và khối lượng carat

1. Hình 8.1: BIểu đồ phân tích số lượng kim cương theo mức giá

Biểu đồ sau giúp ta phân chia khối lượng carat của kim cương thành 5 loại khác nhau theo mức độ từ bé đến lớn đồng thời từ đó thống kê số lượng theo nhóm cừa chia. Cụ thể: đối với các loại kim cương có khối lượng carat nhỏ nhất lại chiếm thị phần lớn nhất trong tổng số kim cương đặc biệt với hai loại là lớn và rất lớn lại không có trên thống kê.

Như vậy trên thị tường hiện nay thống kê số kim cương có khối lượng carat nhỏ khá phổ biến nhưng loại khối lượng carat lớn lại rất hiếm và hầu như không có.

nt <-nth %>% mutate(Carat = cut(carat,5, label = c('rất nhỏ', 'nhỏ','vừa','lớn','rất lớn')))
nt %>% ggplot(aes(x = Carat)) +
  geom_bar(fill = 'purple')

2. Hình 8.2: BIểu đồ phân tích số lượng kim cương theo mức giá

Với những câu lệnh sau ta có thể phân bổ mức gia thành 5 mức độ tăng dần và mỗi mức độ dưới đây đều được thống kê lại với số lượng khác nhau. Cụ thể: mức giá rất nhỏ chiếm phần lớn số lượng kim cương trên thị trường còn với mức giá lớn và rất lớn số lượng kim cương hiếm chiếm tỉ trọng rất nhỏ trên tổng số

nt1 <- nth %>% mutate(Price = cut(price,5, label = c('rất thấp ', 'thấp','tb','cao','rất cao')))
nt1 %>% ggplot(aes(x = Price)) +
  geom_bar(fill = 'purple')

