GIỚI THIỆU

Bộ dữ liệu DIAMONS là bộ dữ liệu nằm trong packages tidyverse với 53940 quan sát và 10 biến về các

loại kim cương

Các biến bao gồm:

carat: Trọng lượng của kim cương.

cut: Loại cắt của kim cương (Fair, Good, Very Good, Premium, Ideal).

color: Màu sắc của kim cương, được mã hóa từ D (tốt nhất) đến J (kém nhất).

clarity: Độ trong suốt của kim cương (IF, VVS1, VVS2, VS1, VS2, SI1, SI2, I1).

depth: Độ sâu của kim cương, được đo từ mặt bên dưới đến mặt trên, chia cho chiều dài.

table: Chiều rộng của mặt bên trên của kim cương so với điểm cắt, chia cho chiều rộng lớn nhất.

price: Giá của kim cương (đơn vị: USD).

x: Chiều dài của kim cương (đơn vị: mm).

y: Chiều rộng của kim cương (đơn vị: mm).

z: Chiều sâu của kim cương (đơn vị: mm).

Và dưới đây là các biểu đồ biểu diễn những thông tin của bộ dữ liệu để dễ dàng thống kê và phân tích

library(ggplot2)
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ lubridate 1.9.3     ✔ tibble    3.2.1
## ✔ purrr     1.0.2     ✔ tidyr     1.3.0
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(scales)
## 
## Attaching package: 'scales'
## 
## The following object is masked from 'package:purrr':
## 
##     discard
## 
## The following object is masked from 'package:readr':
## 
##     col_factor
p <- diamonds

I. Tổng hợp số lượng kim cương theo các biến khác nhau

1. Hình 1.1: Biểu đồ thể hiện số lượng kim cương theo chất lượng

p %>% ggplot(aes(x = cut)) +
    geom_bar() +
    labs(x = 'Loại', y = 'Số lượng')+
    coord_flip()

Biểu đồ trên ta có thể thấy được: số lượng kim cương tăng dần theo mức độ chất lượng từ thấp đến cao, cột cao nhất với chất lượng Ideal có hơn 20000 đơn vị kim cương; cột thấp nhất với chất lượng Fair chiếm khoảng 2300 đơn vị

2. Hình 1.2

p %>% group_by(cut ) %>% summarise(n = n()) %>%
  ggplot(aes(cut,n)) +
    geom_col(fill='orange') +
    geom_text(aes(label = n),vjust = 2, color = 'yellow') +
    labs(x = 'Loại ', y = 'Số lượng')

Cũng như loại biểu đồ trên biểu đồ dưới đây tổng hợp số lương kim cương theo chất lương nhưng được cụ thể hơn:

  • Kim cương có chất lượng Fair thấp nhất chiếm 1610
  • Chất lượng Good chiếm 4906
  • Chất lượng Very Good chiếm 12082
  • Chất lượng Premium chiếm 13791 và cuối cùng vị trí cao nhất là Ideal chiếm 21551 đơn vị

3. Hình 1.3: Biểu đồ thể hiện số lượng kim cương theo độ trong suốt

p %>% ggplot(aes(x = clarity)) +
    geom_bar() +
    labs(x = 'Loại', y = 'Số lượng') +
    coord_flip()

Qua biểu đồ ta thấy được số lượng kim cương theo từng loại cụ thể:

  • Kim cương loại SI1 có số lương cao nhất khoảng hơn 15000 đơn vị
  • Kim cương loại I1 thấp nhất chiếm khoảng 1200 đơn vị.

4. Hình 1.4

p %>% group_by(clarity ) %>% summarise(n = n()) %>%
  ggplot(aes(clarity,n)) +
    geom_col(fill='salmon') +
    geom_text(aes(label = n),vjust = 2, color = 'navy') +
    labs(x = 'Loại ', y = 'Số lượng')

Biểu đồ 1.4 cho ta thấy kim cương có độ trong suốt cụ thể:

  • I1 thấp nhất chiếm 741 đơn vị, SI2 chiếm 9194 đơn vị
  • SI1 cao nhất chiếm 13065 đơn vị, VS2 chiếm 12258
  • VS1 chiếm 8171, VVS2 chiếm 5066
  • VVS1 chiếm 3655, IF chiếm 1790

II. Khối lượng carat trung bình của kim cương

1. Hình 2.1: Biểu đồ khối lượng carat trung bình theo chất lượng

p %>% group_by(cut) %>% summarise(m= mean(carat)) %>%
  ggplot(aes(x = cut,y = m)) +
    geom_col(fill='pink') +
    geom_text(aes(label = round(m,2)), vjust = 2, color = 'red') +
    labs(x = 'Loại', y = 'Mean')

Biểu đồ 2.1 thể hiện khối lượng carat trung bình của các viên kim cương theo chất lượng được cụ thể:

  • Chất lượng Fair khối lượng carat trung bình cao nhất là 1.05
  • Chất lượng Good khối lượng carat trung bình là 0.85
  • Chất lượng Very Good khối lượng carat trung bình là 0.81
  • Chất lượng Premium khối lượng carat trung bình là 0.89; cuối cùng chất lượng Ideal khối lượng carat trung bình thấp nhất là 0.7

2. Hình 2.2: Biểu đồ khối lượng carat trung bình theo độ trong suốt

p %>% group_by(clarity) %>% summarise(m= mean(carat)) %>%
  ggplot(aes(x = clarity,y = m)) +
    geom_col(fill='orchid') +
    geom_text(aes(label = round(m,2)), vjust = 2, color = 'brown') +
    labs(x = 'Độ trong suốt', y = 'Mean')

Độ trong suốt của kim cương có khối lượng carat trung bình được biểu diễn bằng số liệu cụ thể:

  • Kim cương có độ trong suốt I1 cao nhất với khối lượng carat trung bình là 1.28
  • SI2 có khối lượng carat trung bình là 1.08
  • VS2 có khối lượng trung bình là 0.76
  • VS1 có khối lượng trung bình là 0.73
  • VVS2 có khối lượng trung bình là 0.6
  • Kim cương có độ trong suốt VVS1 thấp nhất với khối lượng carat trung bình là 0.5. Cuối cùng là IF chiếm 0.51

3. Hình 2.3: Biểu đồ khối lượng carat trung bình theo màu

p %>% group_by(color) %>% summarise(m= mean(carat)) %>%
  ggplot(aes(x = color,y = m)) +
    geom_col(fill='yellow') +
    geom_text(aes(label = round(m,2)), vjust = 2, color = 'black') +
    labs(x = 'Color', y = 'Mean')

Biểu đồ 2.3 cho thấy khối lượng carat trung bình theo màu J cao nhất chiếm 1.16, khối lượng carat trung bình D và E thấp nhất chiếm 0.66

4. Hình 2.4: Biểu đồ khối lượng carat trung bình theo chiều sâu vết cắt

p %>% group_by(depth) %>% summarise(n = n()) %>%
  ggplot(aes(depth,n)) +
    geom_col(fill='blue') +
    labs(x = 'Loại', y = 'Số lượng')

III. Phân tích biểu đồ chỉ phần trăm số lượng theo biến cut

1. Hình 3.1

p %>% group_by(cut) %>% summarise(n = n()) %>%
  ggplot(aes(cut,n)) +
    geom_col(fill='salmon') +
    geom_text(aes(label = percent(n/length(p$carat))),vjust = 2, color = 'black') +
    labs(x = 'Loại', y = 'Số lượng')

  • Fair : 3% (chiếm tỉ trọng nhỏ nhất)
  • Good : 9,1%
  • Very Good : 22,4%
  • Premium : 25,6%
  • Ideal : 40% (chiếm tỉ trọng lớn nhất )

2. Hình 3.2: Phân tích biểu đồ chỉ phần trăm số lượng theo biến color

p %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(color,n)) +
    geom_col(fill='pink') +
    geom_text(aes(label = percent(n/length(p$carat))),vjust = 2, color = 'red') +
    labs(x = 'Màu sắc', y = 'Số lượng')

Biểu đồ trên được chia theo biến ‘color’và gồm 7 loại lần lượt là ’D’,‘E’,‘F’,‘G’,‘H’,‘I’,‘G’ trục tung là số lượng kim cương ở từng loại . Từ đồ thị ta thấy được tỉ trọng của từng loại kim cương :

  • D : 12,56%
  • E : 18,16%
  • F : 17,69%
  • G : 20,93%
  • H : 15,39% (chiếm tỉ trọng lớn nhất )
  • I : 10,05%
  • J : 5,21% (chiếm tỉ trọng nhỏ nhất)

3. Hình 3.3: Phân tích đồ biểu đồ chỉ phần trăm số lượng theo biến clarity

p %>% group_by(clarity) %>% summarise(n = n()) %>%
  ggplot(aes(clarity,n)) +
    geom_col(fill='yellow') +
    geom_text(aes(label = percent(n/length(p$carat))),vjust = 2, color = 'red') +
    labs(x = 'Màu sắc', y = 'Số lượng')

Trục tung thể hiện cột số lượng

Trục hoành (màu sắc) gồm I1,SI2,SI1,VS2,VS1,VVS2,VVS1,IF là độ trong suốt của viên kim cương

Các cột thể hiện phần trăm sồ lượng từng loại trên tổng số kim cương

Biểu đồ 3.3 cho ta thấy kim cương loại:

  • I1 chiếm % thấp nhất là 1.4%
  • SI2 chiếm 17%
  • SI1 cao nhất chiếm 24.2%
  • VS2 chiếm 22.7%
  • VS1 chiếm 15.1%
  • VVS2 chiếm 9.4%
  • VVS1 chiếm 6.8%
  • IF chiếm 3.3%

IV. So sánh số lượng giữa các loại kim cương ngẫu nhiên

1. Hình 4.1: Biểu đồ so sánh số lượng kim cương theo chất tác có màu D và J

p3 <- p %>% group_by(cut, color) %>% summarise(n = n()) 
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
p3 %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = p3 %>% filter(color == 'D'), fill = 'red') +
  geom_col(data = p3 %>% filter(color == 'J'), fill = 'blue')

Trục tung (n) thể hiện số lượng kim cương

Trục hoành (cut) thể hiện chất lượng gồm Fair,Good,Very Good,Premium,Ideal

Cột màu đỏ thể hiện màu D

Cột màu xanh thể hiện màu J

Qua biểu đồ ta thấy có sự chênh lệch khá lớn giữa hai màu kim cương ,cột màu đỏ là kim cương màu D có số lượng gấp đôi kim cương màu J là cột màu xanh

2. Hình 4.2: Biểu đồ so sánh số lượng kim cương theo chất lượng chế tác có độ trong suốt VS2 và I1

p1 <- p %>% group_by(cut, clarity) %>% summarise(n = n()) 
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
p1 %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = p1 %>% filter(clarity == 'VS2'), fill = 'yellow') +
  geom_col(data = p1 %>% filter(clarity == 'I1'), fill = 'red')

Trục tung (n) số lượng

Trục hoành (cut) gồm Fair,Good,Very Good,Premium,Ideal

Biểu đồ thể hiện hai loại kim cương khác nhau: cột màu vàng thể hiện kim cương có độ trong suốt VS2, cột màu đỏ thể hiện kim cương có độ trong suốt I1 được thống kê theo chất lương chế tác

Quan sát biểu đồ cho ta thấy rõ sự cách biệt lớn về số lượng của hai loại kim cương trên: kim cương có độ trong suốt VS2 có số lương gấp nhiều lần so với số lượng kim cương có độ trong suốt I1 => chứng tỏ trên thị trường loại kim cương có độ trong suốt I1 không đc phổ biến chiếm thị phần nhỏ trên tổng số.

3. Hình 4.3: Biểu đồ so sánh số lượng kim cương theo màu có độ trong suốt SI1 và VVS1

p2 <- p %>% group_by(clarity, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'clarity'. You can override using the
## `.groups` argument.
p2 %>% ggplot(aes(x = color, y = n)) +
  geom_col(data = p2 %>% filter(clarity == 'SI1'), fill = 'yellow') +
  geom_col(data = p2 %>% filter(clarity == 'VVS1'), fill = 'orange')

Trục tung(n) số lượng

Trục hoành (color) gồm các màu D,E,F,G,H,I,J

Biểu đồ thể hiện 2 loại kim cương:

  • Cột màu vàng thể hiện kim cương có độ trong suốt SI1
  • Cột màu cam thể hiện kim cương có độ trong suốt VVS1
  • Nhìn vào biểu đồ ta thấy được kim cương độ trong suốt SI1 chiếm số lượng nhiều hơn kim cương độ trong suốt VVS1

4. Hình 4.4: Biểu đồ so sánh số lượng kim cương theo màu có độ trong suốt VS1 và VS2

p2 %>% group_by(clarity, color) %>% summarise(n = n()) %>% 
ggplot(aes(x = color, y = n)) +
  geom_col(data = p2 %>% filter(clarity == 'VS2'), fill = 'yellow') +
  geom_col(data = p2 %>% filter(clarity == 'VS1'), fill = 'salmon')
## `summarise()` has grouped output by 'clarity'. You can override using the
## `.groups` argument.

Biểu đồ 4.4 gồm kim cương có độ trong suốt VS2 cột màu vàng, kim cương có độ trong suốt VS1 cột màu hồng đậm. Cho thấy kim cương loại VS1 chiếm số lượng nhiều hơn VS2 tuy nhiên số lượng nhiều hơn không đáng kể

V. So sánh theo nhóm kim cương theo số lượng

1. Hình 5.1: Biểu đồ so sánh nhóm kim cương theo màu và chất lượng chế tác

Ta có nhóm biểu đồ thể hiện số lượng kim cương theo từng loại chế tác khác nhau từ đó có thể dễ dàng quan sát so sánh giữa các màu của loại chế tác này gồm D,E,F,G,H,I,J cùng với các chất lượng Fair,Good, Very Good, Premium,Ideal

p %>% group_by(cut,color) %>% summarise(n=n(),.groups = 'drop') %>%
  ggplot(aes(x = color,y = n)) +
    geom_col(fill="black") +
    facet_wrap(~cut) +
    labs(x = 'Loại', y = 'Số lượng')

Cũng như biểu đồ trên biểu đồ dưới đây cũng giúp ta quan sát và so sánh những vần đề trên nhưng với câu lệnh geom_text(aes(label = n),vjust = 2, color = ‘yellow’) ta có thể thấy rõ số liệu một cách cụ thể.

p %>% group_by(cut,color) %>% summarise(n=n(),.groups = 'drop') %>%
  ggplot(aes(x = color,y = n)) +
    geom_col( fill= 'purple') +
    facet_wrap(~cut) +
    geom_text(aes(label = n),vjust = 2, color = 'yellow') +
    labs(x = 'Loại', y = 'Số lượng')

2. Hình 5.2: Biểu đồ so sánh nhóm kim cương theo độ trong suốt và chất lượng chế tác

Ta có nhóm biểu đồ thể hiện số lượng kim cương theo từng loại chế tác khác nhau từ đó có thể dễ dàng quan sát so sánh giữa các loại độ trong suốt kim cương của loại chế tác này gồm I1,SI2,SI1,VS2,VS1,VVS2,VVS1,IF cùng với các chất lượng Fair,Good, Very Good, Premium,Ideal

p %>% group_by(cut,clarity) %>% summarise(n=n(),.groups = 'drop') %>%
  ggplot(aes(x = clarity,y = n)) +
    geom_col(fill="turquoise") +
    facet_wrap(~cut) +
    labs(x = 'Loại', y = 'Số lượng')

Cũng như biểu đồ trên biểu đồ dưới đây cũng giúp ta quan sát và so sánh những vần đề trên nhưng với câu lệnh geom_text(aes(label = n),vjust = 2, color = ‘red’) ta có thể thấy rõ số liệu một cách cụ thể.

p %>% group_by(clarity,cut) %>% summarise(n=n(),.groups = 'drop') %>%
  ggplot(aes(x = clarity,y = n)) +
    geom_col( fill= 'green') +
    facet_wrap(~ cut) +
    geom_text(aes(label = n),vjust = 2, color = 'red') +
    labs(x = 'Loại', y = 'Số lượng')

3. Hình 5.3: Biểu đồ so sánh nhóm kim cương theo màu và độ trong suốt

Ta có nhóm biểu đồ thể hiện số lượng kim cương theo từng loại trong suốt khác nhau từ đó có thể dễ dàng quan sát so sánh giữa các màu của loại trong suốt này gồm D,E,F,G,H,I,J với từng loại trong suốt kia I1,SI2,SI1,VS2,VS1,VVS2,VVS1,IF

p %>% group_by(clarity,color) %>% summarise(n=n(),.groups = 'drop') %>%
  ggplot(aes(x = color,y = n)) +
    geom_col(fill="red") +
    facet_wrap(~clarity) +
    labs(x = 'Loại', y = 'Số lượng')

Cũng như biểu đồ trên biểu đồ dưới đây cũng giúp ta quan sát và so sánh những vần đề trên nhưng với câu lệnh geom_text(aes(label = n),vjust = 2, color = ‘white’) ta có thể thấy rõ số liệu một cách cụ thể.

p %>% group_by(clarity,color) %>% summarise(n=n(),.groups = 'drop') %>%
  ggplot(aes(x = color,y = n)) +
    geom_col( fill= 'brown') +
    facet_wrap(~clarity) +
    geom_text(aes(label = n),vjust = 2, color = 'white') +
    labs(x = 'Loại', y = 'Số lượng')

VI. So sánh nhóm kim cương theo mức giá trung bình

1. Hình 6.1: Biểu đồ so sánh nhóm kim cương (màu và chất lượng chế tác)

p %>% group_by(cut,color) %>% summarise(m = mean(price),.groups = 'drop') %>%
  ggplot(aes(x = color,y = m)) +
    geom_col(position = 'dodge') +
    facet_wrap(~cut ) +
    geom_text(aes(label = round(m))) +
    labs(x = 'Color ', y = 'Số lượng')

Trục tung thể hiện số lượng

Trục hoành biểu diễn các màu gồm D,E,F,G,H,I,J

Biểu đồ nhóm 6.1 là thống kê mức giá trung bình của từng loại kim cương chế tác theo tất cả các màu có đầy đủ số liệu trên từng biểu đồ

2. Hình 6.2: Biểu đồ so sánh nhóm kim cương (độ trong suốt và chất lượng chế tác)

p %>% group_by(cut,clarity) %>% summarise(m = mean(price), .groups = 'drop') %>%
  ggplot(aes(x = clarity,y = m)) +
    geom_col(position = 'dodge') +
    facet_wrap(~cut ) +
    geom_text(aes(label = round(m))) +
    labs(x = 'clarity ', y = 'Số lượng')

Biểu đồ 6.2 thể hiện sự so sánh mức giá trung bình của từng loại kim cương chế tác theo màu và độ

trong suốt

3. Hình 6.3: Biểu đồ so sánh nhóm kim cương (màu và độ trong suốt)

p %>% group_by(clarity,color) %>% summarise(m = mean(price), .groups='drop') %>%
  ggplot(aes(x = color,y = m)) +
    geom_col(position = 'dodge') +
    facet_wrap(~clarity) +
    geom_text(aes(label = round(m))) +
    labs(x = 'Color ', y = 'Số lượng')

Biểu đồ 6.3 thể hiện sự so sánh mức giá trung bình của từng loại kim cương chế tác theo tất cả các độ

trong suốt và màu

VII. Phân tích số lượng kim cương theo mức giá và khối lượng carat

1. Hình 7.1: BIểu đồ phân tích số lượng kim cương theo khối lượng

p <-p %>% mutate(Carat = cut(carat,5, label = c('rất nhỏ', 'nhỏ','vừa','lớn','rất lớn')))
p %>% ggplot(aes(x = Carat)) +
  geom_bar(fill = 'salmon')

Biểu đồ 7.1 cho thấy khối lượng carat được chia làm 5 loại: rất nhỏ, nhỏ, vừa,lớn,rất lớn. Loại rất nhỏ chiếm số lượng nhiều nhất, trong khi đó loại lớn và rất lớn hầu như là không có. Vậy trên thị trường carat loại lớn và rất lớn là cực kì hiếm so với các loại còn lại

2. Hình 7.2: BIểu đồ phân tích số lượng kim cương theo mức giá

p <- p %>% mutate(Price = cut(price,5, label = c('rất thấp ', 'thấp','tb','cao','rất cao')))
p %>% ggplot(aes(x = Price)) +
  geom_bar(fill = 'pink')

Trục tung(count) thể hiện mức giá

Trục hoành(price) gồm rất thấp, thấp, trung bình, cao, rất cao

Biểu đồ 7.2 cho ta thấy mức giá kim cương nằm ở trục tung thể hiện mức giá loại rất nhỏ thấp hơn các loại còn lại rất nhiều lần, kim cương loại rất lớn thì hiếm nên giá sẽ cao hơn

3. Hình 7.3

p <- p %>% mutate(color_code = case_when(
    color == "D" | color == "E" | color == "F" ~ 1,
    color == "G" | color == "H" | color == "I" | color == "J" ~ 2))

p <- mutate(p, colorC = cut(color_code, 2, label = c('không màu', 'gần như không màu')))

p %>% group_by(colorC) %>% summarise(n=n()) %>%
  ggplot(aes(colorC, n)) +
    geom_col(fill = 'red') +
    geom_text(aes(label = n), vjust = 0, color = 'black') +
    xlab('Màu sắc') +
    ylab('Số lượng (viên)') + 
    labs()

Trục tung thể hiện số lượng

Trục hoành thể hiện màu săc gồm không màu và gần như không màu

Ta thấy được số lượng viên gần như không màu chiếm số lượng nhiều hơn vì thế phần lớn carat có dạng trong suốt

4. Hình 7.4

p <- diamonds 
p <- p %>% mutate(depthC = cut(depth,5, label = c('Sâu','Khá sâu','Trung bình','Khá nông','Nông')))
p %>% ggplot(aes(x = depthC)) +
  geom_bar(fill = 'red')

Biểu đồ 7.4 thể hiện độ nông sâu khi cắt viên kim cương

VIII. Biểu đồ các chỉ số cụ thể theo từng biến

1. Hình 8.1: Median(trung vị) của biến ‘carat’

p %>% group_by(cut) %>% summarise(m= median(carat)) %>%
  ggplot(aes(x = cut,y = m)) +
    geom_col(position = 'dodge') +
    geom_text(aes(label = round(m,2)), vjust = 2, color = 'yellow') +
    labs(x = 'Loại', y = 'Median')

Câu lệnh trên cho ta một biểu đò dạng Bar Chart với trục hoành là các loại kim cương được chia theo biến ‘cut’ bao gồm 5 loại lần lượt là ‘Fair’,‘Good’,‘Very Good’,‘Premium’,‘Ideal’, trục tung là trung vị độ lớn của biến ‘Carat’ . Cụ thể như sau:

  • Trung vị carat của loại kim cương ’ Fair’ là 1 (50% số kim cương loại Fair có độ lớn carat dưới 1 và 50% còn lại có độ lớn carat lớn hơn 1 )
  • Trung vị carat của loại kim cương ’ Good’ là 0.82 (50% số kim cương loại Good có độ lớn carat dưới 0.82 và 50% còn lại có độ lớn carat lớn hơn 0.82 )
  • Trung vị carat của loại kim cương ’ Very Good’ là 0.71 (50% số kim cương loại Very Good có độ lớn carat dưới 0.71 và 50% còn lại có độ lớn carat lớn hơn 0.71 )
  • Trung vị carat của loại kim cương ‘Premium’ là 0.86 (50% số kim cương loại Premium có độ lớn carat dưới 0.86 và 50% còn lại có độ lớn carat lớn hơn 0.86 )
  • Trung vị carat của loại kim cương ‘Ideal’ là 0.54 (50% số kim cương loại Ideal có độ lớn carat dưới 0.54 và 50% còn lại có độ lớn carat lớn hơn 0.54 )

2. Hình 8.2: Mean (giá trị trung bình) của biến ‘price’

p %>% group_by(cut) %>% summarise(m= mean(price)) %>%
  ggplot(aes(x = cut,y = m)) +
    geom_col(position = 'dodge') +
    geom_text(aes(label = round(m,2)), vjust = 2, color = 'yellow') +
    labs(x = 'Loại', y = 'Mean')

Câu lệnh trên cho ta một đồ thị dạng Bar Chart với trục hoành là các loại kim cương được chia theo biến ‘cut’ bao gồm 5 loại lần lượt là ‘Fair’,‘Good’,‘Very Good’,‘Premium’,‘Ideal’, trục tung là trung bình độ lớn của biến ‘Price’ . Cụ thể như sau:

  • Kim cương Fair có độ lớn trung bình của biến ‘Price’ là : 4358.76
  • Kim cương Good có độ lớn trung bình của biến ‘Price’ là : 3928.86
  • Kim cương Very Good có độ lớn trung bình của biến ‘Price’ là : 3981.76
  • Kim cương Premium có độ lớn trung bình của biến ‘Price’ là : 4584.26
  • Kim cương Ideal có độ lớn trung bình của biến ‘Price’ là : 3457.54
---
title: "Nhiệm vụ 4"
author: "Lê Thị Thanh Phú"
date: "`r format(Sys.time(), '%H:%M:%S, %d - %m - %Y')`"
output:
    html_document: 
       code_download: true
       code_folding: hide
       toc_float: true
       toc: true
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
```

## **GIỚI THIỆU** 
Bộ dữ liệu  DIAMONS là bộ dữ liệu nằm trong packages tidyverse với 53940 quan sát và 10 biến về các

loại kim cương

Các biến bao gồm:

carat: Trọng lượng của kim cương.

cut: Loại cắt của kim cương (Fair, Good, Very Good, Premium, Ideal).

color: Màu sắc của kim cương, được mã hóa từ D (tốt nhất) đến J (kém nhất).

clarity: Độ trong suốt của kim cương (IF, VVS1, VVS2, VS1, VS2, SI1, SI2, I1).

depth: Độ sâu của kim cương, được đo từ mặt bên dưới đến mặt trên, chia cho chiều dài.

table: Chiều rộng của mặt bên trên của kim cương so với điểm cắt, chia cho chiều rộng lớn nhất.

price: Giá của kim cương (đơn vị: USD).

x: Chiều dài của kim cương (đơn vị: mm).

y: Chiều rộng của kim cương (đơn vị: mm).

z: Chiều sâu của kim cương (đơn vị: mm).

Và dưới đây là các biểu đồ biểu diễn những thông tin của bộ dữ liệu để dễ dàng thống kê và phân tích 

```{r}
library(ggplot2)
library(tidyverse)
library(scales)
p <- diamonds
```

## **I. Tổng hợp số lượng kim cương theo các biến khác nhau**

### **1. Hình 1.1: Biểu đồ thể hiện số lượng kim cương theo chất lượng **

```{r, echo = TRUE}
p %>% ggplot(aes(x = cut)) +
    geom_bar() +
    labs(x = 'Loại', y = 'Số lượng')+
    coord_flip()
``` 



Biểu đồ trên ta có thể thấy được: số lượng kim cương tăng dần theo mức độ chất lượng  từ thấp đến cao, cột cao nhất với chất lượng Ideal có hơn  20000 đơn vị kim cương; cột thấp nhất với chất lượng Fair chiếm khoảng 2300 đơn vị

### **2. Hình 1.2**

```{r, echo = TRUE}
p %>% group_by(cut ) %>% summarise(n = n()) %>%
  ggplot(aes(cut,n)) +
    geom_col(fill='orange') +
    geom_text(aes(label = n),vjust = 2, color = 'yellow') +
    labs(x = 'Loại ', y = 'Số lượng')
```



Cũng như loại biểu đồ trên biểu đồ dưới đây tổng hợp số lương kim cương theo chất lương nhưng được cụ thể hơn:

+ Kim cương có chất lượng Fair thấp nhất chiếm 1610  
+ Chất lượng Good chiếm 4906  
+ Chất lượng Very Good chiếm 12082  
+ Chất lượng Premium chiếm 13791 và cuối cùng vị trí cao nhất là Ideal chiếm 21551 đơn vị  


### **3. Hình 1.3: Biểu đồ thể hiện số lượng kim cương theo độ trong suốt**

```{r, echo = TRUE}
p %>% ggplot(aes(x = clarity)) +
    geom_bar() +
    labs(x = 'Loại', y = 'Số lượng') +
    coord_flip()
``` 



Qua biểu đồ ta thấy được số lượng kim cương theo từng loại cụ thể:

+ Kim cương loại SI1 có số lương cao nhất khoảng hơn 15000 đơn vị
+ Kim cương loại I1 thấp nhất chiếm khoảng 1200 đơn vị.

### **4. Hình 1.4**

```{r, echo = TRUE}
p %>% group_by(clarity ) %>% summarise(n = n()) %>%
  ggplot(aes(clarity,n)) +
    geom_col(fill='salmon') +
    geom_text(aes(label = n),vjust = 2, color = 'navy') +
    labs(x = 'Loại ', y = 'Số lượng')
```



Biểu đồ 1.4 cho ta thấy kim cương có độ trong suốt cụ thể:

+ I1 thấp nhất chiếm 741 đơn vị, SI2 chiếm 9194 đơn vị
+ SI1 cao nhất chiếm 13065 đơn vị, VS2 chiếm 12258
+ VS1 chiếm 8171, VVS2 chiếm 5066
+ VVS1 chiếm 3655, IF chiếm 1790

## **II. Khối lượng carat trung bình của kim cương **

### **1. Hình 2.1: Biểu đồ khối lượng carat trung bình theo chất lượng ** 

```{r}
p %>% group_by(cut) %>% summarise(m= mean(carat)) %>%
  ggplot(aes(x = cut,y = m)) +
    geom_col(fill='pink') +
    geom_text(aes(label = round(m,2)), vjust = 2, color = 'red') +
    labs(x = 'Loại', y = 'Mean')
```



Biểu đồ 2.1 thể hiện khối lượng carat trung bình của các viên kim cương theo chất lượng được cụ thể:

+ Chất lượng Fair khối lượng carat trung bình cao nhất là 1.05  
+ Chất lượng Good khối lượng carat trung bình là 0.85
+ Chất lượng Very Good khối lượng carat trung bình là 0.81
+ Chất lượng Premium khối lượng carat trung bình là 0.89; cuối cùng chất lượng Ideal khối lượng carat trung bình thấp nhất là 0.7

### **2. Hình 2.2: Biểu đồ khối lượng carat trung bình theo độ trong suốt **

```{r}
p %>% group_by(clarity) %>% summarise(m= mean(carat)) %>%
  ggplot(aes(x = clarity,y = m)) +
    geom_col(fill='orchid') +
    geom_text(aes(label = round(m,2)), vjust = 2, color = 'brown') +
    labs(x = 'Độ trong suốt', y = 'Mean')
```



Độ trong suốt của kim cương có khối lượng carat trung bình được biểu diễn bằng số liệu cụ thể:

+ Kim cương có độ trong suốt I1 cao nhất với khối lượng carat trung bình là 1.28
+ SI2 có khối lượng carat trung bình là 1.08
+ VS2 có khối lượng trung bình là 0.76
+ VS1 có khối lượng trung bình là 0.73
+ VVS2 có khối lượng trung bình là 0.6
+ Kim cương có độ trong suốt VVS1 thấp nhất với khối lượng carat trung bình là 0.5. Cuối cùng là IF chiếm 0.51

### **3. Hình 2.3: Biểu đồ khối lượng carat trung bình theo màu **
```{r}
p %>% group_by(color) %>% summarise(m= mean(carat)) %>%
  ggplot(aes(x = color,y = m)) +
    geom_col(fill='yellow') +
    geom_text(aes(label = round(m,2)), vjust = 2, color = 'black') +
    labs(x = 'Color', y = 'Mean')
```


Biểu đồ 2.3 cho thấy khối lượng carat trung bình theo màu J cao nhất chiếm 1.16, khối lượng carat trung bình D và E thấp nhất chiếm 0.66

### **4. Hình 2.4: Biểu đồ khối lượng carat trung bình theo chiều sâu vết cắt **
```{r}
p %>% group_by(depth) %>% summarise(n = n()) %>%
  ggplot(aes(depth,n)) +
    geom_col(fill='blue') +
    labs(x = 'Loại', y = 'Số lượng')
```

## **III. Phân tích biểu đồ chỉ phần trăm số lượng theo biến cut**

### **1. Hình 3.1**
```{r}
p %>% group_by(cut) %>% summarise(n = n()) %>%
  ggplot(aes(cut,n)) +
    geom_col(fill='salmon') +
    geom_text(aes(label = percent(n/length(p$carat))),vjust = 2, color = 'black') +
    labs(x = 'Loại', y = 'Số lượng')
```

+ Fair : 3% (chiếm tỉ trọng nhỏ nhất)
+ Good : 9,1%
+ Very Good : 22,4%
+ Premium : 25,6%
+ Ideal : 40% (chiếm tỉ trọng lớn nhất )

### **2. Hình 3.2: Phân tích biểu đồ chỉ phần trăm số lượng theo biến color**

```{r}
p %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(color,n)) +
    geom_col(fill='pink') +
    geom_text(aes(label = percent(n/length(p$carat))),vjust = 2, color = 'red') +
    labs(x = 'Màu sắc', y = 'Số lượng')
```



Biểu đồ trên được chia theo biến ‘color’và gồm 7 loại lần lượt là ’D’,‘E’,‘F’,‘G’,‘H’,‘I’,‘G’ trục tung là số lượng kim cương ở từng loại . Từ đồ thị ta thấy được tỉ trọng của từng loại kim cương :

+ D : 12,56%
+ E : 18,16%
+ F : 17,69%
+ G : 20,93%
+ H : 15,39% (chiếm tỉ trọng lớn nhất )
+ I : 10,05%
+ J : 5,21% (chiếm tỉ trọng nhỏ nhất)

### **3. Hình 3.3: Phân tích đồ biểu đồ chỉ phần trăm số lượng theo biến clarity**
```{r}
p %>% group_by(clarity) %>% summarise(n = n()) %>%
  ggplot(aes(clarity,n)) +
    geom_col(fill='yellow') +
    geom_text(aes(label = percent(n/length(p$carat))),vjust = 2, color = 'red') +
    labs(x = 'Màu sắc', y = 'Số lượng')
```

Trục tung thể hiện cột số lượng

Trục hoành (màu sắc) gồm I1,SI2,SI1,VS2,VS1,VVS2,VVS1,IF là độ trong suốt của viên kim cương

Các cột thể hiện phần trăm sồ lượng từng loại trên tổng số kim cương

Biểu đồ 3.3 cho ta thấy kim cương loại:

+ I1 chiếm % thấp nhất là 1.4%
+ SI2 chiếm 17%
+ SI1 cao nhất chiếm 24.2%
+ VS2 chiếm 22.7%
+ VS1 chiếm 15.1%
+ VVS2 chiếm 9.4%
+ VVS1 chiếm 6.8%
+ IF chiếm 3.3%

## **IV. So sánh số lượng giữa các loại  kim cương ngẫu nhiên**

### **1. Hình 4.1: Biểu đồ so sánh số lượng kim cương theo chất tác có màu D và J**

```{r}
p3 <- p %>% group_by(cut, color) %>% summarise(n = n()) 
p3 %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = p3 %>% filter(color == 'D'), fill = 'red') +
  geom_col(data = p3 %>% filter(color == 'J'), fill = 'blue')
```

Trục tung (n) thể hiện số lượng kim cương

Trục hoành (cut) thể hiện chất lượng gồm Fair,Good,Very Good,Premium,Ideal

Cột màu đỏ thể hiện màu D

Cột màu xanh thể hiện màu J


Qua biểu đồ ta thấy có sự chênh lệch khá lớn giữa hai màu kim cương ,cột màu đỏ là kim cương màu D có số lượng gấp đôi kim cương  màu J là cột màu xanh 

### **2. Hình 4.2: Biểu đồ so sánh số lượng kim cương theo chất lượng chế tác có độ trong suốt VS2 và I1**
```{r, echo = TRUE}
p1 <- p %>% group_by(cut, clarity) %>% summarise(n = n()) 
p1 %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = p1 %>% filter(clarity == 'VS2'), fill = 'yellow') +
  geom_col(data = p1 %>% filter(clarity == 'I1'), fill = 'red')
```

Trục tung (n) số lượng

Trục hoành (cut) gồm Fair,Good,Very Good,Premium,Ideal

Biểu đồ thể hiện hai loại kim cương khác nhau: cột màu vàng thể hiện kim cương có độ trong suốt VS2, cột màu đỏ thể hiện kim cương có độ trong suốt I1 được thống kê theo chất lương chế tác 

Quan sát biểu đồ cho ta thấy rõ sự cách biệt lớn về số lượng của hai loại kim cương trên: kim cương có độ trong suốt VS2 có số lương gấp nhiều lần so với số lượng kim cương có độ trong suốt I1 => chứng tỏ trên thị trường loại kim cương có độ trong suốt I1 không đc phổ biến chiếm thị phần nhỏ trên tổng số.

### **3. Hình 4.3: Biểu đồ so sánh số lượng kim cương theo màu có độ trong suốt SI1 và VVS1**

```{r, echo = TRUE}
p2 <- p %>% group_by(clarity, color) %>% summarise(n = n())
p2 %>% ggplot(aes(x = color, y = n)) +
  geom_col(data = p2 %>% filter(clarity == 'SI1'), fill = 'yellow') +
  geom_col(data = p2 %>% filter(clarity == 'VVS1'), fill = 'orange')
```

Trục tung(n) số lượng

Trục hoành (color) gồm các màu D,E,F,G,H,I,J

Biểu đồ thể hiện 2 loại kim cương:

+ Cột màu vàng thể hiện kim cương có độ trong suốt SI1
+ Cột màu cam thể hiện kim cương có độ trong suốt VVS1
+ Nhìn vào biểu đồ ta thấy được kim cương độ trong suốt SI1 chiếm số lượng nhiều hơn kim cương độ trong suốt VVS1

### **4. Hình 4.4: Biểu đồ so sánh số lượng kim cương theo màu có độ trong suốt VS1 và VS2**

```{r, echo = TRUE}
p2 %>% group_by(clarity, color) %>% summarise(n = n()) %>% 
ggplot(aes(x = color, y = n)) +
  geom_col(data = p2 %>% filter(clarity == 'VS2'), fill = 'yellow') +
  geom_col(data = p2 %>% filter(clarity == 'VS1'), fill = 'salmon')
```



Biểu đồ 4.4 gồm kim cương có độ trong suốt VS2 cột màu vàng, kim cương có độ trong suốt VS1 cột màu hồng đậm. Cho thấy kim cương loại VS1 chiếm số lượng nhiều hơn VS2 tuy nhiên số lượng nhiều hơn không đáng kể

## **V. So sánh theo nhóm kim cương theo số lượng**

### **1. Hình 5.1: Biểu đồ so sánh nhóm kim cương theo màu và chất lượng chế tác**

Ta có nhóm biểu đồ thể hiện số lượng kim cương theo từng loại chế tác khác nhau từ đó có thể dễ dàng quan sát so sánh giữa các màu của loại chế tác này gồm D,E,F,G,H,I,J cùng với các chất lượng Fair,Good, Very Good, Premium,Ideal

```{r, echo = TRUE}
p %>% group_by(cut,color) %>% summarise(n=n(),.groups = 'drop') %>%
  ggplot(aes(x = color,y = n)) +
    geom_col(fill="black") +
    facet_wrap(~cut) +
    labs(x = 'Loại', y = 'Số lượng')
```



Cũng như biểu đồ trên biểu đồ dưới đây cũng giúp ta quan sát và so sánh những vần đề trên nhưng với câu lệnh **geom_text(aes(label = n),vjust = 2, color = 'yellow')** ta có thể thấy rõ số liệu một cách cụ thể.

```{r, echo = TRUE}
p %>% group_by(cut,color) %>% summarise(n=n(),.groups = 'drop') %>%
  ggplot(aes(x = color,y = n)) +
    geom_col( fill= 'purple') +
    facet_wrap(~cut) +
    geom_text(aes(label = n),vjust = 2, color = 'yellow') +
    labs(x = 'Loại', y = 'Số lượng')
```


### **2. Hình 5.2: Biểu đồ so sánh nhóm kim cương theo độ trong suốt và chất lượng chế tác**

Ta có nhóm biểu đồ thể hiện số lượng kim cương theo từng loại chế tác khác nhau từ đó có thể dễ dàng quan sát so sánh giữa các loại độ trong suốt kim cương của loại chế tác này gồm I1,SI2,SI1,VS2,VS1,VVS2,VVS1,IF cùng với các chất lượng Fair,Good, Very Good, Premium,Ideal


```{r, echo = TRUE}
p %>% group_by(cut,clarity) %>% summarise(n=n(),.groups = 'drop') %>%
  ggplot(aes(x = clarity,y = n)) +
    geom_col(fill="turquoise") +
    facet_wrap(~cut) +
    labs(x = 'Loại', y = 'Số lượng')
```



Cũng như biểu đồ trên biểu đồ dưới đây cũng giúp ta quan sát và so sánh những vần đề trên nhưng với câu lệnh **geom_text(aes(label = n),vjust = 2, color = 'red')** ta có thể thấy rõ số liệu một cách cụ thể.

```{r, echo = TRUE}
p %>% group_by(clarity,cut) %>% summarise(n=n(),.groups = 'drop') %>%
  ggplot(aes(x = clarity,y = n)) +
    geom_col( fill= 'green') +
    facet_wrap(~ cut) +
    geom_text(aes(label = n),vjust = 2, color = 'red') +
    labs(x = 'Loại', y = 'Số lượng')
```

### **3. Hình 5.3: Biểu đồ so sánh nhóm kim cương theo màu và độ trong suốt**

Ta có nhóm biểu đồ thể hiện số lượng kim cương theo từng loại trong suốt khác nhau từ đó có thể dễ dàng quan sát so sánh giữa các màu của loại trong suốt này gồm D,E,F,G,H,I,J với từng loại trong suốt kia I1,SI2,SI1,VS2,VS1,VVS2,VVS1,IF

```{r, echo = TRUE}
p %>% group_by(clarity,color) %>% summarise(n=n(),.groups = 'drop') %>%
  ggplot(aes(x = color,y = n)) +
    geom_col(fill="red") +
    facet_wrap(~clarity) +
    labs(x = 'Loại', y = 'Số lượng')
```

Cũng như biểu đồ trên biểu đồ dưới đây cũng giúp ta quan sát và so sánh những vần đề trên nhưng với câu lệnh **geom_text(aes(label = n),vjust = 2, color = 'white')** ta có thể thấy rõ số liệu một cách cụ thể. 

```{r, echo = TRUE}
p %>% group_by(clarity,color) %>% summarise(n=n(),.groups = 'drop') %>%
  ggplot(aes(x = color,y = n)) +
    geom_col( fill= 'brown') +
    facet_wrap(~clarity) +
    geom_text(aes(label = n),vjust = 2, color = 'white') +
    labs(x = 'Loại', y = 'Số lượng')
```

## **VI. So sánh nhóm kim cương theo mức giá trung bình**

### **1. Hình 6.1: Biểu đồ so sánh nhóm kim cương (màu và chất lượng chế tác)**

```{r, echo = TRUE}
p %>% group_by(cut,color) %>% summarise(m = mean(price),.groups = 'drop') %>%
  ggplot(aes(x = color,y = m)) +
    geom_col(position = 'dodge') +
    facet_wrap(~cut ) +
    geom_text(aes(label = round(m))) +
    labs(x = 'Color ', y = 'Số lượng')
```

Trục tung thể hiện số lượng

Trục hoành biểu diễn các màu gồm D,E,F,G,H,I,J

Biểu đồ nhóm 6.1 là thống kê mức giá trung bình của từng loại kim cương chế tác theo tất cả các màu có đầy đủ số liệu  trên từng biểu đồ

### **2. Hình 6.2: Biểu đồ so sánh nhóm kim cương (độ trong suốt và chất lượng chế tác)**

```{r, echo = TRUE}
p %>% group_by(cut,clarity) %>% summarise(m = mean(price), .groups = 'drop') %>%
  ggplot(aes(x = clarity,y = m)) +
    geom_col(position = 'dodge') +
    facet_wrap(~cut ) +
    geom_text(aes(label = round(m))) +
    labs(x = 'clarity ', y = 'Số lượng')
```



Biểu đồ 6.2 thể hiện sự so sánh mức giá trung bình của từng loại kim cương chế tác theo màu và độ

trong suốt

### **3. Hình 6.3: Biểu đồ so sánh nhóm kim cương (màu và độ trong suốt)**

```{r, echo = TRUE}
p %>% group_by(clarity,color) %>% summarise(m = mean(price), .groups='drop') %>%
  ggplot(aes(x = color,y = m)) +
    geom_col(position = 'dodge') +
    facet_wrap(~clarity) +
    geom_text(aes(label = round(m))) +
    labs(x = 'Color ', y = 'Số lượng')
```



Biểu đồ 6.3 thể hiện sự so sánh mức giá trung bình của từng loại kim cương chế tác theo tất cả các độ

trong suốt và màu  

## **VII. Phân tích số lượng kim cương theo  mức giá và khối lượng carat**

### **1. Hình 7.1: BIểu đồ phân tích số lượng kim cương theo khối lượng**

```{r, echo = TRUE}
p <-p %>% mutate(Carat = cut(carat,5, label = c('rất nhỏ', 'nhỏ','vừa','lớn','rất lớn')))
p %>% ggplot(aes(x = Carat)) +
  geom_bar(fill = 'salmon')
```



Biểu đồ 7.1 cho thấy khối lượng carat được chia làm 5 loại: rất nhỏ, nhỏ, vừa,lớn,rất lớn. Loại rất nhỏ chiếm số lượng nhiều nhất, trong khi đó loại lớn và rất lớn hầu như là không có. Vậy trên thị trường carat loại lớn và rất lớn là cực kì hiếm so với các loại còn lại

### **2. Hình 7.2: BIểu đồ phân tích số lượng kim cương theo mức giá**

```{r, echo = TRUE}
p <- p %>% mutate(Price = cut(price,5, label = c('rất thấp ', 'thấp','tb','cao','rất cao')))
p %>% ggplot(aes(x = Price)) +
  geom_bar(fill = 'pink')
```

Trục tung(count) thể hiện mức giá

Trục hoành(price) gồm rất thấp, thấp, trung bình, cao, rất cao

Biểu đồ 7.2 cho ta thấy mức giá kim cương nằm ở trục tung thể hiện mức giá loại rất nhỏ thấp hơn các loại còn lại rất nhiều lần, kim cương loại rất lớn thì hiếm nên giá sẽ cao hơn

### **3. Hình 7.3**

```{r echo=TRUE, warning=FALSE}
p <- p %>% mutate(color_code = case_when(
    color == "D" | color == "E" | color == "F" ~ 1,
    color == "G" | color == "H" | color == "I" | color == "J" ~ 2))

p <- mutate(p, colorC = cut(color_code, 2, label = c('không màu', 'gần như không màu')))

p %>% group_by(colorC) %>% summarise(n=n()) %>%
  ggplot(aes(colorC, n)) +
    geom_col(fill = 'red') +
    geom_text(aes(label = n), vjust = 0, color = 'black') +
    xlab('Màu sắc') +
    ylab('Số lượng (viên)') + 
    labs()
```

Trục tung thể hiện số lượng

Trục hoành thể hiện màu săc gồm không màu và gần như không màu

Ta thấy được số lượng viên gần như không màu chiếm số lượng nhiều hơn vì thế phần lớn carat có dạng trong suốt

### **4. Hình 7.4**

```{r}
p <- diamonds 
p <- p %>% mutate(depthC = cut(depth,5, label = c('Sâu','Khá sâu','Trung bình','Khá nông','Nông')))
p %>% ggplot(aes(x = depthC)) +
  geom_bar(fill = 'red')
```


Biểu đồ 7.4 thể hiện độ nông sâu khi cắt viên kim cương

## **VIII. Biểu đồ các chỉ số cụ thể theo từng biến**

### **1. Hình 8.1: Median(trung vị) của biến ‘carat’**

```{r}
p %>% group_by(cut) %>% summarise(m= median(carat)) %>%
  ggplot(aes(x = cut,y = m)) +
    geom_col(position = 'dodge') +
    geom_text(aes(label = round(m,2)), vjust = 2, color = 'yellow') +
    labs(x = 'Loại', y = 'Median')
```



Câu lệnh trên cho ta một biểu đò dạng Bar Chart với trục hoành là các loại kim cương được chia theo biến ‘cut’ bao gồm 5 loại lần lượt là ‘Fair’,‘Good’,‘Very Good’,‘Premium’,‘Ideal’, trục tung là trung vị độ lớn của biến ‘Carat’ . Cụ thể như sau:

+ Trung vị carat của loại kim cương ’ Fair’ là 1 (50% số kim cương loại Fair có độ lớn carat dưới 1 và 50% còn lại có độ lớn carat lớn hơn 1 )
+ Trung vị carat của loại kim cương ’ Good’ là 0.82 (50% số kim cương loại Good có độ lớn carat dưới 0.82 và 50% còn lại có độ lớn carat lớn hơn 0.82 )
+ Trung vị carat của loại kim cương ’ Very Good’ là 0.71 (50% số kim cương loại Very Good có độ lớn carat dưới 0.71 và 50% còn lại có độ lớn carat lớn hơn 0.71 )
+ Trung vị carat của loại kim cương ‘Premium’ là 0.86 (50% số kim cương loại Premium có độ lớn carat dưới 0.86 và 50% còn lại có độ lớn carat lớn hơn 0.86 )
+ Trung vị carat của loại kim cương ‘Ideal’ là 0.54 (50% số kim cương loại Ideal có độ lớn carat dưới 0.54 và 50% còn lại có độ lớn carat lớn hơn 0.54 ) 

### **2. Hình 8.2: Mean (giá trị trung bình) của biến ‘price’**
```{r}
p %>% group_by(cut) %>% summarise(m= mean(price)) %>%
  ggplot(aes(x = cut,y = m)) +
    geom_col(position = 'dodge') +
    geom_text(aes(label = round(m,2)), vjust = 2, color = 'yellow') +
    labs(x = 'Loại', y = 'Mean')
```



Câu lệnh trên cho ta một đồ thị dạng Bar Chart với trục hoành là các loại kim cương được chia theo biến ‘cut’ bao gồm 5 loại lần lượt là ‘Fair’,‘Good’,‘Very Good’,‘Premium’,‘Ideal’, trục tung là trung bình độ lớn của biến ‘Price’ . Cụ thể như sau:

+ Kim cương Fair có độ lớn trung bình của biến ‘Price’ là : 4358.76
+ Kim cương Good có độ lớn trung bình của biến ‘Price’ là : 3928.86
+ Kim cương Very Good có độ lớn trung bình của biến ‘Price’ là : 3981.76
+ Kim cương Premium có độ lớn trung bình của biến ‘Price’ là : 4584.26
+ Kim cương Ideal có độ lớn trung bình của biến ‘Price’ là : 3457.54

