Tiến hành nghiên cứu:
Trước hết, ta cần phải gọi dữ liệu diamonds lên
h <- diamonds
- Đổi tên biến cut trong dữ liệu diamonds, thay bằng
tên loại để tránh bị nhầm lẫn khi đánh giá giữa loại
của kim cương và vết cắt của kim cương
h <- rename(h, loai = cut)
datatable(h)
COLOR - Cấp độ màu của kim cương:
- Cấp độ màu của kim cương nói một cách cụ thể là ta phân loại độ
trong là của màu sắc:
- Màu loại D, E và F có độ trong suốt gần như là
tuyệt đối (Nên thường được được gọi là kim cương không màu)
- Màu loại G,H,I,J có độ trong suốt cũng tương đối
cao, rất khó để phân biệt được với các loại kim cương màu
D,E,F vì chúng cũng gần như là kim cương không màu
h %>% group_by(color) %>% summarise(n = n()) %>%
ggplot(aes(color,n)) +
geom_col(fill='red') +
geom_text(aes(label = n),vjust = 2, color = 'black') +
xlab('Color') +
ylab('Số lượng') +
labs(title = 'Hình 1: Cấp độ màu của kim cương')

- Qua hình trên ta thấy được:
- Tỉ trọng giữa các màu của kim cương không đồng đều
- Cấp độ màu G có số lượng lớn nhất là 11292 viên gấp
4 lần so với cấp độ màu J bé nhất là 2808 viên
- Cấp độ màu E có 9797 viên
- Cấp độ màu F, H, D có lần lượt là 9542, 8304, 6775
viên
- Cấp độ màu I có 5422 viên
Biểu đồ phân loại màu của kim cương
h %>% group_by(color) %>% summarise(n = n()) %>%
ggplot(aes(color,n)) +
geom_col(fill='blue') +
geom_text(aes(label = n),vjust = 2, color = 'yellow') +
labs(x = 'Màu', y = 'Số lượng')

labs(title =' Hình 1: Biểu đồ phân loại màu của kim cương') +
coord_flip()
## NULL
- Quan sát biểu đồ ta thấy:
- Màu sắc của các kim cương phân bố không đồng đều
- Số kim cương không màu chiếm phần lớn số lượng gồm: D, E,
F có lần lượt là 6775, 9797, 9542 viên
- Số kim cương màu G chiếm số lượng lớn nhất với
11292 viên
- Số kim cương có màu nhưng rất ít( gần như không màu) chiếm phần nhỏ
số lượng gồm: H, I, J có lần lượt là 8304, 5422, 2808
viên.
Biểu đồ thể hiện số lượng kim cương theo màu
h %>% group_by(color) %>% summarise(n=n()) %>%
ggplot(aes(x = color,y = n)) +
geom_col(position = 'dodge') +
facet_wrap(~color) +
geom_text(aes(label = n),vjust = 2, color = 'blue') +
labs(x = 'Màu sắc', y = 'Số lượng') +
labs(title = 'Hình 1: Tập hợp các biểu đồ thể hiện số lượng kim cương theo màu')

- Quan sát biểu đồ ta thấy:
- Tỉ trọng giữa các màu của kim cương không đồng đều
- Cấp độ màu G có số lượng lớn nhất là 11292 viên gấp
4 lần so với cấp độ màu J bé nhất là 2808 viên
- Cấp độ màu E có 9797 viên
- Cấp độ màu F, H, D có lần lượt là 9542, 8304, 6775
viên
- Cấp độ màu I có 5422 viên
Biểu đồ phân bổ số lượng màu của các kim cương(Biểu đồ ngang)
h %>% ggplot(aes(x = color)) +
geom_bar() +
labs(x = 'Màu sắc', y = 'Số lượng') +
coord_flip() +
labs(title = 'Hình 1: Biểu đồ phân bổ số lượng màu của các kim cương(biểu đồ ngang)')

- Quan sát biểu đồ ta thấy:
- Màu sắc của các kim cương phân bố không đồng đều. Cho thấy mức độ
khan hiếm của từng loại màu của kim cương
- Số kim cương màu G chiếm số lượng lớn nhất với hơn
11000 viên
- Số kim cương có màu nhưng rất ít( gần như không màu) chiếm phần nhỏ
số lượng gồm: H, I, J có lần lượt là hơn 8000viên, gần
5500 viên, gần 3000 viên.
- Số kim cương không màu chiếm phần lớn số lượng gồm: D, E,
F có lần lượt là hơn 6500 viên, gần 10000 viên, xấp xỉ 9500
viên
Biểu đồ thể hiện giá trị trung bình của số kim cương phân theo
màu
h %>% group_by(loai) %>% summarise(m= mean(carat)) %>%
ggplot(aes(x = loai,y = m)) +
geom_col(position = 'dodge') +
geom_text(aes(label = round(m,2)), vjust = 2, color = 'red') +
labs(x = 'Màu', y = 'Mean') +
labs(title = 'Hình 1: Biểu đồ thể hiện trung bình số kim cương theo màu')

- Quan sát biểu đồ ta thấy
- Mức độ phân bố trung bình các màu của kim cương tương đối đồng
đều
- Màu Fair có mức độ phân bố trung bình cao nhất
1,05
- Màu Good, Very Good,
Premiumcó mức độ phân bố trung bình gần 0,8 cụ thể lần
lượt là: 0,85; 0,81; 0,89
- Màu Ideal có mức độ phân bố trung bình thấp nhất
chỉ nằm ở 0,7
Biểu đồ thể hiện tỉ lệ kim cương theo loại và màu
k <- h %>% group_by(loai, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'loai'. You can override using the
## `.groups` argument.
k %>% ggplot(aes(x = loai, y = n)) +
geom_col(data = k %>% filter(color == 'G'), fill = 'red') +
geom_col(data = k %>% filter(color == 'H'), fill = 'blue')

- Quan sát biểu đồ ta thấy:
- k là một tập hợp mới thống kê số lượng kim cương theo loại và
màu
- Ta thấy số lượng kim cương màu H chiếm phần lớn trong tổng, số lượng
kim cương màu G chỉ chiếm số ít
- Cụ thể:
- SỐ lượng kim cương màu G loại Ideal nhiều nhất với
hơn 3000 viên trong khi đó cùng loại màu H chỉ gần 2000 viên
- Số lượng kim cương màu G loại Fair chiếm phần lớn
với hơn 300 viên trong khi đó cùng loại màu H gần như không có
- SỐ lượng kim cương màu G loại VeryGoodchiếm trung
bình với gần 2000 viên trong khi đó cùng loại màu H chỉ gần 500
viên
CUT - Vết cắt của kim cương (bao gồm: depth và table):
h %>% group_by(table) %>% filter(table >= 53 & table <= 65) %>% summarise(n = n()) %>%
ggplot(aes(table,n)) +
geom_col(fill='green') +
xlab('Table') +
ylab('Số lượng') +
labs(title = 'Hình 1: Vết cắt table của kim cương')

- Quan sát biểu đồ trên ta thấy được:
- Mức độ phân bổ của các vết cắt kim cương ko đồng đều
- Các viên kim cương có vết cắt nằm trong khoảng từ 55 đến 60 chiếm số
lượng lớn nhất với hơn 30000 viên. Cụ thể là: Vết cắt ở 55,75 và 56,6
chiếm số lượng lớn nhất với hơn 19000 viên
- Các viên kim cương có vết cắt nằm trong khoảng từ 52,5 đến dưới 55
chiếm số lượng tương đối nhỏ với hơn 3000 viên.
- Các viên kim cương có vết cắt nằm trong khoảng từ 60 đến dưới 65
chiếm số lượng nhỏ nhất với hơn 4000 viên. Cụ thể là: Vết cắt ở 65 chiếm
số lượng nhỏ nhất với chỉ khoảng 200 viên
##Cut: Vết cắt của kim cương
h %>% ggplot(aes(x = loai)) +
geom_bar() +
labs(x = 'Loại', y = 'Số lượng') +
coord_flip() +
labs(title = 'Hình 1: Vết cắt của kim cương(biểu đồ ngang)')

- Quan sát biểu đồ trên ta thấy được:
- Mức độ phân bổ của các loại kim cương ko đồng đều
- Các viên kim cương loại Ideal có số lượng lớn nhất
với hơn 20000 viên.
- Các viên kim cương loại Fair có số lượng ít nhất
với hơn 2500 viên.
- Các viên kim cương loại Good,
Verygood, Premium có số lượng trung
bình với lần lượt là 5000, 12500, 13000 viên
Biểu đồ phân loại kim cương
h %>% group_by(loai) %>% summarise(n = n()) %>%
ggplot(aes(loai,n)) +
geom_col(fill='grey') +
geom_text(aes(label = n),vjust = 2, color = 'red') +
labs(x = 'Loại', y = 'Số lượng') +
labs(title =' Hình 1: Biểu đồ phân loại kim cương')

- Quan sát biểu đồ ta thấy:
- Mức độ phân bố kim cương theo các loại không đồng đều
- Số lượng kim cương loại Ideal nhiều nhất với 21551
viên
- Số lượng kim cương loại Fair ít nhất với 1610 viên
ít hơn 13 lần so với loại Ideal
- Số lượng kim cương loại Good,
Verygood, Premium có số lượng tăng dần
lần lượt là: 4906 viên, 12082 viên, 13791 viên
Biểu đồ thể hiện tỉ lệ kim cương theo loại và màu
k <- h %>% group_by(loai, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'loai'. You can override using the
## `.groups` argument.
k %>% ggplot(aes(x = loai, y = n)) +
geom_col(data = k %>% filter(color == 'G'), fill = 'green') +
geom_col(data = k %>% filter(color == 'H'), fill = 'grey')

Biểu đồ tỉ số loại kim cương
h %>% group_by(loai) %>% summarise(n = n()) %>%
ggplot(aes(loai,n)) +
geom_col(fill='beige') +
geom_text(aes(label = percent(n/length(h$carat))),vjust = 2, color = 'red') +
labs(x = 'Loại', y = 'Số lượng') +
labs(title =' Hình1: Biểu đồ tỉ số các loại kim cương')

- Quan sát biểu đồ ta thấy:
- Các loại kim cương phân bố không đồng đều
- Số lượng kim cương loại Ideal nhiều nhất chiếm hơn
40%
- Số lượng kim cương loại Fair ít nhất chiếm chỉ hơn
3% ít hơn 13 lần so với loại Ideal
- Số lượng kim cương loại Good,
Verygood, Premium có số lượng tăng dần
lần lượt là: 9,1%, 22,4%; 25,6%
Biểu đồ thể hiện trung bình giá kim cương theo loại
h %>% group_by(loai,color) %>% summarise(m = mean(price)) %>%
ggplot(aes(x = loai,y = m)) +
geom_col(position = 'dodge') +
facet_wrap(~color) +
geom_text(aes(label = round(m))) +
labs(x = 'Loại', y = 'Số lượng') +
labs(title = 'Hình 1: Biểu đồ thể hiện trung bình giá kim cương theo loại')
## `summarise()` has grouped output by 'loai'. You can override using the
## `.groups` argument.

Tập hợp các biểu đồ thể hiện tỉ lệ kim cương theo loại
h %>% group_by(loai,color) %>% summarise(n=n()) %>%
ggplot(aes(x = loai,y = n)) +
geom_col(position = 'dodge') +
facet_wrap(~color) +
geom_text(aes(label = n),vjust = 2, color = 'blue') +
labs(x = 'Loại', y = 'Số lượng') +
labs(title = 'Hình 1: Tập hợp các biểu đồ thể hiện tỉ lệ kim cương theo loại')
## `summarise()` has grouped output by 'loai'. You can override using the
## `.groups` argument.

CLARITY - Đánh giá cấp độ tinh khiết của kim cương:
Trong tiêu chuẩn 4C, độ tinh khiết của kim cương là số lượng và
khả năng hiển thị của các đặc điểm bên trong và bên ngoài của một viên
kim cương.
Cấp độ trong cao nhất là Hoàn mỹ, được ký hiệu là
IF (Internal Flawless): Những viên kim cương này không
có tạp chất tỳ vết nào được nhìn thấy dưới độ phóng đại 10 lần.
Hai lớp tiếp theo được nhóm lại với nhau là VVS1
và VVS2: Những viên kim cương này được định nghĩa là
rất rất ít tỳ vết bên trong, gồm cấp độ thứ nhất (VVS1) hoặc thứ hai
(VVS2).
Tiếp theo là các cấp độ tinh khiết VS1 và
VS2: Các đầu kim (needle) và vết lông vũ nhỏ (small
feather) có thể được tìm thấy trong các lớp VS1 và VS2 này nhưng chúng
vẫn rất nhỏ so với kích thước của viên kim cương.
Cấp độ mà tỳ vết hoặc tạp chất có thể nhìn thấy rõ ràng là
SI1 và SI2: Tạp chất dễ nhìn thấy dưới
độ phóng đại ký loupe cầm tay nhưng thường không thể nhìn thấy bằng mắt
thường.
Phạm vi cấp độ rõ ràng cuối cùng là I1: Các tạp
chất có thể lớn hơn trong tự nhiên, có thể sẫm màu và có thể nhìn thấy
bằng mắt trong số các thuộc tính có thể có khác.
h %>% group_by(clarity) %>% summarise(n = n()) %>%
ggplot(aes(clarity,n)) +
geom_col(fill='grey') +
geom_text(aes(label = n),vjust = 2, color = 'white') +
xlab('Độ tinh khiết') +
ylab('Số lượng') +
labs(title = 'Hình 1: Cấp độ tinh khiết của kim cương')

-Qua hình trên ta thấy được: - Cấp độ tinh khiết của kim cương có sự
phân hoá không đồng đều (Cấp SI1=13065 lớn hơn nhiều so với cấp I1= 741)
- Cấp độ tinh khiết của kim cương cao thứ 2 là VS2= 12258 - Cấp độ tinh
khiết của kim cương cao thứ 3 là SI2= 9194 - Cấp độ tinh khiết của kim
cương cao thứ 4,5,6,7 lần lượt là VS1= 8171, VVS2= 5066, VVS1= 3655, IF=
1790
Cấp độ tinh khiết của kim cương (biểu đồ ngang)
h %>% ggplot(aes(x = clarity)) +
geom_bar() +
labs(x = 'Cấp độ tinh khiết', y = 'Số lượng') +
coord_flip() +
labs(title = 'Hình 1: Cấp độ tinh khiết của kim cương (biểu đồ ngang)')
- Quan sát biểu đồ ta thấy: - Cấp độ tinh khiết của kim cương có sự phân
hoá không đồng đều (Cấp SI1 lớn hơn nhiều so với cấp
I1) - Cấp độ tinh khiết của kim cương cao thứ 2 là
VS2 hơn 12000 viên - Cấp độ tinh khiết của kim cương
cao thứ 3 là SI2 hơn 9000 viên - Cấp độ tinh khiết của
kim cương cao thứ 4,5,6,7 lần lượt là VS1 hơn 8000
viên, VVS2 hơn 5000 viên, VVS1 hơn
3500 viên, IF hơn 1700 viên
Biểu đồ cấp độ tinh khiết của kim cương
h %>% group_by(clarity) %>% summarise(n = n()) %>%
ggplot(aes(clarity,n)) +
geom_col(fill='white') +
geom_text(aes(label = n),vjust = 2, color = 'black') +
labs(x = 'Cấp độ tinh khiết', y = 'Số lượng')

labs(title =' Hình 1: Biểu đồ phân loại cấp độ tinh khiết của kim cương') +
coord_flip()
## NULL
-Quan sát biểu đồ ta thấy được: - Cấp độ tinh khiết của kim cương có
sự phân hoá không đồng đều (Cấp SI1=13065 lớn hơn nhiều so với cấp I1=
741) - Cấp độ tinh khiết của kim cương cao thứ 2 là VS2= 12258 - Cấp độ
tinh khiết của kim cương cao thứ 3 là SI2= 9194 - Cấp độ tinh khiết của
kim cương cao thứ 4,5,6,7 lần lượt là VS1= 8171, VVS2= 5066, VVS1= 3655,
IF= 1790
Tập hợp các biểu đồ thể hiện số lượng kim cương theo cấp độ tinh
khiết
h %>% group_by(clarity,color) %>% summarise(n=n()) %>%
ggplot(aes(x = clarity,y = n)) +
geom_col(position = 'dodge') +
facet_wrap(~color) +
labs(x = 'Độ tinh khiết', y = 'Số lượng') +
labs(title = 'Hình 1: Tập hợp các biểu đồ thể hiện số lượng kim cương theo cấp độ tinh khiết')
## `summarise()` has grouped output by 'clarity'. You can override using the
## `.groups` argument.

Tập hợp các biểu đồ thể hiện tỉ lệ kim cương theo độ tinh khiết
h %>% group_by(clarity,color) %>% summarise(n=n()) %>%
ggplot(aes(x = clarity,y = n)) +
geom_col(position = 'dodge') +
facet_wrap(~color) +
geom_text(aes(label = n),vjust = 2, color = 'blue') +
labs(x = 'Độ tinh khiết', y = 'Số lượng') +
labs(title = 'Hình 1: Tập hợp các biểu đồ thể hiện số lượng kim cương theo độ tinh khiết')
## `summarise()` has grouped output by 'clarity'. You can override using the
## `.groups` argument.

Biểu đồ thể hiện trung bình giá kim cương theo độ tinh khiết
h %>% group_by(clarity,color) %>% summarise(m = mean(price)) %>%
ggplot(aes(x = clarity,y = m)) +
geom_col(position = 'dodge') +
facet_wrap(~color) +
geom_text(aes(label = round(m))) +
labs(x = 'Loại', y = 'Số lượng') +
labs(title = 'Hình 1: Biểu đồ thể hiện trung bình giá kim cương theo độ tinh khiết')
## `summarise()` has grouped output by 'clarity'. You can override using the
## `.groups` argument.

CARAT - Trọng lượng của kim cương:
Trọng lượng carat của viên kim cương được xác định bằng cách cân
viên kim cương trên một chiếc cân điện tử chính xác. Một carat bằng 1/5
gam, vì vậy một gam sẽ bằng năm carat.
Số carat thường được giữ hai số thập phân cuối cùng, ví dụ như
1.53 , 1.00 , 2.93 carat. Vì vậy, một viên kim cương một nửa carat sẽ
được biểu thị bằng 0,50 carat, một viên kim cương một carat sẽ được biểu
thị bằng 1,00.
Trọng lượng chính xác là rất quan trọng vì việc định giá dựa trên
trọng lượng này và có sự khác biệt đáng kể về giá cả đôi khi chỉ hơn một
phần trăm carat. Một viên kim cương nặng 0,99 carat có giá thấp hơn một
viên kim cương nặng 1,00 carat. Tuy nhiên nếu nhìn bằng mắt thường bạn
sẽ không phân biệt được sự khác biệt này.
h %>% group_by(carat) %>% filter(carat >= 0.23 & carat <= 2.05) %>% summarise(n = n()) %>%
ggplot(aes(carat,n)) +
geom_col(fill='blue') +
xlab('Carat') +
ylab('Số lượng') +
labs(title = 'Hình 1: Trọng lượng của kim cương')

Qua hình trên ta thấy được: - Ta thấy trọng lượng của kim cương phân
bố không đồng đều. Đa số tập trung ở mức từ 0,3-1,6 carat - Các mức
trọng lượng chiếm phần lớn là 0,3 ; 0,65 và 1 carat - Các mức trọng
lượng chiếm số lượng ít nhất là từ 1,6- 1,9
---
title: "Nhiệm vụ 4"
author: "Phạm Xuân Hoan"
date: "`r format(Sys.time(), '%H:%M:%S, %d - %m - %Y')`"
output:
  html_document:
    code_download: true
    code_folding: show
    theme: "default"
    toc_depth: 3
    toc_float: true
    toc: true
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
library(dplyr)
library(tidyverse)
library(scales)
library(DT)
```

 
# Mục tiêu bài nghiên cứu:
- Đánh giá 53940 viên kim cương trên dữ liệu Diamonds:
  
  - **CLARITY** (Độ tinh khiết của kim cương)
  - **COLOR** (Màu của kim cương)  
  - **CARAT** (Trọng lượng của kim cương)
  - **CUT** (Vết cắt của kim cương )
  
- Gồm có 10 biến, đó là:
  - **Price**: Giá của viên kim cương (USD)
  - **Carat**: Trọng lượng của viên kim cương (carat)
  - **Cut**: Chất lượng của vết cắt (Fair, Good, Very Good, Excellent, Ideal)
  - **Color**: Màu sắc của viên kim cương(D,E,I,F,G,H)
  - **Clarity**: Độ trong của viên kim cương(VS2,VVS2,SI1,SI2,VS1,VVS1)
  - **X**: Độ dài của viên kim cương (mm)
  - **Y**: Độ rộng của viên kim cương (mm)
  - **Z**: Độ sâu của viên kim cương (mm)
  - **Table**: Chiều rộng của đỉnh kim cương so với điểm rộng nhất
  - **Depth**: Tỷ lệ phần trăm độ sâu

# Tiến hành nghiên cứu:
Trước hết, ta cần phải gọi dữ liệu diamonds lên 
```{r echo=TRUE, warning=FALSE}
h <- diamonds
```

- Đổi tên biến **cut** trong dữ liệu diamonds, thay bằng tên **loại** để tránh bị nhầm lẫn khi đánh giá giữa loại của kim cương và vết cắt của kim cương 
```{r echo=TRUE, warning=FALSE}
h <- rename(h, loai = cut)
datatable(h)
```

# COLOR - Cấp độ màu của kim cương: 
- Cấp độ màu của kim cương nói một cách cụ thể là ta phân loại độ trong là của màu sắc:
  - Màu loại **D, E và F** có độ trong suốt gần như là tuyệt đối (Nên thường được được gọi là kim cương không màu)
  - Màu loại **G,H,I,J** có độ trong suốt cũng tương đối cao, rất khó để phân biệt được với các loại kim cương màu **D,E,F** vì chúng cũng gần như là kim cương không màu 
  
```{r echo=TRUE, warning=FALSE}
h %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(color,n)) +
    geom_col(fill='red') +
    geom_text(aes(label = n),vjust = 2, color = 'black') +
    xlab('Color') +
    ylab('Số lượng') +
    labs(title = 'Hình 1: Cấp độ màu của kim cương')
```

- Qua hình trên ta thấy được:
  - Tỉ trọng giữa các màu của kim cương không đồng đều
  - Cấp độ màu **G** có số lượng lớn nhất là 11292 viên gấp 4 lần so với cấp độ màu J bé nhất là 2808 viên
  - Cấp độ màu **E** có 9797 viên 
  - Cấp độ màu **F**, H, D có lần lượt là 9542, 8304, 6775 viên
  - Cấp độ màu **I** có 5422 viên 

## Biểu đồ phân loại màu của kim cương
```{r echo=TRUE, warning=FALSE}
h %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(color,n)) +
    geom_col(fill='blue') +
    geom_text(aes(label = n),vjust = 2, color = 'yellow') +
    labs(x = 'Màu', y = 'Số lượng')
    labs(title =' Hình 1: Biểu đồ phân loại màu của kim cương') +
    coord_flip()
```

- Quan sát biểu đồ ta thấy:
  - Màu sắc của các kim cương phân bố không đồng đều 
  - Số kim cương không màu chiếm phần lớn số lượng gồm: **D, E, F** có lần lượt là 6775, 9797, 9542 viên 
  - Số kim cương màu **G** chiếm số lượng lớn nhất với 11292 viên 
  - Số kim cương có màu nhưng rất ít( gần như không màu) chiếm phần nhỏ số lượng gồm: **H, I, J** có lần lượt là 8304, 5422, 2808 viên.

## Biểu đồ thể hiện số lượng kim cương theo màu 
```{r echo=TRUE, warning=FALSE}
h %>% group_by(color) %>% summarise(n=n()) %>%
  ggplot(aes(x = color,y = n)) +
    geom_col(position = 'dodge') +
    facet_wrap(~color) +
    geom_text(aes(label = n),vjust = 2, color = 'blue') +
    labs(x = 'Màu sắc', y = 'Số lượng') +
    labs(title = 'Hình 1: Tập hợp các biểu đồ thể hiện số lượng kim cương theo màu')
```

- Quan sát biểu đồ ta thấy:
  - Tỉ trọng giữa các màu của kim cương không đồng đều
  - Cấp độ màu **G** có số lượng lớn nhất là 11292 viên gấp 4 lần so với cấp độ màu J bé nhất là 2808 viên
  - Cấp độ màu **E** có 9797 viên 
  - Cấp độ màu **F**, H, D có lần lượt là 9542, 8304, 6775 viên
  - Cấp độ màu **I** có 5422 viên 

## Biểu đồ phân bổ số lượng màu của các kim cương(Biểu đồ ngang)
```{r echo=TRUE, warning=FALSE}
h %>% ggplot(aes(x = color)) +
    geom_bar() +
    labs(x = 'Màu sắc', y = 'Số lượng') +
    coord_flip() +
    labs(title = 'Hình 1: Biểu đồ phân bổ số lượng màu của các kim cương(biểu đồ ngang)')
```

- Quan sát biểu đồ ta thấy:
  - Màu sắc của các kim cương phân bố không đồng đều. Cho thấy mức độ khan hiếm của từng loại màu của kim cương 
  - Số kim cương màu **G** chiếm số lượng lớn nhất với hơn 11000 viên 
  - Số kim cương có màu nhưng rất ít( gần như không màu) chiếm phần nhỏ số lượng gồm: **H, I, J** có lần lượt là hơn 8000viên, gần 5500 viên, gần 3000 viên.
  - Số kim cương không màu chiếm phần lớn số lượng gồm: **D, E, F** có lần lượt là hơn 6500 viên, gần 10000 viên, xấp xỉ 9500 viên

## Biểu đồ thể hiện giá trị trung bình của số kim cương phân theo màu
```{r echo=TRUE, warning=FALSE}
h %>% group_by(loai) %>% summarise(m= mean(carat)) %>%
  ggplot(aes(x = loai,y = m)) +
    geom_col(position = 'dodge') +
    geom_text(aes(label = round(m,2)), vjust = 2, color = 'red') +
    labs(x = 'Màu', y = 'Mean') +
    labs(title = 'Hình 1: Biểu đồ thể hiện trung bình số kim cương theo màu')
```

- Quan sát biểu đồ ta thấy 
  - Mức độ phân bố trung bình các màu của kim cương tương đối đồng đều 
  - Màu **Fair** có mức độ phân bố trung bình cao nhất 1,05
  - Màu **Good**, **Very Good**, **Premium**có mức độ phân bố trung bình gần 0,8 cụ thể lần lượt là: 0,85; 0,81; 0,89
  - Màu **Ideal** có mức độ phân bố trung bình thấp nhất chỉ nằm ở 0,7
  
## Biểu đồ thể hiện tỉ lệ kim cương theo loại và màu
```{r echo=TRUE, warning=FALSE}
k <- h %>% group_by(loai, color) %>% summarise(n = n())
k %>% ggplot(aes(x = loai, y = n)) +
  geom_col(data = k %>% filter(color == 'G'), fill = 'red') +
  geom_col(data = k %>% filter(color == 'H'), fill = 'blue')
```

- Quan sát biểu đồ ta thấy:
  - k là một tập hợp mới thống kê số lượng kim cương theo loại và màu 
  - Ta thấy số lượng kim cương màu H chiếm phần lớn trong tổng, số lượng kim cương màu G chỉ chiếm số ít 
- Cụ thể: 
  - SỐ lượng kim cương màu G loại **Ideal** nhiều nhất với hơn 3000 viên trong khi đó cùng loại màu H chỉ gần 2000 viên
  - Số lượng kim cương màu G loại **Fair** chiếm phần lớn với hơn 300 viên trong khi đó cùng loại màu H gần như không có
  - SỐ lượng kim cương màu G loại **VeryGood**chiếm trung bình với gần 2000 viên trong khi đó cùng loại màu H chỉ gần 500 viên
  
# CUT - Vết cắt của kim cương (bao gồm: depth và table):
- Vết cắt của viên kim cương trong tiêu chuẩn 4C thường bị nhầm lẫn với hình dạng thực sự của viên kim cương: Vết cắt (CUT) được đánh giá bằng các tỷ lệ chứ không phải về hình dạng, bao gồm 

  - Mặt Bàn (table): Mặt bàn có hình lục giác, là bề mặt lớn nhất trên đỉnh của viên kim cương. Đo bằng milimét và sau đó chia cho đường kính trung bình của viên kim cương để lấy phần trăm (% table). 
  
    - Đối với một viên kim cương tròn, 60% là tiêu chuẩn để giúp bạn so sánh vì đây là một kích thước mặt bàn kim cương đẹp.
  
    - Khi mặt bàn kim cương lớn hơn 65% được coi là lớn, là không còn là chỉ số tối ưu. Kích thước bảng dưới 60% được coi là nhiều hơn trong phạm vi “lý tưởng”, giảm xuống khoảng 53%. Dưới đó, bảng có thể được coi là quá nhỏ. 

  - Chiều sâu (depth): Chiều sâu của viên kim cương có thể được tính bằng cách chia tổng chiều sâu từ đỉnh đến đáy của viên kim cương cho đường kính trung bình. Một lần nữa, 60% là tiêu chuẩn để đánh giá. Nếu viên kim cương quá sâu, nó có thể xuất hiện màu tối. Nếu viên kim cương quá nông, nó có thể mất độ sáng khi ánh sáng lọt ra ngoài. Thông thường, đối với một viên kim cương tròn, 57,5% đến 63% là phạm vi ưa thích.
  
```{r echo=TRUE, warning=FALSE}
h %>% group_by(table) %>% filter(table >= 53 & table <= 65) %>% summarise(n = n()) %>% 
  ggplot(aes(table,n)) +
    geom_col(fill='green') +
    xlab('Table') +
    ylab('Số lượng') +
    labs(title = 'Hình 1: Vết cắt table của kim cương')
```

- Quan sát biểu đồ trên ta thấy được:
  - Mức độ phân bổ của các vết cắt kim cương ko đồng đều 
  - Các viên kim cương có vết cắt nằm trong khoảng từ 55 đến 60 chiếm số lượng lớn nhất với hơn 30000 viên. Cụ thể là: Vết cắt ở 55,75 và 56,6 chiếm số lượng lớn nhất với hơn 19000 viên 
  - Các viên kim cương có vết cắt nằm trong khoảng từ 52,5 đến dưới 55 chiếm số lượng tương đối nhỏ với hơn 3000 viên. 
  - Các viên kim cương có vết cắt nằm trong khoảng từ 60 đến dưới 65 chiếm số lượng nhỏ nhất với hơn 4000 viên. Cụ thể là: Vết cắt ở 65 chiếm số lượng nhỏ nhất với chỉ khoảng 200 viên 

##Cut: Vết cắt của kim cương
```{r echo=TRUE, warning=FALSE}
h %>% ggplot(aes(x = loai)) +
    geom_bar() +
    labs(x = 'Loại', y = 'Số lượng') +
    coord_flip() +
    labs(title = 'Hình 1: Vết cắt của kim cương(biểu đồ ngang)')
```

- Quan sát biểu đồ trên ta thấy được:
  - Mức độ phân bổ của các loại kim cương ko đồng đều 
  - Các viên kim cương loại **Ideal** có số lượng lớn nhất với hơn 20000 viên.
  - Các viên kim cương loại **Fair** có số lượng ít nhất với hơn 2500 viên.
  - Các viên kim cương loại **Good**, **Verygood**, **Premium** có số lượng trung bình với lần lượt là 5000, 12500, 13000 viên

## Biểu đồ phân loại kim cương

```{r echo=TRUE, warning=FALSE}
h %>% group_by(loai) %>% summarise(n = n()) %>%
  ggplot(aes(loai,n)) +
    geom_col(fill='grey') +
    geom_text(aes(label = n),vjust = 2, color = 'red') +
    labs(x = 'Loại', y = 'Số lượng') +
    labs(title =' Hình 1: Biểu đồ phân loại kim cương')
```

- Quan sát biểu đồ ta thấy:
  - Mức độ phân bố kim cương theo các loại không đồng đều 
  - Số lượng kim cương loại **Ideal** nhiều nhất với 21551 viên 
  - Số lượng kim cương loại **Fair** ít nhất với 1610 viên ít hơn 13 lần so với loại **Ideal**
  - Số lượng kim cương loại **Good**, **Verygood**, **Premium** có số lượng tăng dần lần lượt là: 4906 viên, 12082 viên, 13791 viên

## Biểu đồ thể hiện tỉ lệ kim cương theo loại và màu 
```{r echo=TRUE, warning=FALSE}
k <- h %>% group_by(loai, color) %>% summarise(n = n())
k %>% ggplot(aes(x = loai, y = n)) +
  geom_col(data = k %>% filter(color == 'G'), fill = 'green') +
  geom_col(data = k %>% filter(color == 'H'), fill = 'grey')
```
  
## Biểu đồ tỉ số loại kim cương

```{r echo=TRUE, warning=FALSE}
h %>% group_by(loai) %>% summarise(n = n()) %>%
  ggplot(aes(loai,n)) +
    geom_col(fill='beige') +
    geom_text(aes(label = percent(n/length(h$carat))),vjust = 2, color = 'red') +
    labs(x = 'Loại', y = 'Số lượng') +
    labs(title =' Hình1: Biểu đồ tỉ số các loại kim cương')
    
```

- Quan sát biểu đồ ta thấy:
  - Các loại kim cương phân bố không đồng đều
  - Số lượng kim cương loại **Ideal** nhiều nhất chiếm hơn 40% 
  - Số lượng kim cương loại **Fair** ít nhất chiếm chỉ hơn 3% ít hơn 13 lần so với loại **Ideal**
  - Số lượng kim cương loại **Good**, **Verygood**, **Premium** có số lượng tăng dần lần lượt là: 9,1%, 22,4%; 25,6%

## Biểu đồ thể hiện trung bình giá kim cương theo loại
```{r echo=TRUE, warning=FALSE}
h %>% group_by(loai,color) %>% summarise(m = mean(price)) %>%
  ggplot(aes(x = loai,y = m)) +
    geom_col(position = 'dodge') +
    facet_wrap(~color) +
    geom_text(aes(label = round(m))) +
    labs(x = 'Loại', y = 'Số lượng') +
    labs(title = 'Hình 1: Biểu đồ thể hiện trung bình giá kim cương theo loại')
```

## Tập hợp các biểu đồ thể hiện tỉ lệ kim cương theo loại
```{r echo=TRUE, warning=FALSE}
h %>% group_by(loai,color) %>% summarise(n=n()) %>%
  ggplot(aes(x = loai,y = n)) +
    geom_col(position = 'dodge') +
    facet_wrap(~color) +
    geom_text(aes(label = n),vjust = 2, color = 'blue') +
    labs(x = 'Loại', y = 'Số lượng') +
    labs(title = 'Hình 1: Tập hợp các biểu đồ thể hiện tỉ lệ kim cương theo loại')
```

# CLARITY - Đánh giá cấp độ tinh khiết của kim cương: 
- Trong tiêu chuẩn 4C, độ tinh khiết của kim cương là số lượng và khả năng hiển thị của các đặc điểm bên trong và bên ngoài của một viên kim cương.

  - Các đặc điểm bên trong được gọi là “Inclusions” hay dịch một cách tổng quát là các tỳ vết bao bên trong. 
  
  - Các đặc điểm bên ngoài được giới hạn trên bề mặt của vết cắt của viên kim cương.

- Cấp độ trong cao nhất là Hoàn mỹ, được ký hiệu là **IF** (Internal Flawless): Những viên kim cương này không có tạp chất tỳ vết nào được nhìn thấy dưới độ phóng đại 10 lần.

- Hai lớp tiếp theo được nhóm lại với nhau là **VVS1** và **VVS2**: Những viên kim cương này được định nghĩa là rất rất ít tỳ vết bên trong, gồm cấp độ thứ nhất (VVS1) hoặc thứ hai (VVS2).

- Tiếp theo là các cấp độ tinh khiết **VS1** và **VS2**: Các đầu kim (needle) và vết lông vũ nhỏ (small feather) có thể được tìm thấy trong các lớp VS1 và VS2 này nhưng chúng vẫn rất nhỏ so với kích thước của viên kim cương.

- Cấp độ mà tỳ vết hoặc tạp chất có thể nhìn thấy rõ ràng là **SI1** và **SI2**: Tạp chất dễ nhìn thấy dưới độ phóng đại ký loupe cầm tay nhưng thường không thể nhìn thấy bằng mắt thường.

- Phạm vi cấp độ rõ ràng cuối cùng là **I1**: Các tạp chất có thể lớn hơn trong tự nhiên, có thể sẫm màu và có thể nhìn thấy bằng mắt trong số các thuộc tính có thể có khác.
```{r echo=TRUE, warning=FALSE}
h %>% group_by(clarity) %>% summarise(n = n()) %>%
  ggplot(aes(clarity,n)) +
    geom_col(fill='grey') +
    geom_text(aes(label = n),vjust = 2, color = 'white') +
    xlab('Độ tinh khiết') +
    ylab('Số lượng') +
    labs(title = 'Hình 1: Cấp độ tinh khiết của kim cương')
```

-Qua hình trên ta thấy được:
  - Cấp độ tinh khiết của kim cương có sự phân hoá không đồng đều (Cấp SI1=13065 lớn hơn nhiều so với cấp I1= 741)
  - Cấp độ tinh khiết của kim cương cao thứ 2 là VS2= 12258
  - Cấp độ tinh khiết của kim cương cao thứ 3 là SI2= 9194
  - Cấp độ tinh khiết của kim cương cao thứ 4,5,6,7 lần lượt là VS1= 8171, VVS2= 5066, VVS1= 3655, IF= 1790
  
## Cấp độ tinh khiết của kim cương (biểu đồ ngang)
```{r echo=TRUE, warning=FALSE}
h %>% ggplot(aes(x = clarity)) +
    geom_bar() +
    labs(x = 'Cấp độ tinh khiết', y = 'Số lượng') +
    coord_flip() +
    labs(title = 'Hình 1: Cấp độ tinh khiết của kim cương (biểu đồ ngang)')
```
- Quan sát biểu đồ ta thấy:
  - Cấp độ tinh khiết của kim cương có sự phân hoá không đồng đều (Cấp **SI1** lớn hơn nhiều so với cấp **I1**)
  - Cấp độ tinh khiết của kim cương cao thứ 2 là **VS2** hơn 12000 viên 
  - Cấp độ tinh khiết của kim cương cao thứ 3 là **SI2** hơn 9000 viên 
  - Cấp độ tinh khiết của kim cương cao thứ 4,5,6,7 lần lượt là **VS1** hơn 8000 viên, **VVS2** hơn 5000 viên, **VVS1** hơn 3500 viên, **IF** hơn 1700 viên 

## Biểu đồ cấp độ tinh khiết của kim cương 
```{r echo=TRUE, warning=FALSE}
h %>% group_by(clarity) %>% summarise(n = n()) %>%
  ggplot(aes(clarity,n)) +
    geom_col(fill='white') +
    geom_text(aes(label = n),vjust = 2, color = 'black') +
    labs(x = 'Cấp độ tinh khiết', y = 'Số lượng')
    labs(title =' Hình 1: Biểu đồ phân loại cấp độ tinh khiết của kim cương') +
    coord_flip()
```
-Quan sát biểu đồ ta thấy được:
  - Cấp độ tinh khiết của kim cương có sự phân hoá không đồng đều (Cấp SI1=13065 lớn hơn nhiều so với cấp I1= 741)
  - Cấp độ tinh khiết của kim cương cao thứ 2 là VS2= 12258
  - Cấp độ tinh khiết của kim cương cao thứ 3 là SI2= 9194
  - Cấp độ tinh khiết của kim cương cao thứ 4,5,6,7 lần lượt là VS1= 8171, VVS2= 5066, VVS1= 3655, IF= 1790

## Tập hợp các biểu đồ thể hiện số lượng kim cương theo cấp độ tinh khiết
```{r echo=TRUE, warning=FALSE}
h %>% group_by(clarity,color) %>% summarise(n=n()) %>%
  ggplot(aes(x = clarity,y = n)) +
    geom_col(position = 'dodge') +
    facet_wrap(~color) +
    labs(x = 'Độ tinh khiết', y = 'Số lượng') +
    labs(title = 'Hình 1: Tập hợp các biểu đồ thể hiện số lượng kim cương theo cấp độ tinh khiết')
```
  
## Tập hợp các biểu đồ thể hiện tỉ lệ kim cương theo độ tinh khiết
```{r echo=TRUE, warning=FALSE}
h %>% group_by(clarity,color) %>% summarise(n=n()) %>%
  ggplot(aes(x = clarity,y = n)) +
    geom_col(position = 'dodge') +
    facet_wrap(~color) +
    geom_text(aes(label = n),vjust = 2, color = 'blue') +
    labs(x = 'Độ tinh khiết', y = 'Số lượng') +
    labs(title = 'Hình 1: Tập hợp các biểu đồ thể hiện số lượng kim cương theo độ tinh khiết')
```

## Biểu đồ thể hiện trung bình giá kim cương theo độ tinh khiết 
```{r echo=TRUE, warning=FALSE}
h %>% group_by(clarity,color) %>% summarise(m = mean(price)) %>%
  ggplot(aes(x = clarity,y = m)) +
    geom_col(position = 'dodge') +
    facet_wrap(~color) +
    geom_text(aes(label = round(m))) +
    labs(x = 'Loại', y = 'Số lượng') +
    labs(title = 'Hình 1: Biểu đồ thể hiện trung bình giá kim cương theo độ tinh khiết')
```

# CARAT - Trọng lượng của kim cương:
- Trọng lượng carat của viên kim cương được xác định bằng cách cân viên kim cương trên một chiếc cân điện tử chính xác. Một carat bằng 1/5 gam, vì vậy một gam sẽ bằng năm carat. 

- Số carat thường được giữ hai số thập phân cuối cùng, ví dụ như 1.53 , 1.00 , 2.93 carat. Vì vậy, một viên kim cương một nửa carat sẽ được biểu thị bằng 0,50 carat, một viên kim cương một carat sẽ được biểu thị bằng 1,00.

- Trọng lượng chính xác là rất quan trọng vì việc định giá dựa trên trọng lượng này và có sự khác biệt đáng kể về giá cả đôi khi chỉ hơn một phần trăm carat. Một viên kim cương nặng 0,99 carat có giá thấp hơn một viên kim cương nặng 1,00 carat. Tuy nhiên nếu nhìn bằng mắt thường bạn sẽ không phân biệt được sự khác biệt này.

```{r echo=TRUE, warning=FALSE}
h %>% group_by(carat) %>% filter(carat >= 0.23 & carat <= 2.05) %>% summarise(n = n()) %>%
  ggplot(aes(carat,n)) +
    geom_col(fill='blue') +
    xlab('Carat') +
    ylab('Số lượng') +
    labs(title = 'Hình 1: Trọng lượng của kim cương')
```

Qua hình trên ta thấy được:
- Ta thấy trọng lượng của kim cương phân bố không đồng đều. Đa số tập trung ở mức từ 0,3-1,6 carat
- Các mức trọng lượng chiếm phần lớn là 0,3 ; 0,65 và 1 carat
- Các mức trọng lượng chiếm số lượng ít nhất là từ 1,6- 1,9 



