1 Mục tiêu bài nghiên cứu:
Đánh giá 53940 viên kim cương trên dữ liệu Diamonds::
CLARITY (Độ tinh khiết của kim cương)
COLOR (Màu của kim cương)
CARAT (Trọng lượng của kim cương)
CUT (Vết cắt của kim cương )
Gồm có 10 biến, đó là:
- Price: Giá của viên kim cương (USD)
- Carat: Trọng lượng của viên kim cương (carat)
- Cut: Chất lượng của vết cắt (Fair, Good, Very Good,
Excellent, Ideal)
- Color: Màu sắc của viên kim cương(D,E,I,F,G,H)
- Clarity: Độ trong của viên kim
cương(VS2,VVS2,SI1,SI2,VS1,VVS1)
- X: Độ dài của viên kim cương (mm)
- Y: Độ rộng của viên kim cương (mm)
- Z: Độ sâu của viên kim cương (mm)
- Table: Chiều rộng của đỉnh kim cương so với điểm
rộng nhất
- Depth: Tỷ lệ phần trăm độ sâu
2 Tiến hành nghiên cứu:
Trước hết, ta cần phải gọi dữ liệu diamonds lên
- Đổi tên biến cut trong dữ liệu diamonds, thay bằng
tên loại để tránh bị nhầm lẫn khi đánh giá giữa loại
của kim cương và vết cắt của kim cương
h <- rename(h, loai = cut)
datatable(h)
3 Tiến hành nghiên cứu
3.1 Biểu đồ tỉ số loại kim cương
h %>% group_by(loai) %>% summarise(n = n()) %>%
ggplot(aes(loai,n)) +
geom_col(fill='beige') +
geom_text(aes(label = percent(n/length(h$carat))),vjust = 2, color = 'red') +
labs(x = 'Loại', y = 'Số lượng') +
labs(title =' Hình1: Biểu đồ tỉ số các loại kim cương')

- Quan sát biểu đồ ta thấy:
- Các loại kim cương phân bố không đồng đều
- Số lượng kim cương loại Ideal nhiều nhất chiếm hơn
40%
- Số lượng kim cương loại Fair ít nhất chiếm chỉ hơn
3% ít hơn 13 lần so với loại Ideal
- Số lượng kim cương loại Good,
Verygood, Premium có số lượng tăng dần
lần lượt là: 9,1%, 22,4%; 25,6%
3.2 Biểu đồ phân loại màu của kim cương
h %>% group_by(color) %>% summarise(n = n()) %>%
ggplot(aes(color,n)) +
geom_col(fill='blue') +
geom_text(aes(label = n),vjust = 2, color = 'yellow') +
labs(x = 'Màu', y = 'Số lượng')

labs(title =' Hình 1: Biểu đồ phân loại màu của kim cương') +
coord_flip()
- Quan sát biểu đồ ta thấy:
- Màu sắc của các kim cương phân bố không đồng đều
- Số kim cương không màu chiếm phần lớn số lượng gồm: D, E,
F có lần lượt là 6775, 9797, 9542 viên
- Số kim cương màu G chiếm số lượng lớn nhất với
11292 viên
- Số kim cương có màu nhưng rất ít( gần như không màu) chiếm phần nhỏ
số lượng gồm: H, I, J có lần lượt là 8304, 5422, 2808
viên.
3.3 Biểu đồ thể hiện số lượng kim cương theo màu
h %>% group_by(color) %>% summarise(n=n()) %>%
ggplot(aes(x = color,y = n)) +
geom_col(position = 'dodge') +
facet_wrap(~color) +
geom_text(aes(label = n),vjust = 2, color = 'blue') +
labs(x = 'Màu sắc', y = 'Số lượng') +
labs(title = 'Hình 1: Tập hợp các biểu đồ thể hiện số lượng kim cương theo màu')

- Quan sát biểu đồ ta thấy:
- Tỉ trọng giữa các màu của kim cương không đồng đều
- Cấp độ màu G có số lượng lớn nhất là 11292 viên gấp
4 lần so với cấp độ màu J bé nhất là 2808 viên
- Cấp độ màu E có 9797 viên
- Cấp độ màu F, H, D có lần lượt là 9542, 8304, 6775
viên
- Cấp độ màu I có 5422 viên
3.4 Biểu đồ phân bổ số lượng màu của các kim cương(Biểu đồ
ngang)
h %>% ggplot(aes(x = color)) +
geom_bar() +
labs(x = 'Màu sắc', y = 'Số lượng') +
coord_flip() +
labs(title = 'Hình 1: Biểu đồ phân bổ số lượng màu của các kim cương(biểu đồ ngang)')

- Quan sát biểu đồ ta thấy:
- Màu sắc của các kim cương phân bố không đồng đều. Cho thấy mức độ
khan hiếm của từng loại màu của kim cương
- Số kim cương màu G chiếm số lượng lớn nhất với hơn
11000 viên
- Số kim cương có màu nhưng rất ít( gần như không màu) chiếm phần nhỏ
số lượng gồm: H, I, J có lần lượt là hơn 8000viên, gần
5500 viên, gần 3000 viên.
- Số kim cương không màu chiếm phần lớn số lượng gồm: D, E,
F có lần lượt là hơn 6500 viên, gần 10000 viên, xấp xỉ 9500
viên
3.5 Biểu đồ thể hiện giá trị trung bình của số kim cương phân theo
màu
h %>% group_by(loai) %>% summarise(m= mean(carat)) %>%
ggplot(aes(x = loai,y = m)) +
geom_col(position = 'dodge') +
geom_text(aes(label = round(m,2)), vjust = -1, color = 'red') +
labs(x = 'Màu', y = 'Mean') +
labs(title = 'Hình 1: Biểu đồ thể hiện trung bình số kim cương theo màu')

- Quan sát biểu đồ ta thấy
- Mức độ phân bố trung bình các màu của kim cương tương đối đồng
đều
- Màu Fair có mức độ phân bố trung bình cao nhất
1,05
- Màu Good, Very Good,
Premiumcó mức độ phân bố trung bình gần 0,8 cụ thể lần
lượt là: 0,85; 0,81; 0,89
- Màu Ideal có mức độ phân bố trung bình thấp nhất
chỉ nằm ở 0,7
3.6 Biểu đồ thể hiện tỉ lệ kim cương theo loại và màu
k <- h %>% group_by(loai, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'loai'. You can override using the
## `.groups` argument.
k %>% ggplot(aes(x = loai, y = n)) +
geom_col(data = k %>% filter(color == 'G'), fill = 'red') +
geom_col(data = k %>% filter(color == 'H'), fill = 'blue')

- Quan sát biểu đồ ta thấy:
- k là một tập hợp mới thống kê số lượng kim cương theo loại và
màu
- Ta thấy số lượng kim cương màu H chiếm phần lớn trong tổng, số lượng
kim cương màu G chỉ chiếm số ít
- Cụ thể:
- SỐ lượng kim cương màu G loại Ideal nhiều nhất với
hơn 3000 viên trong khi đó cùng loại màu H chỉ gần 2000 viên
- Số lượng kim cương màu G loại Fair chiếm phần lớn
với hơn 300 viên trong khi đó cùng loại màu H gần như không có
- SỐ lượng kim cương màu G loại VeryGoodchiếm trung
bình với gần 2000 viên trong khi đó cùng loại màu H chỉ gần 500
viên
3.7 Biểu đồ thể hiện vết cắt table của kim cương
h %>% group_by(table) %>% filter(table >= 53 & table <= 65) %>% summarise(n = n()) %>%
ggplot(aes(table,n)) +
geom_col(fill='green') +
xlab('Table') +
ylab('Số lượng') +
labs(title = 'Hình 1: Vết cắt table của kim cương')

- Quan sát biểu đồ trên ta thấy được:
- Mức độ phân bổ của các vết cắt kim cương ko đồng đều
- Các viên kim cương có vết cắt nằm trong khoảng từ 55 đến 60 chiếm số
lượng lớn nhất với hơn 30000 viên. Cụ thể là: Vết cắt ở 55,75 và 56,6
chiếm số lượng lớn nhất với hơn 19000 viên
- Các viên kim cương có vết cắt nằm trong khoảng từ 52,5 đến dưới 55
chiếm số lượng tương đối nhỏ với hơn 3000 viên.
- Các viên kim cương có vết cắt nằm trong khoảng từ 60 đến dưới 65
chiếm số lượng nhỏ nhất với hơn 4000 viên. Cụ thể là: Vết cắt ở 65 chiếm
số lượng nhỏ nhất với chỉ khoảng 200 viên
3.8 Biểu đồ thể hiện trung bình giá kim cương theo loại
h %>% group_by(loai,color) %>% summarise(m = mean(price)) %>%
ggplot(aes(x = loai,y = m)) +
geom_col(position = 'dodge') +
facet_wrap(~color) +
geom_text(aes(label = round(m))) +
labs(x = 'Loại', y = 'Số lượng') +
labs(title = 'Hình 1: Biểu đồ thể hiện trung bình giá kim cương theo loại')
## `summarise()` has grouped output by 'loai'. You can override using the
## `.groups` argument.

3.9 Tập hợp các biểu đồ thể hiện số lượng kim cương theo cấp độ tinh
khiết
h %>% group_by(clarity,color) %>% summarise(n=n()) %>%
ggplot(aes(x = clarity,y = n)) +
geom_col(position = 'dodge') +
facet_wrap(~color) +
labs(x = 'Độ tinh khiết', y = 'Số lượng') +
labs(title = 'Hình 1: Tập hợp các biểu đồ thể hiện số lượng kim cương theo cấp độ tinh khiết')
## `summarise()` has grouped output by 'clarity'. You can override using the
## `.groups` argument.

3.10 Biểu đồ thể hiện trọng lượng của kim cương
h %>% group_by(carat) %>% filter(carat >= 0.23 & carat <= 2.05) %>% summarise(n = n()) %>%
ggplot(aes(carat,n)) +
geom_col(fill='blue') +
xlab('Carat') +
ylab('Số lượng') +
labs(title = 'Hình 1: Trọng lượng của kim cương')

Qua hình trên ta thấy được: - Ta thấy trọng lượng của kim cương phân
bố không đồng đều. Đa số tập trung ở mức từ 0,3-1,6 carat - Các mức
trọng lượng chiếm phần lớn là 0,3 ; 0,65 và 1 carat - Các mức trọng
lượng chiếm số lượng ít nhất là từ 1,6- 1,9
3.11 Biểu đồ thể hiện kim cương theo màu
h %>% ggplot(aes(x = price, fill = color)) +
geom_histogram(binwidth = 500)

- Quan sát biểu đồ ta thấy: Kim cương càng hiếm thì có giá trị càng
cao ví dụ như màu J,I. Ngược lại mức dộ phổ biến của các màu D, E , F là
rất cao
3.12 Biểu đồ thể hiện mức dộ phân bổ của kim cương theo mức giá
h %>% ggplot(aes(x = price)) +
geom_histogram(binwidth = 500, fill = 'blue', color = 'red') +
facet_wrap(~color)

3.13 Biểu đồ thể hiện số lượng kim cương màu G và màu J
h %>% ggplot(aes(x = price)) +
geom_histogram(data = h %>% filter(color == 'G'), binwidth = 500, fill = 'red') +
geom_histogram(data = h %>% filter(color == 'J'), binwidth = 500, fill = 'green')

3.14 Biểu đồ thể hiện tỉ trọng kim cương theo mức giá
h %>% ggplot(aes(x = price)) +
geom_density(fill = 'red')

3.15 Biểu đồ thể hiện tỉ trọng kim cương theo mức giá của từng
loại
h %>% ggplot(aes(x = price)) +
geom_density(fill = 'green') +
facet_wrap(~loai)

3.16 Biểu đồ thể hiện số lượng kim cương theo màu
h %>% group_by(color) %>% summarise(n = n()) %>%
ggplot(aes(x = '', y = n,fill = color)) +
geom_col() +
coord_polar('y')

3.17 Biểu đồ thể hiện sự phân bổ của kim cương theo giá và trọng
lượng
h %>% ggplot(aes(x = carat, y = price)) +
geom_point() +
xlab('Trọng lượng của kim cương') +
ylab('Giá trị của kim cương')

3.18 Biểu đồ thể hiện xu hướng phân bổ kim cương theo giá , carat
của từng màu
h %>% ggplot(aes(x = carat, y = price)) +
geom_point(color = 'red') +
geom_smooth(method = 'lm', color = 'green') +
facet_wrap('color')
## `geom_smooth()` using formula = 'y ~ x'

3.19 Biểu đồ thể hiên số kim cương theo carat và color
qplot(color, data = diamonds, geom = 'bar', weight = carat)+ scale_y_continuous("carat")

