1 Giới thiệu bộ dữ liệu Diamond.

  • Bộ dữ liệu kim cương (diamond) là một tập dữ liệu được tích hợp sẵn trong RStudio, cung cấp thông tin về giá cả và các thuộc tính của hơn 53.940 viên kim cương cắt tròn.

Đặc điểm của bộ dữ liệu:

Số lượng: 53.940 viên kim cương

Biến: 10 biến đo lường các thông tin khác nhau về kim cương

price: Giá (đô la Mỹ)

carat: Trọng lượng (carat)

cut: Chất lượng cắt (Fair, Very Good, Good, Premium, ideal)

color: màu sắc viên kim cương (D,E,F,G,H,I,J), từ không màu đến màu vàng nhạt

clarity: Độ trong/ tinh khiết ( IF, VVS1, VVS2, VS1, VS2, SI1, SI2, I1)(nhiều tạp chất I1 -> vô cùng tinh khiết IF)

x: Chiều dài (mm)

y: Chiều rộng (mm)

z: Độ sâu (mm)

depth: Tỷ lệ phần trăm độ sâu so với đường kính viên kim cương

table: Chiều rộng của đỉnh kim cương so với điểm rộng nhất

2 Hình thành ít nhất 30 độ thị bar chart cho bộ dữ liệu Diamond.

  • Việc xây dựng Biểu đồ giúp trực quan hóa dữ liệu và nhận diện các mẫu hoặc xu hướng có thể không dễ dàng nhìn thấy bằng cách nhìn vào dữ liệu thô.

2.1 Phân tích đồ thị dạng cột về mức độ phổ biến của các loại màu sắc trong viên kim cương.

  • Ý muốn: để dể dàng cho quá trình nhận diện một cách hoàn chỉnh bằng cách thông kê so sánh theo từng nhóm màu sắc mới tạo ra của các mẫu kim cương và tổng lại theo số lượng từ đó dể dàng cho quá trình trao đổi thông tin với các khách hàng, doanh nghiệp có nhu cầu. Có thể phục vụ có quá trình nghiên cứu thị trường. Đặc biệt là làm rõ hơn các ký hiệu màu đưa ra cách trực quan và so sánh theo từng nhóm.
library(tidyverse) #Tải thư viện tidyverse
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ ggplot2   3.5.0     ✔ tibble    3.2.1
## ✔ lubridate 1.9.3     ✔ tidyr     1.3.1
## ✔ purrr     1.0.2     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
#chuẩn bị dữ liệu
nv4 <- diamonds #Gán bộ dữ liệu diamonds có sẵn trong RStudio vào biến mới nv4.
#Tính toán và tạo biểu đồ:
nv4 <- nv4 %>% mutate(colorC = case_when(
  nv4$color %in% c("D", "E", "F") ~ "Thường", # tạo biến mới bằng việc gán các dữ liệu tưng ương với 3 giá trị mới
  nv4$color %in% c("I", "J") ~ "Rất hiếm",
  nv4$color %in% c("G", "H") ~ "Hiếm"))
nv4 %>% ggplot(aes(x = colorC)) + #Tạo biểu đồ ggplot2 với trục x  biểu thị/ánh xạ colorC.
  geom_bar(fill = 'orange') + labs(title = "Phân tích đồ thị dạng cột về mức độ phổ biến của các loại màu sắc trong viên kim cương.", x="Loại", y = "Số lượng") #Đặt tên cho biểu đồ, sử dụng labs từ ggplot2 để đặt nhãn cho trục x và y.

Nhận xét biểu đồ

  • Nó giúp ta tổng kết lại tổng số lượng các viên kim cương theo các giá trị mới tạo của biến màu sắc để đánh giá cụ thể lần lược từ Hiếm->Rất hiếm-> Thường (trái sang phải).

  • Trong đó những viên thường chiếm nhiều nhất (trên 25000) và rất hiếm chiếm ít nhất (dưới 10000) chênh lệch nhau khoảng 15000 viên.

  • Các nhóm màu không đồng đều nhau thể hiện rõ tần số xuất hiện của từng nhóm theo phân khúc tập trung ở hiếm, thường chiếm ưu thế

=> Qua đó cho thấy tùy theo mức độ hiếm (theo màu) sẽ giúp đưa ra các chiến lược thị trường phù hợp.

2.2 Phân tích đồ thị hình cột để phân bố mức độ tinh khiết của viên kim cương.

  • Ý muốn: để dể dàng cho quá trình nhận diện một cách hoàn chỉnh bằng cách thông kê so sánh theo từng nhóm độ tinh khiết mới tạo ra của các mẫu kim cương và tổng lại theo số lượng từ đó dể dàng cho quá trình trao đổi thông tin với các khách hàng, doanh nghiệp có nhu cầu. Có thể phục vụ có quá trình nghiên cứu thị trường. Đặc biệt là làm rõ hơn các ký hiệu độ tinh khiết ra 1 cách trực quan để so sánh theo từng nhóm.
#chuẩn bị dữ liệu:
nv4 <- diamonds #Gán bộ dữ liệu diamonds có sẵn trong RStudio vào biến mới nv4
#Tính toán và tạo biểu đồ:
nv4 <- nv4 %>% mutate(clarityC = case_when(
  nv4$clarity %in% c("IF") ~ "Tinh khiết",
  nv4$clarity %in% c("VVS1", "VVS2", "VS1", "VS2") ~ "Rất ít tạp chất",
  nv4$clarity %in% c("SI1", "SI2") ~ "Ít tạp chất",
  nv4$clarity %in% c("I1") ~ "Nhiều tạp chất")) # tạo biến mới bằng việc gán các dữ liệu tưng ương với 4 giá trị mới
nv4 %>% ggplot(aes(x = clarityC)) + #Tạo biểu đồ ggplot2 với trục x  biểu thị/ánh xạ clarityC.
  geom_bar(fill = 'red') + labs(title = "Phân tích đồ thị hình cột để phân bố mức độ tinh khiết của viên kim cương.", x="Độ tinh khiết", y = "Số lượng") #Đặt tên cho biểu đồ, sử dụng labs từ ggplot2 để đặt nhãn cho trục x và y.

Nhận xét biểu đồ

  • Nó giúp ta tổng kết lại tổng số lượng các viên kim cương theo các giá trị mới tạo của biến độ tinh khiết để đánh giá cụ thể lần lược từ Ít tạp chất->Nhiều tạp chất-> Rất ít tạp chất->Tinh khiết (trái sang phải).

  • Trong đó những viên rất ít tap chất chiếm ưu thế (gần 30000) và nhiều tạp chất chiếm ít nhất (dưới 2500) chênh lệch nhau khoảng 27500 viên(rất cao).

  • Các nhóm màu không đồng đều nhau thể hiện rõ tần số xuất hiện của từng nhóm theo phân khúc tập trung ở rất ít/Ít tạp chất.

=> Qua đó cho thấy tùy theo mức độ tinh khiết của hầu hết các viên kim cương sẽ giúp đưa ra các chiến lược thị trường phù hợp để đem lại nhiều lợi và thông tin có ích.

2.3 Phân tích đồ thị dạng cột các giá trị của biến màu sắc trong bộ dữ liệu.

  • Ý muốn: để dể dàng cho quá trình nhận diện một cách hoàn chỉnh bằng cách thông kê so sánh theo từng màu sắc riêng biệt của các mẫu kim cương và tổng lại theo số lượng từ đó dể dàng cho quá trình trao đổi thông tin với các khách hàng, doanh nghiệp có nhu cầu. Có thể phục vụ có quá trình nghiên cứu thị trường.
#chuẩn bị dự liệu:
nv4 <- diamonds #Gán bộ dữ liệu diamonds có sẵn trong RStudio vào biến mới nv4.
#Tính toán và tạo biểu đồ:
nv4 %>% ggplot(aes(x = color)) + #Sử toán tử pipe (%>%) để nối các hoạt động với nhau. Hàm ggplot từ ggplot2 nhận dữ liệu nv4 và ánh xạ dữ liệu theo thẩm mỹ (aes)-(ánh xạ). Biến color được ánh xạ đến trục x, tức là trục ngang (trục tung) của biểu đồ.
  geom_bar() + #Thêm các yếu tố hình học (geoms) vào biểu đồ. geom_bar() tạo biểu đồ hình cột, với các thanh được đặt trên trục x theo từng loại màu (color) và chiều cao của thanh thể hiện số lượng kim cương thuộc loại màu sắc đó. +
    labs(title = "Phân tích đồ thị dạng cột các giá trị của biến màu sắc trong bộ dữ liệu", x="Màu sắc", y = "Số lượng") #Đặt tên cho biểu đồ, sử dụng labs từ ggplot2 để đặt nhãn cho trục x và y. Nhãn được đặt trong dấu nháy đơn (") với ký tự : 'Màu sắc' cho trục x và 'Số lượng' cho trục y.

Nhận xét biểu đồ:

  • Nó giúp ta tổng kết lại tổng số lượng các viên kim cương theo màu sắc lần lược từ D->E->F->G->H->I->J (từ không màu đến màu vàng nhạt) trái sang phải

  • Trong đó màu G chiếm tỷ trọng nhiều nhất trên khoảng 10500 viên và màu J chiếm tỷ trọng thấp nhất dưới 3000. Cho thấy những viên kim cương có màu J là hiếm nhất và màu G là màu dể tìm thất nhất.

  • Các nhóm màu không đồng đều nhau, tập trung nhiều ở các miền vùng màu sắc từ E->G(kim cương không màu).Tạo vùng đỉnh cho biểu đồ thấp dần sang 2 bên.

=> Qua đó cho thấy các viên có màu có độ hiếm cao, giá thành cao và những viên này thường được săn đón trên thị trường, các viên màu trắng chiếm ưu thế nên được sử dụng đại trà từ đó giúp đưa ra các chiến lược thị trường phù hợp.

2.4 Phân tích đồ thị dạng cột các giá trị của biến kỹ thuật cắt trong dữ liệu.

  • Ý muốn: để dể dàng cho quá trình nhận diện một cách hoàn chỉnh bằng cách thông kê so sánh theo kỹ thuật cắt riêng biệt của các mẫu kim cương và tổng lại theo số lượng từ đó dể dàng cho quá trình trao đổi thông tin với các khách hàng, doanh nghiệp có nhu cầu. Có thể phục vụ có quá trình nghiên cứu thị trường. Từ đó cũng thể hiện công nghệ và tay nghề của người tạo ra viên kim cương.
#Tính toán và tạo biểu đồ:
nv4 %>% ggplot(aes(x = cut)) + #Tạo một đối tượng ggplot với trục x được ánh xạ đến biến cut trong khung dữ liệu nv4.
    geom_bar(fill='pink') + #Tạo biểu cột và được tô màu hồng
    labs(title = "Phân tích đồ thị dạng cột các giá trị của biến kỹ thuật cắt trong bộ dữ liệu", x = 'Loại', y = 'Số lượng') + #Thêm tiêu đề, nhãn cho biểu đồ
    coord_flip()

Nhận xét biểu đồ

  • Nó giúp ta tổng kết lại tổng số lượng các viên kim cương theo kỹ thuất cắt viên cương để đánh giá viên kim cương lần lược từ ideal->Fair->Very Good-> Good->Premium->Fair (từ hoàn hảo đến kém) trái sang phải

  • Trong đó màu ideal chiếm tỷ trọng nhiều nhất trên khoảng hơn 20000 viên và màu Fair chiếm tỷ trọng thấp nhất dưới 2500.

  • Các nhóm màu không đồng đều nhau,thấp dần từ độ cắt hoàn hảo đến bị lỗi nhiều

=> Qua đó cho thấy trình độ, tay nghề, công nghệ cắt kim cương hiện nay đang rất phát triển và hoàn thiện hơn giúp giá thành viên kim định giá cao, đảm bảo mức nguồn cung chất lượng từ đó giúp đưa ra các chiến lược thị trường phù hợp.

2.5 Phân tích đồ thị dạng cột các giá trị của biến độ tinh khiết theo số lượng.

  • Ý muốn nhận diện hoàn chỉnh bằng cách thông kê so sánh độ tinh kiết của các mẫu kim cương theo từng mức độ và tổng số lượng từ đó dể dàng cho quá trình trao đổi thông tin với các khách hàng, doanh nghiệp có nhu cầu. Có thể phục vụ có quá trình nghiên cứu thị trường.
#Tính toán và tạo biểu đồ:
nv4 %>% group_by(clarity) %>% summarise(n = n()) %>% #lấy dữ liệu từ tập nv4 để tạo nhóm dữ liệu theo biến clarity(group_by) từ đó hàm (sumarise) tạo biến mới để tính tổng số quan sát trong mỗi nhóm và lưu trữ kết quả trong biến mới n.
  ggplot(aes(clarity,n)) + #Sử dụng gói ggplot2 để tạo biểu đồ, từ đó ánh xạ lên trục x là biến clarity và trục Y ánh xạ là n (Số lượng)
  geom_col(fill='blue') + #Thêm biểu đồ cột với màu xanh lam.
    geom_text(aes(label = n),vjust = 2, color = 'red') + #Thêm nhãn dữ liệu màu đỏ hiển thị số lượng quan sát trên đỉnh mỗi cột. (vjust): là vị trí ta muốn đặt nhãn dữ liệu
    labs(title = "Phân tích đồ thị dạng cột các giá trị của biến độ tinh khiết theo số lượng", x = 'Độ tinh khiết', y = 'Số lượng') #Đặt tên cho biểu đồ, sử dụng labs từ ggplot2 để đặt nhãn cho trục x và y. Nhãn được đặt trong dấu nháy đơn (") với ký tự: 'Độ tinh khiết' cho trục x và 'Số lượng' cho trục y.

Nhận xét biểu đồ

  • Giúp tình tổng các mức độ tinh viên kim cường từ I1->SI2->SI1->VS2->VS1->VVS2->VVS1->IF từ trái sang phải (nhiều tạp chất I1 -> vô cùng tinh khiết IF).

  • Trong đó mức độ SI1 có bao gồm tạp chất chiếm tỷ trọng nhiều nhất (13065) và I1 chứa nhiều tạp chất là ít nhất(741) cách biệt khoảng 12324 về số lượng.

  • Các viên kim cương tập trung không đều chủ yếu ở mức độ nhiều tạp đến ít tạp chất SI2->VS1 tạo thành dỉnh và thấp dần từ 2 bên

=> Qua đó ta thấy viên kiêm cương tinh khiết hoặc ít tạp chiếm tỷ trọng nhỏ nền cần được bảo quản và tập trung nghiên cứu xử ký các loại kim cương có tạp chấp nhiều dể nâng cao giá thành và có chiến lược thương mại phù hợp

2.6 Phân tích đồ thị dạng cột tính tỷ lệ phần trăm của các màu theo số lượng.

  • Mở rộng biểu đồ 1

  • Ý muốn: để dể dàng cho quá trình nhận diện một cách hoàn chỉnh bằng cách thông kê so sánh theo màu sắc của các mẫu kim cương và tổng lại theo số lượng từ đó đưa ra các phần trăm đại diện để dể dàng cho quá trình trao đổi thông tin với các khách hàng, doanh nghiệp có nhu cầu. Có thể phục vụ có quá trình nghiên cứu thị trường.

library(scales)
## 
## Attaching package: 'scales'
## The following object is masked from 'package:purrr':
## 
##     discard
## The following object is masked from 'package:readr':
## 
##     col_factor
#Tính toán và tạo biểu đồ:
nv4 %>% group_by(color) %>% summarise(n = n()) %>% #Chia dữ liệu trong nv4 thành các nhóm theo biến color (màu sắc).Tính toán số lượng kim cương trong mỗi nhóm và lưu trữ trong biến mới n.
  ggplot(aes(color,n)) + #Tạo biểu đồ ggplot2 với trục x ánh xạ biến color và trục y ánh xạ n.
  geom_col(fill='orange') + #Thêm các cột màu cam vào biểu đồ.
  geom_text(aes(label = percent(n/length(nv4$carat))),vjust = 2, color = 'black') + #Thêm chú thích hiển thị tỷ lệ phần trăm số lượng kim cương trong mỗi nhóm so với tổng số, với màu cam và vị trí được điều chỉnh để dễ đọc.
  labs(title = "Phân tích đồ thị dạng cột tính tỷ lệ phần trăm của các màu theo số lượng", x = 'Màu sắc', y = 'Số lượng') #Thêm tiêu đề và chú thích trục x và y cho biểu đồ.

Nhận xét biểu đồ:

  • Nó giúp ta tổng kết lại tổng số lượng các viên kim cương theo màu sắc lần lược từ D->E->F->G->H->I->J (từ không màu đến màu vàng nhạt) trái sang phải

  • Trong đó màu G chiếm tỷ trọng nhiều nhất trên khoảng 20.93% viên và màu J chiếm tỷ trọng thấp nhất dưới 5.21%. Cho thấy những viên kim cương có màu J là hiếm nhất và màu G là màu dể tìm thất nhất.

  • Các nhóm màu không đồng đều nhau, tập trung nhiều ở các miền vùng màu sắc từ E->G(kim cương không màu).Tạo vùng đỉnh cho biểu đồ thấp dần sang 2 bên.

=> Qua đó cho thấy các viên có màu có độ hiếm cao, giá thành cao và những viên này thường được săn đón trên thị trường đánh vào nhu cầu khách hàng thích truy lùng màu sắc hiếm, các viên màu trắng chiếm ưu thế nên được sử dụng đại trà từ đó giúp đưa ra các chiến lược thị trường phù hợp.

2.7 Phân tích đồ thị dạng cột phân bố trung bình của giá kim cương theo độ tinh khiết.

  • Ý muốn: để dể dàng cho quá trình nhận diện một cách hoàn chỉnh bằng cách thông kê so sánh theo độ tinh khiết của các mẫu kim cương và tính trung bình giá cả từ đó đưa ra các phần trăm đại diện để dể dàng cho quá trình trao đổi thông tin với các khách hàng, doanh nghiệp có nhu cầu. Có thể phục vụ có quá trình nghiên cứu thị trường.
library(scales)
#chuẩn bị dữ liệu:
nv4 <- diamonds
#Tính toán và tạo biểu đồ:
nv4 %>% group_by(clarity) %>% summarise(n = mean(price)) %>% #lấy dữ liệu từ tập nv4 để tạo nhóm dữ liệu theo biến clarity, từ đó hàm tạo biến mới để tính trung bình của biến giá và lưu trữ kết quả trong biến mới n.
  ggplot(aes(clarity,n)) + #Sử dụng gói ggplot để tạo biểu đồ, từ đó ánh xạ lên trục x là biến clarity và trục Y ánh xạ là n 
    geom_col(fill='pink') + #Thêm các cột màu cam vào biểu đồ.
    geom_text(aes(label = percent(n/length(nv4$carat))),vjust = 2, color = 'black') + #Thêm chú thích hiển thị tỷ lệ phần trăm số lượng kim cương trong mỗi nhóm so với tổng số, với màu hồng và vị trí được điều chỉnh để dễ đọc.
    labs(title = "Phân tích đồ thị dạng cột phân bố trung bình của giá kim cương theo độ tinh khiết.", x = 'Độ tinh kiết', y = 'Số lượng') + coord_flip()# xoay biểu đồ

Nhận xét biểu đồ

  • Nó giúp ta tổng kết lại theo trung bình của giá các viên kim cương theo màu sắc lần lược từ I1->SI2->SI1->VS2->VS1->VVS2->VVS1->IF từ trái sang phải (nhiều tạp chất I1 -> vô cùng tinh khiết IF). trái sang phải

  • Trong đó các viên kim cương có độ tinh khiết SI2 chiếm tỷ trọng nhiều nhất trên khoảng 9.3864% viên và màu VVS1 chiếm tỷ trọng thấp nhất dưới (5.21%). Cho thấy những viên kim cương có màu J là hiếm nhất và màu G là màu dể tìm thất nhất.

  • Các viên kim cương xếp không đồng khá đồng đều nhau tập trung nhiều ở những vùng nhiều đến rất nhiều tạp chất

=> Qua đó cho thấy các viên có rất nhiều hoặc nhiều tạp chất có số lượng cao dẫn đến nó ảnh hưởng đến giá thành khi tổng kết làm cho tỷ lệ phần trăm cao hơn các viên không có/ít tạp chất vì vậy cũng có thấy việc thay đổi kỹ thuật cắt càng làm viên kim cương có giá thành thấp trở nên cao hơn từ đó giúp đưa ra các chiến lược thị trường phù hợp.

2.8 Phân tích đồ thị dạng cột theo phương sai giá cả của 2 nhóm chất lượng cắt và độ tinh khiết.

  • Ý muốn: để dể dàng cho quá trình nhận diện một cách cách hoàn chỉnh bằng cách thông kê so sánh theo chất lượng cắt và màu sắc của các mẫu kim cương và tính theo phương sai giá cả từ đó dể dàng cho quá trình trao đổi thông tin với các khách hàng, doanh nghiệp có nhu cầu. Có thể phục vụ có quá trình nghiên cứu thị trường. Đặc biệt là đo biến động giá cả trên thị trường.
#Tính toán và tạo biểu đồ:
nv4 %>% group_by(cut,clarity) %>% summarise(n=var(price)) %>% #lấy dữ liệu từ tập nv4 để tạo nhóm dữ liệu theo biến cut,clarity(group_by) từ đó hàm (sumarise) tạo biến mới để tính phương sai của biến giá và lưu trữ kết quả trong biến mới n.
  ggplot(aes(x = cut,y = n)) + #Sử dụng gói ggplot để tạo biểu đồ, từ đó ánh xạ lên trục x là biến cut và trục Y ánh xạ là n 
    geom_col(position = 'dodge') + #Tạo biểu đồ dạng cột khi có nhiều nhóm dữ liệu. Lệnh này giúp tăng khả năng hiển thị và so sánh dữ liệu giữa các nhóm, góp phần tạo ra biểu đồ trực quan và dễ hiểu.
    facet_wrap(~clarity) + #Để chia biểu đồ ggplot2 thành các phần riêng biệt theo từng giá trị của biến clarity
    labs(title = "Phân tích đồ thị dạng cột theo phương sai giá cả của 2 nhóm chất lượng cắt và độ tinh khiết.", x = 'Loại', y = 'phương sai') #Đặt tên cho biểu đồ, sử dụng labs từ ggplot2 để đặt nhãn cho trục x và y. Nhãn được đặt trong dấu nháy đơn (") với ký tự: 'Loại' cho trục x và 'Phương sai' cho trục y.
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

Nhận xét biểu đồ - Nó giúp ta tổng kết lại phương sai giá các viên kim cương theo độ tinh khiết lần lược từ I1->SI2->SI1->VS2->VS1->VVS2->VVS1->IF( theo thứ tự các hình) và theo chất lượng cắt Fair->Very->Good->Good->Premium->ideal (trái sang phải)

  • Độ tinh khiết SI2 có nhiều tạp chất kỹ thuật cắt đồng đều nhất và thấp nhất là bảng I1.

  • Các độ tinh khiết ảnh hưởng nhiều đến kỹ thuật cắt, các thanh trong bảng không đồng đều.

=> Qua đó thấy chỉ có viên không có tạp chất thì việc cắt tỉa dể dàng hơn, còn các viên có tạp chất thì tùy thuộc vào tay nghề của thợ/máy móc từ đó giúp đưa ra các chiến lược thị trường phù hợp.

2.9 Phân tích đồ dạng cột để thấy được màu sắc và mức độ tinh khiết theo số lượng.

  • Ý muốn: để dể dàng cho quá trình nhận diện một cách hoàn chỉnh bằng cách thông kê so sánh theo độ tinh khiết, màu sắc tính theo số lượng từ đó dể dàng cho quá trình trao đổi thông tin với các khách hàng, doanh nghiệp có nhu cầu. Có thể phục vụ có quá trình nghiên cứu thị trường. Đặc biệt là xem xét độ tinh khiết có ảnh hưởng nhiều đến màu sắc kim cương tìm thấy không.
#Tính toán và tạo biểu đồ:
nv4 %>% group_by(color,clarity) %>% summarise(n=n()) %>% #lấy dữ liệu từ tập nv4 để tạo nhóm dữ liệu theo biến color,clarity(group_by) từ đó hàm (sumarise) tạo biến mới để tính tổng số lượng, lưu trữ kết quả trong biến mới n.
  ggplot(aes(x = color,y = n)) + #Sử dụng gói ggplot để tạo biểu đồ, từ đó ánh xạ lên trục x là biến color và trục Y ánh xạ là n 
    geom_col(position = 'dodge',fill = 'pink') + #Tạo biểu đồ dạng cột khi có nhiều nhóm dữ liệu. Lệnh này giúp tăng khả năng hiển thị và so sánh dữ liệu giữa các nhóm, góp phần tạo ra biểu đồ trực quan và dễ hiểu, tô màu cho thanh biểu đồ màu hồng
    facet_wrap(~clarity) + #Để chia biểu đồ ggplot2 thành các phần riêng biệt theo từng giá trị của biến clarity
    geom_text(aes(label = n),vjust = 2, color = 'green') + #giúp bạn thêm chú thích hiển thị giá trị của biến n trên mỗi cột trong biểu đồ ggplot2, có màu xanh và Vjust khoảng cách dọc chú thích định dạng là 2.
    labs(title = "Phân tích đồ dạng cột để thấy được màu sắc và mức độ tinh khiết theo số lượng.", x = 'Màu sắc', y = 'Số lượng') #Đặt tên cho biểu đồ, sử dụng labs từ ggplot2 để đặt nhãn cho trục x và y.
## `summarise()` has grouped output by 'color'. You can override using the
## `.groups` argument.

Nhận xét biểu đồ

  • Nó giúp ta tổng kết lại số lượng các viên kim cương theo độ tinh khiết lần lược từ I1->SI2->SI1->VS2->VS1->VVS2->VVS1->IF( theo thứ tự các hình) và theo màu sắc D->E->F->G->H->I->J (trái sang phải)

  • Độ tinh khiết SI2 có nhiều tạp chất có các giá trị màu sắc đồng đều nhất và thấp nhất là bảng I1 quá nhiều tạp chất thì cũng khó thấy màu sắc nên các màu tìm được ít

  • Các độ tinh khiết ảnh hưởng nhiều đến màu sắc, các thanh trong các bảng không đồng đều.

=> Qua đó thấy chỉ có viên không/ít tạp chất thì việc tìm độ tinh khiết kèm có màu sắc đẹp thì rất khó, và các viên quá nhiều tạp chất cũng vậy nó gây khó khăn với nhà khai thác về việc phải cải tạo nó như thế nào, còn các viên có tạp chất thì tùy thuộc vào tay nghề của thợ/máy móc từ đó giúp đưa ra các chiến lược thị trường phù hợp.

2.10 Phân tích đồ thị dạng cột tính giá trị trung bình của giá cả theo các chất lượng cắt.

  • Ý muốn: để dể dàng cho quá trình nhận diện một cách hoàn chỉnh bằng cách thông kê so sánh theo chất lượng cắt tính theo giá trị trung bình của giá cả từ đó dể dàng cho quá trình trao đổi thông tin với các khách hàng, doanh nghiệp có nhu cầu. Có thể phục vụ có quá trình nghiên cứu thị trường. Đặc biệt là xem xét độ chất lượng cắt có ảnh hưởng nhiều đến đến giá cả kim cương tìm thấy không.
#Tính toán và tạo biểu đồ:
nv4 %>% group_by(cut) %>% summarise(m= mean(price)) %>% #Phân nhóm dữ liệu trong nv4 theo biến cut (loại cắt kim cương). Trong mỗi nhóm, tính giá trung bình của kim cương và lưu trữ trong biến mới m.
  ggplot(aes(x = cut,y = m)) + #Tạo biểu đồ ggplot2 với trục x biểu thị cut (loại cắt) và trục y biểu thị m (giá trung bình).
  geom_col(position = 'dodge',fill = 'purple') + #Thêm các cột màu tím vào biểu đồ, với vị trí được điều chỉnh để tránh chồng chéo nhau.
    geom_text(aes(label = round(m)), vjust = 2, color = 'green') + #Thêm chú thích hiển thị giá trung bình được làm tròn trên mỗi cột, với màu xanh lá cây và vị trí được điều chỉnh lên trên một chút(2) so với vị trí mặc định.
    labs(title = "Phân tích đồ thị dạng cột tính giá trị trung bình của giá cả theo các chất lượng cắt.", x = 'Loại', y = 'Trung bình') #Đặt tên cho biểu đồ, sử dụng labs từ ggplot2 để đặt nhãn cho trục x và y. 

Nhận xét biểu đồ - Nó giúp ta tổng kết lại trung bình giá cả các viên kim cương theo chất lượng cắt lần lược từ Fair->Very-> Good->Good->Premium->ideal (từ kém đến hoàn hảo) trái sang phải

  • Trong đó giá trị trung bình loại kim cương Premium viên có chất lượng cao chiếm tỷ trọng nhiều nhất trên khoảng hơn 4584 viên và loại kim cương ideal chiếm tỷ trọng thấp nhất dưới 3929, cách nhau 1126 triệu đô .

  • Các loại kim cương khá đồng đều nhau.

=> Qua đó cho thấy các loại kim cương không quá hoàn hảo có thể sẽ được mua trên thị trường nhiều hơn, số lượng quyết định đến giá cả trung bình của loại thấp nhất nhưng giá đứng thứ là phục cho những người tầm trung sẽ chiếm ưu thế trên thị trường từ đó giúp đưa ra các chiến lược thị trường phù hợp.

2.11 Phân tích đồ thị dạng cột hiển thị mức độ phân tán của các giá trị trong mỗi nhóm được xác định bởi biến kỹ thuật cắt và màu sắc.

  • Ý muốn: để dể dàng cho quá trình nhận diện một cách hoàn chỉnh bằng cách thông kê so sánh theo kỹ thuật cắt và màu sắc tính theo mức độ phân tán/phương sai từ đó dể dàng cho quá trình trao đổi thông tin với các khách hàng, doanh nghiệp có nhu cầu. Có thể phục vụ có quá trình nghiên cứu thị trường. Muốn biết được Chiều rộng của đỉnh kim cương so với điểm rộng nhất sẽ tác động như thế nào đối màu sắc và đặc biệt là kỹ thuật cắt.
#Tính toán và tạo biểu đồ:
nv4 %>% group_by(cut,color) %>% summarise(m = var(table)) %>% #Phân nhóm dữ liệu trong nv4 theo biến cut, color. Trong mỗi nhóm, tính phương sai của biến table và lưu trữ trong biến mới m.
  ggplot(aes(x = cut,y = m)) + #Tạo biểu đồ ggplot2 với trục x biểu thị cut (loại cắt) và trục y biểu thị m.
    geom_col(position = 'dodge',fill='green') + #Thêm các cột màu xanh lá vào biểu đồ, với vị trí được điều chỉnh để tránh chồng chéo nhau.
    facet_wrap(~color) + #tạo ra các mặt (facet) riêng biệt cho mỗi giá trị của biến color.
    geom_text(aes(label = round(m)), vjust = 1, color = 'black') + #thêm nhãn văn bản hiển thị giá trị đã làm tròn của m (phương sai) trên mỗi cột. Nhãn được đặt cao hơn một chút (vjust = 1) và có màu đen.
    labs(title = "Phân tích đồ thị dạng cột hiển thị mức độ phân tán của các giá trị trong mỗi nhóm được xác định bởi biến kỹ thuật cắt và màu sắc.", x = 'cut', y = 'Số lượng') #Đặt tên cho biểu đồ, sử dụng labs từ ggplot2 để đặt nhãn cho trục x và y. 
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

Nhận xét biểu đồ

  • Nó giúp ta tổng kết lại theo phương sai Chiều rộng của đỉnh kim cương so với điểm rộng nhất của các viên kim cương theo theo kỹ thuật cắt từ Fair->Very-> Good->Good->Premium->ideal-từ kém đến hoàn hảo-(Từ trái sang phải của các biểu đồ) và theo màu sắc D->E->F->G->H->I->J (theo thứ tự các hình)

  • Trong đó cột Fair ở mỗi bảng đều nhiều nhất và thấp dần xuống các kỹ thuật cắt tốt đến hoàn hảo. Viên có phương sai Chiều rộng của đỉnh kim cương so với điểm rộng nhất chiếm tỷ trong nhiều nhất là viên có màu F và ít nhất viên có màu J

  • Các thanh trong các bảng không đồng đều tập trung nhiều ở kỹ thuật cắt tệ và tốt cũng như màu kim cương không màu.

=> Qua đó thấy Chiều rộng của đỉnh kim cương so với điểm rộng nhất sẽ tác động như nhiều đối màu sắc và đặc biệt là kỹ thuật cắt từ đó giúp đưa ra các chiến lược thị trường phù hợp.

2.12 Phân tích đồ thị dạng cột theo nhóm của từng biến kỹ thuật cắt và màu sắc theo số lượng(xếp chồng lên nhau).

  • Ý muốn: để dể dàng cho quá trình nhận diện một cách hoàn chỉnh bằng cách thông kê so sánh theo kỹ thuật cắt và màu sắc tính theo số lượng nhất định từ đó dể dàng cho quá trình trao đổi thông tin với các khách hàng, doanh nghiệp có nhu cầu. Có thể phục vụ có quá trình nghiên cứu thị trường. Muốn so sánh trực quan/kỹ càng hơn 2 màu sắc trên cùng biểu đồ.
#chuẩn bị dữ liệu:
nv4 <- diamonds
#Tính toán và tạo biểu đồ:
nv4 <- nv4 %>% group_by(clarity, color) %>% summarise(n = n()) #Phân nhóm dữ liệu trong nv4 theo biến clarity, color. Trong mỗi nhóm, tính theo tổng số và lưu trữ trong biến mới n.
## `summarise()` has grouped output by 'clarity'. You can override using the
## `.groups` argument.
nv4 %>% ggplot(aes(x = clarity, y = n)) + #Tạo biểu đồ ggplot2 với trục x biểu thị clariry và trục y biểu thị n.
  geom_col(data = nv4 %>% filter(color == 'H'), fill = 'red') + #để lọc dữ liệu cho hai nhóm màu sắc: H và J.
  geom_col(data = nv4 %>% filter(color == 'J'), fill = 'blue')+
  labs(title = "Phân tích đồ thị dạng cột theo nhóm của từng biến kỹ thuật cắt và màu sắc theo số lượng(xếp chồng lên nhau).",x = 'Độ tinh khiết', y = 'Số lượng') #Đặt tên cho biểu đồ, sử dụng labs từ ggplot2 để đặt nhãn cho trục x và y. 

Nhận xét biểu đồ

  • Nó giúp ta tổng kết lại số lượng các viên kim cương theo độ tinh khiết lần lược từ I1->SI2->SI1->VS2->VS1->VVS2->VVS1->IF( từ trái sang phải).

  • Trong đó thấy rõ hơn từng màu theo viên chọn lọc và chồng lên nhau, độ tinh khiết SI1 có tạp chất chiếm ưu thế cả về màu H hay màu J(trên 2500) và ít nhất là độ tinh khiết I1 (dưới 250). trên lệch rất nhiều khoảng 2250.

  • Các thanh không đồng dều nhau tập chung nhiều từ SI2>VI1, màu H chiếm ưu thế hơn màu J.

=> Qua đó thấy chỉ có viên không/ít tạp chất thì việc tìm độ tinh khiết kèm có màu sắc đẹp thì rất khó, các màu lọc không màu/ có ít màu vàng là những màu không quá hiếm nằm nhiều ở vùng có nhiều hoặc ít tạp chất thì phục vụ có giới tầm chung từ đó giúp đưa ra các chiến lược thị trường phù hợp.

2.13 Phân tích đồ thị dạng cột theo 3 biến bằng việc tính trung bình trọng lượng của viên kim cương.(xếp chồng lên nhau)

  • Ý muốn: để dể dàng cho quá trình nhận diện một hoàn chỉnh bằng cách thông kê so sánh theo kỹ thuật cắt và màu sắc, độ tinh khiết tính theo trung bình trọng lượng viên kim cương từ đó dể dàng cho quá trình trao đổi thông tin với các khách hàng, doanh nghiệp có nhu cầu. Có thể phục vụ có quá trình nghiên cứu thị trường. Muốn so sánh trực quan 2 Loại kỹ thuật cắt trên cùng biểu đồ.
#chuẩn bị dữ liệu:
nv4 <- diamonds
nv4 <- nv4 %>% group_by(color,cut,clarity) %>% summarise(n = mean(carat)) #Phân nhóm dữ liệu trong nv4 theo 3 biến. Trong mỗi nhóm, tính theo trung bình trọng lượng và lưu trữ trong biến mới n.
## `summarise()` has grouped output by 'color', 'cut'. You can override using the
## `.groups` argument.
#Tính toán và tạo biểu đồ:
nv4 %>% ggplot(aes(x = color, y = n)) + #Tạo biểu đồ ggplot2 với trục x biểu thị color và trục y biểu thị n.
  geom_col(data = nv4 %>% filter(cut  == 'Fair'), fill = 'red') +
  geom_col(data = nv4 %>% filter(cut == 'Premium'), fill = 'pink') + #để lọc dữ liệu cho hai loại kỹ thuật cắt: Fair và Premium, tô màu cho cột.
  labs(title = "Phân tích đồ thị dạng cột theo 3 biến bằng việc tính trung bình trọng lượng của viên kim cương.(xếp chồng lên nhau)",x = 'Màu sắc', y = 'Số lượng') #Đặt tên cho biểu đồ, sử dụng labs từ ggplot2 để đặt nhãn cho trục x và y. 

Nhận xét đồ thị

  • Nó giúp ta tổng kết lại trung bình trọng lượng viên kim cương theo màu sắc từ D->E->F->G->H->I->J( từ trái sang phải).

  • Trong đó thấy rõ hơn từng loại kỹ thuật cắt theo viên chọn lọc và chồng lên nhau, màu J chiếm ưu thế nhiều nhất (trên 10), và màu E ít nhất (trên 5.0)

  • Các thanh không đồng dều nhau, kỹ thuật cắt Premium chiếm ưu thế còn cắt tệ rất ít có màu hầu như không xuất hiện.

=> Qua đó thấy chỉ tay nghề của thợ cao cũng như máy móc hiện đại thể hiện rõ qua từng màu với độ cắt chủ yếu là hoàn hảo, trọng lượng trung bình các viên có màu vàng nhạt(J) chiếm ưu thế chứng tỏ những viên này sẽ có giá thành cao trên thị trường từ đó giúp đưa ra các chiến lược thị trường phù hợp.

2.14 Phân tích đồ thị dạng cột hiển thị mức độ phân tán của số lượng kim cương trong mỗi nhóm giá cả được tạo ra.

  • Ý muốn: để dể dàng cho quá trình nhận diện một hoàn chỉnh bằng cách thông kê so sánh theo cột giá cả(tạo mới) tính theo số lượng viên kim cương từ đó dể dàng cho quá trình trao đổi thông tin với các khách hàng, doanh nghiệp có nhu cầu. Có thể phục vụ có quá trình nghiên cứu thị trường. Muốn so sánh trực quan 5 loại giá trị mới của biến mới tạo ra.
#chuẩn bị dữ liệu:
nv4 <- diamonds 
nv4 <- nv4 %>% mutate(priceC = cut(price,5, label = c('rất rẻ', 'rẻ','vừa','mắc','rất mắc'))) #Thêm một biến mới vào đối tượng nv4 với tên là priceC chia hàm price thành 5 nhóm và đặt nhãn cho từng nhóm 
#Tính toán và tạo biểu đồ:
nv4 %>% ggplot(aes(x = priceC)) + #Tạo biểu đồ ggplot2 với trục x biểu thị biến price C
  geom_bar(fill = 'yellow') + labs(title = "Phân tích đồ thị dạng cột hiển thị mức độ phân tán của số lượng kim cương trong mỗi nhóm giá cả được tạo ra.",x = 'Loại', y = 'Số lượng') #Đặt tên cho biểu đồ, sử dụng labs từ ggplot2 để đặt nhãn cho trục x và y. 

Nhận xét biểu đồ

  • Nó giúp ta tổng kết lại số lượng viên kim cương theo mức độ về giá đã tạo mới từ rất rẻ->rẻ->vừa->mắc->rất mắc ( từ trái sang phải).

  • Trong đó thấy rõ hơn từng loại rất rẻ chiếm ưu thế gần bằng 35000 viên, và rất mắc là ít nhất chiếm chưa tới 5000 viên.

  • Các thanh không đồng dều nhau, thấp dần từ loại rẻ->rất mắc.

=> Qua đó thấy việc phân loại theo giá sẽ cho khách hàng dể dàng cho việc chọn lựa từ đó giúp đưa ra các chiến lược thị trường phù hợp.

2.15 Phân tích đồ thị dạng cột tính trung giá được xác định bởi biến kỹ thuật cắt và màu sắc.(định dạng)

  • Ý muốn: để dể dàng cho quá trình nhận diện một hoàn chỉnh bằng cách thông kê so sánh bởi biến kỹ thuật cắt và màu sắc tính theo trung bình giá từ đó dể dàng cho quá trình trao đổi thông tin với các khách hàng, doanh nghiệp có nhu cầu. Có thể phục vụ có quá trình nghiên cứu thị trường. Muốn so sánh trực quan 2 loại kỹ thuật cắt thành nhiều bảng.
#chuẩn bị dữ liệu:
nv4 <- diamonds
nv4 <- nv4 %>% group_by(cut,clarity) %>% summarise(n = mean(price)) #Phân nhóm dữ liệu trong nv4 theo 2 biến. Trong mỗi nhóm, tính theo trung bình giá và lưu trữ trong biến mới n.
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
#Tính toán và tạo biểu đồ:
nv4 %>% ggplot(aes(x = clarity, y = n)) + #Tạo biểu đồ ggplot2 với trục x biểu thị clarity,y ánh xạ lên n.
  geom_col(data = nv4 %>% filter(cut  == 'Fair'), fill = 'black') + geom_col(data = nv4 %>% filter(cut == 'Premium'), fill = 'pink') + facet_wrap(~cut) + #để lọc dữ liệu cho hai loại kỹ thuật cắt: Fair và Premium, tô màu cho cột,tạo ra các mặt (facet) riêng biệt cho mỗi giá trị của biến cut.
  labs(title = "Phân tích đồ thị dạng cột tính trung giá được xác định bởi biến kỹ thuật cắt và màu sắc.(định dạng)",x = 'Đặc điểm', y = 'Số lượng') #Đặt tên cho biểu đồ, sử dụng labs từ ggplot2 để đặt nhãn cho trục x và y. 

Nhận xét biểu đồ

  • Nó giúp ta tổng kết lại theo trung bình giá của các viên kim cương theo theo kỹ thuật cắt từ Fair->Very-> Good->Good->Premium->ideal (Theo thứ tự biểu đồ) và độ tinh khiết I1->SI2->SI1->VS2->VS1->VVS2->VVS1->IF( từ trái sang phải)

  • Trong đó tập trung so sánh về kỹ thuật cắt Fair và Premium

  • Trong bảng fair thì độ tinh khiết SI2 chiếm ưu thế(trên 5000) giá và IF chiếm ít nhất(dưới 2000) cách biệt nhau khoảng 3000

  • Trong bảng Premium độ tinh khiết SI2 chiếm ưu thế(trên 5000) về giá và VVS1 chiếm ít nhất(dưới 3000) cách biệt khoảng 2000

  • Các thanh trong các bảng không đồng đều.

=> Qua đó thấy độ tinh khiết so với kỹ thuật cắt ảnh hưởng đến nhau, giá cả trung bình hầu hết cao ở vùng có độ tinh khiết nhiều tạp chất(phù hợp lương khách hàng trung), kỹ cắt tệ đối các viên có độ tinh khiết cao thấp, giá đông thấp đồng nghĩa với số lượng thấp, độ cắt gần hoàn hảo thì độ tinh khiết đồng đêu hơn giúp đưa ra các chiến lược thị trường phù hợp.

2.16 Phân tích đồ thị dạng cột theo tiêu chuẩn đạt và không đạt theo tiêu chuẩn về trọng lượng.

  • Ý muốn: để dể dàng cho quá trình nhận diện một hoàn chỉnh bằng cách thông kê so sánh theo cột trọng lượng(tạo mới) tính theo số lượng viên kim cương từ đó dể dàng cho quá trình trao đổi thông tin với các khách hàng, doanh nghiệp có nhu cầu. Có thể phục vụ có quá trình nghiên cứu thị trường. Muốn so sánh trực quan biến trọng lượng để phân thành 2 loại ra theo nhu cầu.
#chuẩn bị dữ liệu:
nv4 <- diamonds 
nv4 <- nv4 %>% mutate(caratA = ifelse(nv4$carat >= 1, 'Đạt', 'Không Đạt')) #Thêm một biến mới vào đối tượng nv4 với tên là caratA chia hàm carat thành 2 nhóm và đặt nhãn cho từng nhóm theo nhu cầu.
#Tính toán và tạo biểu đồ:
nv4 %>% ggplot(aes(x = caratA)) + #Tạo biểu đồ ggplot2 với trục x biểu thị biến caratA
  geom_bar(fill = 'red') + labs(title = "Phân tích đồ thị dạng cột theo tiêu chuẩn đạt và không đạt theo tiêu chuẩn về trọng lượng.",x = 'Loại', y = 'Số lượng') #Đặt tên cho biểu đồ, sử dụng labs từ ggplot2 để đặt nhãn cho trục x và y. 

Nhận xét biểu đồ

  • Nó giúp ta tổng kết lại số lượng viên kim cương theo mức độ về biến trọng lượng đã tạo mới thành 2 nhu cầu đạt và không đạt ( từ trái sang phải).

  • Trong đó thấy rõ hơn từng loại không đạt chiếm ưu thế bằng 35000 viên, và đạt là ít hơn chiếm gần 20000 viên. cách nhau khoảng 15000 viên

=> Qua đó thấy việc phân loại theo trọng lượng theo nhu cầu sẽ cho khách hàng dể dàng cho việc chọn lựa từ đó giúp đưa ra các chiến lược thị trường phù hợp.

2.17 Phân tích đồ thị dạng cột theo nhu cầu khách hàng về giá.

  • Ý muốn: để dể dàng cho quá trình nhận diện một hoàn chỉnh bằng cách thông kê so sánh theo cột giá thành(tạo mới) tính theo số lượng viên kim cương từ đó dể dàng cho quá trình trao đổi thông tin với các khách hàng, doanh nghiệp có nhu cầu. Có thể phục vụ có quá trình nghiên cứu thị trường. Muốn so sánh trực quan hơn về nhu cầu về ngân sách của khách hàng đặt giá thiết để phân định điều này.
#chuẩn bị dữ liệu:
nv4 <- diamonds
nv4 <- nv4 %>% mutate(priceC = ifelse(nv4$price >= 500 & nv4$price <= 1500, 'mua', 'không mua')) #Thêm một biến mới vào đối tượng nv4 với tên là priceC chia hàm carat thành 2 nhóm và đặt nhãn cho từng nhóm theo nhu cầu.
#Tính toán và tạo biểu đồ:
nv4 %>% ggplot(aes(x = priceC)) + #Tạo biểu đồ ggplot2 với trục x biểu thị biến priceC
  geom_bar(fill = 'pink') + labs(title = "Phân tích đồ thị dạng cột theo nhu cầu khách hàng về giá.",x = 'Nhu cầu', y = 'Số lượng')  #Đặt tên cho biểu đồ, sử dụng labs từ ggplot2 để đặt nhãn cho trục x và y. 

Nhận xét về biều đồ

  • Nó giúp ta tổng kết lại số lượng viên kim cương theo biến giá thành đã tạo mới thành 2 nhu cầu không mua và mua ( từ trái sang phải).

  • Trong đó thấy rõ hơn 2 loại không mua chiếm ưu thế bằng 35000 viên, và mua là ít hơn chiếm gần 20000 viên. cách nhau khoảng 15000 viên

=> Qua đó thấy việc phân loại theo giá cả viên kim cương sẽ quyết định đến nhu cầu khách hàng tầm giá thu nhập khách hàng có thể chi trả dể dàng cho việc chọn lựa từ đó giúp đưa ra các chiến lược thị trường phù hợp.

2.18 Phân tích đồ thị hình cột về phân bố số lượng viên kim cương theo thể tích.

  • Ý muốn: để dể dàng cho quá trình nhận diện một cách hoàn chỉnh bằng cách thông kê so sánh theo thể tích biến mới tạo theo số lượng nhất định từ đó dể dàng cho quá trình trao đổi thông tin với các khách hàng, doanh nghiệp có nhu cầu. Có thể phục vụ có quá trình nghiên cứu thị trường. Muốn so sánh trực quan/kỹ càng thể tích của các viên cương viên thông qua việc lọc ra theo màu.
#chuẩn bị dữ liệu:
nv4 <- diamonds 
nv4$thetich <- nv4$x*nv4$y*nv4$z #tạo biến mới thưc hiện phép nhân 3 biến x,y,z.
nv4 <- nv4 %>% mutate(Phânloại = case_when(nv4$thetich < 100 ~ 'Nhỏ', nv4$thetich >= 100 & nv4$thetich <= 200 ~ 'Vừa', nv4$thetich >200 ~ ' Lớn')) #Phânloại bằng cách sử dụng hàm mutate và lệnh case_when. Biến này gán giá trị "Nhỏ", "Vừa" hoặc "Lớn" cho mỗi viên kim cương dựa trên thể tích của nó.
#Tính toán và tạo biểu đồ:
nv4 %>% ggplot(aes(x = Phânloại)) + #Tạo biểu đồ ggplot2 với trục x biểu thị phânloại.
  geom_bar(fill = 'yellow') +  #Tạo biểu đồ cột và tô các cột màu vàng.
labs(title = "Phân tích đồ thị hình cột về phân bố số lượng viên kim cương theo thể tích.",x = 'Loại', y = 'Số lượng') #Đặt tên cho biểu đồ, sử dụng labs từ ggplot2 để đặt nhãn cho trục x và y. 

Phân tích biểu đồ

  • Nó giúp ta tổng kết lại số lượng các viên kim cương theo thể tích biến mới tạo xếp lần lược từ Lớn->Nhỏ->Vừa( từ trái sang phải).

  • Trong đó thấy rõ hơn từng viên kim cương có thể tích nhỏ chiếm nhiều nhất (gần 25000) và các viên lớn chỉ chiếm (hơn 7500) chênh lệch dưới 17500 viên

  • Các thanh không đồng dều nhau tập chung nhiều từ nhỏ và vừa.

=> Qua đó thấy việc lọc ra các viên theo từng loại thể tích giúp dể dàng cho quá trình tìm kiếm và phân loại ra thị trường từ đó giúp đưa ra các chiến lược thị trường phù hợp.

2.19 Phân tích đồ thị dạng cột số lượng viên kim cương theo loại và màu sắc với biến thể tích.

  • Ý muốn: để dể dàng cho quá trình nhận diện một cách hoàn chỉnh bằng cách thông kê so sánh theo theo loại và màu sắc với biến thể tích với số lượng nhất định từ đó dể dàng cho quá trình trao đổi thông tin với các khách hàng, doanh nghiệp có nhu cầu. Có thể phục vụ có quá trình nghiên cứu thị trường. Muốn so sánh trực quan/kỹ càng thể tích của các viên cương viên thông qua việc tạo với 2 nhóm là Phânloại và màu sắc.
#chuẩn bị dữ liệu:
nv4 <- diamonds 
nv4$thetich <- nv4$x*nv4$y*nv4$z
nv4 <- nv4 %>% mutate(Phânloại = case_when(nv4$thetich < 100 ~ 'Nhỏ', nv4$thetich >= 100 & nv4$thetich <= 200 ~ 'Vừa', nv4$thetich >200 ~ ' Lớn'))
#Tính toán và tạo biểu đồ:
nv4 <- nv4 %>% group_by(Phânloại, color) %>% summarise(n = n()) #Phân nhóm dữ liệu trong nv4 theo biến Phânloại, color. Trong mỗi nhóm, tính theo tổng số và lưu trữ trong biến mới n.
## `summarise()` has grouped output by 'Phânloại'. You can override using the
## `.groups` argument.
nv4 %>% ggplot(aes(x = Phânloại, y = n)) + #Tạo biểu đồ ggplot2 với trục x biểu thị phânloại.
  geom_col(data = nv4 %>% filter(color == 'D'), fill = 'red') +
  geom_col(data = nv4 %>% filter(color == 'J'), fill = 'blue') + labs(title = "Phân tích đồ thị dạng cột số lượng viên kim cương theo loại và màu sắc với biến thể tích.",x = 'Loại', y = 'Số lượng')

Nhận xét biểu đồ

  • Nó giúp ta tổng kết lại số lượng các viên kim cương theo thể tích biến mới tạo xếp lần lược từ Lớn->Nhỏ->Vừa( từ trái sang phải).

  • Trong đó thấy rõ hơn từng viên kim cương có thể tích nhỏ chiếm nhiều nhất (gần 4000) và các viên lớn chỉ chiếm (hơn 1000) chênh lệch dưới 3000 viên

  • TRong đó với màu thường (D) nhỏ và vừa chiếm ưu thế (nhỏ nhiều hơn) và hầu như không có viên lớn.

  • Trong đó màu rất hiếm (J) tỷ trong viên lớn cao ngang ngửa với vừa và nhỏ ít hơn hẳn.

  • Các thanh không đồng dều nhau giữa các loại cũng như là màu

=> Qua đó thấy việc lọc ra các viên theo từng loại thể tích giúp dể dàng cho quá trình tìm kiếm và phân loại ra thị trường, tùy vào các màu mà kích cỡ cũng hoàn toàn khác nhau từ đó giúp đưa ra các chiến lược thị trường phù hợp.

2.20 Phân tích đồ thị hình cột về tỷ lệ phần trăm viên kim cương theo loại từ biến thể tích.

  • Ý muốn: để dể dàng cho quá trình nhận diện hoàn chỉnh bằng cách thông kê so sánh tỷ lệ phần trăm viên kim cương theo loại từ biến thể tích tính số lượng nhất định từ đó dể dàng cho quá trình trao đổi thông tin với các khách hàng, doanh nghiệp có nhu cầu. Có thể phục vụ có quá trình nghiên cứu thị trường. Muốn so sánh trực quan/kỹ càng thể tích của các viên cương viên thông qua các số liệu về trăm.
library(scales)
#chuẩn bị dữ liệu:
nv4 <- diamonds
nv4$thetich <- nv4$x*nv4$y*nv4$z 
nv4 <- nv4 %>% mutate(Phânloại = case_when(nv4$thetich < 100 ~ 'Nhỏ', nv4$thetich >= 100 & nv4$thetich <= 200 ~ 'Vừa', nv4$thetich >200 ~ ' Lớn')) 
#Tính toán và tạo biểu đồ:
nv4 %>% group_by(Phânloại) %>% summarise(n = n()) %>% #Phân nhóm dữ liệu trong nv4 theo biến Phânloại. Trong mỗi nhóm, tính theo tổng số và lưu trữ trong biến mới n.
  ggplot(aes(Phânloại,n)) +  
    geom_col(fill='green') + #Tạo biểu đồ cột và tô các cột màu xanh.
    geom_text(aes(label = percent(n/length(nv4$carat))),vjust = 2, color = 'red') + #thêm nhãn văn bản với công thức tính phần trăm số lượng trên mỗi cột. Nhãn được đặt cao hơn một chút (vjust = 1) và có màu đỏ. 
    labs(title = "Phân tích đồ thị hình cột về tỷ lệ phần trăm viên kim cương theo loại từ biến thể tích.", x = 'Loại', y = 'Số lượng') 

Nhận xét đồ thị

  • Nó giúp ta tổng kết lại số lượng các viên kim cương theo biến phân loại thể tích xếp lần lược từ Lớn->Nhỏ->Vừa( từ trái sang phải).

  • Trong đó thấy rõ hơn từng viên kim cương có thể tích nhỏ chiếm nhiều nhất (gần 25000-tỷ lệ 45,5%) và các viên lớn chỉ chiếm (hơn 7500-15.5%) chênh lệch dưới 17500 viên-30% (sl kim cương nhỏ/ tổng số lượng)*100%

  • Các thanh không đồng dều nhau tập chung nhiều từ nhỏ và vừa.

=> Qua đó thấy việc lọc ra các viên theo từng loại thể tích và hiện đầy đủ phần trăm khái quát 1 cách tổng quan hơn giúp dể dàng cho quá trình tìm kiếm và phân loại ra thị trường từ đó giúp đưa ra các chiến lược thị trường phù hợp.

2.21 Phân tích đồ thị dạng cột phân bố số lượng viên kim cương theo loại, kiểu cắt và màu sắc của biến thể tích.

  • Ý muốn: để dể dàng cho quá trình nhận diện hoàn chỉnh bằng cách thông kê so sánh theo loại, kiểu cắt và màu sắc của biến thể tích tính số lượng nhất định từ đó dể dàng cho quá trình trao đổi thông tin với các khách hàng, doanh nghiệp có nhu cầu. Có thể phục vụ có quá trình nghiên cứu thị trường. Muốn so sánh trực quan/kỹ càng thể tích của các viên cương viên thông qua việc phân hóa dữ liệu và tạo nhóm theo các biến có sẵn hoặc đã tạo.
#chuẩn bị dữ liệu:
nv4 <- diamonds 
nv4$thetich <- nv4$x*nv4$y*nv4$z
nv4 <- nv4 %>% mutate(Phânloại = case_when(nv4$thetich < 100 ~ 'Nhỏ', nv4$thetich >= 100 & nv4$thetich <= 200 ~ 'Vừa', nv4$thetich >200 ~ ' Lớn')) 
#Tính toán và tạo biểu đồ:
nv4 %>% group_by(Phânloại,cut,color) %>% summarise(n=n()) %>%
  ggplot(aes(x = Phânloại,y = n)) +
    geom_col(position = 'dodge',fill='purple') +
    facet_wrap(~color) +
    labs(title = "Phân tích đồ thị dạng cột phân bố số lượng viên kim cương theo loại, kiểu cắt và màu sắc của biến thể tích.", x = 'Loại', y = 'Số lượng') + coord_flip() 
## `summarise()` has grouped output by 'Phânloại', 'cut'. You can override using
## the `.groups` argument.

Nhân xét biểu đồ

  • Nó giúp ta tổng kết lại số lượng của các viên kim cương theo màu sắc D->E->F->G->H->I->J(theo thứ tự của các biểu đồ) và theo Phân loại Vừa->Nhỏ->Lớn (từ trái sang phải)

  • Trong đó cột màu hiếm (G) có độ dao động nhiều nhất cả về các phân loại và ít nhất và bảng màu rất hiếm (J).(hầu hết loại nhỏ chiếm nhiều nhất và lớn là ít nhất)

  • Các thanh trong các bảng không đồng đều, tập màu thường và hiếm có nhiều tập trung nhiều phân loại nhỏ và vừa

=> Qua đó thấy nên tập trung khai thác quan tâm các viên kim cương màu hiếm đến thường vì chứa nhiều tài nguyên cơ hội để nâng cao tay nghề cũng như thuyết lập thị trường với nhu cầu khách hàng trung tâm từ đó giúp đưa ra các chiến lược thị trường phù hợp.

2.22 Phân tích đồ thị dạng cột về số lượng viên kim cương theo giá trị logarit của của thể tích, phân loại theo 3 biến.

  • Ý muốn: để dể dàng cho quá trình nhận diện hoàn chỉnh bằng cách thông kê so sánh theo giá trị logarit của của thể tích, phân loại theo 3 biến tính số lượng nhất định từ đó dể dàng cho quá trình trao đổi thông tin với các khách hàng, doanh nghiệp có nhu cầu. Có thể phục vụ có quá trình nghiên cứu thị trường. Muốn so sánh trực quan/kỹ càng giá trị logarit của thể tích các viên cương viên thông qua việc phân hóa dữ liệu và tạo nhóm theo các biến có sẵn hoặc đã tạo, dùng logarit giúp tạo khoảng cách chênh lệch xuống thấp hơn dể phân tích và mô hình hóa dữ liệu dễ dàng hơn.
#Chuẩn bị dữ liệu:
nv4 <- diamonds
nv4$thetich <- nv4$x*nv4$y*nv4$z #tính thể tích vào biến mới 
nv4 <- nv4 %>% mutate(nice = log(thetich)) #tạo biến mới để tích log thể tích
nv4 <- nv4 %>% mutate(niceC = ifelse(nv4$nice <= 5.0 , 'nhận', 'không nhận')) #Phânloại bằng cách sử dụng hàm mutate và lệnh ifelse. Biến này gán giá trị "Nhận", "Không nhận" cho mỗi viên kim cương dựa trên log của thể tích của nó.
#Tính toán và tạo biểu đồ:
nv4 <- nv4 %>% group_by(niceC, cut,color) %>% summarise(n = n()) #Phân nhóm dữ liệu trong nv4 theo 3 nhóm. Trong mỗi nhóm, tính theo tổng số và lưu trữ trong biến mới n.
## `summarise()` has grouped output by 'niceC', 'cut'. You can override using the
## `.groups` argument.
nv4 %>% ggplot(aes(x = niceC, y = n)) +
  geom_col(data = nv4 %>% filter(cut == 'Ideal'), fill = 'pink') + #lọc dữ liệu theo 2 đk của biến kỹ thuật cắt
  geom_col(data = nv4 %>% filter(cut == 'Fair'), fill = 'black') + labs(title = "Phân tích đồ thị dạng cột về số lượng viên kim cương theo giá trị logarit của của thể tích, phân loại theo 3 biến.",x = 'Ý muốn', y = 'Số lượng')

Nhận xét biểu đồ

  • Nó giúp ta tổng kết lại số lượng các viên kim cương theo biến niceC (ý muốn nhu cầu tính theo log của thể tích) xếp lần lược từ Không nhận->Nhận( từ trái sang phải).

  • Trong đó thấy rõ hơn từng viên kim cương có số lượng loại nhận chiếm nhiều nhất (hơn 15000) và các viên không nhận chỉ chiếm (hơn 5000) chênh lệch khoảng 10000 viên

  • TRong đó với kỹ thuật cắt hoàn hảo (ideal) nhận và không nhận khá đồng đều nhau, không nhận vẫn chiếm nhiều hơn.

  • Trong đó màu rất tệ (Fair) nhận cao hơn hẳn không nhận.

  • Các thanh hầu như không đồng dều nhau giữa ý muốn cũng như là kỹ thuật so với số lượng. Tỷ trọng nhận của viên cương kỹ thuật cắt tệ cao hơn khi dựa vào giá trị logarit của thể tích.

=> Qua đó thấy việc lọc ra các viên theo từng loại giá trị logarit của thể tích giúp dể dàng cho quá trình tìm kiếm và phân loại ra thị trường, không phải cứ cắt hoàn hảo sẽ được nhận gật đầu khách hàng còn phải bao gồm nhiều yếu tố từ đó giúp đưa ra các chiến lược thị trường phù hợp.

2.23 Phân tích đồ thị dạng cột theo 3 biến: thể tích, giá trị logarit của thể tích, và giá trung bình của viên kim cương.

  • Ý muốn: để dể dàng cho quá trình nhận diện hoàn chỉnh bằng cách thông kê so sánh theo giá trị logarit của của thể tích, phân loại theo 1 biến tính trung bình giá(hiện tỷ lệ phần trăm) từ đó dể dàng cho quá trình trao đổi thông tin với các khách hàng, doanh nghiệp có nhu cầu. Có thể phục vụ có quá trình nghiên cứu thị trường. Muốn so sánh trực quan/kỹ càng giá trị logarit của thể tích các viên cương viên thông qua việc phân hóa dữ liệu và tạo nhóm theo các biến có sẵn hoặc đã tạo, dùng logarit giúp tạo khoảng cách chênh lệch xuống thấp hơn dể phân tích và mô hình hóa dữ liệu dễ dàng hơn.
library(scales) # tải thư viện scales để sử dụng các hàm định dạng dữ liệu.
#Chuẩn bị dữ liệu:
nv4 <- diamonds
nv4$thetich <- nv4$x*nv4$y*nv4$z
nv4 <- nv4 %>% mutate(nice = log(thetich))
nv4 <- nv4 %>% mutate(niceC = ifelse(nv4$nice <= 5.0 , 'nhận', 'không nhận'))
#Tính toán và tạo biểu đồ
nv4 %>% group_by(niceC) %>% summarise(n = mean(price)) %>% 
  ggplot(aes(niceC,n)) +
    geom_col(fill='green') +
    geom_text(aes(label = percent(n/length(nv4$carat))),vjust = 2, color = 'red') +
    labs(title = "Phân tích đồ thị dạng cột theo 3 biến: thể tích, giá trị logarit của thể tích, và giá trung bình của viên kim cương.", x = 'Ý muốn', y = 'Trung bình giá')

Nhận xét biểu đồ

  • Nó giúp ta tổng kết lại trung bình giá các viên kim cương theo biến niceC phân thành 2 giá trị xếp lần lược từ không nhận->nhận( từ trái sang phải).

  • Trong đó thấy rõ hơn từng viên kim cương có với số lượng loại nhận chiếm nhiều nhất (hơn 15000-15%) và các viên không nhận chỉ chiếm (hơn 5000-3%) chênh lệch khoảng 10000 viên(12%).

  • Các thanh hầu như không đồng dều nhau giữa ý muốn cũng như số lượng

=> Qua đó thấy việc lọc ra các viên theo từng loại giá trị logarit của thể tích giúp dể dàng cho quá trình tìm kiếm và phân loại ra thị trường, giúp giảm thiểu ảnh hưởng của những viên kim cương có kích thước lớn, đồng thời làm nổi bật sự khác biệt giữa những viên kim cương có kích thước nhỏ, tạo mô hình tuyến tính tốt hơn từ đó giúp đưa ra các chiến lược thị trường phù hợp.

2.24 Phân tích đồ thị dạng cột sự ảnh hưởng của biến phân loại ý muốn theo logarit của thể tích và kỹ thuật cắt đến giá trị trọng lượng trung bình của viên kim cương.

  • Ý muốn: để dể dàng cho quá trình nhận diện hoàn chỉnh bằng cách thông kê so sánh theo giá trị logarit của của thể tích, phân loại theo 3 biến tính trung bình trọng lượng từ đó dể dàng cho quá trình trao đổi thông tin với các khách hàng, doanh nghiệp có nhu cầu. Có thể phục vụ có quá trình nghiên cứu thị trường. Muốn so sánh trực quan/kỹ càng giá trị logarit của thể tích các viên cương viên thông qua việc phân hóa dữ liệu và tạo nhóm theo các biến có sẵn hoặc đã tạo, dùng logarit giúp tạo khoảng cách chênh lệch xuống thấp hơn dể phân tích và mô hình hóa dữ liệu dễ dàng hơn.
#Chuẩn bị dữ liệu:
nv4 <- diamonds
nv4$thetich <- nv4$x*nv4$y*nv4$z
nv4 <- nv4 %>% mutate(nice = log(thetich))
nv4 <- nv4 %>% mutate(niceC = ifelse(nv4$nice <= 5.0 , 'nhận', 'không nhận'))
#Tính toán và tạo biểu đồ:
nv4 %>% group_by(niceC,color,cut) %>% summarise(n = mean(carat)) %>% 
  ggplot(aes(niceC,n)) +
    geom_col(fill='pink') +
    coord_flip() + facet_wrap(~cut) +
    labs(title = "Phân tích đồ thị dạng cột sự ảnh hưởng của biến phân loại ý muốn theo logarit của thể tích và kỹ thuật cắt đến giá trị trọng lượng trung bình của viên kim cương.", x = 'Nhu cầu', y = 'Trung bình trọng lượng')
## `summarise()` has grouped output by 'niceC', 'color'. You can override using
## the `.groups` argument.

Nhận xét biểu đồ

  • Nó giúp ta tổng kết lại số lượng của các viên kim cương theo màu sắc Fair->Very-> Good->Good->Premium->ideal(theo thứ tự của các biểu đồ) và theo Nhu cầu Nhận->Không nhận (từ trái sang phải)

  • Trong đó kỹ thuật cắt tệ (Fair) có độ dao động nhiều nhất cả về các phân loại và ít nhất là kỹ thuật cắt hoàn hảo (Ideal).

  • Các thanh trong các bảng khá đồng đều nhau qua các bảng số liệu từng kỹ thuật cắt.

=> Qua đó thấy việc lọc ra các viên theo từng loại giá trị logarit của thể tích giúp dể dàng cho quá trình tìm kiếm và phân loại ra thị trường, vì giảm sự chênh lệch nên khó thấy sự do động qua các bảng số liệu, tạo mô hình tuyến tính tốt hơn từ đó giúp đưa ra các chiến lược thị trường phù hợp.

2.25 Phân tích đồ thị dạng cột về số lượng viên kim cương theo 2 yếu tố: phân loại theo căn bậc hai của biến thể tích và Chất lượng cắt.

  • Ý muốn: để dể dàng cho quá trình nhận diện hoàn chỉnh bằng cách thông kê so sánh theo 2 yếu tố: phân loại theo căn bậc hai của biến thể tích và Chất lượng cắt theo 2 biến tính số lượng từ đó dể dàng cho quá trình trao đổi thông tin với các khách hàng, doanh nghiệp có nhu cầu. Có thể phục vụ có quá trình nghiên cứu thị trường. Muốn so sánh trực quan/kỹ càng giá trị căn bậc hai của thể tích các viên cương viên thông qua việc phân hóa dữ liệu và tạo nhóm theo các biến có sẵn hoặc đã tạo, so sánh dể hơn so sánh trực tiếp thể tích.
#Chuẩn bị dữ liệu:
nv4 <- diamonds
nv4$thetich <- nv4$x*nv4$y*nv4$z
nv4 <- nv4 %>% mutate(cb2 = sqrt(thetich)) #tạo biến mới tính căn bậc 2 của biến thể tích
nv4 <- nv4 %>% mutate(Phânloại = case_when(nv4$cb2 < 6.5 ~ 'Loại 1', nv4$cb2 >= 6.5 & nv4$cb2 <= 7.5 ~ 'Loại 2', nv4$cb2 >7.5 ~ ' Loại 3')) #Phânloại bằng cách sử dụng hàm mutate và lệnh case_when. Biến này gán giá trị "Loại 1", "Loại 2" hoặc "Loại 3" cho mỗi viên kim cương dựa trên căn bậc hai thể tích của nó.
#Tính toán và tạo biểu đồ:
nv4 <- nv4 %>% group_by(Phânloại,cut) %>% summarise(n = n())
## `summarise()` has grouped output by 'Phânloại'. You can override using the
## `.groups` argument.
nv4 %>% ggplot(aes(x = Phânloại, y = n)) +
  geom_col(data = nv4 %>% filter(cut == 'Ideal'), fill = 'yellow') +
  geom_col(data = nv4 %>% filter(cut == 'Fair'), fill = 'black') + 
  labs(title = "Phân tích đồ thị dạng cột về số lượng viên kim cương theo 2 yếu tố: phân loại theo căn bậc hai của biến thể tích và Chất lượng cắt.",x = 'Loại', y = 'Số lượng')

Nhận xét biểu đồ

  • Nó giúp ta tổng kết lại số lượng các viên kim cương theo biến Phân loại (ý muốn nhu cầu tính theo canw bậc hai của thể tích) xếp lần lược từ loại3->loaij1->loại2( từ trái sang phải).

  • Trong đó thấy rõ hơn từng viên kim cương có với số lượng Loại 3 chiếm nhiều nhất (hơn 15000) và các viên loại 1 chỉ chiếm (chưa tới 1000) chênh lệch khoảng 14000 viên

  • TRong đó với kỹ thuật cắt hoàn hảo (ideal) loại 3 có nhiều nhất vẫn ít nhất là loại 1

  • Trong đó màu rất tệ (Fair) loại 3 có nhiều nhất vẫn ít nhất là loại 1 tuy nhiên loại 2,3 rất ít đặc biệt loại 1 hầu như không nhìn thấy bằng mắt thường.

  • Các thanh hầu như không đồng dều nhau giữa ý muốn cũng như là kỹ thuật so với số lượng. Tỷ trọng nhận của viên cương kỹ thuật cắt tệ cao hơn khi dựa vào giá trị logarit của thể tích.

=> Qua đó thấy việc lọc ra các viên theo từng loại giá trị căn bậc hai của thể tích giúp dể dàng cho quá trình tìm kiếm và phân loại ra thị trường, phân loại ảnh hưởng đến kỹ thuật cắt căn bậc hai thể tích càng cao càng ít cắt lỗi từ đó giúp đưa ra các chiến lược thị trường phù hợp.

2.26 Phân tích đồ thị dạng cột về số lượng viên kim cương theo 2 yếu tố: phân loại theo căn bậc hai của biến thể tích và Chất lượng cắt(tt).

  • Ý muốn: để dể dàng cho quá trình nhận diện hoàn chỉnh bằng cách thông kê so sánh theo 2 yếu tố: phân loại theo căn bậc hai của biến thể tích và Chất lượng cắt theo 2 biến tính số lượng từ đó dể dàng cho quá trình trao đổi thông tin với các khách hàng, doanh nghiệp có nhu cầu. Có thể phục vụ có quá trình nghiên cứu thị trường. Muốn so sánh trực quan/kỹ càng giá trị căn bậc hai của thể tích các viên cương viên thông qua việc phân hóa dữ liệu và tạo nhóm theo các biến có sẵn hoặc đã tạo, so sánh dể hơn so sánh trực tiếp thể tích. Phần này rõ ràng hơn từng biến giá trị của 2 yếu tố.
#Chuẩn bị dữ liệu:
nv4 <- diamonds
nv4$thetich <- nv4$x*nv4$y*nv4$z
nv4 <- nv4 %>% mutate(cb2 = sqrt(thetich)) 
nv4 <- nv4 %>% mutate(Phânloại = case_when(nv4$cb2 < 6.5 ~ 'Loại 1', nv4$cb2 >= 6.5 & nv4$cb2 <= 7.5 ~ 'Loại 2', nv4$cb2 >7.5 ~ ' Loại 3'))
#Tính toán và tạo biểu đồ:
nv4 <- nv4 %>% group_by(Phânloại,cut) %>% summarise(n = n())
## `summarise()` has grouped output by 'Phânloại'. You can override using the
## `.groups` argument.
nv4 %>% ggplot(aes(x = Phânloại, y = n)) +
    geom_col(position = 'dodge',fill = 'yellow') +
 facet_wrap(~cut) +
    geom_text(aes(label = n),vjust = 0, color = 'red' ) +
   labs(title = "Phân tích đồ thị dạng cột về số lượng viên kim cương theo 2 yếu tố: phân loại theo căn bậc hai của biến thể tích và Chất lượng cắt(tt)",x = 'Loại', y = 'Số lượng')

Nhận xét biểu đồ

  • Nó giúp ta tổng kết lại số lượng của các viên kim cương theo kỹ thuật cắt Fair->Very-> Good->Good->Premium->ideal(theo thứ tự của các biểu đồ) và theo Nhu Loại 3 ->Loại 1-> Loại 2 (từ trái sang phải)

  • Trong đó kỹ thuật hoán hảo (Ideal) có độ dao động nhiều nhất cả về các phân loại và ít nhất là kỹ thuật cắt tệ (Fair).

  • Các thanh trong các bảng khá đồng đều nhau qua các bảng số liệu từng kỹ thuật cắt.

=> Qua đó thấy việc lọc ra các viên theo từng loại giá trị căn bậc hai của thể tích giúp dể dàng cho quá trình tìm kiếm và phân loại ra thị trường, phân loại ảnh hưởng đến kỹ thuật cắt căn bậc hai của thể tích càng cao càng ít cắt lỗi và tùy theo số lượng từ đó giúp đưa ra các chiến lược thị trường phù hợp.

2.27 Phân tích đồ thị dạng cột theo tỷ lệ phần trăm trung bình trọng lượng dể phân loại kim cương.

  • Ý muốn: để dể dàng cho quá trình nhận diện hoàn chỉnh bằng cách thông kê so sánh theo theo tỷ lệ phần trăm của biến căn bậc 2 thể tích tính trung bình trọng lượng từ đó dể dàng cho quá trình trao đổi thông tin với các khách hàng, doanh nghiệp có nhu cầu. Có thể phục vụ có quá trình nghiên cứu thị trường. Muốn so sánh trực quan/kỹ càng giá trị căn bậc hai của thể tích các viên cương viên thông qua việc phân hóa dữ liệu và tạo nhóm theo các biến có sẵn hoặc đã tạo, so sánh dể hơn so sánh trực tiếp thể tích. Phần này quán sát rõ ràng hơn từng giá trị theo mức độ (%).
library(scales)
#Chuẩn bị dữ liệu:
nv4 <- diamonds
nv4$thetich <- nv4$x*nv4$y*nv4$z
nv4 <- nv4 %>% mutate(cb2 = sqrt(thetich))
nv4 <- nv4 %>% mutate(Phânloại = case_when(nv4$cb2 < 6.5 ~ 'Loại 1', nv4$cb2 >= 6.5 & nv4$cb2 <= 7.5 ~ 'Loại 2', nv4$cb2 >7.5 ~ ' Loại 3'))
#Tính toán và tạo biểu đồ:
nv4 %>% group_by(Phânloại) %>% summarise(n = mean(carat)) %>% 
  ggplot(aes(Phânloại,n)) +
    geom_col(fill='orange') +
    geom_text(aes(label = percent(n/length(nv4$carat))),vjust = 2, color = 'red') + 
    labs(title = "Phân tích đồ thị dạng cột theo tỷ lệ phần trăm trung bình trọng lượng dể phân loại kim cương.", x = 'Loại', y = 'Trung bình trọng lượng')

Nhận xét biểu đồ

  • Nó giúp ta tổng kết lại trung bình trọng lượng các viên kim cương theo biến niceC phân thành 3 giá trị xếp lần lược từ Loại 3->Loại 1->Loại 2(từ trái sang phải).

  • Trong đó thấy rõ hơn từng viên kim cương có với trung bình trọng lượng loại 3 chiếm nhiều nhất (hơn 0.875-0.001688%) và các viên không nhận chỉ chiếm (trêb 0.25-0.000497%) chênh lệch khoảng 0.625(0.001191%).

  • Các thanh hầu như không đồng dều nhau giữa loại cũng như trung bình trọng lượng

=> Qua đó thấy việc lọc ra các viên theo từng loại giá trị căn bậc hai của thể tích giúp dể dàng cho quá trình tìm kiếm và phân loại ra thị trường, phân loại ảnh hưởng đến kỹ thuật cắt căn bậc hai của thể tích càng cao càng ít cắt lỗi và tùy theo số lượng, kèm theo số liệu (%) đồ thị có sự chi tiết hơn từ đó giúp đưa ra các chiến lược thị trường phù hợp.

2.28 Phân tích biều đồ hình cột theo tỷ lệ phần trăm số lượng viên kim cương theo phân loại(biến căn bậc hai của thể tích) và chất lượng cắt.

  • Ý muốn: để dể dàng cho quá trình nhận diện hoàn chỉnh bằng cách thông kê so sánh theo theo tỷ lệ phần trăm của biến căn bậc 2 thể tích tính trung bình trọng lượng từ đó dể dàng cho quá trình trao đổi thông tin với các khách hàng, doanh nghiệp có nhu cầu. Có thể phục vụ có quá trình nghiên cứu thị trường. Muốn so sánh trực quan/kỹ càng giá trị căn bậc hai của thể tích các viên cương viên thông qua việc phân hóa dữ liệu và tạo nhóm theo các biến có sẵn hoặc đã tạo, so sánh dể hơn so sánh trực tiếp thể tích. Phần này quan sát rõ ràng hơn từng giá trị theo mức độ (%) của từng mức độ kỹ thuật cắt so với việc phân loại biến mới.
library(scales)
#Chuẩn bị dữ liệu:
nv4 <- diamonds
nv4$thetich <- nv4$x*nv4$y*nv4$z
nv4 <- nv4 %>% mutate(cb2 = sqrt(thetich))
nv4 <- nv4 %>% mutate(Phânloại = case_when(nv4$cb2 < 6.5 ~ 'Loại 1', nv4$cb2 >= 6.5 & nv4$cb2 <= 7.5 ~ 'Loại 2', nv4$cb2 >7.5 ~ ' Loại 3'))
#Tính toán và tạo biểu đồ:
nv4 %>% group_by(Phânloại,color) %>% summarise(n = n()) %>% 
  ggplot(aes(Phânloại,n)) +
    geom_col(fill='green') +
    geom_text(aes(label = percent(n/length(nv4$carat))),vjust = 0, color = 'red') + facet_wrap(~color) +
    labs(title = "Phân tích biều đồ hình cột theo tỷ lệ phần trăm số lượng viên kim cương theo phân loại(biến căn bậc hai của thể tích) và chất lượng cắt.", x = 'Loại', y = 'Số lượng')
## `summarise()` has grouped output by 'Phânloại'. You can override using the
## `.groups` argument.

Nhận xét biểu đồ

  • Nó giúp ta tổng kết lại số lượng của các viên kim cương theo màu sắc D->E->F->G->H->I->J (theo thứ tự của các biểu đồ) và theo Nhu Loại 3 ->Loại 1-> Loại 2 (từ trái sang phải)

  • Trong đó màu hiếm (G) có độ dao động nhiều nhất cả về các phân loại và ít nhất là màu rất hiếm (J).

  • Các thanh trong các bảng khá đồng đều nhau qua các bảng số liệu từng kỹ thuật cắt, màu hiếm và bình thường chiếm ưu thế số lượng kèm theo tỷ lệ phần trăm

=> Qua đó thấy tổng quan hơn khi xuất hiện phần trăm trong việc lọc ra các viên theo từng loại giá trị căn bậc hai của thể tích giúp dể dàng cho quá trình tìm kiếm và phân loại ra thị trường, loại có căn bậc 2 càng cao thì rất hiếm càng ít đi từ đó giúp đưa ra các chiến lược thị trường phù hợp.

2.29 Phân tích biểu đồ hình cột thể hiện rõ số lượng viên kim cương theo biến Loại cắt 2 giá trị Màu sắc.

  • Ý muốn: để dể dàng cho quá trình nhận diện một hoàn chỉnh bằng cách thông kê so sánh theo theo biến Loại cắt và Màu sắc tính theo số lượng viên kim cương từ đó dể dàng cho quá trình trao đổi thông tin với các khách hàng, doanh nghiệp có nhu cầu. Có thể phục vụ có quá trình nghiên cứu thị trường. Muốn so sánh trực quan hơn về biến color về 2 màu D và J (màu thường và màu rất hiếm).
#chuẩn bị dữ liệu:
nv4 <- diamonds  %>% 
  group_by(cut,color) %>% 
  summarise(n = n()) %>% 
  mutate(color = factor(color, levels = c("D","J"))) #Chuyển đổi color thành kiểu dữ liệu factor với các mức độ từ "D" đến "J"
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
#Tính toán và tạo biểu đồ:
nv4 %>% ggplot(aes(x = cut, y = n,fill= color)) +
  geom_col(position = position_dodge()) +
  labs(title = "Phân tích biểu đồ hình cột thể hiện rõ số lượng viên kim cương theo biến Loại cắt 2 giá trị Màu sắc.",x = 'loại', y = 'Số lượng')

Nhận xét biểu đồ

  • Nó giúp ta tổng kết lại số lượng viên kim cương của 2 giá trị màu sắc theo kỹ thuật cắt Fair->Very-> Good->Good->Premium->ideal ( từ trái sang phải).

  • Trong đó thấy rõ hơn kỹ thuật cắt hoàn hảo(ideal) cả về 2 màu (tổng khoảng 3750 viên) thường và rất hiếm chiếm tỷ trong nhiều hơn và (Fair) kỹ thuật cắt tệ chiếm tỷ trong nhấp nhất(tổng chưa tới 500 viên). cách biệt khoảng 3250 viên kim cương.

  • Trong đó màu (D) chiếm ưu thế hơn màu (I), các thanh không đồng đều nhau, cách biệt giữa thấp và nhiều giữa màu (D) khoảng 2750 viên và màu (I) là khoảng 800 viên

=> Qua đó thấy việc lọc ra dể phân tích kỹ 2 màu theo từng kiểu cắt giúp so sánh tổng thể có cái nhìn trừu tượng về dữ liệu khách hàng cần hay yêu cầu từ đó giúp đưa ra các chiến lược thị trường phù hợp.

2.30 Phân tích đồ thị dạng cột số lượng viên kim cương theo Phân loại(biến căn bật hai) và 2 giá trị màu sắc.

  • Ý muốn: để dể dàng cho quá trình nhận diện một hoàn chỉnh bằng cách thông kê so sánh theo biến Phân loại(biến căn bật hai) và 2 giá trị màu sắc tính theo số lượng viên kim cương từ đó dể dàng cho quá trình trao đổi thông tin với các khách hàng, doanh nghiệp có nhu cầu. Có thể phục vụ có quá trình nghiên cứu thị trường. Muốn so sánh trực quan hơn về biến màu sắc E và I (màu thường và màu rất hiếm).
#chuẩn bị dữ liệu:
nv4 <- diamonds
nv4$thetich <- nv4$x*nv4$y*nv4$z
nv4 <- nv4 %>% mutate(cb2 = sqrt(thetich))
nv4 <- nv4 %>% mutate(Pl = case_when(nv4$cb2 < 6.5 ~ 'Loại 1', nv4$cb2 >= 6.5 & nv4$cb2 <= 7.5 ~ 'Loại 2', nv4$cb2 >7.5 ~ ' Loại 3')) 
#Tính toán và tạo biểu đồ:
nv4 <- nv4 %>% group_by(Pl, color) %>%  
  summarise(n = n()) %>% 
  mutate(color = factor(color, levels = c("E","I")))
## `summarise()` has grouped output by 'Pl'. You can override using the `.groups`
## argument.
nv4 %>% ggplot(aes(x = Pl, y = n,fill= color)) +
  geom_col(position = position_dodge()) +
  labs(title = "Phân tích đồ thị dạng cột số lượng viên kim cương theo Phân loại(biến căn bật hai) và 2 giá trị Màu sắc.",x = 'loại', y = 'Số lượng')

Nhận xét biểu đồ

  • Nó giúp ta tổng kết lại số lượng viên kim cương của 2 giá trị màu sắc theo kỹ thuật cắt Loại 3->Loại 1->Loại2 ( từ trái sang phải).

  • Trong đó thấy rõ hơn số lượng loại 3 cả về 2 màu (tổng khoảng 12375 viên) thường và rất hiếm hiếm chiếm tỷ trong nhiều hơn và Loại 1 chiếm tỷ trong nhấp nhất(tổng chưa tới 350 viên). cách biệt khoảng 12025 viên kim cương(khoảng cách rất lớn).

  • Trong đó màu (E) chiếm ưu thế hơn màu (I), các thanh không đồng đều nhau, cách biệt giữa thấp và nhiều giữa màu (E) khoảng gần 7375 viên và màu (I) là khoảng 4700

viên.

=> Qua đó thấy việc lọc ra dể phân tích kỹ 2 màu theo từng loại giúp so sánh tổng thể có cái nhìn trừu tượng về dữ liệu khách hàng cần hay yêu cầu từ đó giúp đưa ra các chiến lược thị trường phù hợp.

2.31 Phân loại đồ thị dang cột tạo biến mới(theo biến price) và phân tích chung với màu sắc theo số lượng.

  • Ý muốn: để dể dàng cho quá trình nhận diện một hoàn chỉnh bằng cách thông kê so sánh theobiến mới(theo biến price) và phân tích chung với màu sắc tính theo số lượng viên kim cương từ đó dể dàng cho quá trình trao đổi thông tin với các khách hàng, doanh nghiệp có nhu cầu. Có thể phục vụ có quá trình nghiên cứu thị trường. Muốn so sánh trực quan hơn về biến màu sắc H và I (màu hiếm và màu rất hiếm).
#chuẩn bị dữ liệu:
nv4 <- diamonds 
nv4 <- nv4 %>% mutate(priceC = cut(price,5, label = c('rất rẻ', 'rẻ','vừa','mắc','rất mắc'))) #Thêm một biến mới vào đối tượng nv4 với tên là priceC chia hàm price thành 5 nhóm và đặt nhãn cho từng nhóm 
#Tính toán và tạo biểu đồ:
nv4 <- nv4 %>% group_by(priceC, color) %>%  
  summarise(n = n()) %>% 
  mutate(color = factor(color, levels = c("H","I")))
## `summarise()` has grouped output by 'priceC'. You can override using the
## `.groups` argument.
nv4 %>% ggplot(aes(x = priceC, y = n,fill= color)) +
  geom_col(position = position_dodge()) +
  labs(title = "Phân loại đồ thị dang cột tạo biến mới(theo biến price) và phân tích chung với màu sắc theo số lượng.",x = 'loại', y = 'Số lượng')

Nhận xét biểu đồ

  • Nó giúp ta tổng kết lại số lượng viên kim cương của 2 giá trị màu sắc theo phân rất rẻ->rẻ->vừa->mắc-> rất mắc ( từ trái sang phải).

  • Trong đó thấy rõ hơn số lượng loại rất rẻ cả về 2 màu (tổng khoảng 7000 viên) rất hiếm và hiếm chiếm tỷ trong nhiều hơn và loại mắc chiếm tỷ trong nhấp nhất(tổng chưa tới 500 viên). cách biệt khoảng 6500 viên kim cương.

  • Trong đó màu (H) chiếm ưu thế hơn màu (I), các thanh không đồng đều nhau, cách biệt giữa thấp và nhiều giữa màu (H) khoảng gần 4200 viên và màu (I) là khoảng 2500 viên.

=> Qua đó thấy việc lọc ra dể phân tích kỹ 2 màu theo từng phân loại giúp so sánh tổng thể có cái nhìn trừu tượng về dữ liệu khách hàng cần hay yêu cầu từ đó giúp đưa ra các chiến lược thị trường phù hợp.