carat: Trọng lượng carat của viên kim cương
cut: Chất lượng cắt (Excellent, Very Good, Good, Fair, Poor)
color: Màu sắc (D, E, F, G, H, I, J, K)
clarity: Độ tinh khiết (FL, IF, VVS1, VVS2, VS1, VS2, SI1, SI2, I1, I2, I3)
depth: Tỷ lệ chiều sâu (phần trăm)
table: Tỷ lệ mặt bàn (phần trăm)
price: Giá bán (USD)
x: Chiều dài (mm)
y: Chiều rộng (mm)
z: Chiều sâu (mm)
## [1] 53940 10
## [1] "carat" "cut" "color" "clarity" "depth" "table" "price"
## [8] "x" "y" "z"
Cara hay Carat là đơn vị đo khối lượng sử dụng trong ngành đá quý, nó tương đương với 0,2 gram (200 miligram). Trong đời sống hằng ngày, mọi người thường gọi chúng là Cara và viên kim cương có mức cara càng cao thì càng có giá trị.
Ta tiến hành chia trọng lượng viên kim cương thành 5 nhóm để dễ dàng nhận thấy
##
## (0.195,1.16] (1.16,2.12] (2.12,3.09] (3.09,4.05] (4.05,5.01]
## 43781 9478 667 11 3
Rất nhẹ (0.195 đến bằng 1.16 carat): 43781 kim cương
Nhẹ (1.16 đến bằng 2.12 carat): 9478 kim cương
Vừa (2.12 đến bằng 3.09 carat): 667 kim cương
Nặng (3.09 đến bằng 4.05 carat): 11 kim cương
Rất nặng (4.05 đến bằng 5.01): 3 kim cương
=> Qua đó ta có thể nhận xét như sau: Trọng lượng của viên kim cương càng thấp thì số lượng càng cao và ngược lại.
tn <- diamonds
tn1 <- tn %>% mutate(TL = cut(carat,5, label = c('Rất nhẹ', 'Nhẹ','Vừa','Nặng','Rất nặng')))
tn1 %>% group_by(TL) %>% summarise(n = n()) %>%
ggplot(aes(TL,n)) +
geom_col(fill='blue') +
labs(title = " Biểu đồ thể hiện nhóm theo trọng lượng ") +
geom_text(aes(label = n),vjust = 0, color = 'black') +
labs(x = 'Trọng Lượng', y = 'Số lượng')library(scales)
tn1 <- tn %>% mutate(TL = cut(carat,5, label = c('Rất nhẹ', 'Nhẹ','Vừa','Nặng','Rất nặng')))
tn1 %>% group_by(TL) %>% summarise(n = n()) %>%
ggplot(aes(TL,n)) +
geom_col(fill='purple') +
labs(title = " Biểu đồ thể hiện % thang đo trọng lượng ") +
theme_classic() +
geom_text(aes(label = percent(n/length(tn$carat))),vjust = 0, color = 'black') +
labs(x = 'Trọng Lượng', y = 'Số lượng')Chữ C này chính là yếu tố quan trọng nhất để xác định được giá trị của kim cương trong 4C.
Loại Fair (Trung bình): 3.0%
Loại Good (Tốt): 9.1%
Loại Very Good (Rất tốt): 22.4%
Loại Premium (Tuyệt hảo): 25.6%
Loại Ideal (Lý tưởng): 40.0%
tn %>% group_by(cut) %>% summarise(n = n()) %>%
ggplot(aes(cut,n)) +
geom_col(fill='green') +
labs(title = "Biểu đồ thể hiện % tỷ lệ giác cắt ") +
theme_classic() +
geom_text(aes(label = percent(n/length(tn$cut))),vjust = 2, color = 'red') +
labs(x = 'Giác cắt', y = 'Số lượng')Loại Fair (Trung bình): 1610 kim cương
Loại Good (Tốt): 4906 kim cương
Loại Very Good (Rất tốt): 12082 kim cương
Loại Premium (Tuyệt hảo): 13791 kim cương
Loại Ideal (Lý tưởng): 21551 kim cương
tn %>% group_by(cut) %>% summarise(n = n()) %>%
ggplot(aes(cut,n)) +
geom_col(fill='yellow') +
geom_text(aes(label = n),vjust = 2, color = 'red') +
labs(title = 'Biểu đồ số lượng kim cương theo giác cắt', x = 'Loại', y = 'Số lượng')Kim cương thường sẽ có màu trắng (hay hồng, xanh, nâu, vàng), và nếu màu sắc càng trắng thì sẽ có trị càng cao. Thang màu được bắt đầu từ ký hiệu D và giảm dần dần xuống E, F, G, H, I, J, Z.
Những kim cương từ cấp độ D – F sẽ là loại không màu; từ G – J là loại có màu vàng một chút, rất ít; cấp độ từ K – M là loại màu vàng nhạt; N – R là loại kim cương có màu vàng nhìn khá rõ, và từ cấp độ S – Z là loại có màu vàng sáng rõ rệt nhất.
tn %>% group_by(color) %>% summarise(n = n()) %>%
ggplot(aes(n,color)) +
geom_col(fill='lightblue') +
labs(title = "Biểu đồ thể hiện % thang đo màu sắc ") +
theme_classic() +
geom_text(aes(label = percent(n/length(tn$color))),vjust = 1, color = 'black') +
labs(x = 'Số lượng', y = 'Màu sắc')D (không màu, trắng tinh khiết): 6775 kim cương
E (không màu, trắng tinh khiết): 9797 kim cương
F (không màu, trắng tinh khiết): 9542 kim cương
G (tựa không màu, trắng hiếm): 11292 kim cương
H (tựa không màu, trắng hiếm): 8304 kim cương
I (tựa không màu, trắng nhạt): 5422 kim cương
J (tựa không màu, trắng nhạt): 2808 kim cương
tn %>% group_by(color) %>% summarise(n = n()) %>%
ggplot(aes(color,n)) +
geom_col(fill='blue') +
geom_text(aes(label = n),vjust = 2, color = 'white') +
labs(title = 'Biểu đồ số lượng kim cương theo màu sắc', x = 'Màu sắc', y = 'Số lượng')Vậy loại kim cương màu G chiếm số lượng cao nhất là 11292 viên, loại kim cương chiếm số lượng thấp nhất là loại kim cương màu J là 2808 viên.
Chỉ một vài thứ trong tự nhiên là hoàn hảo tuyệt đối. Điều này đúng với kim cương như mọi thứ khác. Kim cương có các đặc điểm bên trong, được gọi là inclusion – bao thể và các dấu vết còn sót trên bề mặt, được gọi là blemish – dấu vết bề mặt. Kết hợp 2 yếu tố này, chúng được gọi là đặc điểm độ sạch. Độ sạch – độ tinh khiết là sự vắng mặt tương đối của các bao thể và các dấu vết bề mặt.
Có 11 cấp độ sạch trong hệ thống phân cấp độ sạch của GIA. Chúng là Flawless (FL), Internally Flawless (IF), hai cấp Very, Very Slightly Included (VVS), hai cấp Very Slightly Included (VS), hai cấp Slightly Included (SI) và ba cấp Included (I).
tn %>% group_by(clarity) %>% summarise(n = n()) %>%
ggplot(aes(clarity,n)) +
geom_col(fill='green') +
labs(title = "Biểu đồ thể hiện % tỷ lệ độ tinh khiết ") +
theme_classic() +
geom_text(aes(label = percent(n/length(tn$clarity))),vjust = 2, color = 'red') +
labs(x = 'Độ tinh khiết', y = 'Số lượng')Biểu đồ cho thấy số lượng viên kim cương theo độ tinh khiết có sự phân hóa rõ rệt. Cụ thể được thể hiện bao số liệu như sau:
I1 (bao thể rõ): 741 kim cương
SI2 (bao thể nhỏ, rất dễ nhận thấy): 9194 kim cương
SI1 (bao thể nhỏ, dễ nhận thấy): 13065 kim cương
VS2 (bao thể nhỏ cấp 2): 12258 kim cương
VS1 (bao thể nhỏ cấp 1): 8171 kim cương
VSS2 (bao thể rất nhỏ cấp 2): 5066 kim cương
VSS1 (bao thể rất nhỏ cấp 1): 3655 kim cương
IF (Hoàn toàn tinh khiết): 1790 kim cương
tn %>% group_by(clarity) %>% summarise(n = n()) %>%
ggplot(aes(clarity,n)) +
geom_col(fill='pink') +
geom_text(aes(label = n),vjust = 2, color = 'black') +
labs(title= 'Biều đồ số lượng kim cương theo độ tinh khiết', x = 'Độ tinh khiết', y = 'Số lượng')=> Vậy độ tinh khiết loại SI1 chiếm số lượng nhiều nhất là 13065 viên kim cương, độ tinh khiết loại I1 chiếm số lượng thấp nhất là 741 viên kim cương.
Diamond Depth dùng chỉ chiều sâu hay còn là chiều cao của kim cương. Được tính từ bề mặt đến đầu nhọn của khối lập phương trên viên kim cương. Độ sâu từ 57,7%-63% là lý tưởng nhất để phản xạ ánh sáng hoàn hảo.
Ta tiến hành phân chia kim cương thành 2 loại: Lý tưởng (57,5%-63%), chưa lý tưởng (<57,5% và >63%)
##
## Chưa lý tưởng Lý tưởng
## 7344 46596
tn %>% group_by(group) %>% summarise(n = n()) %>%
ggplot(aes(group,n)) +
geom_col(fill='gray') +
geom_text(aes(label = n),vjust = 2, color = 'red') +
labs(title = " Biểu đồ thể hiện nhóm theo Độ sâu ",x = 'Độ sâu', y = 'Số lượng') => Vậy số viên kim cương lý tưởng (46596) có số lượng cao gấp 6 lần số viên kim cương chưa lý tưởng (7344).
Mỗi viên kim cương đều có một mặt phẳng có hình vuông nằm ở trên đỉnh. Mặt phẳng này chính là Diamond Table hay bề mặt của kim cương. Nó có vai trò vô cùng quan trọng trong việc xác định hình dáng của viên đá.
##
## Chưa lý tưởng Lý tưởng
## 5624 48316
tn %>% group_by(tron) %>% summarise(n = n()) %>%
ggplot(aes(tron,n)) +
geom_col(fill='gray') +
geom_text(aes(label = n),vjust = 2, color = 'black') +
labs(title = " Biểu đồ thể hiện nhóm theo giác cắt tròn ",x = 'Mặt bàn', y = 'Số lượng') ##
## Chưa lý tưởng Lý tưởng
## 53767 173
tn %>% group_by(lucbao) %>% summarise(n = n()) %>%
ggplot(aes(lucbao,n)) +
geom_col(fill='gray') +
geom_text(aes(label = n),vjust = 0, color = 'black') +
labs(title = " Biểu đồ thể hiện nhóm theo giác cắt lục bảo ",x = 'Mặt bàn', y = 'Số lượng') Kim cương được định giá một cách cơ bản dựa trên tiêu chuẩn 4C bao gồm: Carat - Trọng lượng hoặc kích thước của viên kim cương. Color - Màu sắc của viên kim cương. Clarity - Độ tinh khiết hay độ sạch của viên kim cương hay còn gọi là sự vắng mặt của những tạp chất bên trong và các khiếm khuyết bên ngoài.
Trước tiên, ta chia giá thành của kim cương thành 3 nhóm: Rẻ - Vừa - Đắt:
##
## (308,6.49e+03] (6.49e+03,1.27e+04] (1.27e+04,1.88e+04]
## 43591 7347 3002
Sau khi tiến hành phân chia xong, ta nhận được số lượng tương ứng với mỗi nhóm giá thành như sau:
Ta tiến hành vẽ biểu đồ để nhìn rõ sự chệnh lệch số lượng về giá:
tn <- diamonds
tn2 <- tn %>% mutate(gt = cut(price,3, label = c('Rẻ','Vừa','Đắt')))
tn2 %>% group_by(gt) %>% summarise(n = n()) %>%
ggplot(aes(gt,n)) +
geom_col(fill='blue') +
labs(title = " Biểu đồ thể hiện nhóm theo giá") +
geom_text(aes(label = n),vjust = 0, color = 'black') +
labs(x = 'Giá', y = 'Số lượng')Để có thể phân tích kĩ càng cũng như hiểu rỏ hơn về các đặc tính của kim cương. Ta có thể phân tích kết hợp 2 hay nhiều yếu tố lại với nhau trên cùng một biểu đồ Bar chart giúp ta dễ quan sát cũng như dễ dàng so sánh chúng.
Đây một biểu đồ cột xếp chồng hiển thị tần suất tương đối của biến “cut” và màu fill của các cột dựa trên biến “color”. Biểu đồ này giúp bạn có cái nhìn về phân phối của biến “cut” và “color” trong khung dữ liệu “tn”.
ggplot(tn, aes(x = cut, fill = color)) +
geom_bar(position = "fill") +
labs(title = "Tần suất của Cut và Color", x = "Cut", y = "Tần suất") +
scale_fill_brewer(palette = "Paired") +
theme_minimal()Biểu đồ cột này hiển thị giá trị trung bình của biến “price” dựa trên các nhóm “cut” và màu fill của các cột dựa trên biến “clarity”. Biểu đồ này giúp bạn so sánh giá trị trung bình của “price” giữa các nhóm “cut” và xem liệu sự rõ ràng (“clarity”) có ảnh hưởng đến giá trị trung bình không.
tn %>% ggplot(aes(x = cut, y = price, fill = clarity)) +
geom_bar(stat = "summary", fun.y = "mean", position = "dodge")Biểu đồ này sẽ giúp bạn phân tích sự khác biệt về giá trị trung bình của “price” giữa các nhóm “cut”. Bạn cũng có thể xem xét tương quan giữa sự rõ ràng (“clarity”) và giá trị trung bình của “price” bằng cách quan sát sự khác biệt màu fill của các cột giữa các nhóm “clarity”.
Biểu đồ cột xếp chồng này cho thấy tần suất của các loại cắt kim cương (“cut”) theo giá trị của biến “clarity”. Mỗi cột biểu thị một loại cắt kim cương và được chia thành các phần tương ứng với các giá trị của biến “clarity”.
Dựa trên biểu đồ, chúng ta có thể nhận thấy một số kết quả sau:
Loại cắt “Ideal” có tần suất cao nhất trong tất cả các mức độ rõ ràng (“clarity”). Đây có thể là loại cắt phổ biến nhất trong tập dữ liệu.
Cắt “Premium” và “Very Good” cũng có tần suất khá cao trong tất cả các mức độ rõ ràng (“clarity”).
Cắt “Fair” có tần suất thấp nhất trong tất cả các mức độ rõ ràng (“clarity”).
Mức độ rõ ràng “SI2” và “I1” có tần suất cao nhất trong các loại cắt, trong khi mức độ rõ ràng “IF” và “VVS1” có tần suất thấp nhất.
Các loại cắt khác nhau có phân phối khác nhau của các mức độ rõ ràng (“clarity”). Ví dụ, cắt “Ideal” và “Premium” có tần suất cao nhất ở mức độ rõ ràng “SI1” và “VS2”, trong khi cắt “Fair” có tần suất cao nhất ở mức độ rõ ràng “I1”.
ggplot(tn, aes(x = cut, fill = clarity)) +
geom_bar(position = "fill") +
labs(title = "Tần suất của các loại cắt kim cương theo giá trị", x = "Cắt", y = "Tần suất") +
scale_fill_brewer(palette = "Paired") +
theme_minimal()Biểu đồ này cung cấp một cái nhìn tổng quan về mối quan hệ giữa các loại cắt kim cương và giá trị của biến “clarity”. Nó giúp chúng ta hiểu được phân phối của các loại cắt trong mỗi mức độ rõ ràng, cho phép phân tích sự tương quan giữa hai biến này.
Dựa trên biểu đồ, chúng ta có thể rút ra một số kết quả sau:
Màu sắc “G” và “E” có tần suất cao nhất trong các loại cắt, với loại cắt “Ideal” và “Premium” chiếm tỷ lệ lớn.
Màu sắc “J” có tần suất thấp nhất trong các loại cắt, đặc biệt là loại cắt “Fair” và “Good”.
Cắt “Fair” và “Good” có tần suất tương đối cao trong màu sắc “H” và “I”.
Cắt “Very Good” có tần suất tương đối cao trong màu sắc “F”.
Cắt “Ideal” có tần suất cao trong màu sắc “D”.
Biểu đồ cung cấp một cái nhìn tổng quan về tần suất của các nhóm loại cắt trong từng mức độ màu sắc. Nó giúp chúng ta hiểu được mối quan hệ giữa loại cắt và màu sắc của kim cương trong tập dữ liệu.
tn %>% group_by(cut,color) %>% summarise(n=n()) %>%
ggplot(aes(x = cut,y = n)) +
geom_col(position = 'dodge') +
facet_wrap(~color) +
geom_text(aes(label = n),vjust = 0, color = 'green') +
labs(tittle='Color - Cut',x = 'Loại', y = 'Số lượng')Dựa trên biểu đồ, chúng ta có thể rút ra một số kết quả sau:
Mức độ rõ ràng “SI1” và “SI2” có tần suất cao nhất trong các loại cắt, với loại cắt “Ideal” và “Premium” chiếm tỷ lệ lớn.
Mức độ rõ ràng “I1” có tần suất thấp nhất trong các loại cắt, đặc biệt là loại cắt “Fair” và “Good”.
Cắt “Fair” và “Good” có tần suất tương đối cao trong mức độ rõ ràng “SI2”.
Cắt “Ideal” có tần suất cao trong mức độ rõ ràng “VVS1” và “VVS2”.
Cắt “Very Good” có tần suất tương đối cao trong mức độ rõ ràng “VS1” và “VS2”.
Biểu đồ cung cấp một cái nhìn tổng quan về tần suất của các nhóm loại cắt trong từng mức độ rõ ràng. Nó giúp chúng ta hiểu được mối quan hệ giữa loại cắt và mức độ rõ ràng của kim cương trong tập dữ liệu.
tn %>% group_by(cut,clarity) %>% summarise(n=n()) %>%
ggplot(aes(x = cut,y = n)) +
geom_col(position = 'dodge') +
facet_wrap(~clarity) +
geom_text(aes(label = n),vjust = 0, color = 'black') +
labs(x = 'Loại', y = 'Số lượng')Dựa trên biểu đồ, chúng ta có thể rút ra một số kết quả sau:
Mức độ rõ ràng “SI1” và “SI2” có tần suất cao nhất trong các loại cắt, với loại cắt “Ideal” và “Premium” chiếm tỷ lệ lớn.
Mức độ rõ ràng “I1” có tần suất thấp nhất trong các loại cắt, đặc biệt là loại cắt “Fair” và “Good”.
Cắt “Fair” và “Good” có tần suất tương đối cao trong mức độ rõ ràng “SI2”.
Cắt “Ideal” có tần suất cao trong mức độ rõ ràng “VVS1” và “VVS2”.
Cắt “Very Good” có tần suất tương đối cao trong mức độ rõ ràng “VS1” và “VS2”.
Biểu đồ cho thấy tần suất của các nhóm loại cắt trong từng mức độ rõ ràng. Màu nền xanh làm nổi bật các cột và giúp phân biệt các nhóm. Các con số tần suất được hiển thị trên cột tương ứng với màu chữ đỏ. Biểu đồ giúp chúng ta hiểu được mối quan hệ giữa loại cắt và mức độ rõ ràng của kim cương trong tập dữ liệu.
tn %>% group_by(cut,clarity) %>% summarise(n=n()) %>%
ggplot(aes(x = cut,y = n)) +
geom_col(fill = 'green') +
facet_wrap(~clarity) +
geom_text(aes(label = n),vjust = 0, color = 'red') +
labs(x = 'Loại', y = 'Số lượng')Dựa trên biểu đồ, chúng ta có thể rút ra một số kết quả sau:
Màu sắc “G” và “E” có tần suất cao nhất trong các mức độ tinh khiết, với mức độ tinh khiết “SI1” và “SI2” chiếm tỷ lệ lớn.
Màu sắc “J” có tần suất thấp nhất trong các mức độ tinh khiết, đặc biệt là mức độ tinh khiết “I1” và “IF”.
Mức độ tinh khiết “I1” có tần suất tương đối cao trong màu sắc “H” và “I”.
Mức độ tinh khiết “IF” có tần suất cao trong màu sắc “D” và “E”.
Mức độ tinh khiết “SI1” và “SI2” có tần suất tương đối cao trong màu sắc “F”.
Biểu đồ cho thấy tần suất của các nhóm mức độ tinh khiết trong từng màu sắc. Màu nền xanh nhạt làm nổi bật các cột và giúp phân biệt các nhóm. Các con số tần suất được hiển thị trên cột tương ứng với màu chữ đen. Biểu đồ giúp chúng ta hiểu được mối quan hệ giữa mức độ tinh khiết và màu sắc của kim cương trong tập dữ liệu.
tn %>% group_by(color,clarity) %>% summarise(n=n()) %>%
ggplot(aes(x = clarity,y = n)) +
geom_col(fill = 'lightblue') +
facet_wrap(~color) +
geom_text(aes(label = n),vjust = 0, color = 'black') +
labs(x = 'Mức độ tinh khiết', y = 'Số lượng')Dựa trên biểu đồ, chúng ta có thể rút ra một số kết quả sau:
Loại cắt “Ideal” có giá trị trung bình cao nhất cho chỉ số “carat”, theo sau là “Premium” và “Very Good”.
Loại cắt “Fair” và “Good” có giá trị trung bình thấp nhất cho chỉ số “carat”.
Biểu đồ cho thấy sự khác biệt về giá trị trung bình của chỉ số “carat” giữa các loại cắt của kim cương. Màu nền hồng làm nổi bật các cột và giúp phân biệt các loại cắt. Các con số giá trị trung bình được hiển thị trên cột tương ứng với màu chữ trắng. Biểu đồ giúp chúng ta hiểu được mối quan hệ giữa loại cắt và trọng lượng trung bình của kim cương trong tập dữ liệu.
tn %>% group_by(cut) %>% summarise(m= mean(carat)) %>%
ggplot(aes(x = cut,y = m)) +
geom_col(fill = 'pink') +
geom_text(aes(label = round(m,2)), vjust = 2, color = 'white') +
labs(x = 'Loại', y = 'Mean')Nhóm “Fair” có giá trị trung bình cao nhất (1.05 carat).
Nhóm “Ideal” có giá trị trung bình thấp nhất (0.7 carat).
Nhìn chung, giá trị trung bình của biến “carat”giảm dần từ nhóm “Fair” đến nhóm “Ideal”. Suy ra, kiểu cắt kim cương ảnh hưởng đến giá trị trung bình của biến “carat”.
Dựa trên biểu đồ, chúng ta có thể rút ra một số kết quả sau:
Màu sắc “J” có giá trị trung bình cao nhất cho chỉ số “carat”, theo sau là “I” và “H”.
Màu sắc “D” có giá trị trung bình thấp nhất cho chỉ số “carat”.
Biểu đồ cho thấy sự khác biệt về giá trị trung bình của chỉ số “carat” giữa các màu sắc của kim cương. Màu nền cam làm nổi bật các cột và giúp phân biệt các màu sắc. Các con số giá trị trung bình được hiển thị trên cột tương ứng với màu chữ đỏ. Biểu đồ giúp chúng ta hiểu được mối quan hệ giữa màu sắc và trọng lượng trung bình của kim cương trong tập dữ liệu.
tn %>% group_by(color) %>% summarise(m= mean(carat)) %>%
ggplot(aes(x = color,y = m)) +
geom_col(fill ='orange') +
geom_text(aes(label = round(m,2)), vjust = 2, color = 'red') +
labs(x = 'Màu', y = 'Mean')Dựa trên biểu đồ, chúng ta có thể rút ra một số kết quả sau:
Mức độ tinh khiết “I1” có giá trị trung bình cao nhất cho chỉ số “carat”, theo sau là “SI2” và “SI1”.
Mức độ tinh khiết “IF” có giá trị trung bình thấp nhất cho chỉ số “carat”.
Biểu đồ cho thấy sự khác biệt về giá trị trung bình của chỉ số “carat” giữa các mức độ tinh khiết của kim cương. Màu nền trắng làm nổi bật các cột và giúp phân biệt các mức độ tinh khiết. Các con số giá trị trung bình được hiển thị trên cột tương ứng với màu chữ xanh. Biểu đồ giúp chúng ta hiểu được mối quan hệ giữa mức độ tinh khiết và trọng lượng trung bình của kim cương trong tập dữ liệu.
tn %>% group_by(clarity) %>% summarise(m= mean(carat)) %>%
ggplot(aes(x = clarity,y = m)) +
geom_col(fill ='white') +
geom_text(aes(label = round(m,2)), vjust = 2, color = 'blue') +
labs(x = 'Mức Độ Tinh Khiết', y = 'Mean')Giác cắt của kim cương cũng là 1 phần quan trọng ảnh hưởng đến giá bán của chúng. Biểu đồ dưới đây cho ta thấy trung bình giá thành theo từng loại giác cắt.
Dựa trên biểu đồ, chúng ta có thể rút ra một số kết quả sau:
Loại cắt “Premium” có giá trị trung bình cao nhất cho giá kim cương, theo sau là “Very Good” và “Ideal”.
Loại cắt “Fair” có giá trị trung bình thấp nhất cho giá kim cương.
Biểu đồ cho thấy sự khác biệt về giá trị trung bình của kim cương giữa các loại cắt. Màu nền xám làm nổi bật các cột và giúp phân biệt các loại cắt. Các con số giá trị trung bình được hiển thị trên cột tương ứng với màu chữ trắng. Biểu đồ giúp chúng ta hiểu được mối quan hệ giữa loại cắt và giá trị trung bình của kim cương trong tập dữ liệu.
tn %>% group_by(cut) %>% summarise(mp= mean(price)) %>%
ggplot(aes(x = cut,y = mp)) +
geom_col(fill='grey') +
geom_text(aes(label = round(mp,2)), vjust = 2, color = 'white') +
labs(x = 'Loại', y = 'Mean Price')Dựa trên biểu đồ, chúng ta có thể rút ra một số kết quả sau:
Màu sắc “J” có giá trị trung bình cao nhất cho giá kim cương, theo sau là “I” và “H”.
Màu sắc “D” có giá trị trung bình thấp nhất cho giá kim cương.
Biểu đồ cho thấy sự khác biệt về giá trị trung bình của kim cương giữa các màu sắc. Mỗi cột được phân chia theo màu sắc, giúp chúng ta so sánh giá trị trung bình giữa các màu sắc khác nhau. Các con số giá trị trung bình được hiển thị trên cột tương ứng với màu chữ đỏ. Biểu đồ giúp chúng ta hiểu được mối quan hệ giữa màu sắc và giá trị trung bình của kim cương trong tập dữ liệu.
tn %>% group_by(color) %>% summarise(mp= mean(price)) %>%
ggplot(aes(x = color,y = mp)) +
geom_col(position = 'dodge') +
geom_text(aes(label = round(mp,2)), vjust = 2, color = 'red') +
labs(x = 'Màu', y = 'Mean Price')Dựa trên biểu đồ, chúng ta có thể rút ra một số kết quả sau:
Mức độ tinh khiết “I1” có giá trị trung bình cao nhất cho giá kim cương, theo sau là “SI2” và “SI1”.
Mức độ tinh khiết “IF” có giá trị trung bình thấp nhất cho giá kim cương.
Biểu đồ cho thấy sự khác biệt về giá trị trung bình của kim cương giữa các mức độ tinh khiết. Màu nền nâu làm nổi bật các cột và giúp phân biệt các mức độ tinh khiết. Các con số giá trị trung bình được hiển thị trên cột tương ứng với màu chữ xanh. Biểu đồ giúp chúng ta hiểu được mối quan hệ giữa mức độ tinh khiết và giá trị trung bình của kim cương trong tập dữ liệu.
tn %>% group_by(clarity) %>% summarise(mp= mean(price)) %>%
ggplot(aes(x = clarity,y = mp)) +
geom_col(fill='brown') +
geom_text(aes(label = round(mp,2)), vjust = 2, color = 'blue') +
labs(x = 'Mức Độ Tinh Khiết', y = 'Mean')Dựa trên biểu đồ histogram, chúng ta có thể rút ra một số kết quả sau:
Phân phối giá của kim cương có dạng lệch phải, tức là có nhiều kim cương có giá trị thấp hơn và ít kim cương có giá trị cao hơn.
Màu sắc của kim cương được phân bố khá đều trong phạm vi giá.
Biểu đồ histogram giúp chúng ta hiểu được phân phối của giá kim cương trong tập dữ liệu và quan sát mối quan hệ giữa giá và màu sắc của kim cương. Tuy nhiên, để có một phân tích chi tiết hơn về mối quan hệ này, chúng ta có thể cần sử dụng các phương pháp phân tích thống kê khác như phân tích hồi quy hoặc phân tích phân tán.
Biểu đồ được chia thành nhiều phần nhỏ (facet) dựa trên màu sắc của kim cương. Mỗi phần nhỏ chứa các cột biểu thị giá trị trung bình của “table” cho từng loại cắt. Các con số giá trị trung bình được hiển thị trên cột tương ứng với màu chữ hồng.
Biểu đồ giúp chúng ta hiểu được mối quan hệ giữa loại cắt, màu sắc và giá trị trung bình của “table” trong tập dữ liệu. Mỗi phần nhỏ trong biểu đồ cho phép chúng ta so sánh giá trị trung bình của “table” giữa các loại cắt khác nhau trong cùng một màu sắc của kim cương.
tn %>% group_by(cut, color)%>%summarise(m=mean(table))%>%ggplot(aes(x=cut, y= m))+
geom_col(fill ='violet')+
facet_wrap(~color)+
geom_text(aes(label= round(m)), vjust=2, color='pink')+ labs(x= 'cut', y= 'Mean',title='Giá trị trung bình của table theo cut và color')Biểu đồ được chia thành nhiều phần nhỏ (facet) dựa trên mức độ tinh khiết của kim cương. Mỗi phần nhỏ chứa các cột biểu thị giá trị trung bình của “price” cho từng loại cắt. Các con số giá trị trung bình được hiển thị trên cột tương ứng với màu chữ hồng.
Biểu đồ giúp chúng ta hiểu được mối quan hệ giữa loại cắt, mức độ tinh khiết và giá trị trung bình của “price” trong tập dữ liệu. Mỗi phần nhỏ trong biểu đồ cho phép chúng ta so sánh giá trị trung bình của “price” giữa các loại cắt khác nhau trong cùng một mức độ tinh khiết của kim cương.
tn %>% group_by(cut, clarity)%>%summarise(m=mean(price))%>%ggplot(aes(x=cut, y= m))+
geom_col(fill='blue')+
facet_wrap(~clarity)+
geom_text(aes(label= round(m)), vjust=1, color='pink')+ labs(x= 'cut', y= 'Mean',title='Giá trị trung bình của price theo cut và clarity')Biểu đồ được chia thành nhiều phần nhỏ (facet) dựa trên màu sắc của kim cương. Mỗi phần nhỏ chứa các cột biểu thị phương sai của “depth” cho từng mức độ tinh khiết. Các con số phương sai được hiển thị trên cột tương ứng với màu chữ đỏ.
Biểu đồ giúp chúng ta hiểu được mối quan hệ giữa mức độ tinh khiết, màu sắc và phương sai của “depth” trong tập dữ liệu. Mỗi phần nhỏ trong biểu đồ cho phép chúng ta so sánh phương sai của “depth” giữa các mức độ tinh khiết khác nhau trong cùng một màu sắc của kim cương.
tn %>% group_by(clarity,color)%>%summarise(m=var(depth))%>%ggplot(aes(x=clarity, y= m))+
geom_col(fill='lightgreen')+
facet_wrap(~color)+
geom_text(aes(label= round(m)), vjust=0.5, color='red')+ labs(x= 'clarity', y= 'Var',title='Phương sai của depth theo clarity và color')Dữ liệu được nhóm theo hai biến: cut - color. Trục x của biểu đồ là các loại “cut”, và trục y là số lượng mẫu. Hai cột được vẽ, mỗi cột đại diện cho một màu sắc: “E” và “H”. Phần màu hồng đại diện cho màu “E”, trong khi phần màu nâu đại diện cho màu “H”.
Biểu đồ giúp chúng ta hiểu được sự phân bố của số lượng các mẫu dựa trên màu sắc và mức độ tinh khiết của kim cương trong tập dữ liệu. Trục x biểu thị màu sắc và trục y biểu thị số lượng.
t %>% ggplot(aes(x = color, y = n)) +
geom_col(data = t %>% filter(clarity == 'SI2'), fill = 'pink') +
geom_col(data = t %>% filter(clarity == 'VS1'), fill = 'brown') +
labs(x= 'Màu sắc', y= 'Số lượng')