GIỚI THIỆU BỘ DỮ LIỆU

Diamond là một bộ dữ liệu về kim cương được tích hợp sẵn trong R, gồm 53.940 quan sát tương ứng với 53.940 hàng và 10 biến ứng với 10 cột dữ liệu, và bao gồm thông tin về 53.940 viên kim cương, với các thuộc tính sau:

  • carat: Trọng lượng carat của viên kim cương

  • cut: Chất lượng của vết cắt của viên kim cương (Ideal, Premium, Very Good, Good, Fair)

  • color: Màu sắc của viên kim cương (D, E, F, G, H, I, J)

  • clarity: Độ tinh khiết của viên kim cương (IF, VVS1, VVS2, VS1, VS2, SI1, SI2, I1)

  • depth: Tỷ lệ chiều sâu của viên kim cương

  • table (Diamond Table): bề mặt của viên kim cương

  • price: Giá bán của viên kim cương (USD)

  • x: chiều dài của viên kim cương (mm)

  • y: chiều rộng của viên kim cương (mm)

  • z: chiều cao của viên kim cương (mm)

Bộ dữ liệu kim cương thường được sử dụng trong các ví dụ về R Markdown để minh họa cách phân tích dữ liệu và tạo báo cáo. Từ bộ dữ liệu diamond này ta có thể khai thác và phân tích được rất nhiều thông tin của những viên kim cương. Và phân tích dựa trên việc lập những đồ thị như sau:



1 . Phân tích đồ thị số lượng viên kim cương theo từng mức chất lượng

Việc phân tích đồ thị số lượng viên kim cương theo từng mức chất lượng để đánh giá thị trường kim cương:

  • Về nhu cầu: Phân tích xu hướng nhu cầu cho từng mức độ phổ biến: Đồ thị thể hiện số lượng viên kim cương ở mỗi mức chất lượng, giúp đánh giá mức độ phổ biến của từng loại.

  • Cung: Đồ thị thể hiện số lượng viên kim cương được cung cấp ra thị trường ở mỗi mức chất lượng, giúp đánh giá mức độ cạnh tranh và đưa ra chiến lược giá cả hợp lý.

  • Phân khúc thị trường: Xác định các phân khúc thị trường tiềm năng dựa trên nhu cầu về mức chất lượng kim cương, giúp doanh nghiệp tập trung nguồn lực và chiến lược marketing hiệu quả.

Ngoài ra, việc phân tích đồ thị số lượng viên kim cương theo từng mức chất lượng còn có thể ứng dụng trong nhiều lĩnh vực khác như: quản lý kho hàng, dự báo giá cả, đánh giá rủi ro đầu tư, v.v. Việc sử dụng hiệu quả công cụ phân tích này sẽ giúp các doanh nghiệp, nhà đầu tư và người tiêu dùng đưa ra quyết định sáng suốt trong thị trường kim cương đầy tiềm năng nhưng cũng không kém phần cạnh tranh.

Đây là đồ thị Bar chart thể hiện số lượng viên kim cương theo theo từng mức chất lượng (Ideal, Premium, Very Good, Good, Fair).

tmp <- diamonds
tmp %>% ggplot(aes(x = cut)) + geom_bar() + labs(x = 'Chất lượng', y = 'Số lượng') + labs(title = "Đồ thị số lượng viên kim cương theo từng mức chất lượng")

#tmp là một dataframe chứa dữ liệu về các viên kim cương, bao gồm biến cut thể hiện mức chất lượng cắt.
#ggplot(aes(x = cut)) tạo ra một ggplot object với trục hoành là biến cut.
#geom_bar() thêm một biểu đồ thanh vào ggplot object.
#labs(x = 'Chất lượng', y = 'Số lượng') đặt nhãn cho trục x và y.
#labs(title = "Đồ thị số lượng viên kim cương theo từng mức chất lượng") đặt tiêu đề cho biểu đồ.

Dựa trên đồ thị, ta có thể nhận xét một số điểm sau:

  • Những viên kim cương có chất lượng cắt “Ideal” chiếm phần lớn trong tổng số viên kim cương, hơn 20.000 viên: Điều này cho thấy majority kim cương có chất lượng cắt rất tốt.

  • Số lượng kim cương giảm dần theo chất lượng cắt: Càng xuống cấp độ thấp, số lượng kim cương càng ít.

  • Những viên kim cương có chất lượng cắt “Fair” có số lượng kim cương ít nhất, khoảng 2.000 viên: Chất lượng cắt “Fair” có thể ảnh hưởng đến vẻ đẹp và giá trị của kim cương, dẫn đến số lượng ít hơn.

2 . Phân tích đồ thị số lượng viên kim cương theo từng màu sắc

Việc phân tích đồ thị số lượng viên kim cương theo từng màu sắc để nắm bắt được số lượng của từng nhóm màu sắc của những viên kim cương, từ đó:

  • Nắm bắt xu hướng thị trường: Xác định màu sắc nào được ưa chuộng nhất, từ đó dự đoán nhu cầu thị trường trong tương lai. Phân tích xu hướng thay đổi sở thích theo thời gian để đưa ra chiến lược kinh doanh phù hợp.

  • Phân tích thị hiếu khách hàng: Sở thích theo khu vực: Phân tích sở thích về màu sắc theo khu vực, quốc gia để điều chỉnh chiến lược marketing phù hợp. Nhóm khách hàng: Xác định nhóm khách hàng ưa chuộng từng màu sắc để cá nhân hóa trải nghiệm mua sắm.

  • Phân khúc thị trường: Lựa chọn thị trường mục tiêu: phù hợp với màu sắc kim cương mà bạn cung cấp. Đa dạng hóa sản phẩm: Đa dạng hóa sản phẩm theo màu sắc để đáp ứng nhu cầu của nhiều nhóm khách hàng.

Dưới đây là đồ thị Bar chart thể hiện số lượng viên kim cương theo từng màu sắc.

tmp <- diamonds
tmp %>% ggplot(aes(x = color)) + geom_bar() + labs(x = 'Màu sắc', y = 'Số lượng') + labs( title = "Đồ thị số lượng viên kim cương theo từng màu sắc")

#tmp là một dataframe chứa dữ liệu về các viên kim cương, bao gồm biến color thể hiện màu sắc của viên kim cương.
#ggplot(aes(x = color)) tạo ra một ggplot object với trục hoành là biến color.
#geom_bar() thêm một biểu đồ thanh vào ggplot object.
#labs(x = 'Màu sắc', y = 'Số lượng') đặt nhãn cho trục x và y.
#labs(title = "Đồ thị số lượng viên kim cương theo từng màu sắc") đặt tiêu đề cho biểu đồ.

Dựa trên đồ thị, ta có thể nhận xét một số điểm sau:

  • Số lượng kim cương theo từng nhóm màu từ màu D đến màu J phân bố không đồng đều.

  • Số lượng những viên kim cương có màu G chiếm số lượng nhiều nhất, khoảng 11.000 viên, tiếp đến là những viên kim cương có màu E và số lượng những viên kim cương có màu J có số lượng ít nhất trong tổng số lượng viên kim cương, dưới 3.000 viên.

3 . Phân tích đồ thị số lượng kim cương theo độ tinh khiết

Việc phân tích đồ thị số lượng kim cương theo độ tinh khiết mang để nắm bắt được thị trường kim cương, bao gồm:

  • Mức độ phổ biến: Xác định độ tinh khiết phổ biến nhất và ít phổ biến nhất của kim cương.

  • Giá trị và nhu cầu: Mức độ khan hiếm: Phân tích mối liên hệ giữa độ tinh khiết và mức độ khan hiếm, từ đó ảnh hưởng đến giá trị. Nhu cầu thị trường: Đánh giá nhu cầu thị trường đối với kim cương theo từng mức độ tinh khiết, giúp đưa ra quyết định kinh doanh phù hợp.

  • Xu hướng thị trường: Xu hướng thay đổi: Phân tích xu hướng thay đổi nhu cầu theo thời gian cho từng mức độ tinh khiết. Dự đoán: Dự đoán xu hướng tương lai của nhu cầu thị trường dựa trên xu hướng hiện tại.

Đây là đồ thị Bar chart thể hiện số lượng viên kim cương theo từng mức độ tinh khiết (IF, VVS1, VVS2, VS1, VS2, SI1, SI2, I1).

tmp <- diamonds
tmp %>% ggplot(aes(x = clarity)) + geom_bar() + labs(x = 'Độ tinh khiết', y = 'Số lượng') + labs(title = "Đồ thị số lượng kim cương theo độ tinh khiết")

#tmp là một dataframe chứa dữ liệu về các viên kim cương, bao gồm biến clarity thể hiện mức độ tinh khiết của viên kim cương.
#ggplot(aes(x = clarity)) tạo ra một ggplot object với trục hoành là biến clarity.
#geom_bar() thêm một biểu đồ thanh vào ggplot object.
#labs(x = 'Độ tinh khiết', y = 'Số lượng') đặt nhãn cho trục x và y.
#labs(title = " ") đặt tiêu đề cho biểu đồ.

Dựa trên đồ thị, ta có thể nhận xét một số điểm sau:

  • Số lượng viên kim cương phân bố ở từng mức độ tinh khiết là khác nhau, số lượng viên kim cương càng ít cho thấy độ tinh khiết của viên kim cương càng cao.

  • Những viên kim cương có độ tinh khiết I1 có độ tinh khiết rất cao, những viên kim cương có độ tinh khiết IF cao và những viên kim cương có độ tinh khiết là VS2 là những viên có độ tinh khiết thấp, những viên kim cương có độ tinh khiết là SI1 là những viên có độ tinh khiết rất thấp.

  • Số lượng những viên kim cương có độ tinh khiết là SI2 chiếm số lượng lớn trong tổng số viên kim cương, trên 12.000 viên, tiếp đó là những viên kim cương có độ tinh khiết là VS2 và những viên kim cương chiếm số lượng ít nhất trong tổng số viên kim cương là Những viên có độ tinh khiết là I1, dưới 1.000 viên.

Ví dụ: Độ tinh khiết cao: Nếu “I1” có số lượng ít nhất, cho thấy đây là độ tinh khiết cao nhất và có giá trị cao.

4 . Phân tích số lượng kim cương theo độ tinh khiết cho nhóm kim cương có màu D

Mức độ tinh khiết là một trong những yếu tố quan trọng ảnh hưởng đến giá trị của kim cương. Việc phân tích này cho thấy số lượng kim cương ở mỗi mức độ tinh khiết, giúp người mua so sánh giá trị giữa các viên kim cương có màu D. Ví dụ, một viên kim cương D với độ tinh khiết “IF” sẽ có giá cao hơn so với viên kim cương D với độ tinh khiết “I1”.

tmp <- diamonds
tmp <- tmp %>% group_by(clarity, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'clarity'. You can override using the
## `.groups` argument.
tmp %>% ggplot(aes(x = clarity, y = n)) + geom_col(data = tmp %>% filter(color == 'D'), fill = 'darkgreen')+labs(x="Độ tinh khiết",y="Số lượng") + labs( title = "Đồ thị số lượng kim cương theo độ tinh khiết cho nhóm kim cương có màu D") 

#câu lệnh 1:
#group_by(clarity, color): Nhóm dữ liệu theo hai biến clarity (độ tinh khiết) và color (màu sắc). summarise(n = n()): Tính tổng số lượng (n) cho mỗi nhóm được tạo bởi group_by

#câu lệnh 2:
#ggplot(aes(x = clarity, y = n)): Tạo biểu đồ ggplot2 với trục x là clarity và trục y là n.
#geom_col(data = tmp %>% filter(color == 'D'), fill = 'darkgreen'): Thêm hình chữ nhật vào biểu đồ cho mỗi nhóm clarity với màu darkgreen cho nhóm color == 'D'.
#labs(x = "Độ tinh khiết", y = "Số lượng"): Thêm nhãn cho trục x và y.
#labs(title = " "): Thêm tiêu đề cho biểu đồ.

Biểu đồ cho thấy sự phổ biến của các mức độ tinh khiết khác nhau trong nhóm kim cương màu D. Thông tin này có thể giúp người mua kim cương đánh giá giá trị của một viên kim cương cụ thể. Ví dụ, một viên kim cương D với độ tinh khiết “IF” sẽ hiếm hơn và đắt hơn một viên kim cương D với độ tinh khiết “SI1”.

Nhận xét:

  • Nhìn chung, Xu hướng Số lượng kim cương giảm dần khi độ tinh khiết tăng của kim cương màu D.

  • Có sự chênh lệch đáng kể về số lượng kim cương giữa các mức độ tinh khiết của màu D.

  • Sự phân bố số lượng kim cương màu D: SI1 là mức độ tinh khiết phổ biến nhất với số lượng kim cương cao nhất (trên 2.000 viên). I1 là mức độ tinh khiết hiếm nhất với số lượng kim cương thấp nhất (dưới 100 viên).

  • Mức độ ảnh hưởng của độ tinh khiết: Có thể thấy rằng độ tinh khiết ảnh hưởng đến số lượng kim cương. Nhóm kim cương có độ tinh khiết cao (VVS1, IF) có số lượng ít hơn nhiều so với nhóm kim cương có độ tinh khiết thấp (SI2, SI1,VS2…).

5 . Phân tích đồ thị số lượng kim cương theo chất lượng

Việc phân tích đồ thị số lượng viên kim cương theo chất lượng để nắm bắt được thị trường kim cương.

Đây là đồ thị Bar chart ngang thể hiện số lượng viên kim cương theo từng loại cắt (Ideal, premium, Very Good, Good, Fair).

tmp <- diamonds
tmp %>% ggplot(aes(x = cut)) + geom_bar() + labs(x = 'Loại', y = 'Số lượng') + coord_flip() + labs(title = "Đồ thị số lượng kim cương theo chất lượng")

#tmp là một dataframe chứa dữ liệu về các viên kim cương, bao gồm biến cut thể hiện mức chất lượng cắt.
#ggplot(aes(x = cut)) tạo ra một ggplot object với trục hoành là biến cut.
#geom_bar() thêm một biểu đồ thanh vào ggplot object.
#labs(x = 'Loại', y = 'Số lượng') đặt nhãn cho trục x và y.
#coord_flip() đổi vị trí của trục hoành và trục tung.
#labs(title = " ") đặt tiêu đề cho biểu đồ.

Dựa trên đồ thị, ta có thể nhận xét một số điểm sau:

  • Những viên kim cương có chất lượng cắt “Ideal” chiếm phần lớn trong tổng số viên kim cương, hơn 20.000 viên: Điều này cho thấy majority kim cương có chất lượng cắt rất tốt.

  • Số lượng kim cương giảm dần theo chất lượng cắt: Càng xuống cấp độ thấp, số lượng kim cương càng ít.

  • Những viên kim cương có chất lượng cắt “Fair” có số lượng kim cương ít nhất, khoảng 2.000 viên: Chất lượng cắt “Fair” có thể ảnh hưởng đến vẻ đẹp và giá trị của kim cương, dẫn đến số lượng ít hơn.

6 . Phân tích đồ thị số lượng kim cương theo chất lượng của 2 màu G và J

Việc so sánh này có thể mang lại nhiều lợi ích cho nhiều đối tượng trong thị trường kim cương:

  • Hiểu rõ hơn về sự phổ biến của các màu sắc kim cương khác nhau. So sánh giá bán của kim cương G và J trong cùng nhóm chất lượng. Lựa chọn kim cương phù hợp với nhu cầu và ngân sách.

  • Giúp việc định giá kim cương G và J chính xác hơn, dựa trên dữ liệu thị trường. Tăng khả năng cạnh tranh trên thị trường. Tạo dựng uy tín với khách hàng.

  • Giúp thu thập dữ liệu về thị trường kim cương. Xác định xu hướng về số lượng và giá bán của kim cương G và J. Phát triển các mô hình dự đoán số lượng và giá bán của kim cương G và J.

  • Giúp các nhà kinh doanh lập kế hoạch kinh doanh hiệu quả hơn, dựa trên dữ liệu về thị trường. Xác định phân khúc thị trường mục tiêu. Phát triển các chiến lược marketing phù hợp.

tmp <- diamonds
tmp <- tmp %>% group_by(cut, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
tmp %>% ggplot(aes(x = cut, y = n)) + geom_col(data = tmp %>% filter(color == 'G'), fill = 'darkgreen') + geom_col(data = tmp %>% filter(color == 'J'), fill = 'blue')+ labs(x = 'Loại', y = 'Số lượng') + coord_flip() + labs(title = "Đồ thị số lượng kim cương theo chất lượng của 2 màu G và J ")

Biểu đồ cho thấy sự khác biệt về số lượng kim cương giữa các chất lượng cắt cho cả hai màu G và J. Dữ liệu được nhóm theo 5 mức độ chất lượng cắt: Ideal, Premium, Very Good, Good, Fair. Số lượng kim cương cho mỗi mức độ cắt được biểu thị bằng hai nhóm cột: Cột màu xanh lá đậm thể hiện số lượng kim cương màu G và cột màu xanh lam thể hiện số lượng kim cương màu J.

  • Nhìn chung, kim cương màu J có xu hướng có số lượng nhiều hơn kim cương màu G cùng chất lượng cắt và số lượng kim cương giảm dần khi chất lượng cắt giảm ( từ Ideal đến Fair): nhóm kim cương Ideal có số lượng nhiều nhất cho cả hai màu và kim cương Fair có số lượng ít nhất cho cả hai màu.

  • Chất lượng cắt Ideal có số lượng kim cương cao nhất ( gần 5.000 viên): trong đó số lượng kim cương màu J có số lượng nhiều gấp 4 lần màu G.

  • Chất lượng cắt Fair có số lượng kim cương thấp nhất (dưới 500 viên): trong đó, số lượng kim cương màu G và màu J có số lượng xấp xỉ bằng nhau.

Tóm lại, chất lượng cắt ảnh hưởng đến số lượng kim cương. Kim cương có chất lượng cắt tốt (Ideal, Premium, Very Good, Good) có số lượng nhiều hơn và giá thành cao hơn so với kim cương có chất lượng cắt thấp (Fair). Cho thấy rằng kỹ thuật cắt kim cương rất tiên tiến và hiện đại, cho ra được đa số sản phẩm tốt.

7 . Phân tích số lượng kim cương theo chất lượng của màu D, I và J

Việc phân tích số lượng viên kim cương theo độ tinh khiết giữa ba màu sắc ‘D’, ‘I’ và ‘J’ có thể quan sát các đặc điểm như:

  • Xu hướng chung của số lượng viên kim cương theo độ tinh khiết.

  • Sự khác biệt về số lượng viên kim cương giữa các màu sắc tại mỗi mức độ tinh khiết.

  • Màu sắc nào có nhiều viên kim cương nhất ở các mức độ tinh khiết khác nhau.

tmp <- diamonds
tmp <- tmp %>% group_by(cut, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
tmp %>% ggplot(aes(x = cut, y = n)) + geom_col(data = tmp %>% filter(color == 'D'), fill = 'black') + geom_col(data = tmp %>% filter(color == 'I'), fill = 'darkgreen')+ geom_col(data = tmp %>% filter(color == 'J'), fill = 'brown')+ labs(x = 'Loại', y = 'Số lượng') + coord_flip() + labs(title = "Đồ thị số lượng kim cương theo chất lượng của màu J , I và D")

# coord_flip(): Đảo ngược trục x và y.

Biểu đồ thu được thể hiện số lượng viên kim cương theo từng mức chất lượng (cut) cho ba màu sắc ‘D’, ‘I’ và ‘J’. Biểu đồ có ba cột chồng nằm ngang, với mỗi cột thể hiện số lượng viên kim cương cho một màu sắc tương ứng. Chiều dài của mỗi cột tại mỗi mức chất lượng biểu thị số lượng viên kim cương có màu sắc đó ở mức chất lượng đó.

Nhận xét về dữ liệu trong biểu đồ:

  • Nhìn chung, số lượng viên kim cương D ít nhất ở hầu hết các mức chất lượng của kim cương.

  • Số lượng viên kim cương giảm dần theo chất lượng của kim cương ( từ Ideal đến Fair) cho cả ba màu sắc.

  • Phân bố số lượng viên kim cương theo màu sắc: Màu ‘I’ và ‘J’ có xu hướng phân bố đều hơn giữa các mức chất lượng của kim cương, còn màu ‘D’ có xu hướng tập trung nhiều hơn ở các mức chất lượng của kim cương trừ Fair.

8 . Phân tích đồ thị số lượng kim cương theo chất lượng

Đây là đồ thị Bar chart thể hiện chi tiết số lượng viên kim cương theo từng mức chất lượng cắt (Ideal, Premium, Very Good, Good, Fair).

tmp <- diamonds
tmp %>% group_by(cut) %>% summarise(n = n()) %>% ggplot(aes(cut,n)) + geom_col(fill='purple') + geom_text(aes(label = n),vjust = 2, color = 'black') + labs(x = 'Chất lượng', y = 'Số lượng') + labs( title = "Đồ thị số lượng kim cương theo chất lượng")

#Thêm chú thích (geom_text) hiển thị số lượng (n) cho mỗi thanh.
#vjust = 2: Di chuyển chú thích lên trên một chút để dễ nhìn hơn.
#color = 'black': Chọn màu đen cho chú thích.

Dựa trên đồ thị, ta có thể nhận xét một số điểm sau:

  • Những viên kim cương có chất lượng cắt “Ideal” chiếm phần lớn trong tổng số viên kim cương, 21.551 viên: Điều này cho thấy majority kim cương có chất lượng cắt rất tốt.

  • Số lượng kim cương giảm dần theo chất lượng cắt, từ 21.551 viên (Ideal) và 1.610 viên (Fair): Càng xuống cấp độ thấp, số lượng kim cương càng ít.

  • Những viên kim cương có chất lượng Premium, có 13.791 viên; những viên có chất lượng là Very Good có 12.082 viên và những viên kim cương có chất lượng Good có 4.906 viên.

  • Những viên kim cương có chất lượng cắt “Fair” có số lượng kim cương ít nhất, 1.610 viên: Chất lượng cắt “Fair” có thể ảnh hưởng đến vẻ đẹp và giá trị của kim cương, dẫn đến số lượng ít hơn.

9 . Phân tích đồ thị số lượng kim cương theo màu sắc

Đây là đồ thị Bar chart thể hiện chi tiết số lượng kim cương theo từng màu sắc (D, E, F, G, H, I, J).

tmp <- diamonds
tmp %>% group_by(color) %>% summarise(n = n()) %>% ggplot(aes(color,n)) + geom_col(fill='purple') + geom_text(aes(label = n),vjust = 2, color = 'black') + labs(x = 'Màu sắc', y = 'Số lượng') + labs(title = "Đồ thị số lượng kim cương theo màu sắc")

#Thêm chú thích (geom_text) hiển thị số lượng (n) cho mỗi thanh.
#vjust = 2: Di chuyển chú thích lên trên một chút để dễ nhìn hơn.
#color = 'black': Chọn màu đen cho chú thích.

Dựa trên đồ thị, ta có thể nhận xét một số điểm sau:

  • Số lượng kim cương theo từng nhóm màu từ màu D đến màu J phân bố không đồng đều.

  • Số lượng những viên kim cương có màu G chiếm số lượng nhiều nhất có 11.292 viên ( chiếm 20,93% trong tổng số viên kim cương), tiếp đến là những viên kim cương có màu E, 9.797 viên (chiếm 18,16% trong tổng số) và số lượng những viên kim cương có màu J có số lượng ít nhất trong tổng số lượng viên kim cương, 2.808 viên (chiếm 5,2% trong tổng số kim cương).

  • Những viên kim cương màu G có số lượng nhiều nhất, điều này cho thấy kim cương có màu G là phổ biến nhất. Và những viên kim cương màu J có số lượng ít nhất cho thấy nó ít phổ biến hơn kim cương có màu G.

10 . Phân tích đồ thị tỷ lệ phần trăm số lượng kim cương theo chất lượng

Đây là đồ thị Bar chart thể hiện tỷ lệ phần trăm số lượng viên kim cương theo từng mức chất lượng (Ideal, Premium, Very Good, Good, Fair).

tmp <- diamonds
tmp %>% group_by(cut) %>% summarise(n = n()) %>% ggplot(aes(cut,n)) + geom_col(fill='green') + geom_text(aes(label = percent(n/length(tmp$carat))),vjust = 2, color = 'red') + labs(x = 'Chất lượng', y = 'Số lượng') + labs(title = "Đồ thị tỷ lệ phần trăm số lượng kim cương theo chất lượng")

#Thêm chú thích (geom_text) hiển thị tỷ lệ phần trăm (percent) số lượng kim cương cho mỗi mức chất lượng (cut).
#vjust = 2: Di chuyển chú thích lên trên một chút để dễ nhìn hơn.
#color = 'red': Chọn màu đỏ cho chú thích.
#length(tmp$carat): Lấy tổng số lượng kim cương.

Dựa trên đồ thị, ta có thể nhận xét một số điểm sau:

  • Tỷ lệ phần trăm kim cương Ideal chiếm đa số: Có 40% số lượng kim cương trong tổng số kim cương.

  • Tỷ lệ phần trăm kim cương giảm dần theo chất lượng cắt: Càng xuống cấp độ thấp, tỷ lệ phần trăm kim cương càng ít.

  • Chất lượng cắt Fair có tỷ lệ phần trăm thấp nhất: Chất lượng cắt Fair có thể ảnh hưởng đến vẻ đẹp và giá trị của kim cương, dẫn đến tỷ lệ phần trăm thấp, chỉ chiếm 3% trong tổng số kim cương.

11 . Phân tích đồ thị tỷ lệ phần trăm số lượng kim cương theo màu sắc

Đây là đồ thị Bar chart thể hiện tỷ lệ phần trăm số lượng viên kim cương theo từng màu sắc (D, E, F, G, H, I, J).

tmp <- diamonds
tmp %>% group_by(color) %>% summarise(n = n()) %>% ggplot(aes(color,n)) + geom_col(fill='green') + geom_text(aes(label = percent(n/length(tmp$carat))),vjust = 2, color = 'red') + labs(x = 'Màu sắc', y = 'Số lượng') + labs(title = "Đồ thị tỷ lệ phần trăm số lượng kim cương theo màu sắc")

Dựa trên đồ thị, ta có thể nhận xét một số điểm sau:

  • Tỷ lệ phần trăm kim cương màu G cao nhất: chiếm 20,93% trong tổng số kim cương.

  • Những viên kim cương màu J có tỷ lệ phần trăm thấp nhất: Chỉ chiếm 5,21% trong tổng số viên kim cương.

12 . Phân tích đồ thị tỷ lệ phần trăm số lượng kim cương theo độ tinh khiết

Đây là đồ thị Bar chart thể hiện tỷ lệ phần trăm số lượng viên kim cương theo từng mức độ tinh khiết (IF, VVS1, VVS2, VS1, VS2, SI1, SI2, I1)

tmp <- diamonds
tmp %>% group_by(clarity) %>% summarise(n = n()) %>% ggplot(aes(clarity,n)) + geom_col(fill='green') + geom_text(aes(label = percent(n/length(tmp$carat))),vjust = 2, color = 'red') + labs(x = 'Độ tinh khiết', y = 'Số lượng') + labs(title = "Đồ thị tỷ lệ phần trăm số lượng kim cương theo độ tinh khiết")

Dựa trên đồ thị, ta có thể nhận xét một số điểm sau:

  • Tỷ lệ phần trăm kim cương SI2,SI1,VS2 cao: Chiếm gần 64% trong tổng số kim cương, trong đó cao nhất là SI1, chiếm 24,2%, tiếp đến là VS2, chiếm 22,7% và SI2, chiếm 17%. Thấp nhất là I1, chiếm 1,4% trong tổng số kim cương.

  • Tỷ lệ phần trăm kim cương giảm dần từ SI2 đến IF.

  • Những viên kim cương có độ tinh khiết là SI1 chiếm tỷ lệ cao nhất (24,2%), cho thấy độ tinh khiết của nó là rất thấp, tiếp đến là VS2 (22,7%) có độ tinh khiết thấp.

  • Những viên kim cương có độ tinh khiết là I1 chiếm tỷ lệ thấp nhất (1,4%), cho thấy độ tinh khiết của nó là rất cao, tiếp đến là IF có độ tinh khiết cao (3,3%), những viên kim cương còn lại có độ tinh khiết trung bình.

13 . Phân tích đồ thị số lượng kim cương theo chất lượng và màu sắc

Đây là đồ thị Bar chart thể hiện số lượng viên kim cương theo từng mức chất lượng cắt (Ideal, Premium, Very Good, Good, Fair) và màu sắc (D, E, F, G, H, I, J).

tmp <- diamonds
tmp %>% group_by(cut,color) %>% summarise(n=n()) %>% ggplot(aes(x = cut,y = n)) + geom_col(position = 'dodge') + facet_wrap(~color) + labs(x = 'Chất lượng', y = 'Số lượng') + labs(title = "Đồ thị số lượng kim cương theo chất lượng và màu sắc")
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

#geom_col(position = 'dodge'):Thêm lớp hình chữ nhật (geom_col) với vị trí dodge giúp các thanh không chồng lên nhau

#facet_wrap(~color):Chia biểu đồ thành các phân trang theo biến color

Dựa trên đồ thị, ta có thể nhận xét một số điểm sau:

  • Ở tất cả các nhóm màu, số lượng giảm dần theo chất lượng cắt của kim cương (từ Ideal đến Fair).

  • Những viên kim cương có chất lượng là Ideal phổ biến nhất, Fair hiến hoi nhất: Hầu hết các nhóm màu sắc đều có số lượng viên kim cương có chất lượng Ideal cao nhất và những viên kim cương có chất lượng Fair thấp nhất.

  • Số lượng kim cương đạt chất lượng Ideal thuộc nhóm màu G là nhiều nhất (khoảng 5.000 viên), tiếp đến là ở nhóm màu E (khoảng 4.000 viên) và số lượng kim cương đạt chất lượng Fair thuộc nhóm màu G là nhiều nhất (khoảng 300 viên).

Có sự khác biệt đáng kể về số lượng viên kim cương giữa các nhóm màu sắc và chất lượng cắt. Qua các đồ thị trên, ta có thể nhận thấy công nghệ cắt gọt kim cương ở đây khá là tiên tiến và hiện đại, đa số những viên kim cương được tao ra đều đạt chất lượng từ tốt trở lên và chỉ có 1 lượng ít viên kim cương lỗi.

14 . Phân tích số lượng về chất lượng kim cương theo màu D

Đánh giá giá trị kim cương: Giúp người mua kim cương hiểu rõ hơn về mối liên hệ giữa chất lượng cắt và giá bán trung bình của kim cương màu D. Cung cấp thông tin để so sánh giá bán của các viên kim cương có chất lượng cắt khác nhau. Hỗ trợ người mua đưa ra quyết định sáng suốt khi lựa chọn kim cương phù hợp với nhu cầu và ngân sách.

Hỗ trợ định giá kim cương: Cung cấp dữ liệu tham khảo cho các nhà kim hoàn và chuyên gia định giá kim cương. Giúp xác định giá trị hợp lý của kim cương dựa trên chất lượng cắt và màu sắc. Hạn chế tình trạng mua bán kim cương với giá cao hơn giá trị thực.

Nghiên cứu thị trường kim cương: Phân tích xu hướng giá bán của kim cương theo thời gian. So sánh giá bán của kim cương ở các khu vực khác nhau. Đánh giá ảnh hưởng của các yếu tố khác như kích thước, độ tinh khiết, v.v. đến giá bán của kim cương.

tmp <- diamonds
tmp <- tmp %>% group_by(cut, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
tmp %>% ggplot(aes(x = cut, y = n)) + geom_col(data = tmp %>% filter(color == 'D'), fill = 'darkgreen')+labs(x="Chất lượng",y="Số lượng") + labs( title = " Đồ thị chất lượng kim cương theo màu D")

15 . Phân tích đồ thị số lượng kim cương theo chất lượng và màu sắc

Đây là đồ thị Bar chart biểu thị chi tiết, cụ thể số lượng viên kim cương theo từng mức chất lượng (Ideal, Premium, Very Good, Good, Fair) và Màu sắc (D, E, F, G, H, I, J). Ở đồ thị này ta có thể phân tích cụ thể và chính xác các số liệu hơn.

tmp <- diamonds
tmp %>% group_by(cut,color) %>% summarise(n=n()) %>% ggplot(aes(x = cut,y = n)) + geom_col(position = 'dodge') + facet_wrap(~color) + geom_text(aes(label = n),vjust = 0, color = 'green') + labs(x = 'Chất lượng', y = 'Số lượng') + labs(title = "Đồ thị số lượng kim cương theo chất lượng và màu sắc")
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

#geom_col(position = 'dodge'):Thêm lớp hình chữ nhật (geom_col) với vị trí dodge giúp các thanh không chồng lên nhau.
#facet_wrap(~color):Chia biểu đồ thành các phân trang theo biến color

Dựa trên các đồ thị, ta có thể nhận xét một số điểm sau:

  • Chất lượng cắt Ideal phổ biến nhất: Hầu hết các nhóm màu sắc đều có số lượng viên kim cương có chất lượng là Ideal là cao nhất.

  • Số lượng viên kim cương tăng dần theo chất lượng cắt: Từ Fair đến Ideal, số lượng viên kim cương tăng dần.

  • Ở nhóm những viên kim cương màu G, tỷ lệ viên kim cương có chất lượng là Ideal cao nhất (4.484 viên), cao hơn so với các nhóm màu khác và số lượng gấp 15,55 lần số lượng viên kim cương màu G có chất lượng là Fair.

16 . Phân tích đồ thị thể hiện khối lượng trung bình của kim cương theo chất lượng

Khối lượng (carat) là một trong những yếu tố quan trọng quyết định giá trị của kim cương. Việc phân tích này giúp ta so sánh khối lượng trung bình của kim cương theo từng cấp chất lượng, từ đó đánh giá giá trị tương đối của chúng.

Đối với khách hàng: Hiểu rõ hơn về mối quan hệ giữa chất lượng cắt và khối lượng trung bình của kim cương. So sánh khối lượng trung bình giữa các mức chất lượng cắt khác nhau. Lựa chọn kim cương thông minh hơn dựa trên nhu cầu và ngân sách.

Đối với người bán: Cung cấp thông tin chi tiết cho khách hàng về giá trị của kim cương và định giá kim cương chính xác hơn.

Đối với ngành công nghiệp kim cương: Nâng cao hiểu biết về các yếu tố ảnh hưởng đến giá trị kim cương, phát triển các tiêu chuẩn và quy định cho ngành kim cương, thúc đẩy sự phát triển bền vững của ngành kim cương.

tmp <- diamonds
tmp %>% group_by(cut) %>% summarise(m= mean(carat)) %>% ggplot(aes(x = cut,y = m)) + geom_col(position = 'dodge') + geom_text(aes(label = round(m,2)), vjust = 2, color = 'green') + labs(x = 'Chất lượng', y = 'Trung bình') + labs(title = "Đồ thị khối lượng trung bình của kim cương theo chất lượng")

#Thêm lớp hình chữ nhật (geom_col) với vị trí dodge giúp các thanh không chồng lên nhau.
#Thêm chú thích (geom_text) hiển thị giá trị trung bình (m) được làm tròn đến 2 chữ số thập phân.

Biểu đồ này thể hiện mối quan hệ giữa chất lượng cắt (cut) và trung bình carat (Mean) của kim cương trong tập dữ liệu diamonds. Trục x hiển thị các mức chất lượng cắt khác nhau, trục y hiển thị giá trị trung bình carat cho mỗi mức chất lượng cắt.

Dựa trên đồ thị, ta có thể nhận xét một số điểm sau:

  • Nhìn chung, trung bình carat có xu hướng giảm khi chất lượng cắt cao hơn.

  • Những viên kim cương có chất lượng Fair có khối lượng trung bình cao nhất 1.05 carat và những viên kim cương có chất lượng là Ideal có khối lượng trung bình nhỏ nhất là 0.7 carat, Good 0.85 carat, Very Good 0.81 carat và Premium 0.89 carat.

Từ đồ thị này cho thấy rằng chất lượng cắt có ảnh hưởng đáng kể đến trung bình carat của kim cương. Kim cương có chất lượng cắt càng cao thì sẽ có xu hướng trung bình carat càng nhỏ hơn. Ngoài ra thì biến động của trung bình carat có thể do nhiều yếu tố khác nhau, chẳng hạn như nguồn gốc kim cương, phương pháp cắt và kỹ thuật đánh giá.

17 . Phân tích ảnh hưởng của màu sắc đến trung bình carat

Việc phân tích này giúp ta:

  • Đánh giá chất lượng của kim cương: Màu sắc là một trong những yếu tố quan trọng quyết định chất lượng của kim cương. Việc phân tích ảnh hưởng của màu sắc đến trung bình carat có thể giúp đánh giá chất lượng của kim cương một cách chính xác hơn.

  • Xác định giá trị của kim cương: Màu sắc ảnh hưởng đến giá trị của kim cương. Việc phân tích ảnh hưởng của màu sắc đến trung bình carat có thể giúp xác định giá trị của kim cương một cách chính xác hơn.

  • Cải thiện quy trình cắt kim cương: Việc phân tích ảnh hưởng của màu sắc đến trung bình carat có thể giúp cải thiện quy trình cắt kim cương để tối đa hóa giá trị của kim cương.

tmp <- diamonds
tmp %>% group_by(color) %>% summarise(m= mean(carat)) %>% ggplot(aes(x = color,y = m)) + geom_col(position = 'dodge') + geom_text(aes(label = round(m,2)), vjust = 2, color = 'white') + labs(x = 'Màu sắc', y = 'Trung bình') + labs(title = "Mối quan hệ giữa màu sắc và trung bình carat của kim cương")

#tmp %>% group_by(color) %>% summarise(m = mean(carat)):

##Nhóm dữ liệu theo màu sắc (color).
##Tính toán giá trị trung bình carat (m) cho mỗi nhóm màu.

#ggplot(aes(x = color, y = m)):Khởi tạo biểu đồ ggplot2 với trục hoành (x) thể hiện màu sắc và trục tung (y) thể hiện giá trị trung bình carat (m).

#geom_col(position = 'dodge'): Thêm các cột vào biểu đồ, sử dụng vị trí dodge để tránh chồng chéo các cột khi có nhiều nhóm màu.

#geom_text(aes(label = round(m, 2)), vjust = 2, color = 'white'): Thêm nhãn văn bản vào các cột, hiển thị giá trị trung bình carat được làm tròn đến 2 chữ số thập phân (round(m, 2)), dịch chuyển lên một chút (vjust = 2) và đặt màu trắng (color = 'white').

#labs(x = 'Màu sắc', y = 'Trung bình'): Thêm nhãn cho trục hoành (x) là "Màu sắc" và trục tung (y) là "Trung bình".

#labs(caption = "Mối quan hệ giữa màu sắc và trung bình carat của kim cương"): Thêm chú thích cho đồ thị là "Mối quan hệ giữa màu sắc và trung bình carat của kim cương".

Biểu đồ này thể hiện mối quan hệ giữa màu sắc (color) và trung bình carat (Mean) của kim cương trong tập dữ liệu diamonds. Trục x hiển thị các màu sắc khác nhau, trục y hiển thị giá trị trung bình carat cho mỗi màu sắc.

Dựa trên đồ thị, ta có thể nhận xét một số điểm sau:

  • nhìn chung, giá trị trung bình carat dao động trong các nhóm màu sắc khác nhau.

  • Khối lượng trung bình của kim cương tăng dần theo nhóm màu sắc từ D đến J, tăng từ 0.66 carat đến 1.16 carat.

  • Sự khác biệt về giá trị trung bình carat giữa các nhóm không quá lớn. Những viên kim cương thuộc nhóm màu D có khối lượng trung bình thấp nhất (0.66 carat), những viên thuộc nhóm màu J có khối lượng trung bình cao nhất (1.16 carat)

18 . Phân tích mối quan hệ giữa độ tinh khiết của kim cương và giá trị trung bình của khối lượng.

Việc phân tích này có thể mang lại nhiều lợi ích cho các bên liên quan trong ngành kim cương, bao gồm:

  • Đánh giá giá trị kim cương: Giúp người mua và người bán kim cương hiểu rõ hơn về ảnh hưởng của độ tinh khiết đến giá trị của viên kim cương. Dựa vào thông tin này, người mua có thể đưa ra quyết định sáng suốt hơn khi lựa chọn kim cương phù hợp với nhu cầu và ngân sách của họ. Người bán có thể định giá kim cương chính xác hơn, đảm bảo lợi nhuận và sự hài lòng của khách hàng. Hỗ trợ phân loại kim cương: Giúp thiết lập tiêu chuẩn phân loại kim cương dựa trên độ tinh khiết và giá trị trung bình của khối lượng. Điều này giúp đơn giản hóa quá trình phân loại, đảm bảo tính nhất quán và minh bạch trong ngành kim cương.

  • Nghiên cứu thị trường: Phân tích mối quan hệ này cung cấp thông tin quan trọng về xu hướng thị trường kim cương. Các nhà nghiên cứu, nhà đầu tư và doanh nghiệp có thể sử dụng thông tin này để đưa ra chiến lược kinh doanh hiệu quả.

Ngoài ra, việc phân tích mối quan hệ này còn có thể giúp: So sánh giá trị của các loại kim cương khác nhau, xác định giá trị của kim cương cũ hoặc đã qua sử dụng, dự đoán giá trị của kim cương trong tương lai.

tmp <- diamonds
tmp %>% group_by(clarity) %>% summarise(m= mean(carat)) %>% ggplot(aes(x = clarity,y = m)) + geom_col(position = 'dodge') + geom_text(aes(label = round(m,2)), vjust = 2, color = 'green') + labs(x = 'Độ tinh khiết', y = 'Mean') + labs(title = "Mối quan hệ giữa độ tinh khiết của kim cương và giá trị trung bình của khối lượng")

#tmp %>%: Biểu diễn toán tử ống (%>) để thực hiện chuỗi các tác vụ trên dữ liệu tmp.
#group_by(clarity): Nhóm dữ liệu theo thuộc tính clarity (độ tinh khiết) của kim cương.
#summarise(m = mean(carat)): Tính toán giá trị trung bình của thuộc tính carat (khối lượng) cho mỗi nhóm clarity và lưu trữ kết quả trong biến mới m.
#ggplot(aes(x = clarity, y = m)): Khởi tạo biểu đồ bằng ggplot2, ánh xạ trục hoành x với clarity và trục tung y với giá trị trung bình m.
#geom_col(position = 'dodge'): Thêm các cột hình chữ nhật vào biểu đồ, sử dụng vị trí dodge để tránh chồng chéo các cột khi có nhiều nhóm clarity.
#geom_text(aes(label = round(m, 2)), vjust = 2, color = 'green'): Thêm nhãn văn bản vào các cột, hiển thị giá trị trung bình được làm tròn đến 2 chữ số thập phân (round(m, 2)), dịch chuyển lên một chút (vjust = 2) và đặt màu xanh (color = 'green').
#labs(x = 'Màu', y = 'Mean'): Thêm nhãn cho trục hoành (x) là "Màu" và trục tung (y) là "Mean" (giá trị trung bình).

Dựa vào đồ thị trên, ta có thể nhận xét một số điểm sau:

  • Giá trị trung bình khối lượng kim cương có xu hướng giảm khi độ tinh khiết tăng từ I1 đến IF (từ 1.28 carat xuống 0.51 carat).

  • Nhóm kim cương có độ tinh khiết I1 có giá trị trung bình khối lượng cao nhất (1.28 carat). Nhóm kim cương có độ tinh khiết IF có giá trị trung bình khối lượng thấp nhất (0.51 carat). Điều này cho thấy sự khác biệt về giá trị trung bình khối lượng giữa các nhóm khá lớn.

Tóm lại, biểu đồ cột cho thấy mối quan hệ tiêu cực giữa độ tinh khiết và giá trị trung bình khối lượng kim cương. Khi độ tinh khiết của kim cương càng tăng, giá trị trung bình khối lượng carat của kim cương càng giảm. Mức độ tương quan khá mạnh.

19 . Phân tích mối quan hệ giữa màu sắc và giá trị trung bình giá bán của kim cương

Việc phân tích này có thể mang lại nhiều lợi ích cho các bên liên quan như:

  • Hiểu rõ hơn về thị trường kim cương: Phân tích mối quan hệ này giúp xác định mức độ ảnh hưởng của màu sắc đến giá trị của kim cương. Từ đó, có thể dự đoán giá trị của kim cương dựa trên màu sắc của nó.

  • Hỗ trợ việc mua bán kim cương: Người mua có thể lựa chọn kim cương phù hợp với nhu cầu và ngân sách dựa trên thông tin về mối quan hệ giữa màu sắc và giá trị. Người bán có thể định giá kim cương chính xác hơn bằng cách cân nhắc yếu tố màu sắc.

  • Tăng cường sự minh bạch trong thị trường kim cương: Việc phân tích mối quan hệ này giúp nâng cao nhận thức của người tiêu dùng về giá trị của kim cương. Từ đó, giảm thiểu nguy cơ bị lừa đảo khi mua bán kim cương.

  • Đề xuất chiến lược kinh doanh: Các nhà kinh doanh kim cương có thể sử dụng thông tin về mối quan hệ này để lập kế hoạch kinh doanh hiệu quả hơn. Ví dụ, họ có thể tập trung vào phân khúc thị trường ưa chuộng kim cương có màu sắc nhất định.

Ngoài ra, việc phân tích mối quan hệ giữa màu sắc và giá trị trung bình giá bán của kim cương còn có thể giúp các nhà nghiên cứu hiểu rõ hơn về các yếu tố ảnh hưởng đến giá trị của kim cương và cung cấp dữ liệu hữu ích cho việc phát triển các mô hình dự đoán giá kim cương.

tmp <- diamonds
tmp %>% group_by(color) %>% summarise(m= mean(price)) %>% ggplot(aes(x = color,y = m)) + geom_col(position = 'dodge') + geom_text(aes(label = round(m,1)), vjust = 2, color = 'white') + labs(x = 'Màu sắc', y = 'Trung bình') + labs( title = "Mối quan hệ giữa màu sắc và giá trị trung bình giá bán của kim cương")

#Giải thích:

#tmp %>% group_by(color) %>% summarise(m = mean(price)):

##Nhóm dữ liệu theo màu sắc (color).
##Tính toán giá trị trung bình giá bán (m) cho mỗi nhóm màu.

#ggplot(aes(x = color, y = m)): Khởi tạo biểu đồ ggplot2 với trục hoành (x) thể hiện màu sắc và trục tung (y) thể hiện giá trị trung bình giá bán (m).

#geom_col(position = 'dodge'): Thêm các cột vào biểu đồ, sử dụng vị trí dodge để tránh chồng chéo các cột khi có nhiều nhóm màu.

#geom_text(aes(label = round(m, 2)), vjust = 2, color = 'green'): Thêm nhãn văn bản vào các cột, hiển thị giá trị trung bình giá bán được làm tròn đến 2 chữ số thập phân (round(m, 2)), dịch chuyển lên một chút (vjust = 2) và đặt màu xanh lá (color = 'green').

#labs(x = 'Màu sắc', y = 'Trung bình'): Thêm nhãn cho trục hoành (x) là "Màu sắc" và trục tung (y) là "Trung bình".

Biểu đồ này có thể được sử dụng để so sánh giá trị trung bình giá bán giữa các nhóm màu sắc khác nhau và để xác định xem có mối liên hệ nào giữa hai biến này hay không.

Nhận xét biểu đồ:

  • Nhìn chung, không có xu hướng rõ ràng giữa màu sắc và giá trị trung bình giá bán. Giá bán dao động trong các nhóm màu sắc khác nhau.

  • Xu hướng giá bán theo nhóm màu của kim cương tăng (từ màu ‘E’ đến ‘J’).

  • Những viên kim cương màu ‘D’ có mức giá bán trung bình là 3.170 USD, ‘E’ có giá bán trung bình là 3.076.8 USD, ‘F’ có giá bán trung bình là 3.724,9 USD, ‘G’ có giá bán trung bình là 3.999,1 USD, ‘H’ có giá bán trung bình là 4.486,7 USD, ‘I’ có giá bán trung bình là 5.091,9 USD và ‘J’ có giá bán trung bình là 5.323,8 USD.

  • Giá bán trung bình của kim cương màu ‘J’ là cao nhất (5.323,8 USD), gấp 1,73 lần giá của ‘E’, giá bán trung bình của ‘E’ là thấp nhất (3.076,8 USD)

20 . Phân tích mối quan hệ giữa chất lượng, màu sắc và giá bán trung bình của kim cương

Việc phân tích này mang lại nhiều lợi ích cho nhiều đối tượng:

  • Người mua:Hiểu rõ hơn về các yếu tố ảnh hưởng đến giá trị của kim cương. So sánh giá bán của các loại kim cương khác nhau để lựa chọn phù hợp với nhu cầu và ngân sách. Tránh mua phải kim cương giá cao nhưng chất lượng thấp.

  • Người bán: Định giá kim cương chính xác hơn, dựa trên các yếu tố khách quan. Tăng khả năng cạnh tranh trên thị trường. Tạo dựng uy tín với khách hàng.

  • Nhà nghiên cứu: Thu thập dữ liệu về thị trường kim cương. Xác định các xu hướng trong giá bán của kim cương. Phát triển các mô hình dự đoán giá bán của kim cương.

  • Nhà kinh doanh: Lập kế hoạch kinh doanh hiệu quả hơn, dựa trên dữ liệu về thị trường. Xác định phân khúc thị trường mục tiêu. Phát triển các chiến lược marketing phù hợp.

Ngoài ra, việc phân tích mối quan hệ giữa chất lượng, màu sắc và giá bán trung bình của kim cương còn có thể: Giúp nâng cao nhận thức của người tiêu dùng về giá trị của kim cương. Tăng cường sự minh bạch trong thị trường kim cương. Giảm thiểu nguy cơ bị lừa đảo khi mua bán kim cương.

tmp <- diamonds
tmp %>% group_by(cut,color) %>% summarise(m = mean(price)) %>% ggplot(aes(x = cut,y = m)) + geom_col(position = 'dodge') + facet_wrap(~color) + geom_text(aes(label = round(m), vjust = 2, color = 'green')) + labs(x = 'Chất lượng', y = 'Giá bán') + labs(title = "Mối quan hệ giữa chất lượng, màu sắc và giá bán trung bình của kim cương")
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

#Giải thích:

#tmp %>% group_by(cut, color) %>% summarise(m = mean(price)):

##Nhóm dữ liệu theo chất lượng (cut) và màu sắc (color).
##Tính toán giá trị trung bình giá bán (m) cho mỗi nhóm chất lượng và màu sắc.

#ggplot(aes(x = cut, y = m)): Khởi tạo biểu đồ ggplot2 với trục hoành (x) thể hiện chất lượng và trục tung (y) thể hiện giá trị trung bình giá bán (m).

#geom_col(position = 'dodge'): Thêm các cột vào biểu đồ, sử dụng vị trí dodge để tránh chồng chéo các cột khi có nhiều nhóm chất lượng.

#facet_wrap(~color): Chia biểu đồ thành các nhóm con theo màu sắc (color).

#geom_text(aes(label = round(m))): Thêm nhãn văn bản vào các cột, hiển thị giá trị trung bình giá bán được làm tròn (round(m)).

#labs(x = 'Chất lượng', y = 'Số lượng'): Thêm nhãn cho trục hoành (x) là "Chất lượng" và trục tung (y) là "Số lượng".

Biểu đồ này có thể được sử dụng để:

  • So sánh giá bán trung bình của kim cương cùng chất lượng nhưng khác màu sắc.

  • So sánh giá bán trung bình của kim cương cùng màu sắc nhưng khác chất lượng.

  • Xác định màu sắc nào có giá bán trung bình cao nhất cho mỗi nhóm chất lượng.

  • Xác định chất lượng nào có giá bán trung bình cao nhất cho mỗi nhóm màu sắc.

  • Dự đoán giá bán trung bình của kim cương dựa trên chất lượng và màu sắc.

Một số nhận xét từ đồ thị như sau:

  • Mối quan hệ giữa màu sắc và giá bán: Không có xu hướng rõ ràng giữa màu sắc và giá bán trung bình. Giá bán trung bình dao động trong các nhóm màu sắc khác nhau. Sự khác biệt về giá bán trung bình giữa các nhóm không quá lớn.

  • Mối quan hệ tương tác giữa chất lượng và màu sắc: Mức độ ảnh hưởng của màu sắc đến giá bán phụ thuộc vào chất lượng kim cương. Đối với kim cương chất lượng cao, sự khác biệt về giá bán giữa các nhóm màu nhỏ hơn. Đối với kim cương chất lượng thấp, sự khác biệt về giá bán giữa các nhóm màu lớn hơn.

21 . Phân tích giá bán trung bình của kim cương theo màu D

  • Đánh giá giá trị kim cương: Biết được giá bán trung bình của kim cương theo màu D giúp người mua ước tính giá trị viên kim cương họ muốn mua.

  • So sánh giá bán trung bình của các viên kim cương có cùng màu D nhưng khác về chất lượng cắt, độ tinh khiết, kích thước để đưa ra lựa chọn phù hợp nhất.

  • Phân biệt kim cương thật và kim cương giả bằng cách so sánh giá bán thực tế với giá bán trung bình.

  • Phân tích giá bán trung bình theo thời gian để dự đoán xu hướng giá cả trong tương lai. Nghiên cứu các yếu tố khác ảnh hưởng đến giá bán trung bình như chất lượng cắt, độ tinh khiết, kích thước, v.v.

tmp <- diamonds
tmp <- tmp %>% group_by(cut, color) %>% summarise(n = mean(price))
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
tmp %>% ggplot(aes(x = cut, y = n)) + geom_col(data = tmp %>% filter(color == 'D'), fill = 'darkgreen')+labs(x="Chất lượng",y="Giá bán") + labs( title = " Đồ thị giá bán trung bình của kim cương theo màu D") 

Biểu đồ hiển thị giá bán trung bình của kim cương theo chất lượng cắt cho nhóm kim cương có màu D. Dữ liệu được nhóm theo 5 mức độ chất lượng cắt: Ideal, Premium, Very Good, Good, Fair. Giá bán trung bình cho mỗi mức độ cắt được biểu thị bằng cột màu xanh lá đậm.

Mức độ chênh lệch giá bán trung bình giữa các nhóm kim cương có chất lượng cắt khác nhau không đáng kể. So sánh giá bán trung bình của kim cương D với các màu khác để đánh giá mức độ ảnh hưởng của màu sắc đến giá trị kim cương.

22 . So sánh số lượng kim cương giữa hai màu D và J trong các nhóm chất lượng khác nhau

Việc so sánh này có thể mang lại nhiều lợi ích cho nhiều đối tượng:

  • Người mua: Hiểu rõ hơn về sự phổ biến của các màu sắc kim cương khác nhau. So sánh giá bán của kim cương D và J trong cùng nhóm chất lượng. Lựa chọn kim cương phù hợp với nhu cầu và ngân sách.

  • Người bán: Định giá kim cương D và J chính xác hơn, dựa trên dữ liệu thị trường. Tăng khả năng cạnh tranh trên thị trường. Tạo dựng uy tín với khách hàng.

  • Nhà nghiên cứu: Thu thập dữ liệu về thị trường kim cương. Xác định xu hướng về số lượng và giá bán của kim cương D và J. Phát triển các mô hình dự đoán số lượng và giá bán của kim cương D và J.

  • Nhà kinh doanh: Lập kế hoạch kinh doanh hiệu quả hơn, dựa trên dữ liệu về thị trường. Xác định phân khúc thị trường mục tiêu. Phát triển các chiến lược marketing phù hợp.

tmp <- diamonds
tmp <- tmp %>% group_by(cut, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
tmp %>% ggplot(aes(x = cut, y = n)) + geom_col(data = tmp %>% filter(color == 'D'), fill = 'red') + geom_col(data = tmp %>% filter(color == 'J'), fill = 'blue') + labs(x = "CHất lượng", y = " Số lượng") + labs( title = "Đồ thị số lượng kim cương giữa hai màu D và J trong các nhóm chất lượng khác nhau")

#Giải thích:

#tmp <- tmp %>% group_by(cut, color) %>% summarise(n = n()):

##Nhóm dữ liệu theo chất lượng (cut) và màu sắc (color).
##Tính toán số lượng (n) kim cương trong mỗi nhóm chất lượng và màu sắc.

#tmp %>% ggplot(aes(x = cut, y = n)): Khởi tạo biểu đồ ggplot2 với trục hoành (x) thể hiện chất lượng và trục tung (y) thể hiện số lượng (n).

#geom_col(data = tmp %>% filter(color == 'D'), fill = 'red'): Thêm cột màu đỏ vào biểu đồ cho các nhóm chất lượng với màu D.

#geom_col(data = tmp %>% filter(color == 'J'), fill = 'blue'): Thêm cột màu xanh vào biểu đồ cho các nhóm chất lượng với màu J.

#labs(x = "Chất lượng", y = "Số lượng"):Thêm nhãn cho trục hoành (x) là "Chất lượng" và trục tung (y) là "Số lượng".

Biểu đồ thể hiện số lượng viên kim cương theo từng mức độ chất lượng (cut) cho hai màu D và J.

Nhận xét về dữ liệu trong biểu đồ:

  • Nhìn chung, số lượng viên kim cương ‘D’ cao hơn ‘J’ cho tất cả các mức chất lượng cắt.

  • Cả hai màu đều có xu hướng giảm số lượng viên kim cương khi chất lượng cắt giảm.

  • Phân bố số lượng viên kim cương theo màu sắc: Màu ‘D’ có xu hướng phân bố đều hơn giữa các mức chất lượng cắt.

23 . So sánh số lượng viên kim cương theo từng mức chất lượng cắt cho hai màu sắc ‘G’ và ‘F’

  • Nghiên cứu thị trường:

  • Phân tích xu hướng thị trường trong việc lựa chọn chất lượng cắt và màu sắc cho kim cương.

  • So sánh mức độ phổ biến của các mức chất lượng cắt và màu sắc khác nhau.

  • Xác định các phân khúc thị trường tiềm năng cho các loại kim cương khác nhau.

  • Đánh giá giá trị:

  • So sánh giá trị của viên kim cương dựa trên chất lượng cắt và màu sắc.

  • Xác định mức độ ảnh hưởng của chất lượng cắt và màu sắc đến giá trị của viên kim cương.

  • Giúp người mua đưa ra quyết định sáng suốt khi lựa chọn kim cương.

tmp <- diamonds
tmp <- tmp %>% group_by(cut, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
#group_by(cut, color): Nhóm dữ liệu theo hai biến cut và color.
#summarise(n = n()): Tính số lượng viên kim cương trong mỗi nhóm (sử dụng hàm n()).

tmp %>% ggplot(aes(x = cut, y = n)) + geom_col(data = tmp %>% filter(color == 'G'), fill = 'black') + geom_col(data = tmp %>% filter(color == 'F'), fill = 'gray') + labs( x="Chất lượng",y="Số lượng")+ labs( title = "Đồ thị số lượng viên kim cương theo chất lượng của 2 nàu G và F")

#ggplot(aes(x = cut, y = n)): Tạo khung vẽ cho biểu đồ với trục x là cut và trục y là n.
#geom_col(data = tmp %>% filter(color == 'G'), fill = 'black'): Thêm cột màu đen cho các nhóm có color là 'G'.
#geom_col(data = tmp %>% filter(color == 'F'), fill = 'gray'): Thêm cột màu xám cho các nhóm có color là 'F'.
#labs(x="Chất lượng",y="Số lượng"): Ghi chú nhãn cho trục x là "Chất lượng" và trục y là "Số lượng".

Nhận xét về dữ liệu trong biểu đồ:

  • Nhìn chung, số lượng viên kim cương ‘F’ cao hơn ‘G’ trong tất cả các mức chất lượng cắt.

  • Cả hai màu đều có xu hướng giảm số lượng viên kim cương khi chất lượng cắt giảm.

Dữ liệu trong biểu đồ cho thấy chất lượng cắt ảnh hưởng đến số lượng viên kim cương. Màu sắc cũng ảnh hưởng đến số lượng viên kim cương, nhưng mức độ ảnh hưởng thấp hơn so với chất lượng cắt.

24 . So sánh Số lượng viên kim cương theo chất lượng cắt và màu sắc (H và I)

Việc phân tích này có thể được sử dụng cho nhiều mục đích khác nhau, bao gồm:

  • Nghiên cứu thị trường: Phân tích xu hướng thị trường trong việc lựa chọn chất lượng cắt và màu sắc cho kim cương. So sánh mức độ phổ biến của các mức chất lượng cắt và màu sắc khác nhau. Xác định các phân khúc thị trường tiềm năng cho các loại kim cương khác nhau.

  • Đánh giá giá trị: So sánh giá trị của viên kim cương dựa trên chất lượng cắt và màu sắc. Xác định mức độ ảnh hưởng của chất lượng cắt và màu sắc đến giá trị của viên kim cương. Giúp người mua đưa ra quyết định sáng suốt khi lựa chọn kim cương.

  • Lập kế hoạch sản xuất:Xác định nhu cầu thị trường cho các loại kim cương khác nhau dựa trên chất lượng cắt và màu sắc. Lập kế hoạch sản xuất phù hợp để đáp ứng nhu cầu thị trường. Tối ưu hóa việc sử dụng nguyên liệu và nguồn lực.

  • Marketing và bán hàng: Phát triển chiến lược marketing phù hợp cho các loại kim cương khác nhau dựa trên chất lượng cắt và màu sắc. Tiếp cận khách hàng tiềm năng với thông tin phù hợp về các loại kim cương. Tăng hiệu quả bán hàng và doanh thu.

tmp <- diamonds
tmp <- tmp %>% group_by(cut, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
#group_by(cut, color): Nhóm dữ liệu theo hai biến cut và color.
#summarise(n = n()): Tính số lượng viên kim cương trong mỗi nhóm (sử dụng hàm n()).

tmp %>% ggplot(aes(x = cut, y = n)) + geom_col(data = tmp %>% filter(color == 'H'), fill = 'gray') + geom_col(data = tmp %>% filter(color == 'I'), fill = 'blue')+labs(x="Chất lượng",y="Số lượng")+ labs( title = "Đồ thị Số lượng viên kim cương theo chất lượng cắt và màu sắc (H và I)")

#ggplot(aes(x = cut, y = n)): Tạo khung vẽ cho biểu đồ với trục x là cut và trục y là n.

#geom_col(data = tmp %>% filter(color == 'H'), fill = 'gray'): Thêm cột màu xám cho các nhóm có color là 'H'.

#geom_col(data = tmp %>% filter(color == 'I'), fill = 'blue'): Thêm cột màu xanh lam cho các nhóm có color là 'I'.

#labs(x="Chất lượng",y="Số lượng"): Ghi chú nhãn cho trục x là "Chất lượng" và trục y là "Số lượng".

Biểu đồ thu được thể hiện số lượng viên kim cương theo từng mức chất lượng cắt (cut) cho hai màu sắc ‘H’ và ‘I’. Biểu đồ có hai cột, màu xám cho ‘H’ và màu xanh cho ‘I’. Chiều cao của mỗi cột biểu thị số lượng viên kim cương tương ứng.

Nhận xét về dữ liệu trong biểu đồ:

  • Nhìn chung, số lượng viên kim cương ‘I’ cao hơn ‘H’ cho tất cả các mức chất lượng cắt. Cả hai màu đều có xu hướng giảm số lượng viên kim cương khi chất lượng cắt giảm.

  • Phân bố số lượng viên kim cương theo màu sắc: Màu ‘H’ có xu hướng phân bố đều hơn giữa các mức chất lượng cắt. Màu ‘I’ có xu hướng tập trung nhiều hơn ở các mức chất lượng cắt ‘Good’ và ‘Fair’.

Dữ liệu trong biểu đồ cho thấy chất lượng cắt ảnh hưởng đến số lượng viên kim cương. Màu sắc cũng ảnh hưởng đến số lượng viên kim cương, nhưng mức độ ảnh hưởng thấp hơn so với chất lượng cắt.

25 . So sánh số lượng viên kim cương theo từng mức chất lượng cắt (cut) cho hai màu sắc ‘E’ và ‘D’

Việc phân tích số lượng viên kim cương theo từng mức chất lượng cắt (cut) cho hai màu sắc ‘E’ và ‘D’ có thể được sử dụng cho nhiều mục đích khác nhau, bao gồm:

  • Nghiên cứu thị trường: Phân tích xu hướng thị trường trong việc lựa chọn chất lượng cắt và màu sắc cho kim cương. So sánh mức độ phổ biến của các mức chất lượng cắt và màu sắc khác nhau. Xác định các phân khúc thị trường tiềm năng cho các loại kim cương khác nhau.

  • Đánh giá giá trị: So sánh giá trị của viên kim cương dựa trên chất lượng cắt và màu sắc. Xác định mức độ ảnh hưởng của chất lượng cắt và màu sắc đến giá trị của viên kim cương. Giúp người mua đưa ra quyết định sáng suốt khi lựa chọn kim cương.

tmp <- diamonds
tmp <- tmp %>% group_by(cut, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
tmp %>% ggplot(aes(x = cut, y = n)) + geom_col(data = tmp %>% filter(color == 'E'), fill = 'black') + geom_col(data = tmp %>% filter(color == 'D'), fill = 'red')+ labs(x="Chất lượng",y="Số lượng")+labs( title = "Đồ thị số lượng viên kim cương theo từng mức chất lượng cắt (cut) cho hai màu sắc 'E' và 'D'")

#ggplot(aes(x = cut, y = n)): Tạo khung vẽ cho biểu đồ với trục x là cut và trục y là n.
#geom_col(data = tmp %>% filter(color == 'E'), fill = 'black'): Thêm cột màu đen cho các nhóm có color (màu sắc) là 'E'.
#geom_col(data = tmp %>% filter(color == 'D'), fill = 'red'): Thêm cột màu đỏ cho các nhóm có color là 'D'.
#labs(x = "Chất lượng", y = "Số lượng"): Ghi chú nhãn cho trục x là "Chất lượng" và trục y là "Số lượng"

Biểu đồ thu được thể hiện số lượng viên kim cương theo từng mức chất lượng cắt (cut) cho hai màu sắc ‘E’ và ‘D’. Biểu đồ có hai cột, màu đen cho ‘E’ và màu đỏ cho ‘D’. Chiều cao của mỗi cột biểu thị số lượng viên kim cương tương ứng.

Nhận xét về dữ liệu trong biểu đồ:

  • Nhìn chung, số lượng viên kim cương ‘D’ cao hơn ‘E’ cho tất cả các mức chất lượng cắt.

  • Cả hai màu đều có xu hướng giảm số lượng viên kim cương khi chất lượng cắt giảm từ Ideal đến Fair.

26 . Phân tích số lượng viên kim cương theo từng mức độ tinh khiết (clarity) cho ba màu sắc ‘D’, ‘I’ và ‘J’

Việc phân tích số lượng viên kim cương theo độ tinh khiết giữa ba màu sắc ‘D’, ‘I’ và ‘J’ có thể quan sát các đặc điểm như:

  • Xu hướng chung của số lượng viên kim cương theo độ tinh khiết.

  • Sự khác biệt về số lượng viên kim cương giữa các màu sắc tại mỗi mức độ tinh khiết.

  • Màu sắc nào có nhiều viên kim cương nhất ở các mức độ tinh khiết khác nhau.

tmp <- diamonds
tmp <- tmp %>% group_by(clarity, color) %>% summarise(n = n())
## `summarise()` has grouped output by 'clarity'. You can override using the
## `.groups` argument.
#group_by(clarity, color): Nhóm dữ liệu theo hai biến clarity (độ tinh khiết) và color (màu sắc).
#summarise(n = n()): Tính số lượng viên kim cương (n) trong mỗi nhóm.

tmp %>% ggplot(aes(x = clarity, y = n)) + geom_col(data = tmp %>% filter(color == 'D'), fill = 'red') + geom_col(data = tmp %>% filter(color == 'I'),fill = 'blue') + geom_col(data = tmp %>% filter(color == 'J'), fill = 'darkgreen') + labs(x = "Độ tinh khiết", y = "Số lượng") + labs( title = "Đồ thị số lượng viên kim cương theo từng mức độ tinh khiết (clarity) cho ba màu sắc 'D', 'I' và 'J'")

#ggplot(aes(x = clarity, y = n)): Tạo khung vẽ cho biểu đồ với trục x là clarity và trục y là n.
#geom_col(data = tmp %>% filter(color == 'D'), fill = 'red'): Thêm cột màu đỏ cho các nhóm có color (màu sắc) là 'D'.
#geom_col(data = tmp %>% filter(color == 'I'), fill = 'blue'): Thêm cột màu xanh lam cho các nhóm có color là 'I'.
#geom_col(data = tmp %>% filter(color == 'J'), fill = 'darkgreen'): Thêm cột màu xanh lá đậm cho các nhóm có color là 'J'.
#(x = "Độ tinh khiết", y = "Số lượng"): Ghi chú nhãn cho trục x là "Độ tinh khiết" và trục y là "Số lượng"

Biểu đồ thu được thể hiện số lượng viên kim cương theo từng mức độ tinh khiết (clarity) cho ba màu sắc ‘D’, ‘I’ và ‘J’. Biểu đồ có ba cột, với mỗi cột thể hiện số lượng viên kim cương cho một màu sắc tương ứng. Chiều cao của mỗi cột tại mỗi mức độ tinh khiết biểu thị số lượng viên kim cương có màu sắc đó ở mức độ tinh khiết đó.

Nhận xét về dữ liệu trong biểu đồ:

  • Nhìn chung, số lượng viên kim cương ‘J’ cao hơn ‘D’ và ‘I’ cho hầu hết các mức độ tinh khiết.

  • Số lượng viên kim cương giảm dần theo độ tinh khiết từ “SI1” đến “IF” cho cả ba màu sắc.

  • Phân bố số lượng viên kim cương theo màu sắc: Màu ‘I’ và ‘J’ có xu hướng phân bố đều hơn giữa các mức độ tinh khiết, còn màu ‘D’ có xu hướng tập trung nhiều hơn ở các mức độ tinh khiết “SI2” , “SI1” , “VS2”, và “VVS2”.

27 . Phân tích số lượng viên kim cương theo từng nhóm trọng lượng (caratC)

Việc phân tích này giúp so sánh số lượng viên kim cương theo trọng lượng, có thể quan sát các đặc điểm như:

  • Nhóm trọng lượng nào có nhiều viên kim cương nhất.

  • Nhóm trọng lượng nào có ít viên kim cương nhất.

  • Xu hướng chung của số lượng viên kim cương theo trọng lượng.

tmp <- diamonds 
tmp <- tmp %>% mutate(caratC = cut(carat,5, label = c('rất nhỏ', 'nhỏ','vừa','lớn','rất lớn')))

#mutate(): Thêm một biến mới vào bảng dữ liệu. cut(): Chia dữ liệu thành các nhóm dựa trên các khoảng giá trị.
tmp %>% ggplot(aes(x = caratC)) + geom_bar(fill = 'darkgreen') + labs(x= "Loại", y = "Số lượng")+ labs(x="Loại",y="Số lượng")+ labs( title = "Đồ thị số lượng viên kim cương theo từng nhóm trọng lượng (caratC)")

#ggplot(aes(x = caratC)): Tạo khung vẽ cho biểu đồ với trục x là caratC.
#geom_bar(fill = 'darkgreen'): Thêm biểu đồ dạng thanh với màu xanh lá đậm.
#labs(x= "Loại", y = "Số lượng"): Ghi chú nhãn cho trục x là "Loại" và trục y là "Số lượng".

Biểu đồ thu được thể hiện số lượng viên kim cương theo từng nhóm trọng lượng (caratC). Biểu đồ có 5 thanh, với mỗi thanh thể hiện số lượng viên kim cương cho một nhóm trọng lượng tương ứng. Chiều cao của mỗi thanh biểu thị số lượng viên kim cương thuộc nhóm trọng lượng đó.

Nhận xét về dữ liệu trong biểu đồ:

  • Phân bố số lượng viên kim cương theo trọng lượng: Nhóm trọng lượng “rất nhỏ” có số lượng viên kim cương cao nhất( trên 40.000 viên). Nhóm trọng lượng “nhỏ”, khoảng gần 10.000 viên và “vừa” có số lượng viên kim cương thấp nhất, dưới 1.000 viên, .

  • Số lượng viên kim cương giảm dần từ nhóm “rất nhỏ”, “nhỏ” và “vừa”, còn viên kim cương có khối lượng “lớn” và “rất lớn” thì cực kỳ ít.

  • Có nhiều viên kim cương loại “nhỏ” và “rất nhỏ”. Có ít viên kim cương loại “vừa” và rất ít kim cương xếp loại “lớn” và “rất lớn”. Điều này cho thấy đa số những viên kim cương có khối lượng “nhỏ” và “rất nhỏ” thường xuất hiện phổ biến, còn những viên kim cương có khối lượng “lớn” và “rất lớn” thì xuất hiện rất hiếm.

28 . Phân tích số lượng viên kim cương theo từng mức chất lượng (cut) cho hai màu sắc “H” và “I”

Việc phân tích số lượng viên kim cương theo chất lượng và màu sắc. Bạn có thể quan sát các đặc điểm như:

  • Mức độ chất lượng nào có nhiều viên kim cương nhất.

  • Mức độ chất lượng nào có ít viên kim cương nhất.

  • Màu sắc nào có nhiều viên kim cương nhất cho từng mức độ chất lượng.

  • Xu hướng chung của số lượng viên kim cương theo chất lượng và màu sắc.

df_new <- diamonds %>% group_by(cut, color) %>% summarise(n = n()) %>% mutate(color = factor(color, levels = c("H", "I")))
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.
df_new %>% ggplot(aes(x = cut, y = n, fill = color)) + geom_col(position = position_dodge()) + labs(title = "Đồ thị số lượng viên kim cương theo từng mức chất lượng (cut) cho hai màu sắc 'H' và 'I')") + labs(x = "Chất lượng", y = "Số lượng")

#Câu lệnh 1:
#group_by(): Nhóm dữ liệu theo hai biến cut (chất lượng) và color (màu sắc).
#summarise(n = n()): Tính số lượng viên kim cương (n) trong mỗi nhóm.
#mutate(color = factor(color, levels = c("H", "I"))): Chuyển đổi biến color thành kiểu dữ liệu factor với hai mức độ là "H" và "I".

#câu lệnh 2:
#ggplot(aes(x = cut, y = n, fill = color)): Tạo khung vẽ cho biểu đồ với trục x là cut, trục y là n, và màu sắc theo biến color.
#geom_col(position = position_dodge()): Thêm biểu đồ dạng thanh xếp cạnh nhau.

Biểu đồ thu được thể hiện số lượng viên kim cương theo từng mức chất lượng (cut) cho hai màu sắc “H” và “I”. Biểu đồ có hai thanh cho mỗi mức chất lượng, với mỗi thanh thể hiện số lượng viên kim cương cho một màu sắc tương ứng. Chiều cao của mỗi thanh biểu thị số lượng viên kim cương thuộc nhóm chất lượng và màu sắc đó.

Nhận xét về dữ liệu trong biểu đồ:

  • Nhìn chung, số lượng viên kim cương tăng dần khi chất lượng tăng (từ Fair đến Ideal). Xu hướng giảm này xảy ra cho cả hai màu sắc “H” và “I”.

  • Mức độ giảm số lượng viên kim cương giữa các mức độ chất lượng có thể khác nhau giữa các màu sắc.

  • Phân bố số lượng viên kim cương theo màu sắc: Màu “H” có số lượng viên kim cương cao hơn so với màu “I” cho hầu hết các mức độ chất lượng. Mức độ chênh lệch số lượng viên kim cương giữa hai màu sắc có thể khác nhau giữa các mức độ chất lượng.

29 . Phân tích số lượng viên kim cương theo từng mức độ tinh khiết (clarity) cho hai màu sắc “G” và “J”

Việc phân tích này giúp so sánh số lượng viên kim cương theo độ tinh khiết và màu sắc, ta có thể quan sát các đặc điểm như:

  • Mức độ tinh khiết nào có nhiều viên kim cương nhất.

  • Mức độ tinh khiết nào có ít viên kim cương nhất.

  • Màu sắc nào có nhiều viên kim cương nhất cho từng mức độ tinh khiết.

  • Xu hướng chung của số lượng viên kim cương theo độ tinh khiết và màu sắc.

df_new <- diamonds %>%
  group_by(clarity, color) %>%
  summarise(n = n()) %>%
  mutate(color = factor(color, levels = c("G", "J")))
## `summarise()` has grouped output by 'clarity'. You can override using the
## `.groups` argument.
df_new %>%
  ggplot(aes(x = clarity, y = n, fill = color)) +
  geom_col(position = position_dodge()) +
  labs(title = "Đồ thị số lượng viên kim cương theo từng mức độ tinh khiết (clarity) cho hai màu sắc 'G' và 'J'") + labs(x = "Độ tinh khiết", y = "Số lượng")

#Câu lệnh 1: 
#diamonds: Tên của tập dữ liệu chứa thông tin về kim cương.
#group_by(clarity, color): Nhóm dữ liệu theo hai biến clarity (độ tinh khiết) và color (màu sắc).
#summarise(n = n()): Tính số lượng viên kim cương (n) trong mỗi nhóm.
#mutate(color = factor(color, levels = c("G", "J"))): Chuyển đổi biến color thành kiểu dữ liệu factor với hai mức độ là "G" và "J".

#Câu lệnh 2:
#ggplot(aes(x = clarity, y = n, fill = color)): Tạo khung vẽ cho biểu đồ với trục x là clarity, trục y là n, và màu sắc theo biến color.
#geom_col(position = position_dodge()): Thêm biểu đồ dạng thanh xếp cạnh nhau.

Biểu đồ thể hiện số lượng viên kim cương theo từng mức độ tinh khiết (clarity) cho hai màu sắc “G” và “J”. Biểu đồ có hai thanh cho mỗi mức độ tinh khiết, với mỗi thanh thể hiện số lượng viên kim cương cho một màu sắc tương ứng. Chiều cao của mỗi thanh biểu thị số lượng viên kim cương thuộc nhóm độ tinh khiết và màu sắc đó.

Nhận xét về dữ liệu trong biểu đồ:

  • Nhìn chung, số lượng viên kim cương giảm dần khi độ tinh khiết tăng (từ SI2 đến IF). Xu hướng giảm này xảy ra cho cả hai màu sắc “G” và “J”.

  • Mức độ giảm số lượng viên kim cương giữa các mức độ tinh khiết có thể khác nhau giữa các màu sắc.

  • Phân bố số lượng viên kim cương theo màu sắc: Màu “G” có số lượng viên kim cương cao hơn so với màu “J” cho hầu hết các mức độ tinh khiết.

  • Mức độ chênh lệch số lượng viên kim cương giữa hai màu sắc có thể khác nhau giữa các mức độ tinh khiết.

30 . Phân tích số lượng viên kim cương theo từng mức độ tinh khiết (clarity) cho bốn màu sắc “D”, “G”, “I” và “J”

Việc phân tích này giúp so sánh số lượng viên kim cương theo độ tinh khiết và màu sắc, có thể quan sát các đặc điểm như:

  • Mức độ tinh khiết nào có nhiều viên kim cương nhất.

  • Mức độ tinh khiết nào có ít viên kim cương nhất.

  • Màu sắc nào có nhiều viên kim cương nhất cho từng mức độ tinh khiết.

  • Xu hướng chung của số lượng viên kim cương theo độ tinh khiết và màu sắc.

df_new <- diamonds %>%
  group_by(clarity, color) %>%
  summarise(n = n()) %>%
  mutate(color = factor(color, levels = c("D","G", "I","J")))
## `summarise()` has grouped output by 'clarity'. You can override using the
## `.groups` argument.
df_new %>%
  ggplot(aes(x = clarity, y = n, fill = color)) +
  geom_col(position = position_dodge()) + labs(x = "Độ tinh khiết", y = "Số lượng")+
  labs(title = "Đồ thị số lượng viên kim cương theo từng mức độ tinh khiết (clarity) cho bốn màu sắc 'D','G','I' và 'J'")

#câu lệnh 1:
#group_by(clarity, color): Nhóm dữ liệu theo hai biến clarity (độ tinh khiết) và color (màu sắc).
#(n = n()): Tính số lượng viên kim cương (n) trong mỗi nhóm.
#mutate(color = factor(color, levels = c("D","G", "I","J"))): Chuyển đổi biến color thành kiểu dữ liệu factor với bốn mức độ là "D", "G", "I" và "J".
#Một bảng dữ liệu mới df_new được tạo với các cột: clarity: Độ tinh khiết, color: Màu sắc (bao gồm "D", "G", "I" và "J") ,n: Số lượng viên kim cương

#Câu lệnh 2:
#ggplot(aes(x = clarity, y = n, fill = color)): Tạo khung vẽ cho biểu đồ với trục x là clarity, trục y là n, và màu sắc theo biến color.
#geom_col(position = position_dodge()): Thêm biểu đồ dạng thanh xếp cạnh nhau.

Biểu đồ thể hiện số lượng viên kim cương theo từng mức độ tinh khiết (clarity) cho bốn màu sắc “D”, “G”, “I” và “J”. Biểu đồ có bốn thanh cho mỗi mức độ tinh khiết, với mỗi thanh thể hiện số lượng viên kim cương cho một màu sắc tương ứng. Chiều cao của mỗi thanh biểu thị số lượng viên kim cương thuộc nhóm độ tinh khiết và màu sắc đó.

Nhận xét về dữ liệu trong biểu đồ:

  • Nhìn chung, số lượng viên kim cương giảm dần khi độ tinh khiết tăng (từ SI2 đến IF).

  • Xu hướng giảm này xảy ra cho cả bốn màu sắc “D”, “G”, “I” và “J”. Mức độ giảm số lượng viên kim cương giữa các mức độ tinh khiết có thể khác nhau giữa các màu sắc.

  • Phân bố số lượng viên kim cương theo màu sắc: Màu “G” có số lượng viên kim cương cao nhất cho hầu hết các mức độ tinh khiết. Màu “J” có số lượng viên kim cương thấp nhất cho hầu hết các mức độ tinh khiết ( dưới 500 viên).

  • Mức độ chênh lệch số lượng viên kim cương giữa các màu sắc có thể khác nhau giữa các mức độ tinh khiết.

