Bộ dữ liệu DIAMONDS gồm:
Trong bộ dữ liệu này ta có 53940 quan sát với 10 biến tương ứng với
53940 viên kim cương với 10 đặc tính của nó.
-Carat: Trọng lương của viên kim cương.
-Cut: Chất lượng kim cương với 5 mức độ ‘Fair, Good, Very Good,
Premium, Ideal’.
-Color: MÀu sắc kim cương với 7 mức độ
‘D<E<F<G<H<I<J’.
-Clarity: Độ tinh khiết viên kim cương với 8 mức độ ‘IF< VVS1<
VVS2< VS1< VS2< SI1< SI2< I1’.
-Depth: chiều sâu của viên kim cương.
-Table: bề mặt kim cương
-Price: giá bán kim cương
-X chiều dài
-Y chiều rộng
-Z chiều cao
names(d)
## [1] "carat" "cut" "color" "clarity" "depth" "table" "price"
## [8] "x" "y" "z"
Phân tích dữ liệu diamonds với dạng biểu đồ
A.Biểu đồ của dữ liệu CUT như sau
library(tidyverse)
library(scales)
d <- diamonds
d %>% ggplot(aes(x = cut)) +
labs(title= "Biểu đồ thể hiện 5 mức độ của Carat") +
geom_bar() +
labs(x = 'Loại', y = 'Số lượng')

- Trong biểu đồ này ta có thể thấy sự chênh lệch số lượng kim cuong
của 5 mức độ là không đồng điều.
-Cao nhất là Ideal với 21551 viên, và loại thấp nhất
là Fair với 1610 viên.
-Để dễ dàng quan sát thì ta có thể dựa vào biểu đồ bên dưới.
1.Biểu đồ này cho thấy số lương của từng loại kim cương
d %>% group_by(cut) %>% summarise(freq= n()) %>%
ggplot(aes(x = cut,y = freq)) +
geom_col(fill='orange') +
labs(title="Biểu đồ cụ thể 5 mức độ CUT") +
geom_text(aes(label =freq),vjust =2, color ='black') +
labs(x= 'Loại', y='Số lượng')

2.Và chúng ta có thể thấy rõ hơn số lượng kim cương qua biểu đỏ
này
d%>% group_by(cut,color) %>% summarise(n=n()) %>%
ggplot(aes(x = cut,y = n)) +
geom_col(fill='orange') +
facet_wrap(~color) +
geom_text(aes(label = n),vjust = 2, color = 'black')

labs(x = 'Loại', y = 'Số lượng')
## $x
## [1] "Loại"
##
## $y
## [1] "Số lượng"
##
## attr(,"class")
## [1] "labels"
3.Biểu đồ trên hiển thị số lượng kim cương theo từng loại cắt, được
phân loại theo màu sắc của kim cương. Các biểu đồ con tương ứng cho từng
màu sắc của kim cương. Đồng thời, các chú thích số lượng kim cương được
thêm vào để làm cho biểu đồ trở nên dễ hiểu hơn.
d %>% ggplot(aes(x = cut)) +
geom_density(fill = 'orange') +
facet_wrap(~cut)

4.Đây là biểu đồ mật độ của giá kim cương, với mỗi cách cắt khác
nhau của kim cương được hiển thị trong một bảng biểu đồ riêng biệt. Điều
này giúp so sánh phân phối giá của kim cương giữa các loại cắt khác
nhau.
d %>% group_by(cut) %>% summarise(m= mean(carat)) %>%
ggplot(aes(x = cut,y = m)) +
geom_col(position = 'dodge') +
geom_text(aes(label = round(m,2)), vjust = 2, color = 'orange') +
labs(x ='Loại', y = 'Mean')

d<- diamonds
d<- d %>% group_by(cut, color) %>% summarise( n= n())
5.giá trị trung bình của trọng lượng cut cho mỗi loại cắt của kim
cương được thể hiện qua biểu đồ trên. Đồng thời, các chú thích số liệu
được thêm vào để làm cho biểu đồ trở nên dễ hiểu hơn.
d %>% ggplot(aes(x = cut, y = n)) +
geom_col(data = d %>% filter(color == 'H'), fill = 'orange') +
geom_col(data = d %>% filter(color == 'I'), fill = 'blue')

6. Biểu đồ nay cho ta biết số lượng kim cương theo từng loại cắt và
mà sắc của nó. Trên trục x nó thể hiện chất lượng cắt của kim cương,
trục y cho biết sô lượng kim cương. Màu ’Blue thể hiện số kim cương có
màu I, ’Orange thể hiện số kim cương có màu
H.
B.Biểu đồ của dữ liệu CARAT như sau
d <-diamonds
d %>% ggplot(aes(x = carat)) +
geom_density(fill = 'pink')

d <- diamonds
d <- d %>% mutate(caratC = cut(carat,5, label = c('rất nhỏ', 'nhỏ','vừa','lớn','rất lớn')))
d %>% ggplot(aes(x = caratC)) +
labs(title= "Biểu đồ Carat") +
geom_bar(fill = 'pink')

1.Trọng lượng carat được phân loại thành 5 nhóm : rất nhỏ, nhỏ, vừa,
lớn, rất lớn.
d1 <- d%>% mutate (tlcarat = cut(carat,5, label = c("Rất nhẹ", "Nhẹ", "Vừa", "Nặng", "Rất năng")))
d1 %>% group_by(tlcarat) %>% summarise(n = n()) %>%
ggplot(aes(tlcarat,n)) +
geom_col(fill= 'pink') +
labs(title= "Biểu đồ thể hiện carat")+
geom_text (aes(label = n), vjust=-0.5, color= 'black')+
labs(x= "Trọng lượng", y= "Số lượng")

2. Khi nhìn vào biểu đồ này ta vẫn thấy có sự chênh lênh nhất định ở
từng loai:
-“Rất nhẹ” chiếm đại đa số với số lượng 43781 viên. “Rất nặng” chiếm
thiểu số với số lượng là 3 nhỏ hơn rất nhiều so với các cột khác. Điều
này cho thấy rằng kim cương càng có trọng lượng lớn thì càng hiếm.
-Để dễ dàng so sáng thì ta có thể nhìn vào số phần trăm của chúng có
thể chiếm băng biểu đồ kế tiếp.
d1 <- d%>% mutate (tlcarat = cut(carat,5, label = c("Rất nhẹ", "Nhẹ", "Vừa", "Nặng", "Rất năng")))
d1 %>% group_by(tlcarat) %>% summarise(n = n()) %>%
ggplot(aes(tlcarat,n)) +
geom_col(fill= 'pink') +
labs(title= "Biểu đồ thể hiện carat")+
geom_text (aes(label = percent(n/length(d$carat))), vjust=-0.5, color= 'black')+
labs(x= "Trọng lượng", y= "Số lượng")

d%>% ggplot(aes(x = carat)) +
geom_density(fill = 'pink') +
facet_wrap(~cut)

3.Mật độ của trọng lượng carat của kim cương. Biểu đồ được phân loại
thành các bảng con dựa trên các loại cắt khác nhau của kim cương, giúp
so sánh phân phối của trọng lượng carat giữa các loại cắt.
C. Biểu đồ của dữ liệu COLOR
- Màu sắc của kim cương được phân chia gôm 7 màu: D,E,F,G,H,I,J. Được
thể hiện như sau.
d %>% group_by(color) %>% summarise(freq= n()) %>%
ggplot(aes(x = color,y = freq)) +
geom_col(fill='brown') +
labs(title="Biểu đồ cụ thể 5 mức độ Color") +
geom_text(aes(label =freq),vjust =-0.5, color ='black') +
labs(x= 'Màu sắt', y='Số lượng')

-Tổng thể ta có thể thấy sự bố của kim cương với 7 màu sắc cũng không
quá chênh lệch. Với G chiếm 11292 viên là màu sắc có số
lượng đa số, và màu J là loại chiếm số lượng thấp nhất
với 2808 viên. Các màu còn lại có sự chệnh lệch xem xem nhau.
d %>% group_by(color) %>% summarise(n=n()) %>% ggplot(aes(color,n)) +
geom_col(fill= "brown")+
labs(title ="Biểu đồ thể hiện COLOR") +
geom_text(aes(label= percent(n/length(d$color))), vjusst= 1, color= "black") +
labs(x="Màu sắc", y="Số lượng")

D.Biểu đồ của dữ liệu PRICE như sau
d %>% ggplot(aes(x = price)) +
labs(title=" Biểu đồ Price")+
geom_histogram(binwidth = 500, fill = 'blue', color = 'red')

d %>% ggplot(aes(x = price, fill = color)) +
labs(title="Biểu đồ Price")+
geom_histogram(binwidth = 500)

1.Biểu đồ của giá kim cương, với mỗi khoảng giá được phân loại dựa
trên màu sắc của kim cương. Biểu diễn số lượng kim cương có giá trong
một khoảng giá cố định là 500 đơn vị.
d %>% ggplot(aes(x = price, fill = cut)) +
labs(title=" Biểu đồ Price") +
geom_density()

2.Mật độ của giá kim cương, với các plot mật độ được phân biệt bởi
loại cắt của kim cương. Điều này giúp nhìn nhận sự phân phối của giá kim
cương theo từng loại cắt khác nhau.
d %>% ggplot(aes(x = price)) +
geom_density(fill = 'blue')

d %>% group_by(color) %>% summarise(n = n()) %>%
ggplot(aes(x = '', y = n,fill = color)) +
labs(title= "Biểu đồ Price") +
geom_col() +
coord_polar('y')

3.Số lượng mẫu kim cương theo màu sắc. Điều này cho phép so sánh tỉ
lệ phân phối của mẫu kim cương theo màu sắc một cách trực quan.
d%>% ggplot(aes(x = price)) +
labs(title=" Biểu đồ Price H&I") +
geom_histogram(data = d %>% filter(color == 'H'), binwidth = 500, fill = 'purple') +
geom_histogram(data = d %>% filter(color == 'I'), binwidth = 500, fill = 'blue')

4. Biểu đồ giá kim cương, với biểu đồ phân loại dựa trên màu sắc của
kim cương. Mỗi thanh biểu diễn số lượng kim cương có giá trong một
khoảng giá cố định, và có hai histogram riêng biệt cho màu H và I với
màu sắc tương ứng là blue và green.
d %>% ggplot(aes(x = price)) +
labs(title="Biểu đồ Price")+
geom_histogram (data = d %>% filter(color == 'F'), fill = 'purple') +
geom_histogram(data = d %>% filter(color == 'H'), fill = 'blue')

d %>% ggplot(aes(x = price)) +
geom_density(fill = 'blue') +
facet_wrap(~cut)

5.biểu đồ mật độ của giá kim cương, với mỗi nhóm biểu diễn dữ liệu
được phân loại dựa trên loại cắt của kim cương. Mỗi nhóm có một mật độ
riêng biệt của nó, và phân loại được thực hiện để so sánh phân phối của
giá kim cương giữa các loại cắt.
d %>% group_by(color) %>% summarise(n = n()) %>%
ggplot(aes(x = '', y = n,fill = color)) +
geom_col() +
geom_text(aes(label = n),position = position_stack(vjust = 1))

E. Biểu đồ thể hiện CLARITY
d %>% group_by(clarity) %>% summarise(freq= n()) %>%
ggplot(aes(x = clarity,y = freq)) +
geom_col(fill='purple') +
labs(title="Biểu đồ 8 mức độ tinh khiết ") +
geom_text(aes(label =freq),vjust = -0.5, color ='black') +
labs(x= 'Loại', y='Số lượng')

1.Với 8 mức độ tinh khiêt của kim cương thì ta có thể thấy
SI1 chiếm số lượng nhiều nhất, tiếp theo đó là
VS2. Mức độ tinh khiết thấp nhất là *I1**. Và dưới đây
là biểu đồ thể hiện số phần trằm mà từng mức độ tinh khiết có thể chiếm
được.
d %>% group_by(clarity) %>% summarise(n = n()) %>%
ggplot(aes(clarity,n)) +
geom_col(fill= 'purple') +
labs(title= "Biểu đồ thể hiện mức độ tinh khiết")+
geom_text (aes(label = percent(n/length(d$clarity))), vjust=-0.3, color= 'black')+
labs(x= "Loại ", y= "Số lượng")

d %>% group_by(color,clarity) %>% summarise(n=n()) %>%
ggplot(aes(x = clarity,y = n)) +
geom_col(fill = 'purple') +
facet_wrap(~color) +
geom_text(aes(label = n),vjust = 0, color = 'black') +
labs(x = 'Mức độ tinh khiết', y = 'Số lượng')

Biểu đồ cho thấy tần suất của các nhóm mức độ tinh khiết trong từng
màu sắc. Biểu đồ giúp chúng ta hiểu được mối quan hệ giữa mức độ tinh
khiết và màu sắc của kim cương trong tập dữ liệu.
d %>% ggplot(aes(x = clarity)) +
geom_density(fill = 'purple') +
facet_wrap(~cut)

2.Đây là biểu đồ mật độ của tinh khiết kim cương, với mỗi cách cắt
khác nhau của kim cương được hiển thị trong một bảng biểu đồ riêng biệt.
Điều này giúp so sánh độ tinh khiết của kim cương giữa các loại cắt khác
nhau.
d %>% ggplot(aes(x = clarity)) +
labs(title= "Biểu đồ Clarity")+
geom_density(fill = 'purple')

F. Biểu đồ thể hiện DEPTH
d %>% ggplot(aes(x = depth)) +
labs(title= "Biểu đồ thể hiện độ sâu ") +
geom_bar() +
labs(x = 'Loại', y = 'Số lượng')

d %>% ggplot(aes(x = depth)) +
labs(title ="Biểu đồ Deth ") +
geom_density(fill = 'green') +
facet_wrap(~cut)

Thể hiện chất lường chiều sâu của kim cương ở từng biểu đồ riêng
biệt
d %>% ggplot(aes(x = depth)) +
geom_density(fill = 'green')

