Giới thiệu nội
dung
Ta sẽ dùng package “ggplot2” để trực quan hoá dữ liệu của bộ dataset
“diamonds”. Ta dùng barchart để biểu diễn các dữ liệu.
Package
“ggplot2”
Package này sẽ giúp ta tạo ra những biểu đồ có chất lượng cao và có
thể điều chỉnh theo ý của bản thân. Câu lệnh tạo ra biểu đồ trong
“ggplot2” có các thành phần cơ bản như sau:
- Hàm ggplot() để nhập dữ liệu và tạo khung cho biểu đồ
- Hàm aes() để ánh xạ các biến vào trong biểu đồ
- Để tạo ra được 1 biểu đồ thì ta cần các layer biểu diễn dữ liệu. Và
các layer có tên hàm bắt đầu bằng “geom_”.
Dữ liệu
diamond
Ta sẽ tạo bar chart từ bộ dữ liệu “diamonds”. Và sau đây là 1 số
thông tin về bộ dữ liệu “diamonds”.
Thông
tin
Cấu trúc của bộ dữ
liệu
library(tidyverse)
t <- diamonds
str(t)
## tibble [53,940 × 10] (S3: tbl_df/tbl/data.frame)
## $ carat : num [1:53940] 0.23 0.21 0.23 0.29 0.31 0.24 0.24 0.26 0.22 0.23 ...
## $ cut : Ord.factor w/ 5 levels "Fair"<"Good"<..: 5 4 2 4 2 3 3 3 1 3 ...
## $ color : Ord.factor w/ 7 levels "D"<"E"<"F"<"G"<..: 2 2 2 6 7 7 6 5 2 5 ...
## $ clarity: Ord.factor w/ 8 levels "I1"<"SI2"<"SI1"<..: 2 3 5 4 2 6 7 3 4 5 ...
## $ depth : num [1:53940] 61.5 59.8 56.9 62.4 63.3 62.8 62.3 61.9 65.1 59.4 ...
## $ table : num [1:53940] 55 61 65 58 58 57 57 55 61 61 ...
## $ price : int [1:53940] 326 326 327 334 335 336 336 337 337 338 ...
## $ x : num [1:53940] 3.95 3.89 4.05 4.2 4.34 3.94 3.95 4.07 3.87 4 ...
## $ y : num [1:53940] 3.98 3.84 4.07 4.23 4.35 3.96 3.98 4.11 3.78 4.05 ...
## $ z : num [1:53940] 2.43 2.31 2.31 2.63 2.75 2.48 2.47 2.53 2.49 2.39 ...
Giải thích kết
quả
tibble [53,940 × 10]: Dữ liệu có cấu trúc là dataframe. Bộ dữ
liệu có 53940 quan sát và 10 biến.
$ carat: Tên biến là “carat”. Đây biến về khối lượng của viên kim
cương với đơn vị carat.
$ cut: Tên biến là “cut”. Đây là biến thể hiện chất lượng của
viên kim cương sau khi cắt
$ color: Tên biến là “color”. Đây là biến thể hiện màu sắc của
viên kim cương
$ clarity: Tên biến là “clarity”. Đây là biến thể hiện độ trong
suố của viên kim cương
$ depth: Tên biến là “depth”. Đây là biến về chiều cao của viên
kim cương
$ table: Tên biến là “table”. Đây là biến về diện tích của mặt
phẳng trên đỉnh viên kim cương
$ price: Tên biến là “price”. Đây là biến về giá của viên kim
cương
$ x: Tên biến là “x”. Đây là biến về độ dài đường kính lớn nhất
của viên kim cương.
$ y: Tên biến là “y”. Đây là biến về độ dài đường kính nhỏ nhất
của viên kim cương
$ z: Tên biến là “z”. Đây là biến về độ sâu của viên kim
cương
Biểu
đồ
Biểu đồ tần số theo
biến cut
Biểu đồ
t %>%ggplot(aes(x= cut)) +
geom_bar() +
theme_bw() +
labs(x="Chất lượng",y="Số lượng",title = ("Biếu đồ số lượng kim cương theo chất lượng" ))

Giải thích
Nhìn vào biểu đồ ta thấy được cột “Ideal” có số lượng cao nhất và cột
“Fair” là cột có số lượng ít nhất. Số lượng chênh lệch của cột “Ideal”
và “Fair” chênh lệch lớn. Số lượng giữa cột “Very Good” và cột “Premium”
khá nhỏ.
Kết luận: Nếu chất lượng càng tăng thì số lượng các viên kim
cương tăng. Chứng tỏ kỹ thuật cắt của thợ đang rất tốt.
Biểu đồ tần số theo
biến color
Biểu đồ
t %>% ggplot(aes(x = color)) +
geom_bar() +
theme_bw() +
labs(x="Màu",y="Số lượng", title = "Biểu đồ số lượng kim cương theo màu sắc")

Giải thích
Ta thấy được cột màu “G” có số lượng nhiều nhất và cột màu “J” có số
lượng ít nhất. Chênh lệch số lượng giữa cột màu “G” và cột màu “J” khá
lớn. Cột màu “E”, cột màu “F” và cột màu “H” chênh lệch số lượng không
quá nhiều nhưng cột màu “H” lệch nhiều hơn so với 2 cột kia.
Kết luận: Có 4 màu phổ thông đó là “E”,“F”,“G”,“H” trong đó
màu phổ thông nhất là màu “G”. Màu hiếm nhất là màu “J”
Biểu đồ tần số theo
biến clarity
Biểu đồ
t %>% ggplot(aes(x = clarity)) +
geom_bar() +
theme_bw() +
labs(x="Màu",y="Số lượng", title = "Biểu đồ số lượng kim cương theo độ trong suốt")

Giải thích
Ta thấy cột “I2”(kim cương có lẫn nhiều tạp chất) có số lượng ít nhất
và cột “SI1”(kim cương lẫn ít tạp chất) có số lượng lớn nhất. Ta thấy
được cột “SI2” và cột “VS2” có số lượng chênh lệch nhau khá nhỏ. Cột
“SI2” và cột”VS1” chênh lệch cũng khá nhỏ.
Kết luận: Số lượng kim cương sẽ tăng lên từ kim cương có
nhiều tạp chất đến kim cương có ít tạp chất. Bắt đầu giảm dần đến kim
cương không có lẫn tạp chất nào.
Biểu đồ số lượng kim
cương theo chất lượng và màu sắc
Biểu đồ
t %>% group_by(cut,color) %>% summarise(n=n()) %>%
ggplot(aes(x=cut,y=n,fill = color))+
geom_col(position = "dodge") +
theme_bw()+
labs(x="Chất lượng",y="Số lượng",title = "Biểu đồ số lượng kim cương theo chất lượng và màu sắc")

Giải thích
Ta thấy được ở mọi chất lượng thì kim cương màu J luôn có số lượng ít
nhất. Ở chất lượng Fair thì các viên kim cương màu F,G,H có số lượng
tương đồng. Ở chất lượng Good thì màu E có số lượng nhiều nhất. Ở chất
lượng Very Good thì màu E có số lượng nhiều nhất. Ở chất lượng Premium
và Ideal thì màu G có số lượng cao nhất và vượt trội hơn so với các màu
khác.
Biểu đồ số lượng kim
cương theo độ trong suốt và màu sắc
Biểu đồ
t %>% group_by(clarity,color) %>% summarise(n=n()) %>%
ggplot(aes(x=clarity,y=n,fill=color))+
geom_col(position = "dodge")+
theme_bw()+
labs(x="Độ trong suốt",y="Số lượng",title = "Biểu đồ số lượng kim cương theo độ trong suốt và màu sắc")

Giải thích
Ta thấy được ở mỗi độ trong suốt của kim cương thì màu J luôn thấp
nhất. Với độ tinh khiết là SI2,SI1,VS2 thì màu E có số lượng nhiều nhất.
Với độ tinh khiết VS1, VVS1 và IF thì màu G có số lượng nhiều nhất và
vượt trội hơn so với các màu khác.
Biểu đồ về khối lượng
trung bình của kim cương theo chất lượng
Biểu đồ
t %>% group_by(cut) %>% summarise(m=mean(carat)) %>%
ggplot(aes(x=cut,y=m))+
geom_col(position = "dodge")+
geom_text(aes(label=round(m,2),vjust=2,color="red"))+
theme_bw()+
labs(x="Chất lượng ",y="Khối lượng trung bình",title = "Biểu đồ khối lượng trung bình kim cương theo chất lượng")

Giải thích
Ta thấy được ở chất lượng Fair thì viên kim cương có khối lượng trung
bình cao nhất và nhỏ nhất là ở chất lượng Ideal. Ta thấy được khối lượng
trung bình ở chất lượng Good, Very Good, Premium chênh lệch nhau khá
nhỏ.
Kết luận: Ta thấy được những viên kim cương có chất lượng cắt
càng tốt thì khối lượng càng nhỏ.
Biểu đồ về giá trung
bình của kim cương theo chất lượng
Biểu đồ
t %>% group_by(cut) %>% summarise(m=mean(price)) %>%
ggplot(aes(x=cut,y=m))+
geom_col(position = "dodge",fill="green")+
theme_bw()+
geom_text(aes(label=round(m,2)),vjust=2,color="red")+
labs(x="Chất lượng",y="Giá trung bình",title = "Biểu đồ giá trung bình theo chất lượng")

Giải thích
Ta thấy được viên kim cương có chất lượng Premium có giá trung bình
cao nhất và nhỏ nhất là viên kim cương có chất lượng Ideal.Giá trung
bình ở chất lượng Good và Very Good có gần bằng với nhau.
Kết luận: Giá của viên kim cương không phụ thuộc nhiều vào
chất lượng cắt của viên kim cương. Như ta thấy viên kim cương ở chất
lượng Fair có giá lớn hơn viên kim cương ở chất lượng
Ideal.
Biểu đồ độ lệch chuẩn
của giá kim cương theo chất lượng
Biểu đồ
t %>% group_by(cut) %>% summarise(sd=sd(price)) %>%
ggplot(aes(x=cut,y=sd)) +
geom_col(position = "dodge")+
theme_bw()+
geom_text(aes(label=round(sd,2)),vjust=2,color="white")+
labs(x="Chất lượng",y="Độ biến động giá",title = "Biểu đồ độ biến động của giá theo chất lượng")

Giải thích
Ta thấy được độ biến động giá của viên kim cương có chất lượng
Premium là cao nhất và thấp nhất là Fair. Những viên kim cương có chất
lượng Fair và Good thì độ biến động giá gần bằng với nhau.
Kết luận: Khi chất lượng tăng thì độ biến độ giá cũng tăng
theo nhưng những viên kim cương có chất lượng Ideal thì ngoại
lệ.
Biểu đồ giá trung
bình của kim cương theo màu sắc
Biểu đồ
t %>% group_by(color) %>% summarise(m=mean(price)) %>%
ggplot(aes(x=color,y=m))+
geom_col(position = "dodge")+
geom_text(aes(label=round(m)),vjust=2,color="white")+
labs(x="Màu sắc",y="Giá trung bình",title = "Biểu đồ giá trung bình của kim cương theo màu sắc")

Giải thích
Ta thấy được những viên kim cương có màu J thì có giá trung bình cao
nhất và thấp nhất là màu E.
Kết luận: Màu sắc của viên kim cương có ảnh hưởng mạnh tới
giá của kim cương ## Biểu dồ giá trung bình của kim cương theo
độ trong suốt
Biểu đồ
t %>% group_by(clarity) %>% summarise(m=mean(price)) %>%
ggplot(aes(x=clarity,y=m))+
geom_col(position = "dodge")+
geom_text(aes(label=round(m,2)),vjust=2,color="white")+
labs(x="Độ trong suốt",y="Giá trung bình",title = "Biểu đồ giá trung bình theo độ trong suốt")

Giải thích
Viên kim cương có độ trong suốt SI2 có giá cao nhất và nhỏ nhất là
VVS1. Các viên kim cương có độ trong SI1,VS2,VS1 thì có giá gần bằng
nhau.
Kết luận: Độ trong suốt của kim cương có ảnh hưởng ít tới giá
của kim cương
Biểu đồ tần suất của
kim cương theo màu sắc
Biểu đồ
t %>% group_by(color) %>% summarise(n=n()) %>%
ggplot(aes(x=color,y=n)) +
geom_col(position = "dodge")+
theme_bw()+
geom_text(aes(label=scales::percent(n/length(t$carat))),vjust=2,color="white")+
labs(x="Chất lượng")

Giải thích
Ta thấy được những viên kim cương màu G có tỷ lệ xuất hiện trong tự
nhiên cao nhất và thấp nhất là viên kim cương có màu J. Ta thấy được tỷ
xuất hiện của màu E và F gần như nhau.
Kết luận: Vậy việc khai thác được viên kim cương có màu G khá
cao và khai thác được viên kim cương màu J khá thấp.
Biểu đồ giá trung
bình kim cương theo màu sắc và chất lượng
Biểu đồ
t %>% group_by(cut,color) %>% summarise(m=mean(price)) %>%
ggplot(aes(x=cut,y=m,fill=color)) +
geom_col(position = "dodge")+
theme_bw()+
labs(x="Chất lượng",y="Giá trung bình",title = "Biểu đồ giá trung bình theo màu sắc và chất lượng")

Giải thích
Ta thấy được những viên kim cương có chất lượng Fair, Good, Very Good
thì màu H có giá cao nhất và những viên kim cương có chất lượng Premium,
Ideal thì màu J có giá cao nhất.
Biểu đồ Số lượng
theo mức giá và theo màu sắc
Biểu đồ
t %>% mutate(pl=cut(price,3,labels = c("Vừa","Cao","Rất cao"))) %>%
group_by(pl,color) %>% summarise(n=n()) %>%
ggplot(aes(x=pl,y=n,fill=color))+
geom_col(position = "dodge")+
theme_bw()+
labs(x="Mức giá",y="Số lượng",title = "Biểu đồ số lượng theo mức giá và màu sắc")

Giải thích
Ở mọi mức giá thì màu G có số lượng nhiều nhất và màu J có số lượng
ít nhất.
Biểu đồ khối lượng
trung bình theo màu sắc
t %>% group_by(color) %>% summarise(m=mean(carat)) %>%
ggplot(aes(x=color,y=m))+
geom_col(position = "dodge")+
geom_text(aes(label=round(m,2)),vjust=2,color="white")+
labs(x="Màu sắc",y="Khối lượng trung bình")+
theme_bw()

Giải thích
Ta thấy được màu J là màu có khối lượng lớn nhất và màu D, E là màu
có khối lượng nhỏ nhất.
Kết luận: Nguyên nhân kim cương màu J có giá cao nhất là do
màu J có khối lượng nặng hơn những màu khác.
Biểu đồ khối lượng
trung bình theo mức giá
t %>% mutate(pl=cut(carat,3,labels = c("Vừa ","Cao","Rất cao"))) %>% group_by(pl) %>%
summarise(m=mean(carat)) %>%
ggplot(aes(x=pl,y=m))+
geom_col(position = "dodge")+
geom_text(aes(label=round(m,2)),vjust=2,color="white")+
labs(x="Mức giá",y="Khối lượng trung bình",title = "Biểu đồ khối lượng trung bình theo mức giá")

Giải thích
Ta thấy được ở mức giá rất cao thì khối lượng của viên kim cương lớn
nhất và ở mức giá vừa thì viên kim cương có khối lượng nhỏ nhất.
Kết luận: Vậy giá của những viên kim cương sẽ phụ thuộc vào
khối lượng
Biểu đồ độ lệch
chuẩn của khối lượng theo màu sắc
Biểu đồ
t %>% group_by(color) %>% summarise(sd=sd(carat)) %>%
ggplot(aes(x=color,y=sd))+
geom_col(position = "dodge")+
geom_text(aes(label=round(sd,2)),vjust=2,color="white")+
labs(x="Màu sắc",y="Độ biến động khối lượng",title = "Biểu đồ độ biến động khối lượng theo màu sắc")+
theme_bw()

Giải thích
Ta thấy được biến động về khối lượng của những viên kim cương màu J
là lớn nhất, viên kim cương màu D thì có độ biến động về khối lượng nhỏ
nhất. Vì vậy những viên kim cương màu J có khối lượng nhiều hơn mọi màu
khác.
Biểu đồ độ lệch theo
mức giá
Biểu đồ
t %>% mutate(pl=cut(carat,3,labels = c("Vừa ","Cao","Rất cao"))) %>% group_by(pl) %>%
summarise(sd=sd(carat)) %>%
ggplot(aes(x=pl,y=sd))+
geom_col(position = "dodge")+
geom_text(aes(label=round(sd,2)),vjust=2,color="white")+
labs(x="Mức giá",y="Độ biến động khối lượng",title = "Biểu đồ biến động khối lượng theo mức giá")

##Giải thích Ta thấy được những viên kim cương có mức rất cao có độ
biến động lớn nhất và những viên kim cương có mức giá cao có độ biến
động nhỏ nhất.
Biểu đồ trung vị
khối lượng kim cương theo màu sắc
Biểu đồ
t %>% group_by(color) %>% summarise(me=median(carat)) %>%
ggplot(aes(x=color,y=me))+
geom_col(position = "dodge")+
geom_text(aes(label=round(me,2)),vjust=2,color="white")+
labs(x="Màu sắc",y="Giá trị trung vị",title = "Biểu đồ trung vị khối lượng theo màu sắc")+
theme_bw()

Giải thích
Những viên kim cương có màu J thì có giá trị trung vị lớn nhất và nhỏ
nhất là 2 màu D,E. Hai màu F,G có trung bị bằng với nhau.
Kết Luận: Có tới 50% viên kim cương màu J lớn hơn 1.11 carat
vì vậy giá của những viên kim cương màu J rất cao
Biểu đồ trung vị
khối lượng kim cương theo mức giá
Biểu đồ
t %>% mutate(pl=cut(carat,3,labels = c("Vừa ","Cao","Rất cao"))) %>% group_by(pl) %>%
summarise(me=median(carat)) %>%
ggplot(aes(x=pl,y=me))+
geom_col(position = "dodge")+
geom_text(aes(label=round(me,2)),vjust=2,color="white")+
labs(x="Mức giá",y="Giá trị trung vị",title = "Biểu đồ trung vị khối lượng kim cương theo mức giá")

Giải thích
Những viên kim cương có mức giá cao thì có giá trị trung vị cao nhất
và những viên kim cương có mức giá vừa thì có trung vị thấp nhất.
Kết luận: Ta biết được có tới 50% viên kim cương có mức giá
cao có khối lượng hơn 4 carat.
Biểu đồ trung vị của
giá theo màu sắc
Biểu đồ
t %>% group_by(color) %>% summarise(me=median(price)) %>%
ggplot(aes(x=color,y=me))+
geom_col(position = "dodge")+
geom_text(aes(label=round(me,2)),vjust=2,color="white")+
labs(x="Màu sắc",y="Giá trị trung vị",title = "Biểu đồ trung vị của giá theo màu sắc")+
theme_bw()

Giải thích
Những viên kim cương màu J có giá trị trung vị cao nhất và màu E có
giá trị trung vị thấp nhất.
Kết luận: Ta biết được có tới 50% viên kim cương màu J có giá
hơn 4234
Biểu đồ trung vị của
giá theo chất lượng và màu sắc
Biểu đồ
t %>% group_by(cut,color) %>% summarise(me=median(price)) %>%
ggplot(aes(x=cut,y=me,fill=color))+
geom_col(position = "dodge")+
labs(x="Màu sắc",y="Giá trị trung vị",title = "Biểu đồ trung vị của giá theo màu sắc")+
theme_bw()

Giải thích
Ta thấy được ở chất lượng Fair thì màu H có giá trị trung vị cao
nhất. Ở các chất lượng thì màu J có giá trị trung vị cao nhất.
Biểu đồ độ lệch
chuẩn của giá theo chất lượng mà màu sắc
Biểu đồ
t %>% group_by(cut,color) %>% summarise(sd=sd(price)) %>%
ggplot(aes(x=cut,y=sd,fill=color))+
geom_col(position = "dodge")+
labs(x="Màu sắc",y="Độ biến động về giá",title = "Biểu đồ độ biến động về giá theo chất lượng và màu sắc")+
theme_bw()

Giải thích
Ở chất lượng Fair thì viên kim cương có màu J có độ biến động cao
nhất. Ở các chất lượng khác thì màu I có độ biến động cao nhất.
Biểu độ độ lệch
chuẩn của giá theo độ trong suốt và màu sắc
t %>% group_by(clarity,color) %>% summarise(sd=sd(price)) %>%
ggplot(aes(x=clarity,y=sd,fill=color))+
geom_col(position = "dodge")+
labs(x="Độ trong suốt",y="Độ biến động về giá",title = "Biểu đồ độ biến động về giá theo độ trong suốt và màu sắc")+
theme_bw()

Giải thích
Ở độ trong suốt I1,VS1,VVS2,VVS! thì màu J có độ biến động giá cao
nhất. Ở độ trong suố SI2,SI1,VS2 thì màu I có độ biến động cao nhất. Ở
độ trong suốt IF thì màu D có độ biến động cao nhất
Biểu đồ chiều cao
trung bình của kim cương theo mức giá
t %>% mutate(pl=cut(carat,3,labels = c("Vừa ","Cao","Rất cao"))) %>% group_by(pl) %>%
summarise(m=mean(depth)) %>%
ggplot(aes(x=pl,y=m))+
geom_col(position = "dodge")+
geom_text(aes(label=round(m,2)),vjust=2,color="white")+
labs(x="Mức giá",y="Chiều cao trung bình",title = "Biểu đồ chiều cao trung bình kim cương theo mức giá")+
theme_bw()

Giải thích
Ta thấy được ở các mức giá thì chiều cao trung bình gần như bằng
nhau.
Kết luận: Vậy chiều cao của viên kim cương sẽ không ảnh hưởng
về giá của kim cương ## Biểu đồ chiều cao trung bình của kim
cương theo chất lượng
Biểu đồ
t %>% group_by(cut) %>% summarise(m=mean(depth)) %>%
ggplot(aes(x=cut,y=m))+
geom_col(position = "dodge")+
geom_text(aes(label=round(m,2)),vjust=2,color="white")+
labs(x="Chất lượng",y="Chiều cao trung bình",title = "Biểu đồ chiều cao trung bình của kim cương theo chất lượng")

Giải thích
Ta thấy được ở các chất lượng khác nhau nhưng chiều cao vẫn có giá
trị gần bằng với nhau
Kết luận: Vậy chiều cao của những viên kim cương không chênh
lệch nhau quá nhiều
Biểu đồ trung bình
đường kính lớn nhất theo mức giá
Biểu đồ
t %>% mutate(pl=cut(price,3,labels = c("Vừa","Cao","Rất cao"))) %>% group_by(pl) %>%
summarise(m=mean(x)) %>%
ggplot(aes(x=pl,y=m)) +
geom_col(position = "dodge")+
geom_text(aes(label=round(m,2)),vjust=2,color="white")+
theme_bw()+
labs(x="Mức giá",y="Đường kính trung bình",title = "Biểu đồ đường kính lớn nhất trung bình theo mức giá")

Giải thích
Ta thấy được những viên kim cương ở mức giá rất cao có đường kính to
nhất và những viên kim cương ở mức giá vừa có đường kính nhỏ nhất.
Kết luận: Vậy đường kinh lớn nhất của viên kim cương có ảnh
hưởng tới giá của viên kim cương
Biểu đồ đường kính
nhỏ nhất theo mức giá
Biểu đồ
t %>% mutate(pl=cut(price,3,labels = c("Vừa","Cao","Rất cao"))) %>% group_by(pl) %>%
summarise(m=mean(y)) %>%
ggplot(aes(x=pl,y=m)) +
geom_col(position = "dodge")+
geom_text(aes(label=round(m,2)),vjust=2,color="white")+
theme_bw()+
labs(x="Mức giá",y="Đường kính trung bình",title = "Biểu đồ đường kính nhỏ nhất trung bình theo mức giá")

Giải thích
Ta thấy được những viên kim cương ở mức giá rất cao có đường kính to
nhất và những viên kim cương ở mức giá vừa có đường kính nhỏ nhất.
Kết luận: Vậy đường kinh nhỏ nhất của viên kim cương có ảnh
hưởng tới giá của viên kim cương
Biểu đồ chiều sâu
trung bình theo mức giá
t %>% mutate(pl=cut(price,3,labels = c("Vừa","Cao","Rất cao"))) %>% group_by(pl) %>%
summarise(m=mean(z)) %>%
ggplot(aes(x=pl,y=m)) +
geom_col(position = "dodge")+
geom_text(aes(label=round(m,2)),vjust=2,color="white")+
theme_bw()+
labs(x="Mức giá",y="Chiều sâu trung bình",title = "Biểu đồ chiều sâu trung bình theo mức giá")

###Giải thích Ta thấy được những viên kim cương ở mức giá rất cao thì
có chiều sâu cao nhất và những viên kim cương có mức giá vừa thì có
chiều sâu thấp nhất.
Kết luận: Vậy chiều sâu của viên kim cương có ảnh hưởng tới
giá của viên kim cương
Biểu đồ đường kính
lớn nhất trung bình theo chất lượng
Biểu đồ
t %>% group_by(cut) %>% summarise(m=mean(x)) %>%
ggplot(aes(x=cut,y=m))+
geom_col(position = "dodge")+
geom_text(aes(label=round(m,2)),vjust=2,color="white")+
labs(x="Chất lượng",y="Đường kính trung bình",title = "Biểu đồ đường kính lớn nhất trung bình của kim cương theo chất lượng")

Giải thích
Ta thấy được ở mọi chất lượng thì đường kính của viên kim cương không
chênh lệch quá nhiều với nhau.
Kết luận: Vậy những viên kim cương chất lượng Fair thì có thể
có giá cao hơn những viên kim cương có chất lượng tốt hơn
khác
Biểu đồ đường kính
nhỏ nhất trung bình theo chất lượng
Biểu đồ
t %>% group_by(cut) %>% summarise(m=mean(y)) %>%
ggplot(aes(x=cut,y=m))+
geom_col(position = "dodge")+
geom_text(aes(label=round(m,2)),vjust=2,color="white")+
labs(x="Chất lượng",y="Đường kính trung bình",title = "Biểu đồ đường kính nhỏ nhất trung bình của kim cương theo chất lượng")

Giải thích
Ta thấy được đường kính của những viên kim cương ở những chất lượng
khác nhau thì không chênh lệch quá nhiều. Nhưng ta thấy rằng những viên
kim cương chất lượng Fair có đường kính lớn hơn những viên kim cương có
chất lượng Ideal. Điều này dẫn tới những viên kim cương chất lượng Fair
có giá cao hơn những viên kim cương chất lượng Ideal.
