Bộ dữ liệu DIAMONDS gồm:

Trong bộ dữ liệu này ta có 53940 quan sát với 10 biến tương ứng với 53940 viên kim cương với 10 đặc tính của nó.

-Carat: Trọng lương của viên kim cương.

-Cut: Chất lượng kim cương với 5 mức độ ‘Fair, Good, Very Good, Premium, Ideal’.

-Color: MÀu sắc kim cương với 7 mức độ ‘D<E<F<G<H<I<J’.

-Clarity: Độ tinh khiết viên kim cương với 8 mức độ ‘IF< VVS1< VVS2< VS1< VS2< SI1< SI2< I1’.

-Depth: chiều sâu của viên kim cương.

-Table: bề mặt kim cương

-Price: giá bán kim cương

-X chiều dài

-Y chiều rộng

-Z chiều cao

names(d)
##  [1] "carat"   "cut"     "color"   "clarity" "depth"   "table"   "price"  
##  [8] "x"       "y"       "z"

Phân tích dữ liệu diamonds với dạng biểu đồ

A.Biểu đồ của dữ liệu CUT như sau

library(tidyverse)
library(scales)
 d <- diamonds
 d %>% ggplot(aes(x = cut)) + 
          labs(title= "Biểu đồ thể hiện 5 mức độ của Carat") +
          geom_bar() +
          labs(x = 'Loại', y = 'Số lượng')

  • Trong biểu đồ này ta có thể thấy sự chênh lệch số lượng kim cuong của 5 mức độ là không đồng điều.

-Cao nhất là Ideal với 21551 viên, và loại thấp nhất là Fair với 1610 viên.

-Để dễ dàng quan sát thì ta có thể dựa vào biểu đồ bên dưới.

1.Biểu đồ này cho thấy số lương của từng loại kim cương

d %>%  group_by(cut) %>% summarise(freq= n()) %>%
ggplot(aes(x = cut,y = freq)) +
  geom_col(fill='orange') +
  labs(title="Biểu đồ cụ thể 5 mức độ CUT") +
  geom_text(aes(label =freq),vjust =2, color ='black') +
  labs(x= 'Loại', y='Số lượng')

2.Và chúng ta có thể thấy rõ hơn số lượng kim cương qua biểu đỏ này

d%>% group_by(cut,color) %>% summarise(n=n()) %>%
  ggplot(aes(x = cut,y = n)) +
    geom_col(fill='orange')  +
    facet_wrap(~color) +
    geom_text(aes(label = n),vjust = 2, color = 'black')

    labs(x = 'Loại', y = 'Số lượng')
## $x
## [1] "Loại"
## 
## $y
## [1] "Số lượng"
## 
## attr(,"class")
## [1] "labels"

3.Biểu đồ trên hiển thị số lượng kim cương theo từng loại cắt, được phân loại theo màu sắc của kim cương. Các biểu đồ con tương ứng cho từng màu sắc của kim cương. Đồng thời, các chú thích số lượng kim cương được thêm vào để làm cho biểu đồ trở nên dễ hiểu hơn.

d %>% ggplot(aes(x = cut)) +
  geom_density(fill = 'orange') +
  facet_wrap(~cut)

4.Đây là biểu đồ mật độ của giá kim cương, với mỗi cách cắt khác nhau của kim cương được hiển thị trong một bảng biểu đồ riêng biệt. Điều này giúp so sánh phân phối giá của kim cương giữa các loại cắt khác nhau.

d %>% group_by(cut) %>% summarise(m= mean(carat)) %>%
  ggplot(aes(x = cut,y = m)) +
    geom_col(position = 'dodge') +
    geom_text(aes(label = round(m,2)), vjust = 2, color = 'orange') +
    labs(x ='Loại', y = 'Mean')

d<- diamonds
d<- d %>% group_by(cut, color) %>% summarise( n= n())

5.giá trị trung bình của trọng lượng cut cho mỗi loại cắt của kim cương được thể hiện qua biểu đồ trên. Đồng thời, các chú thích số liệu được thêm vào để làm cho biểu đồ trở nên dễ hiểu hơn.

d %>% ggplot(aes(x = cut, y = n)) +
  geom_col(data = d %>% filter(color == 'H'), fill = 'orange') +
  geom_col(data = d %>% filter(color == 'I'), fill = 'blue')

6. Biểu đồ nay cho ta biết số lượng kim cương theo từng loại cắt và mà sắc của nó. Trên trục x nó thể hiện chất lượng cắt của kim cương, trục y cho biết sô lượng kim cương. Màu ’Blue thể hiện số kim cương có màu I, ’Orange thể hiện số kim cương có màu H.

B.Biểu đồ của dữ liệu CARAT như sau

d <-diamonds
d %>% ggplot(aes(x = carat)) +
  geom_density(fill = 'pink')

d <- diamonds 
d <- d %>% mutate(caratC = cut(carat,5, label = c('rất nhỏ', 'nhỏ','vừa','lớn','rất lớn')))
d %>% ggplot(aes(x = caratC)) +
  labs(title= "Biểu đồ Carat") +
  geom_bar(fill = 'pink')

1.Trọng lượng carat được phân loại thành 5 nhóm : rất nhỏ, nhỏ, vừa, lớn, rất lớn.

d1 <- d%>% mutate (tlcarat = cut(carat,5, label = c("Rất nhẹ", "Nhẹ", "Vừa", "Nặng", "Rất năng")))
d1 %>% group_by(tlcarat) %>% summarise(n = n()) %>%
  ggplot(aes(tlcarat,n)) +
   geom_col(fill= 'pink') +
   labs(title= "Biểu đồ thể hiện carat")+
   geom_text (aes(label = n), vjust=-0.5, color= 'black')+
   labs(x= "Trọng lượng", y= "Số lượng")

2. Khi nhìn vào biểu đồ này ta vẫn thấy có sự chênh lênh nhất định ở từng loai:

-“Rất nhẹ” chiếm đại đa số với số lượng 43781 viên. “Rất nặng” chiếm thiểu số với số lượng là 3 nhỏ hơn rất nhiều so với các cột khác. Điều này cho thấy rằng kim cương càng có trọng lượng lớn thì càng hiếm.

-Để dễ dàng so sáng thì ta có thể nhìn vào số phần trăm của chúng có thể chiếm băng biểu đồ kế tiếp.

d1 <- d%>% mutate (tlcarat = cut(carat,5, label = c("Rất nhẹ", "Nhẹ", "Vừa", "Nặng", "Rất năng")))
d1 %>% group_by(tlcarat) %>% summarise(n = n()) %>%
  ggplot(aes(tlcarat,n)) +
   geom_col(fill= 'pink') +
   labs(title= "Biểu đồ thể hiện carat")+
   geom_text (aes(label = percent(n/length(d$carat))), vjust=-0.5, color= 'black')+
   labs(x= "Trọng lượng", y= "Số lượng")

d%>% ggplot(aes(x = carat)) +
  geom_density(fill = 'pink') +
  facet_wrap(~cut)

3.Mật độ của trọng lượng carat của kim cương. Biểu đồ được phân loại thành các bảng con dựa trên các loại cắt khác nhau của kim cương, giúp so sánh phân phối của trọng lượng carat giữa các loại cắt.

C. Biểu đồ của dữ liệu COLOR

  • Màu sắc của kim cương được phân chia gôm 7 màu: D,E,F,G,H,I,J. Được thể hiện như sau.
d %>%  group_by(color) %>% summarise(freq= n()) %>%
ggplot(aes(x = color,y = freq)) +
  geom_col(fill='brown') +
  labs(title="Biểu đồ cụ thể 5 mức độ Color") +
  geom_text(aes(label =freq),vjust =-0.5, color ='black') +
  labs(x= 'Màu sắt', y='Số lượng')

-Tổng thể ta có thể thấy sự bố của kim cương với 7 màu sắc cũng không quá chênh lệch. Với G chiếm 11292 viên là màu sắc có số lượng đa số, và màu J là loại chiếm số lượng thấp nhất với 2808 viên. Các màu còn lại có sự chệnh lệch xem xem nhau.

d %>% group_by(color) %>% summarise(n=n()) %>% ggplot(aes(color,n)) +
  geom_col(fill= "brown")+
  labs(title ="Biểu đồ thể hiện COLOR") +
  geom_text(aes(label= percent(n/length(d$color))), vjusst= 1, color= "black") +
  labs(x="Màu sắc", y="Số lượng")

D.Biểu đồ của dữ liệu PRICE như sau

d %>% ggplot(aes(x = price)) +
  labs(title=" Biểu đồ Price")+
  geom_histogram(binwidth = 500, fill = 'blue', color = 'red')

d %>% ggplot(aes(x = price, fill = color)) +
  labs(title="Biểu đồ Price")+
  geom_histogram(binwidth = 500)

1.Biểu đồ của giá kim cương, với mỗi khoảng giá được phân loại dựa trên màu sắc của kim cương. Biểu diễn số lượng kim cương có giá trong một khoảng giá cố định là 500 đơn vị.

d %>% ggplot(aes(x = price, fill = cut)) +
  labs(title=" Biểu đồ Price") +
  geom_density()

2.Mật độ của giá kim cương, với các plot mật độ được phân biệt bởi loại cắt của kim cương. Điều này giúp nhìn nhận sự phân phối của giá kim cương theo từng loại cắt khác nhau.

d %>% ggplot(aes(x = price)) +
  geom_density(fill = 'blue')

d %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(x = '', y = n,fill = color)) +
  labs(title= "Biểu đồ Price") +
    geom_col() +
    coord_polar('y')

3.Số lượng mẫu kim cương theo màu sắc. Điều này cho phép so sánh tỉ lệ phân phối của mẫu kim cương theo màu sắc một cách trực quan.

d%>% ggplot(aes(x = price)) +
  labs(title=" Biểu đồ Price H&I") +
  geom_histogram(data = d %>% filter(color == 'H'), binwidth = 500, fill = 'purple') +
  geom_histogram(data = d %>% filter(color == 'I'), binwidth = 500, fill = 'blue')

4. Biểu đồ giá kim cương, với biểu đồ phân loại dựa trên màu sắc của kim cương. Mỗi thanh biểu diễn số lượng kim cương có giá trong một khoảng giá cố định, và có hai histogram riêng biệt cho màu H và I với màu sắc tương ứng là blue và green.

d %>% ggplot(aes(x = price)) +
  labs(title="Biểu đồ Price")+
  geom_histogram (data = d %>% filter(color == 'F'), fill = 'purple') +
  geom_histogram(data = d %>% filter(color == 'H'), fill = 'blue')

d %>% ggplot(aes(x = price)) +
  geom_density(fill = 'blue') +
  facet_wrap(~cut)

5.biểu đồ mật độ của giá kim cương, với mỗi nhóm biểu diễn dữ liệu được phân loại dựa trên loại cắt của kim cương. Mỗi nhóm có một mật độ riêng biệt của nó, và phân loại được thực hiện để so sánh phân phối của giá kim cương giữa các loại cắt.

d %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(x = '', y = n,fill = color)) +
    geom_col() +
    geom_text(aes(label = n),position = position_stack(vjust = 1))

E. Biểu đồ thể hiện CLARITY

d %>%  group_by(clarity) %>% summarise(freq= n()) %>%
ggplot(aes(x = clarity,y = freq)) +
  geom_col(fill='purple') +
  labs(title="Biểu đồ 8 mức độ tinh khiết ") +
  geom_text(aes(label =freq),vjust = -0.5, color ='black') +
  labs(x= 'Loại', y='Số lượng')

1.Với 8 mức độ tinh khiêt của kim cương thì ta có thể thấy SI1 chiếm số lượng nhiều nhất, tiếp theo đó là VS2. Mức độ tinh khiết thấp nhất là *I1**. Và dưới đây là biểu đồ thể hiện số phần trằm mà từng mức độ tinh khiết có thể chiếm được.

d %>% group_by(clarity) %>% summarise(n = n()) %>%
  ggplot(aes(clarity,n)) +
   geom_col(fill= 'purple') +
   labs(title= "Biểu đồ thể hiện mức độ tinh khiết")+
   geom_text (aes(label = percent(n/length(d$clarity))), vjust=-0.3, color= 'black')+
   labs(x= "Loại ", y= "Số lượng")

d %>% group_by(color,clarity) %>% summarise(n=n()) %>%
  ggplot(aes(x = clarity,y = n)) +
    geom_col(fill = 'purple') +
    facet_wrap(~color) +
    geom_text(aes(label = n),vjust = 0, color = 'black') +
    labs(x = 'Mức độ tinh khiết', y = 'Số lượng')

Biểu đồ cho thấy tần suất của các nhóm mức độ tinh khiết trong từng màu sắc. Biểu đồ giúp chúng ta hiểu được mối quan hệ giữa mức độ tinh khiết và màu sắc của kim cương trong tập dữ liệu.

d %>% ggplot(aes(x = clarity)) +
  geom_density(fill = 'purple') +
  facet_wrap(~cut)

2.Đây là biểu đồ mật độ của tinh khiết kim cương, với mỗi cách cắt khác nhau của kim cương được hiển thị trong một bảng biểu đồ riêng biệt. Điều này giúp so sánh độ tinh khiết của kim cương giữa các loại cắt khác nhau.

d %>% ggplot(aes(x = clarity)) +
  labs(title= "Biểu đồ Clarity")+
  geom_density(fill = 'purple')

F. Biểu đồ thể hiện DEPTH

d %>% ggplot(aes(x = depth)) + 
          labs(title= "Biểu đồ thể hiện độ sâu ") +
          geom_bar() +
          labs(x = 'Loại', y = 'Số lượng')

d %>% ggplot(aes(x = depth)) +
  labs(title ="Biểu đồ Deth ") +
  geom_density(fill = 'green') +
  facet_wrap(~cut)

Thể hiện chất lường chiều sâu của kim cương ở từng biểu đồ riêng biệt

d %>% ggplot(aes(x = depth)) +
  geom_density(fill = 'green')

