Giới thiệu bộ dữ liệu diamonds

-Bộ dữ liệu có 10 biến và 53940 quan sát

library(tidyverse)
library(scales)
T <- diamonds
names(T)
##  [1] "carat"   "cut"     "color"   "clarity" "depth"   "table"   "price"  
##  [8] "x"       "y"       "z"

Phân tích biểu đồ của bộ dữ liệu diamonds

Biểu đồ với dữ liệu cut

T %>% ggplot(aes(x = cut)) +
    geom_bar() +
    labs(x = 'Loại', y = 'Số lượng')

Biểu đồ trên biểu diễn số lượng của 5 loại mặt cắt của kim cương từ loại thấp đến cao, như:

-Loại Fair có khoảng 2000 viên

-Loại Good có khoảng 5000 viên

-Loại Very Good có khoảng 12000 viên

-Loại Premium có khoảng 13000 viên

-Loại Ideal có khoảng hơn 20000 viên

T %>% ggplot(aes(x = cut)) +
    geom_bar() +
    labs(x = 'Loại', y = 'Số lượng') +
    coord_flip()

Đây cũng là một biểu đồ biểu diễn tương tự biểu đồ số 1 nhưng khác là nó được trình bày theo chiều ngang

T %>% group_by(cut) %>% summarise(n = n()) %>%
  ggplot(aes(cut,n)) +
    geom_col(fill='lightpink') +
    geom_text(aes(label = n),vjust = 2, color = 'white') +
    labs(x = 'Loại', y = 'Số lượng')

Biểu đồ này đã được thêm vào số liệu cụ thể cùng với màu sắc để dễ dàng phân biệt

Biều đồ phân phối của carat

T %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(color,n)) +
    geom_col(fill='lightblue') +
    geom_text(aes(label = n),vjust = 2, color = 'white') +
    labs(x = 'Loại Màu Sắc', y = 'Số lượng')

Biểu đồ trên biểu diễn số lượng của 7 loại màu sắc của kim cương từ loại ‘D’ đến ‘J’, như:

-Màu D có khoảng 6775 viên

-Màu E có khoảng 9797 viên

-Màu F có khoảng 9542 viên

-Màu G có khoảng 11292 viên

-Màu H có khoảng 8304 viên

-Màu I có khoảng 5422 viên

-Màu J có khoảng 2808 viên

Ta thấy được Màu G chiếm tỷ lệ nhiều trong biểu đồ trên

Biểu đồ số lượng kim cương theo loại clarity

T %>% group_by(clarity) %>% summarise(n = n()) %>%
  ggplot(aes(clarity,n)) +
    geom_col(fill='lightblue') +
    geom_text(aes(label = n),vjust = 2, color = 'white') +
    labs(x = 'Độ Trong Suốt', y = 'Số lượng')

Biểu đồ thể hiện số lượng kim cương được xếp theo độ trong suốt từ “I1” tới “IF”

Biểu đồ tỷ lệ phần trăm số lượng kim cương theo loại cut:

T %>% group_by(cut) %>% summarise(n = n()) %>%
  ggplot(aes(cut,n)) +
    geom_col(fill='lightgrey') +
      geom_text(aes(label = percent(n/length(T$carat))),vjust = 2, color = 'black') +
    labs(x = 'Loại', y = 'Số lượng')

Biểu đồ này biểu diễn tỷ lệ phần trăm số lượng kim cương theo chất lượng cắt

Biểu đồ số lượng kim cương theo loại color với chất lượng cắt:

T %>% group_by(cut,color) %>% summarise(n=n()) %>%
  ggplot(aes(x = cut,y = n)) +
    geom_col(position = 'dodge') +
    facet_wrap(~color) +
    labs(x = 'Loại', y = 'Số lượng')

Do có 7 loại màu của kim cương nên chúng ta có 7 biểu đồ nhỏ được xếp tương ứng và mỗi biểu đồ thể hiện số lượng và theo từng chất lượng cắt từ Fair tới Ideal

Biểu đồ số lượng kim cương theo loại color với chất lượng cắt:

T %>% group_by(cut,color) %>% summarise(n=n()) %>%
  ggplot(aes(x = cut,y = n)) +
    geom_col(position = 'dodge') +
    facet_wrap(~color) +
    geom_text(aes(label = n),vjust = 2, color = 'blue') +
    labs(x = 'Loại', y = 'Số lượng')

Do có 7 loại màu của kim cương nên chúng ta có 7 biểu đồ nhỏ được xếp tương ứng và mỗi biểu đồ thể hiện số lượng và theo từng chất lượng cắt từ Fair tới Ideal nhưng nó có thêm số trên mỗi cột trong mỗi biểu đồ

biểu đồ cột hiển thị giá trị trung bình của biến carat theo từng nhóm cut.

T %>% group_by(cut) %>% summarise(m= mean(carat)) %>%
  ggplot(aes(x = cut,y = m)) +
    geom_col(position = 'dodge') +
    geom_text(aes(label = round(m,2)), vjust = 2, color = 'white') +
    labs(x = 'Cut', y = 'Carat')

Biểu đồ thể hiện giá trị carat trung bình của kim cương được xếp theo từng loại chất lượng mặt cắt

Biểu đồ thể hiện giá trung bình của kim cương theo từng màu và chất lượng cắt

T %>% group_by(cut,color) %>% summarise(m = mean(price)) %>%
  ggplot(aes(x = cut,y = m)) +
    geom_col(position = 'dodge') +
    facet_wrap(~color) +
    geom_text(aes(label = round(m))) +
    labs(x = 'Cut', y = 'Số lượng')

Biểu đồ biểu diễn giá trị trung bình của kim cương theo từng chất lượng cắt và sắp theo từng màu từ D tới J

Biểu đồ thể hiện tổng trọng lượng kim cương theo màu sắc:

ggplot(T, aes(x = color, y = carat)) +
  geom_bar(stat = "summary", fun = "sum")

Biểu đồ cột hiển thị tổng của biến carat theo từng giá trị của biến color. Mỗi cột trong biểu đồ đại diện cho một giá trị của biến color, và chiều cao của cột biểu thị giá trị tổng tương ứng của biến carat.

Biểu đồ giá trị trung bình (mean) của biến price theo từng giá trị của biến cut

ggplot(T, aes(x = cut, y = price)) +
  geom_bar(stat = "summary", fun = "mean")

Biểu đồ cột hiển thị giá trị trung bình của biến price theo từng giá trị của biến cut. Mỗi cột trong biểu đồ biểu thị một giá trị của biến cut, và chiều cao của cột biểu thị giá trị trung bình tương ứng của biến price.

Biểu đồ thể hiện giá trị kim cương lớn nhất theo độ trong:

ggplot(diamonds, aes(x = clarity, y = price)) +
  geom_bar(stat = "summary", fun = max)

Biểu đồ cột hiển thị giá trị lớn nhất của biến price theo từng giá trị của biến clarity. Mỗi cột trong biểu đồ biểu thị một giá trị của biến clarity, và chiều cao của cột biểu thị giá trị lớn nhất tương ứng của biến price.

Biểu đồ thể hiện giá trị kim cương nhỏ nhất theo màu sắc:

ggplot(diamonds, aes(x = color, y = price)) +
  geom_bar(stat = "summary", fun = min)

Biểu đồ cột hiển thị giá trị nhỏ nhất của biến price theo từng giá trị của biến color. Mỗi cột trong biểu đồ biểu thị một giá trị của biến color, và chiều cao của cột biểu thị giá trị nhỏ nhất tương ứng của biến price.

Biểu đồ thể hiện tỷ lệ các loại cắt kim cương theo màu sắc:

ggplot(diamonds, aes(x = color, fill = cut)) +
  geom_bar(position = "fill")

Biểu đồ cột hiển thị phần trăm tương đối của từng giá trị của biến cut theo từng giá trị của biến color. Mỗi cột trong biểu đồ biểu thị một giá trị của biến color, và màu sắc của các phần trong cột biểu thị giá trị của biến cut.

Biểu đồ thể hiện tổng giá trị kim cương theo loại cắt và màu sắc:

ggplot(diamonds, aes(x = cut, fill = color, y = price)) +
  geom_bar(position = "stack", stat = "summary", fun = "sum")

Biểu đồ này cho thấy tổng giá trị kim cương theo từng loại cắt và màu sắc, với các cột được xếp chồng lên nhau.

Biểu đồ thể hiện giá trị trung bình kim cương theo loại cắt và độ trong:

ggplot(diamonds, aes(x = cut, fill = clarity, y = price)) +
  geom_bar(position = "stack", stat = "summary", fun = "mean")

Biểu đồ cột, trong đó mỗi cột biểu thị một giá trị của biến cut. Các phần trong cột sẽ được tô màu theo giá trị của biến clarity, và chiều cao của cột biểu thị giá trị trung bình của biến price trong mỗi nhóm

Biểu đồ thể hiện số lượng kim cương theo kích thước và màu sắc:

ggplot(diamonds, aes(x = carat, fill = color)) +
  geom_bar(binwidth = 0.5)

Biểu đồ này cho thấy số lượng kim cương theo kích thước và màu sắc, với các cột được nhóm lại theo khoảng kích thước 0.5 và màu sắc tương ứng.

Biểu đồ thể hiện số lượng kim cương theo kích thước và loại cắt:

T5 <- subset(T, cut == "Ideal" & color == "J")
ggplot(T5, aes(x = carat)) +
  geom_bar(fill = "lightyellow", color = "black", alpha = 0.8) +
  labs(title = "Biểu đồ cột của dữ liệu diamonds (màu J)",
       x = "Carat",
       y = "Số Lượng") +
  theme_minimal()

Biểu đồ này cho thấy số lượng kim cương theo loại cắt là Ideal và có màu là J, với các cột được nhóm lại theo độ lớn tương ứng.

Biểu đồ thể hiện giá trị trung bình kim cương theo loại cắt và màu sắc:

ggplot(diamonds, aes(x = cut, fill = color, y = price)) +
  stat_summary(fun = "mean", geom = "bar")

Biểu đồ này cho thấy số lượng kim cương theo từng màu sắc và loại cắt, với các cột được xếp chồng lên nhau.

Biểu đồ thể hiện giá trị trung bình kim cương theo màu sắc và độ trong:

ggplot(diamonds, aes(x = color, fill = clarity, y = price)) +
  geom_bar(position = "stack", stat = "summary", fun = "mean")

Biểu đồ này cho thấy giá trị trung bình của kim cương theo từng màu sắc và độ trong, với các cột được xếp chồng lên nhau.

Biểu đồ thể hiện số lượng kim cương theo kích thước và màu sắc:

T4 <- subset(T,color == "J", depth)
ggplot(T4, aes(x = depth)) +
  geom_bar(fill = "steelblue", color = "black", alpha = 1) +
  labs(title = "Biểu đồ cột của dữ liệu diamonds",
       x = "Depth",
       y = "Số lượng") +
  theme_minimal()

Biểu đồ này cho thấy số lượng kim cương có màu sắc là J theo loại Depth và các cột được nhóm lại

Biểu đồ thể hiện số lượng kim cương theo biến Carat

T$carat <- as.numeric(T$carat)
T <- T %>% mutate(caratC = cut(carat, breaks = c(0, 0.5, 1, 1.5, 2, Inf), 
            labels = c('rất nhỏ', 'nhỏ', 'vừa', 'lớn', 'rất lớn'))) 
T %>% ggplot(aes(x = caratC)) +
  geom_bar(fill = 'lightblue')

Biểu đồ cột, trong đó mỗi cột biểu thị một nhóm dựa trên giá trị của biến carat. Màu sắc của các cột sẽ là ‘lightblue’.

Biểu đồ thể hiện số lượng kim cương theo độ trong

ggplot(diamonds, aes(x = clarity)) +
  geom_bar(fill = "steelblue", color = "black", alpha = 0.8) +
  labs(title = "Biểu đồ cột của dữ liệu diamonds",
       x = "Clarity",
       y = "Số lượng") +
  theme_minimal()

biểu đồ cột với các cột được tô màu “steelblue”, có viền màu đen và mờ. Tiêu đề của biểu đồ là “Biểu đồ cột của dữ liệu diamonds”, trục x có nhãn “Clarity” và trục y có nhãn “Số lượng”. Giao diện của biểu đồ là tối giản.

Biểu đồ trung bình trọng lượng diamond theo màu sắc

T %>% ggplot(mapping = aes(x = cut, fill = color)) +
  geom_bar() +
  scale_fill_manual(values = sort(unique(diamonds$color)))+
   labs(title = "Biểu đồ số lượng kim cương chia theo màu sắc",x = 'Loại', y = 'Số lượng')

Biểu đồ cột với các cột biểu thị số lượng theo biến cut, và màu sắc của các cột sẽ được xác định bởi biến color. Giá trị màu sắc được sắp xếp theo thứ tự tăng dần. Tiêu đề của biểu đồ là “Biểu đồ số lượng kim cương chia theo màu sắc”, trục x có nhãn “Loại” và trục y có nhãn “Số lượng”.

Biểu đồ trung bình trọng lượng diamond theo màu sắc

T %>% group_by(color) %>% summarise(m= mean(carat)) %>%
  ggplot(aes(x = color,y = m)) +
    geom_col(position = 'dodge') +
    geom_text(aes(label = round(m,2)), vjust = 2, color = 'green') +
    labs(title = "Biểu đồ mean của kim cương theo màu sắc",x = 'Màu', y = 'Mean')

Biểu đồ cột với các cột biểu thị giá trị trung bình của biến carat theo từng màu sắc. Các cột sẽ được xếp chồng lên nhau. Văn bản với giá trị trung bình làm tròn đến 2 chữ số thập phân sẽ được hiển thị trên các cột và có màu sắc xanh lá cây. Tiêu đề của biểu đồ là “Biểu đồ mean của kim cương theo màu sắc”, trục x có nhãn “Màu” và trục y có nhãn “Mean”.

Biểu đồ số lượng kim cương theo chất lượng cắt và độ trong suốt theo từng màu xếp cạnh nhau

ggplot(data= T) +
  geom_bar(mapping = aes(x = cut, fill = clarity), position = "dodge")

Biểu đồ cột với các cột biểu thị số lượng theo biến cut. Màu sắc của các cột sẽ được xác định bởi biến clarity. Các cột sẽ được xếp chồng lên nhau theo từng nhóm biến cut.

Biểu đồ số lượng theo từng loại Clarity của kim cương có màu D

T2 <- subset(T, color == "D")
ggplot(T2, aes(x = clarity)) +
  geom_bar(fill = "lightyellow", color = "black", alpha = 0.8) +
  labs(title = "Biểu đồ cột của dữ liệu diamonds (màu D)",
       x = "Clarity",
       y = "Số lượng") +
  theme_minimal()

Biểu đồ trên cung cấp cho ta thấy được số lượng của cái viên kim cương có màu là D theo từng loại Clarity khác nhau

Biểu đồ số lượng theo từng loại Clarity của kim cương có màu I

T3 <- subset(T, color == "I")
ggplot(T3, aes(x = clarity)) +
  geom_bar(fill = "lightpink", color = "black", alpha = 0.8) +
  labs(title = "Biểu đồ cột của dữ liệu diamonds (màu I)",
       x = "Clarity",
       y = "Số lượng") +
  theme_minimal()

Biểu đồ trên cung cấp cho ta thấy được số lượng của cái viên kim cương có màu là I theo từng loại Clarity khác nhau

