Giới thiệu bộ dữ liệu diamonds

-Bộ dữ liệu có 10 biến và 53940 quan sát

library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ ggplot2   3.4.4     ✔ tibble    3.2.1
## ✔ lubridate 1.9.3     ✔ tidyr     1.3.0
## ✔ purrr     1.0.2     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(scales)
## 
## Attaching package: 'scales'
## 
## The following object is masked from 'package:purrr':
## 
##     discard
## 
## The following object is masked from 'package:readr':
## 
##     col_factor
 d <- diamonds
 d %>% ggplot(aes(x = cut)) + 
          geom_bar() +
          labs(x = 'Loại', y = 'Số lượng')

Biểu đồ trên biểu diễn số lượng của 5 loại mặt cắt của kim cương từ loại thấp đến cao, như:

-Loại Fair có khoảng 2000 viên

-Loại Good có khoảng 5000 viên

-Loại Very Good có khoảng 12000 viên

-Loại Premium có khoảng 13000 viên

-Loại Ideal có khoảng hơn 20000 viên

d %>% ggplot(aes(x = cut)) + 
          geom_bar() +
          labs(x = 'Loại', y = 'Số lượng')+
coord_flip()

Giống biểu đồ phía trên nhưng khác ở chỗ cột nằm ngang

library(tidyverse)
library(scales)
d <- diamonds
d %>%  group_by(cut) %>% summarise(freq= n()) %>%
ggplot(aes(x = cut,y = freq)) +
  geom_col(fill='lightblue') +
  geom_text(aes(label =freq),vjust =2, color ='white') +
  labs(x= 'Loại', y='Số lượng')

Biểu đồ thể hiện số lượng kim cương các loại

ggplot(diamonds, aes(x = carat)) +
  geom_histogram() 
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

  labs(x= 'Trọng lượng', y='Số lượng')
## $x
## [1] "Trọng lượng"
## 
## $y
## [1] "Số lượng"
## 
## attr(,"class")
## [1] "labels"
ggplot(data = diamonds) +
  geom_bar(mapping = aes(x = cut, fill = clarity), position = "dodge")

Biểu đồ thể hiện độ trong của kim cương theo từng loại

Biều đồ phân phối của carat

Biểu đồ tỷ lệ phần trăm số lượng kim cương theo loại cut:

d %>% group_by(cut) %>% summarise(n = n()) %>% 
  ggplot(aes(cut,n)) +
    geom_col(fill='pink') +
      geom_text(aes(label = percent(n/length(d$carat))),vjust = 2, color = 'yellow') +
    labs(x = 'Loại', y = 'Số lượng')

Biểu đồ này biểu diễn tỷ lệ phần trăm lượng kim cương theo loại cut

Biểu đồ thể hiện số lượng kim cương phân theo loại với màu sắc đường viền cắt:

d %>% group_by(cut,color) %>% summarise(n=n()) %>%
  ggplot(aes(x = cut,y = n)) +
    geom_col(position = 'dodge') +
    facet_wrap(~color) +
    labs(x = 'Loại', y = 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

d %>% group_by(cut,color) %>% summarise(n=n()) %>%
  ggplot(aes(x = cut,y = n)) +
    geom_col(position = 'dodge') +
    facet_wrap(~color) +
    geom_text(aes(label = n),vjust = 2, color = 'yellow') +
    labs(x = 'Loại', y = 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

d %>% group_by(cut) %>% summarise(m= mean(carat)) %>%
  ggplot(aes(x = cut,y = m)) +
    geom_col(position = 'dodge') +
    geom_text(aes(label = round(m,2)), vjust = 2, color = 'white') +
    labs(x = 'Màu', y = 'Mean')

d %>% group_by(cut,color) %>% summarise(m = mean(price)) %>%
  ggplot(aes(x = cut,y = m)) +
    geom_col(position = 'dodge') +
    facet_wrap(~color) +
    geom_text(aes(label = round(m))) +
    labs(x = 'Cut', y = 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

Biểu đồ thể hiện tổng trọng lượng kim cương theo màu sắc:

ggplot(d, aes(x = color, y = carat)) +
  geom_bar(stat = "summary", fun = "sum")
Biểu đồ trên biểu diễn số lượng của 7 loại màu sắc của kim cương từ loại ‘D’ đến ‘J’ -Màu D có khoảng 6775 viên

-Màu E có khoảng 9797 viên

-Màu F có khoảng 9542 viên

-Màu G có khoảng 11292 viên

-Màu H có khoảng 8304 viên

-Màu I có khoảng 5422 viên

-Màu J có khoảng 2808 viên

Ta thấy được Màu G chiếm tỷ lệ nhiều trong biểu đồ trên

ggplot(d, aes(x = cut, y = price)) +
  geom_bar(stat = "summary", fun = "mean")

Biểu đồ thể hiện giá trị kim cương lớn nhất theo độ trong:

ggplot(diamonds, aes(x = clarity, y = price)) +
  geom_bar(stat = "summary", fun = max)

Biểu đồ thể hiện giá trị kim cương nhỏ nhất theo màu sắc:

ggplot(diamonds, aes(x = color, y = price)) +
  geom_bar(stat = "summary", fun = min)

Biểu đồ thể hiện phân phối giá trị kim cương theo loại cắt:

ggplot(diamonds, aes(x = cut, y = price)) +
  geom_bar(stat = "density")

Biểu đồ thể hiện số lượng kim cương theo kích thước của chúng:

ggplot(d, aes(x = carat)) +
  geom_bar(binwidth = 0.5)
## Warning in geom_bar(binwidth = 0.5): Ignoring unknown parameters: `binwidth`

Biểu đồ thể hiện tổng giá trị kim cương theo loại cắt và màu sắc:

ggplot(diamonds, aes(x = cut, fill = color, y = price)) +
  geom_bar(position = "stack", stat = "summary", fun = "sum")

Biểu đồ này cho thấy tổng giá trị kim cương theo từng loại cắt và màu sắc, với các cột được xếp chồng lên nhau.

Biểu đồ thể hiện giá trị trung bình kim cương theo loại cắt và độ trong:

ggplot(diamonds, aes(x = cut, fill = clarity, y = price)) +
  geom_bar(position = "stack", stat = "summary", fun = "mean")

Biểu đồ thể hiện số lượng kim cương theo kích thước và màu sắc:

ggplot(diamonds, aes(x = carat, fill = color)) +
  geom_bar(binwidth = 5)
## Warning in geom_bar(binwidth = 5): Ignoring unknown parameters: `binwidth`

Biểu đồ này cho thấy số lượng kim cương theo kích thước và màu sắc, với các cột được nhóm lại theo khoảng kích thước 0.5 và màu sắc tương ứng.

Biểu đồ thể hiện số lượng kim cương theo kích thước và loại cắt:

ggplot(diamonds, aes(x = carat, fill = cut)) +
  geom_bar(binwidth = 0.5)
## Warning in geom_bar(binwidth = 0.5): Ignoring unknown parameters: `binwidth`

Biểu đồ này cho thấy số lượng kim cương theo kích thước và loại cắt, với các cột được nhóm lại theo khoảng kích thước 0.5 và loại cắt tương ứng.

Biểu đồ thể hiện giá trị trung bình kim cương theo loại cắt và màu sắc:

ggplot(diamonds, aes(x = cut, fill = color, y = price)) +
  stat_summary(fun = "mean", geom = "bar")

Biểu đồ này cho thấy số lượng kim cương theo từng màu sắc và loại cắt, với các cột được xếp chồng lên nhau.

Biểu đồ thể hiện giá trị trung bình kim cương theo màu sắc và độ trong:

ggplot(diamonds, aes(x = color, fill = clarity, y = price)) +
  geom_bar(position = "stack", stat = "summary", fun = "mean")

Biểu đồ này cho thấy giá trị trung bình của kim cương theo từng màu sắc và độ trong, với các cột được xếp chồng lên nhau.

Biểu đồ thể hiện số lượng kim cương theo kích thước và màu sắc:

ggplot(diamonds, aes(x = carat, fill = color)) +
  geom_bar(binwidth = 0.5)
## Warning in geom_bar(binwidth = 0.5): Ignoring unknown parameters: `binwidth`

Biểu đồ này cho thấy số lượng kim cương theo kích thước và màu sắc, với các cột được nhóm lại theo khoảng kích thước 0.5 và màu sắc tương ứng.

Biểu đồ phân tích độ tinh khiết của kim cương

d %>% group_by(clarity) %>% summarise(n = n()) %>%
  ggplot(aes(clarity,n)) +
    geom_col(fill='lightgreen') +
    geom_text(aes(label = n),vjust = 2, color = 'white') +
    labs(x = 'Loại', y = 'Số lượng')

Biểu đồ thể hiện mặt phân cắt kim cương theo đơn vị phần trăm

d %>% ggplot(mapping = aes(x = cut, y = ..prop.., group = 1)) +
  geom_bar() +
  scale_y_continuous(labels = scales::percent_format())+
  labs(x = 'Loại', y = 'Số lượng')
## Warning: The dot-dot notation (`..prop..`) was deprecated in ggplot2 3.4.0.
## ℹ Please use `after_stat(prop)` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

Biểu đồ thể hiện số lượng kim cương theo độ lớn

d <- diamonds 
d <- d %>% mutate(caratC = cut(carat,5, label = c('rất nhỏ', 'nhỏ','vừa','lớn','rất lớn')))
d %>% ggplot(aes(x = caratC)) +
  geom_bar(fill = 'pink')

Biểu đồ thể hiện độ sâu trung bình của kim cương

d%>% group_by(cut, clarity)%>%summarise(m=mean(depth))%>%ggplot(aes(x=cut, y= m))+
  geom_col(position='dodge')+
  facet_wrap(~clarity)+
  geom_text(aes(label= round(m)), vjust=2, color='red')+ 
  labs(x= 'Loại', y= 'Độ sâu trung bình')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

Biểu đồ thể hiện phương sai trọng lượng của kim cương theo màu

d %>% group_by(color) %>% summarise(v= var(carat)) %>%
  ggplot(aes(x = color,y = v)) +
    geom_col(position = 'dodge') +
    geom_text(aes(label = round(v,2)), vjust = 2, color = 'red') +
    labs(x = 'Màu', y = 'Var')

