Giới thiệu bộ dữ liệu diamonds
-Bộ dữ liệu có 10 biến và 53940 quan sát
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.4 ✔ readr 2.1.5
## ✔ forcats 1.0.0 ✔ stringr 1.5.1
## ✔ ggplot2 3.4.4 ✔ tibble 3.2.1
## ✔ lubridate 1.9.3 ✔ tidyr 1.3.0
## ✔ purrr 1.0.2
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(scales)
##
## Attaching package: 'scales'
##
## The following object is masked from 'package:purrr':
##
## discard
##
## The following object is masked from 'package:readr':
##
## col_factor
d <- diamonds
d %>% ggplot(aes(x = cut)) +
geom_bar() +
labs(x = 'Loại', y = 'Số lượng')

Biểu đồ trên biểu diễn số lượng của 5 loại mặt cắt của kim cương từ loại
thấp đến cao, như:
-Loại Fair có khoảng 2000 viên
-Loại Good có khoảng 5000 viên
-Loại Very Good có khoảng 12000 viên
-Loại Premium có khoảng 13000 viên
-Loại Ideal có khoảng hơn 20000 viên
d %>% ggplot(aes(x = cut)) +
geom_bar() +
labs(x = 'Loại', y = 'Số lượng')+
coord_flip()
Giống biểu đồ phía trên nhưng khác ở chỗ cột nằm ngang
library(tidyverse)
library(scales)
d <- diamonds
d %>% group_by(cut) %>% summarise(freq= n()) %>%
ggplot(aes(x = cut,y = freq)) +
geom_col(fill='lightblue') +
geom_text(aes(label =freq),vjust =2, color ='white') +
labs(x= 'Loại', y='Số lượng')
Biểu đồ thể hiện số lượng kim cương các loại
ggplot(diamonds, aes(x = carat)) +
geom_histogram()
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

labs(x= 'Trọng lượng', y='Số lượng')
## $x
## [1] "Trọng lượng"
##
## $y
## [1] "Số lượng"
##
## attr(,"class")
## [1] "labels"
ggplot(data = diamonds) +
geom_bar(mapping = aes(x = cut, fill = clarity), position = "dodge")
Biểu đồ thể hiện độ trong của kim cương theo từng loại
Biều đồ phân phối của carat
Biểu đồ tỷ lệ phần trăm số lượng kim cương theo loại cut:
d %>% group_by(cut) %>% summarise(n = n()) %>%
ggplot(aes(cut,n)) +
geom_col(fill='pink') +
geom_text(aes(label = percent(n/length(d$carat))),vjust = 2, color = 'yellow') +
labs(x = 'Loại', y = 'Số lượng')

Biểu đồ này biểu diễn tỷ lệ phần trăm lượng kim cương theo loại
cut
Biểu đồ thể hiện số lượng kim cương phân theo loại với màu sắc đường
viền cắt:
d %>% group_by(cut,color) %>% summarise(n=n()) %>%
ggplot(aes(x = cut,y = n)) +
geom_col(position = 'dodge') +
facet_wrap(~color) +
labs(x = 'Loại', y = 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

d %>% group_by(cut,color) %>% summarise(n=n()) %>%
ggplot(aes(x = cut,y = n)) +
geom_col(position = 'dodge') +
facet_wrap(~color) +
geom_text(aes(label = n),vjust = 2, color = 'yellow') +
labs(x = 'Loại', y = 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

d %>% group_by(cut) %>% summarise(m= mean(carat)) %>%
ggplot(aes(x = cut,y = m)) +
geom_col(position = 'dodge') +
geom_text(aes(label = round(m,2)), vjust = 2, color = 'white') +
labs(x = 'Màu', y = 'Mean')

d %>% group_by(cut,color) %>% summarise(m = mean(price)) %>%
ggplot(aes(x = cut,y = m)) +
geom_col(position = 'dodge') +
facet_wrap(~color) +
geom_text(aes(label = round(m))) +
labs(x = 'Cut', y = 'Số lượng')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

Biểu đồ thể hiện tổng trọng lượng kim cương theo màu sắc:
ggplot(d, aes(x = color, y = carat)) +
geom_bar(stat = "summary", fun = "sum")

Biểu đồ trên biểu diễn số lượng của 7 loại màu sắc của kim cương từ loại
‘D’ đến ‘J’ -Màu D có khoảng 6775 viên
-Màu E có khoảng 9797 viên
-Màu F có khoảng 9542 viên
-Màu G có khoảng 11292 viên
-Màu H có khoảng 8304 viên
-Màu I có khoảng 5422 viên
-Màu J có khoảng 2808 viên
Ta thấy được Màu G chiếm tỷ lệ nhiều trong biểu đồ trên
ggplot(d, aes(x = cut, y = price)) +
geom_bar(stat = "summary", fun = "mean")

Biểu đồ thể hiện giá trị kim cương lớn nhất theo độ trong:
ggplot(diamonds, aes(x = clarity, y = price)) +
geom_bar(stat = "summary", fun = max)

Biểu đồ thể hiện giá trị kim cương nhỏ nhất theo màu sắc:
ggplot(diamonds, aes(x = color, y = price)) +
geom_bar(stat = "summary", fun = min)

Biểu đồ thể hiện phân phối giá trị kim cương theo loại cắt:
ggplot(diamonds, aes(x = cut, y = price)) +
geom_bar(stat = "density")

Biểu đồ thể hiện số lượng kim cương theo kích thước của chúng:
ggplot(d, aes(x = carat)) +
geom_bar(binwidth = 0.5)
## Warning in geom_bar(binwidth = 0.5): Ignoring unknown parameters: `binwidth`

Biểu đồ thể hiện tổng giá trị kim cương theo loại cắt và màu
sắc:
ggplot(diamonds, aes(x = cut, fill = color, y = price)) +
geom_bar(position = "stack", stat = "summary", fun = "sum")

Biểu đồ này cho thấy tổng giá trị kim cương theo từng loại cắt và màu
sắc, với các cột được xếp chồng lên nhau.
Biểu đồ thể hiện giá trị trung bình kim cương theo loại cắt và độ
trong:
ggplot(diamonds, aes(x = cut, fill = clarity, y = price)) +
geom_bar(position = "stack", stat = "summary", fun = "mean")

Biểu đồ thể hiện số lượng kim cương theo kích thước và màu sắc:
ggplot(diamonds, aes(x = carat, fill = color)) +
geom_bar(binwidth = 5)
## Warning in geom_bar(binwidth = 5): Ignoring unknown parameters: `binwidth`

Biểu đồ này cho thấy số lượng kim cương theo kích thước và màu sắc,
với các cột được nhóm lại theo khoảng kích thước 0.5 và màu sắc tương
ứng.
Biểu đồ thể hiện số lượng kim cương theo kích thước và loại
cắt:
ggplot(diamonds, aes(x = carat, fill = cut)) +
geom_bar(binwidth = 0.5)
## Warning in geom_bar(binwidth = 0.5): Ignoring unknown parameters: `binwidth`

Biểu đồ này cho thấy số lượng kim cương theo kích thước và loại cắt,
với các cột được nhóm lại theo khoảng kích thước 0.5 và loại cắt tương
ứng.
Biểu đồ thể hiện giá trị trung bình kim cương theo loại cắt và màu
sắc:
ggplot(diamonds, aes(x = cut, fill = color, y = price)) +
stat_summary(fun = "mean", geom = "bar")

Biểu đồ này cho thấy số lượng kim cương theo từng màu sắc và loại
cắt, với các cột được xếp chồng lên nhau.
Biểu đồ thể hiện giá trị trung bình kim cương theo màu sắc và độ
trong:
ggplot(diamonds, aes(x = color, fill = clarity, y = price)) +
geom_bar(position = "stack", stat = "summary", fun = "mean")

Biểu đồ này cho thấy giá trị trung bình của kim cương theo từng màu sắc
và độ trong, với các cột được xếp chồng lên nhau.
Biểu đồ thể hiện số lượng kim cương theo kích thước và màu sắc:
ggplot(diamonds, aes(x = carat, fill = color)) +
geom_bar(binwidth = 0.5)
## Warning in geom_bar(binwidth = 0.5): Ignoring unknown parameters: `binwidth`

Biểu đồ này cho thấy số lượng kim cương theo kích thước và màu sắc,
với các cột được nhóm lại theo khoảng kích thước 0.5 và màu sắc tương
ứng.
Biểu đồ phân tích độ tinh khiết của kim cương
d %>% group_by(clarity) %>% summarise(n = n()) %>%
ggplot(aes(clarity,n)) +
geom_col(fill='lightgreen') +
geom_text(aes(label = n),vjust = 2, color = 'white') +
labs(x = 'Loại', y = 'Số lượng')

Biểu đồ thể hiện mặt phân cắt kim cương theo đơn vị phần trăm
d %>% ggplot(mapping = aes(x = cut, y = ..prop.., group = 1)) +
geom_bar() +
scale_y_continuous(labels = scales::percent_format())+
labs(x = 'Loại', y = 'Số lượng')
## Warning: The dot-dot notation (`..prop..`) was deprecated in ggplot2 3.4.0.
## ℹ Please use `after_stat(prop)` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

Biểu đồ thể hiện số lượng kim cương theo độ lớn
d <- diamonds
d <- d %>% mutate(caratC = cut(carat,5, label = c('rất nhỏ', 'nhỏ','vừa','lớn','rất lớn')))
d %>% ggplot(aes(x = caratC)) +
geom_bar(fill = 'pink')

Biểu đồ thể hiện độ sâu trung bình của kim cương
d%>% group_by(cut, clarity)%>%summarise(m=mean(depth))%>%ggplot(aes(x=cut, y= m))+
geom_col(position='dodge')+
facet_wrap(~clarity)+
geom_text(aes(label= round(m)), vjust=2, color='red')+
labs(x= 'Loại', y= 'Độ sâu trung bình')
## `summarise()` has grouped output by 'cut'. You can override using the `.groups`
## argument.

Biểu đồ thể hiện phương sai trọng lượng của kim cương theo màu
d %>% group_by(color) %>% summarise(v= var(carat)) %>%
ggplot(aes(x = color,y = v)) +
geom_col(position = 'dodge') +
geom_text(aes(label = round(v,2)), vjust = 2, color = 'red') +
labs(x = 'Màu', y = 'Var')

