I.GIỚI THIỆU BỘ DATASET : DÂN SỐ TRUNG BÌNH CỦA CÁC TỈNH VIỆT NAM TỪ NĂM 2016-2022

  • Bộ dữ liệu bao gồm 64 hàng và 9 cột
  • Bộ dữ liệu có 63 quan sát tương ứng với 63 tỉnh thành của Việt Nam và 1 quan sát là toàn quốc
  • Bộ dữ liệu có 9 biến tương ứng với 9 năm liên tiếp từ 2016-2022
  • Bộ dữ liệu có đơn vị tính là : người

1. Cài đặt và load gói từ file excel vào object

library(xlsx)
dat <- read.xlsx("C:/Users/ADMIN/Downloads/tongdansovn2016-2022.xlsx", sheetIndex = 1, header = T )
datatable(dat)

2. Kiểm tra số quan sát và số biến của dữ liệu

dim(dat)
## [1] 64  9

3. Đổi tên cho các biến của bộ dữ liệu

names(dat) <- c('M','Name','Y16','Y17','Y18','Y19','Y20','Y21','Y22')
datatable(dat)

II.PHÂN TÍCH BỘ DỮ LIỆU THÔNG QUA CÁC DẠNG BIỂU ĐỒ

II.1 Rút trích dữ liệu 10 tỉnh thành ngẫu nhiên của Việt Nam

dat1 <- dat%>%filter(Name == 'Hà Nội'| Name == 'Kon Tum'|Name =='Bình Định'|Name =='Gia Lai'|Name =='TP. Hồ Chí Minh'|Name =='Cà Mau'|Name =='Kiên Giang'|Name =='Long An'|Name =='Đắk Lắk'|Name =='Phú Yên'|Name =='Đồng Nai')%>% select(M,Name,'Y16','Y17','Y18','Y19','Y20','Y21','Y22')
datatable(dat1)

1. Biểu đồ thể hiện mật độ dân số của năm 2020

dat1 %>% ggplot(aes(x = Y20)) +
  geom_density(fill = 'lightblue')

Giải thích

  • dat1 %>% ggplot(aes(x = Y20)) xác định dữ liệu và ánh xạ giá trị của cột Y20 lên trục x của biểu đồ.

  • geom_density(fill = ‘lightblue’) được sử dụng để vẽ biểu đồ mật độ, trong đó các giá trị của cột Y20 sẽ được biểu diễn dưới dạng đường cong mật độ. Tham số fill = ‘lightblue’ được sử dụng để tô màu cho khu vực dưới đường cong mật độ bằng màu xanh nhạt.

2. Biểu đồ thể hiện dân số của các tỉnh năm 2016

dat1 %>% ggplot(aes(x = Y16)) +
  geom_histogram(binwidth = 500000, fill = 'lightblue', color = 'black')

Giải thích

  • dat1 %>% ggplot(aes(x = Y16)) xác định dữ liệu và ánh xạ giá trị của cột Y16 lên trục x của biểu đồ.

  • geom_histogram(binwidth = 500000, fill = ‘lightblue’, color = ‘black’) được sử dụng để vẽ biểu đồ histogram. Tham số binwidth xác định kích thước của các khoảng (bin) trong biểu đồ histogram, trong đoạn mã này là 500,000. Tham số fill được sử dụng để tô màu cho các thanh histogram bằng màu xanh nhạt, và tham số color được sử dụng để đặt màu viền của các thanh histogram thành màu đen.

3. Biểu đồ thể hiện các panel riêng biệt về dân số của 10 tỉnh thành năm 2020

dat1 %>% ggplot(aes(x = Y20)) +
  geom_histogram(binwidth = 500000, fill = 'lightblue', color = 'black') +
  facet_wrap(~Name)

Giải thích

  • dat1 %>% ggplot(aes(x = Y20)) xác định dữ liệu và ánh xạ giá trị của cột Y20 lên trục x của biểu đồ.

  • geom_histogram(binwidth = 500000, fill = ‘lightblue’, color = ‘black’) được sử dụng để vẽ biểu đồ histogram với các tham số như sau: binwidth xác định kích thước của các khoảng (bin) trong biểu đồ histogram là 500,000; fill được sử dụng để tô màu cho các thanh histogram bằng màu xanh nhạt; color được sử dụng để đặt màu viền của các thanh histogram thành màu đen.

  • facet_wrap(~Name) được sử dụng để tạo các panel riêng biệt cho mỗi giá trị của cột Name. Điều này cho phép chúng ta nhìn vào phân phối của cột Y20 dựa trên các nhóm được xác định bởi cột Name.

4.Biểu đồ thể hiện dân số của các tỉnh thành VN trong năm 2022

dat1 %>% ggplot(aes(x = Name, y = Y22)) +
  geom_bar(stat = "identity", fill = "lightblue") +
  labs(x = "Tên tỉnh", y = "Dân số") +
  ggtitle("Biểu đồ dân số các tỉnh thành Việt Nam") +
  theme_minimal()

Giải thích

  • dat1 %>% ggplot(aes(x = Name, y = Y22)) xác định dữ liệu và ánh xạ giá trị của cột Name lên trục x và giá trị của cột Y22 lên trục y của biểu đồ.

  • geom_bar(stat = “identity”, fill = “lightblue”) được sử dụng để vẽ biểu đồ bar chart với tham số stat được đặt là “identity” để sử dụng giá trị của cột Y22 trực tiếp, fill được sử dụng để tô màu cho các cột bằng màu xanh nhạt.

  • labs(x = “Tên tỉnh”, y = “Dân số”) được sử dụng để đặt nhãn cho trục x và trục y của biểu đồ.

  • ggtitle(“Biểu đồ dân số các tỉnh thành Việt Nam”) được sử dụng để đặt tiêu đề cho biểu đồ.

  • theme_minimal() được sử dụng để đặt giao diện đơn giản cho biểu đồ.

5. Biểu đồ thể hiện dân số các tỉnh thành Việt Nam năm 2018

dat1 %>% ggplot(aes(x = "", y = Y18, fill = Name)) +
  geom_bar(width = 1, stat = "identity") +
  coord_polar(theta = "y") +
  labs(fill = "Tên tỉnh", x = NULL, y = NULL) +
  ggtitle("Biểu đồ dân số các tỉnh thành Việt Nam trong năm 2018") +
  theme_minimal() +
  theme(legend.position = "right")

Giải thích

  • dat1 %>% ggplot(aes(x = ““, y = Y18, fill = Name)) xác định dữ liệu và ánh xạ giá trị của cột Y18 lên trục y và giá trị của cột Name lên màu sắc của các phần của biểu đồ.

  • geom_bar(width = 1, stat = “identity”) được sử dụng để vẽ biểu đồ pie chart với tham số width được đặt là 1 để có hình dạng đầy đủ của biểu đồ pie, và stat được đặt là “identity” để sử dụng giá trị của cột Y18 trực tiếp.

  • coord_polar(theta = “y”) được sử dụng để chuyển biểu đồ sang kiểu polar (hình tròn).

  • labs(fill = “Tên tỉnh”, x = NULL, y = NULL) được sử dụng để đặt nhãn cho chú thích (legend), và để xóa nhãn trục x và trục y của biểu đồ.

  • ggtitle(“Biểu đồ dân số các tỉnh thành Việt Nam trong năm 2018”) được sử dụng để đặt tiêu đề cho biểu đồ.

  • theme_minimal() được sử dụng để đặt giao diện đơn giản cho biểu đồ và theme(legend.position = “right”) được sử dụng để di chuyển chú thích (legend) sang vị trí bên phải của biểu đồ.

6. Biểu đồ thể hiện dân số các tỉnh thành của VN trong năm 2020

dat1 %>% ggplot(aes(x = Name, y = Y18, fill = factor(Y20))) +
  geom_bar(stat = "identity", position = "dodge") +
  labs(x = "Tên tỉnh", y = "Dân số", fill = "Dân số") +
  ggtitle("Biểu đồ dân số các tỉnh thành Việt Nam trong năm 2020") +
  theme_minimal() +
  theme(legend.position = "right")

Giải thích

  • ggplot(aes(x = Name, y = Y18, fill = factor(Y20))): Đây là hàm ggplot() để tạo một đối tượng biểu đồ. Hàm này nhận vào một đối số chính là hàm aes() (aesthetic), trong đó x = Name chỉ định cột Name trong dat1 sẽ được sử dụng làm trục x của biểu đồ, y = Y18 chỉ định cột Y18 sẽ được sử dụng làm trục y của biểu đồ, và fill = factor(Y20) chỉ định cột Y20 sẽ được sử dụng để làm màu sắc cho các thanh bar.

  • geom_bar(stat = “identity”, position = “dodge”): Đây là hàm geom_bar() để vẽ biểu đồ bar chart. Tham số stat = “identity” chỉ định rằng chiều cao của các thanh bar sẽ dựa trên giá trị thực của cột Y18 trong dat1. Tham số position = “dodge” chỉ định rằng các thanh bar sẽ được tách rời nhau.

  • labs(x = “Tên tỉnh”, y = “Dân số”, fill = “Dân số”): Đây là hàm labs() để đặt nhãn cho trục x, trục y và chú thích (legend) của biểu đồ. Trong đoạn mã trên, nhãn của trục x được đặt là “Tên tỉnh”, nhãn của trục y được đặt là “Dân số”, và nhãn của chú thích được đặt là “Dân số”.

  • ggtitle(“Biểu đồ dân số các tỉnh thành Việt Nam trong năm 2020”): Đây là hàm ggtitle() để đặt tiêu đề cho biểu đồ. Trong đoạn mã trên, tiêu đề của biểu đồ được đặt là “Biểu đồ dân số các tỉnh thành Việt Nam trong năm 2020”.

  • theme_minimal(): Đây là hàm theme_minimal() để thiết lập giao diện của biểu đồ theo phong cách tối giản.

  • theme(legend.position = “right”): Đây là hàm theme() để tùy chỉnh giao diện của biểu đồ. Trong đoạn mã trên, tham số legend.position = “right” chỉ định rằng chú thích (legend) sẽ được đặt ở bên phải của biểu đồ.

7. Biểu đồ thể hiện đường mật độ dân số các tỉnh VN trong năm 2020

qplot(Y20, data = dat1, geom = "density")

Giải thích

  • Y20: Đây là đối số đầu tiên và chỉ định biến/cột trong tập dữ liệu dat1 sẽ được sử dụng để tạo biểu đồ mật độ.
  • data = dat1: Đây là đối số thứ hai và chỉ định tập dữ liệu dat1 mà biến/cột sẽ được lấy từ.
  • geom = “density”: Đây là đối số thứ ba và chỉ định rằng biểu đồ sẽ là một biểu đồ mật độ.

II.2 Rút trích dữ liệu các tỉnh ở vùng Bắc Trung Bộ Việt Nam

dat2 <- dat%>%filter(Name == 'Thanh Hóa'| Name == 'Nghệ An'|Name =='Hà Tĩnh'|Name =='Quảng Bình'|Name =='Quảng Trị'|Name =='Thừa Thiên-Huế')%>% select(M,Name,'Y16','Y17','Y18','Y19','Y20','Y21','Y22')
datatable(dat2)

1. Biểu đồ thể hiện mật độ dân số thuộc BTB của VN năm 2016

dat2 %>% ggplot(aes(x = Y16)) +
  geom_density(fill = 'orange')

Giải thích

  • dat2 %>% ggplot(aes(x = Y16)) xác định dữ liệu và ánh xạ giá trị của cột Y16 lên trục x của biểu đồ.

  • geom_density(fill = ‘orange’) được sử dụng để vẽ biểu đồ mật độ, trong đó các giá trị của cột Y20 sẽ được biểu diễn dưới dạng đường cong mật độ. Tham số fill = ‘orange’ được sử dụng để tô màu cho khu vực dưới đường cong mật độ bằng màu cam.

2. Biểu đồ thể hiện dân số của các tỉnh thuộc BTB của VN năm 2018

dat2 %>% ggplot(aes(x = Y18)) +
  geom_histogram(binwidth = 500000, fill = 'lightblue', color = 'black')

Giải thích

  • dat2 %>% ggplot(aes(x = Y18)) xác định dữ liệu và ánh xạ giá trị của cột Y18 lên trục x của biểu đồ.

  • geom_histogram(binwidth = 500000, fill = ‘lightblue’, color = ‘black’) được sử dụng để vẽ biểu đồ histogram. Tham số binwidth xác định kích thước của các khoảng (bin) trong biểu đồ histogram, trong đoạn mã này là 500,000. Tham số fill được sử dụng để tô màu cho các thanh histogram bằng màu xanh nhạt, và tham số color được sử dụng để đặt màu viền của các thanh histogram thành màu đen. ### 3. Biểu đồ thể hiện các panel riêng biệt về dân số của các tỉnh thành thuộc BTB của VN năm 2022

dat2 %>% ggplot(aes(x = Y22)) +
  geom_histogram(binwidth = 500000, fill = 'lightgreen', color = 'black') +
  facet_wrap(~Name)

Giải thích

  • dat2 %>% ggplot(aes(x = Y22)) xác định dữ liệu và ánh xạ giá trị của cột Y22 lên trục x của biểu đồ.

  • geom_histogram(binwidth = 500000, fill = ‘lightgreen’, color = ‘black’) được sử dụng để vẽ biểu đồ histogram với các tham số như sau: binwidth xác định kích thước của các khoảng (bin) trong biểu đồ histogram là 500,000; fill được sử dụng để tô màu cho các thanh histogram bằng màu xanh nhạt; color được sử dụng để đặt màu viền của các thanh histogram thành màu đen.

  • facet_wrap(~Name) được sử dụng để tạo các panel riêng biệt cho mỗi giá trị của cột Name. Điều này cho phép chúng ta nhìn vào phân phối của cột Y20 dựa trên các nhóm được xác định bởi cột Name. ### 4.Biểu đồ thể hiện dân số của các tỉnh thành thuộc BTB của VN trong năm 2020

dat2 %>% ggplot(aes(x = Name, y = Y20)) +
  geom_bar(stat = "identity", fill = "red") +
  labs(x = "Tên tỉnh", y = "Dân số") +
  ggtitle("Biểu đồ dân số các tỉnh thành Việt Nam") +
  theme_minimal()

Giải thích

  • dat2 %>% ggplot(aes(x = Name, y = Y20)) xác định dữ liệu và ánh xạ giá trị của cột Name lên trục x và giá trị của cột Y20 lên trục y của biểu đồ.

  • geom_bar(stat = “identity”, fill = “red”) được sử dụng để vẽ biểu đồ bar chart với tham số stat được đặt là “identity” để sử dụng giá trị của cột Y20 trực tiếp, fill được sử dụng để tô màu cho các cột bằng màu đỏ.

  • labs(x = “Tên tỉnh”, y = “Dân số”) được sử dụng để đặt nhãn cho trục x và trục y của biểu đồ.

  • ggtitle(“Biểu đồ dân số các tỉnh thành Việt Nam”) được sử dụng để đặt tiêu đề cho biểu đồ.

  • theme_minimal() được sử dụng để đặt giao diện đơn giản cho biểu đồ.

5. Biểu đồ thể hiện dân số các tỉnh thuộc BTB Việt Nam năm 2018

dat2 %>% ggplot(aes(x = "", y = Y18, fill = Name)) +
  geom_bar(width = 1, stat = "identity") +
  coord_polar(theta = "y") +
  labs(fill = "Tên tỉnh", x = NULL, y = NULL) +
  ggtitle("Biểu đồ dân số các tỉnh thành Việt Nam trong năm 2018") +
  theme_minimal() +
  theme(legend.position = "right")

Giải thích

  • dat2 %>% ggplot(aes(x = ““, y = Y18, fill = Name)) xác định dữ liệu và ánh xạ giá trị của cột Y18 lên trục y và giá trị của cột Name lên màu sắc của các phần của biểu đồ.

  • geom_bar(width = 1, stat = “identity”) được sử dụng để vẽ biểu đồ pie chart với tham số width được đặt là 1 để có hình dạng đầy đủ của biểu đồ pie, và stat được đặt là “identity” để sử dụng giá trị của cột Y18 trực tiếp.

  • coord_polar(theta = “y”) được sử dụng để chuyển biểu đồ sang kiểu polar (hình tròn).

  • labs(fill = “Tên tỉnh”, x = NULL, y = NULL) được sử dụng để đặt nhãn cho chú thích (legend), và để xóa nhãn trục x và trục y của biểu đồ.

  • ggtitle(“Biểu đồ dân số các tỉnh thành Việt Nam trong năm 2018”) được sử dụng để đặt tiêu đề cho biểu đồ.

  • theme_minimal() được sử dụng để đặt giao diện đơn giản cho biểu đồ và theme(legend.position = “right”) được sử dụng để di chuyển chú thích (legend) sang vị trí bên phải của biểu đồ.

6. Biểu đồ thể hiện dân số các tỉnh thành thuộc BTB của VN trong năm 2020

dat2 %>% ggplot(aes(x = Name, y = Y18, fill = factor(Y20))) +
  geom_bar(stat = "identity", position = "dodge") +
  labs(x = "Tên tỉnh", y = "Dân số", fill = "Dân số") +
  ggtitle("Biểu đồ dân số các tỉnh thành Việt Nam trong năm 2020") +
  theme_minimal() +
  theme(legend.position = "right")

Giải thích

  • ggplot(aes(x = Name, y = Y18, fill = factor(Y20))): Đây là hàm ggplot() để tạo một đối tượng biểu đồ. Hàm này nhận vào một đối số chính là hàm aes() (aesthetic), trong đó x = Name chỉ định cột Name trong dat2 sẽ được sử dụng làm trục x của biểu đồ, y = Y18 chỉ định cột Y18 sẽ được sử dụng làm trục y của biểu đồ, và fill = factor(Y20) chỉ định cột Y20 sẽ được sử dụng để làm màu sắc cho các thanh bar.

  • geom_bar(stat = “identity”, position = “dodge”): Đây là hàm geom_bar() để vẽ biểu đồ bar chart. Tham số stat = “identity” chỉ định rằng chiều cao của các thanh bar sẽ dựa trên giá trị thực của cột Y18 trong dat1. Tham số position = “dodge” chỉ định rằng các thanh bar sẽ được tách rời nhau.

  • labs(x = “Tên tỉnh”, y = “Dân số”, fill = “Dân số”): Đây là hàm labs() để đặt nhãn cho trục x, trục y và chú thích (legend) của biểu đồ. Trong đoạn mã trên, nhãn của trục x được đặt là “Tên tỉnh”, nhãn của trục y được đặt là “Dân số”, và nhãn của chú thích được đặt là “Dân số”.

  • ggtitle(“Biểu đồ dân số các tỉnh thành Việt Nam trong năm 2020”): Đây là hàm ggtitle() để đặt tiêu đề cho biểu đồ. Trong đoạn mã trên, tiêu đề của biểu đồ được đặt là “Biểu đồ dân số các tỉnh thành Việt Nam trong năm 2020”.

  • theme_minimal(): Đây là hàm theme_minimal() để thiết lập giao diện của biểu đồ theo phong cách tối giản.

  • theme(legend.position = “right”): Đây là hàm theme() để tùy chỉnh giao diện của biểu đồ. Trong đoạn mã trên, tham số legend.position = “right” chỉ định rằng chú thích (legend) sẽ được đặt ở bên phải của biểu đồ.

7. Biểu đồ thể hiện đường mật độ dân số các tỉnh VN trong năm 2020

qplot(Y20, data = dat2, geom = "density")

Giải thích

  • Y20: Đây là đối số đầu tiên và chỉ định biến/cột trong tập dữ liệu dat1 sẽ được sử dụng để tạo biểu đồ mật độ.
  • data = dat1: Đây là đối số thứ hai và chỉ định tập dữ liệu dat1 mà biến/cột sẽ được lấy từ.
  • geom = “density”: Đây là đối số thứ ba và chỉ định rằng biểu đồ sẽ là một biểu đồ mật độ.

8.Biểu đồ thể hiện các điểm của dân số vùng BTB thuộc VN năm 2020

dat2 %>% ggplot(aes(x = Name, y = Y18, color = Y20)) +
  geom_point()

Giải thích

  • geom_point() là lớp hình học trong ggplot2 để vẽ các điểm trên biểu đồ

9.Biểu đồ thể hiện các điểm của dân số vùng BTB thuộc VN năm 2022

dat2 %>% ggplot(aes(x = Name, y = Y22, size = Name)) +
  geom_point()

