Dữ liệu
Dữ liệu được download từ World Bank (và đã qua xử lý sơ bộ), World
Bank cung cấp cho chúng ta một cơ sở dữ liệu khổng lồ về thông tin vĩ mô
của hầu như tất cả các nước trên thế giới, tôi sẽ có một bài riêng về
việc khai thác kho dữ liệu này.
Các bạn download file dữ liệu thực hành theo đường link phía dưới để
thực hành.
https://drive.google.com/file/d/1TdJs82DLosZ8OIJRXckg1SXcnTEQ22Mf/view?usp=sharing
File dữ liệu này được đặt tên là VNPopulation.csv, các bạn
download và lưu vào thư mục làm cụ thể để phục vụ cho việc phân
tích.
Tiến hành phần
tích
Đọc dữ liệu
Đọc dữ liệu từ file vào bộ nhớ:
data_origin <- read.csv('./data/VNPopulation.csv', header = TRUE)
d <- data_origin
d$Population <- round(d$Population/1000000,2)
Lưu ý: Chúng ta nên tạo ra một bản sao của bộ dữ
liệu và tiến hành các thao tác trên bản sao này để phòng trường hợp khi
chúng ta thao tác sai thì chỉ cần copy lại dữ liệu từ dữ liệu gốc.
Phân chia thời
kỳ
Trong mục Mục tiêu phân tích chúng ta có nói đến sự biến động qua
các thời kỳ. Vậy thời kỳ ở đây là bao lâu? Tùy mục tiêu
phân tích (cụ thể), tùy vào người được nhận kết quả phân tích này, tùy
vào mục đích của việc sử dụng kết quả báo cáo này vào việc gì,… mà chúng
ta sẽ tiến hành phân chia thời kỳ (về mặt lý thuyết việc này là chia tổ
dữ liệu).
Trong bài phân tích này chúng ta sẽ chia dữ liệu của chúng ta thành 3
thời kỳ (giai đoạn).
- Giai đoạn 1: Từ năm 1950 đến năm 1975.
- Giai đoạn 2: Từ năm 1976 đến năm 1991.
- Giai đoạn 3: Từ năm 1992 đến năm 2021.
library(tidyverse)
d <- d %>% mutate(Period = case_when(Year<=1975 ~ '1', Year > 1975 & Year <= 1991 ~ '2', Year >1991 ~ '3'))
Phân tích tổng quan
về tình hình biến động dân số
Dân số của Việt Nam từ năm 1950 đến 2021 được thể hiện qua đồ thị sau
(đơn vị tính triệu người).
l <- length(d$Country)
d %>% ggplot(aes(x = Year, y = Population)) + geom_col(fill = 'green')

Đồ thị trên cho thấy rằng dân số tăng qua từng năm với tốc độ tăng
trưởng trung bình là 1.93%, tương ứng với trung bình mỗi năm tăng thêm
1.02 triệu người.
Tuy nhiên tốc độ tăng trưởng không giống nhau qua từng giai đoạn.
d %>% filter(Year < 1976) %>% ggplot(aes(x = Year, y = Population))+ geom_col(fill = 'green')

d %>% filter(Year >= 1976 & Year <= 1991) %>% ggplot(aes(x = Year, y = Population))+ geom_col(fill = 'green')

d %>% filter(Year > 1991) %>% ggplot(aes(x = Year, y = Population))+ geom_col(fill = 'green')

Với tốc độ phát triển trung bình và lượng tăng trung bình tương ứng
cho từng giai đoạn là: \[
\begin{array}{|c|c|c|} \hline
\text{Giai đoạn} & \text{Tốc độ phát triển} & \text{Lượng
tăng} \\ \hline
1 & 2.54 & 0.91 \\ \hline
2 & 2.5 & 1.44 \\ \hline
3 & 1.09 & 0.91 \\ \hline
\end{array}
\] Giai đoạn từ 1950 đến năm 1975 trung bình mỗi năm dân số Việt
Nam tăng khoảng 0.91 triệu người tương ứng tốc độ tăng trưởng là 2.54%
mỗi năm. Giai đoạn 2, từ năm 1976 đến năm 1991 số người tăng trung bình
mỗi năm tăng gấp 1.5 lần giai đoạn trước tương ứng là 1.44 triệu người
mỗi năm và tốc độ tăng trưởng không thay đổi nhiều 2.54% so với 2.5%
trong giai đoạn trước. Bước sang giai đoạn thứ 3 từ năm 1992 đến năm
20021 tốc độ tăng trưởng trung bình giảm xuống còn 1.09% mỗi năm chưa
bằng một nữa so với 2 giai đoạn trước nhưng số lượng người tăng lên
khoảng 0.91 triệu người mỗi năm.
Phân tích sự biến
động về cơ cấu dân số theo độ tuổi
Do cơ cấu dân số được phân chia theo nhiều tiêu chí khác nhau nên
trong phần này chúng tôi chỉ phân tích sự biến động về tỷ lệ dân số có
độ tuổi từ 15 đến 64 tuổi trong 3 giai
d <- d %>% mutate(p15_64 = Population.aged.15.to.64.years/Population/1000000)
tmp <- d %>% group_by(Period) %>% summarise(A = mean(p15_64))
tmp
## # A tibble: 3 × 2
## Period A
## <chr> <dbl>
## 1 1 0.551
## 2 2 0.549
## 3 3 0.654
tmp %>% ggplot(aes(x = Period, y = A)) + geom_col(fill = 'green')
Độ tuổi từ 15 đến 64 được xem là độ tuổi lao động, lực lượng này là trụ
cột của nền kinh tế trên tất cả các lĩnh vực. Từ số liệu ta thấy rằng
trong giai đoạn 1 và 2 tỷ lệ người có độ tuổi lao động xấp xỉ nhau lần
lượt chiếm khoảng 55% và 65%, tỷ lệ này thấp hơn giai đoạn 3 khoảng
10%.
