Nhiệm vụ 3.1
1. Giới thiệu:
Nhiệm vụ 3.1 tiến hành thao tác để phân tích bộ dữ liệu
“population-and-demography.csv”, là dataset thống kê về dân số và nhân
khẩu học của hơn 100 quốc gia khác nhau tại các độ tuổi từ năm 1950 đến
năm 2021
Ta thực hiện các lệnh sau:
yc1 <- read.csv("F:/Ngôn ngữ lập trình/population-and-demography.csv", header = T)
library(skimr)
skim(yc1)
Data summary
| Name |
yc1 |
| Number of rows |
18288 |
| Number of columns |
24 |
| _______________________ |
|
| Column type frequency: |
|
| character |
1 |
| numeric |
23 |
| ________________________ |
|
| Group variables |
None |
Variable type: character
| Country.name |
0 |
1 |
4 |
59 |
0 |
254 |
0 |
Variable type: numeric
| Year |
0 |
1 |
1985.50 |
20.78 |
1950 |
1967.75 |
1985.5 |
2003.25 |
2021 |
▇▇▇▇▇ |
| Population |
0 |
1 |
126470436.62 |
588851230.77 |
1363 |
291591.50 |
3833997.5 |
16785463.50 |
7909295000 |
▇▁▁▁▁ |
| Population.of.children.under.the.age.of.1 |
0 |
1 |
3133496.86 |
14167006.03 |
25 |
6663.75 |
88352.0 |
463000.50 |
139783730 |
▇▁▁▁▁ |
| Population.of.children.under.the.age.of.5 |
0 |
1 |
14825709.57 |
67384368.62 |
136 |
31995.25 |
423784.5 |
2160046.50 |
690360700 |
▇▁▁▁▁ |
| Population.of.children.under.the.age.of.15 |
0 |
1 |
41095227.11 |
188416973.54 |
416 |
89541.50 |
1186121.5 |
5905944.75 |
2015023400 |
▇▁▁▁▁ |
| Population.under.the.age.of.25 |
0 |
1 |
63762600.31 |
294251869.66 |
623 |
139541.50 |
1843099.5 |
9025129.75 |
3239281000 |
▇▁▁▁▁ |
| Population.aged.15.to.64.years |
0 |
1 |
77429505.08 |
367651914.71 |
748 |
170263.50 |
2246772.0 |
9641250.00 |
5132999000 |
▇▁▁▁▁ |
| Population.older.than.15.years |
0 |
1 |
85372101.76 |
404866940.61 |
849 |
186716.00 |
2482104.0 |
10354345.50 |
5893678600 |
▇▁▁▁▁ |
| Population.older.than.18.years |
0 |
1 |
78196242.04 |
372017010.49 |
752 |
166417.50 |
2238130.5 |
9239904.00 |
5516283000 |
▇▁▁▁▁ |
| Population.at.age.1 |
0 |
1 |
3011212.81 |
13661998.41 |
26 |
6473.75 |
85824.0 |
440787.50 |
138478740 |
▇▁▁▁▁ |
| Population.aged.1.to.4.years |
0 |
1 |
11692212.72 |
53238243.89 |
101 |
25269.25 |
334454.0 |
1697850.75 |
550970400 |
▇▁▁▁▁ |
| Population.aged.5.to.9.years |
0 |
1 |
13598575.21 |
62534310.11 |
138 |
29406.25 |
392220.5 |
1947260.75 |
683611800 |
▇▁▁▁▁ |
| Population.aged.10.to.14.years |
0 |
1 |
12670942.28 |
58775457.46 |
73 |
27879.50 |
363895.5 |
1796754.00 |
659934300 |
▇▁▁▁▁ |
| Population.aged.15.to.19.years |
0 |
1 |
11782258.92 |
55126036.18 |
110 |
26296.50 |
336969.5 |
1626210.75 |
623576060 |
▇▁▁▁▁ |
| Population.aged.20.to.29.years |
0 |
1 |
20872880.04 |
98860990.50 |
158 |
45050.75 |
609723.5 |
2758738.50 |
1210493200 |
▇▁▁▁▁ |
| Population.aged.30.to.39.years |
0 |
1 |
17158704.11 |
82404600.95 |
137 |
36608.25 |
486290.5 |
2113149.00 |
1165207300 |
▇▁▁▁▁ |
| Population.aged.40.to.49.years |
0 |
1 |
13622138.99 |
66008221.21 |
119 |
27440.25 |
364712.5 |
1556334.00 |
976407200 |
▇▁▁▁▁ |
| Population.aged.50.to.59.years |
0 |
1 |
10177069.11 |
49288480.77 |
95 |
19649.75 |
264781.5 |
1203386.00 |
851356900 |
▇▁▁▁▁ |
| Population.aged.60.to.69.years |
0 |
1 |
6801756.84 |
32712918.99 |
64 |
12603.00 |
168417.5 |
845242.75 |
598067140 |
▇▁▁▁▁ |
| Population.aged.70.to.79.years |
0 |
1 |
3618710.03 |
17491538.61 |
31 |
6221.00 |
81824.0 |
436710.00 |
330491170 |
▇▁▁▁▁ |
| Population.aged.80.to.89.years |
0 |
1 |
1195799.30 |
6238308.33 |
6 |
1818.75 |
20269.5 |
133380.50 |
131835590 |
▇▁▁▁▁ |
| Population.aged.90.to.99.years |
0 |
1 |
142784.38 |
853350.39 |
0 |
154.75 |
1468.5 |
12499.00 |
22223974 |
▇▁▁▁▁ |
| Population.older.than.100.years |
0 |
1 |
3107.72 |
20951.57 |
0 |
0.00 |
13.0 |
163.00 |
593166 |
▇▁▁▁▁ |
Một số thông tin cơ bản của bộ dữ liệu:
2. Chuẩn bị:
Để đánh giá tình hình sinh tử, tuổi thọ, khả năng phát triển dân số
và nguồn lao động của Việt Nam và các nước lớn như Nga, Trung Quốc, Nhật
Bản, Đức từ năm 2018 đến năm 2021, chúng ta cần phân tích cơ cấu dân số
theo độ tuổi của các quốc gia này. Cụ thể, chúng ta chỉ cần lọc ra dữ
liệu về dân số và độ tuổi của 5 quốc gia trên. Trong đó, độ tuổi sẽ được
chia thành 3 nhóm:
- Nhóm dưới tuổi lao động: từ 0 đến 14 tuổi
- Nhóm tuổi lao động: từ 15 đến 59 tuổi (hoặc đến 64 tuổi)
- Nhóm trên tuổi lao động: từ 60 tuổi (hoặc 65 tuổi) trở lên
Đối với bộ dữ liệu này, nhóm trên tuổi lao động sẽ được lấy từ 60 đến
89 tuổi
Sau khi đã xác định nội dung cần phân tích, ta tiến hành lọc dữ
liệu:
- Sử dụng lệnh filter để lọc dữ liệu của các
nước Việt Nam, Nga, Trung Quốc, Nhật Bản, Đức từ năm 2018-2021
=> Kết quả thu được yc1.1 có 20 quan
sát và 24 biến
library(dplyr) # gọi package dplyr để thực hiện toán tử %>%
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(DT) # gọi package DT để thực hiện lệnh datatable
yc1.1 <- yc1 %>% filter(Year %in% c('2018','2019','2020','2021') & Country.name %in% c('Vietnam','Russia','China','Japan','Germany'))
datatable(yc1.1) # rút gọn bảng để nhìn cho thuận mắt hơn
- Sử dụng lệnh select để chọn những cột Tên
quốc gia, Năm, Tổng dân số, Dân số trẻ em dưới 15 tuổi, Dân số từ 15 đến
64 tuổi, Dân số từ 60 đến 69 tuổi, Dân số từ 70 đến 79 tuổi, Dân số từ
80 đến 89 tuổi
=> Kết quả thu được yc1.2 có 20 quan
sát và 10 biến
yc1.2 <- yc1.1 %>% select ('Country.name','Year','Population','Population.of.children.under.the.age.of.15','Population.aged.15.to.64.years','Population.aged.60.to.69.years','Population.aged.70.to.79.years','Population.aged.80.to.89.years')
datatable(yc1.2) # rút gọn bảng để nhìn cho thuận mắt hơn
- Vì tên của các biến khá dài, ta sẽ đặt lại tên cho các biến ấy bằng
lệnh names để dễ dàng thao tác hơn
names(yc1.2) <- c('C','Y','P','U15','15-64','60-69','70-79','80-89')
3. Mã hóa dữ liệu
Để có thể phân tích các dữ liệu về dân số một cách thuận tiện hơn,
chúng ta sử dụng các lệnh để mã hóa dữ liệu giúp chuyển đổi từ dữ liệu
dạng này sang một dạng mới.
- Cột biến mới có tên SL (sử dụng lệnh
case_when): cho biết nếu dân số của 5 nước
trên ít hơn 50000000 thì cho ra kết quả là Ít
dân, nếu dân số trong khoảng từ 50000000 đến
100000000 thì cho ra kết quả là Vừa,
nếu dân số lớn hơn 100000000 thì cho ra kết quả là
Đông dân
=> Như vậy, cho thấy dân số qua 4 năm của Trung Quốc, Nhật, Nga
luôn đông dân, còn Việt Nam và Đức thì vừa
- Cột biến mới có tên Phanloai (sử dụng lệnh
ifelse): cho biết nếu dân số của 5 nước trong
độ tuổi từ 15-64 lớn hơn 70000000 thì
cho ra kết quả là Có độ tuổi LĐ cao và ngược lại sẽ cho
ra kết quả Có độ tuổi LĐ thấp
=> Như vậy, cho thấy Trung Quốc, Nhật Bản, Nga có lực lượng lao
động dồi dào, còn Việt Nam và Đức thì vẫn còn thấp hơn so với 3 nước
kia
yc1.2$SL <- case_when(yc1.2$P < 50000000 ~ 'Ít dân', yc1.2$P >= 50000000 & yc1.2$P <= 100000000 ~ 'Vừa', yc1.2$P >100000000 ~ 'Đông dân')
yc1.2$Phanloai <- ifelse(yc1.2$'15-64' > 70000000,'Có độ tuổi LĐ cao','Có độ tuổi LĐ thấp')
datatable(yc1.2)
4. Lập bảng tần số
Bảng tần số là một bảng biểu được sử dụng để tóm tắt dữ liệu thống kê
một cách trực quan và dễ hiểu. Nó có thể giúp chúng ta hiểu được các đặc
điểm chính của dữ liệu, chẳng hạn như giá trị trung bình, giá trị trung
vị và độ lệch chuẩn.
- Bảng thống kê nhiều biến: với câu lệnh
group_by cho phép lập bảng với nhiều biến cùng lúc kết
hợp cùng câu lệnh summarise(n= n() cho ra số n tần suất
của dữ liệu và .groups = ‘drop’ giúp chia nhóm dữ liệu
library(dbplyr) # gọi package dplyr để thực hiện toán tử %>%
##
## Attaching package: 'dbplyr'
## The following objects are masked from 'package:dplyr':
##
## ident, sql
ts <- yc1.2 %>% group_by(Y, C, SL) %>% summarise(n= n(), .groups = 'drop')
table(ts)
## , , SL = Đông dân, n = 1
##
## C
## Y China Germany Japan Russia Vietnam
## 2018 1 0 1 1 0
## 2019 1 0 1 1 0
## 2020 1 0 1 1 0
## 2021 1 0 1 1 0
##
## , , SL = Vừa, n = 1
##
## C
## Y China Germany Japan Russia Vietnam
## 2018 0 1 0 0 1
## 2019 0 1 0 0 1
## 2020 0 1 0 0 1
## 2021 0 1 0 0 1
=> Như vậy, ta có thể thấy tần suất xuất hiện giá trị đối với dữ
liệu Đông dân của Trung Quốc, Nhật Bản, Nga là 1. Tức
là từ năm 2018-2021 cả 3 nước trên luôn đông dân. Tương tự đối với dữ
liệu Vừa của Việt Nam và Đức
- Bảng tần số 2 biến: sử dụng lệnh
table() để xuất dữ liệu
table(yc1.2$C, yc1.2$Phanloai)
##
## Có độ tuổi LĐ cao Có độ tuổi LĐ thấp
## China 4 0
## Germany 0 4
## Japan 4 0
## Russia 4 0
## Vietnam 0 4
=> Như vậy, tần suất mà 3 nước Trung Quốc, Nhật Bản, Nga có độ
tuổi lao động cao là 4 năm. Còn tần suất mà 2 nước Việt Nam và Đức có độ
tuổi lao động thấp là 4 năm.
5. Tính toán các đặc trưng đo lường
- Hàm sum() chỉ tổng giá trị của biến
CN <- yc1.2[yc1.2$C == 'China',] # Rút tất cả dữ liệu về nước Trung Quốc từ yc1.2
sum(CN$'15-64')
## [1] 3960086520
=> Như vậy, tổng dân số trong độ tuổi lao động (15-64) của nước
Trung Quốc từ năm 2018-2021 là 3960086520
- Hàm var() là phương sai cho biết trung
bình bình phương độ lệch (dao động, biến đổi) của biến
JP <- yc1.2[yc1.2$C == 'Japan',] # Rút tất cả dữ liệu về nước Nhật Bản từ yc1.2
var(JP$'70-79')
## [1] 363411340834
=> Như vậy, trong độ tuổi từ 70-79 độ dao động dân số của nước
Nhật Bản từ năm 2018-2021 là 363411340834
- Hàm median() là trung vị của biến
VN <- yc1.2[yc1.2$C == 'Vietnam',] # Rút tất cả dữ liệu về nước Việt Nam từ yc1.2
mean(VN$'80-89',na.rm = T) #na.rm: bỏ những dữ liệu bị mất đi
## [1] 1350598
=> Như vậy, trong độ tuổi từ 80-89 của nước Việt Nam từ năm
2018-2021 có 50% dân số dưới 1350598 người và 50% dân
số trên 1350598 người
6. Tính toán các đặc trưng đo lường theo nhóm
Gán câu lệnh cho tb , sử dụng hàm
group_by để nhóm dữ liệu theo cột C, và sau đó
dử dụng summarise để tóm tắt thông tin của mỗi
nhóm theo độ lớn trung bình của các nhóm.
tb <- yc1.2 %>% group_by(C) %>% summarise(n = n(),mea = mean(U15))
tb
| China |
4 |
257258485 |
| Germany |
4 |
11395024 |
| Japan |
4 |
15058939 |
| Russia |
4 |
25710297 |
| Vietnam |
4 |
21911891 |
Cụ thể tính trung bình dân số dưới 15 tuổi của 5 nước trong 4 năm
bằng lệnh mean(U15)
C: là tên các nước
n: là số năm, kết quả của mỗi nước là 4, có nghĩa là tổng trung bình
được tính trong 4 năm
mea: là tên đặt cho lệnh mean(U15), có nghĩa là trung bình dân số
dưới 15 tuổi của 5 nước
=> Như vậy, ví dụ như Việt Nam có trung bình dân số dưới 15 tuổi
trong 4 năm là 21911891
Gán câu lệnh cho tv , sử dụng hàm
group_by để nhóm dữ liệu theo cột C, và sau đó
dử dụng summarise để tóm tắt thông tin của mỗi
nhóm theo độ lớn trung bình của các nhóm.
tv <- yc1.2 %>% group_by(Y) %>% summarise(medi = median(U15))
tv
| 2018 |
21847120 |
| 2019 |
21893514 |
| 2020 |
21932616 |
| 2021 |
21974312 |
Cụ thể tính trung vị dân số dưới 15 tuổi của cả 5 nước trong 4 năm
bằng lệnh median(U15)
Y: là từng năm
medi: là tên đặt cho lệnh median(U15), có nghĩa là trung vị dân số
dưới 15 tuổi của cả 5 nước => Như vậy, trong năm 2018 có 50% dân số
của cả 5 nước dưới 21847120 người và trên 50%
21847120
