Nhiệm vụ 3.1
1. Tóm tắt
Bộ dữ liệu phân tích dân số của hơn 100 quốc gia qua các năm từ 1950
- 2021 theo từng độ tuổi, từ đó ta sẽ thấy được tốc độ gia tăng dân số,
sự già hóa dân số và các quốc gia có số dân đông nhất.
Chi tiết các biến có trong bộ dữ liệu:
Bộ dữ liệu có 18288 quan sát và 24 biến
- Country name (Na): Tên quốc gia
- Year (Y): năm
- Population: dân số
- Population of children under the age of 1 (U1): dân
số trẻ em dưới 1 tuổi
- Population of children under the age of 5 (U5): dân
số trẻ em dưới 5 tuổi
- Population of children under the age of 15 (U15):
dân số trẻ em dưới 15 tuổi
- Population under the age of 25 (U25): dân số dưới
25 tuổi
- Population aged 15 to 64 years (15T64): số dân từ
15 đến 64 tuổi
- Population older than 15 years (O15): dân số trên
15 tuổi
- Population older than 18 years (O18): dân số trên
18 tuổi
- Population at age 1 (1): dân số 1 tuổi
- Population aged 1 to 4 years (1T): dân số 1 đến 4
tuổi
- Population aged 5 to 9 years (5T9): dân số 5 đến 9
tuổi
- Population aged 10 to 14 years (10T14): dân số 10
đến 14 tuổi
- Population aged 15 to 19 years (15T19): dân số 15
đến 19 tuổi
- Population aged 20 to 29 years (20T9): dân số 20
đến 29 tuổi
- Population aged 30 to 39 years (30T39): dân số 30
đến 39 tuổi
- Population aged 40 to 49 years (40T49): dân số 40
đến 49 tuổi
- Population aged 50 to 59 years (50T59): dân số 50
đến 59 tuổi
- Population aged 60 to 69 years (60T69): dân số 60
đến 69 tuổi
- Population aged 70 to 79 years (70T79): dân số 70
đến 79 tuổi
- Population aged 80 to 89 years (80T89): dân số 80
đến 89 tuổi
- Population aged 90 to 99 years (90T99): dân số 90
đến 99 tuổi
- Population older than 100 years (O100): dân số hơn
100 tuổi
na <- read.csv("D:/Ngôn Ngữ Lập Trình/population-and-demography.csv")
dim(na)
## [1] 18288 24
2. Phân tích dữ liệu
- Quan sát dữ liệu 5 quốc gia có số dân đông: China, India, United
States, Indonesia, Brazil từ năm 1951 - 2021 theo từng độ tuổi
(dưới 15 tuổi, dưới 25 tuổi, từ 15 đến 19 tuổi, từ 20 đến 29 tuổi, từ 30
đến 39 tuổi, từ 60 đến 69 tuối,từ 15 đến 64 tuổi, hơn 100 tuổi)
library(tidyverse)
library(DT)
library(flextable)
names(na) <- c('Na','Y','Pop','U1','U5','U15','U25','15T64','O15','O18','1','1T4','5T9','10T14','15T19','20T29','30T39','40T49','50T59','60T69','70T79','80T89','90T99','O100')
d <- na %>% filter(Na %in% c('China','India','United States', 'Indonesia', 'Brazil'))%>%select(Na,Y,Pop,U15,U25,'15T19','20T29','30T39','60T69','15T64','O100')
datatable(d)
3. Giải thích
- China, India, United States, Indonesia, Brazil có số dân đông
d1 <- d%>%select(Na,Y,Pop)
datatable(d1)
- Các số liệu này cung cấp thông tin về sự phân bố dân số theo các độ
tuổi khác nhau trong mỗi quốc gia. Chúng có thể được sử dụng để so sánh
mức độ tuổi trẻ, mức độ già, và sự phân bố dân số của các quốc gia khác
nhau.
4. Mã hóa dữ liệu
d2 <- d
- Thêm một cột Na.Code để chia China với 4 nước còn lại
d2$Na.Code <- ifelse(d2$Na == 'China','China','Not China')
- Thêm một cột Na.Code1 để chia năm thành thế kỷ 20 và thế kỷ 21
d2$Y.Code1 <- ifelse(d2$Y >= 2001,'TK21', 'TK20')
- Thêm một cột Pop.Code để chia dân số thành 3 nhóm: nhóm 1 với số dân
nhỏ hơn 100000000, nhóm 2 với số dân từ 100000000 đến 999999999 , nhóm 3
với số dân lớn hơn 1000000000
d2$Pop.Code <- case_when(d2$Pop < 100000000 ~ 'Nhóm 1', d2$Pop >= 100000000 & d2$Pop < 999999999 ~ 'Nhóm 2', d2$Pop >1000000000 ~ 'Nhóm 3')
- Thêm một cột O100.Code để phân loại người lớn tuổi trên 100 tuổi
thành 4 nhóm: nhóm 1 dưới 100, nhóm 2 từ 100 đến 999, nhóm 3 từ 1000 đến
9999, nhóm 4 lớn hơn 10000
d2$O100.Code <- case_when(d2$O100 < 100 ~ 'Nhóm 1', d2$O100 >= 100 & d2$O100 < 999 ~ 'Nhóm 2', d2$O100 >= 1000 & d2$O100 <9999 ~ 'Nhóm 3',d2$O100 >= 10000 ~ 'Nhóm 4')
Bảng số liệu mới mà ta nhận được sau khi mã
hóa
datatable(d2)
5. Bảng tần số
- Với tần suất xuất hiện 72 lần thì chúng ta thấy được bộ dữ liệu đang
phân tích dân số của các nước trong thời gian 72 năm
table(d$Na)
##
## Brazil China India Indonesia United States
## 72 72 72 72 72
- Lập bảng tần số về số người lớn tuổi có độ tuổi hơn 100 tuổi của 5
nước
table(d2$O100.Code)
##
## Nhóm 1 Nhóm 2 Nhóm 3 Nhóm 4
## 23 164 93 80
d4 <- d2%>% group_by(Na,O100.Code) %>% summarise(n= n())
datatable(d4)
Từ bảng tần số trên ta thấy người lớn tuổi ở nhóm số 2 có tần
số xuất hiện nhiều nhất. Trong đó ta thấy Indonesia có số dân thuộc nhóm
2 ở độ tuổi hơn 100 nhiều nhất, sau đó là Brazil.
6. Phân tích số liệu
Tính toán đặc trưng đo lường theo Brazil
Br <- d%>% filter(Na=='Brazil')
- Dân số trung bình ở độ tuổi dưới 15 tuổi
mean(Br$U15,na.rm = T)
## [1] 43998992
- Từ số liệu bên dưới ta thấy dân số thấp nhất của Brazil là 53955360,
cao nhất là 21326220
- Phân vị thứ nhất bằng 91075260
- Trung vị bằng 138213270
- Dân số trung bình lad 136542332
- Phân vị thứ ba bằng 183152472
summary(Br$Pop)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 53955360 91075260 138213270 136542332 183152472 214326220
- Tổng số người dân hơn 100 qua các năm
sum(Br$O100)
## [1] 38468
- Phương sai của các giá trị trong biến từ 15 đến 19
var(Br$'15T19')
## [1] 1.73329e+13
- Giá trị ở vị trí trung vị của các giá trị trong độ tuổi 15 đến
64
median(Br$'15T64')
## [1] 81616995
Tính toán đặc trưng đo lường theo nhóm quốc
gia
- Dân số trung bình theo nhóm quốc gia: Từ bảng số liệu ta thấy dân số
trung bình của China là cao nhất
moc <- d%>% group_by(Na) %>% summarise(n = n(),mean_of_Pop = mean(Pop))
moc
## # A tibble: 5 × 3
## Na n mean_of_Pop
## <chr> <int> <dbl>
## 1 Brazil 72 136542332.
## 2 China 72 1035531645.
## 3 India 72 829637465.
## 4 Indonesia 72 167585644.
## 5 United States 72 241932229.
- Tính trung vị theo nhóm quốc gia: Từ bảng số liệu ta thấy trung vị
của China là cao nhất
medoc <- d %>% group_by(Na) %>% summarise(med_of_Pop = median(Pop))
medoc
## # A tibble: 5 × 2
## Na med_of_Pop
## <chr> <dbl>
## 1 Brazil 138213270
## 2 China 1069005250
## 3 India 789060550
## 4 Indonesia 167463490
## 5 United States 236329480
- Tính dân số trung bình theo năm và quốc gia
moc2 <- d2%>% group_by(Na,Y.Code1) %>% summarise(n = n(),mean_of_Pop = mean(Pop),.groups = 'drop')
moc2
## # A tibble: 10 × 4
## Na Y.Code1 n mean_of_Pop
## <chr> <chr> <int> <dbl>
## 1 Brazil TK20 51 111405843.
## 2 Brazil TK21 21 197588093.
## 3 China TK20 51 903556212.
## 4 China TK21 21 1356043410.
## 5 India TK20 51 655156644.
## 6 India TK21 21 1253376600
## 7 Indonesia TK20 51 135039123.
## 8 Indonesia TK21 21 246627196.
## 9 United States TK20 51 212599363.
## 10 United States TK21 21 313169189.
Từ bảng số liệu ta có một số kết luận sau:
TK 20 thì dân số trung bình của China là cao nhất TK 21 thì dân số
trung bình của China là cao nhất
Vậy China là nước có số dân cao nhất trong 5 nước
So sánh dân số 5 quốc gia ở 2 mốc thời gian 2000 và
2021
d5 <- d%>% filter(Y =="2000"| Y=='2021')%>% select(Na,Y,Pop)
datatable(d5)
Từ bảng số liệu trên ta thấy được dân số của 5 quốc gia đều tăng
mạnh, trong đó dân số của China và India có sự tăng trưởng
nhanh.
Trong năm 2000 Brazil là quốc gia có số dân thấp nhất so với 4
nước còn lại.
Trong năm 2021 Brazil là quốc gia có số dân thấp nhất.
Vậy từ đó tà thấy được China và India có sự tăng tưởng nhanh,
Brazil tăng tưởng còn chậm hơn so với 4 quốc gia còn lại.
Nhiệm vụ 3.2
1. Tóm tắt
- Có hàng ngàn (nếu không muốn nói là hàng trăm ngàn) cơ sở giáo dục
đại học trên khắp thế giới nhận sinh viên mới mỗi năm. Do đó, sinh viên
tương lai thường được giao nhiệm vụ nghiên cứu các tổ chức tốt nhất phù
hợp với sở thích học tập của họ trước khi nộp đơn. Cách dễ nhất thường
là xem một trường đại học quan tâm xếp hạng như thế nào trên toàn cầu
(hoặc ở quốc gia bản địa của nó) và sau đó so sánh nó với một trường đại
học khác. Một cách tiếp cận chi tiết hơn sẽ là so sánh các trường đại
học không chỉ trên bảng xếp hạng của họ mà còn về các số liệu như môi
trường nghiên cứu, tiêu chuẩn giảng dạy, lòng hiếu khách đối với sinh
viên nước ngoài và thu nhập của ngành trong số những người khác.
- Cuối cùng, bộ dữ liệu này cung cấp một danh sách các trường đại học
cùng với bảng xếp hạng của họ và nhiều số liệu quan tâm khác theo Times
Higher Education.
library(tidyverse)
library(DT)
library(flextable)
na1 <- read.csv("D:/Ngôn Ngữ Lập Trình/Nhiệm vụ 3/THE World University Rankings 2016-2024.csv")
library(skimr)
skim(na1)
Data summary
Name |
na1 |
Number of rows |
12430 |
Number of columns |
13 |
_______________________ |
|
Column type frequency: |
|
character |
3 |
numeric |
10 |
________________________ |
|
Group variables |
None |
Variable type: character
Name |
0 |
1 |
3 |
91 |
0 |
2105 |
0 |
Country |
0 |
1 |
4 |
22 |
0 |
108 |
0 |
International.Students |
0 |
1 |
1 |
3 |
0 |
89 |
0 |
Variable type: numeric
Rank |
0 |
1 |
736.83 |
467.96 |
1.00 |
346.00 |
691.00 |
1078.00 |
1904.00 |
▇▇▇▅▂ |
Student.Population |
0 |
1 |
23367.00 |
34987.15 |
25.00 |
10149.50 |
17824.00 |
29218.50 |
1824383.00 |
▇▁▁▁▁ |
Students.to.Staff.Ratio |
0 |
1 |
18.90 |
17.06 |
0.30 |
12.30 |
16.30 |
22.00 |
865.80 |
▇▁▁▁▁ |
Overall.Score |
0 |
1 |
35.33 |
16.88 |
8.22 |
21.73 |
32.40 |
45.19 |
98.46 |
▇▇▅▁▁ |
Teaching |
0 |
1 |
28.54 |
14.06 |
8.20 |
18.80 |
24.30 |
33.80 |
99.00 |
▇▅▁▁▁ |
Research.Environment |
0 |
1 |
24.11 |
17.60 |
0.80 |
11.70 |
18.10 |
30.50 |
100.00 |
▇▅▁▁▁ |
Research.Quality |
0 |
1 |
49.19 |
27.53 |
0.70 |
24.50 |
47.45 |
72.97 |
100.00 |
▇▇▇▇▆ |
Industry.Impact |
0 |
1 |
46.51 |
18.70 |
0.00 |
35.30 |
39.50 |
52.20 |
100.00 |
▁▇▅▂▂ |
International.Outlook |
0 |
1 |
47.60 |
23.00 |
7.10 |
28.22 |
43.30 |
63.60 |
100.00 |
▅▇▆▃▃ |
Year |
0 |
1 |
2020.66 |
2.48 |
2016.00 |
2019.00 |
2021.00 |
2023.00 |
2024.00 |
▃▅▃▇▇ |
Chi tiết các biến có trong bộ dữ liệu:
Bộ dữ liệu có 12430 quan sát và 14 biến
- Rank: xếp hạng
- Name (Na): tên Trường
- Country: Quốc gia
- Student Population (S.Pop): số sinh viên
- Students to Staff Ratio (StS): Tỷ lệ sinh viên trên
nhân viên
- International Students (InterS): Sinh viên quốc
tế
- Overall Score (OverS): Điểm tổng thể
- Teaching: Giảng dạy
- Research Environment (Res.En): Môi trường nghiên
cứu
- Research Quality (Res.Qu): Chất lượng nghiên
cứu
- Industry Impac (Ind)t: Tác động của ngành
- International Outlook (Inter): Triển vọng quốc
tế
- Year (Y): Năm
dim(na1)
## [1] 12430 13
2. Phân tích dữ liệu
- Quan sát dữ liệu của một số quốc gia ở Đông Nam Á
(Singapore,Thailand, Malaysia, Philippines,Indonesia, Vietnam) với các
dữ liệu gồm tên số sinh viên, sinh viên quốc tế, Điểm tổng thể, Môi
trường nghiên cứu, Chất lượng nghiên cứu, Tác động của ngành, Triển vọng
quốc tế, năm.
library(tidyverse)
names(na1) <- c('Rank','Na','Country','S.Pop','StS','InterS','OverS','Teaching','Res.En','Res.Qu','Ind','Inter','Y')
names(na1)
## [1] "Rank" "Na" "Country" "S.Pop" "StS" "InterS"
## [7] "OverS" "Teaching" "Res.En" "Res.Qu" "Ind" "Inter"
## [13] "Y"
d6 <- na1%>%select(Y,Country,S.Pop,InterS,OverS,Res.En,Res.Qu,Ind,Inter)
d7 <- d6%>%filter(Country=='Vietnam'|Country=='Singapore'|Country=='Thailand'|Country=='Malaysia'|Country=='Philippiens'|Country=='Indonesia')
datatable(d7)
3. Mã hóa dữ liệu
- Thêm một cột Na.Code để chia Vietnam với 4 nước còn lại
d8 <- d7
d8$Country.Code <- ifelse(d8$Country == 'Vietnam','Việt Nam','Not Việt Nam')
- Thêm một cột Y.Code để chia năm thành trước năm 2020 và sau năm
2020
d8$Y.Code2 <- ifelse(d8$Y >= 2020,'Sau năm 2020', 'Trước năm 2020')
datatable(d8)
Từ bảng dữ liệu trên ta thấy được sau năm 2020 thì Trường Đại
học của Việt Nam đã được đưa vào danh sách trường Đại học có tiếng thế
giới.
4. Bảng tần số
- Từ số liệu bên dưới ta thấy được trong vòng khoảng thời gian 2016
đến 2024 Việt Nam đã có 23 lần được đưa vào danh sách có các trường đại
học thế giới
table(d8$Country)
##
## Indonesia Malaysia Singapore Thailand Vietnam
## 83 123 18 127 23
6. Phân tích số liệu
Tính toán đặc trưng đo lường theo Vietnam
VN <- d6%>% filter(Country=='Vietnam')
- Số sinh viên trùn bình của trường ĐH ở Việt Nam
mean(VN$S.Pop,na.rm = T)
## [1] 42765.74
- Kết quả bên dưới cho thấy: Min - Gía trị nhỏ nhất :
Số sinh viên ít nhất 21519
1st Qu. - Phân vị thứ nhất : là 29647 sinh viên
Median - Trung vị : là 36140 sinh viên
Mean - Gía trị trung bình : là 42766, nghĩa là số
sinh viên trung bình là 42766
3rd Qu. - Phân vị thứ ba : là 50474 sinh viên
Max - Gía trị lớn nhất : Số sinh viên cao nhất từng
chạm đến là 83599
summary(VN$S.Pop)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 21519 29647 36410 42766 50474 83599
- Tổng số sinh viên của Việt Nam từ 2016-2024
sum(VN$S.Pop)
## [1] 983612
- Phương sai của các giá trị điểm tổng thể
var(VN$OverS)
## [1] 104.5054
- Giá trị ở vị trí trung vị triển vọng quốc tế
median(VN$Inter)
## [1] 45.6
Tính toán đặc trưng đo lường theo nhóm quốc
gia
- Số sinh viên trung bình theo nhóm quốc gia: Từ bảng số liệu ta thấy
dân số trung bình của Vietnam là cao nhất
ltna <- d8%>% group_by(Country) %>% summarise(n = n(),mean_of_S.Pop = mean(S.Pop))
ltna
## # A tibble: 5 × 3
## Country n mean_of_S.Pop
## <chr> <int> <dbl>
## 1 Indonesia 83 31153.
## 2 Malaysia 123 17530.
## 3 Singapore 18 28242.
## 4 Thailand 127 30164.
## 5 Vietnam 23 42766.
- Tính trung vị theo nhóm quốc gia: Từ bảng số liệu ta thấy trung vị
của Vietnam là cao nhất
ltna1 <- d8 %>% group_by(Country) %>% summarise(med_of_S.Pop = median(S.Pop))
ltna1
## # A tibble: 5 × 2
## Country med_of_S.Pop
## <chr> <dbl>
## 1 Indonesia 32695
## 2 Malaysia 15858
## 3 Singapore 28248.
## 4 Thailand 28611
## 5 Vietnam 36410
- Tính số sinh viên trung bình theo năm và quốc gia
ltna2 <- d8%>% group_by(Country,Y.Code2) %>% summarise(n = n(),mean_of_S.Pop = mean(S.Pop),.groups = 'drop')
ltna2
## # A tibble: 9 × 4
## Country Y.Code2 n mean_of_S.Pop
## <chr> <chr> <int> <dbl>
## 1 Indonesia Sau năm 2020 71 31128.
## 2 Indonesia Trước năm 2020 12 31300.
## 3 Malaysia Sau năm 2020 91 15905.
## 4 Malaysia Trước năm 2020 32 22151.
## 5 Singapore Sau năm 2020 10 28279.
## 6 Singapore Trước năm 2020 8 28197.
## 7 Thailand Sau năm 2020 87 29180.
## 8 Thailand Trước năm 2020 40 32304.
## 9 Vietnam Sau năm 2020 23 42766.
Từ bảng số liệu trên ta thấy được số sinh viên của 5 nước đều
tăng qua các năm, riêng Việt Nam thì số sinh viên sau năm 2020 mới
có.
Trước năm 2020 và sau năm 2020 Malaysia có số sinh viên thấp hơn
só với các nước khác trong khoảng thời gian đó.
