Nhiệm vụ 3.1

1. Tóm tắt

Bộ dữ liệu phân tích dân số của hơn 100 quốc gia qua các năm từ 1950 - 2021 theo từng độ tuổi, từ đó ta sẽ thấy được tốc độ gia tăng dân số, sự già hóa dân số và các quốc gia có số dân đông nhất.

Chi tiết các biến có trong bộ dữ liệu:

Bộ dữ liệu có 18288 quan sát và 24 biến

  • Country name (Na): Tên quốc gia
  • Year (Y): năm
  • Population: dân số
  • Population of children under the age of 1 (U1): dân số trẻ em dưới 1 tuổi
  • Population of children under the age of 5 (U5): dân số trẻ em dưới 5 tuổi
  • Population of children under the age of 15 (U15): dân số trẻ em dưới 15 tuổi
  • Population under the age of 25 (U25): dân số dưới 25 tuổi
  • Population aged 15 to 64 years (15T64): số dân từ 15 đến 64 tuổi
  • Population older than 15 years (O15): dân số trên 15 tuổi
  • Population older than 18 years (O18): dân số trên 18 tuổi
  • Population at age 1 (1): dân số 1 tuổi
  • Population aged 1 to 4 years (1T): dân số 1 đến 4 tuổi
  • Population aged 5 to 9 years (5T9): dân số 5 đến 9 tuổi
  • Population aged 10 to 14 years (10T14): dân số 10 đến 14 tuổi
  • Population aged 15 to 19 years (15T19): dân số 15 đến 19 tuổi
  • Population aged 20 to 29 years (20T9): dân số 20 đến 29 tuổi
  • Population aged 30 to 39 years (30T39): dân số 30 đến 39 tuổi
  • Population aged 40 to 49 years (40T49): dân số 40 đến 49 tuổi
  • Population aged 50 to 59 years (50T59): dân số 50 đến 59 tuổi
  • Population aged 60 to 69 years (60T69): dân số 60 đến 69 tuổi
  • Population aged 70 to 79 years (70T79): dân số 70 đến 79 tuổi
  • Population aged 80 to 89 years (80T89): dân số 80 đến 89 tuổi
  • Population aged 90 to 99 years (90T99): dân số 90 đến 99 tuổi
  • Population older than 100 years (O100): dân số hơn 100 tuổi
na <- read.csv("D:/Ngôn Ngữ Lập Trình/population-and-demography.csv")
dim(na)
## [1] 18288    24

2. Phân tích dữ liệu

  • Quan sát dữ liệu 5 quốc gia có số dân đông: China, India, United States, Indonesia, Brazil từ năm 1951 - 2021 theo từng độ tuổi (dưới 15 tuổi, dưới 25 tuổi, từ 15 đến 19 tuổi, từ 20 đến 29 tuổi, từ 30 đến 39 tuổi, từ 60 đến 69 tuối,từ 15 đến 64 tuổi, hơn 100 tuổi)
library(tidyverse)
library(DT)
library(flextable)
names(na) <- c('Na','Y','Pop','U1','U5','U15','U25','15T64','O15','O18','1','1T4','5T9','10T14','15T19','20T29','30T39','40T49','50T59','60T69','70T79','80T89','90T99','O100')

d <- na %>% filter(Na %in% c('China','India','United States', 'Indonesia', 'Brazil'))%>%select(Na,Y,Pop,U15,U25,'15T19','20T29','30T39','60T69','15T64','O100')
datatable(d)

3. Giải thích

  • China, India, United States, Indonesia, Brazil có số dân đông
d1 <- d%>%select(Na,Y,Pop)
datatable(d1)
  • Các số liệu này cung cấp thông tin về sự phân bố dân số theo các độ tuổi khác nhau trong mỗi quốc gia. Chúng có thể được sử dụng để so sánh mức độ tuổi trẻ, mức độ già, và sự phân bố dân số của các quốc gia khác nhau.

4. Mã hóa dữ liệu

d2 <- d
  • Thêm một cột Na.Code để chia China với 4 nước còn lại
d2$Na.Code <- ifelse(d2$Na == 'China','China','Not China')
  • Thêm một cột Na.Code1 để chia năm thành thế kỷ 20 và thế kỷ 21
d2$Y.Code1 <- ifelse(d2$Y >= 2001,'TK21', 'TK20')
  • Thêm một cột Pop.Code để chia dân số thành 3 nhóm: nhóm 1 với số dân nhỏ hơn 100000000, nhóm 2 với số dân từ 100000000 đến 999999999 , nhóm 3 với số dân lớn hơn 1000000000
d2$Pop.Code <- case_when(d2$Pop < 100000000 ~ 'Nhóm 1', d2$Pop >= 100000000 & d2$Pop < 999999999  ~ 'Nhóm 2', d2$Pop >1000000000 ~ 'Nhóm 3')
  • Thêm một cột O100.Code để phân loại người lớn tuổi trên 100 tuổi thành 4 nhóm: nhóm 1 dưới 100, nhóm 2 từ 100 đến 999, nhóm 3 từ 1000 đến 9999, nhóm 4 lớn hơn 10000
d2$O100.Code <- case_when(d2$O100 < 100 ~ 'Nhóm 1', d2$O100 >= 100 & d2$O100 < 999  ~ 'Nhóm 2', d2$O100 >= 1000 & d2$O100 <9999 ~ 'Nhóm 3',d2$O100 >= 10000 ~ 'Nhóm 4')

Bảng số liệu mới mà ta nhận được sau khi mã hóa

datatable(d2)

5. Bảng tần số

  • Với tần suất xuất hiện 72 lần thì chúng ta thấy được bộ dữ liệu đang phân tích dân số của các nước trong thời gian 72 năm
table(d$Na)
## 
##        Brazil         China         India     Indonesia United States 
##            72            72            72            72            72
  • Lập bảng tần số về số người lớn tuổi có độ tuổi hơn 100 tuổi của 5 nước
table(d2$O100.Code)
## 
## Nhóm 1 Nhóm 2 Nhóm 3 Nhóm 4 
##     23    164     93     80
d4 <- d2%>% group_by(Na,O100.Code) %>% summarise(n= n())
datatable(d4)

Từ bảng tần số trên ta thấy người lớn tuổi ở nhóm số 2 có tần số xuất hiện nhiều nhất. Trong đó ta thấy Indonesia có số dân thuộc nhóm 2 ở độ tuổi hơn 100 nhiều nhất, sau đó là Brazil.

6. Phân tích số liệu

Tính toán đặc trưng đo lường theo Brazil

Br <- d%>% filter(Na=='Brazil')
  • Dân số trung bình ở độ tuổi dưới 15 tuổi
mean(Br$U15,na.rm = T)
## [1] 43998992
  • Từ số liệu bên dưới ta thấy dân số thấp nhất của Brazil là 53955360, cao nhất là 21326220
  • Phân vị thứ nhất bằng 91075260
  • Trung vị bằng 138213270
  • Dân số trung bình lad 136542332
  • Phân vị thứ ba bằng 183152472
summary(Br$Pop)
##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
##  53955360  91075260 138213270 136542332 183152472 214326220
  • Tổng số người dân hơn 100 qua các năm
sum(Br$O100)
## [1] 38468
  • Phương sai của các giá trị trong biến từ 15 đến 19
var(Br$'15T19')
## [1] 1.73329e+13
  • Giá trị ở vị trí trung vị của các giá trị trong độ tuổi 15 đến 64
median(Br$'15T64')
## [1] 81616995

Tính toán đặc trưng đo lường theo nhóm quốc gia

  • Dân số trung bình theo nhóm quốc gia: Từ bảng số liệu ta thấy dân số trung bình của China là cao nhất
moc <-  d%>% group_by(Na) %>% summarise(n = n(),mean_of_Pop = mean(Pop))
moc
## # A tibble: 5 × 3
##   Na                n mean_of_Pop
##   <chr>         <int>       <dbl>
## 1 Brazil           72  136542332.
## 2 China            72 1035531645.
## 3 India            72  829637465.
## 4 Indonesia        72  167585644.
## 5 United States    72  241932229.
  • Tính trung vị theo nhóm quốc gia: Từ bảng số liệu ta thấy trung vị của China là cao nhất
medoc <- d %>% group_by(Na) %>% summarise(med_of_Pop = median(Pop))
medoc
## # A tibble: 5 × 2
##   Na            med_of_Pop
##   <chr>              <dbl>
## 1 Brazil         138213270
## 2 China         1069005250
## 3 India          789060550
## 4 Indonesia      167463490
## 5 United States  236329480
  • Tính dân số trung bình theo năm và quốc gia
moc2 <- d2%>% group_by(Na,Y.Code1) %>% summarise(n = n(),mean_of_Pop = mean(Pop),.groups = 'drop')
moc2
## # A tibble: 10 × 4
##    Na            Y.Code1     n mean_of_Pop
##    <chr>         <chr>   <int>       <dbl>
##  1 Brazil        TK20       51  111405843.
##  2 Brazil        TK21       21  197588093.
##  3 China         TK20       51  903556212.
##  4 China         TK21       21 1356043410.
##  5 India         TK20       51  655156644.
##  6 India         TK21       21 1253376600 
##  7 Indonesia     TK20       51  135039123.
##  8 Indonesia     TK21       21  246627196.
##  9 United States TK20       51  212599363.
## 10 United States TK21       21  313169189.

Từ bảng số liệu ta có một số kết luận sau:

TK 20 thì dân số trung bình của China là cao nhất TK 21 thì dân số trung bình của China là cao nhất

Vậy China là nước có số dân cao nhất trong 5 nước

So sánh dân số 5 quốc gia ở 2 mốc thời gian 2000 và 2021

d5 <- d%>% filter(Y =="2000"| Y=='2021')%>% select(Na,Y,Pop)
datatable(d5)
  • Từ bảng số liệu trên ta thấy được dân số của 5 quốc gia đều tăng mạnh, trong đó dân số của China và India có sự tăng trưởng nhanh.

  • Trong năm 2000 Brazil là quốc gia có số dân thấp nhất so với 4 nước còn lại.

  • Trong năm 2021 Brazil là quốc gia có số dân thấp nhất.

  • Vậy từ đó tà thấy được China và India có sự tăng tưởng nhanh, Brazil tăng tưởng còn chậm hơn so với 4 quốc gia còn lại.

Nhiệm vụ 3.2

1. Tóm tắt

  • Có hàng ngàn (nếu không muốn nói là hàng trăm ngàn) cơ sở giáo dục đại học trên khắp thế giới nhận sinh viên mới mỗi năm. Do đó, sinh viên tương lai thường được giao nhiệm vụ nghiên cứu các tổ chức tốt nhất phù hợp với sở thích học tập của họ trước khi nộp đơn. Cách dễ nhất thường là xem một trường đại học quan tâm xếp hạng như thế nào trên toàn cầu (hoặc ở quốc gia bản địa của nó) và sau đó so sánh nó với một trường đại học khác. Một cách tiếp cận chi tiết hơn sẽ là so sánh các trường đại học không chỉ trên bảng xếp hạng của họ mà còn về các số liệu như môi trường nghiên cứu, tiêu chuẩn giảng dạy, lòng hiếu khách đối với sinh viên nước ngoài và thu nhập của ngành trong số những người khác.
  • Cuối cùng, bộ dữ liệu này cung cấp một danh sách các trường đại học cùng với bảng xếp hạng của họ và nhiều số liệu quan tâm khác theo Times Higher Education.
library(tidyverse)
library(DT)
library(flextable)
na1 <- read.csv("D:/Ngôn Ngữ Lập Trình/Nhiệm vụ 3/THE World University Rankings 2016-2024.csv")
library(skimr)
skim(na1)
Data summary
Name na1
Number of rows 12430
Number of columns 13
_______________________
Column type frequency:
character 3
numeric 10
________________________
Group variables None

Variable type: character

skim_variable n_missing complete_rate min max empty n_unique whitespace
Name 0 1 3 91 0 2105 0
Country 0 1 4 22 0 108 0
International.Students 0 1 1 3 0 89 0

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
Rank 0 1 736.83 467.96 1.00 346.00 691.00 1078.00 1904.00 ▇▇▇▅▂
Student.Population 0 1 23367.00 34987.15 25.00 10149.50 17824.00 29218.50 1824383.00 ▇▁▁▁▁
Students.to.Staff.Ratio 0 1 18.90 17.06 0.30 12.30 16.30 22.00 865.80 ▇▁▁▁▁
Overall.Score 0 1 35.33 16.88 8.22 21.73 32.40 45.19 98.46 ▇▇▅▁▁
Teaching 0 1 28.54 14.06 8.20 18.80 24.30 33.80 99.00 ▇▅▁▁▁
Research.Environment 0 1 24.11 17.60 0.80 11.70 18.10 30.50 100.00 ▇▅▁▁▁
Research.Quality 0 1 49.19 27.53 0.70 24.50 47.45 72.97 100.00 ▇▇▇▇▆
Industry.Impact 0 1 46.51 18.70 0.00 35.30 39.50 52.20 100.00 ▁▇▅▂▂
International.Outlook 0 1 47.60 23.00 7.10 28.22 43.30 63.60 100.00 ▅▇▆▃▃
Year 0 1 2020.66 2.48 2016.00 2019.00 2021.00 2023.00 2024.00 ▃▅▃▇▇

Chi tiết các biến có trong bộ dữ liệu:

Bộ dữ liệu có 12430 quan sát và 14 biến

  • Rank: xếp hạng
  • Name (Na): tên Trường
  • Country: Quốc gia
  • Student Population (S.Pop): số sinh viên
  • Students to Staff Ratio (StS): Tỷ lệ sinh viên trên nhân viên
  • International Students (InterS): Sinh viên quốc tế
  • Overall Score (OverS): Điểm tổng thể
  • Teaching: Giảng dạy
  • Research Environment (Res.En): Môi trường nghiên cứu
  • Research Quality (Res.Qu): Chất lượng nghiên cứu
  • Industry Impac (Ind)t: Tác động của ngành
  • International Outlook (Inter): Triển vọng quốc tế
  • Year (Y): Năm
dim(na1)
## [1] 12430    13

2. Phân tích dữ liệu

  • Quan sát dữ liệu của một số quốc gia ở Đông Nam Á (Singapore,Thailand, Malaysia, Philippines,Indonesia, Vietnam) với các dữ liệu gồm tên số sinh viên, sinh viên quốc tế, Điểm tổng thể, Môi trường nghiên cứu, Chất lượng nghiên cứu, Tác động của ngành, Triển vọng quốc tế, năm.
library(tidyverse)
names(na1) <- c('Rank','Na','Country','S.Pop','StS','InterS','OverS','Teaching','Res.En','Res.Qu','Ind','Inter','Y')
names(na1)
##  [1] "Rank"     "Na"       "Country"  "S.Pop"    "StS"      "InterS"  
##  [7] "OverS"    "Teaching" "Res.En"   "Res.Qu"   "Ind"      "Inter"   
## [13] "Y"
d6 <- na1%>%select(Y,Country,S.Pop,InterS,OverS,Res.En,Res.Qu,Ind,Inter)
d7 <- d6%>%filter(Country=='Vietnam'|Country=='Singapore'|Country=='Thailand'|Country=='Malaysia'|Country=='Philippiens'|Country=='Indonesia')
datatable(d7)

3. Mã hóa dữ liệu

  • Thêm một cột Na.Code để chia Vietnam với 4 nước còn lại
d8 <- d7
d8$Country.Code <- ifelse(d8$Country == 'Vietnam','Việt Nam','Not Việt Nam')
  • Thêm một cột Y.Code để chia năm thành trước năm 2020 và sau năm 2020
d8$Y.Code2 <- ifelse(d8$Y >= 2020,'Sau năm 2020', 'Trước năm 2020')

datatable(d8)

Từ bảng dữ liệu trên ta thấy được sau năm 2020 thì Trường Đại học của Việt Nam đã được đưa vào danh sách trường Đại học có tiếng thế giới.

4. Bảng tần số

  • Từ số liệu bên dưới ta thấy được trong vòng khoảng thời gian 2016 đến 2024 Việt Nam đã có 23 lần được đưa vào danh sách có các trường đại học thế giới
table(d8$Country)
## 
## Indonesia  Malaysia Singapore  Thailand   Vietnam 
##        83       123        18       127        23

6. Phân tích số liệu

Tính toán đặc trưng đo lường theo Vietnam

VN <- d6%>% filter(Country=='Vietnam')
  • Số sinh viên trùn bình của trường ĐH ở Việt Nam
mean(VN$S.Pop,na.rm = T)
## [1] 42765.74
  • Kết quả bên dưới cho thấy: Min - Gía trị nhỏ nhất : Số sinh viên ít nhất 21519

1st Qu. - Phân vị thứ nhất : là 29647 sinh viên

Median - Trung vị : là 36140 sinh viên

Mean - Gía trị trung bình : là 42766, nghĩa là số sinh viên trung bình là 42766

3rd Qu. - Phân vị thứ ba : là 50474 sinh viên

Max - Gía trị lớn nhất : Số sinh viên cao nhất từng chạm đến là 83599

summary(VN$S.Pop)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   21519   29647   36410   42766   50474   83599
  • Tổng số sinh viên của Việt Nam từ 2016-2024
sum(VN$S.Pop)
## [1] 983612
  • Phương sai của các giá trị điểm tổng thể
var(VN$OverS)
## [1] 104.5054
  • Giá trị ở vị trí trung vị triển vọng quốc tế
median(VN$Inter)
## [1] 45.6

Tính toán đặc trưng đo lường theo nhóm quốc gia

  • Số sinh viên trung bình theo nhóm quốc gia: Từ bảng số liệu ta thấy dân số trung bình của Vietnam là cao nhất
ltna <-  d8%>% group_by(Country) %>% summarise(n = n(),mean_of_S.Pop = mean(S.Pop))
ltna
## # A tibble: 5 × 3
##   Country       n mean_of_S.Pop
##   <chr>     <int>         <dbl>
## 1 Indonesia    83        31153.
## 2 Malaysia    123        17530.
## 3 Singapore    18        28242.
## 4 Thailand    127        30164.
## 5 Vietnam      23        42766.
  • Tính trung vị theo nhóm quốc gia: Từ bảng số liệu ta thấy trung vị của Vietnam là cao nhất
ltna1 <- d8 %>% group_by(Country) %>% summarise(med_of_S.Pop = median(S.Pop))
ltna1
## # A tibble: 5 × 2
##   Country   med_of_S.Pop
##   <chr>            <dbl>
## 1 Indonesia       32695 
## 2 Malaysia        15858 
## 3 Singapore       28248.
## 4 Thailand        28611 
## 5 Vietnam         36410
  • Tính số sinh viên trung bình theo năm và quốc gia
ltna2 <- d8%>% group_by(Country,Y.Code2) %>% summarise(n = n(),mean_of_S.Pop = mean(S.Pop),.groups = 'drop')
ltna2
## # A tibble: 9 × 4
##   Country   Y.Code2            n mean_of_S.Pop
##   <chr>     <chr>          <int>         <dbl>
## 1 Indonesia Sau năm 2020      71        31128.
## 2 Indonesia Trước năm 2020    12        31300.
## 3 Malaysia  Sau năm 2020      91        15905.
## 4 Malaysia  Trước năm 2020    32        22151.
## 5 Singapore Sau năm 2020      10        28279.
## 6 Singapore Trước năm 2020     8        28197.
## 7 Thailand  Sau năm 2020      87        29180.
## 8 Thailand  Trước năm 2020    40        32304.
## 9 Vietnam   Sau năm 2020      23        42766.
  • Từ bảng số liệu trên ta thấy được số sinh viên của 5 nước đều tăng qua các năm, riêng Việt Nam thì số sinh viên sau năm 2020 mới có.

  • Trước năm 2020 và sau năm 2020 Malaysia có số sinh viên thấp hơn só với các nước khác trong khoảng thời gian đó.

