1 Nhiệm vụ 3.1

1.1 Giải thích bộ dữ liệu “Population-and-demography.csn”

  • “Population-and-demography.csn” là bộ dữ liệu về tổng dân số của các quốc gia trên thế giới được tính theo các năm và theo độ tuổi khác nhau. Bộ dữ liệu gồm có 18288 quan sát và 24 biến, trong đó gồm có 1 biến định tính và 23 biến định lượng. Tên cụ thể của các biến như sau: Cụ thể, là tổng dân số ở độ tuổi: Dưới 1 tuổi, dưới 5 tuổi, dưới 15 tuổi, dưới 25 tuổi, 15-64 tuổi, trên 15 tuổi, trên 18 tuổi, 1 tuổi, từ 1-4 tuổi, 5-9 tuổi, 10-14 tuổi, 15-19 tuổi, 20-29 tuổi, 30-39 tuổi, 40-49 tuổi, 50-59 tuổi, 60-69 tuổi, 70-79 tuổi, 80-89 tuổi, 90-99 tuổi và từ 100 tuổitrở lên.

  • Đọc bộ dữ liệu bằng câu lệnh read.csv(file.choose(), header =T) và gán vào data để dễ gọi tên trong phần phân tích bên dưới.

library(csv)
data <- read.csv(file.choose(), header =T)
datatable(data)
## Warning in instance$preRenderHook(instance): It seems your data is too big for
## client-side DataTables. You may consider server-side processing:
## https://rstudio.github.io/DT/server.html
  • Lấy ra tổng dân số của 5 quốc gia là Mexico, Malaysia, Campuchia, Việt Nam, Trung Quốc và chọn ra 5 nhóm tuổi là tổng dân số trẻ em 1 tuổi, từ 1 đến 4 tuổi, từ 5 đến 9 tuổi, từ 10 đến 14 tuổi và từ 15 đến 19 tuổi của 5 quốc gia này để phân tích.
d <- data %>% select("Country.name","Year","Population","Population.at.age.1","Population.aged.1.to.4.years","Population.aged.5.to.9.years","Population.aged.10.to.14.years","Population.aged.15.to.19.years")
names(d) <- c("Country","Year","Population","age.1","1-4","5-9","10-14","15-19")
da <- d[d$Country==c("Mexico","Malaysia","Cambodia","Vietnam","China"),]
## Warning in d$Country == c("Mexico", "Malaysia", "Cambodia", "Vietnam",
## "China"): longer object length is not a multiple of shorter object length
datatable(da)

1.2 Mã hóa dữ liệu

  • Dùng “recode” để đặt lại tên của 5 quốc gia đã chọn theo các nhóm 1,2,3,4,5.

  • Dùng “ifelse” để phân loại tổng dân số của 5 quốc gia, nếu tổng dân số lớn hơn hoặc bằng 50000000 (người) thì xếp loại “Cao”, nhỏ hơn 50000000 (người) thì xếp loại thấp.

  • Dùng “ifelse” để phân loại tổng dân số trẻ em ở độ tuổi là 1 tuổi của 5 quốc gia, nếu tổng dân số đó nằm trong khoảng từ 1000000 (người) đến 10000000 (người) thì xếp loại “Bình thường”, còn lại xếp vào “Không bình thường”.

  • Dùng “case_when” để mã hóa lại dữ liệu tổng dân số đã phân loại, Nếu tổng dân số nhỏ hơn 10000000 (người) thì đặt là “Quá ít”, nếu nằm trong khoảng từ 10000000 (người) đến 1000000000 (người) thì đặt là “Trung bình”, và lớn hơn 1000000000 (người) đặt là “Quá đông”.

  • Dùng “cut” để chia tổng dân số ra làm 4 nhóm và đặt tên là nhóm A, nhóm B, nhóm C và nhóm D.

Thực hiện các câu lệnh và ta thu được bảng sau:

da$C.code <- recode(da$Country, Mexico = "Nhóm 1", Malaysia = "Nhóm 2", Cambodia = "Nhóm 3", Vietnam = "Nhóm 4", China ="Nhóm 5" )

da$P.code <- ifelse(da$Population >= 50000000, "Cao","Không cao")

da$P.code1 <- ifelse(da$age.1 >= 1000000 & da$age.1 <= 10000000, "Bình thường","Không Bình Thường")

da$P.code2 <- case_when(da$Population < 10000000 ~ "Quá ít", da$Population >= 10000000 & da$Population <= 1000000000 ~ 'Trung bình', da$Population > 1000000000 ~ "Quá đông")

da$P.code3 <- cut(da$Population,4,labels = c('Nhóm A','Nhóm B','Nhóm C','Nhóm D'))
datatable(da)

1.3 Lập bảng tần số

1.3.1 Biểu đồ STEM-LEAF

Biểu đồ nhánh là của Tổng dân số các nước, được thể hiện như sau:

stem(data$Population)
## 
##   The decimal point is 9 digit(s) to the right of the |
## 
##   0 | 00000000000000000000000000000000000000000000000000000000000000000000+17217
##   0 | 55555555555555555555555555555555555555555555555555555666666666666666+226
##   1 | 00000000000000000000000000000000000000000000000000000001111111111111+165
##   1 | 55555555555556666666666666667777777777777778888888888888888999999999
##   2 | 00000000000001111111111111111222222222222222233333333333333444444444
##   2 | 5555555555555555666666666666777777777778888888889999999999
##   3 | 000000000000111111111222222222233333333334444444444
##   3 | 55555555666666777777778888888899999999
##   4 | 00000011111111222222223333333444444444
##   4 | 55555555666666777777777888889999
##   5 | 00000000111122222333334444
##   5 | 55556677778899
##   6 | 001112233344
##   6 | 556666789
##   7 | 012334
##   7 | 567889

1.3.2 Lập bảng tần số cho 1 biến

Để biết số lần xuất hiện của các quốc gia trong bộ dữ liệu gồm 5 quốc gia vừa phân tích ở trên, ta dùng câu lệnh table() và kết quả thu được là số lần xuất hiện trong bảng dữ liệu của nước Cambodia là 15 lần, China là 15 lần, Malaysia là 15 lần, Mexico là 15 lần và Việt Nam là 14 lần.

table(da$Country)
## 
## Cambodia    China Malaysia   Mexico  Vietnam 
##       15       15       15       15       14

1.3.3 Lập bảng tần số cho 2 biến

Để biết số lần xuất hiện tổng dân số của 5 quốc gia đó thuộc nhóm A,B,C và D trong bộ dữ liệu vừa phân tích ở trên, ta dùng câu lệnh table() và kết quả thu được là :

  • Tổng dân số của nước Cambodia thuộc nhóm A xuất hiện 15 lần và không có nhóm B,C và D;

  • Tổng dân số của nước China thuộc nhóm A không xuất hiện, Thuộc nhóm B xuất hiện 3 lần, thuộc nhóm C xuất hiện 4 lần và thuộc nhóm D xuất hiện 8 lần;

  • Tổng dân số của nước Malaysia thuộc nhóm A xuất hiện 15 lần và không có nhóm B,C và D;

  • Tổng dân số của nước Mexico thuộc nhóm A xuất hiện 15 lần và không có nhóm B,C và D;

  • Tổng dân số của nước Việt Nam thuộc nhóm A xuất hiện 14 lần và không có nhóm B,C và D.

table(da$P.code3,da$Country)
##         
##          Cambodia China Malaysia Mexico Vietnam
##   Nhóm A       15     0       15     15      14
##   Nhóm B        0     3        0      0       0
##   Nhóm C        0     4        0      0       0
##   Nhóm D        0     8        0      0       0

1.4 Phân tích dữ liệu

1.4.1 Tính toán các đặc trưng đo lường theo quốc gia

Tính trung bình và trung vị của tổng dân số của mỗi quốc gia theo nhóm quốc gia. Thực hiện các câu lệnh và thu được bảng dữ liệu sau:

a1 <- data %>% group_by(Country.name) %>% summarise(n = n(),mean_of_Population = mean(Population))
a2 <- data %>% group_by(Country.name) %>% summarise(med_of_Population = median(Population))
datatable(mutate(a1,a2))

1.4.2 Tính toán các đặc trưng đo lường theo năm

Tính trung bình và trung vị của tổng dân số của mỗi quốc gia theo nhóm thời gian (Year). Thực hiện các câu lệnh và thu được bảng dữ liệu sau:

b1 <- data %>% group_by(Year) %>% summarise(n = n(),mean_of_Population = mean(Population))
b2 <- data %>% group_by(Year) %>% summarise(med_of_Population = median(Population))
datatable(mutate(b1,b2))

1.4.3 Tính toán các đặc trưng đo lường theo quốc gia

Tính trung bình và trung vị của tổng dân số ở độ tuổi từ 80-89 tuổi của mỗi quốc gia theo nhóm quốc gia. Thực hiện các câu lệnh và thu được bảng dữ liệu sau:

c1 <- data %>% group_by(Country.name) %>% summarize(n = n(),mean_of_Population.aged.80.to.89.years = mean(Population.aged.80.to.89.years))
c2 <- data %>% group_by(Country.name) %>% summarize(med_of_Population.aged.80.to.89.years = median(Population.aged.80.to.89.years))
datatable(mutate(c1,c2))

2 Nhiệm vụ 3.2

2.1 Giải thích bộ dữ liệu POPULATION

  • POPULATION là một bộ dữ liệu về một vài số liệu thống kế tổng dân số được cập nhật từ 203 quốc gia trong khoảng thời gian từ 1905-2023 và phần trăm tổng dân số của các quốc gia đó so với tống dân số thế giới tại năm mà số liệu được cập nhật.
  • Bộ dữ liệu gồm có 203 quan sát ứng với 203 quốc gia và 5 biến ứng với 5 cột là tên quốc gia(Country), tổng dân số(Population), Phần trăm tổng dân số so với thế giới(Pecent.of.world) và thời gian cập nhật số liệu(Date).
  • Đọc bộ dữ liệu bằng câu lệnh read.xlsx(file.choose(), sheetIndex =1, header =T) và gán vào Data để dễ gọi tên trong phần phân tích bên dưới.
library(xlsx)
Data <- read.xlsx(file.choose(), sheetIndex =1, header =T)
datatable(Data)

2.2 Mã hóa dữ liệu

  • Dùng “ifelse” để phân loại tổng dân số của các quốc gia theo phần trăm dân số so với thế giới, nếu phần trăm đó nhỏ hơn hoặc bằng 0.5 thì xếp loại “Thấp”, nếu trên 0.5 thì xếp loại “Cao”.

  • Dùng “ifelse” để phân nhóm 2 loại

  • Dùng “case_when” để mã hóa lại dữ liệu tổng dân số của các quốc gia theo phần trăm dân số so với thế giới, nếu phần trăm đó dưới 0.5 thì xếp loại “Thấp”, nếu nằm trong khoảng từ 0.5 đến 3.0 thì xếp loại “Trung bình”, trên 3.0 thì xếp loại “Quá đông”

  • Dùng “cut” để chia tổng dân số ra làm 6 nhóm và đặt tên là nhóm 1, nhóm 2, nhóm 3, nhóm 4, nhóm 5 và nhóm 6.

Ta sử dụng các câu lệnh trên và thu được bảng dữ liệu sau:

Data$NX <- ifelse(Data$Pecent.of.world <=0.5, "Thấp","Cao")
Data$NX1 <- ifelse(Data$Pecent.of.world >0.5,"Nhóm A","Nhóm B")
Data$NX2 <- case_when(Data$Pecent.of.world < 0.5 ~ " Quá ít", Data$Pecent.of.world >= 0.5 & Data$Pecent.of.world <= 3 ~ "Trung Bình", Data$Pecent.of.world >3 ~ "QUá đông")
Data$NX3 <- cut(Data$Population,6,labels = c("Nhóm 1","Nhóm 2","Nhóm 3","Nhóm 4","Nhóm 5","Nhóm 6"))
datatable(Data)

2.3 Lập bảng tần số

2.3.1 Biểu đồ STEM-LEAF

Biểu đồ nhánh lá cho tổng dân số của các quốc gia trong bảng dữ liệu. Thực hiện câu lệnh và thu được như sau:

stem(Data$Population)
## 
##   The decimal point is 8 digit(s) to the right of the |
## 
##    0 | 00000000000000000000000000000000000000000000000000000000000000000000+107
##    1 | 001112357
##    2 | 0248
##    3 | 4
##    4 | 
##    5 | 
##    6 | 
##    7 | 
##    8 | 
##    9 | 
##   10 | 
##   11 | 
##   12 | 
##   13 | 9
##   14 | 1

2.3.2 Bảng tần số cho 1 biến

Để biết số lần xuất hiện của các nhóm theo phần trăm dân số so với thế giới vừa phân tích được ở trên, ta dùng câu lệnh table() và kết quả thu được là số lần xuất hiện trong bảng của nhóm 1 là 198 lần, nhóm 2 xuất hiện 3 lần, nhóm 3, nhóm 4 và nhóm 5 thì không xuất hiện trong bảng và nhóm 6 thì xuất hiện 2 lần trong bảng.

table(Data$NX3)
## 
## Nhóm 1 Nhóm 2 Nhóm 3 Nhóm 4 Nhóm 5 Nhóm 6 
##    198      3      0      0      0      2

2.3.3 Bảng tần số cho 2 biến

Để biết số lần xuất hiện của nhóm A và nhóm B theo phần trăm dân số so với thế giới được phân tích ở trên, ta sử dụng câu lệnh table() và kết quả thu được như sau:

  • Nhóm A theo phần trăm dân số so với thế giới được xếp vào loại “Quá ít” là không, xếp loại “Quá đông” là 4 lần và xếp vào loại “Trung bình” là 28 lần;

  • Nhóm B theo phần trăm dân số so với thế giới được xếp vào loại “Quá ít” là 163 lần, xếp loại “Quá đông” là không và xếp vào loại “Trung bình” là 8 lần.

table(Data$NX1,Data$NX2)
##         
##           Quá ít QUá đông Trung Bình
##   Nhóm A       0        4         28
##   Nhóm B     163        0          8

2.4 Tính toán các đặc trưng đo lường

Tính toán các đặc trưng đo lường của Pecent.of.world (Phần trăm dân số so với thế giới), (có 8 đặc trưng):

2.4.1 summarry:

summary(Data$Pecent.of.world)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0010  0.0200  0.1000  0.4769  0.3500 17.5000
  • Trong summary, thì ta biết được những dữ liệu như sau:

  • min = 0.0010: là phần trăm dân số so với thế giới thấp nhất là 0.0010;

  • max = 17.5000: là phần trăm dân số so với thế giới cao nhất là 17.5000;

  • mean = 0.4769: trung bình của phần trăm dân số so với thế giới là 0.4769;

  • median(trung vị) = 0.1000: sẽ có 50% phần trăm dân số so với thế giới dưới 0.1000 và 50% phần trăm dân số so với thế giới trên 0.1000;

  • 1st Qu = 0.0200: tứ phân vị thứ nhất, có 25% phần trăm dân số so với thế giới là 0.0200;

  • 3rd Qu = 0.3500: tứ phân vị thứ 3, có 75% phần trăm dân số so với thế giới dưới 0.3500 hay có 25% phần trăm dân số so với thế giới trên 0.3500.

2.4.2 sum: tính tổng

Và kết quả thu được là 96.815%. Do là ở đây chỉ lấy số liệu của 203 quốc gia trên thế giới để phân tích nên tổng phần trăm dân số so với thế giới ở dây sẽ không được 100%.

sum(Data$Pecent.of.world)
## [1] 96.815

2.4.3 mean: tính trung bình

Trung bình của phần trăm dân số so với thế giới của các nước là 0.4769212

mean(Data$Pecent.of.world,na.rm = T)
## [1] 0.4769212

2.4.4 length: đo độ dài

Cho biết độ dài của bộ dữ liệu. Thực hiện câu lệnh và biết được có 203 số liệu về phần trăm dân sô so với thế giới được cập nhật trong bảng dữ liệu.

length(Data$Pecent.of.world)
## [1] 203

2.4.5 var: phương sai

Cho biết trung bình của bình phương độ lệch của phần trăm dân số so với thế giới của các nước là 3.208354. Hay biết được sự chênh lệch giữa phần trăm dân số so với thế giới của các nước là 3.2008354.

var(Data$Pecent.of.world)
## [1] 3.208354

2.4.6 sd: độ lệch chuẩn

Độ lệch chuẩn đo tính biến động của giá trị mang tính thống kê. Nó cho thấy sự chênh lệch về giá trị của từng thời điểm đánh giá so với giá trị trung bình. Thực hiện câu lệnh và thu được độ lệch chuẩn là 0.1

sd(Data$Pecent.of.world)
## [1] 1.791188

2.4.7 median: trung vị

Trung vị: giá trị lớn nhất ở giữa trong chuỗi dữ liệu được gọi là giá trị trung bình. Trung vị của phần trăm dân số so với thế giới là 0.1

median(Data$Pecent.of.world)
## [1] 0.1

2.4.8 quantile: phân vị

Tính tứ phân vị của dãy số liệu, thực hiện câu lệnh và biết được:

  • Tứ phân vị thứ nhất (25%): có 25% độ lớn của Phần trăm dân số của các nước so với thế giới dưới 0.02 hay có 75% độ lớn của Phần trăm dân số của các nước so với thế giới trên 0.02;

  • Tứ phân vị thứ hai-trung vị (50%): có 50% độ lớn của Phần trăm dân số của các nước so với thế giới dưới 0.1 hay có 50% độ lớn của Phần trăm dân số của các nước so với thế giới trên 0.1;

  • Tứ phân vị thứ ba (75%): có 75% độ lớn của Phần trăm dân số của các nước so với thế giới dưới 0.35 hay có 25% độ lớn của Phần trăm dân số của các nước so với thế giới trên 0.35.

quantile(Data$Pecent.of.world, probs = c(.25,.5,.75))
##  25%  50%  75% 
## 0.02 0.10 0.35

2.5 Tính toán các đặc trưng đo lường theo nhóm

2.5.1 Tính toán các đặc trưng đo lường theo nhóm phần trăm dân số so với thế giới (Pecent.of.world)

Tính trung bình và trung vị tổng dân số của các nước theo nhóm phần trăm dân số so với quốc gia. Thực hiện các câu lệnh và ta thu được bảng kết quả sau:

d1 <- Data %>% group_by(Pecent.of.world) %>% summarise(n = n(),mean_of_Population = mean(Population))
d2<- Data %>% group_by(Pecent.of.world) %>% summarise(med_of_Population = median(Population))
datatable(mutate(d1,d2))

2.5.2 Tính toán các đặc trưng đo lường theo nhóm thời gian (Date)

Tính trung bình và trung vị tổng dân số của các nước theo nhóm thời gian. Thực hiện các câu lệnh và ta thu được bảng kết quả sau:

e1 <- Data %>% group_by(Date) %>% summarise(n = n(),mean_of_Population = mean(Population))
e2<- Data %>% group_by(Date) %>% summarise(med_of_Population = median(Population))
datatable(mutate(e1,e2))
