1 NHIỆM VỤ 3.1

1.1 Đọc bộ dữ liệu từ file CVS

data <- read.csv(file.choose(), header = T)
data

1.2 Giải thích bộ dữ liệu

  • Là một dataframe

  • Không có dữ liệu trống

  • Không có dữ liệu trùng lắp

  • Dữ liệu về dân số của các quốc gia trên thế giới được phân tích theo các năm và các độ tuổi

  • Dữ liệu gồm 18288 quan sát và 24 biến

    • Counry.name: tên của các quốc gia

    • Year: năm thông kê

    • Population: dân số của quốc gia trong một năm

    • Population.of.children.under.the.age.of.1: dân số trẻ em có độ tuổi dưới 1

    • Population.of.children.under.the.age.of.5: dân số trẻ em có độ tuổi dưới 5

    • Population.of.children.under.the.age.of.15: dân số trẻ em có độ tuổi dưới 15

    • Population.under.the.age.of.25: dân số người có độ tuổi dưới 25

    • Population.aged.15.to.64.year: dân số người có độ tuổi từ 15 đến 64

    • Population.older.than.15.years: dấn số người có độ tuổi lớn hơn 15

    • Population.older.than.18.years: dân số người có độ tuổi lớn hơn 18

    • Population.at.age.1: dân số người có độ tuổi là 1

    • Population.aged.1.to.4.years: dân số người có độ tuổi từ 1 đến 4

    • Population.aged.5.to.9.years: dân số người có độ tuổi từ 5 đến 9

    • Population.aged.10.to.14.years: dân số người có độ tuổi từ 10 đến 14

    • Population.aged.15.to.19.years: dân số người có độ tuổi từ 15 đến 19

    • Population.aged.20.to.29.years: dân số người có độ tuổi từ 20 đến 29

    • Population.aged.30.to.39.years: dân số người có độ tuổi từ 30 đến 39

    • Population.aged.40.to.49.years: dân số người có độ tuổi từ 40 đến 49

    • Population.aged.50.to.59.years: dân số người có độ tuổi từ 50 đến 59

    • Population.aged.60.to.69.years: dân số người có độ tuổi từ 60 đến 69

    • Population.aged.70.to.79.years: dân số người có độ tuổi từ 70 đến 79

    • Population.aged.80.to.89.years: dân số người có độ tuổi từ 80 đến 89

    • Population.aged.90.to.99.years: dân số người có độ tuổi từ 90 đến 99

    • Population.older.than.100.years: dân số người có độ tuổi lớn hơn 100

str(data)
## 'data.frame':    18288 obs. of  24 variables:
##  $ Country.name                              : chr  "Afghanistan" "Afghanistan" "Afghanistan" "Afghanistan" ...
##  $ Year                                      : int  1950 1951 1952 1953 1954 1955 1956 1957 1958 1959 ...
##  $ Population                                : num  7480464 7571542 7667534 7764549 7864289 ...
##  $ Population.of.children.under.the.age.of.1 : num  301735 299368 305393 311574 317584 ...
##  $ Population.of.children.under.the.age.of.5 : int  1248282 1246857 1248220 1254725 1267817 1291129 1322342 1354752 1387274 1421808 ...
##  $ Population.of.children.under.the.age.of.15: int  3068855 3105444 3145070 3186382 3231060 3281470 3337026 3396048 3455343 3518528 ...
##  $ Population.under.the.age.of.25            : num  4494349 4552138 4613604 4676232 4741371 ...
##  $ Population.aged.15.to.64.years            : num  4198587 4250002 4303436 4356242 4408474 ...
##  $ Population.older.than.15.years            : num  4411609 4466098 4522464 4578167 4633229 ...
##  $ Population.older.than.18.years            : num  3946595 3993640 4041439 4088379 4136116 ...
##  $ Population.at.age.1                       : num  258652 254304 252906 258717 264765 ...
##  $ Population.aged.1.to.4.years              : num  946547 947489 942827 943151 950233 ...
##  $ Population.aged.5.to.9.years              : int  966210 991791 1017993 1039950 1055592 1062420 1063212 1065357 1071666 1084972 ...
##  $ Population.aged.10.to.14.years            : int  854363 866796 878857 891707 907651 927921 951472 975939 996403 1011748 ...
##  $ Population.aged.15.to.19.years            : int  757113 768616 781411 794308 806216 817550 828600 839588 851433 867048 ...
##  $ Population.aged.20.to.29.years            : int  1241348 1260904 1280288 1298803 1316768 1334989 1353958 1374043 1393789 1414034 ...
##  $ Population.aged.30.to.39.years            : int  909953 922765 935638 948321 961484 975801 991166 1007440 1023595 1040441 ...
##  $ Population.aged.40.to.49.years            : int  661807 667015 672491 678064 684153 691279 699431 708537 717938 728233 ...
##  $ Population.aged.50.to.59.years            : int  467170 468881 470898 472969 475117 477664 480665 484018 487393 491447 ...
##  $ Population.aged.60.to.69.years            : int  271905 273286 274852 276577 278210 279789 281376 282918 284592 286551 ...
##  $ Population.aged.70.to.79.years            : int  92691 94358 96026 97705 99298 100839 102385 103932 105508 107136 ...
##  $ Population.aged.80.to.89.years            : int  9499 10155 10721 11254 11793 12342 12890 13428 13959 14495 ...
##  $ Population.aged.90.to.99.years            : int  123 118 139 166 190 210 233 255 277 307 ...
##  $ Population.older.than.100.years           : num  0 0 0 0 0 0 0 0 0 0 ...

18288 observations tương ứng với 18288 quan sát (là các hàng).

24 variables tương ứng với 24 biến (là các cột).

is.na(data) # Sử dụng is.na để kiểm tra NA. Giá trị 'TRUE' phần tử tương ứng là NA và 'FALSE' là không phải NA. 

‘NA’ là một giá trị đặc biệt, đại diện cho “Not Available” dữ liệu hoặc giá trị không xác định hoặc không có sẵn.

sum(is.na(data)) # Được sử dụng để đếm số lượng giá trị NA trong một đối tượng dữ liệu. 
## [1] 0

Kết quả 0 có nghĩa bộ dữ liệu không có NA.

duplicated(data) # Dùng xác định xem có sự trùng lặp nào trong data frame hay không. 

Giá trị TRUE tương ứng với các hàng trong data frame là trùng lặp và FALSE nếu không trùng lặp.

sum(duplicated(data)) # Đếm số lượng trùng lặp
## [1] 0

Kết quả 0 có nghĩa bộ dữ liệu không trùng lặp.

1.3 Tạo dataframe mới để phân tích

  • Đổi tên các biến
names(data) <- c('ct', 'y', 'p','under.1', 'under.5', 'under.15','under.25','from.15.to.64','above.15', 'above.18','one.year.old','from.1.to.4','from.5.to.9','from.10.to.14','from.15.to.19','from.20.to.29','from.30.to.39','from.40.to.49','from.50.to.59','from.60.to.69','from.70.to.79','from.80.to.89','from.90.to.99','above.100') # Việc đổi tên các biến giúp dữ liệu được ngắn gọn hơn, tránh được các nhầm lẫn.
names(data) 
##  [1] "ct"            "y"             "p"             "under.1"      
##  [5] "under.5"       "under.15"      "under.25"      "from.15.to.64"
##  [9] "above.15"      "above.18"      "one.year.old"  "from.1.to.4"  
## [13] "from.5.to.9"   "from.10.to.14" "from.15.to.19" "from.20.to.29"
## [17] "from.30.to.39" "from.40.to.49" "from.50.to.59" "from.60.to.69"
## [21] "from.70.to.79" "from.80.to.89" "from.90.to.99" "above.100"

Việc đổi tên còn được thực hiện bởi lệnh rename() trong packages tidyverse. Điểm khác nhau giữa hai lệnh này là names() thực hiện đổi tên cho tất cả các biến và rename() dành cho việc đặt tên bất kì biến nào.

  • Chọn dữ liệu để phân tích
library(tidyverse) # rút trích dữ liệu thông qua package 'tydyverse' để dùng 'select' và 'filter'
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ ggplot2   3.4.4     ✔ tibble    3.2.1
## ✔ lubridate 1.9.3     ✔ tidyr     1.3.0
## ✔ purrr     1.0.2     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
d <- filter(data,ct %in% c('Vietnam','Thailand','China', 'South Korea', 'Japan')) # 'filter' được sử dụng để chọn các quan sát trong dataframe. 
d <- select(d,ct,y,p,under.1,under.5,from.15.to.64,one.year.old,above.100) # Sử dụng 'select' để chọn ra các biến. 
d

Kết quả trong câu lệnh ‘filter’ nghĩa là chọn các quan sát trong biến ‘ct’ có giá trị tương ứng là ‘Vietnam’, ‘Thailand’, ‘China’, ‘South Korea’, ‘Japan’.

Ở câu lệnh ‘select’ sẽ trả về một dataframe mới chỉ chứa biến ‘under.1’, ‘under.5’, ‘from.15.to.64’, ‘one.year.old’, ‘above.10’ từ dataframe vừa tạo ở trên.

Với lệnh ‘filter’ ta lấy ra được 360 quan sát dựa trên dataframe gốc là ‘data’ và lệnh ‘select’ lấy ra được 8 biến trong datafram mới. Từ đó ta được một dataframe mới hơn là ‘d’ với 360 quan sát và tương ứng 8 biến.

1.4 Mã hóa dữ liệu

  • Mã hóa dữu liệu dựa vào tên quốc gia
d$ct.Coded <- ifelse(d$ct == 'Vietnam','Vietnam','Not Vietnam') 

‘ifelse’ sẽ kiểm tra điều kiện trong biến ct, nếu trong ct có phần tử là ‘Vietnam’ thì sẽ trả về ‘Vietnam’, nếu sai điều kiện thì sẽ trả về ‘Not Vietnam’.

  • Mã hóa dữ liệu dựa vào số lượng dân số của một nước trong các năm
d$p.Coded <- case_when(d$p < 70000000 ~ 'Ít',d$p >= 70000000 & d$p <=1000000000 ~ 'Vừa',d$p >1000000000 ~ 'Nhiều') # 'case_when' dùng để thực hiện một loạt các điều kiện và trả về giá trị tương ứng của các điều kiện.

Một cột mới có tên là ‘p.coded’ sẽ được tạo tương ứng với các điều kiện. Phần tử trong biến sẽ có giá trị là ‘Ít’ nếu quan sát trong biến ‘p’ có giá trị nhỏ hơn 70000000, ‘Vừa’ nếu quan sát trong ‘p’ lớn hơn bằng 70000000 và nhỏ hơn bằng 1000000000, khi lớn hơn 1000000000 thì phần tử có giá trị là ‘Nhiều’.

  • Phân chia dữ liệu
d$under1.Coded <- cut(d$under.1,3,labels = c('Nhóm 1','Nhóm 2','Nhóm 3')) 
# Hàm 'cut' được sử dụng để chia dữ liệu thành các khoảng (bins) rồi gán tên cho từng khoảng dựa trên giá trị.

Dữ liệu trong biến ‘under.1’ được chia thành 3 khoảng, và các tên ‘Nhóm 1’, ‘Nhóm 2’, ‘Nhóm 3’ được gán tương ứng với các khoảng đó.

  • Mã hóa dữ liệu bằng cách đưa tên các nước về tiếng Việt
d$ct.Coded1 <- recode(d$ct,China ='Trung Quốc', Japan ='Nhật Bản', Vietnam ='Việt Nam', Thailand ='Thái Lan', South.Korea ='Hàn Quốc')
# Hàm 'recode' cho phép thay đổi giá trị của một biến thành giá trị mới dựa trên các quy tắc xác định. 

Ở mổi phần tử thuộc biến ‘ct’ có giá trị là ‘China’ thì sẽ được mã hóa thành ‘Trung Quốc’, tương tự ‘Japan’ sẽ được mã hóa thành ‘Nhật Bản’,…

d 

Qua 4 lệnh mã hóa trên, data frame ‘d’ có tổng cộng là 12 biến và số quan sát là không đổi với 360 hàng.

1.5 Lập bảng tần số

  • Xem số lần, số tần suất lặp lại trong một dữ liệu
table(d$ct) # Hàm 'table' được sử dụng để tạo bảng tần suất của các giá trị trong một dữ liệu. Bảng tần suất này cho phép xem xét phân phối của các giá trị và biết được số lần xuất hiện của mỗi giá trị.
## 
##       China       Japan South Korea    Thailand     Vietnam 
##          72          72          72          72          72

Số ‘72’ xuất hiện trong bảng kết quả cho thấy giá trị ‘China’, ‘Japan’, ‘South Korea’, ‘Thailand’ và ‘Vietnam’ được lặp lại hoặc được xuất hiện 72 lần, tương ứng với 72 năm trong tổng số năm phân tích.

  • Lập biểu đồ nhánh và lá
d1 <- filter(d,ct == 'Vietnam') # Dùng lệnh filter để chọn ra các quan sát, để phân tích riêng nước Việt Nam
stem(d1$above.100) # Biểu đồ nhánh và lá là một biểu đồ thường được sử dụng để hiển thị cấu trúc phân cấp của một tập hợp các đối tượng hoặc mẫu. 
## 
##   The decimal point is 3 digit(s) to the right of the |
## 
##   0 | 1111111111111111111111122222222233334445566789
##   1 | 012357
##   2 | 02478
##   3 | 01358
##   4 | 1479
##   5 | 1247
##   6 | 04

Lệnh sẽ được phân tích dựa vào điều kiện dấu thập phân là 3 chữ số ở bên phải. Tương ứng với nhánh là phần số hàng nghìn và lá là phần số hàng trăm.

Nhánh là gồm các số bên trái dấu ‘|’ và bên phải là lá. Gồm 7 nhánh là các nhánh các số hàng trăm, 1 nghìn, 2 nghìn,… đến 6 nghìn.

Dễ dàng thấy được ở hàng cuối cùng, có 2 lá nằm trong nhánh 6, nghĩa là có 2 năm, Việt Nam có dân số ở độ tuổi trên 100 là khoảng 6000 người và con số tương ứng là 6000 và 6400 (con số đã bao gồm việc làm tròn).

1.6 Tính toán các đặc trưng đo lường của 5 quốc gia ở độ tuổi từ 15 đến 64

  • Mô tả giá trị nhỏ nhất
min <- d %>% group_by(ct) %>% summarise(min = min(from.15.to.64), n = n())
min

Trong 72 năm phân tích, dân số thấp nhất trong độ tuổi từ 15 đến 64 lần lượt theo các quốc gia Trung Quốc, Nhật Bản, Hàn Quốc, Thái Lan và Việt Nam là 327285950, 50380868, 10919575, 11150405 và 15836825.

  • Mô tả tứ phân vị

Tứ phân vị là một khái niệm trong thống kê mô tả để phân chia một tập dữ liệu thành bốn phần bằng nhau, mỗi phần chiếm 25% tổng số quan sát.

  • Điểm phân vị thứ nhất
Q1 <- d %>% group_by(ct) %>% reframe(quantile_1st = quantile(from.15.to.64, probs = c(.25)), n = n())
Q1

Tại điểm này, giá trị chia tập dữ liệu thành 25% giảm dần, nghĩa là có 25% số liệu bé hơn hoặc bằng Q1 và 75% số liệu lớn hơn Q1.

Nghĩa là tại Trung Quốc, ở độ tuổi này trong các năm, dân số ít hơn hoặc bằng 427719163 là 25%. Tương tự các nước còn lại.

  • Điểm phân vị thứ hai - Trung vị
Q2 <- d %>% group_by(ct) %>% reframe(quantile_2nd = quantile(from.15.to.64, probs = c(.5)), n = n())
Q2

Tứ phân vị thứ hai chính là giá trị trung bình, hoặc median (trung vị). Là giá trị chia tập dữ liệu thành hai phần bằng nhau, 50% số liệu bé hơn Q2 và 50% số liệu lớn hơn Q2.

Ở Trung Quốc, qua các năm, một nửa giá trị nhỏ hơn hoặc bằng 686696600 và một nửa giá trị lớn hơn hoặc bằng 686696600. Các nước còn lại tương tự.

  • Điểm phân vị thứ 3
Q3 <- d %>% group_by(ct) %>% reframe(quantile_3rd = quantile(from.15.to.64, probs = c(.75)), n = n())
Q3

Tứ phân vị thứ ba là giá trị chia tập dữ liệu thành 75% giảm dần, nghĩa là có 75% số liệu bé hơn hoặc bằng Q3 và 25% số liệu lớn hơn Q3.

Trong độ tuổi từ 15 đến 64, tại Trung Quốc, có 75% dân số bé hơn hoặc bằng 912309775 hoặc có 25% dân số lớn hơn 912309775. Các nước còn lại tương tự.

  • Mô tả giá trị trung bình
mean <- d %>% group_by(ct) %>% summarise(mean = mean(from.15.to.64), n= n())
mean

Như vậy, trung bình một năm dân số Trung Quốc sẽ có 672094697 người trong độ tuổi từ 15 đến 64.

Tương tự, trong 72 năm trung bình một năm dân số từ 15 đến 64 tuổi ở Nhật Bản là 75434732, Hàn Quốc là 25757425, Thái Lan có 31642004 và Việt Nam có 37136547.

  • Mô tả giá trị lớn nhất
max <- d %>% group_by(ct) %>% summarise(max = max(from.15.to.64), n = n())
max

Trong 72 năm phân tích, dân số cao nhất trong độ tuổi từ 15 đến 64 lần lượt theo các quốc gia Trung Quốc, Nhật Bản, Hàn Quốc, Thái Lan và Việt Nam là 998226100, 87116616, 37643056, 50431860 và 66962210.

2 NHIỆM VỤ 3.2

2.1 Đọc bộ dữ liệu

nv3 <- read.csv(file.choose(), header = T)
nv3

2.2 Giải thích bộ dữ liệu

  • Dữ liệu về việc dự báo dân số Hoa Kỳ theo từng độ tuổi từ 2016-2060.

  • Gồm 2835 quan sát và 106 biến:

    • Sex: giới tính đang quan sát

    • Origin: đến từ nơi nào đó

    • Race: các nhóm chủng tộc và dân tộc

    • Year: năm dự đoán, từ năm 2016 đến 2060

    • Total Population: tổng cộng các dân số dự đoán được

    • Và 101 biến tương ứng với 101 cột với độ tuổi từ 0 đến 100

  • Là dataframe.

  • Không có giá trị NA.

  • Không có dữ liệu bị trùng lắp.

dim(nv3) # Xem tổng số quan sát và tổng số biến
## [1] 2835  106

2835 ứng với 2835 quan sát

106 ứng với 106 biến

is.data.frame(nv3) #Kiểm tra bộ dữ liệu
## [1] TRUE

Kết quả TRUE thể hiện bộ dữ liệu là một dataframe.

is.na(nv3) # Xem bộ dữ liệu có giá trị trống hay không

Kết quả TRUE chỉ tại phần tử đó là một giá trị trống và FALSE khi không phải giá trị trống.

sum(is.na(nv3)) # Kiểm tra tổng số phần tử có giá trị trống
## [1] 0

Bộ dữ liệu không có giá trị NA.

duplicated(nv3) # Kiểm tra xem sự trùng lặp của dữ liệu

Giá trị TRUE tương ứng với các hàng trong data frame là trùng lặp và FALSE nếu không trùng lặp.

sum(duplicated(nv3))
## [1] 0

Kết quả trả về 0, bộ dữ liệu không trùng lặp.

2.3 Mã hóa dữ liệu

  • Mã hóa dữ liệu dựa vào giới tính
nv3$Sex.Coded <- ifelse(nv3$Sex == 'Female','Female','Not Female')

Điều kiện lệnh ở đây là nếu trong biến S có giá trị là ‘Female’ thì sẽ được mã hóa thành ‘Female’, nếu giá trị khác ‘Female’ (Both hoặc Male) thì sẽ được mã hóa thành ‘Not Female’.

  • Mã hóa giới tính thành các con số
nv3$Sex.Coded1 <- recode(nv3$Sex,Male = '1', Female = '2', Both = '3')

Giới tính sẽ được mã hóa dưới dạng các con số, ở phần tử có giá trị là ‘Male’ sẽ được mã hóa thành số ‘1’, ‘Female’ thành số ‘2; và ’Both’ là số 3.

  • Mã hóa dữ liệu dựa vào số liệu dân số trong độ tuổi 18
nv3$Age.18.Coded <- case_when(nv3$Age.18 < 5000 ~ 'Rất it',nv3$Age.18 >= 5000 & nv3$Age.18 < 10000 ~ 'It',nv3$Age.18 >= 10000 & nv3$Age.18 < 500000 ~ 'Vừa',nv3$Age.18 >= 500000 & nv3$Age.18 <  2000000 ~ 'Nhiều ',nv3$Age.18 >= 2000000 ~ 'Rất nhiều')

Các dân số dự đoán sẽ được mã hóa thành dạng chữ với các điều kiện.

Bé hơn 5000 -> Rất ít

Từ 5000 đến 10000 -> Ít

Từ 10000 đến 500000 -> Vừa

Từ 500000 đến 2000000 -> Nhiều

Nhiều hơn 2000000 -> Rất nhiều

  • Mã hóa dữ liệu theo nhóm dựa vào độ tuổi 20
nv3$Age.20.Coded <- cut(nv3$Age.20,3,labels = c('Nhóm 1','Nhóm 2','Nhóm 3')) 

Dữ liệu trong biến ‘Age.20’ được chia thành 3 khoảng, và các tên ‘Nhóm 1’, ‘Nhóm 2’, ‘Nhóm 3’ được gán tương ứng với các khoảng đó.

nv3 

Qua 4 lệnh mã hóa trên, data frame ‘nv3’ có tổng cộng là 110 biến và số quan sát là không đổi với 2835 hàng.

2.4 Lập bảng tần số

  • Tần số phân tích về giới tính
table(nv3$Sex)
## 
##   Both Female   Male 
##    945    945    945

Giới tính nam, nữ và cả hai giới tính đều được dự đoán 945 lần.

  • Rút trích dữ liệu
nv3.a <- filter(nv3,Race == 'Asian' & Origin == 'Hispanic') 
nv3.a

Dùng lệnh filter để chọn ra các quan sát trong biến Race có giá trị là ‘Asian’ và các giá trị là ‘Hispanic’ trong biến Origin.

  • Lập biểu đồ nhánh và lá
stem(nv3.a$Age.60,scale = .5)
## 
##   The decimal point is 3 digit(s) to the right of the |
## 
##    1 | 99
##    2 | 001113334556677788889
##    3 | 0000222333555666677889
##    4 | 00011111112233344444555667777899999
##    5 | 00001111222223334456779
##    6 | 278889
##    7 | 45888
##    8 | 4445568
##    9 | 02778999
##   10 | 123456

Lệnh sẽ được phân tích dựa vào điều kiện dấu thập phân là 3 chữ số ở bên phải. Tương ứng với nhánh là phần số hàng nghìn và lá là phần số hàng trăm.

Nhánh là gồm các số bên trái dấu ‘|’ và bên phải là lá. Gồm 10 nhánh là các nhánh các số hàng 1 nghìn, 2 nghìn,… đến 10 nghìn.

Ở hàng 1 nghìn ta thấy có 2 số, tương ứng có 2 số thuộc hàng 1 nghìn. Các con số là 1900 và 1900 (các số đã được làm tròn đến hàng đơn vị)

Tương tự ở hàng 6, có 6 số thuộc nhánh 6 nghìn, là các số 6200,6700,6800,6800,6800 và 6900.

2.5 Tính toán các đặc trưng đo lường ở độ tuổi 100 ở Asian qua các năm thuộc giới tính nữ

  • Rút trích dữ liệu
nv3.b <- filter(nv3.a,Sex %in% c('Female'))
nv3.b

Rút trích dữ liệu để lấy ra dữ liệu chỉ có giới tính nữ.

  • Mô tả giá trị nhỏ nhất
min1 <- nv3.b %>% group_by(Sex) %>% summarise(min = min(Age.100), n = n())
min1

Trong 45 năm dự đoán, dân số người Asian thuộc giới tính nữ được dự đoán thấp nhất trong độ tuổi 100 là 27 người.

  • Mô tả điểm phân vị thứ nhất
Quantile1 <- nv3.b %>% group_by(Sex) %>% summarise(quantile_1st = quantile(Age.100, probs = c(.25)), n = n())
Quantile1

Tại điểm phân vị thứ nhất thể hiện có 25% thuộc độ tuổi 100 có ít hơn hoặc bằng 42 người. Hoặc 75% ở tuổi 100 có nhiều hơn 42 người.

  • Mô tả điểm phân vị thứ 2 - Trung vị
Quantile2 <- nv3.b %>% group_by(Sex) %>% reframe(quantile_2nd = quantile(Age.100, probs = c(.5)), n = n())
Quantile2

Tại điểm phân vị thứ hai thể hiện một nửa giá trị nhỏ hơn hoặc bằng 85 và một nửa giá trị lớn hơn hoặc bằng 85.

  • Mô tả điểm phân vị thứ 3
Quantile3 <- nv3.b %>% group_by(Sex) %>% reframe(quantile_3rd = quantile(Age.100, probs = c(.75)), n = n())
Quantile3

Tại điểm phân vị thứ ba thể hiện có 75% thuộc độ tuổi 100 có ít hơn hoặc bằng 211 người. Hoặc 25% ở tuổi 100 có nhiều hơn 211 người.

  • Mô tả giá trị trung bình
mean1 <- nv3.b %>% group_by(Sex) %>% summarise(mean = mean(Age.100), n= n())
mean1

Trung bình trong 45 năm, dân số ở độ tuổi 100 của giới nữ là 143 người.

  • Mô tả giá trị lớn nhất
max1 <- nv3.b %>% group_by(Sex) %>% summarise(max = max(Age.100), n = n())
max1

Trong 45 năm dự đoán, dân số được dự đoán cao nhất nằm trong tuổi 100 ở giới nữ là 477 người.

---
title: "Nhiệm vụ 3"
author: "Nguyễn Thúy Vy"
date: "`r format(Sys.time(), '%H:%M:%S, %d - %m - %Y')`"
output:
  html_document: 
    toc: true
    theme: united
    number_sections: true
    code_download: true
    code_folding: show 
    df_print: paged
editor_options:
  chunk_output_type: console
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
```

# NHIỆM VỤ 3.1

## Đọc bộ dữ liệu từ file CVS

```{r}
data <- read.csv(file.choose(), header = T)
data
```

## Giải thích bộ dữ liệu 

- Là một dataframe

- Không có dữ liệu trống

- Không có dữ liệu trùng lắp

- Dữ liệu về dân số của các quốc gia trên thế giới được phân tích theo các năm và các độ tuổi

- Dữ liệu gồm 18288 quan sát và 24 biến

  - Counry.name: tên của các quốc gia

  - Year: năm thông kê

  - Population: dân số của quốc gia trong một năm

  - Population.of.children.under.the.age.of.1: dân số trẻ em có độ tuổi dưới 1

  - Population.of.children.under.the.age.of.5: dân số trẻ em có độ tuổi dưới 5

  - Population.of.children.under.the.age.of.15: dân số trẻ em có độ tuổi dưới 15

  - Population.under.the.age.of.25: dân số người có độ tuổi dưới 25

  - Population.aged.15.to.64.year: dân số người có độ tuổi từ 15 đến 64

  - Population.older.than.15.years: dấn số người có độ tuổi lớn hơn 15

  - Population.older.than.18.years: dân số người có độ tuổi lớn hơn 18

  - Population.at.age.1: dân số người có độ tuổi là 1

  - Population.aged.1.to.4.years: dân số người có độ tuổi từ 1 đến 4

  - Population.aged.5.to.9.years: dân số người có độ tuổi từ 5 đến 9

  - Population.aged.10.to.14.years: dân số người có độ tuổi từ 10 đến 14

  - Population.aged.15.to.19.years: dân số người có độ tuổi từ 15 đến 19

  - Population.aged.20.to.29.years: dân số người có độ tuổi từ 20 đến 29

  - Population.aged.30.to.39.years: dân số người có độ tuổi từ 30 đến 39

  - Population.aged.40.to.49.years: dân số người có độ tuổi từ 40 đến 49

  - Population.aged.50.to.59.years: dân số người có độ tuổi từ 50 đến 59

  - Population.aged.60.to.69.years: dân số người có độ tuổi từ 60 đến 69

  - Population.aged.70.to.79.years: dân số người có độ tuổi từ 70 đến 79

  - Population.aged.80.to.89.years: dân số người có độ tuổi từ 80 đến 89

  - Population.aged.90.to.99.years: dân số người có độ tuổi từ 90 đến 99

  - Population.older.than.100.years: dân số người có độ tuổi lớn hơn 100


```{r}
str(data)
```

18288 observations tương ứng với 18288 quan sát (là các hàng).

24 variables tương ứng với 24 biến (là các cột).

```{r,echo=TRUE, results='hide'}
is.na(data) # Sử dụng is.na để kiểm tra NA. Giá trị 'TRUE' phần tử tương ứng là NA và 'FALSE' là không phải NA. 
```

'NA' là một giá trị đặc biệt, đại diện cho "Not Available" dữ liệu hoặc giá trị không xác định hoặc không có sẵn.

```{r}
sum(is.na(data)) # Được sử dụng để đếm số lượng giá trị NA trong một đối tượng dữ liệu. 
```

Kết quả 0 có nghĩa bộ dữ liệu không có NA.

```{r, echo=TRUE, results='hide'}
duplicated(data) # Dùng xác định xem có sự trùng lặp nào trong data frame hay không. 
```

Giá trị TRUE tương ứng với các hàng trong data frame là trùng lặp và FALSE nếu không trùng lặp.

```{r}
sum(duplicated(data)) # Đếm số lượng trùng lặp
```

Kết quả 0 có nghĩa bộ dữ liệu không trùng lặp.

## Tạo dataframe mới để phân tích

* Đổi tên các biến

```{r}
names(data) <- c('ct', 'y', 'p','under.1', 'under.5', 'under.15','under.25','from.15.to.64','above.15', 'above.18','one.year.old','from.1.to.4','from.5.to.9','from.10.to.14','from.15.to.19','from.20.to.29','from.30.to.39','from.40.to.49','from.50.to.59','from.60.to.69','from.70.to.79','from.80.to.89','from.90.to.99','above.100') # Việc đổi tên các biến giúp dữ liệu được ngắn gọn hơn, tránh được các nhầm lẫn.
names(data) 
```

Việc đổi tên còn được thực hiện bởi lệnh rename() trong packages tidyverse. Điểm khác nhau giữa hai lệnh này là names() thực hiện đổi tên cho tất cả các biến và rename() dành cho việc đặt tên bất kì biến nào.

* Chọn dữ liệu để phân tích

```{r}
library(tidyverse) # rút trích dữ liệu thông qua package 'tydyverse' để dùng 'select' và 'filter'
d <- filter(data,ct %in% c('Vietnam','Thailand','China', 'South Korea', 'Japan')) # 'filter' được sử dụng để chọn các quan sát trong dataframe. 
d <- select(d,ct,y,p,under.1,under.5,from.15.to.64,one.year.old,above.100) # Sử dụng 'select' để chọn ra các biến. 
d
``` 

Kết quả trong câu lệnh 'filter' nghĩa là chọn các quan sát trong biến 'ct' có giá trị tương ứng là 'Vietnam', 'Thailand', 'China',  'South Korea', 'Japan'.

Ở câu lệnh 'select' sẽ trả về một dataframe mới chỉ chứa biến 'under.1', 'under.5', 'from.15.to.64', 'one.year.old', 'above.10' từ dataframe vừa tạo ở trên.

Với lệnh 'filter' ta lấy ra được 360 quan sát dựa trên dataframe gốc là 'data' và lệnh 'select' lấy ra được 8 biến trong datafram mới. Từ đó ta được một dataframe mới hơn là 'd' với 360 quan sát và tương ứng 8 biến.

## Mã hóa dữ liệu 

* Mã hóa dữu liệu dựa vào tên quốc gia

```{r}
d$ct.Coded <- ifelse(d$ct == 'Vietnam','Vietnam','Not Vietnam') 
```

'ifelse' sẽ kiểm tra điều kiện trong biến ct, nếu trong ct có phần tử là 'Vietnam' thì sẽ trả về 'Vietnam', nếu sai điều kiện thì sẽ trả về 'Not Vietnam'.

* Mã hóa dữ liệu dựa vào số lượng dân số của một nước trong các năm 

```{r}
d$p.Coded <- case_when(d$p < 70000000 ~ 'Ít',d$p >= 70000000 & d$p <=1000000000 ~ 'Vừa',d$p >1000000000 ~ 'Nhiều') # 'case_when' dùng để thực hiện một loạt các điều kiện và trả về giá trị tương ứng của các điều kiện.
```

Một cột mới có tên là 'p.coded' sẽ được tạo tương ứng với các điều kiện. Phần tử trong biến sẽ có giá trị là 'Ít' nếu quan sát trong biến 'p' có giá trị nhỏ hơn 70000000, 'Vừa' nếu quan sát trong 'p' lớn hơn bằng 70000000 và nhỏ hơn bằng 1000000000, khi lớn hơn 1000000000 thì phần tử có giá trị là 'Nhiều'.
 
* Phân chia dữ liệu

```{r}
d$under1.Coded <- cut(d$under.1,3,labels = c('Nhóm 1','Nhóm 2','Nhóm 3')) 
# Hàm 'cut' được sử dụng để chia dữ liệu thành các khoảng (bins) rồi gán tên cho từng khoảng dựa trên giá trị.
```

Dữ liệu trong biến 'under.1' được chia thành 3 khoảng, và các tên 'Nhóm 1', 'Nhóm 2', 'Nhóm 3' được gán tương ứng với các khoảng đó.
 
* Mã hóa dữ liệu bằng cách đưa tên các nước về tiếng Việt

```{r}
d$ct.Coded1 <- recode(d$ct,China ='Trung Quốc', Japan ='Nhật Bản', Vietnam ='Việt Nam', Thailand ='Thái Lan', South.Korea ='Hàn Quốc')
# Hàm 'recode' cho phép thay đổi giá trị của một biến thành giá trị mới dựa trên các quy tắc xác định. 
```

Ở mổi phần tử thuộc biến 'ct' có giá trị là 'China' thì sẽ được mã hóa thành 'Trung Quốc', tương tự 'Japan' sẽ được mã hóa thành 'Nhật Bản',... 

```{r}
d 
```

Qua 4 lệnh mã hóa trên, data frame 'd' có tổng cộng là 12 biến và số quan sát là không đổi với 360 hàng.

## Lập bảng tần số

* Xem số lần, số tần suất lặp lại trong một dữ liệu 

```{r}
table(d$ct) # Hàm 'table' được sử dụng để tạo bảng tần suất của các giá trị trong một dữ liệu. Bảng tần suất này cho phép xem xét phân phối của các giá trị và biết được số lần xuất hiện của mỗi giá trị.
```

Số '72' xuất hiện trong bảng kết quả cho thấy giá trị 'China', 'Japan', 'South Korea', 'Thailand' và 'Vietnam' được lặp lại hoặc được xuất hiện 72 lần, tương ứng với 72 năm trong tổng số năm phân tích.

* Lập biểu đồ nhánh và lá

```{r}
d1 <- filter(d,ct == 'Vietnam') # Dùng lệnh filter để chọn ra các quan sát, để phân tích riêng nước Việt Nam
stem(d1$above.100) # Biểu đồ nhánh và lá là một biểu đồ thường được sử dụng để hiển thị cấu trúc phân cấp của một tập hợp các đối tượng hoặc mẫu. 
```

Lệnh sẽ được phân tích dựa vào điều kiện dấu thập phân là 3 chữ số ở bên phải. Tương ứng với nhánh là phần số hàng nghìn và lá là phần số hàng trăm.

Nhánh là gồm các số bên trái dấu '|' và bên phải là lá. Gồm 7 nhánh là các nhánh các số hàng trăm, 1 nghìn, 2 nghìn,... đến 6 nghìn.

Dễ dàng thấy được ở hàng cuối cùng, có 2 lá nằm trong nhánh 6, nghĩa là có 2 năm, Việt Nam có dân số ở độ tuổi trên 100 là khoảng 6000 người và con số tương ứng là 6000 và 6400 (con số đã bao gồm  việc làm tròn). 

## Tính toán các đặc trưng đo lường của 5 quốc gia ở độ tuổi từ 15 đến 64

* Mô tả giá trị nhỏ nhất 

```{r}
min <- d %>% group_by(ct) %>% summarise(min = min(from.15.to.64), n = n())
min
```

Trong 72 năm phân tích, dân số thấp nhất trong độ tuổi từ 15 đến 64 lần lượt theo các quốc gia Trung Quốc, Nhật Bản, Hàn Quốc, Thái Lan và Việt Nam là 327285950, 50380868, 10919575, 11150405 và 15836825.

* Mô tả tứ phân vị 

Tứ phân vị là một khái niệm trong thống kê mô tả để phân chia một tập dữ liệu thành bốn phần bằng nhau, mỗi phần chiếm 25% tổng số quan sát. 

  * Điểm phân vị thứ nhất
  
```{r}
Q1 <- d %>% group_by(ct) %>% reframe(quantile_1st = quantile(from.15.to.64, probs = c(.25)), n = n())
Q1
```

Tại điểm này, giá trị chia tập dữ liệu thành 25% giảm dần, nghĩa là có 25% số liệu bé hơn hoặc bằng Q1 và 75% số liệu lớn hơn Q1.

Nghĩa là tại Trung Quốc, ở độ tuổi này trong các năm, dân số ít hơn hoặc bằng 427719163 là 25%. Tương tự các nước còn lại.

   * Điểm phân vị thứ hai - Trung vị 

```{r}
Q2 <- d %>% group_by(ct) %>% reframe(quantile_2nd = quantile(from.15.to.64, probs = c(.5)), n = n())
Q2
```

Tứ phân vị thứ hai chính là giá trị trung bình, hoặc median (trung vị). Là giá trị chia tập dữ liệu thành hai phần bằng nhau, 50% số liệu bé hơn Q2 và 50% số liệu lớn hơn Q2.

Ở Trung Quốc, qua các năm, một nửa giá trị nhỏ hơn hoặc bằng 686696600 và một nửa giá trị lớn hơn hoặc bằng 686696600. Các nước còn lại tương tự.

  * Điểm phân vị thứ 3

```{r}
Q3 <- d %>% group_by(ct) %>% reframe(quantile_3rd = quantile(from.15.to.64, probs = c(.75)), n = n())
Q3
```

Tứ phân vị thứ ba là giá trị chia tập dữ liệu thành 75% giảm dần, nghĩa là có 75% số liệu bé hơn hoặc bằng Q3 và 25% số liệu lớn hơn Q3.

Trong độ tuổi từ 15 đến 64, tại Trung Quốc, có 75% dân số bé hơn hoặc bằng 912309775 hoặc có 25% dân số lớn hơn 912309775. Các nước còn lại tương tự.

* Mô tả giá trị trung bình

```{r}
mean <- d %>% group_by(ct) %>% summarise(mean = mean(from.15.to.64), n= n())
mean
```
 
Như vậy, trung bình một năm dân số Trung Quốc sẽ có 672094697 người trong độ tuổi từ 15 đến 64.

Tương tự, trong 72 năm trung bình một năm dân số từ 15 đến 64 tuổi ở Nhật Bản là 75434732, Hàn Quốc là 25757425, Thái Lan có 31642004 và Việt Nam có 37136547.

* Mô tả giá trị lớn nhất

```{r}
max <- d %>% group_by(ct) %>% summarise(max = max(from.15.to.64), n = n())
max
```

Trong 72 năm phân tích, dân số cao nhất trong độ tuổi từ 15 đến 64 lần lượt theo các quốc gia Trung Quốc, Nhật Bản, Hàn Quốc, Thái Lan và Việt Nam là 998226100, 87116616, 37643056, 50431860 và 66962210.

# NHIỆM VỤ 3.2

## Đọc bộ dữ liệu

```{r}
nv3 <- read.csv(file.choose(), header = T)
nv3
```

## Giải thích bộ dữ liệu

- Dữ liệu về việc dự báo dân số Hoa Kỳ theo từng độ tuổi từ 2016-2060.

- Gồm 2835 quan sát và 106 biến:

  - Sex: giới tính đang quan sát
  
  - Origin: đến từ nơi nào đó
  
  - Race:  các nhóm chủng tộc và dân tộc 
  
  - Year: năm dự đoán, từ năm 2016 đến 2060
  
  - Total Population: tổng cộng các dân số dự đoán được
  
  - Và 101 biến tương ứng với 101 cột với độ tuổi từ 0 đến 100
  
- Là dataframe.

- Không có giá trị NA.

- Không có dữ liệu bị trùng lắp.

```{r}
dim(nv3) # Xem tổng số quan sát và tổng số biến
```

2835 ứng với 2835 quan sát

106 ứng với 106 biến

```{r}
is.data.frame(nv3) #Kiểm tra bộ dữ liệu
```

Kết quả TRUE thể hiện bộ dữ liệu là một dataframe.

```{r echo=TRUE, results='hide'}
is.na(nv3) # Xem bộ dữ liệu có giá trị trống hay không
```

Kết quả TRUE chỉ tại phần tử đó là một giá trị trống và FALSE khi không phải giá trị trống.

```{r}
sum(is.na(nv3)) # Kiểm tra tổng số phần tử có giá trị trống
```

Bộ dữ liệu không có giá trị NA.

```{r, echo=TRUE, results='hide'}
duplicated(nv3) # Kiểm tra xem sự trùng lặp của dữ liệu
```

Giá trị TRUE tương ứng với các hàng trong data frame là trùng lặp và FALSE nếu không trùng lặp.

```{r}
sum(duplicated(nv3))
```

Kết quả trả về 0, bộ dữ liệu không trùng lặp.

## Mã hóa dữ liệu

* Mã hóa dữ liệu dựa vào giới tính

```{r}
nv3$Sex.Coded <- ifelse(nv3$Sex == 'Female','Female','Not Female')
```

Điều kiện lệnh ở đây là nếu trong biến S có giá trị là 'Female' thì sẽ được mã hóa thành 'Female', nếu giá trị khác 'Female' (Both hoặc Male) thì sẽ được mã hóa thành 'Not Female'.

* Mã hóa giới tính thành các con số

```{r}
nv3$Sex.Coded1 <- recode(nv3$Sex,Male = '1', Female = '2', Both = '3')
```

Giới tính sẽ được mã hóa dưới dạng các con số, ở phần tử có giá trị là 'Male' sẽ được mã hóa thành số '1', 'Female' thành số '2; và 'Both' là số 3.

* Mã hóa dữ liệu dựa vào số liệu dân số trong độ tuổi 18

```{r}
nv3$Age.18.Coded <- case_when(nv3$Age.18 < 5000 ~ 'Rất it',nv3$Age.18 >= 5000 & nv3$Age.18 < 10000 ~ 'It',nv3$Age.18 >= 10000 & nv3$Age.18 < 500000 ~ 'Vừa',nv3$Age.18 >= 500000 & nv3$Age.18 <  2000000 ~ 'Nhiều ',nv3$Age.18 >= 2000000 ~ 'Rất nhiều')
```

Các dân số dự đoán sẽ được mã hóa thành dạng chữ với các điều kiện. 

Bé hơn 5000 -> Rất ít

Từ 5000 đến 10000 -> Ít

Từ 10000 đến 500000 -> Vừa

Từ 500000 đến 2000000 -> Nhiều 

Nhiều hơn 2000000 -> Rất nhiều

* Mã hóa dữ liệu theo nhóm dựa vào độ tuổi 20

```{r}
nv3$Age.20.Coded <- cut(nv3$Age.20,3,labels = c('Nhóm 1','Nhóm 2','Nhóm 3')) 
```

Dữ liệu trong biến ‘Age.20’ được chia thành 3 khoảng, và các tên ‘Nhóm 1’, ‘Nhóm 2’, ‘Nhóm 3’ được gán tương ứng với các khoảng đó.

```{r}
nv3 
```

Qua 4 lệnh mã hóa trên, data frame 'nv3' có tổng cộng là 110 biến và số quan sát là không đổi với 2835 hàng.

## Lập bảng tần số 

* Tần số phân tích về giới tính

```{r}
table(nv3$Sex)
```

Giới tính nam, nữ và cả hai giới tính đều được dự đoán 945 lần.

* Rút trích dữ liệu 

```{r}
nv3.a <- filter(nv3,Race == 'Asian' & Origin == 'Hispanic') 
nv3.a
```

Dùng lệnh filter để chọn ra các quan sát trong biến Race có giá trị là 'Asian' và các giá trị là 'Hispanic' trong biến Origin.

* Lập biểu đồ nhánh và lá

```{r}
stem(nv3.a$Age.60,scale = .5)
```

Lệnh sẽ được phân tích dựa vào điều kiện dấu thập phân là 3 chữ số ở bên phải. Tương ứng với nhánh là phần số hàng nghìn và lá là phần số hàng trăm.

Nhánh là gồm các số bên trái dấu ‘|’ và bên phải là lá. Gồm 10 nhánh là các nhánh các số hàng 1 nghìn, 2 nghìn,… đến 10 nghìn.

Ở hàng 1 nghìn ta thấy có 2 số, tương ứng có 2 số thuộc hàng 1 nghìn. Các con số là 1900 và 1900 (các số đã được làm tròn đến hàng đơn vị)

Tương tự ở hàng 6, có 6 số thuộc nhánh 6 nghìn, là các số 6200,6700,6800,6800,6800 và 6900.

## Tính toán các đặc trưng đo lường ở độ tuổi 100 ở Asian qua các năm thuộc giới tính nữ

* Rút trích dữ liệu 

```{r}
nv3.b <- filter(nv3.a,Sex %in% c('Female'))
nv3.b
```

Rút trích dữ liệu để lấy ra dữ liệu chỉ có giới tính nữ.

* Mô tả giá trị nhỏ nhất

```{r}
min1 <- nv3.b %>% group_by(Sex) %>% summarise(min = min(Age.100), n = n())
min1
```

Trong 45 năm dự đoán, dân số người Asian thuộc giới tính nữ được dự đoán thấp nhất trong độ tuổi 100 là 27 người.

* Mô tả điểm phân vị thứ nhất

```{r}
Quantile1 <- nv3.b %>% group_by(Sex) %>% summarise(quantile_1st = quantile(Age.100, probs = c(.25)), n = n())
Quantile1
```

Tại điểm phân vị thứ nhất thể hiện có 25% thuộc độ tuổi 100 có ít hơn hoặc bằng 42 người. Hoặc 75% ở tuổi 100 có nhiều hơn 42 người.

* Mô tả điểm phân vị thứ 2 - Trung vị

```{r}
Quantile2 <- nv3.b %>% group_by(Sex) %>% reframe(quantile_2nd = quantile(Age.100, probs = c(.5)), n = n())
Quantile2
```

Tại điểm phân vị thứ hai thể hiện một nửa giá trị nhỏ hơn hoặc bằng 85 và một nửa giá trị lớn hơn hoặc bằng 85. 

* Mô tả điểm phân vị thứ 3

```{r}
Quantile3 <- nv3.b %>% group_by(Sex) %>% reframe(quantile_3rd = quantile(Age.100, probs = c(.75)), n = n())
Quantile3
```

Tại điểm phân vị thứ ba thể hiện có 75% thuộc độ tuổi 100 có ít hơn hoặc bằng 211 người. Hoặc 25% ở tuổi 100 có nhiều hơn 211 người.

* Mô tả giá trị trung bình

```{r}
mean1 <- nv3.b %>% group_by(Sex) %>% summarise(mean = mean(Age.100), n= n())
mean1
```

Trung bình trong 45 năm, dân số ở độ tuổi 100 của giới nữ là 143 người.

* Mô tả giá trị lớn nhất

```{r}
max1 <- nv3.b %>% group_by(Sex) %>% summarise(max = max(Age.100), n = n())
max1
```

Trong 45 năm dự đoán, dân số được dự đoán cao nhất nằm trong tuổi 100 ở giới nữ là 477 người.