NHIỆM VỤ 3.1
Đọc bộ dữ liệu từ
file CVS
data <- read.csv(file.choose(), header = T)
data
Giải thích bộ dữ
liệu
Là một dataframe
Không có dữ liệu trống
Không có dữ liệu trùng lắp
Dữ liệu về dân số của các quốc gia trên thế giới được phân tích
theo các năm và các độ tuổi
Dữ liệu gồm 18288 quan sát và 24 biến
Counry.name: tên của các quốc gia
Year: năm thông kê
Population: dân số của quốc gia trong một năm
Population.of.children.under.the.age.of.1: dân số trẻ em có độ
tuổi dưới 1
Population.of.children.under.the.age.of.5: dân số trẻ em có độ
tuổi dưới 5
Population.of.children.under.the.age.of.15: dân số trẻ em có độ
tuổi dưới 15
Population.under.the.age.of.25: dân số người có độ tuổi dưới
25
Population.aged.15.to.64.year: dân số người có độ tuổi từ 15 đến
64
Population.older.than.15.years: dấn số người có độ tuổi lớn hơn
15
Population.older.than.18.years: dân số người có độ tuổi lớn hơn
18
Population.at.age.1: dân số người có độ tuổi là 1
Population.aged.1.to.4.years: dân số người có độ tuổi từ 1 đến
4
Population.aged.5.to.9.years: dân số người có độ tuổi từ 5 đến
9
Population.aged.10.to.14.years: dân số người có độ tuổi từ 10 đến
14
Population.aged.15.to.19.years: dân số người có độ tuổi từ 15 đến
19
Population.aged.20.to.29.years: dân số người có độ tuổi từ 20 đến
29
Population.aged.30.to.39.years: dân số người có độ tuổi từ 30 đến
39
Population.aged.40.to.49.years: dân số người có độ tuổi từ 40 đến
49
Population.aged.50.to.59.years: dân số người có độ tuổi từ 50 đến
59
Population.aged.60.to.69.years: dân số người có độ tuổi từ 60 đến
69
Population.aged.70.to.79.years: dân số người có độ tuổi từ 70 đến
79
Population.aged.80.to.89.years: dân số người có độ tuổi từ 80 đến
89
Population.aged.90.to.99.years: dân số người có độ tuổi từ 90 đến
99
Population.older.than.100.years: dân số người có độ tuổi lớn hơn
100
str(data)
## 'data.frame': 18288 obs. of 24 variables:
## $ Country.name : chr "Afghanistan" "Afghanistan" "Afghanistan" "Afghanistan" ...
## $ Year : int 1950 1951 1952 1953 1954 1955 1956 1957 1958 1959 ...
## $ Population : num 7480464 7571542 7667534 7764549 7864289 ...
## $ Population.of.children.under.the.age.of.1 : num 301735 299368 305393 311574 317584 ...
## $ Population.of.children.under.the.age.of.5 : int 1248282 1246857 1248220 1254725 1267817 1291129 1322342 1354752 1387274 1421808 ...
## $ Population.of.children.under.the.age.of.15: int 3068855 3105444 3145070 3186382 3231060 3281470 3337026 3396048 3455343 3518528 ...
## $ Population.under.the.age.of.25 : num 4494349 4552138 4613604 4676232 4741371 ...
## $ Population.aged.15.to.64.years : num 4198587 4250002 4303436 4356242 4408474 ...
## $ Population.older.than.15.years : num 4411609 4466098 4522464 4578167 4633229 ...
## $ Population.older.than.18.years : num 3946595 3993640 4041439 4088379 4136116 ...
## $ Population.at.age.1 : num 258652 254304 252906 258717 264765 ...
## $ Population.aged.1.to.4.years : num 946547 947489 942827 943151 950233 ...
## $ Population.aged.5.to.9.years : int 966210 991791 1017993 1039950 1055592 1062420 1063212 1065357 1071666 1084972 ...
## $ Population.aged.10.to.14.years : int 854363 866796 878857 891707 907651 927921 951472 975939 996403 1011748 ...
## $ Population.aged.15.to.19.years : int 757113 768616 781411 794308 806216 817550 828600 839588 851433 867048 ...
## $ Population.aged.20.to.29.years : int 1241348 1260904 1280288 1298803 1316768 1334989 1353958 1374043 1393789 1414034 ...
## $ Population.aged.30.to.39.years : int 909953 922765 935638 948321 961484 975801 991166 1007440 1023595 1040441 ...
## $ Population.aged.40.to.49.years : int 661807 667015 672491 678064 684153 691279 699431 708537 717938 728233 ...
## $ Population.aged.50.to.59.years : int 467170 468881 470898 472969 475117 477664 480665 484018 487393 491447 ...
## $ Population.aged.60.to.69.years : int 271905 273286 274852 276577 278210 279789 281376 282918 284592 286551 ...
## $ Population.aged.70.to.79.years : int 92691 94358 96026 97705 99298 100839 102385 103932 105508 107136 ...
## $ Population.aged.80.to.89.years : int 9499 10155 10721 11254 11793 12342 12890 13428 13959 14495 ...
## $ Population.aged.90.to.99.years : int 123 118 139 166 190 210 233 255 277 307 ...
## $ Population.older.than.100.years : num 0 0 0 0 0 0 0 0 0 0 ...
18288 observations tương ứng với 18288 quan sát (là các hàng).
24 variables tương ứng với 24 biến (là các cột).
is.na(data) # Sử dụng is.na để kiểm tra NA. Giá trị 'TRUE' phần tử tương ứng là NA và 'FALSE' là không phải NA.
‘NA’ là một giá trị đặc biệt, đại diện cho “Not Available” dữ liệu
hoặc giá trị không xác định hoặc không có sẵn.
sum(is.na(data)) # Được sử dụng để đếm số lượng giá trị NA trong một đối tượng dữ liệu.
## [1] 0
Kết quả 0 có nghĩa bộ dữ liệu không có NA.
duplicated(data) # Dùng xác định xem có sự trùng lặp nào trong data frame hay không.
Giá trị TRUE tương ứng với các hàng trong data frame là trùng lặp và
FALSE nếu không trùng lặp.
sum(duplicated(data)) # Đếm số lượng trùng lặp
## [1] 0
Kết quả 0 có nghĩa bộ dữ liệu không trùng lặp.
Tạo dataframe mới để
phân tích
names(data) <- c('ct', 'y', 'p','under.1', 'under.5', 'under.15','under.25','from.15.to.64','above.15', 'above.18','one.year.old','from.1.to.4','from.5.to.9','from.10.to.14','from.15.to.19','from.20.to.29','from.30.to.39','from.40.to.49','from.50.to.59','from.60.to.69','from.70.to.79','from.80.to.89','from.90.to.99','above.100') # Việc đổi tên các biến giúp dữ liệu được ngắn gọn hơn, tránh được các nhầm lẫn.
names(data)
## [1] "ct" "y" "p" "under.1"
## [5] "under.5" "under.15" "under.25" "from.15.to.64"
## [9] "above.15" "above.18" "one.year.old" "from.1.to.4"
## [13] "from.5.to.9" "from.10.to.14" "from.15.to.19" "from.20.to.29"
## [17] "from.30.to.39" "from.40.to.49" "from.50.to.59" "from.60.to.69"
## [21] "from.70.to.79" "from.80.to.89" "from.90.to.99" "above.100"
Việc đổi tên còn được thực hiện bởi lệnh rename() trong packages
tidyverse. Điểm khác nhau giữa hai lệnh này là names() thực hiện đổi tên
cho tất cả các biến và rename() dành cho việc đặt tên bất kì biến
nào.
- Chọn dữ liệu để phân tích
library(tidyverse) # rút trích dữ liệu thông qua package 'tydyverse' để dùng 'select' và 'filter'
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.4 ✔ readr 2.1.5
## ✔ forcats 1.0.0 ✔ stringr 1.5.1
## ✔ ggplot2 3.4.4 ✔ tibble 3.2.1
## ✔ lubridate 1.9.3 ✔ tidyr 1.3.0
## ✔ purrr 1.0.2
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
d <- filter(data,ct %in% c('Vietnam','Thailand','China', 'South Korea', 'Japan')) # 'filter' được sử dụng để chọn các quan sát trong dataframe.
d <- select(d,ct,y,p,under.1,under.5,from.15.to.64,one.year.old,above.100) # Sử dụng 'select' để chọn ra các biến.
d
Kết quả trong câu lệnh ‘filter’ nghĩa là chọn các quan sát trong biến
‘ct’ có giá trị tương ứng là ‘Vietnam’, ‘Thailand’, ‘China’, ‘South
Korea’, ‘Japan’.
Ở câu lệnh ‘select’ sẽ trả về một dataframe mới chỉ chứa biến
‘under.1’, ‘under.5’, ‘from.15.to.64’, ‘one.year.old’, ‘above.10’ từ
dataframe vừa tạo ở trên.
Với lệnh ‘filter’ ta lấy ra được 360 quan sát dựa trên dataframe gốc
là ‘data’ và lệnh ‘select’ lấy ra được 8 biến trong datafram mới. Từ đó
ta được một dataframe mới hơn là ‘d’ với 360 quan sát và tương ứng 8
biến.
Mã hóa dữ liệu
- Mã hóa dữu liệu dựa vào tên quốc gia
d$ct.Coded <- ifelse(d$ct == 'Vietnam','Vietnam','Not Vietnam')
‘ifelse’ sẽ kiểm tra điều kiện trong biến ct, nếu trong ct có phần tử
là ‘Vietnam’ thì sẽ trả về ‘Vietnam’, nếu sai điều kiện thì sẽ trả về
‘Not Vietnam’.
- Mã hóa dữ liệu dựa vào số lượng dân số của một nước trong các
năm
d$p.Coded <- case_when(d$p < 70000000 ~ 'Ít',d$p >= 70000000 & d$p <=1000000000 ~ 'Vừa',d$p >1000000000 ~ 'Nhiều') # 'case_when' dùng để thực hiện một loạt các điều kiện và trả về giá trị tương ứng của các điều kiện.
Một cột mới có tên là ‘p.coded’ sẽ được tạo tương ứng với các điều
kiện. Phần tử trong biến sẽ có giá trị là ‘Ít’ nếu quan sát trong biến
‘p’ có giá trị nhỏ hơn 70000000, ‘Vừa’ nếu quan sát trong ‘p’ lớn hơn
bằng 70000000 và nhỏ hơn bằng 1000000000, khi lớn hơn 1000000000 thì
phần tử có giá trị là ‘Nhiều’.
d$under1.Coded <- cut(d$under.1,3,labels = c('Nhóm 1','Nhóm 2','Nhóm 3'))
# Hàm 'cut' được sử dụng để chia dữ liệu thành các khoảng (bins) rồi gán tên cho từng khoảng dựa trên giá trị.
Dữ liệu trong biến ‘under.1’ được chia thành 3 khoảng, và các tên
‘Nhóm 1’, ‘Nhóm 2’, ‘Nhóm 3’ được gán tương ứng với các khoảng đó.
- Mã hóa dữ liệu bằng cách đưa tên các nước về tiếng Việt
d$ct.Coded1 <- recode(d$ct,China ='Trung Quốc', Japan ='Nhật Bản', Vietnam ='Việt Nam', Thailand ='Thái Lan', South.Korea ='Hàn Quốc')
# Hàm 'recode' cho phép thay đổi giá trị của một biến thành giá trị mới dựa trên các quy tắc xác định.
Ở mổi phần tử thuộc biến ‘ct’ có giá trị là ‘China’ thì sẽ được mã
hóa thành ‘Trung Quốc’, tương tự ‘Japan’ sẽ được mã hóa thành ‘Nhật
Bản’,…
d
Qua 4 lệnh mã hóa trên, data frame ‘d’ có tổng cộng là 12 biến và số
quan sát là không đổi với 360 hàng.
Lập bảng tần số
- Xem số lần, số tần suất lặp lại trong một dữ liệu
table(d$ct) # Hàm 'table' được sử dụng để tạo bảng tần suất của các giá trị trong một dữ liệu. Bảng tần suất này cho phép xem xét phân phối của các giá trị và biết được số lần xuất hiện của mỗi giá trị.
##
## China Japan South Korea Thailand Vietnam
## 72 72 72 72 72
Số ‘72’ xuất hiện trong bảng kết quả cho thấy giá trị ‘China’,
‘Japan’, ‘South Korea’, ‘Thailand’ và ‘Vietnam’ được lặp lại hoặc được
xuất hiện 72 lần, tương ứng với 72 năm trong tổng số năm phân tích.
d1 <- filter(d,ct == 'Vietnam') # Dùng lệnh filter để chọn ra các quan sát, để phân tích riêng nước Việt Nam
stem(d1$above.100) # Biểu đồ nhánh và lá là một biểu đồ thường được sử dụng để hiển thị cấu trúc phân cấp của một tập hợp các đối tượng hoặc mẫu.
##
## The decimal point is 3 digit(s) to the right of the |
##
## 0 | 1111111111111111111111122222222233334445566789
## 1 | 012357
## 2 | 02478
## 3 | 01358
## 4 | 1479
## 5 | 1247
## 6 | 04
Lệnh sẽ được phân tích dựa vào điều kiện dấu thập phân là 3 chữ số ở
bên phải. Tương ứng với nhánh là phần số hàng nghìn và lá là phần số
hàng trăm.
Nhánh là gồm các số bên trái dấu ‘|’ và bên phải là lá. Gồm 7 nhánh
là các nhánh các số hàng trăm, 1 nghìn, 2 nghìn,… đến 6 nghìn.
Dễ dàng thấy được ở hàng cuối cùng, có 2 lá nằm trong nhánh 6, nghĩa
là có 2 năm, Việt Nam có dân số ở độ tuổi trên 100 là khoảng 6000 người
và con số tương ứng là 6000 và 6400 (con số đã bao gồm việc làm
tròn).
Tính toán các đặc
trưng đo lường của 5 quốc gia ở độ tuổi từ 15 đến 64
min <- d %>% group_by(ct) %>% summarise(min = min(from.15.to.64), n = n())
min
Trong 72 năm phân tích, dân số thấp nhất trong độ tuổi từ 15 đến 64
lần lượt theo các quốc gia Trung Quốc, Nhật Bản, Hàn Quốc, Thái Lan và
Việt Nam là 327285950, 50380868, 10919575, 11150405 và 15836825.
Tứ phân vị là một khái niệm trong thống kê mô tả để phân chia một tập
dữ liệu thành bốn phần bằng nhau, mỗi phần chiếm 25% tổng số quan
sát.
Q1 <- d %>% group_by(ct) %>% reframe(quantile_1st = quantile(from.15.to.64, probs = c(.25)), n = n())
Q1
Tại điểm này, giá trị chia tập dữ liệu thành 25% giảm dần, nghĩa là
có 25% số liệu bé hơn hoặc bằng Q1 và 75% số liệu lớn hơn Q1.
Nghĩa là tại Trung Quốc, ở độ tuổi này trong các năm, dân số ít hơn
hoặc bằng 427719163 là 25%. Tương tự các nước còn lại.
- Điểm phân vị thứ hai - Trung vị
Q2 <- d %>% group_by(ct) %>% reframe(quantile_2nd = quantile(from.15.to.64, probs = c(.5)), n = n())
Q2
Tứ phân vị thứ hai chính là giá trị trung bình, hoặc median (trung
vị). Là giá trị chia tập dữ liệu thành hai phần bằng nhau, 50% số liệu
bé hơn Q2 và 50% số liệu lớn hơn Q2.
Ở Trung Quốc, qua các năm, một nửa giá trị nhỏ hơn hoặc bằng
686696600 và một nửa giá trị lớn hơn hoặc bằng 686696600. Các nước còn
lại tương tự.
Q3 <- d %>% group_by(ct) %>% reframe(quantile_3rd = quantile(from.15.to.64, probs = c(.75)), n = n())
Q3
Tứ phân vị thứ ba là giá trị chia tập dữ liệu thành 75% giảm dần,
nghĩa là có 75% số liệu bé hơn hoặc bằng Q3 và 25% số liệu lớn hơn
Q3.
Trong độ tuổi từ 15 đến 64, tại Trung Quốc, có 75% dân số bé hơn hoặc
bằng 912309775 hoặc có 25% dân số lớn hơn 912309775. Các nước còn lại
tương tự.
mean <- d %>% group_by(ct) %>% summarise(mean = mean(from.15.to.64), n= n())
mean
Như vậy, trung bình một năm dân số Trung Quốc sẽ có 672094697 người
trong độ tuổi từ 15 đến 64.
Tương tự, trong 72 năm trung bình một năm dân số từ 15 đến 64 tuổi ở
Nhật Bản là 75434732, Hàn Quốc là 25757425, Thái Lan có 31642004 và Việt
Nam có 37136547.
max <- d %>% group_by(ct) %>% summarise(max = max(from.15.to.64), n = n())
max
Trong 72 năm phân tích, dân số cao nhất trong độ tuổi từ 15 đến 64
lần lượt theo các quốc gia Trung Quốc, Nhật Bản, Hàn Quốc, Thái Lan và
Việt Nam là 998226100, 87116616, 37643056, 50431860 và 66962210.
NHIỆM VỤ 3.2
Đọc bộ dữ liệu
nv3 <- read.csv(file.choose(), header = T)
nv3
Giải thích bộ dữ
liệu
Dữ liệu về việc dự báo dân số Hoa Kỳ theo từng độ tuổi từ
2016-2060.
Gồm 2835 quan sát và 106 biến:
Sex: giới tính đang quan sát
Origin: đến từ nơi nào đó
Race: các nhóm chủng tộc và dân tộc
Year: năm dự đoán, từ năm 2016 đến 2060
Total Population: tổng cộng các dân số dự đoán được
Và 101 biến tương ứng với 101 cột với độ tuổi từ 0 đến
100
Là dataframe.
Không có giá trị NA.
Không có dữ liệu bị trùng lắp.
dim(nv3) # Xem tổng số quan sát và tổng số biến
## [1] 2835 106
2835 ứng với 2835 quan sát
106 ứng với 106 biến
is.data.frame(nv3) #Kiểm tra bộ dữ liệu
## [1] TRUE
Kết quả TRUE thể hiện bộ dữ liệu là một dataframe.
is.na(nv3) # Xem bộ dữ liệu có giá trị trống hay không
Kết quả TRUE chỉ tại phần tử đó là một giá trị trống và FALSE khi
không phải giá trị trống.
sum(is.na(nv3)) # Kiểm tra tổng số phần tử có giá trị trống
## [1] 0
Bộ dữ liệu không có giá trị NA.
duplicated(nv3) # Kiểm tra xem sự trùng lặp của dữ liệu
Giá trị TRUE tương ứng với các hàng trong data frame là trùng lặp và
FALSE nếu không trùng lặp.
sum(duplicated(nv3))
## [1] 0
Kết quả trả về 0, bộ dữ liệu không trùng lặp.
Mã hóa dữ liệu
- Mã hóa dữ liệu dựa vào giới tính
nv3$Sex.Coded <- ifelse(nv3$Sex == 'Female','Female','Not Female')
Điều kiện lệnh ở đây là nếu trong biến S có giá trị là ‘Female’ thì
sẽ được mã hóa thành ‘Female’, nếu giá trị khác ‘Female’ (Both hoặc
Male) thì sẽ được mã hóa thành ‘Not Female’.
- Mã hóa giới tính thành các con số
nv3$Sex.Coded1 <- recode(nv3$Sex,Male = '1', Female = '2', Both = '3')
Giới tính sẽ được mã hóa dưới dạng các con số, ở phần tử có giá trị
là ‘Male’ sẽ được mã hóa thành số ‘1’, ‘Female’ thành số ‘2; và ’Both’
là số 3.
- Mã hóa dữ liệu dựa vào số liệu dân số trong độ tuổi 18
nv3$Age.18.Coded <- case_when(nv3$Age.18 < 5000 ~ 'Rất it',nv3$Age.18 >= 5000 & nv3$Age.18 < 10000 ~ 'It',nv3$Age.18 >= 10000 & nv3$Age.18 < 500000 ~ 'Vừa',nv3$Age.18 >= 500000 & nv3$Age.18 < 2000000 ~ 'Nhiều ',nv3$Age.18 >= 2000000 ~ 'Rất nhiều')
Các dân số dự đoán sẽ được mã hóa thành dạng chữ với các điều
kiện.
Bé hơn 5000 -> Rất ít
Từ 5000 đến 10000 -> Ít
Từ 10000 đến 500000 -> Vừa
Từ 500000 đến 2000000 -> Nhiều
Nhiều hơn 2000000 -> Rất nhiều
- Mã hóa dữ liệu theo nhóm dựa vào độ tuổi 20
nv3$Age.20.Coded <- cut(nv3$Age.20,3,labels = c('Nhóm 1','Nhóm 2','Nhóm 3'))
Dữ liệu trong biến ‘Age.20’ được chia thành 3 khoảng, và các tên
‘Nhóm 1’, ‘Nhóm 2’, ‘Nhóm 3’ được gán tương ứng với các khoảng đó.
nv3
Qua 4 lệnh mã hóa trên, data frame ‘nv3’ có tổng cộng là 110 biến và
số quan sát là không đổi với 2835 hàng.
Lập bảng tần số
- Tần số phân tích về giới tính
table(nv3$Sex)
##
## Both Female Male
## 945 945 945
Giới tính nam, nữ và cả hai giới tính đều được dự đoán 945 lần.
nv3.a <- filter(nv3,Race == 'Asian' & Origin == 'Hispanic')
nv3.a
Dùng lệnh filter để chọn ra các quan sát trong biến Race có giá trị
là ‘Asian’ và các giá trị là ‘Hispanic’ trong biến Origin.
stem(nv3.a$Age.60,scale = .5)
##
## The decimal point is 3 digit(s) to the right of the |
##
## 1 | 99
## 2 | 001113334556677788889
## 3 | 0000222333555666677889
## 4 | 00011111112233344444555667777899999
## 5 | 00001111222223334456779
## 6 | 278889
## 7 | 45888
## 8 | 4445568
## 9 | 02778999
## 10 | 123456
Lệnh sẽ được phân tích dựa vào điều kiện dấu thập phân là 3 chữ số ở
bên phải. Tương ứng với nhánh là phần số hàng nghìn và lá là phần số
hàng trăm.
Nhánh là gồm các số bên trái dấu ‘|’ và bên phải là lá. Gồm 10 nhánh
là các nhánh các số hàng 1 nghìn, 2 nghìn,… đến 10 nghìn.
Ở hàng 1 nghìn ta thấy có 2 số, tương ứng có 2 số thuộc hàng 1 nghìn.
Các con số là 1900 và 1900 (các số đã được làm tròn đến hàng đơn vị)
Tương tự ở hàng 6, có 6 số thuộc nhánh 6 nghìn, là các số
6200,6700,6800,6800,6800 và 6900.
Tính toán các đặc
trưng đo lường ở độ tuổi 100 ở Asian qua các năm thuộc giới tính nữ
nv3.b <- filter(nv3.a,Sex %in% c('Female'))
nv3.b
Rút trích dữ liệu để lấy ra dữ liệu chỉ có giới tính nữ.
min1 <- nv3.b %>% group_by(Sex) %>% summarise(min = min(Age.100), n = n())
min1
Trong 45 năm dự đoán, dân số người Asian thuộc giới tính nữ được dự
đoán thấp nhất trong độ tuổi 100 là 27 người.
- Mô tả điểm phân vị thứ nhất
Quantile1 <- nv3.b %>% group_by(Sex) %>% summarise(quantile_1st = quantile(Age.100, probs = c(.25)), n = n())
Quantile1
Tại điểm phân vị thứ nhất thể hiện có 25% thuộc độ tuổi 100 có ít hơn
hoặc bằng 42 người. Hoặc 75% ở tuổi 100 có nhiều hơn 42 người.
- Mô tả điểm phân vị thứ 2 - Trung vị
Quantile2 <- nv3.b %>% group_by(Sex) %>% reframe(quantile_2nd = quantile(Age.100, probs = c(.5)), n = n())
Quantile2
Tại điểm phân vị thứ hai thể hiện một nửa giá trị nhỏ hơn hoặc bằng
85 và một nửa giá trị lớn hơn hoặc bằng 85.
Quantile3 <- nv3.b %>% group_by(Sex) %>% reframe(quantile_3rd = quantile(Age.100, probs = c(.75)), n = n())
Quantile3
Tại điểm phân vị thứ ba thể hiện có 75% thuộc độ tuổi 100 có ít hơn
hoặc bằng 211 người. Hoặc 25% ở tuổi 100 có nhiều hơn 211 người.
mean1 <- nv3.b %>% group_by(Sex) %>% summarise(mean = mean(Age.100), n= n())
mean1
Trung bình trong 45 năm, dân số ở độ tuổi 100 của giới nữ là 143
người.
max1 <- nv3.b %>% group_by(Sex) %>% summarise(max = max(Age.100), n = n())
max1
Trong 45 năm dự đoán, dân số được dự đoán cao nhất nằm trong tuổi 100
ở giới nữ là 477 người.
---
title: "Nhiệm vụ 3"
author: "Nguyễn Thúy Vy"
date: "`r format(Sys.time(), '%H:%M:%S, %d - %m - %Y')`"
output:
  html_document: 
    toc: true
    theme: united
    number_sections: true
    code_download: true
    code_folding: show 
    df_print: paged
editor_options:
  chunk_output_type: console
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
```

# NHIỆM VỤ 3.1

## Đọc bộ dữ liệu từ file CVS

```{r}
data <- read.csv(file.choose(), header = T)
data
```

## Giải thích bộ dữ liệu 

- Là một dataframe

- Không có dữ liệu trống

- Không có dữ liệu trùng lắp

- Dữ liệu về dân số của các quốc gia trên thế giới được phân tích theo các năm và các độ tuổi

- Dữ liệu gồm 18288 quan sát và 24 biến

  - Counry.name: tên của các quốc gia

  - Year: năm thông kê

  - Population: dân số của quốc gia trong một năm

  - Population.of.children.under.the.age.of.1: dân số trẻ em có độ tuổi dưới 1

  - Population.of.children.under.the.age.of.5: dân số trẻ em có độ tuổi dưới 5

  - Population.of.children.under.the.age.of.15: dân số trẻ em có độ tuổi dưới 15

  - Population.under.the.age.of.25: dân số người có độ tuổi dưới 25

  - Population.aged.15.to.64.year: dân số người có độ tuổi từ 15 đến 64

  - Population.older.than.15.years: dấn số người có độ tuổi lớn hơn 15

  - Population.older.than.18.years: dân số người có độ tuổi lớn hơn 18

  - Population.at.age.1: dân số người có độ tuổi là 1

  - Population.aged.1.to.4.years: dân số người có độ tuổi từ 1 đến 4

  - Population.aged.5.to.9.years: dân số người có độ tuổi từ 5 đến 9

  - Population.aged.10.to.14.years: dân số người có độ tuổi từ 10 đến 14

  - Population.aged.15.to.19.years: dân số người có độ tuổi từ 15 đến 19

  - Population.aged.20.to.29.years: dân số người có độ tuổi từ 20 đến 29

  - Population.aged.30.to.39.years: dân số người có độ tuổi từ 30 đến 39

  - Population.aged.40.to.49.years: dân số người có độ tuổi từ 40 đến 49

  - Population.aged.50.to.59.years: dân số người có độ tuổi từ 50 đến 59

  - Population.aged.60.to.69.years: dân số người có độ tuổi từ 60 đến 69

  - Population.aged.70.to.79.years: dân số người có độ tuổi từ 70 đến 79

  - Population.aged.80.to.89.years: dân số người có độ tuổi từ 80 đến 89

  - Population.aged.90.to.99.years: dân số người có độ tuổi từ 90 đến 99

  - Population.older.than.100.years: dân số người có độ tuổi lớn hơn 100


```{r}
str(data)
```

18288 observations tương ứng với 18288 quan sát (là các hàng).

24 variables tương ứng với 24 biến (là các cột).

```{r,echo=TRUE, results='hide'}
is.na(data) # Sử dụng is.na để kiểm tra NA. Giá trị 'TRUE' phần tử tương ứng là NA và 'FALSE' là không phải NA. 
```

'NA' là một giá trị đặc biệt, đại diện cho "Not Available" dữ liệu hoặc giá trị không xác định hoặc không có sẵn.

```{r}
sum(is.na(data)) # Được sử dụng để đếm số lượng giá trị NA trong một đối tượng dữ liệu. 
```

Kết quả 0 có nghĩa bộ dữ liệu không có NA.

```{r, echo=TRUE, results='hide'}
duplicated(data) # Dùng xác định xem có sự trùng lặp nào trong data frame hay không. 
```

Giá trị TRUE tương ứng với các hàng trong data frame là trùng lặp và FALSE nếu không trùng lặp.

```{r}
sum(duplicated(data)) # Đếm số lượng trùng lặp
```

Kết quả 0 có nghĩa bộ dữ liệu không trùng lặp.

## Tạo dataframe mới để phân tích

* Đổi tên các biến

```{r}
names(data) <- c('ct', 'y', 'p','under.1', 'under.5', 'under.15','under.25','from.15.to.64','above.15', 'above.18','one.year.old','from.1.to.4','from.5.to.9','from.10.to.14','from.15.to.19','from.20.to.29','from.30.to.39','from.40.to.49','from.50.to.59','from.60.to.69','from.70.to.79','from.80.to.89','from.90.to.99','above.100') # Việc đổi tên các biến giúp dữ liệu được ngắn gọn hơn, tránh được các nhầm lẫn.
names(data) 
```

Việc đổi tên còn được thực hiện bởi lệnh rename() trong packages tidyverse. Điểm khác nhau giữa hai lệnh này là names() thực hiện đổi tên cho tất cả các biến và rename() dành cho việc đặt tên bất kì biến nào.

* Chọn dữ liệu để phân tích

```{r}
library(tidyverse) # rút trích dữ liệu thông qua package 'tydyverse' để dùng 'select' và 'filter'
d <- filter(data,ct %in% c('Vietnam','Thailand','China', 'South Korea', 'Japan')) # 'filter' được sử dụng để chọn các quan sát trong dataframe. 
d <- select(d,ct,y,p,under.1,under.5,from.15.to.64,one.year.old,above.100) # Sử dụng 'select' để chọn ra các biến. 
d
``` 

Kết quả trong câu lệnh 'filter' nghĩa là chọn các quan sát trong biến 'ct' có giá trị tương ứng là 'Vietnam', 'Thailand', 'China',  'South Korea', 'Japan'.

Ở câu lệnh 'select' sẽ trả về một dataframe mới chỉ chứa biến 'under.1', 'under.5', 'from.15.to.64', 'one.year.old', 'above.10' từ dataframe vừa tạo ở trên.

Với lệnh 'filter' ta lấy ra được 360 quan sát dựa trên dataframe gốc là 'data' và lệnh 'select' lấy ra được 8 biến trong datafram mới. Từ đó ta được một dataframe mới hơn là 'd' với 360 quan sát và tương ứng 8 biến.

## Mã hóa dữ liệu 

* Mã hóa dữu liệu dựa vào tên quốc gia

```{r}
d$ct.Coded <- ifelse(d$ct == 'Vietnam','Vietnam','Not Vietnam') 
```

'ifelse' sẽ kiểm tra điều kiện trong biến ct, nếu trong ct có phần tử là 'Vietnam' thì sẽ trả về 'Vietnam', nếu sai điều kiện thì sẽ trả về 'Not Vietnam'.

* Mã hóa dữ liệu dựa vào số lượng dân số của một nước trong các năm 

```{r}
d$p.Coded <- case_when(d$p < 70000000 ~ 'Ít',d$p >= 70000000 & d$p <=1000000000 ~ 'Vừa',d$p >1000000000 ~ 'Nhiều') # 'case_when' dùng để thực hiện một loạt các điều kiện và trả về giá trị tương ứng của các điều kiện.
```

Một cột mới có tên là 'p.coded' sẽ được tạo tương ứng với các điều kiện. Phần tử trong biến sẽ có giá trị là 'Ít' nếu quan sát trong biến 'p' có giá trị nhỏ hơn 70000000, 'Vừa' nếu quan sát trong 'p' lớn hơn bằng 70000000 và nhỏ hơn bằng 1000000000, khi lớn hơn 1000000000 thì phần tử có giá trị là 'Nhiều'.
 
* Phân chia dữ liệu

```{r}
d$under1.Coded <- cut(d$under.1,3,labels = c('Nhóm 1','Nhóm 2','Nhóm 3')) 
# Hàm 'cut' được sử dụng để chia dữ liệu thành các khoảng (bins) rồi gán tên cho từng khoảng dựa trên giá trị.
```

Dữ liệu trong biến 'under.1' được chia thành 3 khoảng, và các tên 'Nhóm 1', 'Nhóm 2', 'Nhóm 3' được gán tương ứng với các khoảng đó.
 
* Mã hóa dữ liệu bằng cách đưa tên các nước về tiếng Việt

```{r}
d$ct.Coded1 <- recode(d$ct,China ='Trung Quốc', Japan ='Nhật Bản', Vietnam ='Việt Nam', Thailand ='Thái Lan', South.Korea ='Hàn Quốc')
# Hàm 'recode' cho phép thay đổi giá trị của một biến thành giá trị mới dựa trên các quy tắc xác định. 
```

Ở mổi phần tử thuộc biến 'ct' có giá trị là 'China' thì sẽ được mã hóa thành 'Trung Quốc', tương tự 'Japan' sẽ được mã hóa thành 'Nhật Bản',... 

```{r}
d 
```

Qua 4 lệnh mã hóa trên, data frame 'd' có tổng cộng là 12 biến và số quan sát là không đổi với 360 hàng.

## Lập bảng tần số

* Xem số lần, số tần suất lặp lại trong một dữ liệu 

```{r}
table(d$ct) # Hàm 'table' được sử dụng để tạo bảng tần suất của các giá trị trong một dữ liệu. Bảng tần suất này cho phép xem xét phân phối của các giá trị và biết được số lần xuất hiện của mỗi giá trị.
```

Số '72' xuất hiện trong bảng kết quả cho thấy giá trị 'China', 'Japan', 'South Korea', 'Thailand' và 'Vietnam' được lặp lại hoặc được xuất hiện 72 lần, tương ứng với 72 năm trong tổng số năm phân tích.

* Lập biểu đồ nhánh và lá

```{r}
d1 <- filter(d,ct == 'Vietnam') # Dùng lệnh filter để chọn ra các quan sát, để phân tích riêng nước Việt Nam
stem(d1$above.100) # Biểu đồ nhánh và lá là một biểu đồ thường được sử dụng để hiển thị cấu trúc phân cấp của một tập hợp các đối tượng hoặc mẫu. 
```

Lệnh sẽ được phân tích dựa vào điều kiện dấu thập phân là 3 chữ số ở bên phải. Tương ứng với nhánh là phần số hàng nghìn và lá là phần số hàng trăm.

Nhánh là gồm các số bên trái dấu '|' và bên phải là lá. Gồm 7 nhánh là các nhánh các số hàng trăm, 1 nghìn, 2 nghìn,... đến 6 nghìn.

Dễ dàng thấy được ở hàng cuối cùng, có 2 lá nằm trong nhánh 6, nghĩa là có 2 năm, Việt Nam có dân số ở độ tuổi trên 100 là khoảng 6000 người và con số tương ứng là 6000 và 6400 (con số đã bao gồm  việc làm tròn). 

## Tính toán các đặc trưng đo lường của 5 quốc gia ở độ tuổi từ 15 đến 64

* Mô tả giá trị nhỏ nhất 

```{r}
min <- d %>% group_by(ct) %>% summarise(min = min(from.15.to.64), n = n())
min
```

Trong 72 năm phân tích, dân số thấp nhất trong độ tuổi từ 15 đến 64 lần lượt theo các quốc gia Trung Quốc, Nhật Bản, Hàn Quốc, Thái Lan và Việt Nam là 327285950, 50380868, 10919575, 11150405 và 15836825.

* Mô tả tứ phân vị 

Tứ phân vị là một khái niệm trong thống kê mô tả để phân chia một tập dữ liệu thành bốn phần bằng nhau, mỗi phần chiếm 25% tổng số quan sát. 

  * Điểm phân vị thứ nhất
  
```{r}
Q1 <- d %>% group_by(ct) %>% reframe(quantile_1st = quantile(from.15.to.64, probs = c(.25)), n = n())
Q1
```

Tại điểm này, giá trị chia tập dữ liệu thành 25% giảm dần, nghĩa là có 25% số liệu bé hơn hoặc bằng Q1 và 75% số liệu lớn hơn Q1.

Nghĩa là tại Trung Quốc, ở độ tuổi này trong các năm, dân số ít hơn hoặc bằng 427719163 là 25%. Tương tự các nước còn lại.

   * Điểm phân vị thứ hai - Trung vị 

```{r}
Q2 <- d %>% group_by(ct) %>% reframe(quantile_2nd = quantile(from.15.to.64, probs = c(.5)), n = n())
Q2
```

Tứ phân vị thứ hai chính là giá trị trung bình, hoặc median (trung vị). Là giá trị chia tập dữ liệu thành hai phần bằng nhau, 50% số liệu bé hơn Q2 và 50% số liệu lớn hơn Q2.

Ở Trung Quốc, qua các năm, một nửa giá trị nhỏ hơn hoặc bằng 686696600 và một nửa giá trị lớn hơn hoặc bằng 686696600. Các nước còn lại tương tự.

  * Điểm phân vị thứ 3

```{r}
Q3 <- d %>% group_by(ct) %>% reframe(quantile_3rd = quantile(from.15.to.64, probs = c(.75)), n = n())
Q3
```

Tứ phân vị thứ ba là giá trị chia tập dữ liệu thành 75% giảm dần, nghĩa là có 75% số liệu bé hơn hoặc bằng Q3 và 25% số liệu lớn hơn Q3.

Trong độ tuổi từ 15 đến 64, tại Trung Quốc, có 75% dân số bé hơn hoặc bằng 912309775 hoặc có 25% dân số lớn hơn 912309775. Các nước còn lại tương tự.

* Mô tả giá trị trung bình

```{r}
mean <- d %>% group_by(ct) %>% summarise(mean = mean(from.15.to.64), n= n())
mean
```
 
Như vậy, trung bình một năm dân số Trung Quốc sẽ có 672094697 người trong độ tuổi từ 15 đến 64.

Tương tự, trong 72 năm trung bình một năm dân số từ 15 đến 64 tuổi ở Nhật Bản là 75434732, Hàn Quốc là 25757425, Thái Lan có 31642004 và Việt Nam có 37136547.

* Mô tả giá trị lớn nhất

```{r}
max <- d %>% group_by(ct) %>% summarise(max = max(from.15.to.64), n = n())
max
```

Trong 72 năm phân tích, dân số cao nhất trong độ tuổi từ 15 đến 64 lần lượt theo các quốc gia Trung Quốc, Nhật Bản, Hàn Quốc, Thái Lan và Việt Nam là 998226100, 87116616, 37643056, 50431860 và 66962210.

# NHIỆM VỤ 3.2

## Đọc bộ dữ liệu

```{r}
nv3 <- read.csv(file.choose(), header = T)
nv3
```

## Giải thích bộ dữ liệu

- Dữ liệu về việc dự báo dân số Hoa Kỳ theo từng độ tuổi từ 2016-2060.

- Gồm 2835 quan sát và 106 biến:

  - Sex: giới tính đang quan sát
  
  - Origin: đến từ nơi nào đó
  
  - Race:  các nhóm chủng tộc và dân tộc 
  
  - Year: năm dự đoán, từ năm 2016 đến 2060
  
  - Total Population: tổng cộng các dân số dự đoán được
  
  - Và 101 biến tương ứng với 101 cột với độ tuổi từ 0 đến 100
  
- Là dataframe.

- Không có giá trị NA.

- Không có dữ liệu bị trùng lắp.

```{r}
dim(nv3) # Xem tổng số quan sát và tổng số biến
```

2835 ứng với 2835 quan sát

106 ứng với 106 biến

```{r}
is.data.frame(nv3) #Kiểm tra bộ dữ liệu
```

Kết quả TRUE thể hiện bộ dữ liệu là một dataframe.

```{r echo=TRUE, results='hide'}
is.na(nv3) # Xem bộ dữ liệu có giá trị trống hay không
```

Kết quả TRUE chỉ tại phần tử đó là một giá trị trống và FALSE khi không phải giá trị trống.

```{r}
sum(is.na(nv3)) # Kiểm tra tổng số phần tử có giá trị trống
```

Bộ dữ liệu không có giá trị NA.

```{r, echo=TRUE, results='hide'}
duplicated(nv3) # Kiểm tra xem sự trùng lặp của dữ liệu
```

Giá trị TRUE tương ứng với các hàng trong data frame là trùng lặp và FALSE nếu không trùng lặp.

```{r}
sum(duplicated(nv3))
```

Kết quả trả về 0, bộ dữ liệu không trùng lặp.

## Mã hóa dữ liệu

* Mã hóa dữ liệu dựa vào giới tính

```{r}
nv3$Sex.Coded <- ifelse(nv3$Sex == 'Female','Female','Not Female')
```

Điều kiện lệnh ở đây là nếu trong biến S có giá trị là 'Female' thì sẽ được mã hóa thành 'Female', nếu giá trị khác 'Female' (Both hoặc Male) thì sẽ được mã hóa thành 'Not Female'.

* Mã hóa giới tính thành các con số

```{r}
nv3$Sex.Coded1 <- recode(nv3$Sex,Male = '1', Female = '2', Both = '3')
```

Giới tính sẽ được mã hóa dưới dạng các con số, ở phần tử có giá trị là 'Male' sẽ được mã hóa thành số '1', 'Female' thành số '2; và 'Both' là số 3.

* Mã hóa dữ liệu dựa vào số liệu dân số trong độ tuổi 18

```{r}
nv3$Age.18.Coded <- case_when(nv3$Age.18 < 5000 ~ 'Rất it',nv3$Age.18 >= 5000 & nv3$Age.18 < 10000 ~ 'It',nv3$Age.18 >= 10000 & nv3$Age.18 < 500000 ~ 'Vừa',nv3$Age.18 >= 500000 & nv3$Age.18 <  2000000 ~ 'Nhiều ',nv3$Age.18 >= 2000000 ~ 'Rất nhiều')
```

Các dân số dự đoán sẽ được mã hóa thành dạng chữ với các điều kiện. 

Bé hơn 5000 -> Rất ít

Từ 5000 đến 10000 -> Ít

Từ 10000 đến 500000 -> Vừa

Từ 500000 đến 2000000 -> Nhiều 

Nhiều hơn 2000000 -> Rất nhiều

* Mã hóa dữ liệu theo nhóm dựa vào độ tuổi 20

```{r}
nv3$Age.20.Coded <- cut(nv3$Age.20,3,labels = c('Nhóm 1','Nhóm 2','Nhóm 3')) 
```

Dữ liệu trong biến ‘Age.20’ được chia thành 3 khoảng, và các tên ‘Nhóm 1’, ‘Nhóm 2’, ‘Nhóm 3’ được gán tương ứng với các khoảng đó.

```{r}
nv3 
```

Qua 4 lệnh mã hóa trên, data frame 'nv3' có tổng cộng là 110 biến và số quan sát là không đổi với 2835 hàng.

## Lập bảng tần số 

* Tần số phân tích về giới tính

```{r}
table(nv3$Sex)
```

Giới tính nam, nữ và cả hai giới tính đều được dự đoán 945 lần.

* Rút trích dữ liệu 

```{r}
nv3.a <- filter(nv3,Race == 'Asian' & Origin == 'Hispanic') 
nv3.a
```

Dùng lệnh filter để chọn ra các quan sát trong biến Race có giá trị là 'Asian' và các giá trị là 'Hispanic' trong biến Origin.

* Lập biểu đồ nhánh và lá

```{r}
stem(nv3.a$Age.60,scale = .5)
```

Lệnh sẽ được phân tích dựa vào điều kiện dấu thập phân là 3 chữ số ở bên phải. Tương ứng với nhánh là phần số hàng nghìn và lá là phần số hàng trăm.

Nhánh là gồm các số bên trái dấu ‘|’ và bên phải là lá. Gồm 10 nhánh là các nhánh các số hàng 1 nghìn, 2 nghìn,… đến 10 nghìn.

Ở hàng 1 nghìn ta thấy có 2 số, tương ứng có 2 số thuộc hàng 1 nghìn. Các con số là 1900 và 1900 (các số đã được làm tròn đến hàng đơn vị)

Tương tự ở hàng 6, có 6 số thuộc nhánh 6 nghìn, là các số 6200,6700,6800,6800,6800 và 6900.

## Tính toán các đặc trưng đo lường ở độ tuổi 100 ở Asian qua các năm thuộc giới tính nữ

* Rút trích dữ liệu 

```{r}
nv3.b <- filter(nv3.a,Sex %in% c('Female'))
nv3.b
```

Rút trích dữ liệu để lấy ra dữ liệu chỉ có giới tính nữ.

* Mô tả giá trị nhỏ nhất

```{r}
min1 <- nv3.b %>% group_by(Sex) %>% summarise(min = min(Age.100), n = n())
min1
```

Trong 45 năm dự đoán, dân số người Asian thuộc giới tính nữ được dự đoán thấp nhất trong độ tuổi 100 là 27 người.

* Mô tả điểm phân vị thứ nhất

```{r}
Quantile1 <- nv3.b %>% group_by(Sex) %>% summarise(quantile_1st = quantile(Age.100, probs = c(.25)), n = n())
Quantile1
```

Tại điểm phân vị thứ nhất thể hiện có 25% thuộc độ tuổi 100 có ít hơn hoặc bằng 42 người. Hoặc 75% ở tuổi 100 có nhiều hơn 42 người.

* Mô tả điểm phân vị thứ 2 - Trung vị

```{r}
Quantile2 <- nv3.b %>% group_by(Sex) %>% reframe(quantile_2nd = quantile(Age.100, probs = c(.5)), n = n())
Quantile2
```

Tại điểm phân vị thứ hai thể hiện một nửa giá trị nhỏ hơn hoặc bằng 85 và một nửa giá trị lớn hơn hoặc bằng 85. 

* Mô tả điểm phân vị thứ 3

```{r}
Quantile3 <- nv3.b %>% group_by(Sex) %>% reframe(quantile_3rd = quantile(Age.100, probs = c(.75)), n = n())
Quantile3
```

Tại điểm phân vị thứ ba thể hiện có 75% thuộc độ tuổi 100 có ít hơn hoặc bằng 211 người. Hoặc 25% ở tuổi 100 có nhiều hơn 211 người.

* Mô tả giá trị trung bình

```{r}
mean1 <- nv3.b %>% group_by(Sex) %>% summarise(mean = mean(Age.100), n= n())
mean1
```

Trung bình trong 45 năm, dân số ở độ tuổi 100 của giới nữ là 143 người.

* Mô tả giá trị lớn nhất

```{r}
max1 <- nv3.b %>% group_by(Sex) %>% summarise(max = max(Age.100), n = n())
max1
```

Trong 45 năm dự đoán, dân số được dự đoán cao nhất nằm trong tuổi 100 ở giới nữ là 477 người.