Nhiệm vụ 3.1: population-and-demography
Giới thiệu:
Nghiên cứu bộ dữ liệu “population-and-demography.csv” là Dataset
thống kê dân số theo từng độ tuổi khác nhau của các nước khác nhau từ
năm 1950 đến năm 2021. Dùng phần mềm R để thao tác
Mô tả cơ bản datasets
- Là một data frame
- Có 24 cột tương ứng với 24 giá trị
- Có 18288 hàng tương ứng với 18288 quan sát
- Dataset không có dữ liệu trống
Thực hiện thao tác đọc và gán dữ liệu vào máy. Bộ dữ liệu là csv nên
đọc dữ liệu theo file csv và gán vào h
h <- read.csv('C:/Users/admin/Downloads/population-and-demography.csv', header = T)
- Bộ dữ liệu có 24 cột cũng như 24 biến, các biến có tên như sau:
names(h)
## [1] "Country.name"
## [2] "Year"
## [3] "Population"
## [4] "Population.of.children.under.the.age.of.1"
## [5] "Population.of.children.under.the.age.of.5"
## [6] "Population.of.children.under.the.age.of.15"
## [7] "Population.under.the.age.of.25"
## [8] "Population.aged.15.to.64.years"
## [9] "Population.older.than.15.years"
## [10] "Population.older.than.18.years"
## [11] "Population.at.age.1"
## [12] "Population.aged.1.to.4.years"
## [13] "Population.aged.5.to.9.years"
## [14] "Population.aged.10.to.14.years"
## [15] "Population.aged.15.to.19.years"
## [16] "Population.aged.20.to.29.years"
## [17] "Population.aged.30.to.39.years"
## [18] "Population.aged.40.to.49.years"
## [19] "Population.aged.50.to.59.years"
## [20] "Population.aged.60.to.69.years"
## [21] "Population.aged.70.to.79.years"
## [22] "Population.aged.80.to.89.years"
## [23] "Population.aged.90.to.99.years"
## [24] "Population.older.than.100.years"
- Kiểm tra xem “h” có phải là data frame hay không, nếu đúng thì true
và ngược lại. Và kết quả trả về là TRUE -> h là một dataframe
is.data.frame(h)
## [1] TRUE
- Xác định số hàng, số cột của h dưới dạng vecto. Kết quả trả về thì h
tương ứng có 18288 hàng và 24 cột
dim(h)
## [1] 18288 24
- Xác định số ô trống của h. Kết quả trả về tương ứng với h không có ô
trống nào
sum(is.na(h))
## [1] 0
Thống kê dữ liệu
Xác định các thông tin cơ bản trong h
library(skimr)
skim(h)
Data summary
| Name |
h |
| Number of rows |
18288 |
| Number of columns |
24 |
| _______________________ |
|
| Column type frequency: |
|
| character |
1 |
| numeric |
23 |
| ________________________ |
|
| Group variables |
None |
Variable type: character
| Country.name |
0 |
1 |
4 |
59 |
0 |
254 |
0 |
Variable type: numeric
| Year |
0 |
1 |
1985.50 |
20.78 |
1950 |
1967.75 |
1985.5 |
2003.25 |
2021 |
▇▇▇▇▇ |
| Population |
0 |
1 |
126470436.62 |
588851230.77 |
1363 |
291591.50 |
3833997.5 |
16785463.50 |
7909295000 |
▇▁▁▁▁ |
| Population.of.children.under.the.age.of.1 |
0 |
1 |
3133496.86 |
14167006.03 |
25 |
6663.75 |
88352.0 |
463000.50 |
139783730 |
▇▁▁▁▁ |
| Population.of.children.under.the.age.of.5 |
0 |
1 |
14825709.57 |
67384368.62 |
136 |
31995.25 |
423784.5 |
2160046.50 |
690360700 |
▇▁▁▁▁ |
| Population.of.children.under.the.age.of.15 |
0 |
1 |
41095227.11 |
188416973.54 |
416 |
89541.50 |
1186121.5 |
5905944.75 |
2015023400 |
▇▁▁▁▁ |
| Population.under.the.age.of.25 |
0 |
1 |
63762600.31 |
294251869.66 |
623 |
139541.50 |
1843099.5 |
9025129.75 |
3239281000 |
▇▁▁▁▁ |
| Population.aged.15.to.64.years |
0 |
1 |
77429505.08 |
367651914.71 |
748 |
170263.50 |
2246772.0 |
9641250.00 |
5132999000 |
▇▁▁▁▁ |
| Population.older.than.15.years |
0 |
1 |
85372101.76 |
404866940.61 |
849 |
186716.00 |
2482104.0 |
10354345.50 |
5893678600 |
▇▁▁▁▁ |
| Population.older.than.18.years |
0 |
1 |
78196242.04 |
372017010.49 |
752 |
166417.50 |
2238130.5 |
9239904.00 |
5516283000 |
▇▁▁▁▁ |
| Population.at.age.1 |
0 |
1 |
3011212.81 |
13661998.41 |
26 |
6473.75 |
85824.0 |
440787.50 |
138478740 |
▇▁▁▁▁ |
| Population.aged.1.to.4.years |
0 |
1 |
11692212.72 |
53238243.89 |
101 |
25269.25 |
334454.0 |
1697850.75 |
550970400 |
▇▁▁▁▁ |
| Population.aged.5.to.9.years |
0 |
1 |
13598575.21 |
62534310.11 |
138 |
29406.25 |
392220.5 |
1947260.75 |
683611800 |
▇▁▁▁▁ |
| Population.aged.10.to.14.years |
0 |
1 |
12670942.28 |
58775457.46 |
73 |
27879.50 |
363895.5 |
1796754.00 |
659934300 |
▇▁▁▁▁ |
| Population.aged.15.to.19.years |
0 |
1 |
11782258.92 |
55126036.18 |
110 |
26296.50 |
336969.5 |
1626210.75 |
623576060 |
▇▁▁▁▁ |
| Population.aged.20.to.29.years |
0 |
1 |
20872880.04 |
98860990.50 |
158 |
45050.75 |
609723.5 |
2758738.50 |
1210493200 |
▇▁▁▁▁ |
| Population.aged.30.to.39.years |
0 |
1 |
17158704.11 |
82404600.95 |
137 |
36608.25 |
486290.5 |
2113149.00 |
1165207300 |
▇▁▁▁▁ |
| Population.aged.40.to.49.years |
0 |
1 |
13622138.99 |
66008221.21 |
119 |
27440.25 |
364712.5 |
1556334.00 |
976407200 |
▇▁▁▁▁ |
| Population.aged.50.to.59.years |
0 |
1 |
10177069.11 |
49288480.77 |
95 |
19649.75 |
264781.5 |
1203386.00 |
851356900 |
▇▁▁▁▁ |
| Population.aged.60.to.69.years |
0 |
1 |
6801756.84 |
32712918.99 |
64 |
12603.00 |
168417.5 |
845242.75 |
598067140 |
▇▁▁▁▁ |
| Population.aged.70.to.79.years |
0 |
1 |
3618710.03 |
17491538.61 |
31 |
6221.00 |
81824.0 |
436710.00 |
330491170 |
▇▁▁▁▁ |
| Population.aged.80.to.89.years |
0 |
1 |
1195799.30 |
6238308.33 |
6 |
1818.75 |
20269.5 |
133380.50 |
131835590 |
▇▁▁▁▁ |
| Population.aged.90.to.99.years |
0 |
1 |
142784.38 |
853350.39 |
0 |
154.75 |
1468.5 |
12499.00 |
22223974 |
▇▁▁▁▁ |
| Population.older.than.100.years |
0 |
1 |
3107.72 |
20951.57 |
0 |
0.00 |
13.0 |
163.00 |
593166 |
▇▁▁▁▁ |
Thực hiện thống kê mô tả dataset này ta được kết quả bên trên, ý
nghĩa các cột như sau:
n_missing: số ô dữ liệu bị miss(trống)
complete_rate: tỷ lệ ô có dữ liệu
mean: trung bình
sd: độ lệch chuẩn
p0: giá trị nhỏ nhất
p25: Phân vị thứ nhất
p50: Phân vị thứ hai cũng chính là trung vị
p75: phân vị thứ ba
p100: giá trị lớn nhất
hist: biểu đồ Histogram
Đổi tên các cột để thao tác
Các ký hiệu tên tương ứng theo thứ tự lần lượt từ cột 1 đến cột
24
Country name= ‘cn’
Year= ‘y’
Population= ‘p’
Population of children under the age of 1= ‘pu1’
Population of children under the age of 5= ‘pu5’
Population of children under the age of 15= ‘pu15’
Population under the age of 25= ‘pu25’
Population aged 15 to 64 years= ‘p15t64’
Population older than 15 years= ‘pt15’
Population older than 18 years= ‘pt18’
Population at age 1= ‘p1’
Population aged 1 to 4 years= ‘p1t4’
Population aged 5 to 9 years= ‘p5t9’
Population aged 10 to 14 years= ‘p10t14’
Population aged 15 to 19 years= ‘p15t19’
Population aged 20 to 29 years= ‘p20t29’
Population aged 30 to 39 years= ‘p30t39’
Population aged 40 to 49 years= ‘p40t49’
Population aged 50 to 59 years= ‘p50t59’
Population aged 60 to 69 years= ‘p60t69’
Population aged 70 to 79 years= ‘p70t79’
Population aged 80 to 89 years= ‘p80t89’
Population aged 90 to 99 years= ‘p90t99’
Population older than 100 years= ‘pt100’
names(h) = c('cn','y','p','pu1','pu5','pu15','pu25','p15t64','pt15','pt18','p1','p1t4','p5t9','p10t14','p15t19','p20t29','p30t39','p40t49','p50t59','p60t69','p70t79','p80t89','p90t99','pt100')
names(h)
## [1] "cn" "y" "p" "pu1" "pu5" "pu15" "pu25" "p15t64"
## [9] "pt15" "pt18" "p1" "p1t4" "p5t9" "p10t14" "p15t19" "p20t29"
## [17] "p30t39" "p40t49" "p50t59" "p60t69" "p70t79" "p80t89" "p90t99" "pt100"
Rút trích dữ liệu
Việc rút trích dữ liệu theo ý muốn cũng như phần dữ liệu được rút sẽ
giúp việc tìm hiểu trở nên tối ưu hơn, để chắc chắn đã rút trích thành
công ta dùng lệnh str(x) với x là tên object mà ta gán dữ liệu để có thể
xem các đối tượng và số lượng của biến của x
Chọn ra 6 cột tương ứng là “cn”,“y”,“p”,“pu15”,“p50t59”,“pt100” và
chọn những hàng bắt đầu bằng chữ “A” gán vào object h1. Kết quả trả về
là h1 gồm có 6 cột và 1152 giá trị
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(stringr)
h1 <- select(h,cn,y,p,pu15,p50t59,pt100) %>% filter(str_detect(cn, "^G"))
str(h1)
## 'data.frame': 1152 obs. of 6 variables:
## $ cn : chr "Gabon" "Gabon" "Gabon" "Gabon" ...
## $ y : int 1950 1951 1952 1953 1954 1955 1956 1957 1958 1959 ...
## $ p : num 472913 475839 478905 482194 485704 ...
## $ pu15 : int 136899 138357 139905 141628 143622 145923 148500 151330 154435 157815 ...
## $ p50t59: int 46966 47180 47395 47611 47831 48054 48284 48516 48756 48997 ...
## $ pt100 : num 1 1 1 1 1 0 1 1 1 1 ...
Mã hoá dữ liệu
Câu lệnh biểu thị một điều kiện so sánh trên cột pt100 của bảng dữ
liệu h1. Cụ thể:
- Nếu giá trị trong cột pt100 của hàng nào đó bằng 0 (h1$pt100 == 0),
thì giá trị của cột pt100 trong hàng đó sẽ được thay thế bằng chuỗi
‘Khong Co’.
- Nếu giá trị trong cột pt100 của hàng nào đó không bằng 0 (h1$pt100
== 0 ), thì giá trị của cột pt100 trong hàng đó sẽ được thay thế bằng
chuỗi ‘Co’
h1$pt100.phanloai <- ifelse(h1$pt100 == 0, 'Khong Co', 'Co')
str(h1)
## 'data.frame': 1152 obs. of 7 variables:
## $ cn : chr "Gabon" "Gabon" "Gabon" "Gabon" ...
## $ y : int 1950 1951 1952 1953 1954 1955 1956 1957 1958 1959 ...
## $ p : num 472913 475839 478905 482194 485704 ...
## $ pu15 : int 136899 138357 139905 141628 143622 145923 148500 151330 154435 157815 ...
## $ p50t59 : int 46966 47180 47395 47611 47831 48054 48284 48516 48756 48997 ...
## $ pt100 : num 1 1 1 1 1 0 1 1 1 1 ...
## $ pt100.phanloai: chr "Co" "Co" "Co" "Co" ...
Lệnh h1\(p.cut <- cut(h1\)p, 3,
labels = c(‘It’, ‘Trung Binh’, ‘Nhieu’)) trong R được sử dụng để tạo một
biến mới (p.cut) trong bảng dữ liệu h1 bằng cách chia biến hiện tại p
thành các khoảng và gắn tên cho mỗi khoảng dựa trên giá trị của nó. Cụ
thể:
h1$p là biến bạn đang muốn chia thành các khoảng.
3 là số lượng khoảng bạn muốn tạo.
labels = c(‘It’, ‘Trung Binh’, ‘Nhieu’) là nhãn tương ứng với mỗi
khoảng.
Kết quả là, biến mới p.cut sẽ chứa các tên tương ứng với khoảng mà
giá trị của p thuộc vào. Nó tạo ra một biến phân loại dựa trên giá trị
của biến số p.
h1$p.cut <- cut(h1$p,3,labels = c('It','Trung Binh','Nhieu'))
str(h1)
## 'data.frame': 1152 obs. of 8 variables:
## $ cn : chr "Gabon" "Gabon" "Gabon" "Gabon" ...
## $ y : int 1950 1951 1952 1953 1954 1955 1956 1957 1958 1959 ...
## $ p : num 472913 475839 478905 482194 485704 ...
## $ pu15 : int 136899 138357 139905 141628 143622 145923 148500 151330 154435 157815 ...
## $ p50t59 : int 46966 47180 47395 47611 47831 48054 48284 48516 48756 48997 ...
## $ pt100 : num 1 1 1 1 1 0 1 1 1 1 ...
## $ pt100.phanloai: chr "Co" "Co" "Co" "Co" ...
## $ p.cut : Factor w/ 3 levels "It","Trung Binh",..: 1 1 1 1 1 1 1 1 1 1 ...
Lập bảng tần số
Lập bảng tần số 1 biến
Muốn biết tần số của một biến xuất hiện bao nhiêu lần ta sử dụng
lệnh table
Trong bộ dữ liệu này kiểm tra tần suất xuất hiện của biến pu15,
ta thu được kết quả bên dưới.
Số lần xuất hiện ở mỗi mức giá là 1.
h2 <- table(h1$pu15)
str(h2)
## 'table' int [1:1146(1d)] 1 1 1 1 1 1 1 1 1 1 ...
## - attr(*, "dimnames")=List of 1
## ..$ : chr [1:1146] "4955" "5004" "5007" "5048" ...
Lập bảng tần số 2 biến
Dưới đây là mô tả chi tiết:
Bảng tần số có 72 hàng (1:72) và 3 cột (1:3).
Chiều thứ nhất (hàng) đại diện cho năm, được đánh số từ 1 đến 72,
tương ứng với mỗi năm từ 1950 đến 2021
Chiều thứ hai (cột) đại diện cho các nhóm hoặc mức độ (It, Trung
Binh, Nhieu).
Mỗi ô trong bảng chứa số lần xuất hiện tương ứng với năm và nhóm
tương ứng.
Attribute “dimnames” bao gồm hai danh sách:
Danh sách đầu tiên (chiều hàng) chứa tên của mỗi năm, ví dụ:
“1950”, “1951”, “1952”, …
Danh sách thứ hai (chiều cột) chứa tên của mỗi nhóm, ví dụ: “It”,
“Trung Binh”, “Nhieu”.
h3 <- table(h1$y,h1$p.cut)
str(h3)
## 'table' int [1:72, 1:3] 15 15 15 15 15 15 15 15 15 15 ...
## - attr(*, "dimnames")=List of 2
## ..$ : chr [1:72] "1950" "1951" "1952" "1953" ...
## ..$ : chr [1:3] "It" "Trung Binh" "Nhieu"
Tính toán các đặc trưng đo lường
Dùng bảng dữ liệu h để phân tích chi tiết nhất của bảng dữ liệu
summary(h$p)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.363e+03 2.916e+05 3.834e+06 1.265e+08 1.679e+07 7.909e+09
Mean là số trung bình hay là một điểm giữa của một tập hợp/ đối
tượng được yêu cầu
Median là sô trung vị trung bình ở chỗ nó chia đối tượng ra làm
đôi và chưa chắc 2 bên đó sẽ cân bằng nhau)
Ngoài ra còn có đặc trưng khác : Max - giá trị lớn nhất, Min -
giá trị nhỏ nhất, 1st Qu.,3rd Qu. - phân vị thứ 1, thứ 3,….
Mean - Tính dân số trung bình - kết quả thu được dân
số trung bình của tất cả các nước là hơn 126 ngàn dân
mean(h$p,na.rm = T)
## [1] 126470437
Median - tính trung vị của population - kết quả thu
được có 50% giá trị lớn hơn và 50% giá trị nhỏ hơn 3833998
median(h$p)
## [1] 3833998
Phân tích dữ liệu theo quốc gia và thời gian
Phân tích dân số trung bình theo từng nhóm quốc gia
Lệnh d4 <- d1 %>% group_by(y) %>% summarise(mean_of_population
= mean(p)) trong R sử dụng gói dplyr để thực hiện một phép tổng hợp dữ
liệu trên cột “cn” của bảng dữ liệu “d1” theo nhóm “y”. Dưới đây là giải
thích chi tiết:
group_by(y): Nhóm dữ liệu theo cột “y”. Điều này có nghĩa là các
phép tổng hợp tiếp theo sẽ được thực hiện cho từng nhóm “y” riêng
biệt.
summarise(mean_of_population = mean(p)): Tính trung bình của cột
“p” cho mỗi nhóm “cn” và tạo ra một cột mới có tên “mean_of_population”
để lưu trữ kết quả.
Kết quả trả về:
h4 <- h1 %>% group_by(cn) %>% summarise(mean_of_population = mean(p))
str(h4)
## tibble [16 × 2] (S3: tbl_df/tbl/data.frame)
## $ cn : chr [1:16] "Gabon" "Gambia" "Georgia" "Germany" ...
## $ mean_of_population: num [1:16] 1048665 1092381 4424246 78358436 15515391 ...
Phân tích và tổng hợp số trẻ em dưới 15 tuổi theo nhóm quốc
gia và năm Kết quả trả về có 1,152 dòng và 4 cột:
- Cột “cn”: Chứa tên quốc gia (cột “cn” trong bảng dữ liệu).
- Cột “y”: Chứa năm (cột “y” trong bảng dữ liệu).
- Cột “n”: Chứa số lượng (số lần xuất hiện) của mỗi cặp giá trị “cn”
và “y”.
- Cột “sum_of_pu15”: Chứa tổng giá trị của cột “pu15” cho mỗi cặp giá
trị “cn” và “y”
h5 <- h1 %>% group_by(cn,y) %>% summarise(n = n(),sum_of_pu15 = sum(pu15),.groups = 'drop')
str(h5)
## tibble [1,152 × 4] (S3: tbl_df/tbl/data.frame)
## $ cn : chr [1:1152] "Gabon" "Gabon" "Gabon" "Gabon" ...
## $ y : int [1:1152] 1950 1951 1952 1953 1954 1955 1956 1957 1958 1959 ...
## $ n : int [1:1152] 1 1 1 1 1 1 1 1 1 1 ...
## $ sum_of_pu15: int [1:1152] 136899 138357 139905 141628 143622 145923 148500 151330 154435 157815 ...
Nhiệm vụ 3.2
- Chọn bộ dữ liệu Chỉ số phát triển con người 1990 - 2021
(human-development-index.csv).
Giới thiệu:
Nhiệm vụ 3.2 tiến hành thao tác 1 số lệnh cơ bản trên dataset
“human-development-index.csv”. Chỉ số Phát triển Con người (HDI) là
thước đo tóm tắt các khía cạnh chính của sự phát triển con người: cuộc
sống lâu dài và khỏe mạnh, nền giáo dục tốt và mức sống tốt. Giá trị cao
hơn cho thấy sự phát triển con người cao hơn.
Mô tả cơ bản datasets
- Là một data frame
- Có 24 cột tương ứng với 24 giá trị
- Có 18288 hàng tương ứng với 18288 quan sát
- Dataset không có dữ liệu trống
- Ký hiệu các cột là:
- Enity: quốc gia
- Code: mã quốc gia
- Year: năm
- Human Development Index: chỉ số phát triển con người
Thực hiện thao tác đọc và gán dữ liệu vào máy. Sau thao tác này thì
dữ liệu từ file “human-development-index.csv” đã được gán vào d như bên
dưới - Đọc dữ liệu từ file csv và gán vào object d
d <- read.csv('C:/Users/admin/Downloads/human-development-index.csv', header = T)
- Kiểm tra xem “d” có phải là data frame hay không, nếu đúng thì true
và ngược lại. Và kết quả trả về là TRUE -> dd là một dataframe
is.data.frame(d)
## [1] TRUE
- Xác định số hàng, số cột của h dưới dạng vecto. Kết quả trả về thì d
tương ứng có 18288 hàng và 24 cột
dim(d)
## [1] 5923 4
- Xác định số ô trống của d. Kết quả trả về tương ứng với d không có ô
trống nào
sum(is.na(d))
## [1] 0
Thống kê dữ liệu
Xác định các thông tin cơ bản trong d
library(skimr)
skim(d)
Data summary
| Name |
d |
| Number of rows |
5923 |
| Number of columns |
4 |
| _______________________ |
|
| Column type frequency: |
|
| character |
2 |
| numeric |
2 |
| ________________________ |
|
| Group variables |
None |
Variable type: character
| Entity |
0 |
1 |
4 |
38 |
0 |
202 |
0 |
| Code |
0 |
1 |
0 |
8 |
320 |
193 |
0 |
Variable type: numeric
| Year |
0 |
1 |
2006.37 |
9.04 |
1990.00 |
1999.00 |
2007.00 |
2014.00 |
2021.00 |
▆▆▆▇▇ |
| Human.Development.Index |
0 |
1 |
0.67 |
0.16 |
0.22 |
0.54 |
0.69 |
0.79 |
0.96 |
▁▅▅▇▅ |
Thực hiện thống kê mô tả dataset này ta được kết quả bên trên, ý
nghĩa các cột như sau:
n_missing: số ô dữ liệu bị miss(trống)
complete_rate: tỷ lệ ô có dữ liệu
mean: trung bình
sd: độ lệch chuẩn
p0: giá trị nhỏ nhất
p25: Phân vị thứ nhất
p50: Phân vị thứ hai cũng chính là trung vị
p75: phân vị thứ ba
p100: giá trị lớn nhất
hist: biểu đồ Histogram
Đổi tên các cột để thao tác
Các ký hiệu tên tương ứng theo thứ tự lần lượt từ cột 1 đến cột 4
Enity: quốc gia -> đổi tên thành E
Code: mã quốc gia -> đổi tên thành C
Year: năm -> đổi tên thành Y
Human Development Index: chỉ số phát triển con người -> đổi
tên thành HDI
names(d) = c('E','C','Y','HDI')
names(d)
## [1] "E" "C" "Y" "HDI"
Rút trích dữ liệu
Việc rút trích dữ liệu theo ý muốn cũng như phần dữ liệu được rút sẽ
giúp việc tìm hiểu trở nên tối ưu hơn, để chắc chắn đã rút trích thành
công ta dùng lệnh str(x) với x là tên object mà ta gán dữ liệu để có thể
xem các đối tượng và số lượng của biến của x
Chọn ra 2 cột tương ứng là “E”,“HDI” và chọn những hàng bắt đầu bằng
chữ “D” gán vào object d1. Kết quả trả về là d1 gồm có 2 cột và 343 giá
trị
library(dplyr)
library(stringr)
d1 <- select(d,E,HDI) %>% filter(str_detect(E, "^A"))
str(d1)
## 'data.frame': 343 obs. of 2 variables:
## $ E : chr "Afghanistan" "Afghanistan" "Afghanistan" "Afghanistan" ...
## $ HDI: num 0.273 0.279 0.287 0.297 0.292 0.31 0.319 0.323 0.324 0.332 ...
Mã hoá dữ liệu
Câu lệnh biểu thị một điều kiện so sánh trên cột HDI của bảng dữ liệu
d1. Cụ thể:
- Nếu giá trị trong cột HDI của hàng nào đó lớn hơn 0.5 (d1$HDI >
0.5), thì giá trị của cột HDI trong hàng đó sẽ được thay thế bằng chuỗi
‘Cao’.
- Nếu giá trị trong cột HDI của hàng nào đó nhỏ hơn 0.5 (d1$HDI >
0), thì giá trị của cột HDI trong hàng đó sẽ được thay thế bằng chuỗi
‘Thấp’
d1$HDI.phanloai <- ifelse(d1$HDI > 0.5, 'Cao', 'Thấp')
str(d1)
## 'data.frame': 343 obs. of 3 variables:
## $ E : chr "Afghanistan" "Afghanistan" "Afghanistan" "Afghanistan" ...
## $ HDI : num 0.273 0.279 0.287 0.297 0.292 0.31 0.319 0.323 0.324 0.332 ...
## $ HDI.phanloai: chr "Thấp" "Thấp" "Thấp" "Thấp" ...
Lệnh d1\(HDI.cut <- cut(d1\)HDI,
2, labels = c(‘phát triển’, ‘không phát triển’) trong R được sử dụng để
tạo một biến mới (HDI.cut) trong bảng dữ liệu d1 bằng cách chia biến
hiện tại HDI thành các khoảng và gắn tên cho mỗi khoảng dựa trên giá trị
của nó. Cụ thể:
d1$HDI là biến bạn đang muốn chia thành các khoảng.
2 là số lượng khoảng bạn muốn tạo.
labels = c(‘phát triển’, ‘không phát triển’) là nhãn tương ứng
với mỗi khoảng.
Kết quả là, biến mới HDI.cut sẽ chứa các tên tương ứng với khoảng mà
giá trị của HDI thuộc vào. Nó tạo ra một biến phân loại dựa trên giá trị
của biến số HDI.
d1$HDI.cut <- cut(d1$HDI,2,labels = c('phát triển', 'không phát triển'))
str(d1)
## 'data.frame': 343 obs. of 4 variables:
## $ E : chr "Afghanistan" "Afghanistan" "Afghanistan" "Afghanistan" ...
## $ HDI : num 0.273 0.279 0.287 0.297 0.292 0.31 0.319 0.323 0.324 0.332 ...
## $ HDI.phanloai: chr "Thấp" "Thấp" "Thấp" "Thấp" ...
## $ HDI.cut : Factor w/ 2 levels "phát triển","không phát triển": 1 1 1 1 1 1 1 1 1 1 ...
Lập bảng tần số
Lập bảng tần số 1 biến
Bảng tần số có 12 quốc gia (1d), được đánh số từ 1 đến 12, tương
ứng với mỗi quốc gia
Số lần xuất hiện ở mỗi quốc gia là 32, ngoại trừ Andorra là 22,
Angola là 23, Antigua and Barbuda là 15
Attribue “dimnames” mô tả các tên của mỗi quốc gia, và chúng được
hiển thị dưới dạng chữ, ví dụ: “Afghanistan”, “Albania”, “Algeria”,
…
d2 <- table(d1$E)
str(d2)
## 'table' int [1:12(1d)] 32 32 32 22 23 15 32 32 32 32 ...
## - attr(*, "dimnames")=List of 1
## ..$ : chr [1:12] "Afghanistan" "Albania" "Algeria" "Andorra" ...
Tính toán các đặc trưng đo lường
Dùng bảng dữ liệu h để phân tích chi tiết nhất của bảng dữ liệu
summary(d$HDI)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.2160 0.5435 0.6890 0.6676 0.7940 0.9620
Mean là số trung bình hay là một điểm giữa của một tập hợp/ đối
tượng được yêu cầu
Median là sô trung vị trung bình ở chỗ nó chia đối tượng ra làm
đôi và chưa chắc 2 bên đó sẽ cân bằng nhau)
Ngoài ra còn có đặc trưng khác : Max - giá trị lớn nhất, Min -
giá trị nhỏ nhất, 1st Qu.,3rd Qu. - phân vị thứ 1, thứ 3,….
Mean - Tính chỉ số phát triển trung bình
- kết quả thu được bên dướidưới
mean(d$HDI,na.rm = T)
## [1] 0.6675578
Median - tính trung vị của chỉ số phát triển con
người (HDI) - kết quả thu được có một nửa lớn hơn 0.689 và một nửa còn
lại nhỏ hơn 0.689
median(d$HDI)
## [1] 0.689
Phân tích dữ liệu theo quốc gia và chỉ số phát triển con người
Phân tích dân số chỉ số phát triển trung bình theo từng nhóm
quốc gia Lệnh d3 <- d1 %>% group_by(E) %>%
summarise(mean_of_HDI = mean(HDI)) trong R sử dụng gói dplyr để thực
hiện một phép tổng hợp dữ liệu trên cột “HDI” của bảng dữ liệu “d1” theo
nhóm “E”. Dưới đây là giải thích chi tiết:
group_by(y): Nhóm dữ liệu theo cột “y”. Điều này có nghĩa là các
phép tổng hợp tiếp theo sẽ được thực hiện cho từng nhóm “y” riêng
biệt.
summarise(mean_of_population = mean(p)): Tính trung bình của cột
“p” cho mỗi nhóm “HDI” và tạo ra một cột mới có tên “mean_of_HDI” để lưu
trữ kết quả.
Kết quả trả về:
d3 <- d1 %>% group_by(E) %>% summarise(mean_of_HDI = mean(HDI))
str(d3)
## tibble [12 × 2] (S3: tbl_df/tbl/data.frame)
## $ E : chr [1:12] "Afghanistan" "Albania" "Algeria" "Andorra" ...
## $ mean_of_HDI: num [1:12] 0.395 0.717 0.68 0.851 0.504 ...
