Nhiệm vụ 3.1:
population-and-demography
Giới thiệu:
Nhiệm vụ 3.1 tiến hành thao tác 1 số lệnh cơ bản trên dataset
“population-and-demography.csv”. Dataset thống kê dân số và dân số theo
từng độ tuổi khác nhau của các nước khác nhau. Dùng phần mềm R để thao
tác
Mô tả cơ bản
datasets
- Là một data frame
- Có 24 cột tương ứng với 24 giá trị
- Có 18288 hàng tương ứng với 18288 quan sát
- Dataset không có dữ liệu trống
- Ký hiệu các cột là:
- Country name: Tên quốc gia
- Year: Năm
- Population: Dân số
- Population of children under the age of 1: Dân số của trẻ em dưới 1
tuổi
- Population of children under the age of 5: Dân số của trẻ em dưới 5
tuổi
- Population of children under the age of 15: Dân số của trẻ em dưới
15 tuổi
- Population under the age of 25: Dân số dưới 25 tuổi
- Population aged 15 to 64 years: Dân số từ 15 đến 64 tuổi
- Population older than 15 years: Dân số trên 15 tuổi
- Population older than 18 years: Dân số trên 18 tuổi
- Population at age 1: Dân số tại lúc 1 tuổi
- Population aged 1 to 4 years: Dân số từ 1 đến 4 tuổi
- Population aged 5 to 9 years: Dân sô từ 5 đến 9 tuổi
- Population aged 10 to 14 years: Dân số từ 10 đến 14 tuổi
- Population aged 15 to 19 years: Dân số từ 15 đến 19 tuổi
- Population aged 20 to 29 years: Dân số từ 20 đến 29 tuổi
- Population aged 30 to 39 years: Dân số từ 30 đến 39 tuổi
- Population aged 40 to 49 years: Dân số từ 40 đến 49 tuổi
- Population aged 50 to 59 years: Dân số từ 50 đến 59 tuổi
- Population aged 60 to 69 years: Dân số từ 60 đến 69 tuổi
- Population aged 70 to 79 years: Dân số từ 70 đến 79 tuổi
- Population aged 80 to 89 years: Dân số từ 80 đến 89 tuổi
- Population aged 90 to 99 years: Dân số từ 90 đến 99 tuổi
- Population older than 100 years: Dân số trên 100 tuổi
Thực hiện thao tác đọc và gán dữ liệu vào máy. Sau thao tác này thì
dữ liệu từ file “population-and-demography.csv” đã được gán vào d như
bên dưới
#Đọc dữ liệu từ file csv và gán vào object d
d <- read.csv("D:\\KTLR\\population-and-demography.csv")
Kiểm tra xem “d” có phải là data frame hay không, nếu đúng thì true
và ngược lại. Và kết quả trả về là TRUE > d là một dataframe
is.data.frame(d)
## [1] TRUE
Xác định số hàng, số cột của d dưới dạng vecto. Kết quả trả về thì d
tương ứng có 18288 hàng và 24 cột
dim(d)
## [1] 18288 24
Xác định số ô trống của d. Kết quả trả về tương ứng với d không có ô
trống nào
sum(is.na(d))
## [1] 0
Thống kê dữ liệu
Thực hiện thống kê mô tả dataset này ta được kết quả bên dưới, ý
nghĩa các cột như sau:
n_missing: số ô dữ liệu bị miss(trống)
complete_rate: tỷ lệ ô có dữ liệu
mean: trung bình
sd: độ lệch chuẩn
p0: giá trị nhỏ nhất
p25: Phân vị thứ nhất
p50: Phân vị thứ hai cũng chính là trung vị
p75: phân vị thứ ba
p100: giá trị lớn nhất
hist: biểu đồ Histogram
Xác định các thông tin cơ bản trong d
library(skimr)
skim(d)
Data summary
Name |
d |
Number of rows |
18288 |
Number of columns |
24 |
_______________________ |
|
Column type frequency: |
|
character |
1 |
numeric |
23 |
________________________ |
|
Group variables |
None |
Variable type: character
Country.name |
0 |
1 |
4 |
59 |
0 |
254 |
0 |
Variable type: numeric
Year |
0 |
1 |
1985.50 |
20.78 |
1950 |
1967.75 |
1985.5 |
2003.25 |
2021 |
▇▇▇▇▇ |
Population |
0 |
1 |
126470436.62 |
588851230.77 |
1363 |
291591.50 |
3833997.5 |
16785463.50 |
7909295000 |
▇▁▁▁▁ |
Population.of.children.under.the.age.of.1 |
0 |
1 |
3133496.86 |
14167006.03 |
25 |
6663.75 |
88352.0 |
463000.50 |
139783730 |
▇▁▁▁▁ |
Population.of.children.under.the.age.of.5 |
0 |
1 |
14825709.57 |
67384368.62 |
136 |
31995.25 |
423784.5 |
2160046.50 |
690360700 |
▇▁▁▁▁ |
Population.of.children.under.the.age.of.15 |
0 |
1 |
41095227.11 |
188416973.54 |
416 |
89541.50 |
1186121.5 |
5905944.75 |
2015023400 |
▇▁▁▁▁ |
Population.under.the.age.of.25 |
0 |
1 |
63762600.31 |
294251869.66 |
623 |
139541.50 |
1843099.5 |
9025129.75 |
3239281000 |
▇▁▁▁▁ |
Population.aged.15.to.64.years |
0 |
1 |
77429505.08 |
367651914.71 |
748 |
170263.50 |
2246772.0 |
9641250.00 |
5132999000 |
▇▁▁▁▁ |
Population.older.than.15.years |
0 |
1 |
85372101.76 |
404866940.61 |
849 |
186716.00 |
2482104.0 |
10354345.50 |
5893678600 |
▇▁▁▁▁ |
Population.older.than.18.years |
0 |
1 |
78196242.04 |
372017010.49 |
752 |
166417.50 |
2238130.5 |
9239904.00 |
5516283000 |
▇▁▁▁▁ |
Population.at.age.1 |
0 |
1 |
3011212.81 |
13661998.41 |
26 |
6473.75 |
85824.0 |
440787.50 |
138478740 |
▇▁▁▁▁ |
Population.aged.1.to.4.years |
0 |
1 |
11692212.72 |
53238243.89 |
101 |
25269.25 |
334454.0 |
1697850.75 |
550970400 |
▇▁▁▁▁ |
Population.aged.5.to.9.years |
0 |
1 |
13598575.21 |
62534310.11 |
138 |
29406.25 |
392220.5 |
1947260.75 |
683611800 |
▇▁▁▁▁ |
Population.aged.10.to.14.years |
0 |
1 |
12670942.28 |
58775457.46 |
73 |
27879.50 |
363895.5 |
1796754.00 |
659934300 |
▇▁▁▁▁ |
Population.aged.15.to.19.years |
0 |
1 |
11782258.92 |
55126036.18 |
110 |
26296.50 |
336969.5 |
1626210.75 |
623576060 |
▇▁▁▁▁ |
Population.aged.20.to.29.years |
0 |
1 |
20872880.04 |
98860990.50 |
158 |
45050.75 |
609723.5 |
2758738.50 |
1210493200 |
▇▁▁▁▁ |
Population.aged.30.to.39.years |
0 |
1 |
17158704.11 |
82404600.95 |
137 |
36608.25 |
486290.5 |
2113149.00 |
1165207300 |
▇▁▁▁▁ |
Population.aged.40.to.49.years |
0 |
1 |
13622138.99 |
66008221.21 |
119 |
27440.25 |
364712.5 |
1556334.00 |
976407200 |
▇▁▁▁▁ |
Population.aged.50.to.59.years |
0 |
1 |
10177069.11 |
49288480.77 |
95 |
19649.75 |
264781.5 |
1203386.00 |
851356900 |
▇▁▁▁▁ |
Population.aged.60.to.69.years |
0 |
1 |
6801756.84 |
32712918.99 |
64 |
12603.00 |
168417.5 |
845242.75 |
598067140 |
▇▁▁▁▁ |
Population.aged.70.to.79.years |
0 |
1 |
3618710.03 |
17491538.61 |
31 |
6221.00 |
81824.0 |
436710.00 |
330491170 |
▇▁▁▁▁ |
Population.aged.80.to.89.years |
0 |
1 |
1195799.30 |
6238308.33 |
6 |
1818.75 |
20269.5 |
133380.50 |
131835590 |
▇▁▁▁▁ |
Population.aged.90.to.99.years |
0 |
1 |
142784.38 |
853350.39 |
0 |
154.75 |
1468.5 |
12499.00 |
22223974 |
▇▁▁▁▁ |
Population.older.than.100.years |
0 |
1 |
3107.72 |
20951.57 |
0 |
0.00 |
13.0 |
163.00 |
593166 |
▇▁▁▁▁ |
Đổi tên các cột để
thao tác
Các ký hiệu tên tương ứng theo thứ tự lần lượt từ cột 1 đến cột
24
Country name= ‘cn’
Year= ‘y’
Population= ‘p’
Population of children under the age of 1= ‘pu1’
Population of children under the age of 5= ‘pu5’
Population of children under the age of 15= ‘pu15’
Population under the age of 25= ‘pu25’
Population aged 15 to 64 years= ‘p15t64’
Population older than 15 years= ‘pt15’
Population older than 18 years= ‘pt18’
Population at age 1= ‘p1’
Population aged 1 to 4 years= ‘p1t4’
Population aged 5 to 9 years= ‘p5t9’
Population aged 10 to 14 years= ‘p10t14’
Population aged 15 to 19 years= ‘p15t19’
Population aged 20 to 29 years= ‘p20t29’
Population aged 30 to 39 years= ‘p30t39’
Population aged 40 to 49 years= ‘p40t49’
Population aged 50 to 59 years= ‘p50t59’
Population aged 60 to 69 years= ‘p60t69’
Population aged 70 to 79 years= ‘p70t79’
Population aged 80 to 89 years= ‘p80t89’
Population aged 90 to 99 years= ‘p90t99’
Population older than 100 years= ‘pt100’
names(d) = c('cn','y','p','pu1','pu5','pu15','pu25','p15t64','pt15','pt18','p1','p1t4','p5t9','p10t14','p15t19','p20t29','p30t39','p40t49','p50t59','p60t69','p70t79','p80t89','p90t99','pt100')
names(d)
## [1] "cn" "y" "p" "pu1" "pu5" "pu15" "pu25" "p15t64"
## [9] "pt15" "pt18" "p1" "p1t4" "p5t9" "p10t14" "p15t19" "p20t29"
## [17] "p30t39" "p40t49" "p50t59" "p60t69" "p70t79" "p80t89" "p90t99" "pt100"
Rút trích dữ
liệu
Việc rút trích dữ liệu theo ý muốn cũng như phần dữ liệu được rút sẽ
giúp việc tìm hiểu trở nên tối ưu hơn, để chắc chắn đã rút trích thành
công ta dùng lệnh str(x) với x là tên object mà ta gán dữ liệu để có thể
xem các đối tượng và số lượng của biến của x
Chọn ra 6 cột tương ứng là
“cn”,“y”,“p”,“pu5”,“pu15”,“pu25”,“pt18”,“pt100” và chọn những hàng bắt
đầu bằng chữ “A” gán vào object d1. Kết quả trả về là d1 gồm có 6 cột và
1152 giá trị
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(stringr)
d1 <- select(d,cn,y,p,pu5,pu15,pu25,pt18,pt100) %>% filter(str_detect(cn, "^A"))
str(d1)
## 'data.frame': 1152 obs. of 8 variables:
## $ cn : chr "Afghanistan" "Afghanistan" "Afghanistan" "Afghanistan" ...
## $ y : int 1950 1951 1952 1953 1954 1955 1956 1957 1958 1959 ...
## $ p : num 7480464 7571542 7667534 7764549 7864289 ...
## $ pu5 : int 1248282 1246857 1248220 1254725 1267817 1291129 1322342 1354752 1387274 1421808 ...
## $ pu15 : int 3068855 3105444 3145070 3186382 3231060 3281470 3337026 3396048 3455343 3518528 ...
## $ pu25 : num 4494349 4552138 4613604 4676232 4741371 ...
## $ pt18 : num 3946595 3993640 4041439 4088379 4136116 ...
## $ pt100: num 0 0 0 0 0 0 0 0 0 0 ...
Mã hoá dữ liệu
Câu lệnh biểu thị một điều kiện so sánh trên cột pt100 của bảng dữ
liệu d1. Cụ thể:
- Nếu giá trị trong cột pt100 của hàng nào đó bằng 0 (d1$pt100 == 0
đúng), thì giá trị của cột pt100 trong hàng đó sẽ được thay thế bằng
chuỗi ‘Khong Co’.
- Nếu giá trị trong cột pt100 của hàng nào đó không bằng 0 (d1$pt100
== 0 sai), thì giá trị của cột pt100 trong hàng đó sẽ được thay thế bằng
chuỗi ‘Co’
d1$pt100.phanloai <- ifelse(d1$pt100 == 0, 'Khong Co', 'Co')
str(d1)
## 'data.frame': 1152 obs. of 9 variables:
## $ cn : chr "Afghanistan" "Afghanistan" "Afghanistan" "Afghanistan" ...
## $ y : int 1950 1951 1952 1953 1954 1955 1956 1957 1958 1959 ...
## $ p : num 7480464 7571542 7667534 7764549 7864289 ...
## $ pu5 : int 1248282 1246857 1248220 1254725 1267817 1291129 1322342 1354752 1387274 1421808 ...
## $ pu15 : int 3068855 3105444 3145070 3186382 3231060 3281470 3337026 3396048 3455343 3518528 ...
## $ pu25 : num 4494349 4552138 4613604 4676232 4741371 ...
## $ pt18 : num 3946595 3993640 4041439 4088379 4136116 ...
## $ pt100 : num 0 0 0 0 0 0 0 0 0 0 ...
## $ pt100.phanloai: chr "Khong Co" "Khong Co" "Khong Co" "Khong Co" ...
Lệnh d1\(p.cut <- cut(d1\)p, 3,
labels = c(‘It’, ‘Trung Binh’, ‘Nhieu’)) trong R được sử dụng để tạo một
biến mới (p.cut) trong bảng dữ liệu d1 bằng cách chia biến hiện tại p
thành các khoảng và gắn tên cho mỗi khoảng dựa trên giá trị của nó. Cụ
thể:
d1$p là biến bạn đang muốn chia thành các khoảng.
3 là số lượng khoảng bạn muốn tạo.
labels = c(‘It’, ‘Trung Binh’, ‘Nhieu’) là nhãn tương ứng với mỗi
khoảng.
Kết quả là, biến mới p.cut sẽ chứa các tên tương ứng với khoảng mà
giá trị của p thuộc vào. Nó tạo ra một biến phân loại dựa trên giá trị
của biến số p.
d1$p.cut <- cut(d1$p,3,labels = c('It','Trung Binh','Nhieu'))
str(d1)
## 'data.frame': 1152 obs. of 10 variables:
## $ cn : chr "Afghanistan" "Afghanistan" "Afghanistan" "Afghanistan" ...
## $ y : int 1950 1951 1952 1953 1954 1955 1956 1957 1958 1959 ...
## $ p : num 7480464 7571542 7667534 7764549 7864289 ...
## $ pu5 : int 1248282 1246857 1248220 1254725 1267817 1291129 1322342 1354752 1387274 1421808 ...
## $ pu15 : int 3068855 3105444 3145070 3186382 3231060 3281470 3337026 3396048 3455343 3518528 ...
## $ pu25 : num 4494349 4552138 4613604 4676232 4741371 ...
## $ pt18 : num 3946595 3993640 4041439 4088379 4136116 ...
## $ pt100 : num 0 0 0 0 0 0 0 0 0 0 ...
## $ pt100.phanloai: chr "Khong Co" "Khong Co" "Khong Co" "Khong Co" ...
## $ p.cut : Factor w/ 3 levels "It","Trung Binh",..: 1 1 1 1 1 1 1 1 1 1 ...
Lập bảng tần số
Lập bảng tần sô 1 biến
Bảng tần số có 72 mức giá (1d), được đánh số từ 1 đến 72, tương
ứng với mỗi năm từ 1950 đến …
Số lần xuất hiện ở mỗi mức giá là 16.
Attribue “dimnames” mô tả các tên của mỗi mức giá, và chúng được
hiển thị dưới dạng chuỗi năm, ví dụ: “1950”, “1951”, “1952”, …
d2 <- table(d1$y)
str(d2)
## 'table' int [1:72(1d)] 16 16 16 16 16 16 16 16 16 16 ...
## - attr(*, "dimnames")=List of 1
## ..$ : chr [1:72] "1950" "1951" "1952" "1953" ...
Lập bảng tần số 2 biến
Dưới đây là mô tả chi tiết:
Bảng tần số có 72 hàng (1:72) và 3 cột (1:3).
Chiều thứ nhất (hàng) đại diện cho năm, được đánh số từ 1 đến 72,
tương ứng với mỗi năm từ 1950 đến …
Chiều thứ hai (cột) đại diện cho các nhóm hoặc mức độ (It, Trung
Binh, Nhieu).
Mỗi ô trong bảng chứa số lần xuất hiện tương ứng với năm và nhóm
tương ứng.
Attribute “dimnames” bao gồm hai danh sách:
Danh sách đầu tiên (chiều hàng) chứa tên của mỗi năm, ví dụ:
“1950”, “1951”, “1952”, …
Danh sách thứ hai (chiều cột) chứa tên của mỗi nhóm, ví dụ: “It”,
“Trung Binh”, “Nhieu”.
d3 <- table(d1$y,d1$p.cut)
str(d3)
## 'table' int [1:72, 1:3] 16 16 16 16 16 16 15 15 15 15 ...
## - attr(*, "dimnames")=List of 2
## ..$ : chr [1:72] "1950" "1951" "1952" "1953" ...
## ..$ : chr [1:3] "It" "Trung Binh" "Nhieu"
Phân tích dữ liệu
theo quốc gia và thời gian
Phân tích dân số trung bình theo từng nhóm quốc gia
Lệnh d4 <- d1 %>% group_by(y) %>% summarise(mean_of_population
= mean(p)) trong R sử dụng gói dplyr để thực hiện một phép tổng hợp dữ
liệu trên cột “cn” của bảng dữ liệu “d1” theo nhóm “y”. Dưới đây là giải
thích chi tiết:
group_by(y): Nhóm dữ liệu theo cột “y”. Điều này có nghĩa là các
phép tổng hợp tiếp theo sẽ được thực hiện cho từng nhóm “y” riêng
biệt.
summarise(mean_of_population = mean(p)): Tính trung bình của cột
“p” cho mỗi nhóm “cn” và tạo ra một cột mới có tên “mean_of_population”
để lưu trữ kết quả.
Kết quả trả về:
d4 <- d1 %>% group_by(cn) %>% summarise(mean_of_population = mean(p))
str(d4)
## tibble [16 × 2] (S3: tbl_df/tbl/data.frame)
## $ cn : chr [1:16] "Afghanistan" "Africa (UN)" "Albania" "Algeria" ...
## $ mean_of_population: num [1:16] 1.66e+07 6.43e+08 2.63e+06 2.35e+07 3.92e+04 ...
Phân tích và tổng hợp số trẻ em dưới 15 tuổi theo nhóm quốc
gia và năm Kết quả trả về có 1,152 dòng và 4 cột:
- Cột “cn”: Chứa tên quốc gia (cột “cn” trong bảng dữ liệu).
- Cột “y”: Chứa năm (cột “y” trong bảng dữ liệu).
- Cột “n”: Chứa số lượng (số lần xuất hiện) của mỗi cặp giá trị “cn”
và “y”.
- Cột “sum_of_pu15”: Chứa tổng giá trị của cột “pu15” cho mỗi cặp giá
trị “cn” và “y”
d5 <- d1 %>% group_by(cn,y) %>% summarise(n = n(),sum_of_pu15 = sum(pu15),.groups = 'drop')
str(d5)
## tibble [1,152 × 4] (S3: tbl_df/tbl/data.frame)
## $ cn : chr [1:1152] "Afghanistan" "Afghanistan" "Afghanistan" "Afghanistan" ...
## $ y : int [1:1152] 1950 1951 1952 1953 1954 1955 1956 1957 1958 1959 ...
## $ n : int [1:1152] 1 1 1 1 1 1 1 1 1 1 ...
## $ sum_of_pu15: int [1:1152] 3068855 3105444 3145070 3186382 3231060 3281470 3337026 3396048 3455343 3518528 ...
Nhiệm vụ 3.2:Rural
population female.xlsx
Giới thiệu:
Nhiệm vụ 3.2 tiến hành thao tác 1 số lệnh cơ bản trên dataset “Rural
population female.xlsx”. Dataset thống kê dân số là nữ ở các nước trên
thế giới.Với 5 biến trong đó có 2 biến định tính và 3 biến định lượng
Dùng phần mềm R để thao tác
Mô tả cơ bản
datasets
- Là một data frame
- Có 5 cột tương ứng với 5 giá trị
- Có 239 hàng tương ứng với 239 quan sát
- Dataset không có dữ liệu trống
- Ký hiệu các cột là:
- Country name: Tên quốc gia
- Country Code: Mã quốc gia
- 1990: số lượng phụ nữ ở các nước trên thế giới năm 1990
- 2000: số lượng phụ nữ ở các nước trên thế giới năm 2000
- 2015: số lượng phụ nữ ở các nước trên thế giới năm 2015
Thực hiện thao tác đọc và gán dữ liệu vào máy. Sau thao tác này thì
dữ liệu từ file “Rural population female.xlsx” đã được gán vào m như bên
dưới
#Đọc dữ liệu từ file csv và gán vào object m
library(xlsx)
m <- read.xlsx("D:/KTLR/Rural population female ( of total).xlsx", sheetIndex = 1, header = 1)
Kiểm tra xem “m” có phải là data frame hay không, nếu đúng thì true
và ngược lại. Và kết quả trả về là TRUE > m là một dataframe
is.data.frame(m)
## [1] TRUE
Xác định số hàng, số cột của m dưới dạng vecto. Kết quả trả về thì m
tương ứng có 239 hàng và 5 cột
dim(m)
## [1] 239 5
Xác định số ô trống của m. Kết quả trả về tương ứng với m không có ô
trống nào
sum(is.na(m))
## [1] 0
Thống kê dữ liệu
Thực hiện thống kê mô tả dataset này ta được kết quả bên dưới, ý
nghĩa các cột như sau:
n_missing: số ô dữ liệu bị miss(trống)
complete_rate: tỷ lệ ô có dữ liệu
mean: trung bình
sd: độ lệch chuẩn
p0: giá trị nhỏ nhất
p25: Phân vị thứ nhất
p50: Phân vị thứ hai cũng chính là trung vị
p75: phân vị thứ ba
p100: giá trị lớn nhất
hist: biểu đồ Histogram
Xác định các thông tin cơ bản trong m
library(skimr)
skim(m)
Data summary
Name |
m |
Number of rows |
239 |
Number of columns |
5 |
_______________________ |
|
Column type frequency: |
|
character |
3 |
numeric |
2 |
________________________ |
|
Group variables |
None |
Variable type: character
Country.Name |
0 |
1 |
4 |
50 |
0 |
239 |
0 |
Country.Code |
0 |
1 |
3 |
3 |
0 |
239 |
0 |
X2015 |
0 |
1 |
1 |
11 |
0 |
237 |
0 |
Variable type: numeric
X1990 |
0 |
1 |
25.76 |
11.53 |
0.22 |
15.95 |
25.90 |
35.64 |
48.30 |
▂▆▆▇▃ |
X2000 |
0 |
1 |
24.31 |
11.36 |
0.00 |
15.06 |
24.79 |
34.35 |
46.88 |
▃▆▆▇▃ |
Đổi tên các cột để
thao tác
Các ký hiệu tên tương ứng theo thứ tự lần lượt từ cột 1 đến cột
24
- Country name= ‘cn’
- Country Code= ‘cc’
- 1990= ‘a1’
- 2000= ‘a2’
- 2015= ‘a3’
names(m) = c('cn','cc','a1','a2','a3')
names(m)
## [1] "cn" "cc" "a1" "a2" "a3"
Rút trích dữ
liệu
Việc rút trích dữ liệu theo ý muốn cũng như phần dữ liệu được rút sẽ
giúp việc tìm hiểu trở nên tối ưu hơn, để chắc chắn đã rút trích thành
công ta dùng lệnh str(x) với x là tên object mà ta gán dữ liệu để có thể
xem các đối tượng và số lượng của biến của x
Chọn ra 4 cột tương ứng là “cn”,“a1”,“a2”,“a3” và chọn những hàng bắt
đầu bằng chữ “A” gán vào object m1. Kết quả trả về là m1 gồm có 4 cột và
14 giá trị
library(dplyr)
library(stringr)
m1 <- select(m,cn,a1,a2,a3) %>% filter(str_detect(cn, "^A"))
str(m1)
## 'data.frame': 14 obs. of 4 variables:
## $ cn: chr "Afghanistan" "Albania" "Algeria" "Angola" ...
## $ a1: num 39.8 30.8 23.7 38.2 32.3 ...
## $ a2: num 38.7 29 19.8 34.8 35.9 ...
## $ a3: chr "36.1577155" "21.05757196" "14.37255433" "28.74671341" ...
Mã hoá dữ liệu
Câu lệnh biểu thị một điều kiện so sánh trên cột a3 của bảng dữ liệu
m1. Cụ thể: - Nếu giá trị trong cột a3 của hàng nào đó bằng 0 (m1\(a3 == 0 đúng), thì giá trị của cột a3 trong hàng
đó sẽ được thay thế bằng chuỗi 'Khong Co'. - Nếu giá trị trong
cột a3 của hàng nào đó không bằng 0 (m1\)a3 == 0 sai), thì giá
trị của cột a3 trong hàng đó sẽ được thay thế bằng chuỗi ‘Co’
m1$a3.phanloai <- ifelse(m1$a3 == 0, 'Khong Co', 'Co')
str(m1)
## 'data.frame': 14 obs. of 5 variables:
## $ cn : chr "Afghanistan" "Albania" "Algeria" "Angola" ...
## $ a1 : num 39.8 30.8 23.7 38.2 32.3 ...
## $ a2 : num 38.7 29 19.8 34.8 35.9 ...
## $ a3 : chr "36.1577155" "21.05757196" "14.37255433" "28.74671341" ...
## $ a3.phanloai: chr "Co" "Co" "Co" "Co" ...
Lập bảng tần số
