
Our Problem
Các ngành kinh tế tại Việt Nam được phân chia theo Quyết định số 27/2018/QĐ-TTg với mã ngành tương ứng. Bộ mã ngành này được sử dụng trong nhiều báo cáo cũng như nghiên cứu kinh tế. Nhiều bộ dữ liệu về doanh nghiệp như VES (Vietnam Enterprise Survey), SME (Medium Enterprise Survey) cung cấp cả thông tin của doanh nghiệp được khảo sát theo mã ngành cấp 5. Và để đối chiếu ngược là doanh nghiệp khảo sát thuộc ngành nào chúng ta phải đối với với Quyết định số 27/2018/QĐ-TTg. Để làm rõ vấn đề, trước hết chúng ta lấy ví dụ với bộ VES (download tại đây), giải nén và đọc bộ dữ liệu này:
#===================================================================
# Data Processing Project with real-world data: VES 2015 data set
#===================================================================
# Clear work space:
rm(list = ls())
# Import data:
haven::read_dta("E:/dn2015.dta") -> dn2015
# Load dplyr gackage:
library(dplyr)
# Number of columns/rows:
dim(dn2015)
## [1] 455300 222
Bộ dữ liệu này là lớn với 455300 quan sát và 222 cột biến. Theo quy định của các cơ quan quản lí tại Việt Nam thì:
- Mỗi một DN chỉ có một mã số thuế duy nhất và mã số thuế này là độc nhất.
- Một mã số thuế hợp lệ dùng 10 chữ số.
Tuy nhiên một số MST (mã số thuế) trong bộ dữ liệu chỉ có 5 chữ số. Mặt khác, một số DN có MST trùng nhau. Chúng ta sẽ loại bỏ các quan sát này ra khỏi bộ dữ liệu ban đầu như sau:
#---------- Remove firms with duplicated tax code ---------------
dn2015 %>%
group_by(ma_thue) %>%
count() %>%
ungroup() %>%
filter(n > 1) %>%
pull(ma_thue) -> tax_codes_duplicated
dn2015 %>% filter(!ma_thue %in% tax_codes_duplicated) -> dn2015
#--------- Remove firms with tax code != 10 digits ----------------
library(stringr)
dn2015 %>% filter(str_count(ma_thue) == 10) -> dn2015
Theo Quyết định số 27/2018/QĐ-TTg thì mã ngành cấp 5 của doanh nghiệp sẽ phải có 5 chữ số. Tuy nhiên một số quan sát thì mã ngành chỉ có 4 chữ số. Ta có thể suy luận rằng nguyên nhân là do một số ngành có mã với số 0 đứng ở vị trí đầu tiên đã bị “biến mất” trong quá trình vào-lưu-gửi dữ liệu. Vì vậy chúng ta có thể khôi phục chứ số 0 này cho các quan sát với mã ngành chỉ có 4 chữ số như sau:
# Add 0 for 4-digits sector codes:
dn2015 %>%
mutate(nganh_kd = as.character(nganh_kd)) %>%
mutate(nganh_kd = case_when(str_count(nganh_kd) == 4 ~ str_c("0", nganh_kd), TRUE ~ nganh_kd)) -> dn2015
Chúng ta có thể xem qua dữ liệu sau khi xử lí:
library(knitr)
dn2015 %>%
head() %>%
select(1:7, contains("nganh")) %>%
kable(caption = "Table 1: Some Observations")
Table 1: Some Observations
01 |
1 |
152 |
0100110528 |
001 |
00028 |
1 |
X©y Dùng |
42200 |
01 |
1 |
465 |
0100100583 |
007 |
00283 |
1 |
DÖt Kim |
14100 |
01 |
1 |
565 |
0100100752 |
020 |
00640 |
1 |
Sx Pin |
27200 |
01 |
1 |
1825 |
0102071754 |
009 |
00355 |
1 |
Sx C¸c Sp Gç |
16291 |
01 |
1 |
104752 |
0100886857 |
019 |
00625 |
1 |
X©y Dùng |
42200 |
01 |
1 |
277 |
0100103785 |
006 |
00232 |
1 |
X©y Dùng |
42200 |
Có thể thấy mã 42200 tương ứng với “Xây Dựng”. Tuy nhiên cột biến tennganhkd bị lỗi về font chữ (cho gần 450k quan sát) nên một hướng xử lí phù hợp là mapping với bảng dữ liệu mã ngành được cung cấp bởi Quyết định số 27/2018/QĐ-TTg. Nhưng nếu đi theo hướng này, chúng ta phải lấp đầy dữ liệu missing cho, ví dụ, cột 1. Trước hết chúng ta lấy dữ liệu về mã ngành của Quyết định số 27/2018/QĐ-TTg bằng đoạn R codes dưới đây:
# --------------------------------------------------------------------------------
# Extract sector code from https://dangkykinhdoanh.gov.vn/vn/Pages/NganhNghe.aspx
#---------------------------------------------------------------------------------
library(rvest)
link <- "https://dangkykinhdoanh.gov.vn/vn/Pages/NganhNghe.aspx"
link %>%
read_html() %>%
html_nodes(xpath = '//*[@id="ctl00_SPWebPartManager1_g_15a30b99_50d8_49e5_8f11_de265cb949e8"]/div/div[2]/table') %>%
html_table() %>%
.[[1]] -> df_sector_code
# Rename for columns:
names(df_sector_code) <- c(str_c("code_level", 1:5), "sector_name")
# Remove/ filter data:
df_sector_code %>%
slice(-1) %>%
filter(code_level1 != "21") %>%
mutate(sector_name_latin = stringi::stri_trans_general(sector_name, "Latin-ASCII")) -> df_sector_code
Có 21 ngành lớn (Cấp 1) theo quy định của chính phủ như ta thấy (chỉ hiển thị 6 ngành cấp 1):
df_sector_code %>%
filter(str_count(code_level1) != 0) %>%
select(code_level1, sector_name_latin) %>%
head() %>%
kable(caption = "Table 2: Some Level-1 Sectors")
Table 2: Some Level-1 Sectors
A |
NONG NGHIEP, LAM NGHIEP VA THUY SAN |
B |
KHAI KHOANG |
C |
CONG NGHIEP CHE BIEN, CHE TAO |
D |
SAN XUAT VA PHAN PHOI DIEN, KHI DOT, NUOC NONG, HOI NUOC VA DIEU HOA KHONG KHI |
E |
CUNG CAP NUOC; HOAT DONG QUAN LY VA XU LY RAC THAI, NUOC THAI |
F |
XAY DUNG |
Solution 1: Using fill()
Để lấp đầy dữ liệu trống cho cột 1 chúng ta có thể sử dụng tidyr::fill()
như sau:
df_sector_code %>%
mutate(code_level1 = case_when(str_count(code_level1) == 0 ~ NA_character_, TRUE ~ code_level1)) %>%
tidyr::fill(code_level1, .direction = "down") %>%
filter(str_detect(sector_name_latin, "[a-z]")) -> df_sector_code_filled
So sánh:
# Original data:
df_sector_code %>%
select(1:5) %>%
head() %>%
kable(caption = "Table 3: Original Data")
Table 3: Original Data
A |
|
|
|
|
|
01 |
|
|
|
|
|
011 |
|
|
|
|
|
0111 |
01110 |
|
|
|
0112 |
01120 |
|
|
|
0113 |
01130 |
# Filled data:
df_sector_code_filled %>%
select(1:5) %>%
head() %>%
kable(caption = "Table 4: Filled Data")
Table 4: Filled Data
A |
01 |
|
|
|
A |
|
011 |
|
|
A |
|
|
0111 |
01110 |
A |
|
|
0112 |
01120 |
A |
|
|
0113 |
01130 |
A |
|
|
0114 |
01140 |
Solution 2: For Loop
Reinvent the wheel là một câu thành ngữ của người phương Tây ngụ ý rằng bạn không cần phải tìm ra một tool nữa để giải quyết một vấn đề khi mà đã có ai đó phát minh ra trước đó. Tuy nhiên, “phát minh lại cái bánh xe” cũng là một bài luyện tập tốt cho mục đích rèn luyện lập trình bằng ngôn ngữ R. Dưới đây là giải pháp cho vấn đề khi không sử dụng hàm fill()
mà là sử dụng vòng lặp For Loop:
df_sector_code %>% mutate(ID = row.names(.)) -> df_sector_code
df_sector_code %>% filter(str_count(code_level1) == 1) -> df_sector_code_mini
df_sector_code_mini$ID %>% as.numeric() -> number_codes
number_codes - lag(number_codes) -> number_codes
na.omit(number_codes) -> number_codes
number_codes <- c(number_codes, 2)
rep(df_sector_code_mini$sector_code_level1, times = 1, each = number_codes[1])
## NULL
n <- length(number_codes)
sector_codes <- c()
for (j in 1:n) {
sector_codes <- c(sector_codes, rep(df_sector_code_mini$code_level1[j], times = 1, each = number_codes[j]))
}
df_sector_code %>%
mutate(code_level1 = sector_codes) %>%
filter(str_detect(sector_name_latin, "[a-z]")) -> df_sector_code_loop
Dữ liệu sau khi xử lí bằng For Loop:
df_sector_code_loop %>%
select(1:5) %>%
head() %>%
kable(caption = "Table 5: Filled Data using For Loop")
Table 5: Filled Data using For Loop
A |
01 |
|
|
|
A |
|
011 |
|
|
A |
|
|
0111 |
01110 |
A |
|
|
0112 |
01120 |
A |
|
|
0113 |
01130 |
A |
|
|
0114 |
01140 |
Dữ liệu mã ngành sau khi được xử lí missing được mapping với VES 2015 như sau:
df_sector_code_filled %>%
filter(str_count(code_level5) != 0) %>%
select(sector_name_latin, nganh_kd = code_level5) %>%
full_join(dn2015) -> df3
Kết quả cuối cùng (xem qua một số cột - dòng):
set.seed(1)
df3 %>%
select(ma_thue, kqkd1, nganh_kd, sector_name_latin) %>%
sample_n(10) %>%
kable(caption = "Table 6: Data after Pre-processing")
Table 6: Data after Pre-processing
0312551531 |
2124 |
15120 |
San xuat vali, tui xach va cac loai tuong tu, san xuat yen dem |
0106896869 |
14 |
46412 |
Ban buon tham, dem, chan, man, rem, ga trai giuong, goi va hang det khac |
0312334551 |
7417 |
41000 |
NA |
4200715179 |
360 |
71101 |
Hoat dong kien truc |
0313384467 |
0 |
46499 |
Ban buon do dung khac cho gia dinh chua duoc phan vao dau |
0313280676 |
678 |
15200 |
San xuat giay, dep |
0800812265 |
122 |
55103 |
Nha khach, nha nghi kinh doanh dich vu luu tru ngan ngay |
0104251985 |
89286 |
41000 |
NA |
0106245472 |
588 |
46329 |
Ban buon thuc pham khac |
0101381601 |
5954 |
10800 |
San xuat thuc an gia suc, gia cam va thuy san |
Một số tên ngành là missing vì một số mã ngành vào thời điểm năm 2015 là không có mặt trong Quyết định số 27/2018/QĐ-TTg mới nhất. Việc này có thể có hai lí do: (1) nhiều hơn hai mã ngành của năm 2015 được gộp lại chung thành một, và (2) theo hướng ngược lại là một mã ngành của năm 2015 sau này được phân loại chi tiết hơn thành nhiều hơn thành 2, 3 ngành nhỏ hơn.
Conclusion
Data Pre-processing/Data Wrangling là khâu mất nhiều thời gian của một dự án phân tích dữ liệu. Post này không thể cover hết mọi khía cạnh của quá trình này.
