Our Problem

Các ngành kinh tế tại Việt Nam được phân chia theo Quyết định số 27/2018/QĐ-TTg với mã ngành tương ứng. Bộ mã ngành này được sử dụng trong nhiều báo cáo cũng như nghiên cứu kinh tế. Nhiều bộ dữ liệu về doanh nghiệp như VES (Vietnam Enterprise Survey), SME (Medium Enterprise Survey) cung cấp cả thông tin của doanh nghiệp được khảo sát theo mã ngành cấp 5. Và để đối chiếu ngược là doanh nghiệp khảo sát thuộc ngành nào chúng ta phải đối với với Quyết định số 27/2018/QĐ-TTg. Để làm rõ vấn đề, trước hết chúng ta lấy ví dụ với bộ VES (download tại đây), giải nén và đọc bộ dữ liệu này:

#===================================================================
#  Data Processing Project with real-world data: VES 2015 data set
#===================================================================

# Clear work space: 
rm(list = ls())

# Import data: 

haven::read_dta("E:/dn2015.dta") -> dn2015

# Load dplyr gackage: 
library(dplyr)

# Number of columns/rows: 
dim(dn2015)
## [1] 455300    222

Bộ dữ liệu này là lớn với 455300 quan sát và 222 cột biến. Theo quy định của các cơ quan quản lí tại Việt Nam thì:

  1. Mỗi một DN chỉ có một mã số thuế duy nhất và mã số thuế này là độc nhất.
  2. Một mã số thuế hợp lệ dùng 10 chữ số.

Tuy nhiên một số MST (mã số thuế) trong bộ dữ liệu chỉ có 5 chữ số. Mặt khác, một số DN có MST trùng nhau. Chúng ta sẽ loại bỏ các quan sát này ra khỏi bộ dữ liệu ban đầu như sau:

#---------- Remove firms with duplicated tax code ---------------

dn2015 %>% 
  group_by(ma_thue) %>% 
  count() %>% 
  ungroup() %>% 
  filter(n > 1) %>% 
  pull(ma_thue) -> tax_codes_duplicated

dn2015 %>% filter(!ma_thue %in% tax_codes_duplicated) -> dn2015

#--------- Remove firms with tax code != 10 digits ----------------

library(stringr)

dn2015 %>% filter(str_count(ma_thue) == 10) -> dn2015

Theo Quyết định số 27/2018/QĐ-TTg thì mã ngành cấp 5 của doanh nghiệp sẽ phải có 5 chữ số. Tuy nhiên một số quan sát thì mã ngành chỉ có 4 chữ số. Ta có thể suy luận rằng nguyên nhân là do một số ngành có mã với số 0 đứng ở vị trí đầu tiên đã bị “biến mất” trong quá trình vào-lưu-gửi dữ liệu. Vì vậy chúng ta có thể khôi phục chứ số 0 này cho các quan sát với mã ngành chỉ có 4 chữ số như sau:

# Add 0 for 4-digits sector codes: 

dn2015 %>% 
  mutate(nganh_kd = as.character(nganh_kd)) %>% 
  mutate(nganh_kd  = case_when(str_count(nganh_kd) == 4 ~ str_c("0", nganh_kd), TRUE ~ nganh_kd)) -> dn2015

Chúng ta có thể xem qua dữ liệu sau khi xử lí:

library(knitr)

dn2015 %>% 
  head() %>% 
  select(1:7, contains("nganh")) %>% 
  kable(caption = "Table 1: Some Observations")
Table 1: Some Observations
tinh capso macs ma_thue huyen xa tthd tennganhkd nganh_kd
01 1 152 0100110528 001 00028 1 X©y Dùng 42200
01 1 465 0100100583 007 00283 1 DÖt Kim 14100
01 1 565 0100100752 020 00640 1 Sx Pin 27200
01 1 1825 0102071754 009 00355 1 Sx C¸c Sp Gç 16291
01 1 104752 0100886857 019 00625 1 X©y Dùng 42200
01 1 277 0100103785 006 00232 1 X©y Dùng 42200

Có thể thấy mã 42200 tương ứng với “Xây Dựng”. Tuy nhiên cột biến tennganhkd bị lỗi về font chữ (cho gần 450k quan sát) nên một hướng xử lí phù hợp là mapping với bảng dữ liệu mã ngành được cung cấp bởi Quyết định số 27/2018/QĐ-TTg. Nhưng nếu đi theo hướng này, chúng ta phải lấp đầy dữ liệu missing cho, ví dụ, cột 1. Trước hết chúng ta lấy dữ liệu về mã ngành của Quyết định số 27/2018/QĐ-TTg bằng đoạn R codes dưới đây:

# --------------------------------------------------------------------------------
# Extract sector code from https://dangkykinhdoanh.gov.vn/vn/Pages/NganhNghe.aspx
#---------------------------------------------------------------------------------

library(rvest)

link <- "https://dangkykinhdoanh.gov.vn/vn/Pages/NganhNghe.aspx"

link %>% 
  read_html() %>% 
  html_nodes(xpath = '//*[@id="ctl00_SPWebPartManager1_g_15a30b99_50d8_49e5_8f11_de265cb949e8"]/div/div[2]/table') %>% 
  html_table() %>% 
  .[[1]] -> df_sector_code

# Rename for columns: 

names(df_sector_code) <- c(str_c("code_level", 1:5), "sector_name")

# Remove/ filter data: 

df_sector_code %>% 
  slice(-1) %>% 
  filter(code_level1 != "21") %>% 
  mutate(sector_name_latin = stringi::stri_trans_general(sector_name, "Latin-ASCII")) -> df_sector_code

Có 21 ngành lớn (Cấp 1) theo quy định của chính phủ như ta thấy (chỉ hiển thị 6 ngành cấp 1):

df_sector_code %>% 
  filter(str_count(code_level1) != 0) %>% 
  select(code_level1, sector_name_latin) %>% 
  head() %>% 
  kable(caption = "Table 2: Some Level-1 Sectors")
Table 2: Some Level-1 Sectors
code_level1 sector_name_latin
A NONG NGHIEP, LAM NGHIEP VA THUY SAN
B KHAI KHOANG
C CONG NGHIEP CHE BIEN, CHE TAO
D SAN XUAT VA PHAN PHOI DIEN, KHI DOT, NUOC NONG, HOI NUOC VA DIEU HOA KHONG KHI
E CUNG CAP NUOC; HOAT DONG QUAN LY VA XU LY RAC THAI, NUOC THAI
F XAY DUNG

Solution 1: Using fill()

Để lấp đầy dữ liệu trống cho cột 1 chúng ta có thể sử dụng tidyr::fill() như sau:

df_sector_code %>% 
  mutate(code_level1 = case_when(str_count(code_level1) == 0 ~ NA_character_, TRUE ~ code_level1)) %>% 
  tidyr::fill(code_level1, .direction = "down") %>% 
  filter(str_detect(sector_name_latin, "[a-z]")) -> df_sector_code_filled

So sánh:

# Original data: 

df_sector_code %>% 
  select(1:5) %>% 
  head() %>% 
  kable(caption = "Table 3: Original Data")
Table 3: Original Data
code_level1 code_level2 code_level3 code_level4 code_level5
A
01
011
0111 01110
0112 01120
0113 01130
# Filled data: 
df_sector_code_filled %>% 
  select(1:5) %>% 
  head() %>% 
  kable(caption = "Table 4: Filled Data")
Table 4: Filled Data
code_level1 code_level2 code_level3 code_level4 code_level5
A 01
A 011
A 0111 01110
A 0112 01120
A 0113 01130
A 0114 01140

Solution 2: For Loop

Reinvent the wheel là một câu thành ngữ của người phương Tây ngụ ý rằng bạn không cần phải tìm ra một tool nữa để giải quyết một vấn đề khi mà đã có ai đó phát minh ra trước đó. Tuy nhiên, “phát minh lại cái bánh xe” cũng là một bài luyện tập tốt cho mục đích rèn luyện lập trình bằng ngôn ngữ R. Dưới đây là giải pháp cho vấn đề khi không sử dụng hàm fill() mà là sử dụng vòng lặp For Loop:

df_sector_code %>% mutate(ID = row.names(.)) -> df_sector_code

df_sector_code %>% filter(str_count(code_level1) == 1) -> df_sector_code_mini

df_sector_code_mini$ID %>% as.numeric() -> number_codes 

number_codes - lag(number_codes) -> number_codes

na.omit(number_codes) -> number_codes

number_codes <- c(number_codes, 2)

rep(df_sector_code_mini$sector_code_level1, times = 1, each = number_codes[1])
## NULL
n <- length(number_codes)

sector_codes <- c()

for (j in 1:n) {
  
  sector_codes <- c(sector_codes, rep(df_sector_code_mini$code_level1[j], times = 1, each = number_codes[j]))
  
}

df_sector_code %>% 
  mutate(code_level1 = sector_codes) %>% 
  filter(str_detect(sector_name_latin, "[a-z]")) -> df_sector_code_loop

Dữ liệu sau khi xử lí bằng For Loop:

df_sector_code_loop %>% 
  select(1:5) %>% 
  head() %>% 
  kable(caption = "Table 5: Filled Data using For Loop")
Table 5: Filled Data using For Loop
code_level1 code_level2 code_level3 code_level4 code_level5
A 01
A 011
A 0111 01110
A 0112 01120
A 0113 01130
A 0114 01140

Dữ liệu mã ngành sau khi được xử lí missing được mapping với VES 2015 như sau:

df_sector_code_filled %>% 
  filter(str_count(code_level5) != 0) %>% 
  select(sector_name_latin, nganh_kd = code_level5) %>% 
  full_join(dn2015) -> df3

Kết quả cuối cùng (xem qua một số cột - dòng):

set.seed(1)

df3 %>% 
  select(ma_thue, kqkd1, nganh_kd, sector_name_latin) %>% 
  sample_n(10) %>% 
  kable(caption = "Table 6: Data after Pre-processing")
Table 6: Data after Pre-processing
ma_thue kqkd1 nganh_kd sector_name_latin
0312551531 2124 15120 San xuat vali, tui xach va cac loai tuong tu, san xuat yen dem
0106896869 14 46412 Ban buon tham, dem, chan, man, rem, ga trai giuong, goi va hang det khac
0312334551 7417 41000 NA
4200715179 360 71101 Hoat dong kien truc
0313384467 0 46499 Ban buon do dung khac cho gia dinh chua duoc phan vao dau
0313280676 678 15200 San xuat giay, dep
0800812265 122 55103 Nha khach, nha nghi kinh doanh dich vu luu tru ngan ngay
0104251985 89286 41000 NA
0106245472 588 46329 Ban buon thuc pham khac
0101381601 5954 10800 San xuat thuc an gia suc, gia cam va thuy san

Một số tên ngành là missing vì một số mã ngành vào thời điểm năm 2015 là không có mặt trong Quyết định số 27/2018/QĐ-TTg mới nhất. Việc này có thể có hai lí do: (1) nhiều hơn hai mã ngành của năm 2015 được gộp lại chung thành một, và (2) theo hướng ngược lại là một mã ngành của năm 2015 sau này được phân loại chi tiết hơn thành nhiều hơn thành 2, 3 ngành nhỏ hơn.

Conclusion

Data Pre-processing/Data Wrangling là khâu mất nhiều thời gian của một dự án phân tích dữ liệu. Post này không thể cover hết mọi khía cạnh của quá trình này.

