Common Household Codes from 2016 to 2012

Nếu sử dụng Panel Data thì việc xác định mỗi một cá thể (hộ gia đình hay doanh nghiệp) từ năm này qua năm khác là quan trọng. Điều này đã được giải thích với R Codes tại đây.

Nhắc lại rằng mỗi một hộ gia đình có ID được hình thành từ mã của 5 cột biến: tỉnh, huyện, xã, địa bàn, hộ số. Vấn đề đầu tiên là chúng ta cần chuẩn hóa các mã này một cách thống nhất cho những mục đích sử dụng xa hơn sau này. Chẳng hạn, tỉnh có mã là 1 thì cần phải chuẩn hóa về 01 (tương ứng với Hà Nội). Mã tỉnh code chuẩn sử dụng 2 chữ số và do vậy với các tỉnh là số tự nhiên bé hơn 9 thì chúng ta phải thêm 1 số 0 đằng trước. Tương tự là Huyện sử dụng 3 chữ số đễ mã hóa. Do vậy với huyện mà chỉ sử dụng 1 chữ số thì chúng ta chuẩn hóa bằng cách thêm 2 chữ số 0 đằng trước, với huyện có mã là 2 chữ số thì thêm 1 chữ số 0 đằng trước. Cách thức chuẩn hóa này áp dụng tương tự cho các biến còn lại là xã, địa bàn và hộ số.

Chúng ta viết hàm có tên add_zero() để chuẩn hóa mã hành chính:

# Clear R environment: 

rm(list = ls())

# Function creates full code by adding zeros: 

add_zero <- function(x) {
  
  tibble(x_text = as.character(x)) %>% 
    mutate(n_digits = str_count(x_text),
           n_max = max(n_digits, na.rm = TRUE), 
           delta = n_max - n_digits, 
           pre = strrep("0", times = delta), 
           full_code = str_c(pre, x_text)) %>% 
    pull(full_code) %>% 
    return()
}

Hàm trên được sử dụng để xác định common codes của các hộ gia đình cho giai đoạn 2012 - 2014 - 2016 với chi tiết được trình bày ngay sau đây với lưu ý rằng: để biết một hộ gia đình vào năm 2016 có được khảo sát ở kì khảo sát hai năm trước đó (năm 2014) hay không thì chúng ta cần sử dụng HO1.dta. Ở bộ dữ liệu này thì các cột tinh14, huyen14, xa14, diaban14, hoso14 sẽ cho biết hộ có được khảo sát ở năm 2014 hay không và sẽ tương ứng với giá trị 1, ngược lại là 0. Trước hết load một số gói, đọc bộ dữ liệu này và sử dụng hàm đã có để tạo ra cột biến h_code16, h_code14 với hàm ý là mã hộ gia đình tương ứng với 2016 và 2014:

# Load some R packages: 
library(dplyr)
library(tidyr)
library(stringr)
library(stringi)
library(haven)

#=====================================
#  Stage 1: Common Household Codes
#=====================================

#----------------------------
# Household codes 2016-2014
#----------------------------

# Import data: 
read_dta("D:/VHLSS2016/HO1.dta") -> ho1_2016

# Create household code columns: 

ho1_2016 %>% 
  mutate(tinh_n = add_zero(tinh), 
         huyen_n = add_zero(huyen), 
         xa_n = add_zero(xa), 
         diaban_n = add_zero(diaban), 
         hoso_n = add_zero(hoso)) %>% 
  mutate(h_code16 = str_c(tinh_n,
                          huyen_n,
                          xa_n, 
                          diaban_n,
                          hoso_n)) %>% 
  mutate(h_code14 = str_c(add_zero(tinh14), 
                          add_zero(huyen14), 
                          add_zero(xa14), 
                          add_zero(diaban14), 
                          add_zero(hoso14))) -> ho1_2016

Như vậy những hộ mà được khảo sát cả ở hai năm 2016 - 2014 sẽ là những hộ mà h_code16 == h_code14:

# Common codes 2016-2014: 

ho1_2016 %>% 
  filter(h_code16 == h_code14) %>% 
  pull(h_code16) %>% 
  unique() -> h_code_16_14

Tương tự là common codes cho giai đoạn 2014 - 2012:

#----------------------------
# Household codes 2014-2012
#----------------------------

# Import data: 
read_dta("D:/VHLSS2014_Households/Ho1.dta") -> ho1_2014

# Create household code columns: 

ho1_2014 %>% 
  mutate(tinh_n = add_zero(tinh), 
         huyen_n = add_zero(huyen), 
         xa_n = add_zero(xa), 
         diaban_n = add_zero(diaban), 
         hoso_n = add_zero(hoso)) %>% 
  mutate(h_code14 = str_c(tinh_n,
                          huyen_n,
                          xa_n, 
                          diaban_n,
                          hoso_n)) %>% 
  mutate(h_code12 = str_c(add_zero(tinh12), 
                          add_zero(huyen12), 
                          add_zero(xa12), 
                          add_zero(diaban12), 
                          add_zero(hoso12))) -> ho1_2014

# Common codes 2014-2012: 

ho1_2014 %>% 
  filter(h_code14 == h_code12) %>% 
  pull(h_code14) %>% 
  unique() -> h_code_14_12

Common codes cho toàn bộ giai đoạn 2016 - 2014 - 2012:

#----------------------------------
#  Household codes 2016-2014-2012
#----------------------------------

base::intersect(h_code_16_14, h_code_14_12) -> h_code_common

Theo lí thuyết thì nếu tracking hộ gia đình trong giai đoạn 2016 - 2014 - 2012 theo h_code_common như ở trên thì bất kể chọn tiêu chí gì ta cũng sẽ có Balanced Panel Data. Tuy nhiên kì vọng này có thể không được thỏa mãn.

Prepare Alcohol Consumption

Số liệu về tiêu dùng bia + rượu được phỏng vấn hộ gia đình qua câu hỏi "Trong 30 ngày vừa qua đã tiêu dùng những mặt hàng nào? được mã hóa ở cột m5a2ma thuộc Muc5a2.dta và giá trị quy đổi về tiền tương ứng với cột m5a2c2b. Chú ý rằng bia + rượu được mã hóa bằng 144 và 145. Từ đó tính được tổng tiêu dùng hai mặt hàng này cho hộ gia đình ở các năm 2016 - 2014 - 2012 như sau:

#=================================
#  Stage 2: Alcohol Consumption
#=================================

#--------------------------------
# Alcohld consumption 2012-2016
#--------------------------------

# For 2016: 

read_dta("D:\\VHLSS2016\\Muc5a2.dta") -> alcohol_16

alcohol_16 %>% 
  filter(m5a2ma %in% c(144, 145)) %>% 
  mutate(h_code = str_c(add_zero(tinh), 
                        add_zero(huyen), 
                        add_zero(xa), 
                        add_zero(diaban), 
                        add_zero(hoso))) %>% 
  filter(h_code %in% h_code_common) %>% 
  select(tinh, h_code, alcohol_code = m5a2ma, alcohol_con = m5a2c2b) %>% 
  group_by(h_code, tinh) %>% 
  summarise(total_alcohol_con = sum(alcohol_con)) %>% 
  ungroup() %>% 
  mutate(year = 2016) -> alcohol_year16


# For 2014: 

read_dta("D:\\VHLSS2014_Households\\Muc5a2.dta") -> alcohol_14


alcohol_14 %>% 
  filter(m5a2ma %in% c(144, 145)) %>% 
  mutate(h_code = str_c(add_zero(tinh), 
                        add_zero(huyen), 
                        add_zero(xa), 
                        add_zero(diaban), 
                        add_zero(hoso))) %>% 
  filter(h_code %in% h_code_common) %>% 
  select(tinh, h_code, alcohol_code = m5a2ma, alcohol_con = m5a2c2b) %>% 
  group_by(h_code, tinh) %>% 
  summarise(total_alcohol_con = sum(alcohol_con)) %>% 
  ungroup() %>% 
  mutate(year = 2014) -> alcohol_year14


# For 2012: 

read_dta("D:\\VHLSS2012\\Muc5a2.dta") -> alcohol_12


alcohol_12 %>% 
  filter(m5a2ma %in% c(144, 145)) %>% 
  mutate(h_code = str_c(add_zero(tinh), 
                        add_zero(huyen), 
                        add_zero(xa), 
                        add_zero(diaban), 
                        add_zero(hoso))) %>% 
  filter(h_code %in% h_code_common) %>% 
  select(tinh, h_code, alcohol_code = m5a2ma, alcohol_con = m5a2c2b) %>% 
  group_by(h_code, tinh) %>% 
  summarise(total_alcohol_con = sum(alcohol_con)) %>% 
  ungroup() %>% 
  mutate(year = 2012) -> alcohol_year12

Đến đây chúng ta có thể tạo ra Panel Data cho tổng tiêu dùng rượu bia giai đoạn 2016 - 2012 như sau:

alcohol_year16 %>% 
  bind_rows(alcohol_year14) %>% 
  bind_rows(alcohol_year12) %>% 
  arrange(h_code) -> data_alcohol_consumption

Chúng ta có thể xem một số quan sát:

data_alcohol_consumption %>% 
  select(-tinh) %>% 
  head()
## # A tibble: 6 x 3
##   h_code          total_alcohol_con  year
##   <chr>                       <dbl> <dbl>
## 1 010010000400815                30  2016
## 2 010010000400815               120  2012
## 3 010010002802514               144  2012
## 4 010020006701613               240  2016
## 5 010020006701613                15  2014
## 6 010020006701613               160  2012

Như vậy hộ có h_code = 010020006701613 có đủ dữ liệu trong ba năm liên tiếp còn hộ có h_code = 010010000400815 chỉ có mặt trong hai năm. Có thể nói bộ dữ liệu là Unbalanced Panel Data. Muốn có Balanced Panel Data chúng ta chỉ cần thực hiện một bước chuẩn bị nữa như sau:

# Households from 2016-2-14-2012: 
data_alcohol_consumption %>% 
  group_by(h_code) %>% 
  count() %>% 
  ungroup() %>% 
  filter(n == 3) %>% 
  pull(h_code) -> full_16_14_12

# Balanced Panel Data: 
data_alcohol_consumption %>% 
  filter(h_code %in% full_16_14_12) -> alcohol_consumption_balanced

Lúc này chỉ còn 520 hộ gia đình có đầy đủ dữ liệu về tổng tiêu dùng bia + rượu trong ba năm liên tiếp.

Final Notes

Các biến số khác sẽ được chuẩn bị và tính toán theo logic đã trình bày ở trên.

---
title: 'Alcohol Project: VHLSS Data from GSO'
author: 'Author: HC Van and Nguyen Chi Dung'
subtitle: "R Econometrics Series"
output:
  html_document: 
    code_download: true
    # code_folding: hide
    highlight: zenburn
    # number_sections: yes
    theme: "flatly"
    toc: TRUE
    toc_float: TRUE
---

```{r setup,include=FALSE}
knitr::opts_chunk$set(echo = TRUE, warning = FALSE, message = FALSE, cache = TRUE)

```

# Common Household Codes from 2016 to 2012

Nếu sử dụng Panel Data thì việc xác định mỗi một cá thể (hộ gia đình hay doanh nghiệp) từ năm này qua năm khác là quan trọng. Điều này đã được giải thích với R Codes [tại đây](https://rpubs.com/chidungkt/790392). 

Nhắc lại rằng mỗi một hộ gia đình có ID được hình thành từ mã của 5 cột biến: tỉnh, huyện, xã, địa bàn, hộ số. Vấn đề đầu tiên là chúng ta cần chuẩn hóa các mã này một cách thống nhất cho những mục đích sử dụng xa hơn sau này. Chẳng hạn, tỉnh có mã là 1 thì cần phải chuẩn hóa về 01 (tương ứng với Hà Nội). Mã tỉnh code chuẩn sử dụng 2 chữ số và do vậy với các tỉnh là số tự nhiên bé hơn 9 thì chúng ta phải thêm 1 số 0 đằng trước. Tương tự là Huyện sử dụng 3 chữ số đễ mã hóa. Do vậy với huyện mà chỉ sử dụng 1 chữ số thì chúng ta chuẩn hóa bằng cách thêm 2 chữ số 0 đằng trước, với huyện có mã là 2 chữ số thì thêm 1 chữ số 0 đằng trước. Cách thức chuẩn hóa này áp dụng tương tự cho các biến còn lại là xã, địa bàn và hộ số.

Chúng ta viết hàm có tên **add_zero()** để chuẩn hóa mã hành chính:


```{r}
# Clear R environment: 

rm(list = ls())

# Function creates full code by adding zeros: 

add_zero <- function(x) {
  
  tibble(x_text = as.character(x)) %>% 
    mutate(n_digits = str_count(x_text),
           n_max = max(n_digits, na.rm = TRUE), 
           delta = n_max - n_digits, 
           pre = strrep("0", times = delta), 
           full_code = str_c(pre, x_text)) %>% 
    pull(full_code) %>% 
    return()
}
```

Hàm trên được sử dụng để xác định common codes của các hộ gia đình cho giai đoạn 2012 - 2014 - 2016 với chi tiết được trình bày ngay sau đây với lưu ý rằng: để biết một hộ gia đình vào năm 2016 có được khảo sát ở kì khảo sát hai năm trước đó (năm 2014) hay không thì chúng ta cần sử dụng *HO1.dta*. Ở bộ dữ liệu này thì các cột tinh14, huyen14, xa14, diaban14, hoso14 sẽ cho biết hộ có được khảo sát ở năm 2014 hay không và sẽ tương ứng với giá trị 1, ngược lại là 0. Trước hết load một số gói, đọc bộ dữ liệu này và sử dụng hàm đã có để tạo ra cột biến h_code16, h_code14 với hàm ý là mã hộ gia đình tương ứng với 2016 và 2014: 


```{r}
# Load some R packages: 
library(dplyr)
library(tidyr)
library(stringr)
library(stringi)
library(haven)

#=====================================
#  Stage 1: Common Household Codes
#=====================================

#----------------------------
# Household codes 2016-2014
#----------------------------

# Import data: 
read_dta("D:/VHLSS2016/HO1.dta") -> ho1_2016

# Create household code columns: 

ho1_2016 %>% 
  mutate(tinh_n = add_zero(tinh), 
         huyen_n = add_zero(huyen), 
         xa_n = add_zero(xa), 
         diaban_n = add_zero(diaban), 
         hoso_n = add_zero(hoso)) %>% 
  mutate(h_code16 = str_c(tinh_n,
                          huyen_n,
                          xa_n, 
                          diaban_n,
                          hoso_n)) %>% 
  mutate(h_code14 = str_c(add_zero(tinh14), 
                          add_zero(huyen14), 
                          add_zero(xa14), 
                          add_zero(diaban14), 
                          add_zero(hoso14))) -> ho1_2016
```

Như vậy những hộ mà được khảo sát cả ở hai năm 2016 - 2014 sẽ là những hộ mà h_code16 == h_code14: 

```{r}
# Common codes 2016-2014: 

ho1_2016 %>% 
  filter(h_code16 == h_code14) %>% 
  pull(h_code16) %>% 
  unique() -> h_code_16_14
```

Tương tự là common codes cho giai đoạn 2014 - 2012: 

```{r}
#----------------------------
# Household codes 2014-2012
#----------------------------

# Import data: 
read_dta("D:/VHLSS2014_Households/Ho1.dta") -> ho1_2014

# Create household code columns: 

ho1_2014 %>% 
  mutate(tinh_n = add_zero(tinh), 
         huyen_n = add_zero(huyen), 
         xa_n = add_zero(xa), 
         diaban_n = add_zero(diaban), 
         hoso_n = add_zero(hoso)) %>% 
  mutate(h_code14 = str_c(tinh_n,
                          huyen_n,
                          xa_n, 
                          diaban_n,
                          hoso_n)) %>% 
  mutate(h_code12 = str_c(add_zero(tinh12), 
                          add_zero(huyen12), 
                          add_zero(xa12), 
                          add_zero(diaban12), 
                          add_zero(hoso12))) -> ho1_2014

# Common codes 2014-2012: 

ho1_2014 %>% 
  filter(h_code14 == h_code12) %>% 
  pull(h_code14) %>% 
  unique() -> h_code_14_12
```

Common codes cho toàn bộ giai đoạn  2016 - 2014 - 2012: 

```{r}
#----------------------------------
#  Household codes 2016-2014-2012
#----------------------------------

base::intersect(h_code_16_14, h_code_14_12) -> h_code_common
```

Theo lí thuyết thì nếu tracking hộ gia đình trong giai đoạn 2016 - 2014 - 2012 theo h_code_common như ở trên thì bất kể chọn tiêu chí gì ta cũng sẽ có Balanced Panel Data. Tuy nhiên kì vọng này có thể không được thỏa mãn. 


# Prepare Alcohol Consumption

Số liệu về tiêu dùng bia + rượu được phỏng vấn hộ gia đình qua câu hỏi *"Trong 30 ngày vừa qua đã tiêu dùng những mặt hàng nào?* được mã hóa ở cột m5a2ma thuộc **Muc5a2.dta** và giá trị quy đổi về tiền tương ứng với cột m5a2c2b. Chú ý rằng bia + rượu được mã hóa bằng 144 và 145. Từ đó tính được tổng tiêu dùng hai mặt hàng này cho hộ gia đình ở các năm 2016 - 2014 - 2012 như sau: 

```{r}
#=================================
#  Stage 2: Alcohol Consumption
#=================================

#--------------------------------
# Alcohld consumption 2012-2016
#--------------------------------

# For 2016: 

read_dta("D:\\VHLSS2016\\Muc5a2.dta") -> alcohol_16

alcohol_16 %>% 
  filter(m5a2ma %in% c(144, 145)) %>% 
  mutate(h_code = str_c(add_zero(tinh), 
                        add_zero(huyen), 
                        add_zero(xa), 
                        add_zero(diaban), 
                        add_zero(hoso))) %>% 
  filter(h_code %in% h_code_common) %>% 
  select(tinh, h_code, alcohol_code = m5a2ma, alcohol_con = m5a2c2b) %>% 
  group_by(h_code, tinh) %>% 
  summarise(total_alcohol_con = sum(alcohol_con)) %>% 
  ungroup() %>% 
  mutate(year = 2016) -> alcohol_year16


# For 2014: 

read_dta("D:\\VHLSS2014_Households\\Muc5a2.dta") -> alcohol_14


alcohol_14 %>% 
  filter(m5a2ma %in% c(144, 145)) %>% 
  mutate(h_code = str_c(add_zero(tinh), 
                        add_zero(huyen), 
                        add_zero(xa), 
                        add_zero(diaban), 
                        add_zero(hoso))) %>% 
  filter(h_code %in% h_code_common) %>% 
  select(tinh, h_code, alcohol_code = m5a2ma, alcohol_con = m5a2c2b) %>% 
  group_by(h_code, tinh) %>% 
  summarise(total_alcohol_con = sum(alcohol_con)) %>% 
  ungroup() %>% 
  mutate(year = 2014) -> alcohol_year14


# For 2012: 

read_dta("D:\\VHLSS2012\\Muc5a2.dta") -> alcohol_12


alcohol_12 %>% 
  filter(m5a2ma %in% c(144, 145)) %>% 
  mutate(h_code = str_c(add_zero(tinh), 
                        add_zero(huyen), 
                        add_zero(xa), 
                        add_zero(diaban), 
                        add_zero(hoso))) %>% 
  filter(h_code %in% h_code_common) %>% 
  select(tinh, h_code, alcohol_code = m5a2ma, alcohol_con = m5a2c2b) %>% 
  group_by(h_code, tinh) %>% 
  summarise(total_alcohol_con = sum(alcohol_con)) %>% 
  ungroup() %>% 
  mutate(year = 2012) -> alcohol_year12
```

Đến đây chúng ta có thể tạo ra Panel Data cho tổng tiêu dùng rượu bia giai đoạn 2016 - 2012 như sau: 


```{r}
alcohol_year16 %>% 
  bind_rows(alcohol_year14) %>% 
  bind_rows(alcohol_year12) %>% 
  arrange(h_code) -> data_alcohol_consumption
```

Chúng ta có thể xem một số quan sát: 

```{r}
data_alcohol_consumption %>% 
  select(-tinh) %>% 
  head()
```

Như vậy hộ có h_code = 010020006701613 có đủ dữ liệu trong ba năm liên tiếp còn hộ có h_code = 010010000400815 chỉ có mặt trong hai năm. Có thể nói bộ dữ liệu là Unbalanced Panel Data. Muốn có Balanced Panel Data chúng ta chỉ cần thực hiện một bước chuẩn bị nữa như sau: 

```{r}
# Households from 2016-2-14-2012: 
data_alcohol_consumption %>% 
  group_by(h_code) %>% 
  count() %>% 
  ungroup() %>% 
  filter(n == 3) %>% 
  pull(h_code) -> full_16_14_12

# Balanced Panel Data: 
data_alcohol_consumption %>% 
  filter(h_code %in% full_16_14_12) -> alcohol_consumption_balanced

```

Lúc này chỉ còn 520 hộ gia đình có đầy đủ dữ liệu về tổng tiêu dùng bia + rượu trong ba năm liên tiếp. 

# Final Notes

Các biến số khác sẽ được chuẩn bị và tính toán theo logic đã trình bày ở trên. 
