Lời Nói Đầu

Ở bất kỳ một quốc gia nào, dữ liệu tốt là điều kiện tiên quyết để có được một nghiên cứu tốt, từ đó đóng góp các đề xuất về mặt chính sách của Nhà nước. Tuy nhiên, khó khăn mà các nhà nghiên cứu thường xuyên gặp phải là làm thế nào để có được dữ liệu đáp ứng được yêu cầu của mình. Trong nhiều trường hợp, người nghiên cứu phải sử dụng nhiều bộ dữ liệu khác nhau, kết nối lại để có được đầy đủ các dữ liệu cần thiết, mà đây lại không phải là một công việc dễ dàng.

Cuốn sách này nhằm mục đích chia sẻ một số thông tin về việc quản lý số liệu kinh tế, thương mại quốc tế của Việt Nam và phương pháp nối với các bộ số liệu. Chúng tôi cũng mong muốn giới thiệu cuốn sách này tới nhiều độc giả, bao gồm các bạn sinh viên, các nhà nghiên cứu, các giảng viên cũng như những người yêu thích xử lý số liệu và các nghiên cứu thực nghiệm. Nội dung của cuốn sách được viết bằng cả tiếng Việt và tiếng Anh nhằm đáp ứng nhu cầu của độc giả Việt Nam cũng như quốc tế.

Chúng tôi bày tỏ sự biết ơn đối với những góp ý của các chuyên gia làm việc tại Tổng cục Thống kê của Việt Nam (GSO), tại Tổ chức Thương mại thế giới WTO và OECD, Trường Đại học Ngoại thương (Việt Nam), Trường Đại học Bern (Thụy Sỹ) cũng như các chuyên gia về số liệu và các nhà nghiên cứu khác trong quá trình chuẩn bị tài liệu để viết cuốn sách này. Chúng tôi ghi nhận các góp ý rất có giá trị của ThS. Nguyễn Huy Minh (GSO) cho ba chương của cuốn sách và của ThS. Đoàn Quang Hưng (FTU) cho chương 2 của cuốn sách, cũng như những hỗ trợ trong việc dịch tiếng Việt (chương 1 và 3) của ThS. Phạm Nguyên Hạnh (Trường Đại học Exeter). Chúng tôi ghi nhận sự hỗ trợ để viết và xuất bản cuốn sách này từ Chính phủ Australia thông qua Quỹ hỗ trợ nhỏ dành cho các cựu sinh viên (the Alumni Small Grants Fund). Đặc biệt, chúng tôi xin gửi lời cảm ơn chân thành tới lãnh đạo và đồng nghiệp của chúng tôi tại Trường Đại học Ngoại thương. Nếu không có sự hỗ trợ kiên trì và chuyên nghiệp của họ, chúng tôi sẽ không thể hoàn thiện được cuốn sách này. Chúng tôi hy vọng đây là những đóng góp tuy nhỏ bé nhưng là đầu tiên đối với việc tích hợp dữ liệu về kinh tế và thương mại quốc tế của Việt Nam. Chúng tôi mong muốn sẽ nhận được ý kiến phản hồi từ độc giả để cuốn sách được hoàn thiện hơn. Độc giả có thể liên hệ với chúng tôi qua email:

Tài liệu này gồm ba chương:

  • Chương 1: Dữ liệu doanh nghiệp Việt Nam: quản trị dữ liệu bảng và tích hợp dữ liệu trong nghiên cứu kinh tế thực nghiệm của Việt Nam

  • Chương 2: Dữ liệu doanh nghiệp vừa và nhỏ Việt Nam: hướng dẫn chi tiết về xử lý số liệu, tạo biến và chạy mô hình hồi quy

  • Chương 3: Biên soạn dữ liệu trong nghiên cứu thực nghiệm về thương mại quốc tế của Việt Nam

Nội dung của tài liệu tập trung vào những vấn đề sau:

  • Tổng hợp các nghiên cứu sử dụng số liệu ở cấp độ doanh nghiệp của Việt Nam và các số liệu của các tổ chức quốc tế về vấn đề kinh tế và thương mại quốc tế của Việt Nam.

  • Cung cấp những hướng dẫn nhanh và thân thiện trong việc quản lý số liệu cấp độ doanh nghiệp của Việt Nam phục vụ cho việc nghiên cứu (Khảo sát doanh nghiệp Việt Nam – VES và khảo sát các doanh nghiệp nhỏ của Việt Nam – SME).

  • Hướng dẫn tích hợp các bộ số liệu khác nhau phục vụ cho mục đích nghiên cứu kinh tế và thương mại quốc tế của Việt Nam, ví dụ bảng inter-country input-output (từ OECD) và số liệu thương mại (từ WITS).

  • Cung cấp các ví dụ sử dụng số liệu cập nhật của dữ liệu VES giai đoạn từ 2011 đến 2015 và số liệu doanh nghiệp vừa và nhỏ giai đoạn từ 2005 đến 2015.

  • Đề xuất các hướng nghiên cứu thực nghiệm mới.

Bảng Danh Mục Viết Tắt
Abbreviation Meaning
ACIC ASEAN Common Industrial Classification
ADB Asian Development Bank
ANZSIC The Australian and New Zealand Standard Industrial Classification
CIEM Central Institute for Economic Management
CPC Central product classification
CPI Consumer price index
DERG Development Economics Research Group
ERIA Economic Research Institute for ASEAN and East Asia
FDI Foreign direct investment
GMM General method of moment
GSO The General Statistics Office of Vietnam
GTAP The Global Trade Analysis Project
GIS Geographical information system
ICIO Inter-country input-output table
ILSSA Institute of Labor Science and Social Affairs
IO Input output table
ISIC International standard industrial classification
IV Instrumental variable
NAICS North American Industry Classification System
NTM Non Tariff Measurements
OECD The Organisation for Economic Co-operation and Development
PPI Producer price index
SME Small and medium enterprise survey
SUT Supply and uses table
UN The United Nations
UNIDO United Nations Industrial Development Organization
UNU-WIDER United Nations University World Institute for Development Economics Research
VES Vietnamese enterprise survey
VSIC Vietnam Standard Industrial Classification
WB The World Bank
WITS World Integrated Trade Solutions
WTO The World Trade Organization

Chương 1: Dữ Liệu Doanh Nghiệp Việt Nam

1.1 Giới thiệu

Nguồn dữ liệu thu thập từ các doanh nghiệp sản xuất tại Việt Nam đã và đang được sử dụng rộng rãi trong các đề tài nghiên cứu kinh tế học như phân tích hoạt động của doanh nghiệp trong bối cảnh cải cách môi trường kinh doanh, tự do hóa thương mại, sự lan tỏa nhanh chóng của dòng vốn đầu tư trực tiếp nước ngoài và sự phát triển của các cụm công nghiệp. Chương 1 tóm tắt tổng quan nghiên cứu, mô tả các phương pháp chính trong quản lý dữ liệu bộ dữ liệu này và đề xuất một số kiến nghị cho nghiên cứu thực nghiệm mới.

1.2 Tổng Quan Nghiên Cứu

Bảng 1.1 tóm tắt nội dung của các nghiên cứu thực nghiệm sử dụng dữ liệu bảng ở cấp độ doanh nghiệp thu thập được từ khảo sát doanh nghiệp Việt Nam (VES). Khảo sát được thực hiện bởi Tổng cục Thống kê Việt Nam từ năm 2001 (cho thống kê dữ liệu năm 2000). Doanh nghiệp tham gia khảo sát này đã đăng ký kinh doanh và vẫn đang hoạt động kinh doanh tại thời điểm thực hiện khảo sát.

Khung thời gian nghiên cứu trong các nghiên cứu đã tiến hành này kéo dài từ 4 năm đến 11 năm. Tệp dữ liệu sử dụng trong các nghiên cứu này được kết hợp với các tệp dữ liệu cấp ngành khác, ví dụ, bảng cân đối liên ngành của sản xuất nội địa (nguồn: Tổng cục Thống kê), tệp dữ liệu thuế xuất nhập khẩu (nguồn: COMTRADE), bảng nguồn và sử dụng tại Việt Nam (SUT), khảo sát về công nghệ và tính cạnh tranh tại Việt Nam (TCS).

Bảng 1.1 Một số nghiên cứu
Năm Tác giả Vấn đề nghiên cứu Dữ liệu Phân loại ngành Dữ liệu phụ trợ Phương Pháp đo lường TFP
2017 Huong Nguyen Cải cách môi trường kinh doanh và năng suất lao động 2000–2010 Hai chữ số Bán tham số
2017 Mai Vu, Flora Bellone & Marion Dovis Năng suất lao động và chênh lệch tiền lương 2000–2013 Bốn chữ số Phi tham số
2016 Ha Doan, Kozo Kiyota & Kenta Yamanouchi Năng suất lao động và sự mất cân đối trong phân phối 2000–2009 Hai chữ số Phi tham số
2016 Hanh Pham, Thang Tran, & Barnes Tốc độ dịch chuyển năng suất lao động 2000–2005 Hai chữ số Bảng cân đối liên ngành sản xuất nội địa Bán tham số
2015 Carol Newman và cộng sự Tốc độ dịch chuyển năng suất lao động 2009–2012 Hai chữ số SUT, TCS Bán tham số
2014 Sajid Anwar & Phi Lan Nguyen Tốc độ dịch chuyển năng suất lao động vùng 2000–2005 Hai chữ số Bình phương nhỏ nhất
2014 Ha Doan & Kozo Kiyota Năng suất lao động và tự do hóa thương mại 2000–2009 Hai chữ số Dữ liệu về thuế quan Phi tham số

Những nghiên cứu này tập trung phân tích hiệu quả hoạt động của doanh nghiệp thông qua đo lường năng suất nhân tố tổng hợp (TFP). Nhóm thông tin cấp doanh nghiệp liên quan đến tài sản cố định, số lượng lao động, tổng doanh số (doanh thu) được khai thác phục vụ cho mục đích tính TFP sử dụng phương pháp phi tham số, hoặc ước lượng TFP dùng mô hình OLS và bán tham số xây dựng bởi Levinsohn và Petrin (2003), hay Wooldridge (2009) và Petrin (2012). Phương pháp bán tham số yêu cầu thông tin về chi phí cho nguyên vật liệu là nội dung không có trong tệp dữ liệu, tuy nhiên có thể được tính gián tiếp bằng cách trừ đi tổng đầu tư tài sản cố định, chi phí tiền lương và các đầu tư khác (Nguyen, 2017). Giá trị gia tăng (VA) được tính bằng phương pháp cộng gộp, lấy tổng tiền lương và lợi nhuận trừ đi khấu hao (Nguyen, 2017).

Các chỉ số giảm phát khác nhau được sử dụng để đo lường giá trị thực của doanh số, nguyên vật liệu và tài sản cố định. Ví dụ, Ha và Kiyota (2014), Nguyen (2017) sử dụng chỉ số giá sản xuất (PPI)5. Newman và cộng sự (2015) sử dụng chỉ số GDP làm công cụ tính tiền lương và lợi nhuận thực tế.6 Giá trị thực tế của tài sản cố định được tính bằng chỉ số được cung cấp bởi Ngân hàng Thế giới (Nguyen, 2017).

1.3 Quản Trị Dữ Liệu

Nguồn dữ liệu

Dữ liệu bảng cấp doanh nghiệp của Việt Nam trong các nghiên cứu trên đây đã được xây dựng bằng cách sử dụng kết quả điều tra doanh nghiệp Việt Nam (VES). Khảo sát hằng năm này được thực hiện bởi Tổng cục Thống kê Việt Nam từ năm 2001 (cho dữ liệu năm 2000). Các doanh nghiệp có trong khảo sát là doanh nghiệp đăng ký theo Luật Doanh nghiệp và đang hoạt động kinh doanh cho đến cuối năm mà khảo sát được thực hiện. Dữ liệu tổng hợp từ khảo sát được công bố thông qua Niên giám thống kê hằng năm của Việt Nam. Ví dụ, điều tra được tiến hành vào năm 2001 sẽ cung cấp thông tin năm cho năm 2000.

Nội dung dữ liệu

Nội dung dữ liệu được giải thích một cách nhất quán trong bảng hỏi. Khảo sát hằng năm có chứa các thông tin tương tự nhau giữa các năm. Tuy nhiên, có những thông tin khác nhau cũng được đưa vào khảo sát tùy theo mục đích cụ thể dành cho năm đó. Phần tiếp theo trong chương này giải thích các dữ liệu chính được điều tra trong tất cả các năm

a) Phân loại ngành

Có ba nhóm ngành chính xuất hiện trong khảo sát: công nghiệp – xây dựng, dịch vụ và nông nghiệp (các nhóm này được phân loại vào nhóm ngành hẹp hơn). Cuốn sách này tập trung vào ngành công nghiệp sản xuất.

VSIC 1993 là tiêu chuẩn phân loại ngành tại Việt Nam được áp dụng nhóm ngành trong nhóm dữ liệu từ năm 2000 – 2006. Tiêu chuẩn này tương đương với ISIC. Rev.3 sử dụng trong dữ liệu ngành quốc tế. VSIC 2007 là bộ tiêu chuẩn phân loại ngành được áp dụng cho nhóm dữ liệu từ năm 2007, tương đương với ISIC Rev.4 và bản phác thảo của tiêu chuẩn Phân loại công nghiệp chung khu vực ASEAN (ACIC, phân loại theo ba chữ số). Tiêu chuẩn VSIC 2007 bao gồm năm cấp: cấp 1 có 21 ngành được mã hóa bằng chữ cái viết hoa từ A đến U, cấp 2 là nhánh hai chữ số của 88 ngành, cấp 3 là nhánh ba chữ số với 242 ngành, cấp 4 là nhánh bốn chữ số với 437 ngành, cấp 5 là nhánh năm chữ số với 642 ngành.

Bảng chuyển đổi xây dựng bởi Tổng cục Thống kê Việt Nam được sử dụng để chuyển đổi từ VSIC 1993 sang VSIC 2007. Ngoài ra, VSIC 2007 có thể được chuyển đổi sang ISIC Rev.3.1, CPC Ver.2.1, CPC Ver.2, NACE Rev.2, NAICS 2012 (US) và NAICS 2007 (US) theo bảng chuyển đổi công bố trên trang thông tin của Liên hợp quốc (UN) do tiêu chuẩn này có tính tương đồng với tiêu chuẩn ISIC Rev.4.

Bảng dưới đây so sánh sự khác biệt giữa VSIC 2007, VSIC 1993, ISIC Rev.4 và ACIC

Bảng 1.2: Tóm tắt VSIC 2007, VSIC 1993, ISIC Rev.4, & ACIC
Level VSIC1993 VSIC2007 ISIC.Rev4 ACIC
Cấp 1 (mã hóa A–U) 20 21 21 21
Cấp 2 (hai chữ số) 60 88 88 88
Cấp 3 (ba chữ số) 159 242 238 242
Cấp 4 (bốn chữ số) 299 437 420 NA
Cấp 5 (năm chữ số) NA 642 NA NA

Kết quả phân loại doanh nghiệp Việt Nam theo VSIC 1993 và VSIC 2007 trong các năm 2007, 2008, 2009 đã có trên trang thông tin của Tổng cục Thống kê. Ngoài ra, trang web của WITS cung cấp các bảng phù hợp có thể chuyển đổi phân loại ngành trong Harmonized System (HS) thành ISIC Rev.3 (tương đương với VSIC 1993).

b) Dữ liệu về vị trí của Doanh Nghiệp

Vị trí của doanh nghiệp được quy định theo ba cấp xã (phường, thị trấn); huyện (quận, thị xã trực thuộc tỉnh) và tỉnh (thành phố trực thuộc Trung ương) nhất quán với quy định về địa chính tại Việt Nam. Địa chỉ của các doanh nghiệp là thông tin được bảo mật.

c) Biến số

Các biến số quan trọng đại diện cho đặc điểm của doanh nghiệp có trong khảo sát hằng năm gồm: loại hình doanh nghiệp, vị trí, phân loại ngành, tổng doanh thu, tổng lợi nhuận, tài sản cố định, tổng số lao động, tổng quỹ tiền lương.

Thông tin về một số biến thông thường được thu thập vào ngày 31 tháng 12 của năm (giá trị danh nghĩa). Tuy nhiên, thông tin của một số biến là được thu thập vào ngày 1 tháng 1 của năm đó (ví dụ: tài sản cố định trong bảng 1.3). Một số biến được thu thập vào cả hai thời điểm đầu năm và cuối năm.

Đối với các giá trị không được ghi chép vào ngày 31/12 của năm thực hiện khảo sát, người dùng dữ liệu có thể sử dụng “Phương pháp phản chiếu” để thay thế dữ liệu bị thiếu bằng dữ liệu của biến có chức năng tương tự trong khảo sát được thực hiện ở năm sau đó mà ghi chép vào 1/1 (Ví dụ biến ghi chép vào 31/12 của bộ dữ liệu năm 2011 tương ứng với giá trị của biến đó ghi chép vào 1/1 của bộ dữ liệu năm 2012). Ngoài ra, đối với những biến không được ghi chép vào ngày 1/1, người sử dụng dữ liệu có thể lấy thông tin từ kết quả khảo sát được thu thập từ 31/12 trong năm trước đó.

Có thể thay thế giá trị bị thiếu của một quan sát trong dữ liệu bảng bằng cách tính giá trị trung bình của năm trước và năm sau (hoặc sử dụng phép nội suy tuyến tính hoặc ngoại suy tuyến tính).

#============================================================
#  PROJECT NAME: COMPILATION OF DATA FOR EMPIRICAL RESEARCH
#============================================================

library(haven)
library(stringr)
library(dplyr)
library(ggplot2)

read_dta("E:\\Project_EconometricsR\\Stata_2011\\dn2011.dta") -> dn2011

dn2011 %>%
  # Đổi tên biến
  rename(isic5 = nganh_kd,
         province = tinh) %>%
  # Tạo biến isic4 và isic2 từ isic5
  mutate(
    isic4 = str_sub(isic5, 1, 4),
    isic2 = str_sub(isic5, 1, 2)
  ) %>%
  # Đếm số doanh nghiệp theo tỉnh và ngành 2 chữ số
  group_by(province, isic2) %>%
  summarise(number = n()) -> dataVsic2Province



dataVsic2Province %>%
  group_by(province) %>%
  summarise(n_firms = sum(number)) -> numberFirmsProvince



#=========================
#  R codes cho mapping
#=========================

# Lấy dữ liệu mapping cho Việt Nam:

library(geodata)

vietnam_province <- gadm(country = "VNM", level = 1, path = tempdir())


#-------------------------------------
# Cách 1: sử dụng hàm geom_sf()
# https://ggplot2-book.org/maps.html
#-------------------------------------

library(sf)
vietnam_sf <- st_as_sf(vietnam_province)

# Sử dụng hàm geom_sf():

ggplot(vietnam_sf) +
  geom_sf(aes(fill = VARNAME_1)) +
  theme_minimal() +
  labs(title = "Bản đồ các tỉnh Việt Nam, geom_sf()") -> mapC1

mapC1