Lời Nói Đầu
Ở bất kỳ một quốc gia nào, dữ liệu tốt là điều kiện tiên quyết để có được một nghiên cứu tốt, từ đó đóng góp các đề xuất về mặt chính sách của Nhà nước. Tuy nhiên, khó khăn mà các nhà nghiên cứu thường xuyên gặp phải là làm thế nào để có được dữ liệu đáp ứng được yêu cầu của mình. Trong nhiều trường hợp, người nghiên cứu phải sử dụng nhiều bộ dữ liệu khác nhau, kết nối lại để có được đầy đủ các dữ liệu cần thiết, mà đây lại không phải là một công việc dễ dàng.
Cuốn sách này nhằm mục đích chia sẻ một số thông tin về việc quản lý số liệu kinh tế, thương mại quốc tế của Việt Nam và phương pháp nối với các bộ số liệu. Chúng tôi cũng mong muốn giới thiệu cuốn sách này tới nhiều độc giả, bao gồm các bạn sinh viên, các nhà nghiên cứu, các giảng viên cũng như những người yêu thích xử lý số liệu và các nghiên cứu thực nghiệm. Nội dung của cuốn sách được viết bằng cả tiếng Việt và tiếng Anh nhằm đáp ứng nhu cầu của độc giả Việt Nam cũng như quốc tế.
Chúng tôi bày tỏ sự biết ơn đối với những góp ý của các chuyên gia làm việc tại Tổng cục Thống kê của Việt Nam (GSO), tại Tổ chức Thương mại thế giới WTO và OECD, Trường Đại học Ngoại thương (Việt Nam), Trường Đại học Bern (Thụy Sỹ) cũng như các chuyên gia về số liệu và các nhà nghiên cứu khác trong quá trình chuẩn bị tài liệu để viết cuốn sách này. Chúng tôi ghi nhận các góp ý rất có giá trị của ThS. Nguyễn Huy Minh (GSO) cho ba chương của cuốn sách và của ThS. Đoàn Quang Hưng (FTU) cho chương 2 của cuốn sách, cũng như những hỗ trợ trong việc dịch tiếng Việt (chương 1 và 3) của ThS. Phạm Nguyên Hạnh (Trường Đại học Exeter). Chúng tôi ghi nhận sự hỗ trợ để viết và xuất bản cuốn sách này từ Chính phủ Australia thông qua Quỹ hỗ trợ nhỏ dành cho các cựu sinh viên (the Alumni Small Grants Fund). Đặc biệt, chúng tôi xin gửi lời cảm ơn chân thành tới lãnh đạo và đồng nghiệp của chúng tôi tại Trường Đại học Ngoại thương. Nếu không có sự hỗ trợ kiên trì và chuyên nghiệp của họ, chúng tôi sẽ không thể hoàn thiện được cuốn sách này. Chúng tôi hy vọng đây là những đóng góp tuy nhỏ bé nhưng là đầu tiên đối với việc tích hợp dữ liệu về kinh tế và thương mại quốc tế của Việt Nam. Chúng tôi mong muốn sẽ nhận được ý kiến phản hồi từ độc giả để cuốn sách được hoàn thiện hơn. Độc giả có thể liên hệ với chúng tôi qua email:
TS. Đào Ngọc Tiến
TS. Nguyễn Quỳnh Hương: huongng@ftu.edu.vn
TS. Vũ Thị Hạnh: hanhvt@ftu.edu.vn
TS. Đoàn Thị Thanh Hà: doan.ha@eria.org
Tài liệu này gồm ba chương:
Chương 1: Dữ liệu doanh nghiệp Việt Nam: quản trị dữ liệu bảng và tích hợp dữ liệu trong nghiên cứu kinh tế thực nghiệm của Việt Nam
Chương 2: Dữ liệu doanh nghiệp vừa và nhỏ Việt Nam: hướng dẫn chi tiết về xử lý số liệu, tạo biến và chạy mô hình hồi quy
Chương 3: Biên soạn dữ liệu trong nghiên cứu thực nghiệm về thương mại quốc tế của Việt Nam
Nội dung của tài liệu tập trung vào những vấn đề sau:
Tổng hợp các nghiên cứu sử dụng số liệu ở cấp độ doanh nghiệp của Việt Nam và các số liệu của các tổ chức quốc tế về vấn đề kinh tế và thương mại quốc tế của Việt Nam.
Cung cấp những hướng dẫn nhanh và thân thiện trong việc quản lý số liệu cấp độ doanh nghiệp của Việt Nam phục vụ cho việc nghiên cứu (Khảo sát doanh nghiệp Việt Nam – VES và khảo sát các doanh nghiệp nhỏ của Việt Nam – SME).
Hướng dẫn tích hợp các bộ số liệu khác nhau phục vụ cho mục đích nghiên cứu kinh tế và thương mại quốc tế của Việt Nam, ví dụ bảng inter-country input-output (từ OECD) và số liệu thương mại (từ WITS).
Cung cấp các ví dụ sử dụng số liệu cập nhật của dữ liệu VES giai đoạn từ 2011 đến 2015 và số liệu doanh nghiệp vừa và nhỏ giai đoạn từ 2005 đến 2015.
Đề xuất các hướng nghiên cứu thực nghiệm mới.
| Abbreviation | Meaning |
|---|---|
| ACIC | ASEAN Common Industrial Classification |
| ADB | Asian Development Bank |
| ANZSIC | The Australian and New Zealand Standard Industrial Classification |
| CIEM | Central Institute for Economic Management |
| CPC | Central product classification |
| CPI | Consumer price index |
| DERG | Development Economics Research Group |
| ERIA | Economic Research Institute for ASEAN and East Asia |
| FDI | Foreign direct investment |
| GMM | General method of moment |
| GSO | The General Statistics Office of Vietnam |
| GTAP | The Global Trade Analysis Project |
| GIS | Geographical information system |
| ICIO | Inter-country input-output table |
| ILSSA | Institute of Labor Science and Social Affairs |
| IO | Input output table |
| ISIC | International standard industrial classification |
| IV | Instrumental variable |
| NAICS | North American Industry Classification System |
| NTM | Non Tariff Measurements |
| OECD | The Organisation for Economic Co-operation and Development |
| PPI | Producer price index |
| SME | Small and medium enterprise survey |
| SUT | Supply and uses table |
| UN | The United Nations |
| UNIDO | United Nations Industrial Development Organization |
| UNU-WIDER | United Nations University World Institute for Development Economics Research |
| VES | Vietnamese enterprise survey |
| VSIC | Vietnam Standard Industrial Classification |
| WB | The World Bank |
| WITS | World Integrated Trade Solutions |
| WTO | The World Trade Organization |
Nguồn dữ liệu thu thập từ các doanh nghiệp sản xuất tại Việt Nam đã và đang được sử dụng rộng rãi trong các đề tài nghiên cứu kinh tế học như phân tích hoạt động của doanh nghiệp trong bối cảnh cải cách môi trường kinh doanh, tự do hóa thương mại, sự lan tỏa nhanh chóng của dòng vốn đầu tư trực tiếp nước ngoài và sự phát triển của các cụm công nghiệp. Chương 1 tóm tắt tổng quan nghiên cứu, mô tả các phương pháp chính trong quản lý dữ liệu bộ dữ liệu này và đề xuất một số kiến nghị cho nghiên cứu thực nghiệm mới.
Bảng 1.1 tóm tắt nội dung của các nghiên cứu thực nghiệm sử dụng dữ liệu bảng ở cấp độ doanh nghiệp thu thập được từ khảo sát doanh nghiệp Việt Nam (VES). Khảo sát được thực hiện bởi Tổng cục Thống kê Việt Nam từ năm 2001 (cho thống kê dữ liệu năm 2000). Doanh nghiệp tham gia khảo sát này đã đăng ký kinh doanh và vẫn đang hoạt động kinh doanh tại thời điểm thực hiện khảo sát.
Khung thời gian nghiên cứu trong các nghiên cứu đã tiến hành này kéo dài từ 4 năm đến 11 năm. Tệp dữ liệu sử dụng trong các nghiên cứu này được kết hợp với các tệp dữ liệu cấp ngành khác, ví dụ, bảng cân đối liên ngành của sản xuất nội địa (nguồn: Tổng cục Thống kê), tệp dữ liệu thuế xuất nhập khẩu (nguồn: COMTRADE), bảng nguồn và sử dụng tại Việt Nam (SUT), khảo sát về công nghệ và tính cạnh tranh tại Việt Nam (TCS).
| Năm | Tác giả | Vấn đề nghiên cứu | Dữ liệu | Phân loại ngành | Dữ liệu phụ trợ | Phương Pháp đo lường TFP |
|---|---|---|---|---|---|---|
| 2017 | Huong Nguyen | Cải cách môi trường kinh doanh và năng suất lao động | 2000–2010 | Hai chữ số | Bán tham số | |
| 2017 | Mai Vu, Flora Bellone & Marion Dovis | Năng suất lao động và chênh lệch tiền lương | 2000–2013 | Bốn chữ số | Phi tham số | |
| 2016 | Ha Doan, Kozo Kiyota & Kenta Yamanouchi | Năng suất lao động và sự mất cân đối trong phân phối | 2000–2009 | Hai chữ số | Phi tham số | |
| 2016 | Hanh Pham, Thang Tran, & Barnes | Tốc độ dịch chuyển năng suất lao động | 2000–2005 | Hai chữ số | Bảng cân đối liên ngành sản xuất nội địa | Bán tham số |
| 2015 | Carol Newman và cộng sự | Tốc độ dịch chuyển năng suất lao động | 2009–2012 | Hai chữ số | SUT, TCS | Bán tham số |
| 2014 | Sajid Anwar & Phi Lan Nguyen | Tốc độ dịch chuyển năng suất lao động vùng | 2000–2005 | Hai chữ số | Bình phương nhỏ nhất | |
| 2014 | Ha Doan & Kozo Kiyota | Năng suất lao động và tự do hóa thương mại | 2000–2009 | Hai chữ số | Dữ liệu về thuế quan | Phi tham số |
Những nghiên cứu này tập trung phân tích hiệu quả hoạt động của doanh nghiệp thông qua đo lường năng suất nhân tố tổng hợp (TFP). Nhóm thông tin cấp doanh nghiệp liên quan đến tài sản cố định, số lượng lao động, tổng doanh số (doanh thu) được khai thác phục vụ cho mục đích tính TFP sử dụng phương pháp phi tham số, hoặc ước lượng TFP dùng mô hình OLS và bán tham số xây dựng bởi Levinsohn và Petrin (2003), hay Wooldridge (2009) và Petrin (2012). Phương pháp bán tham số yêu cầu thông tin về chi phí cho nguyên vật liệu là nội dung không có trong tệp dữ liệu, tuy nhiên có thể được tính gián tiếp bằng cách trừ đi tổng đầu tư tài sản cố định, chi phí tiền lương và các đầu tư khác (Nguyen, 2017). Giá trị gia tăng (VA) được tính bằng phương pháp cộng gộp, lấy tổng tiền lương và lợi nhuận trừ đi khấu hao (Nguyen, 2017).
Các chỉ số giảm phát khác nhau được sử dụng để đo lường giá trị thực của doanh số, nguyên vật liệu và tài sản cố định. Ví dụ, Ha và Kiyota (2014), Nguyen (2017) sử dụng chỉ số giá sản xuất (PPI)5. Newman và cộng sự (2015) sử dụng chỉ số GDP làm công cụ tính tiền lương và lợi nhuận thực tế.6 Giá trị thực tế của tài sản cố định được tính bằng chỉ số được cung cấp bởi Ngân hàng Thế giới (Nguyen, 2017).
Nguồn dữ liệu
Dữ liệu bảng cấp doanh nghiệp của Việt Nam trong các nghiên cứu trên đây đã được xây dựng bằng cách sử dụng kết quả điều tra doanh nghiệp Việt Nam (VES). Khảo sát hằng năm này được thực hiện bởi Tổng cục Thống kê Việt Nam từ năm 2001 (cho dữ liệu năm 2000). Các doanh nghiệp có trong khảo sát là doanh nghiệp đăng ký theo Luật Doanh nghiệp và đang hoạt động kinh doanh cho đến cuối năm mà khảo sát được thực hiện. Dữ liệu tổng hợp từ khảo sát được công bố thông qua Niên giám thống kê hằng năm của Việt Nam. Ví dụ, điều tra được tiến hành vào năm 2001 sẽ cung cấp thông tin năm cho năm 2000.
Nội dung dữ liệu
Nội dung dữ liệu được giải thích một cách nhất quán trong bảng hỏi. Khảo sát hằng năm có chứa các thông tin tương tự nhau giữa các năm. Tuy nhiên, có những thông tin khác nhau cũng được đưa vào khảo sát tùy theo mục đích cụ thể dành cho năm đó. Phần tiếp theo trong chương này giải thích các dữ liệu chính được điều tra trong tất cả các năm
a) Phân loại ngành
Có ba nhóm ngành chính xuất hiện trong khảo sát: công nghiệp – xây dựng, dịch vụ và nông nghiệp (các nhóm này được phân loại vào nhóm ngành hẹp hơn). Cuốn sách này tập trung vào ngành công nghiệp sản xuất.
VSIC 1993 là tiêu chuẩn phân loại ngành tại Việt Nam được áp dụng nhóm ngành trong nhóm dữ liệu từ năm 2000 – 2006. Tiêu chuẩn này tương đương với ISIC. Rev.3 sử dụng trong dữ liệu ngành quốc tế. VSIC 2007 là bộ tiêu chuẩn phân loại ngành được áp dụng cho nhóm dữ liệu từ năm 2007, tương đương với ISIC Rev.4 và bản phác thảo của tiêu chuẩn Phân loại công nghiệp chung khu vực ASEAN (ACIC, phân loại theo ba chữ số). Tiêu chuẩn VSIC 2007 bao gồm năm cấp: cấp 1 có 21 ngành được mã hóa bằng chữ cái viết hoa từ A đến U, cấp 2 là nhánh hai chữ số của 88 ngành, cấp 3 là nhánh ba chữ số với 242 ngành, cấp 4 là nhánh bốn chữ số với 437 ngành, cấp 5 là nhánh năm chữ số với 642 ngành.
Bảng chuyển đổi xây dựng bởi Tổng cục Thống kê Việt Nam được sử dụng để chuyển đổi từ VSIC 1993 sang VSIC 2007. Ngoài ra, VSIC 2007 có thể được chuyển đổi sang ISIC Rev.3.1, CPC Ver.2.1, CPC Ver.2, NACE Rev.2, NAICS 2012 (US) và NAICS 2007 (US) theo bảng chuyển đổi công bố trên trang thông tin của Liên hợp quốc (UN) do tiêu chuẩn này có tính tương đồng với tiêu chuẩn ISIC Rev.4.
Bảng dưới đây so sánh sự khác biệt giữa VSIC 2007, VSIC 1993, ISIC Rev.4 và ACIC
| Level | VSIC1993 | VSIC2007 | ISIC.Rev4 | ACIC |
|---|---|---|---|---|
| Cấp 1 (mã hóa A–U) | 20 | 21 | 21 | 21 |
| Cấp 2 (hai chữ số) | 60 | 88 | 88 | 88 |
| Cấp 3 (ba chữ số) | 159 | 242 | 238 | 242 |
| Cấp 4 (bốn chữ số) | 299 | 437 | 420 | NA |
| Cấp 5 (năm chữ số) | NA | 642 | NA | NA |
Kết quả phân loại doanh nghiệp Việt Nam theo VSIC 1993 và VSIC 2007 trong các năm 2007, 2008, 2009 đã có trên trang thông tin của Tổng cục Thống kê. Ngoài ra, trang web của WITS cung cấp các bảng phù hợp có thể chuyển đổi phân loại ngành trong Harmonized System (HS) thành ISIC Rev.3 (tương đương với VSIC 1993).
b) Dữ liệu về vị trí của Doanh Nghiệp
Vị trí của doanh nghiệp được quy định theo ba cấp xã (phường, thị trấn); huyện (quận, thị xã trực thuộc tỉnh) và tỉnh (thành phố trực thuộc Trung ương) nhất quán với quy định về địa chính tại Việt Nam. Địa chỉ của các doanh nghiệp là thông tin được bảo mật.
c) Biến số
Các biến số quan trọng đại diện cho đặc điểm của doanh nghiệp có trong khảo sát hằng năm gồm: loại hình doanh nghiệp, vị trí, phân loại ngành, tổng doanh thu, tổng lợi nhuận, tài sản cố định, tổng số lao động, tổng quỹ tiền lương.
Thông tin về một số biến thông thường được thu thập vào ngày 31 tháng 12 của năm (giá trị danh nghĩa). Tuy nhiên, thông tin của một số biến là được thu thập vào ngày 1 tháng 1 của năm đó (ví dụ: tài sản cố định trong bảng 1.3). Một số biến được thu thập vào cả hai thời điểm đầu năm và cuối năm.
Đối với các giá trị không được ghi chép vào ngày 31/12 của năm thực hiện khảo sát, người dùng dữ liệu có thể sử dụng “Phương pháp phản chiếu” để thay thế dữ liệu bị thiếu bằng dữ liệu của biến có chức năng tương tự trong khảo sát được thực hiện ở năm sau đó mà ghi chép vào 1/1 (Ví dụ biến ghi chép vào 31/12 của bộ dữ liệu năm 2011 tương ứng với giá trị của biến đó ghi chép vào 1/1 của bộ dữ liệu năm 2012). Ngoài ra, đối với những biến không được ghi chép vào ngày 1/1, người sử dụng dữ liệu có thể lấy thông tin từ kết quả khảo sát được thu thập từ 31/12 trong năm trước đó.
Có thể thay thế giá trị bị thiếu của một quan sát trong dữ liệu bảng bằng cách tính giá trị trung bình của năm trước và năm sau (hoặc sử dụng phép nội suy tuyến tính hoặc ngoại suy tuyến tính).
#============================================================
# PROJECT NAME: COMPILATION OF DATA FOR EMPIRICAL RESEARCH
#============================================================
library(haven)
library(stringr)
library(dplyr)
library(ggplot2)
read_dta("E:\\Project_EconometricsR\\Stata_2011\\dn2011.dta") -> dn2011
dn2011 %>%
# Đổi tên biến
rename(isic5 = nganh_kd,
province = tinh) %>%
# Tạo biến isic4 và isic2 từ isic5
mutate(
isic4 = str_sub(isic5, 1, 4),
isic2 = str_sub(isic5, 1, 2)
) %>%
# Đếm số doanh nghiệp theo tỉnh và ngành 2 chữ số
group_by(province, isic2) %>%
summarise(number = n()) -> dataVsic2Province
dataVsic2Province %>%
group_by(province) %>%
summarise(n_firms = sum(number)) -> numberFirmsProvince
#=========================
# R codes cho mapping
#=========================
# Lấy dữ liệu mapping cho Việt Nam:
library(geodata)
vietnam_province <- gadm(country = "VNM", level = 1, path = tempdir())
#-------------------------------------
# Cách 1: sử dụng hàm geom_sf()
# https://ggplot2-book.org/maps.html
#-------------------------------------
library(sf)
vietnam_sf <- st_as_sf(vietnam_province)
# Sử dụng hàm geom_sf():
ggplot(vietnam_sf) +
geom_sf(aes(fill = VARNAME_1)) +
theme_minimal() +
labs(title = "Bản đồ các tỉnh Việt Nam, geom_sf()") -> mapC1
mapC1