
Motivations
Dear M,
Econometrics là môn học quan trọng (ít nhất là cho những ai định
hướng theo đuổi bậc học sau đại học). Đối với hầu hết sinh viên, kể cả
theo học ngành kinh tế, thì đây vẫn được coi là môn học khó. Textbook về
môn học này thì nhiều. Ở Việt Nam có thể dễ dàng tìm được những
textbooks nổi tiếng (chỉ nêu tên một số sách) của Gurajati,
Woodbridge,
Green,
và Hill.
Trong số các textbooks này thì cuốn của Green dành cho bậc sau đại
học nên nặng về phần toán. Sách của Gurajati và Woodbridge dành cho bậc
đại học (Undergraduate) nhưng rất dày (đều trên 900 trang) và còn cả
những mảng chuyên sâu về Panel Data và Time Series - những phần thường
không được lựa chọn để giảng dạy môn học này cho bậc đại học khối ngành
kinh tế ở hầu hết các đại học Việt Nam. Do vậy cuốn sách của Hill (chỉ
380 trang) tỏ ra là phù hợp hơn cả: không quá dài, trực quan dễ hình
dung, và còn giải thích chi tiết cái gốc Thống Kê của môn học này.
Post này được viết để bạn có thể sử dụng textbook này một cách nhanh
chóng.
Graph Section
Trước hết bạn nên load toàn bộ data của textbook này tại đây.
Graph là một phần quan trọng của môn học này. Chúng ta có thể tái lập
lại Figure 3.6 được trình bày tại trang 51 của giáo trình này với ngôn
ngữ R như sau:
# Clear R our environment:
rm(list = ls())
# Load data (from http://www.econometrics.com/comdata/hill/data.html):
read.table("http://www.econometrics.com/comdata/hill/TAB3-1.shd", header = TRUE) -> exp_income_data
# Load some R packages:
library(dplyr) # For data processing.
library(ggplot2) # For data visualization.
# Replicate figure 3.6 (page 51):
exp_income_data %>%
ggplot(aes(x = x, y = y)) +
geom_point() +
labs(x = "Income", y = "Expenditure",
title = "Figure 3.6: Expenditure-Income Relationship",
subtitle = "Note: Replicate graph created by Hill et all. (2001)",
caption = "Source: http://principlesofeconometrics.com/ue2/ue2.htm")

Econometric Model
Giả sử chúng ta đề xuất mô hình kinh tế lượng dưới đây nhằm đánh giá
mối quan hệ giữa thu nhập và chi tiêu:
\[Expenditure_i = \beta_0 + \beta_1
Income_{i} + u_i \ , \ i=1,\dots,n.\] Dưới đây là R codes ước
lượng các hệ số hồi quy của mô hình trên:
# Estimate coefficients:
lm(data = exp_income_data, y ~ x) -> ols_model
# Present results:
library(stargazer)
stargazer(ols_model,
title = "Table 3.6: Regression Results",
type = "text",
align = TRUE)
##
## Table 3.6: Regression Results
## ===============================================
## Dependent variable:
## ---------------------------
## y
## -----------------------------------------------
## x 0.128***
## (0.031)
##
## Constant 40.768*
## (22.139)
##
## -----------------------------------------------
## Observations 40
## R2 0.317
## Adjusted R2 0.299
## Residual Std. Error 37.805 (df = 38)
## F Statistic 17.647*** (df = 1; 38)
## ===============================================
## Note: *p<0.1; **p<0.05; ***p<0.01
Đây chính là kết quả được trình bày trong textbook bằng phần mềm SAS
tại trang 57.
Đương nhiên chúng ta có thể bổ sung thêm cả Regression Line màu đỏ
với khoảng tin cậy 95% như sau:
# Add regression line:
exp_income_data %>%
ggplot(aes(x = x, y = y)) +
geom_point() +
geom_smooth(method = "lm", color = "red") +
labs(x = "Income", y = "Expenditure",
title = "Figure 3.6: Expenditure-Income Relationship",
subtitle = "Note: Replicate graph created by Hill et all. (2001)",
caption = "Source: http://principlesofeconometrics.com/ue2/ue2.htm")

Basic Econometrics
Đây cũng là một textbook nhập môn rất hay (và rất dày) của Gujarati.
Sách này có thể download tại
đây. Data của textbook có thể download tại
đây. Theo truyền thống tì textbook này sử dụng phần mềm Eviews (với
các file dữ liệu có đuôi là .wf1). Dưới đây là một bộ số liệu được trình
bày ở trang 24:

Load bộ dữ liệu Eviews này vào R:
# Load hexView packege for importing Eviews files:
library(hexView)
# Load data:
readEViews("table1-1.wf1") -> table1_1_p24
# Show some observations:
head(table1_1_p24)
## Date Y1 Y2 Y3 Y4 GROUP01 TABLE01
## 1 0001-01-01 2206.0 2186.0 92.7 91.4 1.807873e-308 6.953356e-309
## 2 0002-01-01 0.7 0.7 151.0 149.0 3.013522e-315 0.000000e+00
## 3 0003-01-01 73.0 74.0 61.0 56.0 2.215260e+214 1.244442e-309
## 4 0004-01-01 3620.0 3737.0 86.3 91.8 8.165349e+141 3.204296e-306
## 5 0005-01-01 7472.0 7444.0 63.4 58.4 9.780788e+24 2.758637e-312
## 6 0006-01-01 788.0 873.0 77.8 73.0 3.068373e+257 0.000000e+00
Giáo trình này còn cung cấp dữ liệu ở dạng .txt. Chúng ta cũng có thể
load bộ dữ liệu trên ở định dạng này vào R như sau:
# Load data from .txt files:
read.table("Table 1.1.txt", header = TRUE, skip = 7) -> table1_1_p24_from_txt
# Show some observations:
head(table1_1_p24_from_txt)
## STATE Y1 Y2 X1 X2
## 1 AL 2206.0 2186.0 92.7 91.4
## 2 AK 0.7 0.7 151.0 149.0
## 3 AZ 73.0 74.0 61.0 56.0
## 4 AR 3620.0 3737.0 86.3 91.8
## 5 CA 7472.0 7444.0 63.4 58.4
## 6 CO 788.0 873.0 77.8 73.0
Cách khác là chúng ta load bất kì bộ số liệu nào
(được giáo trình này sử dụng) từ package gujarati. Trước hết
cài đặt package này như sau:
# Install remotes package for using install_github() command:
install.packages("remotes")
# Install gujarati package:
remotes::install_github("brunoruas2/gujarati")
Đến đây chúng ta có thể sử dụng bất bì bộ dữ liệu nào được nhắc đến
trong giáo trình này, ví dụ:
# Load gujarati package:
library(gujarati)
# Load data from gujatati package:
data("Table1_1")
# Show some observations:
head(Table1_1)
## STATE Y1 Y2 X1 X2
## 1 AL 2206 2186 92.7 91.4
## 2 AK 0.7 0.7 151 149
## 3 AZ 73 74 61 56
## 4 AR 3620 3737 86.3 91.8
## 5 CA 7472 7444 63.4 58.4
## 6 CO 788 873 77.8 73
Cái hay là những dữ liệu load từ package này có mô tả đầy đủ. R codes
để có thông tin về bộ dữ liệu như sau:

Dưới đây là Example 3.1 được trình bày tại trang 81:

Chúng ta có thể tái lập lại kết quả ở Example 3.1 như sau:
# Load data:
data("TableI_1")
Tác giả của gói gujarati có lẽ gặp lỗi nào đó khi viết package này
khiến cho những variables của bộ dữ liệu này đang là factor. Do vậy cần
convert về numeric cho phù hợp với bản chất của các biến:
TableI_1 %>%
mutate(PCE = as.numeric(as.character(PCE.Y.)),
GDP = as.numeric(as.character(GDP.X.)),
time = as.numeric(as.character(Year))) -> TableI_1
Với data đã được xử lí chúng ta có thể thực hiện ước lượng cho mô
hình và trình bày kết quả:
# Estimate coefficients:
lm(data = TableI_1, PCE ~ GDP) -> my_ols
# Present results:
stargazer(my_ols,
title = "Example 3.1 (Gujarati Textbook): Regression Results",
type = "text",
align = TRUE)
##
## Example 3.1 (Gujarati Textbook): Regression Results
## ===============================================
## Dependent variable:
## ---------------------------
## PCE
## -----------------------------------------------
## GDP 0.722***
## (0.004)
##
## Constant -299.591***
## (28.765)
##
## -----------------------------------------------
## Observations 46
## R2 0.998
## Adjusted R2 0.998
## Residual Std. Error 73.567 (df = 44)
## F Statistic 26,630.330*** (df = 1; 44)
## ===============================================
## Note: *p<0.1; **p<0.05; ***p<0.01
Hoặc trình bày kết quả theo một cách khác:
##
## Call:
## lm(formula = PCE ~ GDP, data = TableI_1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -151.094 -50.358 -6.161 37.199 165.532
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -2.996e+02 2.876e+01 -10.41 1.88e-13 ***
## GDP 7.218e-01 4.423e-03 163.19 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 73.57 on 44 degrees of freedom
## Multiple R-squared: 0.9984, Adjusted R-squared: 0.9983
## F-statistic: 2.663e+04 on 1 and 44 DF, p-value: < 2.2e-16
Final Notes
Sử dụng R cho mục đích khiêm tốn là giảng dạy Econometrics không quá
khó khăn như hình dung ban đầu. Lại có nhiều lợi thế khác. Chẳng hạn như
có thể tạo ra bài giảng, slide luôn.
