Motivations

Dear M,

Econometrics là môn học quan trọng (ít nhất là cho những ai định hướng theo đuổi bậc học sau đại học). Đối với hầu hết sinh viên, kể cả theo học ngành kinh tế, thì đây vẫn được coi là môn học khó. Textbook về môn học này thì nhiều. Ở Việt Nam có thể dễ dàng tìm được những textbooks nổi tiếng (chỉ nêu tên một số sách) của Gurajati, Woodbridge, Green, và Hill.

Trong số các textbooks này thì cuốn của Green dành cho bậc sau đại học nên nặng về phần toán. Sách của Gurajati và Woodbridge dành cho bậc đại học (Undergraduate) nhưng rất dày (đều trên 900 trang) và còn cả những mảng chuyên sâu về Panel Data và Time Series - những phần thường không được lựa chọn để giảng dạy môn học này cho bậc đại học khối ngành kinh tế ở hầu hết các đại học Việt Nam. Do vậy cuốn sách của Hill (chỉ 380 trang) tỏ ra là phù hợp hơn cả: không quá dài, trực quan dễ hình dung, và còn giải thích chi tiết cái gốc Thống Kê của môn học này.

Post này được viết để bạn có thể sử dụng textbook này một cách nhanh chóng.

Graph Section

Trước hết bạn nên load toàn bộ data của textbook này tại đây. Graph là một phần quan trọng của môn học này. Chúng ta có thể tái lập lại Figure 3.6 được trình bày tại trang 51 của giáo trình này với ngôn ngữ R như sau:

# Clear R our environment: 

rm(list = ls())

# Load data (from http://www.econometrics.com/comdata/hill/data.html): 

read.table("http://www.econometrics.com/comdata/hill/TAB3-1.shd", header = TRUE) -> exp_income_data

# Load some R packages: 

library(dplyr) # For data processing. 
library(ggplot2) # For data visualization. 

# Replicate figure 3.6 (page 51): 

exp_income_data %>% 
  ggplot(aes(x = x, y = y)) + 
  geom_point() + 
  labs(x = "Income", y = "Expenditure", 
       title = "Figure 3.6: Expenditure-Income Relationship", 
       subtitle = "Note: Replicate graph created by Hill et all. (2001)", 
       caption = "Source: http://principlesofeconometrics.com/ue2/ue2.htm")

Econometric Model

Giả sử chúng ta đề xuất mô hình kinh tế lượng dưới đây nhằm đánh giá mối quan hệ giữa thu nhập và chi tiêu:

\[Expenditure_i = \beta_0 + \beta_1 Income_{i} + u_i \ , \ i=1,\dots,n.\] Dưới đây là R codes ước lượng các hệ số hồi quy của mô hình trên:

# Estimate coefficients: 

lm(data = exp_income_data, y ~ x) -> ols_model

# Present results: 

library(stargazer)

stargazer(ols_model,  
          title = "Table 3.6: Regression Results",
          type = "text", 
          align = TRUE)
## 
## Table 3.6: Regression Results
## ===============================================
##                         Dependent variable:    
##                     ---------------------------
##                                  y             
## -----------------------------------------------
## x                            0.128***          
##                               (0.031)          
##                                                
## Constant                      40.768*          
##                              (22.139)          
##                                                
## -----------------------------------------------
## Observations                    40             
## R2                             0.317           
## Adjusted R2                    0.299           
## Residual Std. Error      37.805 (df = 38)      
## F Statistic           17.647*** (df = 1; 38)   
## ===============================================
## Note:               *p<0.1; **p<0.05; ***p<0.01

Đây chính là kết quả được trình bày trong textbook bằng phần mềm SAS tại trang 57.

Đương nhiên chúng ta có thể bổ sung thêm cả Regression Line màu đỏ với khoảng tin cậy 95% như sau:

# Add regression line: 

exp_income_data %>% 
  ggplot(aes(x = x, y = y)) + 
  geom_point() + 
  geom_smooth(method = "lm", color = "red") + 
  labs(x = "Income", y = "Expenditure", 
       title = "Figure 3.6: Expenditure-Income Relationship", 
       subtitle = "Note: Replicate graph created by Hill et all. (2001)", 
       caption = "Source: http://principlesofeconometrics.com/ue2/ue2.htm")

Basic Econometrics

Đây cũng là một textbook nhập môn rất hay (và rất dày) của Gujarati. Sách này có thể download tại đây. Data của textbook có thể download tại đây. Theo truyền thống tì textbook này sử dụng phần mềm Eviews (với các file dữ liệu có đuôi là .wf1). Dưới đây là một bộ số liệu được trình bày ở trang 24:

Load bộ dữ liệu Eviews này vào R:

# Load hexView packege for importing Eviews files: 

library(hexView)

# Load data: 

readEViews("table1-1.wf1") -> table1_1_p24

# Show some observations: 

head(table1_1_p24)
##         Date     Y1     Y2    Y3    Y4       GROUP01       TABLE01
## 1 0001-01-01 2206.0 2186.0  92.7  91.4 1.807873e-308 6.953356e-309
## 2 0002-01-01    0.7    0.7 151.0 149.0 3.013522e-315  0.000000e+00
## 3 0003-01-01   73.0   74.0  61.0  56.0 2.215260e+214 1.244442e-309
## 4 0004-01-01 3620.0 3737.0  86.3  91.8 8.165349e+141 3.204296e-306
## 5 0005-01-01 7472.0 7444.0  63.4  58.4  9.780788e+24 2.758637e-312
## 6 0006-01-01  788.0  873.0  77.8  73.0 3.068373e+257  0.000000e+00

Giáo trình này còn cung cấp dữ liệu ở dạng .txt. Chúng ta cũng có thể load bộ dữ liệu trên ở định dạng này vào R như sau:

# Load data from .txt files: 

read.table("Table 1.1.txt", header = TRUE, skip = 7) -> table1_1_p24_from_txt

# Show some observations: 

head(table1_1_p24_from_txt)
##   STATE     Y1     Y2    X1    X2
## 1    AL 2206.0 2186.0  92.7  91.4
## 2    AK    0.7    0.7 151.0 149.0
## 3    AZ   73.0   74.0  61.0  56.0
## 4    AR 3620.0 3737.0  86.3  91.8
## 5    CA 7472.0 7444.0  63.4  58.4
## 6    CO  788.0  873.0  77.8  73.0

Cách khác là chúng ta load bất kì bộ số liệu nào (được giáo trình này sử dụng) từ package gujarati. Trước hết cài đặt package này như sau:

# Install remotes package for using install_github() command: 
install.packages("remotes")

# Install gujarati package: 
remotes::install_github("brunoruas2/gujarati")

Đến đây chúng ta có thể sử dụng bất bì bộ dữ liệu nào được nhắc đến trong giáo trình này, ví dụ:

# Load gujarati package: 

library(gujarati)

# Load data from gujatati package: 
data("Table1_1")

# Show some observations: 

head(Table1_1)
##   STATE   Y1   Y2   X1   X2
## 1    AL 2206 2186 92.7 91.4
## 2    AK  0.7  0.7  151  149
## 3    AZ   73   74   61   56
## 4    AR 3620 3737 86.3 91.8
## 5    CA 7472 7444 63.4 58.4
## 6    CO  788  873 77.8   73

Cái hay là những dữ liệu load từ package này có mô tả đầy đủ. R codes để có thông tin về bộ dữ liệu như sau:

?Table1_1

Dưới đây là Example 3.1 được trình bày tại trang 81:

Chúng ta có thể tái lập lại kết quả ở Example 3.1 như sau:

# Load data: 

data("TableI_1")

Tác giả của gói gujarati có lẽ gặp lỗi nào đó khi viết package này khiến cho những variables của bộ dữ liệu này đang là factor. Do vậy cần convert về numeric cho phù hợp với bản chất của các biến:

TableI_1 %>% 
  mutate(PCE = as.numeric(as.character(PCE.Y.)), 
         GDP = as.numeric(as.character(GDP.X.)), 
         time = as.numeric(as.character(Year))) -> TableI_1

Với data đã được xử lí chúng ta có thể thực hiện ước lượng cho mô hình và trình bày kết quả:

# Estimate coefficients: 

lm(data = TableI_1, PCE ~ GDP) -> my_ols

# Present results: 

stargazer(my_ols,  
          title = "Example 3.1 (Gujarati Textbook): Regression Results",
          type = "text", 
          align = TRUE)
## 
## Example 3.1 (Gujarati Textbook): Regression Results
## ===============================================
##                         Dependent variable:    
##                     ---------------------------
##                                 PCE            
## -----------------------------------------------
## GDP                          0.722***          
##                               (0.004)          
##                                                
## Constant                    -299.591***        
##                              (28.765)          
##                                                
## -----------------------------------------------
## Observations                    46             
## R2                             0.998           
## Adjusted R2                    0.998           
## Residual Std. Error      73.567 (df = 44)      
## F Statistic         26,630.330*** (df = 1; 44) 
## ===============================================
## Note:               *p<0.1; **p<0.05; ***p<0.01

Hoặc trình bày kết quả theo một cách khác:

summary(my_ols)
## 
## Call:
## lm(formula = PCE ~ GDP, data = TableI_1)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -151.094  -50.358   -6.161   37.199  165.532 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -2.996e+02  2.876e+01  -10.41 1.88e-13 ***
## GDP          7.218e-01  4.423e-03  163.19  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 73.57 on 44 degrees of freedom
## Multiple R-squared:  0.9984, Adjusted R-squared:  0.9983 
## F-statistic: 2.663e+04 on 1 and 44 DF,  p-value: < 2.2e-16

Final Notes

Sử dụng R cho mục đích khiêm tốn là giảng dạy Econometrics không quá khó khăn như hình dung ban đầu. Lại có nhiều lợi thế khác. Chẳng hạn như có thể tạo ra bài giảng, slide luôn.

