# ĐỌC DỮ LIỆU
library(readxl)
d <- read_excel("/Users/hotranhongnga/Downloads/UFM/HK3-2025/Kinh tế lượng trong phân tích tài chính/World Development Indicators.xlsx")
str(d)## tibble [21 × 6] (S3: tbl_df/tbl/data.frame)
## $ Year: num [1:21] 2003 2004 2005 2006 2007 ...
## $ GDP : chr [1:21] "395525132319169" "454278546932554" "576332557381992" "663716648170436" ...
## $ INV : num [1:21] 3.54e+13 3.55e+12 3.38e+14 3.45e+14 3.96e+14 ...
## $ CONS: num [1:21] 6.63e+14 6.51e+14 6.55e+14 6.51e+14 6.81e+14 ...
## $ EXP : num [1:21] 5.67e+14 5.97e+14 6.37e+14 6.77e+14 7.05e+13 ...
## $ INF : chr [1:21] "323464817293926" "775494748709601" "828457243128677" "741801715108463" ...
## tibble [21 × 6] (S3: tbl_df/tbl/data.frame)
## $ Year: num [1:21] 2003 2004 2005 2006 2007 ...
## $ GDP : num [1:21] 3.96e+14 4.54e+14 5.76e+14 6.64e+14 7.74e+14 ...
## $ INV : num [1:21] 3.54e+13 3.55e+12 3.38e+14 3.45e+14 3.96e+14 ...
## $ CONS: num [1:21] 6.63e+14 6.51e+14 6.55e+14 6.51e+14 6.81e+14 ...
## $ EXP : num [1:21] 5.67e+14 5.97e+14 6.37e+14 6.77e+14 7.05e+13 ...
## $ INF : num [1:21] 3.23e+14 7.75e+14 8.28e+14 7.42e+14 8.34e+14 ...
Báo cáo thực hiện phân tích hồi quy tuyến tính bội nhằm đánh giá tác động của các yếu tố kinh tế như đầu tư (INV), tiêu dùng (CONS), xuất khẩu (EXP) và lạm phát (INF) đến tăng trưởng GDP của Việt Nam giai đoạn 2003–2023.
Dữ liệu được thu thập từ World Bank, gồm 5 biến chính:
Biến:
GDP: Tổng sản phẩm quốc nội (USD)
INV: Tổng đầu tư (USD)
CONS: Tiêu dùng hộ gia đình (USD)
EXP: Xuất khẩu hàng hóa & dịch vụ (USD)
INF: Lạm phát (%)
##
## Call:
## lm(formula = GDP ~ INV + CONS + EXP + INF, data = d)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4.715e+14 -1.087e+14 3.932e+13 1.183e+14 2.731e+14
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.193e+15 5.460e+14 -2.186 0.04406 *
## INV 1.439e-01 3.283e-01 0.438 0.66704
## CONS 2.845e+00 8.929e-01 3.186 0.00575 **
## EXP -1.591e-01 1.855e-01 -0.857 0.40383
## INF -1.957e-01 1.742e-01 -1.123 0.27782
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.976e+14 on 16 degrees of freedom
## Multiple R-squared: 0.4207, Adjusted R-squared: 0.2759
## F-statistic: 2.905 on 4 and 16 DF, p-value: 0.05534
Mô hình hồi quy tuyến tính bội được xây dựng như sau:
\[ GDP_t = \beta_0 + \beta_1 INV_t + \beta_2 CONS_t + \beta_3 EXP_t + \beta_4 INF_t + u_t \]
Trong đó:
Diễn giải kết quả:
Hệ số chặn
Tiêu dùng (\(CONS_t\))
Đầu tư (\(INV_t\))
Xuất khẩu (\(EXP_t\)) và Lạm phát (\(INF_t\))
Đánh giá độ phù hợp của mô hình
| Chỉ số | Giá trị | Nhận xét |
|---|---|---|
| \(R^2\) | 0.4207 | Mô hình giải thích được 42% biến động GDP |
| \(R^2_{adj}\) | 0.2759 | Sau điều chỉnh theo số biến, còn khoảng 27% |
| F-statistic | 2.905 (p = 0.055) | Mức ý nghĩa 5%, mô hình gần đạt ý nghĩa chung |
Kết luận: Mô hình tạm chấp nhận được, nhưng chưa mạnh.
Dùng log để ổn định dữ liệu
Vì các biến \(GDP, INV, CONS, EXP\) có giá trị lớn, nên có thể log hóa để giảm độ lệch thang đo:
d$logGDP <- log(d$GDP)
d$logINV <- log(d$INV)
d$logCONS <- log(d$CONS)
d$logEXP <- log(d$EXP)
model_log <- lm(logGDP ~ logINV + logCONS + logEXP + INF, data = d)
summary(model_log)##
## Call:
## lm(formula = logGDP ~ logINV + logCONS + logEXP + INF, data = d)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6.1419 -0.2444 0.3110 0.6604 1.3132
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.810e+02 1.657e+02 -1.093 0.291
## logINV -1.223e-01 3.009e-01 -0.407 0.690
## logCONS 6.812e+00 4.825e+00 1.412 0.177
## logEXP -3.791e-01 4.989e-01 -0.760 0.458
## INF -1.735e-15 1.487e-15 -1.167 0.261
##
## Residual standard error: 1.726 on 16 degrees of freedom
## Multiple R-squared: 0.1694, Adjusted R-squared: -0.03825
## F-statistic: 0.8158 on 4 and 16 DF, p-value: 0.5335
Kết quả mô hình log-linear
Sau khi log biến \(GDP, INV, CONS, EXP\), mô hình hồi quy được viết lại như sau:
\[ \ln(GDP_t) = \beta_0 + \beta_1 \ln(INV_t) + \beta_2 \ln(CONS_t) + \beta_3 \ln(EXP_t) + \beta_4 INF_t + u_t \]
| Biến | Hệ số ước lượng | Sai số chuẩn | t-value | p-value | Kết luận |
|---|---|---|---|---|---|
| (Intercept) | -181.0 | 165.7 | -1.093 | 0.291 | Không ý nghĩa |
| \(\ln(INV_t)\) | -0.122 | 0.301 | -0.407 | 0.690 | Không ý nghĩa |
| \(\ln(CONS_t)\) | 6.812 | 4.825 | 1.412 | 0.177 | Không ý nghĩa |
| \(\ln(EXP_t)\) | -0.379 | 0.499 | -0.760 | 0.458 | Không ý nghĩa |
| \(INF_t\) | -1.735×10^{-15} | 1.487×10^{-15} | -1.167 | 0.261 | Không ý nghĩa |
| Chỉ số | Giá trị | Nhận xét |
|---|---|---|
| \(R^2\) | 0.169 | Mô hình giải thích được ~17% biến động của \(\ln(GDP)\) |
| \(R^2_{adj}\) | -0.038 | Sau điều chỉnh theo số biến, gần như không còn ý nghĩa |
| F-statistic | 0.816 (p = 0.5335) | Mô hình không có ý nghĩa thống kê chung |
Cả bốn biến độc lập \(\ln(INV_t), \ln(CONS_t), \ln(EXP_t), INF_t\) đều có p-value > 0.05, nghĩa là không có tác động có ý nghĩa thống kê đến GDP trong mô hình log-linear này.
Dấu của hệ số \(\ln(CONS_t)\) vẫn dương, cho thấy tiêu dùng vẫn có xu hướng đồng biến với GDP, nhưng kết quả chưa đủ mạnh do kích thước mẫu nhỏ.
Các hệ số còn lại mang dấu âm (đầu tư, xuất khẩu, lạm phát), có thể phản ánh hiện tượng đa cộng tuyến hoặc cấu trúc dữ liệu chưa ổn định.
Mô hình log-linear cho thấy không có biến nào đạt ý nghĩa thống kê ở mức 5%, và giá trị \(R^2\) thấp (0.17) cho thấy mô hình chưa phản ánh tốt biến động GDP của Việt Nam trong giai đoạn 2003–2023.
Có thể do: Dữ liệu có cỡ mẫu nhỏ (21 quan sát); GDP, INV, CONS, EXP cùng tăng theo xu hướng thời gian → cần loại bỏ xu thế hoặc thêm biến trễ (AR term); Lạm phát có biên độ thấp → ít tác động trong giai đoạn nghiên cứu.
Kiểm định được thực hiện để xem các biến độc lập trong mô hình có
tương quan tuyến tính mạnh với nhau hay không.
Nếu hệ số phóng đại phương sai \(\text{VIF}
> 10\), hiện tượng đa cộng tuyến nghiêm trọng
có thể xảy ra.
Công thức xác định VIF:
\[ VIF_j = \frac{1}{1 - R_j^2} \] Trong đó: - \(R_j^2\) là hệ số xác định khi biến \(X_j\) được hồi quy theo các biến độc lập còn lại.
Kết quả kiểm định VIF
Nhận xét:
Tất cả giá trị VIF<2, nhỏ hơn ngưỡng cảnh báo (10). Điều này cho thấy các biến độc lập trong mô hình log-linear không có hiện tượng đa cộng tuyến đáng kể.
Kết luận: Các biến độc lập có mức tương quan chấp nhận được, không ảnh hưởng tiêu cực đến ước lượng của mô hình.
Kiểm định phương sai thay đổi nhằm xác định xem phần dư \(u_t\) có phương sai không đổi hay
không.
Nếu phương sai của sai số thay đổi theo giá trị của biến độc lập, mô
hình vi phạm giả định Gauss–Markov và ước lượng OLS sẽ không hiệu
quả.
Phương pháp kiểm định sử dụng: Breusch–Pagan Test.
Công thức kiểm định:
\[ H_0: \operatorname{Var}(u_t) = \sigma^2 \quad \text{(phương sai không đổi)} \\ H_1: \operatorname{Var}(u_t) = \sigma^2 f(X_t) \quad \text{(phương sai thay đổi theo } X_t) \]
##
## studentized Breusch-Pagan test
##
## data: model_log
## BP = 2.2309, df = 4, p-value = 0.6934
Diễn giải kết quả
Kết luận: Kết quả kiểm định cho thấy p-value > 0.05, do đó mô hình log-linear đạt giả định phương sai không đổi.
Kiểm tra xem các sai số ( u_t ) có tương quan theo thời gian hay không.
Phương pháp kiểm định: Durbin–Watson Test.
Công thức:
\[ DW = \frac{\sum_{t=2}^{n} (e_t - e_{t-1})^2}{\sum_{t=1}^{n} e_t^2} \]
Giá trị Durbin–Watson nằm trong khoảng từ 0 đến 4:
Diễn giải kết quả
Kết luận: Kết quả kiểm định cho thấy p-value lớn hơn 0.05, do đó mô hình log-linear không vi phạm giả định tự tương quan. Điều này cho thấy sai số của mô hình được phân bố ngẫu nhiên, phù hợp với giả định của phương pháp OLS.
Kiểm tra xem mô hình tuyến tính đã chọn có bị thiếu biến hoặc sai dạng hàm hay không. Nếu mô hình thiếu các hàm số của biến dự báo (ví dụ bình phương, đa thức, tương tác, log, v.v.), thì phần dư sẽ mang cấu trúc có hệ thức theo các lũy thừa của giá trị dự báo.
Giả thuyết kiểm định \[ H_0: \text{Mô hình không thiếu biến / dạng hàm đúng (không cần các hàm đa thức bổ sung)} \\ H_1: \text{Mô hình thiếu biến / sai dạng hàm} \]
# Nếu chưa cài/lấy package
if(!require(lmtest)) install.packages("lmtest")
library(lmtest)
# Kiểm định Ramsey RESET
reset_res <- resettest(model_log, power = 2:3, type = "fitted")
# power = 2:3 kiểm tra các lũy thừa bậc 2 và 3 của giá trị dự báo
reset_res##
## RESET test
##
## data: model_log
## RESET = 0.15374, df1 = 2, df2 = 14, p-value = 0.8589
Giải thích:
Với \(p = 0.8589 > 0.05\), ta không đủ bằng chứng để bác bỏ giả thuyết \(H_0\), nghĩa là mô hình hiện tại được xác định đúng dạng hàm và không thiếu biến quan trọng.
Kết luận: Mô hình log-linear đã đạt các giả định cơ bản của hồi quy tuyến tính (không đa cộng tuyến, không phương sai thay đổi, không tự tương quan và không sai dạng hàm). Do đó, mô hình này có thể sử dụng để dự báo GDP cho các năm tiếp theo.
Để xác định mô hình có độ phù hợp cao nhất, tiến hành so sánh mô hình gốc và log-linear dựa trên các tiêu chí AIC (Akaike Information Criterion) và BIC (Bayesian Information Criterion).
model_goc <- lm(GDP ~ INV + CONS + EXP + INF, data = d)
model_log <- lm(logGDP ~ logINV + logCONS + logEXP + INF, data = d)
AIC(model_goc, model_log)Kết quả so sánh các mô hình
| Mô hình | df | AIC | BIC |
|---|---|---|---|
| Mô hình tuyến tính gốc | 6 | 1448.42 | 1454.68 |
| Mô hình log-linear | 6 | 88.81 | 95.08 |
Giải thích:
Kết luận:
Mô hình log-linear \(\ln(GDP_t) = \beta_0 + \beta_1 \ln(INV_t) + \beta_2 \ln(CONS_t) + \beta_3 \ln(EXP_t) + \beta_4 INF_t + u_t\)
được lựa chọn là mô hình tối ưu để phân tích và dự báo GDP Việt Nam, vì:
- Thỏa mãn tất cả các giả định hồi quy tuyến tính (không đa cộng tuyến, không phương sai thay đổi, không tự tương quan, đúng dạng hàm).
- Có giá trị AIC và BIC thấp nhất, thể hiện khả năng mô tả dữ liệu tốt nhất.
- Dạng log giúp ổn định phương sai và cho phép diễn giải theo phần trăm (% thay đổi của các biến).
Sau khi lựa chọn mô hình log-linear là mô hình tối ưu, ta tiến hành dự báo giá trị GDP Việt Nam năm 2024 dựa trên các giá trị giả định của các biến độc lập.
| Biến | Ký hiệu | Giá trị giả định | Giải thích |
|---|---|---|---|
| Tổng đầu tư | \(INV_{2024}\) | 3.2 × 10¹⁴ | Đầu tư tăng nhẹ so với 2023 |
| Tiêu dùng hộ gia đình | \(CONS_{2024}\) | 7.2 × 10¹⁴ | Tiêu dùng tiếp tục mở rộng |
| Xuất khẩu | \(EXP_{2024}\) | 6.9 × 10¹⁴ | Xuất khẩu phục hồi ổn định |
| Lạm phát | \(INF_{2024}\) | 3.5 | Duy trì mức ổn định |
newdata <- data.frame(
logINV = log(3.2e14),
logCONS = log(7.2e14),
logEXP = log(6.9e14),
INF = 3.5
)
# Dự báo log(GDP) và khoảng tin cậy 95%
pred_2024 <- predict(model_log, newdata, interval = "prediction")
pred_2024## fit lwr upr
## 1 34.95953 30.29636 39.62269
| Loại giá trị | \(\ln(GDP_{2024})\) | \(GDP_{2024}\) (USD) |
|---|---|---|
| Dự báo trung bình | 34.9595 | \(e^{34.9595} \approx 1.58 \times 10^{15}\) |
| Khoảng dự báo thấp | 30.2964 | \(e^{30.2964} \approx 1.08 \times 10^{13}\) |
| Khoảng dự báo cao | 39.6227 | \(e^{39.6227} \approx 1.58 \times 10^{17}\) |
Giải thích kết quả:
Mô hình log-linear dự báo rằng GDP Việt Nam năm 2024 đạt trung bình khoảng: \[ GDP_{2024} \approx 1.58 \times 10^{15} \, \text{USD} \] với khoảng tin cậy 95% dao động từ \(1.08 \times 10^{13}\) đến \(1.58 \times 10^{17}\).
Nhận xét: - Khoảng dự báo khá rộng, phản ánh độ không chắc chắn cao do cỡ mẫu nhỏ và mô hình đơn giản. Tuy nhiên, giá trị trung bình vẫn hợp lý so với xu hướng tăng của GDP trong giai đoạn 2003–2023. Kết quả củng cố rằng mô hình log-linear phản ánh được xu hướng tăng trưởng GDP, nhưng chưa đủ mạnh để dự báo chính xác về quy mô tuyệt đối.
Kết luận phần dự báo:
Mô hình log-linear cho thấy GDP Việt Nam năm 2024 có xu hướng tiếp tục tăng trưởng, phù hợp với giả định về tăng đầu tư, tiêu dùng và xuất khẩu, cùng mức lạm phát ổn định. Tuy nhiên, cần mở rộng dữ liệu (về thời gian hoặc thêm biến như lao động, vốn, hoặc công nghệ) để tăng độ tin cậy cho các dự báo tiếp theo.
Để trực quan hóa kết quả dự báo, ta tiến hành vẽ biểu đồ so sánh GDP thực tế (2003–2023) và GDP dự báo cho năm 2024 từ mô hình log-linear.
# Tạo cột GDP_pred nếu chưa có
if (!"GDP_pred" %in% names(d)) {
d$GDP_pred <- exp(fitted(model_log))
}
d_plot <- d[, c("Year", "GDP", "GDP_pred")]
new_row <- data.frame(
Year = 2024,
GDP = NA,
GDP_pred = exp(34.95953)
)
d_plot <- rbind(d_plot, new_row)ggplot(d_plot, aes(x = Year)) +
geom_line(aes(y = GDP, color = "GDP thực tế"), linewidth = 1.1, na.rm = TRUE) +
geom_line(aes(y = GDP_pred, color = "GDP dự báo (log-linear)"), linewidth = 1.1, linetype = "dashed", na.rm = TRUE) +
geom_point(data = subset(d_plot, Year == 2024), aes(y = GDP_pred), size = 3, color = "red") +
labs(
title = "So sánh GDP thực tế và GDP dự báo Việt Nam (2003–2024)",
subtitle = "Nguồn dữ liệu: World Bank; Mô hình: Hồi quy log-linear",
y = "GDP (USD)",
x = "Năm",
color = "Loại dữ liệu"
) +
theme_minimal(base_size = 13) +
theme(
plot.title = element_text(face = "bold", hjust = 0.5),
plot.subtitle = element_text(hjust = 0.5),
legend.position = "bottom"
)Biểu đồ trên thể hiện xu hướng tăng trưởng GDP của Việt Nam trong giai đoạn 2003–2023, cùng với giá trị GDP dự báo cho năm 2024 (điểm đỏ). Đường GDP dự báo (nét đứt) thể hiện xu hướng tiếp tục tăng, phù hợp với dự đoán từ mô hình log-linear.
Trên cơ sở dữ liệu kinh tế Việt Nam giai đoạn 2003–2023 được thu thập từ World Bank, báo cáo đã tiến hành phân tích bằng mô hình hồi quy tuyến tính bội và mô hình log-linear để đánh giá tác động của các yếu tố đầu tư (INV), tiêu dùng (CONS), xuất khẩu (EXP) và lạm phát (INF) đến tăng trưởng GDP.
Kết quả thực nghiệm cho thấy:
Mô hình log-linear là mô hình tối ưu, đáp ứng đầy đủ các giả định của hồi quy tuyến tính (không đa cộng tuyến, không phương sai thay đổi, không tự tương quan và đúng dạng hàm).
Trong mô hình tuyến tính ban đầu, tiêu dùng (CONS) là biến duy nhất có tác động dương và có ý nghĩa thống kê đến GDP Việt Nam (p < 0.01).
Các biến đầu tư (INV), xuất khẩu (EXP) và lạm phát (INF) tuy có dấu tác động hợp lý nhưng không có ý nghĩa thống kê, có thể do kích thước mẫu nhỏ (21 năm) và hiện tượng tương quan mạnh giữa các biến kinh tế vĩ mô.
Mô hình log-linear cho phép dự báo GDP năm 2024 ở mức trung bình
khoảng
\[
GDP_{2024} \approx 1.58 \times 10^{15} \, \text{USD},
\] phù hợp với xu hướng tăng trưởng của Việt Nam giai đoạn gần
đây.
Từ kết quả phân tích, có thể rút ra một số gợi ý chính sách như sau:
Thúc đẩy tiêu dùng nội địa: Vì tiêu dùng hộ gia đình có ảnh hưởng tích cực mạnh đến tăng trưởng GDP, Nhà nước nên tiếp tục hỗ trợ thu nhập khả dụng của người dân, mở rộng tín dụng tiêu dùng hợp lý và duy trì niềm tin thị trường.
Đẩy mạnh đầu tư hiệu quả: Dù đầu tư chưa thể hiện rõ ý nghĩa thống kê, nhưng vẫn là yếu tố quan trọng cho tăng trưởng dài hạn. Cần chú trọng hiệu quả đầu tư công, tăng tỷ lệ vốn cho hạ tầng và đổi mới công nghệ.
Ổn định lạm phát: Lạm phát ổn định quanh mức 3–4% giúp duy trì sức mua và kỳ vọng tích cực cho doanh nghiệp, phù hợp với kết quả mô hình.
Đa dạng hóa xuất khẩu: Dù biến xuất khẩu chưa thể hiện rõ tác động, nhưng việc mở rộng thị trường và gia tăng giá trị xuất khẩu có thể làm tăng vai trò của khu vực đối ngoại trong tăng trưởng GDP những năm tới.
Dữ liệu chỉ bao gồm 21 quan sát (2003–2023), nên mô hình có thể chưa đủ mạnh để khẳng định ý nghĩa thống kê cho tất cả biến.
Các yếu tố quan trọng khác như lao động, vốn, công nghệ,
năng suất chưa được đưa vào mô hình.
Hướng phát triển tiếp theo: mở rộng dữ liệu, áp dụng mô hình chuỗi thời gian động (ARDL, VAR, hoặc ECM) để nắm bắt độ trễ và mối quan hệ dài hạn giữa các biến kinh tế vĩ mô.