2024-7-26library(readxl)
dl <- read_excel("D:/data.xlsx")
dataCol <- dl[,c(1,3,4,5,6,7)]
thongke <- dl[,c(3:6)]
summary(thongke)
## MaCK DTT ROE TTS
## Length:200 Min. : 15911 Min. :-764.5700 Min. : 238708
## Class :character 1st Qu.: 117879 1st Qu.: 0.6575 1st Qu.: 789254
## Mode :character Median : 243814 Median : 2.4450 Median : 1412322
## Mean :1098784 Mean : 1.7418 Mean : 8300205
## 3rd Qu.:1398030 3rd Qu.: 6.7625 3rd Qu.: 4042116
## Max. :6327264 Max. : 427.5300 Max. :61821854
library(plm)
library(corrplot)
## corrplot 0.92 loaded
datapanel <- pdata.frame(dataCol, index = c("MaCK", "Thoigian"))
thongke <- data.frame(lapply(thongke, function(x) {
if (is.list(x)) {
x <- unlist(x)
}
as.numeric(x)
}))
## Warning in FUN(X[[i]], ...): NAs introduced by coercion
thongke <- na.omit(thongke)
mttq <- cor(thongke, method = 'pearson')
print(mttq)
## MaCK DTT ROE TTS
## MaCK NA NA NA NA
## DTT NA NA NA NA
## ROE NA NA NA NA
## TTS NA NA NA NA
if (any(is.na(mttq)) || any(is.nan(mttq)) || any(is.infinite(mttq))) {
mttq[is.na(mttq)] <- 0
mttq[is.nan(mttq)] <- 0
mttq[is.infinite(mttq)] <- 0
mttq <- mttq[complete.cases(mttq), complete.cases(mttq)]
}
print(dim(mttq))
## [1] 4 4
corrplot(mttq, type = "upper", order = "hclust", tl.col = "blue", tl.srt = 45)
dtt <- dataCol$DTT/100
roe <- dataCol$ROE
tts <- dataCol$TTS/100
dar <- dataCol$DAR
reg <- dtt ~ roe + tts + dar
Mô hình hồi quy Pooled – OLS: Hồi quy kết hợp tất cả các quan sát
Yit = β0 + β1X1it + β2X2it+. . . +βkXkit + uit
Trong đó:
Yit: biến phụ thuộc của quan sát i trong thời kỳ t
Xkit: Biến độc lập của quan sát i trong thời kì t
uit: sai số ngẫu nhiên
Mô hình Pooled – OLS là mô hình hồi quy gộp sử dụng dữ liệu bảng để phân tích. Mô hình này giả định rằng tất cả quan sát đều có quan hệ tuyến tính gữa biến độc lập và biến phụ thuộc.
Với mỗi đơn vị chéo, εi là yếu tố không quan sát được và không thay đổi theo thời gian, nó đặc trưng cho mỗi đơn vị chéo. Nếu εi tương quan với bất kỳ biến Xt nào thì ước lượng hồi quy từ hồi quy Y theo Xt sẽ bị ảnh hưởng chéo bởi những nhân tố không đồng nhất không quan sát được. Thậm chí, nếu εi không tương quan với bất kỳ một biến giải thích nào thì sự có mặt của nó cũng làm cho cho các ước lượng OLS không hiệu quả và sai số tiêu chuẩn không có hiệu lực
Nhược điểm mô hình Pooled – OLS: Ràng buộc quá chặt về đơn vị chéo, mô hình giả định phương sai sai số không đổi theo thời gian hoặc giữa các đơn vị, điều này trong thực tế khó có thể xảy ra, dẫn đến khi ước lượng có thể gặp nhiều khó khăn và ước lượng không chính xác và đáng tin cậy. Vì vậy, để khắc phục các nhược điểm đang mắc phải ở mô hình Pooled – OLS, mô hình FEM và REM được ưu tiên sử dụng.
pool_ols <- plm(reg, data = dataCol, nindex = c("MaCK","Thoigian"), model = "pooling")
summary(pool_ols)
## Pooling Model
##
## Call:
## plm(formula = reg, data = dataCol, model = "pooling", nindex = c("MaCK",
## "Thoigian"))
##
## Balanced Panel: n = 20, T = 10, N = 200
##
## Residuals:
## Min. 1st Qu. Median 3rd Qu. Max.
## -15749.3 -4578.1 -1614.1 3386.9 17936.5
##
## Coefficients:
## Estimate Std. Error t-value Pr(>|t|)
## (Intercept) 6.4768e+01 1.2645e+03 0.0512 0.9592003
## roe 8.9428e-01 7.7579e+00 0.1153 0.9083462
## tts 8.2838e-02 2.8137e-03 29.4413 < 2.2e-16 ***
## dar 7.5752e+03 2.1701e+03 3.4907 0.0005951 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Total Sum of Squares: 4.7618e+10
## Residual Sum of Squares: 8583900000
## R-Squared: 0.81973
## Adj. R-Squared: 0.81698
## F-statistic: 297.096 on 3 and 196 DF, p-value: < 2.22e-16
Kết quả hồi quy theo phương pháp Pool OLS, dựa vào giá trị p-value (Pr> |t|) cho thấy các yếu tố Tổng tài sản (TTS) và tỷ số nợ trên tổng tài sản (DAR) tác động đến doanh thu thuần (DTT) với mức ý nghĩa 5%. Bên cạnh đó, tỷ số lợi nhuận trên vốn chủ sở hữu (ROE) lại không có tác động đến doanh thu thuần (DTT)
Giá trị R2 (R-squared) là 0.81973 tức các biến độc lập trong mô hình Pool OLS giải thích được 81.97% sự biến thiên của biến phụ thuộc.
Mô hình FEM thường được áp dụng để kiểm tra tác động của các biến giải thích lên biến phụ thuộc, đồng thời kiểm soát các yếu tố không quan sát được và ổn định theo thời gian. FEM bổ sung các hiệu ứng cố định cho từng đơn vị trong mô hình hồi quy, tức là mỗi đơn vị có một hiệu ứng riêng biệt không thay đổi theo thời gian. Điều này giúp loại bỏ ảnh hưởng của các yếu tố không quan sát được và ổn định theo thời gian khỏi các biến giải thích, từ đó ước lượng chính xác ảnh hưởng thực sự của các biến giải thích lên biến phụ thuộc.
Mô hình ước lượng sử dụng:
Yit = βi + βXit + eit
Trong đó:
Yit: thời gian (năm)
Xit: Biến độc lập của quan sát i trong thời kì t
βi: hệ số chặn cho từng đơn vị nghiên cứu
β: hệ số góc đối với nhân tố X
eit: phần dư
Mô hình trên đã thêm chỉ số i cho hệ số chặn để phân biệt hệ số chặn của từng quan sát, phản ánh sự khác biệt trong đặc điểm của mỗi quan sát. Trong mô hình FEM, các hệ số hồi quy được ước lượng bằng cách loại bỏ hiệu ứng cố định thông qua việc sử dụng các biến giả. Tuy nhiên, mô hình FEM có nhược điểm là không phù hợp để phân tích các biến giải thích có sự thay đổi theo thời gian. Bên cạnh đó, việc loại bỏ hiệu ứng cố định trong mô hình FEM cũng loại bỏ luôn các biến có tính biến đổi theo thời gian, khiến mô hình không thể nắm bắt được các biến động và động lực thay đổi theo thời gian trong dữ liệu panel, dẫn đến mất một phần thông tin quan trọng.
fem <- plm(reg, data = dataCol, nindex = c("MaCK","Thoigian"), model = "within")
summary(fem)
## Oneway (individual) effect Within Model
##
## Call:
## plm(formula = reg, data = dataCol, model = "within", nindex = c("MaCK",
## "Thoigian"))
##
## Balanced Panel: n = 20, T = 10, N = 200
##
## Residuals:
## Min. 1st Qu. Median 3rd Qu. Max.
## -12363.715 -829.546 -87.811 559.025 10254.255
##
## Coefficients:
## Estimate Std. Error t-value Pr(>|t|)
## roe -7.686477 3.504656 -2.1932 0.029595 *
## tts 0.053893 0.015207 3.5441 0.000504 ***
## dar 538.605100 1858.020931 0.2899 0.772247
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Total Sum of Squares: 1518200000
## Residual Sum of Squares: 1370600000
## R-Squared: 0.097234
## Adj. R-Squared: -0.014974
## F-statistic: 6.35471 on 3 and 177 DF, p-value: 0.00040838
Kết quả hồi quy theo phương pháp FEM dựa vào giá trị p-value (Pr>t) cho thấy yếu tố tỷ số lợi nhuận trên vốn chủ sở hữu (ROE) và Tổng tài sản (TTS) tác động đến doanh thu thuần (DTT) với mức ý nghĩa 5%. Bên cạnh đó, tỷ số nợ trên tổng tài sản (DAR) lại không có tác động đến doanh thu thuần (DTT).
Giá trị R2 (R-Squared) là 0.097234 tức các biến độc lập trong mô hình FEM giải thích được khoảng 9,72% sự biến thiên của biến phụ thuộc.
Mô hình REM thích hợp để phân tích tác động của các biến giải thích có sự biến đổi ngẫu nhiên qua thời gian.
Mô hình ước lượng sử dụng:
Yit = β + βXit + eit + εi
Trong đó:
εi: sai số thành phần của các đối tượng khác nhau
eit: sai số thành phần kết hợp khác của cả đặc điểm riêng theo từng đối tượng và thời gian
Sự khác biệt giữa mô hình ảnh hưởng ngẫu nhiên (REM) và mô hình ảnh hưởng cố định (FEM) thể hiện ở mức độ biến động giữa các đơn vị. Trong mô hình FEM, sự biến động giữa các đơn vị có thể liên quan đến các biến giải thích, trong khi trong mô hình REM, sự biến động này được coi là ngẫu nhiên và không ảnh hưởng đến các biến giải thích. Do đó, nếu sự khác biệt giữa các đơn vị ảnh hưởng đến biến phụ thuộc, mô hình REM có thể là lựa chọn phù hợp hơn so với mô hình FEM. Trong mô hình REM, phần dư của mỗi đơn vị, không liên quan đến các biến giải thích, được coi như một biến giải thích bổ sung.
rem <- plm(reg, data = dataCol, nindex = c("MaCK","Thoigian"), model = "random")
summary(rem)
## Oneway (individual) effect Random Effect Model
## (Swamy-Arora's transformation)
##
## Call:
## plm(formula = reg, data = dataCol, model = "random", nindex = c("MaCK",
## "Thoigian"))
##
## Balanced Panel: n = 20, T = 10, N = 200
##
## Effects:
## var std.dev share
## idiosyncratic 7743270 2783 0.161
## individual 40479440 6362 0.839
## theta: 0.863
##
## Residuals:
## Min. 1st Qu. Median 3rd Qu. Max.
## -10876.84 -1039.20 -449.39 826.14 12252.72
##
## Coefficients:
## Estimate Std. Error z-value Pr(>|z|)
## (Intercept) 4.0662e+03 1.8511e+03 2.1966 0.02805 *
## roe -7.1637e+00 3.5089e+00 -2.0416 0.04120 *
## tts 7.6220e-02 7.5631e-03 10.0778 < 2e-16 ***
## dar 1.1378e+03 1.8152e+03 0.6268 0.53079
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Total Sum of Squares: 2383500000
## Residual Sum of Squares: 1535400000
## R-Squared: 0.35582
## Adj. R-Squared: 0.34596
## Chisq: 108.261 on 3 DF, p-value: < 2.22e-16
Kết quả hồi quy theo phương pháp REM dựa vào giá trị p-value (Pr>z) cho thấy yếu tố tỷ số lợi nhuận trên vốn chủ sở hữu (ROE) và Tổng tài sản (TTS) tác động đến doanh thu thuần (DTT) với mức ý nghĩa 5%. Bên cạnh đó, tỷ số nợ trên tổng tài sản (DAR) lại không có tác động đến doanh thu thuần (DTT).
Giá trị R2 (R-Squared) là 0.35582 tức các biến độc lập trong mô hình FEM giải thích được khoảng 35.58% sự biến thiên của biến phụ thuộc.
Kiểm định F-Test được sử dụng để so sánh hiệu quả của mô hình hồi quy Pooled và Fixed Effects (FEM) trong phân tích dữ liệu bảng (panel data). Mục tiêu của kiểm định này là xác định xem mô hình FEM có cải thiện đáng kể so với mô hình Pooled hay không.
Kiểm định F-Test kiểm tra giả thuyết rằng các hiệu ứng cố định không có ảnh hưởng đáng kể và mô hình Pooled có thể đủ để giải thích dữ liệu. Nếu giá trị p (p-value) của kiểm định F nhỏ hơn 0.05, điều này cho thấy mô hình FEM cung cấp một sự cải thiện đáng kể so với mô hình Pooled, và do đó, mô hình FEM là sự lựa chọn phù hợp hơn.
##
## F test for individual effects
##
## data: reg
## F = 49.03, df1 = 19, df2 = 177, p-value < 2.2e-16
## alternative hypothesis: significant effects
Kết quả kiểm định cho thấy giá trị p-value < 2.2e-16 < 0.05.Như vậy với mức ý nghĩa 5%, chưa có cơ sở để chấp nhận giả thuyết H0 nên mô hình FEM tốt hơn mô hình Pooled.
Kiểm định Hausman là một phương pháp quan trọng để lựa chọn giữa mô hình hồi quy Random Effects (REM) và Fixed Effects (FEM) trong phân tích dữ liệu bảng (panel data). Mục tiêu của kiểm định này là xác định mô hình nào phù hợp hơn với dữ liệu và mục tiêu nghiên cứu cụ thể.
Kiểm định Hausman (Hausman, 1978) kiểm tra giả thuyết rằng sự khác biệt trong các hệ số hồi quy giữa REM và FEM không mang tính hệ thống. Nếu giá trị p (p-value) lớn hơn 0.05, thì giả thuyết H0 được chấp nhận, cho thấy mô hình REM là lựa chọn phù hợp hơn để giải thích mối quan hệ giữa các biến.
##
## Hausman Test
##
## data: reg
## chisq = 4.4953, df = 3, p-value = 0.2127
## alternative hypothesis: one model is inconsistent
Kết quả kiểm định cho thấy p-value > 0.05.Như vậy với mức ý nghĩa 5%, có cơ sở để chấp nhận giả thuyết H0 nên mô hình REM tốt hơn mô hình FEM.
Mô hình REM
summary(rem)
## Oneway (individual) effect Random Effect Model
## (Swamy-Arora's transformation)
##
## Call:
## plm(formula = reg, data = dataCol, model = "random", nindex = c("MaCK",
## "Thoigian"))
##
## Balanced Panel: n = 20, T = 10, N = 200
##
## Effects:
## var std.dev share
## idiosyncratic 7743270 2783 0.161
## individual 40479440 6362 0.839
## theta: 0.863
##
## Residuals:
## Min. 1st Qu. Median 3rd Qu. Max.
## -10876.84 -1039.20 -449.39 826.14 12252.72
##
## Coefficients:
## Estimate Std. Error z-value Pr(>|z|)
## (Intercept) 4.0662e+03 1.8511e+03 2.1966 0.02805 *
## roe -7.1637e+00 3.5089e+00 -2.0416 0.04120 *
## tts 7.6220e-02 7.5631e-03 10.0778 < 2e-16 ***
## dar 1.1378e+03 1.8152e+03 0.6268 0.53079
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Total Sum of Squares: 2383500000
## Residual Sum of Squares: 1535400000
## R-Squared: 0.35582
## Adj. R-Squared: 0.34596
## Chisq: 108.261 on 3 DF, p-value: < 2.22e-16
pcdtest(rem, test = "cd")
##
## Pesaran CD test for cross-sectional dependence in panels
##
## data: dtt ~ roe + tts + dar
## z = 6.029, p-value = 1.65e-09
## alternative hypothesis: cross-sectional dependence
Ta có: p-value = 2.952e-15 < 0.05.
Kết luận: mô hình có phụ thuộc chéo.
pbgtest(rem)
##
## Breusch-Godfrey/Wooldridge test for serial correlation in panel models
##
## data: reg
## chisq = 37.878, df = 10, p-value = 3.985e-05
## alternative hypothesis: serial correlation in idiosyncratic errors
Ta có: p-value = 4.489e-09 < 0.05.
Kết luận: mô hình có hiện tượng tự tương quan.
##
## Breusch-Pagan test
##
## data: rem
## BP = 66.118, df = 3, p-value = 2.892e-14
Ta có: p-value = 2.892e-14 < 0.05.
Kết luận: mô hình có hiện tượng phương sai sai số thay đổi.
## roe tts dar
## 1.190770 1.000002 1.190768
Vì các biến VIF đều < 10.
Kết luận: mô hình không có đa cộng tuyến.
gls <- pggls(reg, data = datapanel, model = "pooling")
summary(gls)
## Oneway (individual) effect General FGLS model
##
## Call:
## pggls(formula = reg, data = datapanel, model = "pooling")
##
## Balanced Panel: n = 10, T = 20, N = 200
##
## Residuals:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -15818.74 -4610.57 -1933.45 -94.01 3263.36 17812.73
##
## Coefficients:
## Estimate Std. Error z-value Pr(>|z|)
## (Intercept) 6.1819e+02 2.6737e+02 2.3121 0.02077 *
## roe 5.8383e-02 6.4496e+00 0.0091 0.99278
## tts 8.2865e-02 7.7701e-04 106.6455 < 2e-16 ***
## dar 6.7136e+03 3.3506e+02 20.0369 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Total Sum of Squares: 4.7618e+10
## Residual Sum of Squares: 8592600000
## Multiple R-squared: 0.81955