THÀNH VIÊN NHÓM

  1. Phạm Thu Phương - 2121013716

  2. Huỳnh Thị Thùy Dương - 2121011692

  3. Lưu Thị Kim Hạnh - 2121011603

  4. Nguyễn Cẩm Nguyên - 2121006565

  5. Huỳnh Trọng Phúc - 2121001545

  6. Bùi Khắc Thông - 2121012201

Bộ dữ liệu mà nhóm em dùng làm thực hành cho bài tập nhóm là data HousePrices trong package AER bao gồm 546 quan sát và có 12 biến

  • price: giá bán của 1 cái nhà

  • lotsize: kích thước của căn nhà tính theo mét vuông

  • bedrooms: số phòng ngủ

  • stories: số tầng không kể tầng hầm

  • driveway: nhà có lối đi không?

  • recreation: nhà có phòng khách không

  • fullbase: nhà có tầng hầm hay không

  • gasheat: ngôi nhà có sử dụng gas để đun nước nóng hay không

  • aircon: nhà có điều hòa nằm ở vị trí trung tâm hay không

  • garage: số chỗ để xe

  • prefer: bạn thích nhà ở vị trí nông thôn hay thành thị hơn

library("AER")
data("HousePrices")

1 Kiểm định phân phối chuẩn: Jarque-Bera

1.1 Định nghĩa

Kiểm định phân phối chuẩn Jarque-Bera (Jarque-Bera Normality Test) là một phương pháp thống kê được sử dụng để kiểm tra xem một tập dữ liệu có tuân theo phân phối chuẩn hay không. Phương pháp này dựa trên hai thống kê mô tả, đó là hệ số bất đối xứng (skewness) và hệ số nhọn (kurtosis), để đánh giá tính chuẩn của phân phối dữ liệu.

Kiểm định phân phối chuẩn Jarque-Bera kiểm tra xem giá trị hệ số bất đối xứng và hệ số nhọn của dữ liệu có phù hợp với phân phối chuẩn hay không. Nếu giá trị p-value của kiểm định nhỏ hơn một ngưỡng ý nghĩa (thường là 0.05), chúng ta có căn cứ để bác bỏ giả thuyết rằng dữ liệu không tuân theo phân phối chuẩn.

1.2 Chạy kiểm định

library(tseries)
Ver <- HousePrices$garage
pn <- jarque.bera.test(Ver)
print(pn)
## 
##  Jarque Bera Test
## 
## data:  Ver
## X-squared = 72.096, df = 2, p-value = 2.22e-16

1.3 Kết quả

JB sẽ tuân theo qui luật phân phối khi bình phương bởi nó là tổng của bình phương 2 phân phối chuẩn. Miền bác bỏ giả thuyết H0 (chuỗi không có phân phối chuẩn) tại mức level α là JB≥χ21−α/2 hoặc ta có thể sử dụng p-value để so sánh với α=0.05 trong mức ý nghĩa thống kê 1−α=0.95 để kết luận bác bỏ H0 nếu p-value nhỏ hơn ngưỡng này. Trong R ta có thể sử dụng kiểm định jarque-bera như sau

Từ kết quả chạy được ta thấy :

JB (Jarque-Bera statistic) = 72.096 : Đây là giá trị của thống kê Jarque-Bera, một giá trị thống kê dùng để kiểm tra sự phân phối của dữ liệu. Giá trị Jarque-Bera được tính dựa trên sự khác biệt giữa các độ lệch chuẩn và độ nhọn chuẩn của phân phối dữ liệu so với phân phối chuẩn.

p-value = 2.22e-16: Đây là giá trị p-value, cho biết mức độ ý nghĩa thống kê của kết quả kiểm định. Trong trường hợp này, giá trị p-value rất nhỏ (gần bằng 0), vì vậy chúng ta có căn cứ để bác bỏ giả thuyết không phải phân phối chuẩn (giả thuyết không có sự khác biệt về phân phối giữa dữ liệu và phân phối chuẩn).

alternative hypothesis: greater: Đây là giả thuyết thay thế (alternative hypothesis) của kiểm định. Trong trường hợp này, giả thuyết thay thế là “greater” (lớn hơn), cho biết rằng chúng ta quan tâm đến việc xác định xem dữ liệu có phân phối lệch phải (phân phối có đuôi dài về bên phải) hay không.

Với kết quả này, ta có căn cứ để bác bỏ giả thuyết rằng dữ liệu HousePrices$garage tuân theo phân phối chuẩn. Thay vào đó, dữ liệu có sự lệch phải hoặc không tuân theo phân phối chuẩn.

2 Kiểm định tính dừng: Augmented dickey - fuller

2.1 Định nghĩa

Kiểm định tính dừng Augmented Dickey-Fuller là một phương pháp thống kê được sử dụng để kiểm tra xem một chuỗi dữ liệu có tính dừng hay không. Tính dừng là tính chất mà một chuỗi dữ liệu không thay đổi theo thời gian và có thể được mô hình hóa bằng một quá trình ngẫu nhiên ổn định.

Phương pháp ADF mở rộng kiểm định Dickey-Fuller thông thường bằng cách bổ sung thêm các tham số tự phương sai và sai số cho mô hình autoregressive. Kiểm định Augmented Dickey-Fuller kiểm tra xem có một hệ số tự hồi quy (autoregressive coefficient) trong mô hình autoregressive có giá trị bằng 1 hay không. Nếu giá trị hệ số tự hồi quy bằng 1, đồng nghĩa với việc chuỗi dữ liệu không có tính dừng.

Kết quả của kiểm định Augmented Dickey-Fuller bao gồm giá trị tới hạn (test statistic), giá trị p-value và giả thuyết thay thế (alternative hypothesis).

2.2 Chạy kiểm định

library(AER)
library(tseries)
data("HousePrices")
hop <- HousePrices
adf.test(hop$price)
## Warning in adf.test(hop$price): p-value smaller than printed p-value
## 
##  Augmented Dickey-Fuller Test
## 
## data:  hop$price
## Dickey-Fuller = -4.4444, Lag order = 8, p-value = 0.01
## alternative hypothesis: stationary

2.3 Kết quả

Trong các kiểm định thống kê của R, hầu hết các kết quả trả về đều có dạng xác xuất. Việc này sẽ thuận tiện hơn cho người dùng khi đưa ra kết luận vì ngưỡng tới hạn để bác bỏ giả thuyết luôn là 0.05. Do đó thay vì so sánh cặp giá trị kiểm định với giá trị tới hạn ta sẽ so sánh giá trị xác xuất kiểm định p-value với ngưỡng 0.05. Khi đã đọc nhiều kiểm định sẽ hình thành phản xạ rất nhanh khi so sánh với 0.05. Giả thuyết H_0 tức chuỗi không dừng hoặc đồng tích hợp bậc 1 được chấp nhận khi p-value > 0.05 và chuỗi dừng khi p-value < 0.05.

Trong tính huống này ta kết luận chuỗi có tính dừng vì kiểm định có p-value < 0.05. Lấy sai phân trong tình huống chuỗi dừng.

Từ kết quả ta thấy:

  • Dickey-Fuller = -4.4444: Đây là giá trị thống kê Dickey-Fuller, giá trị này cung cấp thông tin về mức độ dừng của dữ liệu. Trong trường hợp này, giá trị Dickey-Fuller là -4.4444.

  • Lag order = 8: Đây là số lượng thời gian trễ (lag) được sử dụng trong mô hình kiểm định Augmented Dickey-Fuller. Trong trường hợp này, có 8 thời gian trễ được sử dụng trong kiểm định Augmented Dickey-Fuller.

  • p-value = 0.01: Đây là giá trị p-value, cho biết mức độ ý nghĩa thống kê của kết quả kiểm định. Trong trường hợp này, giá trị p-value là 0.01, tức là nhỏ hơn mức ý nghĩa thông thường (thường là 0.05). Vì vậy,ta bác bỏ giả thuyết không có tính dừng.

  • Alternative hypothesis: stationary: Đây là giả thuyết thay thế (alternative hypothesis) của kiểm định. Trong trường hợp này, giả thuyết thay thế là “stationary” (tính dừng), cho biết việc xác định xem dữ liệu có tính dừng hay không.

Với kết quả này, vì giá trị p-value nhỏ hơn mức ý nghĩa thông thường, chúng ta bác bỏ giả thuyết không có tính dừng.

3 Kiểm định tương quan chuỗi : Ljung-Box

3.1 Định nghĩa

Trong R, em đã sử dụng hàm Box.test() trong gói “stats” để thực hiện kiểm định tương quan chuỗi Ljung-Box. Kiểm định Ljung-Box được sử dụng để kiểm tra tính tương quan tự do của một chuỗi thời gian và xác định xem chuỗi có phụ thuộc tương quan không gian hay không. Giả thiết H0 là không có tương quan chuỗi Ljung-Box

3.2 Chạy kiểm định

library(stats)
tqc <- Box.test(HousePrices$price, lag = 20, type = 'Ljung-Box')
tqc
## 
##  Box-Ljung test
## 
## data:  HousePrices$price
## X-squared = 1294.6, df = 20, p-value < 2.2e-16

3.3 Kết quả

Từ kết quả trên ta có :

Biểu đồ tương quan cho thấy tự tương quan mẫu ở độ trễ 20 vượt quá mức giới hạn ý nghĩa thống kê. Tuy nhiên, điều này có thể là do ngẫu nhiên. Hơn nữa, giá trị p của Kiểm định Ljung-Box là 2.2e-16, chỉ ra rằng có rất ít bằng chứng về tự tương quan khác không trong các sai số dự báo cho 20 độ trễ đầu tiên.

X-squared = 1294.6 :là giá trị thống kê của kiểm định. Đây là giá trị thể hiện mức độ tương quan trong chuỗi dữ liệu. Qua câu lệnh có thể thấy, giá trị X-squared là 1294.6.

df = 20: Đây là số bậc tự do của kiểm định. Nó cho biết số lượng thời gian trễ đã sử dụng trong kiểm định và độ trễ được tự do sữ dụng. Tại đây ta sử dụng là 20.

p-value < 2.2e-16: Đây là giá trị p-value, cho biết mức độ ý nghĩa thống kê của kết quả kiểm định. Tại đai ta có giá trị p-value là rất nhỏ, và còn bé hơn 2.2e-16. Suy ra p-value < 0.05, cho ta thấy có hiện tượng tự tương quan giữa các giá trị trong chuỗi dừng.

Với kết quả này, vì giá trị p-value rất nhỏ, ta có căn cứ để bác bỏ giả thuyết không có sự tương quan. Điều này cho thấy rằng có sự tương quan đáng kể giữa các giá trị trong chuỗi dữ liệu.

4 Kiểm định hiệu ứng ARCH: ARCH-LM

4.1 Định nghĩa

Kiểm định hiệu ứng ARCH-LM (Autoregressive Conditional Heteroscedasticity Lagrange Multiplier test) là một phương pháp thống kê được sử dụng để kiểm tra sự tồn tại của hiệu ứng ARCH trong mô hình dữ liệu chuỗi thời gian.

Hiệu ứng ARCH xuất hiện khi phương sai của một chuỗi dữ liệu chuỗi thay đổi theo thời gian và phụ thuộc vào các giá trị trước đó của chuỗi. Kiểm định ARCH-LM cũng được thực hiện để xác định phần dư của mô hình GARCH(1,1) có còn tính ARCH hay không.

4.2 Chạy kiểm định

library(rugarch)
## Loading required package: parallel
## 
## Attaching package: 'rugarch'
## The following object is masked from 'package:stats':
## 
##     sigma
ugarchfit(spec = ugarchspec(), data = data$sqft_above)
## 
## *---------------------------------*
## *          GARCH Model Fit        *
## *---------------------------------*
## 
## Conditional Variance Dynamics    
## -----------------------------------
## GARCH Model  : sGARCH(1,1)
## Mean Model   : ARFIMA(1,0,1)
## Distribution : norm 
## 
## Optimal Parameters
## ------------------------------------
##          Estimate  Std. Error     t value Pr(>|t|)
## mu     1827.83340   13.847307  1.3200e+02 0.000000
## ar1       0.84282    0.014345  5.8753e+01 0.000000
## ma1      -0.82866    0.012351 -6.7095e+01 0.000000
## omega   744.11073  388.462907  1.9155e+00 0.055425
## alpha1    0.00000    0.000537  1.3800e-04 0.999890
## beta1     0.99900    0.000008  1.3118e+05 0.000000
## 
## Robust Standard Errors:
##          Estimate  Std. Error     t value Pr(>|t|)
## mu     1827.83340   13.979617  1.3075e+02  0.00000
## ar1       0.84282    0.023864  3.5318e+01  0.00000
## ma1      -0.82866    0.021988 -3.7686e+01  0.00000
## omega   744.11073  804.140164  9.2535e-01  0.35478
## alpha1    0.00000    0.001106  6.7000e-05  0.99995
## beta1     0.99900    0.000004  2.3046e+05  0.00000
## 
## LogLikelihood : -37618.51 
## 
## Information Criteria
## ------------------------------------
##                    
## Akaike       16.358
## Bayes        16.367
## Shibata      16.358
## Hannan-Quinn 16.361
## 
## Weighted Ljung-Box Test on Standardized Residuals
## ------------------------------------
##                         statistic p-value
## Lag[1]                      0.264  0.6074
## Lag[2*(p+q)+(p+q)-1][5]     2.099  0.9367
## Lag[4*(p+q)+(p+q)-1][9]     4.926  0.4704
## d.o.f=2
## H0 : No serial correlation
## 
## Weighted Ljung-Box Test on Standardized Squared Residuals
## ------------------------------------
##                         statistic p-value
## Lag[1]                    0.04133  0.8389
## Lag[2*(p+q)+(p+q)-1][5]   0.70532  0.9219
## Lag[4*(p+q)+(p+q)-1][9]   1.50414  0.9552
## d.o.f=2
## 
## Weighted ARCH LM Tests
## ------------------------------------
##             Statistic Shape Scale P-Value
## ARCH Lag[3]     1.011 0.500 2.000  0.3146
## ARCH Lag[5]     1.042 1.440 1.667  0.7204
## ARCH Lag[7]     1.532 2.315 1.543  0.8150
## 
## Nyblom stability test
## ------------------------------------
## Joint Statistic:  3.3623
## Individual Statistics:             
## mu     1.1027
## ar1    0.1083
## ma1    0.1049
## omega  0.4007
## alpha1 0.4341
## beta1  0.4004
## 
## Asymptotic Critical Values (10% 5% 1%)
## Joint Statistic:          1.49 1.68 2.12
## Individual Statistic:     0.35 0.47 0.75
## 
## Sign Bias Test
## ------------------------------------
##                    t-value   prob sig
## Sign Bias           0.3725 0.7095    
## Negative Sign Bias  0.4006 0.6888    
## Positive Sign Bias  0.5443 0.5863    
## Joint Effect        0.8934 0.8270    
## 
## 
## Adjusted Pearson Goodness-of-Fit Test:
## ------------------------------------
##   group statistic p-value(g-1)
## 1    20      1333   3.330e-271
## 2    30      1373   5.911e-271
## 3    40      1404   2.798e-269
## 4    50      1451   1.074e-271
## 
## 
## Elapsed time : 0.8673999

4.3 Kết quả

Kết quả kiểm định cho thấy p-value đều lớn hơn 0.05. Do đó, giả thiết H0 (phần dư không tồn tại hiện tượng phương sai thay đổi) được chấp nhận. Điều này có nghĩa là mô hình GARCH(1,1) đã mô hình hóa được toàn bộ hiện tượng phương sai thay đổi.