TÓM TẮT CUỐN SÁCH “Generalized Linear Models With Examples in R” CỦA PETER K.DUNN VÀ GORDON K .SMYTH
Cuốn Generalized Linear Models with Examples in R với mục tiêu giúp người đọc hiểu rõ cả về lý thuyết lẫn cách áp dụng các mô hình hồi quy tuyến tính tổng quát (GLM) trong thực tiễn bằng phần mềm R. Sách được viết theo hướng dễ tiếp cận, phù hợp với người học có kiến thức cơ bản về thống kê và giải tích — cụ thể là hiểu về xác suất, phân phối xác suất và kiểm định giả thuyết. Các chương đầu cung cấp phần giới thiệu tự chứa về hồi quy tuyến tính và phân tích phương sai (ANOVA), thích hợp cho khóa học thống kê cấp hai. Bên cạnh đó, sách còn có các phần mở rộng nâng cao dành cho những người đã học đại số ma trận hoặc đang theo học cao học, giúp người đọc hiểu sâu hơn về thuật toán và lý thuyết nền tảng. Nhờ cách trình bày linh hoạt này, sách có thể sử dụng cho nhiều đối tượng, từ sinh viên đến các nhà nghiên cứu và chuyên gia thống kê.
Chương này bắt đầu với việc giới thiệu khái niệm mô hình thống kê, trong đó:
y là biến kết quả(response variable)
n là số quan sát
\(x_1\), \(x_2\),…, \(x_p\) là các biến giải thích (explanatory variables)
Các biến giải thích có thể là định lượng (covariates) hoặc định tính (factors). Khi thực hiện phân tích data định lượng có thể dễ dàng hơ vì chúng ddueuwocj trình bài dưới dạng số học tuy nhiên dữ liệu định tính thì ngược lại. Để đưa các biến định tính vào mô hình, ta phải chuyển chúng thành dạng số thông qua các biến giả (dummy variables). Phương pháp mã hóa phổ biến là mã hóa treatment, với \(k-1\) biến giả cho một biến factor có k mức. Một cách đơn giản hơn, khi dữ liệu định tính gồm 3 mức độ đo lường sự hài lòng của khách hàng tuwg không thoải mái, bình thường và hài lòng ta sẽ đưa 2 biến giả vào mô hình.
Tại chương này cũng khuyến khích việc ứng dụng các biểu đồ để trình bày rõ hơn tại các bước đầu, tuy nhiên để đào sâu hơn vào cốt lõi của nó cần xây dựng các mô hình thống kê. Có 2 thành phần chính của mô hình thống kê:
\[ \mu_i = \beta_0 + \beta_1 x_{1i} + \beta_2 x_{2i} + \beta_3 x_{3i} + \beta_4 x_{4i} \]Trong đó:
\(x_{1i}\): tuổi của đối tượng thứ \(i\)
\(x_{2i}\): chiều cao (cm) của đối tượng thứ \(i\)
\(x_{3i}\): giới tính (biến giả; 1 = nam, 0 = nữ)
\(x_{4i}\): tình trạng hút thuốc (biến giả; 1 = có hút, 0 = không hút)
Cần lưu ý rằng các giả định đơn giản như tuyến tính hay phương sai không đổi thường không phù hợp, vì dữ liệu có thể thể hiện mối quan hệ phi tuyến hoặc phương sai thay đổi theo giá trị trung bình. Do đó, cần cân nhắc các lựa chọn mô hình khác hoặc các phân phối khác ngoài phân phối chuẩn.
Mô hình thống kê là sự kết hợp giữa hai thành phần này để phản ánh đầy đủ đặc điểm của dữ liệu thực tế với mục đích cuối cùng là để dự báo và hiểu rõ mối quan hệ giữa các biến
Có 2 tiêu chí luôn cần được ưu tiên khi xây dựng mô hình hoàn chỉnh là đảm bảo được sự đơn giản và chính xác (parsimony and accuracy). Tức là mô hình đơn giản nhất nhưng vẫn mô tả đúng đặc điểm và sự biến thiên của dữ liệu, tránh việc giả thuyết chồng chéo và dày đặc các phương pháp khác nhau sẽ làm cho kết quả ước lượng khôn khớp với thực tế. Đây cũng chính là nguyên tắc “OCCAM’S RAZOR” trong kinh tế lượng.
Tuy nhiên, phương pháp thu thập dữ liệu ảnh hưởng rất lớn đến những kết luận có thể rút ra từ phân tích. . Trong nghiên cứu quan sát, dữ liệu chỉ được thu thập mà không can thiệp, nên mô hình chỉ thể hiện mối quan hệ tương quan, không đủ bằng chứng khẳng định được quan hệ nhân quả. Trong nghiên cứu thực nghiệm, khi người nghiên cứu kiểm soát biến giải thích, mô hình có thể hỗ trợ kết luận về quan hệ nhân quả.
Mặc dù các mô hình thống kê xử lý dữ liệu từ cả hai loại nghiên cứu này theo cách tương tự và kết luận thống kê có thể trông giống nhau, nhưng các kết luận khoa học rút ra từ thí nghiệm thường mạnh mẽ và đáng tin cậy hơn. Trong nghiên cứu quan sát, việc tốt nhất có thể làm là đo đạc và kiểm soát càng nhiều biến ngoại lai (extraneous variables) có thể ảnh hưởng đến biến phản hồi, nhằm điều chỉnh các ảnh hưởng không được kiểm soát trong thiết kế nghiên cứu.
Tại chương này tác giả khai thác vào các mô hình hồi quy tuyến tính.
Thành phần ngẫu nhiên giả định rằng các phản hồi \(y_i\) có phương sai không đổi \(\sigma^2\), hoặc phương sai tỉ lệ với các trọng số dương, đã biết \(w_i\); tức là:
\[ \operatorname{var}(y_i) = \sigma^2 w_i, \quad i = 1, 2, \ldots, n. \]
Các \(w_i\) được gọi là trọng số ưu tiên (prior weights), cho phép gán trọng số cao hơn cho một số quan sát nhất định.
Thành phần hệ thống giả định rằng kỳ vọng của phản hồi \(\mathbb{E}[y_i] = \mu_i\) có quan hệ tuyến tính với các biến giải thích \(x_{ji}\), như sau:
\[ \mu_i = \beta_0 + \sum_{j=1}^{p} \beta_j x_{ji}. \]
Kết hợp hai thành phần trên, mô hình hồi quy tuyến tính có dạng tổng quát như sau:
\[ \begin{cases} \operatorname{var}(y_i) = \sigma^2 w_i, \\\\ \mu_i = \beta_0 + \sum_{j=1}^{p} \beta_j x_{ji}, \end{cases} \quad \text{với } \mathbb{E}[y_i] = \mu_i. \]
Trong đó:
Các trọng số \(w_i\) là đã biết;
Các tham số hồi quy \(\beta_0, \beta_1, \ldots, \beta_p\) và phương sai sai số \(\sigma^2\) là chưa biết và cần được ước lượng từ dữ liệu.
Các trường hợp đặc biệt
Mô hình có thành phần hệ thống \(\mu = \beta_0 + \beta_1 x_1\) (tức là \(p = 1\), và tổng số tham số là 2) được gọi là mô hình hồi quy tuyến tính đơn (simple linear regression model).
Mô hình với tất cả các trọng số ưu tiên \(w_i = 1\) (với mọi \(i\)) được gọi là mô hình hồi quy tuyến tính thường (ordinary linear regression model), để phân biệt với mô hình hồi quy tuyến tính có trọng số (weighted linear regression model) khi \(w_i\) khác nhau.
Mô hình có \(p > 1\) thường được gọi là mô hình hồi quy tuyến tính bội (multiple linear regression model).
Mô hình có thêm giả định \(y_i \sim \mathcal{N}(\mu_i, \sigma^2 / w_i)\) được gọi là mô hình hồi quy tuyến tính chuẩn (normal linear regression) 2.1 Mô hình hồi quy đơn
Mô hình: \(\mu_i = \beta_0 + \beta_1 x_i\) với \({var}(y_i) = \frac{\sigma^2}{w_i}\)
Mục tiêu: tìm \(\beta_0\) và \(\beta_1\) sao cho giá trị thực \(y_i\) và giá trị dự báo \(\mu_i\) từ mô hình là nhỏ nhất.
Phương pháp: Dùng phương pháp bình phương tối thiểu có trọng số, tức là minimize hàm:
\[ S(\beta_0, \beta_1) = \sum_{i=1}^n w_i (y_i - \beta_0 - \beta_1 x_i)^2 \]
Đạo hàm riêng của \(S\) theo \(\beta_0\) và \(\beta_1\) được đặt bằng 0 để tìm nghiệm tối ưu:
\[ \frac{\partial S}{\partial \beta_0} = 2 \sum w_i (y_i - \mu_i) = 0 \]
\[ \frac{\partial S}{\partial \beta_1} = 2 \sum w_i x_i (y_i - \mu_i) = 0 \]
Nghiệm: \[ \hat{\beta}_1 = \frac{\sum w_i (x_i - \bar{x}_w)(y_i)}{\sum w_i (x_i - \bar{x}_w)^2} \]
\[ \hat{\beta}_0 = \bar{y}_w - \hat{\beta}_1 \bar{x}_w \]
Giá trị dự báo: \(\hat{\mu}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i\)
Tổng bình phương phần dư (residual sum-of-squares – RSS):
\[ RSS = \sum w_i (y_i - \hat{\mu}_i)^2 = \sum w_i (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i)^2 \]
Nếu \(\mu_i\) là đã biết, thì: \(\hat{\sigma}^2 = \frac{rss}{n}\)
Nhưng vì \(\mu_i\) được ước lượng từ dữ liệu, nên ta dùng: $s^2 = $
Lý do chia cho \(n - 2\):
Có 2 tham số (\(\beta_0, \beta_1\)) được ước lượng từ dữ liệu → mất 2 bậc tự do.
Vì vậy, residual degrees of freedom là \(n - 2\).
\[ \text{var}[\hat{\beta}_1] = \frac{\sigma^2}{SS_x}, \quad \text{var}[\hat{\beta}_0] = \sigma^2 \left( \frac{1}{\sum w_i} + \frac{\bar{x}_w^2}{SS_x} \right) \]
\[ \text{se}(\hat{\beta}_1) = \frac{s}{\sqrt{SS_x}}, \quad \text{se}(\hat{\beta}_0) = s \sqrt{ \frac{1}{\sum w_i} + \frac{\bar{x}_w^2}{SS_x} } \]
Các giá trị này đo lường độ không chắc chắn (uncertainty) trong việc ước lượng các hệ số.
\[ \hat{\mu}_g = \hat{\beta}_0 + \hat{\beta}_1 x_g \]
\[ \text{var}[\hat{\mu}_g] = \sigma^2 \left( \frac{1}{\sum w_i} + \frac{(x_g - \bar{x}_w)^2}{SS_x} \right)\]
\[ \text{se}(\hat{\mu}_g) = \sqrt{ \text{var}[\hat{\mu}_g] } \]
Mô hình hồi quy tuyến tính tổng quát có \(p\) biến giải thích, và cần ước lượng \(p + 1\) hệ số \(\beta_0, \beta_1, \dots, \beta_p\), trong đó \(\beta_0\) là hệ số chặn (intercept).
Đặt:
\[ S = \sum_{i=1}^{n} w_i (y_i - \mu_i)^2 \]
là tổng bình phương sai số có trọng số, phản ánh độ khớp giữa giá trị mô hình và dữ liệu thực tế.
Mục tiêu: Tìm bộ hệ số \(\hat{\beta}_j\) sao cho tối thiểu hóa \(S\) (giống như simple linear regression).
Điều kiện cần để đạt cực tiểu:
\[ \frac{\partial S}{\partial \beta_j} = 0 \quad \text{với mọi } j = 0, 1, \dots, p \]
→ Ta có một hệ \(p + 1\) phương trình tuyến tính cần giải.
\[ \hat{\beta}_j = \frac{ \sum_{i=1}^{n} w_i x_{ij}^* y_i }{ \sum_{i=1}^{n} w_i (x_{ij}^*)^2 } \]
Trong đó:
Kết quả trên tương tự như công thức trong hồi quy đơn (chỉ cần điều chỉnh biến giải thích cho trung bình).
Giá trị dự báo: \(\hat{\mu}_i = \hat{\beta}_0 + \sum_{j=1}^{p} \hat{\beta}_j x_{ji}\)
Phần dư (residual): \(r_i = y_i - \hat{\mu}_i\)
Lưu ý: Trong phương pháp bình phương tối thiểu, không cần biết giá trị của \(\sigma^2\) để ước lượng các \(\beta_j\).
\[ \text{RSS} = \sum_{i=1}^{n} w_i \left( y_i - \hat{\mu}_i \right)^2 \]
Số bậc tự do phần dư: \(n - p\) với \(p\) là số tham số ước lượng (bao gồm cả hệ số chặn).
Ước lượng không chệch của phương sai: \(s^2 = \frac{\text{RSS}}{n - p}\)
Gọi:
\[ I_j^* = \sum_{i=1}^{n} w_i \left(x_{ij}^*\right)^2 \]
là tổng bình phương của biến giải thích \(x_j\) sau khi đã điều chỉnh ảnh hưởng từ các biến khác.
– \(I_j^*\) lớn: nếu \(x_j\) ít tương quan với các biến còn lại → hệ số ước lượng ổn định hơn
– \(I_j^*\) nhỏ: nếu \(x_j\) tương quan mạnh với các biến khác → ước lượng dễ sai
Phương sai của hệ số: \(\text{var}(\hat{\beta}_j) = \frac{\sigma^2}{I_j^*}\)
Ước lượng sai số chuẩn: \(\text{se}(\hat{\beta}_j) = \frac{s}{\sqrt{I_j^*}}\)
Gọi \(y\) là vector cột \(n \times 1\) chứa các biến phụ thuộc (response variable).
Gọi \(X\) là ma trận mô hình \(n \times p\), mỗi cột là một biến giải thích (explanatory variable), bao gồm cả cột \(x_0\) là vector toàn 1 để đại diện cho hệ số chặn (intercept).
Dạng ma trận của mô hình hồi quy tuyến tính:
\[ \begin{aligned} E[y] &= \mu = X\beta \\ \text{Var}[y] &= \sigma^2 W^{-1} \end{aligned} \]
Trong đó:
\(\beta\) là vector hệ số hồi quy kích thước \(p \times 1\)
\(W^{-1}\) là ma trận hiệp phương sai đã biết, đối xứng và xác định dương (positive-definite)
Nếu \(W^{-1}\) là ma trận đường chéo với phần tử \((i, i) = 1/w_i\) và các phần tử ngoài đường chéo bằng 0 → ta có hồi quy bình phương tối thiểu có trọng số (Weighted Least Squares - WLS).
\[ W^{-1} = I_n \]
Tìm ước lượng \(\hat{\beta}\) sao cho tổng bình phương sai số có trọng số là nhỏ nhất:
\[ S = (y - X\beta)^T W (y - X\beta) \]
Giải hệ phương trình:
\[ X^T W X \hat{\beta} = X^T W y \quad \Rightarrow \quad \hat{\beta} = (X^T W X)^{-1} X^T W y \]
R không tính nghịch đảo ma trận một cách trực tiếp (để tránh sai số số học).
Thay vào đó, R sử dụng QR decomposition hoặc cholesky decomposition để giải hệ:
Công thức WLS là mở rộng tự nhiên của hồi quy tuyến tính từ một biến lên nhiều biến bằng cách sử dụng ma trận.
Về bản chất, đây vẫn là công thức kiểu “tổng tích chéo chia tổng bình phương”.
Việc dùng đại số ma trận giúp tăng tốc độ tính toán và nâng độ chính xác, đặc biệt với nhiều biến giải thích hoặc dữ liệu lớn.
Sau khi đã có \(\hat{\beta}\), ta tính giá trị dự báo:
\[ \hat{\mu} = X \hat{\beta} \]
Phương sai sai số được ước lượng bằng:
\[ s^2 = \frac{(y - \hat{\mu})^T W (y - \hat{\mu})}{n - p} = \frac{\text{RSS}}{n - p} \]
Đây là ước lượng không chệch của phương sai sai số \(\sigma^2\), với \(n - p\) là số bậc tự do (số quan sát trừ số tham số ước lượng).
Công thức:
\[ \operatorname{Var}(\hat{\beta}) = \sigma^2 (X^T W X)^{-1} \]
Ước lượng từ dữ liệu:
\[ \widehat{\operatorname{Var}}(\hat{\beta}) = s^2 (X^T W X)^{-1} \]
Các phần tử đường chéo của ma trận này là \(\widehat{\operatorname{Var}}(\hat{\beta}_j)\), tức phương sai của từng hệ số.
Từ đó, ta tính sai số chuẩn (standard error) của từng hệ số:
\[ \operatorname{se}(\hat{\beta}_j) = \sqrt{ \widehat{\operatorname{Var}}(\hat{\beta}_j) } \]
Ý nghĩa
Sai số chuẩn giúp thực hiện kiểm định giả thuyết đối với các hệ số hồi quy (ví dụ: \(H_0: \beta_j = 0\)). Dùng để tính khoảng tin cậy cho \(\beta_j\). Là bước quan trọng để đánh giá ý nghĩa thống kê của các biến giải thích trong mô hình.
1.Dự báo trung bình tại điểm \(x_g\)
Khi muốn dự báo giá trị trung bình của biến phụ thuộc \(y\) tại một điểm cụ thể \(x_g\) (vector hàng chứa các giá trị cụ thể của biến độc lập), ta dùng công thức:
\[ \hat{\mu}_g = x_g \hat{\beta} \]
2. Phương sai của \(\hat{\mu}_g\)
Vì \(\hat{\mu}_g\) phụ thuộc vào \(\hat{\beta}\), nên nó có sai số. Phương sai của \(\hat{\mu}_g\) là:
\[ \operatorname{Var}(\hat{\mu}_g) = x_g (X^T W X)^{-1} x_g^T \cdot \sigma^2 \]
Đây là phương sai của giá trị dự báo trung bình tại điểm \(x_g\).
3. Ước lượng từ dữ liệu
Vì \(\sigma^2\) chưa biết, ta thay bằng \(s^2\) (ước lượng không chệch từ phần dư):
\[ \widehat{\operatorname{Var}}(\hat{\mu}_g) = x_g (X^T W X)^{-1} x_g^T \cdot s^2 \]
4. Sai số chuẩn của dự báo
Sai số chuẩn (standard error) được tính như sau:
\[ \operatorname{se}(\hat{\mu}_g) = \sqrt{ x_g (X^T W X)^{-1} x_g^T \cdot s^2 } \]
Sai số chuẩn này cho biết mức độ không chắc chắn của giá trị trung bình dự báo tại điểm \(x_g\).
Dùng để: - Tính khoảng tin cậy cho \(\mu_g\)
*** Lưu ý: *** Sau khi ước lượng xong mô hình hồi quy, việc giải thích các hệ số hồi quy là bước cực kỳ quan trọng nhằm xác thực tính hợp lý của mô hình, đảm bảo mô hình có tính hợp lí sát với thực tế.
Trước đó, mô hình hồi quy tuyến tính giả định rằng các sai số có kỳ vọng bằng 0 và phương sai không đổi, nhưng chưa giả định một phân phối cụ thể cho sai số.
Để thực hiện kiểm định thống kê và xây dựng khoảng tin cậy, ta cần giả định rằng biến phụ thuộc có phân phối chuẩn:
\[ y_i \sim \mathcal{N}(\mu_i, \sigma^2 / w_i) \]
trong đó: \(mu_i = \beta_0 + \sum_{j=1}^{p} \beta_j x_{ji} = x_i \beta\)
Mô hình này được gọi là mô hình hồi quy tuyến tính chuẩn (normal linear regression model).
Lưu ý: - Phân phối chuẩn là cần thiết khi cỡ mẫu nhỏ để áp dụng các suy luận thống kê cổ điển. - Với cỡ mẫu lớn, định lý giới hạn trung tâm cho phép ta tiếp tục sử dụng các kiểm định mặc dù phân phối thực sự của sai số không chuẩn.
Trong mô hình hồi quy tuyến tính chuẩn, các ước lượng hệ số hồi quy \(\hat{\beta}_j\) là ước lượng tuyến tính không chệch tốt nhất (BLUE), và chúng có phân phối:
\[ \hat{\beta}_j \sim \mathcal{N}(\beta_j, \operatorname{Var}[\hat{\beta}_j]) \]
Khi phương sai sai số \(\sigma^2\) được biết, ta dùng thống kê z:
\[ Z = \frac{\hat{\beta}_j - \beta_j}{\operatorname{se}(\hat{\beta}_j)} \sim \mathcal{N}(0, 1) \]
Khi \(\sigma^2\) không biết (thường gặp trong thực tế), ta thay bằng ước lượng \(s^2\) từ phần dư, khi đó thống kê kiểm định trở thành:
\[ T = \frac{\hat{\beta}_j - \beta_j}{\operatorname{se}(\hat{\beta}_j)} \sim t_{n - p} \]
Trong đó: - \(n\): số lượng quan sát - \(p\): số lượng hệ số hồi quy (bao gồm hệ số chặn nếu có) - \(\operatorname{se}(\hat{\beta}_j) = \sqrt{\widehat{\operatorname{Var}}[\hat{\beta}_j]}\)
Giả thuyết kiểm định cho hệ số \(\beta_j\):
Giả thuyết không (null hypothesis): \[ H_0: \beta_j = \beta_{j0} \] (thường là \(\beta_{j0} = 0\))
Giả thuyết đối (alternative hypothesis): \[ H_A: \beta_j \ne \beta_{j0} \quad \text{(hai phía)}, \quad \text{hoặc } \beta_j > \beta_{j0}, \text{ hoặc } \beta_j < \beta_{j0} \]
Thống kê kiểm định:
\[ T = \frac{\hat{\beta}_j - \beta_{j0}}{\operatorname{se}(\hat{\beta}_j)} \sim t_{n - p} \]
pt() trong R để
đưa ra kết luận ở mức ý nghĩa \(\alpha\).Khoảng tin cậy \(100(1 - \alpha)\%\) cho hệ số \(\beta_j\) là:
\[ \hat{\beta}_j \pm t_{\alpha / 2, n - p} \cdot \operatorname{se}(\hat{\beta}_j) \]
1. Tách biến phụ thuộc thành phần dự đoán và phần dư
Mỗi giá trị quan sát \(y_i\) có thể được biểu diễn dưới dạng:
\[ y_i = \hat{\mu}_i + (y_i - \hat{\mu}_i) \]
Trong đó: - \(\hat{\mu}_i = \hat{\beta}_0 + \sum_{j=1}^{p} \hat{\beta}_j x_{ij}\): là giá trị dự đoán. - \(y_i - \hat{\mu}_i\): là phần dư (residual).
Hay nói cách khác:
\[ \text{Dữ liệu} = \text{Giá trị dự đoán} + \text{Phần dư} \]
2. Tổng bình phương và bản chất của ANOVA
Xét biến phụ thuộc sau khi đã trừ đi trung bình có trọng số \(\bar{y}_w\), ta có:
\[ y_i - \bar{y}_w = (\hat{\mu}_i - \bar{y}_w) + (y_i - \hat{\mu}_i) \]
Bình phương hai vế và tổng lại theo chỉ số \(i\):
\[ \sum w_i (y_i - \bar{y}_w)^2 = \sum w_i (\hat{\mu}_i - \bar{y}_w)^2 + \sum w_i (y_i - \hat{\mu}_i)^2 \]
Ta có đẳng thức:
\[ \text{TSS} = \text{SSR} + \text{RSS} \]
Trong đó: - TSS (Total Sum of Squares) – Tổng bình phương tổng thể:
\[ \text{TSS} = \sum w_i (y_i - \bar{y}_w)^2 \]
\[ \text{SSR} = \sum w_i (\hat{\mu}_i - \bar{y}_w)^2 \]
\[ \text{RSS} = \sum w_i (y_i - \hat{\mu}_i)^2 \]
Ý nghĩa:
SSR phản ánh phần biến thiên của \(y\) được giải thích bởi mô hình.
RSS là phần biến thiên không được mô hình giải thích (do ngẫu nhiên/sai số).
3. Kiểm định ý nghĩa của mô hình bằng thống kê F
Giả thuyết cần kiểm định:
\[ H_0: \beta_1 = \beta_2 = \ldots = \beta_p = 0 \]
Nếu \(H_0\) đúng: các biến giải thích không ảnh hưởng đáng kể đến \(y\).
Thống kê kiểm định:
\[ F = \frac{\text{SSR} / (p - 1)}{\text{RSS} / (n - p)} = \frac{\text{msReg}}{\text{mse}} \]
Trong đó:
\(\text{msReg} = \text{SSR} / (p - 1)\): trung bình bình phương hồi quy
\(\text{mse} = \text{RSS} / (n - p) = s^2\): trung bình bình phương sai số
Thống kê \(F\) tuân theo phân phối:
\[ F \sim F_{p - 1, n - p} \]
Nếu \(F\) lớn → bác bỏ \(H_0\) → mô hình có ý nghĩa thống kê.
4. Bảng phân tích phương sai (ANOVA Table)
| Nguồn biến động | Tổng bình phương | df | Bình phương trung bình | F |
|---|---|---|---|---|
| Hồi quy (SSR) | SSR | \(p - 1\) | SSR / (p − 1) | msReg / mse |
| Phần dư (RSS) | RSS | \(n - p\) | RSS / (n − p) = mse | |
| Tổng (TSS) | TSS | \(n - 1\) |
5. Hệ số xác định \(R^2\)
Hệ số xác định đo lường mức độ mà mô hình giải thích được phương sai của biến phụ thuộc:
\[ R^2 = \frac{\text{SSR}}{\text{TSS}} = 1 - \frac{\text{RSS}}{\text{TSS}} \]
Ý nghĩa:
\(R^2 \in [0, 1]\) - Càng gần 1 → mô hình càng giải thích tốt dữ liệu.
\(R^2 = 0\) → mô hình không giải thích được gì. - \(R^2 = 1\) → mô hình giải thích hoàn toàn biến thiên trong dữ liệu.
Trong summary(model) trong R, kết quả bao gồm: -
Multiple R-squared: hệ số \(R^2\) - Adjusted R-squared: hệ
số điều chỉnh (giới thiệu ở phần dưới)
6. Hệ số xác định điều chỉnh (Adjusted \(R^2\))
Hệ số \(R^2\) điều chỉnh được sử dụng để tránh đánh giá sai mô hình khi thêm biến không cần thiết:
\[ \bar{R}^2 = 1 - \frac{\text{RSS} / (n - p)}{\text{TSS} / (n - 1)} = 1 - (1 - R^2)\cdot \frac{n - 1}{n - p} \]
Lưu ý:
\(\bar{R}^2\) có thể âm nếu mô hình kém hơn cả mô hình trung bình.
\(\bar{R}^2\) chỉ tăng khi biến mới thực sự cải thiện mô hình.
Các kiểm định giả thuyết như kiểm định F hoặc kiểm định phương sai chỉ áp dụng khi các mô hình là mô hình lồng nhau (nested models), tức là một mô hình là trường hợp đặc biệt của mô hình còn lại.
Tuy nhiên, trong thực tế nghiên cứu, ta thường cần so sánh các mô hình không lồng nhau, ví dụ:
Khi đó, các tiêu chí như AIC và BIC là lựa chọn thích hợp để đánh giá mô hình.
Hai tiêu chí chính khi lựa chọn mô hình:
Lưu ý: Việc thêm biến giải thích luôn làm giảm hoặc giữ nguyên RSS, nhưng lại làm mô hình phức tạp hơn và dễ dẫn đến overfitting.
Công thức AIC trong hồi quy tuyến tính (với \(\sigma^2\) chưa biết):
\[ \text{AIC} = n \cdot \log\left(\frac{\text{RSS}}{n}\right) + 2p \tag{2.35} \]
Trong đó: - \(n\): số quan sát - \(p\): số tham số ước lượng (gồm cả hệ số chặn) - \(2p\): hệ số phạt nhằm trừng phạt mô hình phức tạp hơn
Giải thích: - Thành phần đầu: đo độ phù hợp (tương tự log-likelihood) - Thành phần sau: phạt mô hình có quá nhiều biến giải thích
Mô hình tốt hơn là mô hình có AIC nhỏ hơn.
Công thức BIC:
\[ \text{BIC} = n \cdot \log\left(\frac{\text{RSS}}{n}\right) + p \cdot \log(n) \tag{2.36} \]
Trong đó: - \(\log(n) > 2\) khi \(n\) lớn → BIC phạt độ phức tạp mạnh hơn AIC
Do đó, BIC thường chọn mô hình đơn giản hơn so với AIC.
| Tiêu chí | Mục tiêu chính | Mức phạt độ phức tạp | Xu hướng lựa chọn mô hình |
|---|---|---|---|
| AIC | Dự đoán | Nhẹ hơn (\(2p\)) | Ưa chuộng mô hình phức tạp hơn |
| BIC | Diễn giải + Dự đoán | Mạnh hơn (\(p \cdot \log n\)) | Ưa chuộng mô hình đơn giản hơn |
Gợi ý sử dụng:
- BIC phù hợp khi muốn mô hình đơn giản và dễ hiểu, yêu cầu bằng chứng mạnh để thêm biến.
Lưu ý: Cả AIC và BIC không phải là kiểm định thống kê, nên không có p-value hay thống kê kiểm định đi kèm.
Bên cạnh đó Một số công cụ hỗ trợ cho việc lựa chọn mô hình có sẵn, nhưng cần phải được sử dụng với sự thận trọng cao độ. Các hàm trong R như drop1() và add1() giúp loại bỏ hoặc thêm từng biến giải thích một vào mô hình. Các thủ tục chọn mô hình tự động như hồi quy tiến, loại bỏ lùi và chọn bước là những phương pháp tự động để lựa chọn mô hình. Cuối cùng, bất kỳ hệ số hồi quy nào cũng nên được giải thích trong phạm vi các giới hạn của mô hình và dữ liệu.
]Phát hiện và xử lý vi phạm giả định trong hồi quy tuyến tính bằng cách sử dụng phân tích chẩn đoán (diagnostics), đặc biệt thông qua phần dư (residuals).]{style=“color:blue”}
Phần dư thô (Raw residuals):
\[ r_i = y_i - \hat{y}_i \]
Phần dư chuẩn hóa (Standardized residuals):
\[ r_i^* = \frac{r_i}{\hat{\sigma} \sqrt{1 - h_i}} \]
Phần dư Student hóa (Studentized residuals):
\[ t_i = \frac{r_i}{\hat{\sigma}_{(i)} \sqrt{1 - h_i}} \]
Trong đó:
\[ h_i = \mathbf{x}_i^\top (X^\top X)^{-1} \mathbf{x}_i \]
| Giả định cần kiểm tra | Biểu đồ đề xuất |
|---|---|
| Tuyến tính | \(r_i^*\) vs. từng biến giải thích |
| Phương sai không đổi | \(r_i^*\) vs. \(\hat{y}_i\) |
| Phân phối chuẩn | Q-Q plot của phần dư |
| Độc lập giữa các quan sát | Phần dư theo thời gian hoặc vị trí |
Cook’s Distance:
\[ D_i = \frac{r_i^2}{p } \cdot \frac{h_i}{(1 - h_i)} \]
DFFITS:
\[ \text{DFFITS}_i = t_i \cdot \sqrt{\frac{h_i}{1 - h_i}} \]
DFBETAS (với từng hệ số \(\beta_j\)):
\[\text{DFBETAS}_{ij} = \frac{\hat{\beta}_j - \hat{\beta}_{j(i)}}{\text{SE}(\hat{\beta}_{j(i)})}\]
CR:
\[ CR = \frac{1}{1 - h} \cdot \left( \frac{n - p}{n - p + r^2} \right)^p \]
Biến đổi biến giải thích
Thêm đa thức:
\[ y = \beta_0 + \beta_1 x + \beta_2 x^2 + \dots + \beta_k x^k + \varepsilon \]
Hoặc sử dụng splines để mô hình hóa phi tuyến mềm dẻo hơn.
Phát hiện bằng:
Variance Inflation Factor (VIF):
\[ \text{VIF}_j = \frac{1}{1 - R_j^2} \]
Trong đó \(R_j^2\) là hệ số xác định khi hồi quy \(x_j\) theo các biến giải thích còn lại.
]Giới thiệu phương pháp hợp lý cực đại (Maximum Likelihood - ML) để ước lượng mô hình, vượt ra ngoài hồi quy tuyến tính — chuẩn bị cho việc hiểu mô hình tuyến tính tổng quát (GLM).]{style=“color:blue”}
Mô hình hồi quy tuyến tính trong Chương 2 giả định thành phần ngẫu nhiên có phương sai không đổi và thường phân phối chuẩn. Tuy nhiên, có 3 trường hợp phổ biến mà giả định này không đúng, nên mô hình tuyến tính không phù hợp:
Biến phản hồi là tỉ lệ (proportion) trong khoảng
[0,1]
Khi tỉ lệ gần 0 hoặc 1, phương sai giảm về 0, không phải là hằng
số.
Phân phối chuẩn không phù hợp vì biến bị giới hạn trong khoảng
này.
Phân phối Binomial phù hợp để mô hình hóa tỉ lệ hoặc số
lần thành công trong tổng số đếm.
Ví dụ đặc biệt: biến nhị phân (binary data) chỉ có hai kết quả (thành
công/thất bại).
Biến phản hồi là số đếm (count data)
Khi số đếm gần 0, phương sai cũng giảm.
Biến đếm là rời rạc, không âm, nên phân phối chuẩn không thích
hợp.
Phân phối Poisson hoặc Negative
Binomial thường được sử dụng để mô hình hóa.
Biến phản hồi là số dương liên tục (positive
continuous)
Biến luôn dương và thường lệch phải (right-skewed).
Phân phối chuẩn không thích hợp vì nó cho phép giá trị âm.
Phân phối Gamma hoặc Inverse Gaussian
được dùng nhiều cho loại dữ liệu này.
Lưu ý: Quan hệ giữa biến phản hồi \(y\) và biến giải thích thường không tuyến tính trong các trường hợp này do biến phản hồi bị giới hạn.
Biến phản hồi nhị phân có 2 trạng thái không thể được biến đổi thành
phân phối chuẩn.
Tương tự với biến binomial (tổng các biến nhị phân).
Ví dụ: Nghiên cứu số chim noisy miner \(y\) theo số cây bạch đàn \(x\).
Thành phần hệ thống (systematic component) mô hình bằng log tuyến tính:
\[ \log \mu = \beta_0 + \beta_1 x \]
Thành phần ngẫu nhiên (random component) dùng phân phối Poisson:
\[ y \sim \text{Poisson}(\mu), \quad y = 0,1,2,\ldots \]
Mô hình tổng hợp:
\[ \begin{cases} y \sim \text{Poisson}(\mu) \\ \log \mu = \beta_0 + \beta_1 x \end{cases} \]
Ví dụ: Thời gian phục vụ máy bán nước \(y\), hai biến giải thích là số kiện hàng \(x_1\) và quãng đường đi bộ \(x_2\).
Mô hình hợp lý sử dụng phân phối Gamma:
\[ \begin{cases} y \sim \text{Gamma}(\mu; \phi) \\ \mu = \beta_0 + \beta_1 x_1 + \beta_2 x_2 \end{cases} \]
Trong đó, \(\phi\) liên quan đến phương sai của phân phối Gamma.
Trong phần này, tác giả mở rộng mô hình hồi quy tuyến tính (normal linear model) thành mô hình tuyến tính tổng quát (GLM - Generalized Linear Models) để áp dụng cho các dạng dữ liệu và phân phối khác nhau.
Các mô hình chứa nhiều loại thành phần ngẫu nhiên và hệ thống khác nhau. Do đó, các giả định tuyến tính và phương sai không đổi trong Chương 2 và 3 không còn phù hợp.
Thay vì phát triển lý thuyết riêng cho từng mô hình, GLM cung cấp một khung lý thuyết thống nhất, bao phủ các mô hình sử dụng các phân phối sau:
Các mô hình GLM dựa trên họ phân phối gọi là Exponential Dispersion Models (EDMs) — hỗ trợ xây dựng thuật toán, suy luận, và công cụ chẩn đoán một cách thống nhất.
Lưu ý: GLM không bao gồm những phân phối không thuộc EDM, chẳng hạn như Weibull, von Mises, v.v.
Ưu điểm của GLM:
Trong mô hình hồi quy tuyến tính chuẩn, phương pháp bình phương tối thiểu (Least Squares) được dùng để ước lượng.
MLE là một phương pháp tổng quát hơn, áp dụng được cho nhiều phân phối như Binomial, Poisson, Gamma, v.v.
Nguyên lý MLE: Tìm giá trị của tham số sao cho tối đa hóa hàm mật độ xác suất (likelihood) với dữ liệu đã quan sát.
Ví dụ với phân phối mũ (exponential):
\[ P(y; \theta) = \theta \cdot \exp(-y\theta) \]
\[ L(\theta; y) = \theta^n \cdot \exp(-n\theta \cdot \bar{y}) \]
\[ \hat{\theta} = \frac{1}{\bar{y}} \]
Khi sử dụng MLE:
Thay vì dùng hàm likelihood, log-likelihood thường được sử dụng vì:
Kết nối với Least Squares:
Score function \[ U(\zeta) = \frac{d \ell}{d \zeta} \] là đạo hàm của log-likelihood theo tham số \(\zeta\).
Ước lượng cực đại hợp lý (MLE) \(\hat{\zeta}\) là nghiệm của phương trình: \[ U(\hat{\zeta}) = 0 \] Log-likelihood trong GLM luôn đơn đỉnh và khả vi, nên nghiệm này là cực đại toàn cục.
Tính chất quan trọng: \[ E[U(\zeta)] = 0, \quad \mathrm{Var}[U(\zeta)] = E[U(\zeta)^2] \]
Ví dụ (Bernoulli):
Hàm log-likelihood: \[ \ell(\mu; y) = \sum_{i=1}^n y_i \log \mu + (1 - y_i) \log (1 - \mu) \]
Score function: \[ U(\mu) = \frac{n(\bar{y} - \mu)}{\mu (1 - \mu)} \]
Giải \(U(\hat{\mu}) = 0\) ta được: \[ \hat{\mu} = \bar{y} \] tức là MLE của \(\mu\) chính là trung bình mẫu.
Thông tin quan sát: \[ J(\zeta) = - \frac{d^2 \ell(\zeta)}{d \zeta^2} = - \frac{d U(\zeta)}{d \zeta} \]
Thông tin kỳ vọng (Fisher information): \[ I(\zeta) = E[J(\zeta)] \]
Thông tin kỳ vọng thường dễ tính hơn, luôn dương, và là đặc trưng của mô hình.
Phương sai của MLE xấp xỉ: \[ \mathrm{Var}[\hat{\zeta}] \approx \frac{1}{I(\zeta)} \]
Sai số chuẩn của \(\hat{\zeta}\) được tính bằng: \[ \mathrm{SE}(\hat{\zeta}) = \frac{1}{\sqrt{I(\hat{\zeta})}} \]