PHẦN 1

TÓM TẮT CUỐN SÁCH “Generalized Linear Models With Examples in R” CỦA PETER K.DUNN VÀ GORDON K .SMYTH

Cuốn Generalized Linear Models with Examples in R với mục tiêu giúp người đọc hiểu rõ cả về lý thuyết lẫn cách áp dụng các mô hình hồi quy tuyến tính tổng quát (GLM) trong thực tiễn bằng phần mềm R. Sách được viết theo hướng dễ tiếp cận, phù hợp với người học có kiến thức cơ bản về thống kê và giải tích — cụ thể là hiểu về xác suất, phân phối xác suất và kiểm định giả thuyết. Các chương đầu cung cấp phần giới thiệu tự chứa về hồi quy tuyến tính và phân tích phương sai (ANOVA), thích hợp cho khóa học thống kê cấp hai. Bên cạnh đó, sách còn có các phần mở rộng nâng cao dành cho những người đã học đại số ma trận hoặc đang theo học cao học, giúp người đọc hiểu sâu hơn về thuật toán và lý thuyết nền tảng. Nhờ cách trình bày linh hoạt này, sách có thể sử dụng cho nhiều đối tượng, từ sinh viên đến các nhà nghiên cứu và chuyên gia thống kê.

CHƯƠNG 1: STATISTICAL MODELS - MÔ HÌNH THỐNG KÊ

Chương này bắt đầu với việc giới thiệu khái niệm mô hình thống kê, trong đó:

  • y là biến kết quả(response variable)

  • n là số quan sát

  • \(x_1\), \(x_2\),…, \(x_p\) là các biến giải thích (explanatory variables)

Các biến giải thích có thể là định lượng (covariates) hoặc định tính (factors). Khi thực hiện phân tích data định lượng có thể dễ dàng hơ vì chúng ddueuwocj trình bài dưới dạng số học tuy nhiên dữ liệu định tính thì ngược lại. Để đưa các biến định tính vào mô hình, ta phải chuyển chúng thành dạng số thông qua các biến giả (dummy variables). Phương pháp mã hóa phổ biến là mã hóa treatment, với \(k-1\) biến giả cho một biến factor có k mức. Một cách đơn giản hơn, khi dữ liệu định tính gồm 3 mức độ đo lường sự hài lòng của khách hàng tuwg không thoải mái, bình thường và hài lòng ta sẽ đưa 2 biến giả vào mô hình.

Tại chương này cũng khuyến khích việc ứng dụng các biểu đồ để trình bày rõ hơn tại các bước đầu, tuy nhiên để đào sâu hơn vào cốt lõi của nó cần xây dựng các mô hình thống kê. Có 2 thành phần chính của mô hình thống kê:

  • Thành phần hệ thống (systematic component): mô tả mối quan hệ giữa giá trị trung bình của biến kết quả với các biến giải thích hay mô tả kì vọng \(\mu_i = \mathbb{E}[y_i]\) của biến kết quả dựa trên các biến giải thích. Ví dụ, một mô hình đơn giản có dạng:

\[ \mu_i = \beta_0 + \beta_1 x_{1i} + \beta_2 x_{2i} + \beta_3 x_{3i} + \beta_4 x_{4i} \]Trong đó:

\(x_{1i}\): tuổi của đối tượng thứ \(i\)

\(x_{2i}\): chiều cao (cm) của đối tượng thứ \(i\)

\(x_{3i}\): giới tính (biến giả; 1 = nam, 0 = nữ)

\(x_{4i}\): tình trạng hút thuốc (biến giả; 1 = có hút, 0 = không hút)

  • Thành phần ngẫu nhiên (random component): mô tả sự biến thiên quanh giá trị trung bình \(\mu_i\). Có thể giả định phương sai không đổi \(\text{var}[y_i] = \sigma^2\), hoặc gỉa định phân phối chuẩn: \[ y_i \sim \mathcal{N}(\mu_i, \sigma^2) \]

Cần lưu ý rằng các giả định đơn giản như tuyến tính hay phương sai không đổi thường không phù hợp, vì dữ liệu có thể thể hiện mối quan hệ phi tuyến hoặc phương sai thay đổi theo giá trị trung bình. Do đó, cần cân nhắc các lựa chọn mô hình khác hoặc các phân phối khác ngoài phân phối chuẩn.

Mô hình thống kê là sự kết hợp giữa hai thành phần này để phản ánh đầy đủ đặc điểm của dữ liệu thực tế với mục đích cuối cùng là để dự báo và hiểu rõ mối quan hệ giữa các biến

Có 2 tiêu chí luôn cần được ưu tiên khi xây dựng mô hình hoàn chỉnh là đảm bảo được sự đơn giản và chính xác (parsimony and accuracy). Tức là mô hình đơn giản nhất nhưng vẫn mô tả đúng đặc điểm và sự biến thiên của dữ liệu, tránh việc giả thuyết chồng chéo và dày đặc các phương pháp khác nhau sẽ làm cho kết quả ước lượng khôn khớp với thực tế. Đây cũng chính là nguyên tắc “OCCAM’S RAZOR” trong kinh tế lượng.

Tuy nhiên, phương pháp thu thập dữ liệu ảnh hưởng rất lớn đến những kết luận có thể rút ra từ phân tích. . Trong nghiên cứu quan sát, dữ liệu chỉ được thu thập mà không can thiệp, nên mô hình chỉ thể hiện mối quan hệ tương quan, không đủ bằng chứng khẳng định được quan hệ nhân quả. Trong nghiên cứu thực nghiệm, khi người nghiên cứu kiểm soát biến giải thích, mô hình có thể hỗ trợ kết luận về quan hệ nhân quả.

Mặc dù các mô hình thống kê xử lý dữ liệu từ cả hai loại nghiên cứu này theo cách tương tự và kết luận thống kê có thể trông giống nhau, nhưng các kết luận khoa học rút ra từ thí nghiệm thường mạnh mẽ và đáng tin cậy hơn. Trong nghiên cứu quan sát, việc tốt nhất có thể làm là đo đạc và kiểm soát càng nhiều biến ngoại lai (extraneous variables) có thể ảnh hưởng đến biến phản hồi, nhằm điều chỉnh các ảnh hưởng không được kiểm soát trong thiết kế nghiên cứu.

CHƯƠNG 2: LINEAR REGRESSION MODELS - MÔ HÌNH HỒI QUY TUYẾN TÍNH

Tại chương này tác giả khai thác vào các mô hình hồi quy tuyến tính.

Thành phần ngẫu nhiên giả định rằng các phản hồi \(y_i\) có phương sai không đổi \(\sigma^2\), hoặc phương sai tỉ lệ với các trọng số dương, đã biết \(w_i\); tức là:

\[ \operatorname{var}(y_i) = \sigma^2 w_i, \quad i = 1, 2, \ldots, n. \]

Các \(w_i\) được gọi là trọng số ưu tiên (prior weights), cho phép gán trọng số cao hơn cho một số quan sát nhất định.

Thành phần hệ thống giả định rằng kỳ vọng của phản hồi \(\mathbb{E}[y_i] = \mu_i\) có quan hệ tuyến tính với các biến giải thích \(x_{ji}\), như sau:

\[ \mu_i = \beta_0 + \sum_{j=1}^{p} \beta_j x_{ji}. \]

Kết hợp hai thành phần trên, mô hình hồi quy tuyến tính có dạng tổng quát như sau:

\[ \begin{cases} \operatorname{var}(y_i) = \sigma^2 w_i, \\\\ \mu_i = \beta_0 + \sum_{j=1}^{p} \beta_j x_{ji}, \end{cases} \quad \text{với } \mathbb{E}[y_i] = \mu_i. \]

Trong đó:

 Các trọng số \(w_i\) là đã biết;

 Các tham số hồi quy \(\beta_0, \beta_1, \ldots, \beta_p\) và phương sai sai số \(\sigma^2\)chưa biết và cần được ước lượng từ dữ liệu.

Các trường hợp đặc biệt

  • Mô hình có thành phần hệ thống \(\mu = \beta_0 + \beta_1 x_1\) (tức là \(p = 1\), và tổng số tham số là 2) được gọi là mô hình hồi quy tuyến tính đơn (simple linear regression model).

  • Mô hình với tất cả các trọng số ưu tiên \(w_i = 1\) (với mọi \(i\)) được gọi là mô hình hồi quy tuyến tính thường (ordinary linear regression model), để phân biệt với mô hình hồi quy tuyến tính có trọng số (weighted linear regression model) khi \(w_i\) khác nhau.

  • Mô hình có \(p > 1\) thường được gọi là mô hình hồi quy tuyến tính bội (multiple linear regression model).

  • Mô hình có thêm giả định \(y_i \sim \mathcal{N}(\mu_i, \sigma^2 / w_i)\) được gọi là mô hình hồi quy tuyến tính chuẩn (normal linear regression) 2.1 Mô hình hồi quy đơn

2.1 Estimation for Simple Linear Regression

2.1.1 Least-Squares Estimation

  • Mô hình: \(\mu_i = \beta_0 + \beta_1 x_i\) với \({var}(y_i) = \frac{\sigma^2}{w_i}\)

  • Mục tiêu: tìm \(\beta_0\)\(\beta_1\) sao cho giá trị thực \(y_i\) và giá trị dự báo \(\mu_i\) từ mô hình là nhỏ nhất.

  • Phương pháp: Dùng phương pháp bình phương tối thiểu có trọng số, tức là minimize hàm:

\[ S(\beta_0, \beta_1) = \sum_{i=1}^n w_i (y_i - \beta_0 - \beta_1 x_i)^2 \]

2.1.2 Coefficient Estimates

Đạo hàm riêng của \(S\) theo \(\beta_0\)\(\beta_1\) được đặt bằng 0 để tìm nghiệm tối ưu:

\[ \frac{\partial S}{\partial \beta_0} = 2 \sum w_i (y_i - \mu_i) = 0 \]

\[ \frac{\partial S}{\partial \beta_1} = 2 \sum w_i x_i (y_i - \mu_i) = 0 \]

Nghiệm: \[ \hat{\beta}_1 = \frac{\sum w_i (x_i - \bar{x}_w)(y_i)}{\sum w_i (x_i - \bar{x}_w)^2} \]

\[ \hat{\beta}_0 = \bar{y}_w - \hat{\beta}_1 \bar{x}_w \]

Giá trị dự báo: \(\hat{\mu}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i\)

Tổng bình phương phần dư (residual sum-of-squares – RSS):

\[ RSS = \sum w_i (y_i - \hat{\mu}_i)^2 = \sum w_i (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i)^2 \]

2.1.3 Estimate the Variance \(\sigma^2\)

Nếu \(\mu_i\) là đã biết, thì: \(\hat{\sigma}^2 = \frac{rss}{n}\)

Nhưng vì \(\mu_i\) được ước lượng từ dữ liệu, nên ta dùng: $s^2 = $

Lý do chia cho \(n - 2\):

Có 2 tham số (\(\beta_0, \beta_1\)) được ước lượng từ dữ liệu → mất 2 bậc tự do.

Vì vậy, residual degrees of freedom\(n - 2\).

2.1.4 Standard Errors of the Coefficients

  • Phương sai ước lượng của hệ số:

\[ \text{var}[\hat{\beta}_1] = \frac{\sigma^2}{SS_x}, \quad \text{var}[\hat{\beta}_0] = \sigma^2 \left( \frac{1}{\sum w_i} + \frac{\bar{x}_w^2}{SS_x} \right) \]

  • Ước lượng thực tế: Thay \(\sigma^2\) bằng \(s^2\) (ở trên), và lấy căn bậc hai:

\[ \text{se}(\hat{\beta}_1) = \frac{s}{\sqrt{SS_x}}, \quad \text{se}(\hat{\beta}_0) = s \sqrt{ \frac{1}{\sum w_i} + \frac{\bar{x}_w^2}{SS_x} } \]

Các giá trị này đo lường độ không chắc chắn (uncertainty) trong việc ước lượng các hệ số.

2.1.5 Standard Errors of Fitted Values

  • Giá trị dự đoán tại một điểm cụ thể \(x_g\):

\[ \hat{\mu}_g = \hat{\beta}_0 + \hat{\beta}_1 x_g \]

  • Phương sai của giá trị dự đoán:

\[ \text{var}[\hat{\mu}_g] = \sigma^2 \left( \frac{1}{\sum w_i} + \frac{(x_g - \bar{x}_w)^2}{SS_x} \right)\]

  • Sai số chuẩn (Standard Error):

\[ \text{se}(\hat{\mu}_g) = \sqrt{ \text{var}[\hat{\mu}_g] } \]

  • Điều này cho thấy sai số dự báo tăng lên khi \(x_g\) cách xa trung bình trọng số \(\bar{x}_w\).

2.2 Estimate for Multiple Regression

2.2.1 Coefficient Estimates

Mô hình hồi quy tuyến tính tổng quát có \(p\) biến giải thích, và cần ước lượng \(p + 1\) hệ số \(\beta_0, \beta_1, \dots, \beta_p\), trong đó \(\beta_0\) là hệ số chặn (intercept).

Đặt:

\[ S = \sum_{i=1}^{n} w_i (y_i - \mu_i)^2 \]

là tổng bình phương sai số có trọng số, phản ánh độ khớp giữa giá trị mô hình và dữ liệu thực tế.

  • Mục tiêu: Tìm bộ hệ số \(\hat{\beta}_j\) sao cho tối thiểu hóa \(S\) (giống như simple linear regression).

  • Điều kiện cần để đạt cực tiểu:

\[ \frac{\partial S}{\partial \beta_j} = 0 \quad \text{với mọi } j = 0, 1, \dots, p \]

→ Ta có một hệ \(p + 1\) phương trình tuyến tính cần giải.

  • Ước lượng bình phương tối thiểu có dạng:

\[ \hat{\beta}_j = \frac{ \sum_{i=1}^{n} w_i x_{ij}^* y_i }{ \sum_{i=1}^{n} w_i (x_{ij}^*)^2 } \]

Trong đó:

  • \(x_{ij}^*\): giá trị của biến giải thích \(x_j\) sau khi đã điều chỉnh để loại bỏ ảnh hưởng của các biến giải thích khác (chính là phần dư từ hồi quy \(x_j\) lên các biến còn lại).

Kết quả trên tương tự như công thức trong hồi quy đơn (chỉ cần điều chỉnh biến giải thích cho trung bình).

  • Giá trị dự báo: \(\hat{\mu}_i = \hat{\beta}_0 + \sum_{j=1}^{p} \hat{\beta}_j x_{ji}\)

  • Phần dư (residual): \(r_i = y_i - \hat{\mu}_i\)

Lưu ý: Trong phương pháp bình phương tối thiểu, không cần biết giá trị của \(\sigma^2\) để ước lượng các \(\beta_j\).

2.2.2 Estimate the Variance \(\sigma^2\)

  • Tổng bình phương phần dư (residual sum-of-squares - RSS):

\[ \text{RSS} = \sum_{i=1}^{n} w_i \left( y_i - \hat{\mu}_i \right)^2 \]

  • Số bậc tự do phần dư: \(n - p\) với \(p\) là số tham số ước lượng (bao gồm cả hệ số chặn).

  • Ước lượng không chệch của phương sai: \(s^2 = \frac{\text{RSS}}{n - p}\)

2.2.3 Standard Errors

Gọi:

\[ I_j^* = \sum_{i=1}^{n} w_i \left(x_{ij}^*\right)^2 \]

là tổng bình phương của biến giải thích \(x_j\) sau khi đã điều chỉnh ảnh hưởng từ các biến khác.

  • \(I_j^*\) phản ánh mức độ “tốt” của dữ liệu trong việc ước lượng \(\beta_j\):

\(I_j^*\) lớn: nếu \(x_j\) ít tương quan với các biến còn lại → hệ số ước lượng ổn định hơn

\(I_j^*\) nhỏ: nếu \(x_j\) tương quan mạnh với các biến khác → ước lượng dễ sai

  • Phương sai của hệ số: \(\text{var}(\hat{\beta}_j) = \frac{\sigma^2}{I_j^*}\)

  • Ước lượng sai số chuẩn: \(\text{se}(\hat{\beta}_j) = \frac{s}{\sqrt{I_j^*}}\)

2.3 Matrix Formulation of Linear Regression Models

2.3.1 Matrix Notation

  • Gọi \(y\)vector cột \(n \times 1\) chứa các biến phụ thuộc (response variable).

  • Gọi \(X\)ma trận mô hình \(n \times p\), mỗi cột là một biến giải thích (explanatory variable), bao gồm cả cột \(x_0\) là vector toàn 1 để đại diện cho hệ số chặn (intercept).

  • Dạng ma trận của mô hình hồi quy tuyến tính:

\[ \begin{aligned} E[y] &= \mu = X\beta \\ \text{Var}[y] &= \sigma^2 W^{-1} \end{aligned} \]

Trong đó:

\(\beta\)vector hệ số hồi quy kích thước \(p \times 1\)

\(W^{-1}\)ma trận hiệp phương sai đã biết, đối xứng và xác định dương (positive-definite)

  • Trường hợp đặc biệt:

Nếu \(W^{-1}\)ma trận đường chéo với phần tử \((i, i) = 1/w_i\) và các phần tử ngoài đường chéo bằng 0 → ta có hồi quy bình phương tối thiểu có trọng số (Weighted Least Squares - WLS).

  • Trường hợp phổ biến nhấtkhông trọng số, khi đó:

\[ W^{-1} = I_n \]

2.3.2 Coefficient Estimates

  • Mục tiêu

Tìm ước lượng \(\hat{\beta}\) sao cho tổng bình phương sai số có trọng số là nhỏ nhất:

\[ S = (y - X\beta)^T W (y - X\beta) \]

  • Giải pháp

Giải hệ phương trình:

\[ X^T W X \hat{\beta} = X^T W y \quad \Rightarrow \quad \hat{\beta} = (X^T W X)^{-1} X^T W y \]

  • Trong phần mềm R

R không tính nghịch đảo ma trận một cách trực tiếp (để tránh sai số số học).

Thay vào đó, R sử dụng QR decomposition hoặc cholesky decomposition để giải hệ:

  • Ý nghĩa

Công thức WLS là mở rộng tự nhiên của hồi quy tuyến tính từ một biến lên nhiều biến bằng cách sử dụng ma trận.

Về bản chất, đây vẫn là công thức kiểu “tổng tích chéo chia tổng bình phương”.

Việc dùng đại số ma trận giúp tăng tốc độ tính toán và nâng độ chính xác, đặc biệt với nhiều biến giải thích hoặc dữ liệu lớn.

2.3.3 Estimate the Variance \(\sigma^2\) and \(\hat{\beta}\)

  1. Ước lượng phương sai sai số \(\sigma^2\) (s²)

Sau khi đã có \(\hat{\beta}\), ta tính giá trị dự báo:

\[ \hat{\mu} = X \hat{\beta} \]

Phương sai sai số được ước lượng bằng:

\[ s^2 = \frac{(y - \hat{\mu})^T W (y - \hat{\mu})}{n - p} = \frac{\text{RSS}}{n - p} \]

Đây là ước lượng không chệch của phương sai sai số \(\sigma^2\), với \(n - p\)số bậc tự do (số quan sát trừ số tham số ước lượng).

  1. Ma trận phương sai–hiệp phương sai của hệ số hồi quy \(\hat{\beta}\)

Công thức:

\[ \operatorname{Var}(\hat{\beta}) = \sigma^2 (X^T W X)^{-1} \]

Ước lượng từ dữ liệu:

\[ \widehat{\operatorname{Var}}(\hat{\beta}) = s^2 (X^T W X)^{-1} \]

Các phần tử đường chéo của ma trận này là \(\widehat{\operatorname{Var}}(\hat{\beta}_j)\), tức phương sai của từng hệ số.

Từ đó, ta tính sai số chuẩn (standard error) của từng hệ số:

\[ \operatorname{se}(\hat{\beta}_j) = \sqrt{ \widehat{\operatorname{Var}}(\hat{\beta}_j) } \]

Ý nghĩa

Sai số chuẩn giúp thực hiện kiểm định giả thuyết đối với các hệ số hồi quy (ví dụ: \(H_0: \beta_j = 0\)). Dùng để tính khoảng tin cậy cho \(\beta_j\). Là bước quan trọng để đánh giá ý nghĩa thống kê của các biến giải thích trong mô hình.

2.3.4 Estimating the Variance of Fitted Values

1.Dự báo trung bình tại điểm \(x_g\)

Khi muốn dự báo giá trị trung bình của biến phụ thuộc \(y\) tại một điểm cụ thể \(x_g\) (vector hàng chứa các giá trị cụ thể của biến độc lập), ta dùng công thức:

\[ \hat{\mu}_g = x_g \hat{\beta} \]

2. Phương sai của \(\hat{\mu}_g\)

\(\hat{\mu}_g\) phụ thuộc vào \(\hat{\beta}\), nên nó có sai số. Phương sai của \(\hat{\mu}_g\) là:

\[ \operatorname{Var}(\hat{\mu}_g) = x_g (X^T W X)^{-1} x_g^T \cdot \sigma^2 \]

Đây là phương sai của giá trị dự báo trung bình tại điểm \(x_g\).

3. Ước lượng từ dữ liệu

\(\sigma^2\) chưa biết, ta thay bằng \(s^2\) (ước lượng không chệch từ phần dư):

\[ \widehat{\operatorname{Var}}(\hat{\mu}_g) = x_g (X^T W X)^{-1} x_g^T \cdot s^2 \]

4. Sai số chuẩn của dự báo

Sai số chuẩn (standard error) được tính như sau:

\[ \operatorname{se}(\hat{\mu}_g) = \sqrt{ x_g (X^T W X)^{-1} x_g^T \cdot s^2 } \]

  • Ý nghĩa

Sai số chuẩn này cho biết mức độ không chắc chắn của giá trị trung bình dự báo tại điểm \(x_g\).

  • Dùng để: - Tính khoảng tin cậy cho \(\mu_g\)

  • *** Lưu ý: *** Sau khi ước lượng xong mô hình hồi quy, việc giải thích các hệ số hồi quy là bước cực kỳ quan trọng nhằm xác thực tính hợp lý của mô hình, đảm bảo mô hình có tính hợp lí sát với thực tế.

2.4 Inference for Linear Regression Models: t-Tests

2.4.1 Normal Linear Regression Models

Trước đó, mô hình hồi quy tuyến tính giả định rằng các sai số có kỳ vọng bằng 0 và phương sai không đổi, nhưng chưa giả định một phân phối cụ thể cho sai số.

Để thực hiện kiểm định thống kê và xây dựng khoảng tin cậy, ta cần giả định rằng biến phụ thuộc có phân phối chuẩn:

\[ y_i \sim \mathcal{N}(\mu_i, \sigma^2 / w_i) \]

trong đó: \(mu_i = \beta_0 + \sum_{j=1}^{p} \beta_j x_{ji} = x_i \beta\)

Mô hình này được gọi là mô hình hồi quy tuyến tính chuẩn (normal linear regression model).

Lưu ý: - Phân phối chuẩn là cần thiết khi cỡ mẫu nhỏ để áp dụng các suy luận thống kê cổ điển. - Với cỡ mẫu lớn, định lý giới hạn trung tâm cho phép ta tiếp tục sử dụng các kiểm định mặc dù phân phối thực sự của sai số không chuẩn.

2.4.2 Phân phối của ước lượng \(\hat{\beta}_j\)

Trong mô hình hồi quy tuyến tính chuẩn, các ước lượng hệ số hồi quy \(\hat{\beta}_j\)ước lượng tuyến tính không chệch tốt nhất (BLUE), và chúng có phân phối:

\[ \hat{\beta}_j \sim \mathcal{N}(\beta_j, \operatorname{Var}[\hat{\beta}_j]) \]

Khi phương sai sai số \(\sigma^2\) được biết, ta dùng thống kê z:

\[ Z = \frac{\hat{\beta}_j - \beta_j}{\operatorname{se}(\hat{\beta}_j)} \sim \mathcal{N}(0, 1) \]

Khi \(\sigma^2\) không biết (thường gặp trong thực tế), ta thay bằng ước lượng \(s^2\) từ phần dư, khi đó thống kê kiểm định trở thành:

\[ T = \frac{\hat{\beta}_j - \beta_j}{\operatorname{se}(\hat{\beta}_j)} \sim t_{n - p} \]

Trong đó: - \(n\): số lượng quan sát - \(p\): số lượng hệ số hồi quy (bao gồm hệ số chặn nếu có) - \(\operatorname{se}(\hat{\beta}_j) = \sqrt{\widehat{\operatorname{Var}}[\hat{\beta}_j]}\)

2.4.3 Kiểm định giả thuyết cho \(\beta_j\)

Giả thuyết kiểm định cho hệ số \(\beta_j\):

  • Giả thuyết không (null hypothesis): \[ H_0: \beta_j = \beta_{j0} \] (thường là \(\beta_{j0} = 0\))

  • Giả thuyết đối (alternative hypothesis): \[ H_A: \beta_j \ne \beta_{j0} \quad \text{(hai phía)}, \quad \text{hoặc } \beta_j > \beta_{j0}, \text{ hoặc } \beta_j < \beta_{j0} \]

Thống kê kiểm định:

\[ T = \frac{\hat{\beta}_j - \beta_{j0}}{\operatorname{se}(\hat{\beta}_j)} \sim t_{n - p} \]

  • So sánh với giá trị tới hạn từ phân phối \(t\).
  • Hoặc tính p-value bằng pt() trong R để đưa ra kết luận ở mức ý nghĩa \(\alpha\).

2.8.4 Khoảng tin cậy cho \(\beta_j\)

Khoảng tin cậy \(100(1 - \alpha)\%\) cho hệ số \(\beta_j\) là:

\[ \hat{\beta}_j \pm t_{\alpha / 2, n - p} \cdot \operatorname{se}(\hat{\beta}_j) \]

2.5 Analysis of Variance – ANOVA

1. Tách biến phụ thuộc thành phần dự đoán và phần dư

Mỗi giá trị quan sát \(y_i\) có thể được biểu diễn dưới dạng:

\[ y_i = \hat{\mu}_i + (y_i - \hat{\mu}_i) \]

Trong đó: - \(\hat{\mu}_i = \hat{\beta}_0 + \sum_{j=1}^{p} \hat{\beta}_j x_{ij}\): là giá trị dự đoán. - \(y_i - \hat{\mu}_i\): là phần dư (residual).

Hay nói cách khác:

\[ \text{Dữ liệu} = \text{Giá trị dự đoán} + \text{Phần dư} \]

2. Tổng bình phương và bản chất của ANOVA

Xét biến phụ thuộc sau khi đã trừ đi trung bình có trọng số \(\bar{y}_w\), ta có:

\[ y_i - \bar{y}_w = (\hat{\mu}_i - \bar{y}_w) + (y_i - \hat{\mu}_i) \]

Bình phương hai vế và tổng lại theo chỉ số \(i\):

\[ \sum w_i (y_i - \bar{y}_w)^2 = \sum w_i (\hat{\mu}_i - \bar{y}_w)^2 + \sum w_i (y_i - \hat{\mu}_i)^2 \]

Ta có đẳng thức:

\[ \text{TSS} = \text{SSR} + \text{RSS} \]

Trong đó: - TSS (Total Sum of Squares) – Tổng bình phương tổng thể:

\[ \text{TSS} = \sum w_i (y_i - \bar{y}_w)^2 \]

  • SSR (Sum of Squares for Regression) – Tổng bình phương hồi quy:

\[ \text{SSR} = \sum w_i (\hat{\mu}_i - \bar{y}_w)^2 \]

  • RSS (Residual Sum of Squares) – Tổng bình phương phần dư:

\[ \text{RSS} = \sum w_i (y_i - \hat{\mu}_i)^2 \]

Ý nghĩa:

  • SSR phản ánh phần biến thiên của \(y\) được giải thích bởi mô hình.

  • RSS là phần biến thiên không được mô hình giải thích (do ngẫu nhiên/sai số).

3. Kiểm định ý nghĩa của mô hình bằng thống kê F

Giả thuyết cần kiểm định:

\[ H_0: \beta_1 = \beta_2 = \ldots = \beta_p = 0 \]

Nếu \(H_0\) đúng: các biến giải thích không ảnh hưởng đáng kể đến \(y\).

Thống kê kiểm định:

\[ F = \frac{\text{SSR} / (p - 1)}{\text{RSS} / (n - p)} = \frac{\text{msReg}}{\text{mse}} \]

Trong đó:

  • \(\text{msReg} = \text{SSR} / (p - 1)\): trung bình bình phương hồi quy

  • \(\text{mse} = \text{RSS} / (n - p) = s^2\): trung bình bình phương sai số

Thống kê \(F\) tuân theo phân phối:

\[ F \sim F_{p - 1, n - p} \]

Nếu \(F\) lớn → bác bỏ \(H_0\) → mô hình có ý nghĩa thống kê.

4. Bảng phân tích phương sai (ANOVA Table)

Nguồn biến động Tổng bình phương df Bình phương trung bình F
Hồi quy (SSR) SSR \(p - 1\) SSR / (p − 1) msReg / mse
Phần dư (RSS) RSS \(n - p\) RSS / (n − p) = mse
Tổng (TSS) TSS \(n - 1\)

5. Hệ số xác định \(R^2\)

Hệ số xác định đo lường mức độ mà mô hình giải thích được phương sai của biến phụ thuộc:

\[ R^2 = \frac{\text{SSR}}{\text{TSS}} = 1 - \frac{\text{RSS}}{\text{TSS}} \]

Ý nghĩa:

  • \(R^2 \in [0, 1]\) - Càng gần 1 → mô hình càng giải thích tốt dữ liệu.

  • \(R^2 = 0\) → mô hình không giải thích được gì. - \(R^2 = 1\) → mô hình giải thích hoàn toàn biến thiên trong dữ liệu.

Trong summary(model) trong R, kết quả bao gồm: - Multiple R-squared: hệ số \(R^2\) - Adjusted R-squared: hệ số điều chỉnh (giới thiệu ở phần dưới)

6. Hệ số xác định điều chỉnh (Adjusted \(R^2\))

Hệ số \(R^2\) điều chỉnh được sử dụng để tránh đánh giá sai mô hình khi thêm biến không cần thiết:

\[ \bar{R}^2 = 1 - \frac{\text{RSS} / (n - p)}{\text{TSS} / (n - 1)} = 1 - (1 - R^2)\cdot \frac{n - 1}{n - p} \]

Lưu ý:

  • \(\bar{R}^2\) có thể âm nếu mô hình kém hơn cả mô hình trung bình.

  • \(\bar{R}^2\) chỉ tăng khi biến mới thực sự cải thiện mô hình.

2.6 Choosing Between Non-nested Models: AIC and BIC

2.6.1 Vấn đề khi so sánh mô hình không lồng nhau

Các kiểm định giả thuyết như kiểm định F hoặc kiểm định phương sai chỉ áp dụng khi các mô hình là mô hình lồng nhau (nested models), tức là một mô hình là trường hợp đặc biệt của mô hình còn lại.

Tuy nhiên, trong thực tế nghiên cứu, ta thường cần so sánh các mô hình không lồng nhau, ví dụ:

  • Mô hình sử dụng các tập biến giải thích khác nhau
  • Mô hình tuyến tính thường vs. mô hình phi tuyến
  • Mô hình hồi quy tuyến tính vs. hồi quy logistic

Khi đó, các tiêu chí như AICBIC là lựa chọn thích hợp để đánh giá mô hình.

2.6.2. Nguyên tắc lựa chọn mô hình:

Hai tiêu chí chính khi lựa chọn mô hình:

  • Chính xác (accuracy): mô hình dự đoán tốt → RSS nhỏ.
  • Đơn giản (parsimony): mô hình ít biến hơn, dễ diễn giải.

Lưu ý: Việc thêm biến giải thích luôn làm giảm hoặc giữ nguyên RSS, nhưng lại làm mô hình phức tạp hơn và dễ dẫn đến overfitting.

2.6.3. Tiêu chí thông tin Akaike – AIC

Công thức AIC trong hồi quy tuyến tính (với \(\sigma^2\) chưa biết):

\[ \text{AIC} = n \cdot \log\left(\frac{\text{RSS}}{n}\right) + 2p \tag{2.35} \]

Trong đó: - \(n\): số quan sát - \(p\): số tham số ước lượng (gồm cả hệ số chặn) - \(2p\): hệ số phạt nhằm trừng phạt mô hình phức tạp hơn

Giải thích: - Thành phần đầu: đo độ phù hợp (tương tự log-likelihood) - Thành phần sau: phạt mô hình có quá nhiều biến giải thích

Mô hình tốt hơn là mô hình có AIC nhỏ hơn.

2.6.4. Tiêu chí thông tin Bayes – BIC

Công thức BIC:

\[ \text{BIC} = n \cdot \log\left(\frac{\text{RSS}}{n}\right) + p \cdot \log(n) \tag{2.36} \]

Trong đó: - \(\log(n) > 2\) khi \(n\) lớn → BIC phạt độ phức tạp mạnh hơn AIC

Do đó, BIC thường chọn mô hình đơn giản hơn so với AIC.

2.6.5. So sánh AIC và BIC

Tiêu chí Mục tiêu chính Mức phạt độ phức tạp Xu hướng lựa chọn mô hình
AIC Dự đoán Nhẹ hơn (\(2p\)) Ưa chuộng mô hình phức tạp hơn
BIC Diễn giải + Dự đoán Mạnh hơn (\(p \cdot \log n\)) Ưa chuộng mô hình đơn giản hơn

Gợi ý sử dụng:

  • AIC thích hợp khi mục tiêu là dự đoán chính xác, dễ chấp nhận thêm biến.

- BIC phù hợp khi muốn mô hình đơn giản và dễ hiểu, yêu cầu bằng chứng mạnh để thêm biến.

Lưu ý: Cả AIC và BIC không phải là kiểm định thống kê, nên không có p-value hay thống kê kiểm định đi kèm.

Bên cạnh đó Một số công cụ hỗ trợ cho việc lựa chọn mô hình có sẵn, nhưng cần phải được sử dụng với sự thận trọng cao độ. Các hàm trong R như drop1() và add1() giúp loại bỏ hoặc thêm từng biến giải thích một vào mô hình. Các thủ tục chọn mô hình tự động như hồi quy tiến, loại bỏ lùi và chọn bước là những phương pháp tự động để lựa chọn mô hình. Cuối cùng, bất kỳ hệ số hồi quy nào cũng nên được giải thích trong phạm vi các giới hạn của mô hình và dữ liệu.

CHƯƠNG 3: Linear Regression Models: Diagnostics and Model-Building

]Phát hiện và xử lý vi phạm giả định trong hồi quy tuyến tính bằng cách sử dụng phân tích chẩn đoán (diagnostics), đặc biệt thông qua phần dư (residuals).]{style=“color:blue”}

3.1 Types of Assumptions

  1. Không có outlier (điểm ngoại lai) ảnh hưởng mạnh đến kết quả.
  2. Quan hệ tuyến tính giữa biến phụ thuộc \(y\) và các biến giải thích.
  3. Phương sai không đổi (homoscedasticity).
  4. Độc lập giữa các quan sát.
  5. Phân phối chuẩn của phần dư, đặc biệt trong hồi quy tuyến tính thường.

3.2: Các loại phần dư

  • Phần dư thô (Raw residuals):

    \[ r_i = y_i - \hat{y}_i \]

  • Phần dư chuẩn hóa (Standardized residuals):

    \[ r_i^* = \frac{r_i}{\hat{\sigma} \sqrt{1 - h_i}} \]

  • Phần dư Student hóa (Studentized residuals):

    \[ t_i = \frac{r_i}{\hat{\sigma}_{(i)} \sqrt{1 - h_i}} \]

    Trong đó:

    • \(h_i\): leverage (đòn bẩy)
    • \(\hat{\sigma}_{(i)}\): ước lượng sai số chuẩn khi bỏ quan sát thứ \(i\)

3.3: Leverage (Đòn bẩy)

\[ h_i = \mathbf{x}_i^\top (X^\top X)^{-1} \mathbf{x}_i \]

  • Đo lường mức độ ảnh hưởng của quan sát \(i\) đến dự đoán \(\hat{y}_i\).
  • Nếu \(h_i\) lớn → quan sát có thể là điểm “đặc biệt” hoặc bất thường.

3.4: Kiểm tra giả định bằng biểu đồ phần dư

Giả định cần kiểm tra Biểu đồ đề xuất
Tuyến tính \(r_i^*\) vs. từng biến giải thích
Phương sai không đổi \(r_i^*\) vs. \(\hat{y}_i\)
Phân phối chuẩn Q-Q plot của phần dư
Độc lập giữa các quan sát Phần dư theo thời gian hoặc vị trí

3.5: Phát hiện điểm ảnh hưởng lớn

  • Cook’s Distance:

    \[ D_i = \frac{r_i^2}{p } \cdot \frac{h_i}{(1 - h_i)} \]

  • DFFITS:

    \[ \text{DFFITS}_i = t_i \cdot \sqrt{\frac{h_i}{1 - h_i}} \]

  • DFBETAS (với từng hệ số \(\beta_j\)):

    \[\text{DFBETAS}_{ij} = \frac{\hat{\beta}_j - \hat{\beta}_{j(i)}}{\text{SE}(\hat{\beta}_{j(i)})}\]

  • CR:

    \[ CR = \frac{1}{1 - h} \cdot \left( \frac{n - p}{n - p + r^2} \right)^p \]

3.6: Khắc phục mô hình nếu có vi phạm giả định

  • Vi phạm tính độc lập: sử dụng mô hình khác như:
    • GEE (Generalized Estimating Equations)
    • Mô hình hỗn hợp (Mixed Models)
  • Phương sai thay đổi (Heteroscedasticity): biến đổi biến phụ thuộc \(y\):
    • Log: \(y' = \log(y)\)
    • Căn bậc hai: \(y' = \sqrt{y}\)
  • Không tuyến tính:
    • Biến đổi biến giải thích

    • Thêm đa thức:

      \[ y = \beta_0 + \beta_1 x + \beta_2 x^2 + \dots + \beta_k x^k + \varepsilon \]

    • Hoặc sử dụng splines để mô hình hóa phi tuyến mềm dẻo hơn.

3.7: Xử lý outliers và điểm ảnh hưởng lớn

  • Không nên tự động loại bỏ.
  • Cần đánh giá lý do dữ liệu bất thường (do lỗi nhập liệu hay thực tế?).
  • Có thể chạy mô hình 2 lần: có và không có điểm ảnh hưởng mạnh để so sánh kết quả.

3.8: Đa cộng tuyến (Collinearity)

  • Xảy ra khi các biến giải thích có tương quan cao.
  • Làm tăng phương sai ước lượng của hệ số \(\beta_j\), gây khó khăn trong diễn giải.

Phát hiện bằng:

  • Variance Inflation Factor (VIF):

    \[ \text{VIF}_j = \frac{1}{1 - R_j^2} \]

    Trong đó \(R_j^2\) là hệ số xác định khi hồi quy \(x_j\) theo các biến giải thích còn lại.

CHƯƠNG 4: Beyond Linear Regression: The Method of Maximum Likelihood

]Giới thiệu phương pháp hợp lý cực đại (Maximum Likelihood - ML) để ước lượng mô hình, vượt ra ngoài hồi quy tuyến tính — chuẩn bị cho việc hiểu mô hình tuyến tính tổng quát (GLM).]{style=“color:blue”}

4.1 The Need for Non-normal Regression Models

4.1.1 Khi mô hình tuyến tính không phù hợp

Mô hình hồi quy tuyến tính trong Chương 2 giả định thành phần ngẫu nhiên có phương sai không đổi và thường phân phối chuẩn. Tuy nhiên, có 3 trường hợp phổ biến mà giả định này không đúng, nên mô hình tuyến tính không phù hợp:

  • Biến phản hồi là tỉ lệ (proportion) trong khoảng [0,1]
    Khi tỉ lệ gần 0 hoặc 1, phương sai giảm về 0, không phải là hằng số.
    Phân phối chuẩn không phù hợp vì biến bị giới hạn trong khoảng này.
    Phân phối Binomial phù hợp để mô hình hóa tỉ lệ hoặc số lần thành công trong tổng số đếm.
    Ví dụ đặc biệt: biến nhị phân (binary data) chỉ có hai kết quả (thành công/thất bại).

  • Biến phản hồi là số đếm (count data)
    Khi số đếm gần 0, phương sai cũng giảm.
    Biến đếm là rời rạc, không âm, nên phân phối chuẩn không thích hợp.
    Phân phối Poisson hoặc Negative Binomial thường được sử dụng để mô hình hóa.

  • Biến phản hồi là số dương liên tục (positive continuous)
    Biến luôn dương và thường lệch phải (right-skewed).
    Phân phối chuẩn không thích hợp vì nó cho phép giá trị âm.
    Phân phối Gamma hoặc Inverse Gaussian được dùng nhiều cho loại dữ liệu này.

Lưu ý: Quan hệ giữa biến phản hồi \(y\) và biến giải thích thường không tuyến tính trong các trường hợp này do biến phản hồi bị giới hạn.

4.1.2 Kết quả nhị phân và biến nhị thức (Binary outcomes and Binomial counts)

Biến phản hồi nhị phân có 2 trạng thái không thể được biến đổi thành phân phối chuẩn.
Tương tự với biến binomial (tổng các biến nhị phân).

4.1.3 Dữ liệu số đếm: Phân phối Poisson hoặc Negative Binomial

Ví dụ: Nghiên cứu số chim noisy miner \(y\) theo số cây bạch đàn \(x\).

  • Mối quan hệ không tuyến tính: số chim tăng khi số cây bạch đàn tăng.

Thành phần hệ thống (systematic component) mô hình bằng log tuyến tính:

\[ \log \mu = \beta_0 + \beta_1 x \]

Thành phần ngẫu nhiên (random component) dùng phân phối Poisson:

\[ y \sim \text{Poisson}(\mu), \quad y = 0,1,2,\ldots \]

Mô hình tổng hợp:

\[ \begin{cases} y \sim \text{Poisson}(\mu) \\ \log \mu = \beta_0 + \beta_1 x \end{cases} \]

4.1.4 Dữ liệu dương liên tục (Positive continuous data)

Ví dụ: Thời gian phục vụ máy bán nước \(y\), hai biến giải thích là số kiện hàng \(x_1\) và quãng đường đi bộ \(x_2\).

  • Thời gian luôn dương, có phương sai tăng theo giá trị trung bình.
  • Log-transform giúp ổn định phương sai nhưng phá vỡ tính tuyến tính.

Mô hình hợp lý sử dụng phân phối Gamma:

\[ \begin{cases} y \sim \text{Gamma}(\mu; \phi) \\ \mu = \beta_0 + \beta_1 x_1 + \beta_2 x_2 \end{cases} \]

Trong đó, \(\phi\) liên quan đến phương sai của phân phối Gamma.

4.2 Khái quát hóa mô hình hồi quy tuyến tính chuẩn

Trong phần này, tác giả mở rộng mô hình hồi quy tuyến tính (normal linear model) thành mô hình tuyến tính tổng quát (GLM - Generalized Linear Models) để áp dụng cho các dạng dữ liệu và phân phối khác nhau.

Các mô hình chứa nhiều loại thành phần ngẫu nhiênhệ thống khác nhau. Do đó, các giả định tuyến tính và phương sai không đổi trong Chương 2 và 3 không còn phù hợp.

Thay vì phát triển lý thuyết riêng cho từng mô hình, GLM cung cấp một khung lý thuyết thống nhất, bao phủ các mô hình sử dụng các phân phối sau:

  • Chuẩn (Normal)
  • Nhị thức (Binomial)
  • Poisson
  • Gamma
  • Inverse Gaussian
  • Tweedie (cho dữ liệu dương có giá trị bằng 0)

Các mô hình GLM dựa trên họ phân phối gọi là Exponential Dispersion Models (EDMs) — hỗ trợ xây dựng thuật toán, suy luận, và công cụ chẩn đoán một cách thống nhất.

Lưu ý: GLM không bao gồm những phân phối không thuộc EDM, chẳng hạn như Weibull, von Mises, v.v.

Ưu điểm của GLM:

  • Linh hoạt trong việc lựa chọn mối quan hệ giữa trung bình và phương sai.
  • Phù hợp tự nhiên với miền giá trị của biến phản hồi (response variable).

4.3 Nguyên lý ước lượng hợp lý tối đa (Maximum Likelihood Estimation – MLE)

Trong mô hình hồi quy tuyến tính chuẩn, phương pháp bình phương tối thiểu (Least Squares) được dùng để ước lượng.

MLE là một phương pháp tổng quát hơn, áp dụng được cho nhiều phân phối như Binomial, Poisson, Gamma, v.v.

Nguyên lý MLE: Tìm giá trị của tham số sao cho tối đa hóa hàm mật độ xác suất (likelihood) với dữ liệu đã quan sát.

Ví dụ với phân phối mũ (exponential):

  • Hàm mật độ:

\[ P(y; \theta) = \theta \cdot \exp(-y\theta) \]

  • Hàm likelihood với n quan sát:

\[ L(\theta; y) = \theta^n \cdot \exp(-n\theta \cdot \bar{y}) \]

  • MLE của \(\theta\):

\[ \hat{\theta} = \frac{1}{\bar{y}} \]

Khi sử dụng MLE:

  • Dữ liệu được xem là cố định, và
  • Hàm likelihood là hàm của tham số cần ước lượng.

Thay vì dùng hàm likelihood, log-likelihood thường được sử dụng vì:

  • Đơn giản hơn khi đạo hàm,
  • Dễ dàng tìm cực trị để xác định giá trị ước lượng.

Kết nối với Least Squares:

  • Với phân phối chuẩn, MLE cho các hệ số hồi quy \(\beta\) tương đương với phương pháp bình phương tối thiểu.

4.4 Ước lượng cực đại hợp lý cho một tham số (Maximum Likelihood for Estimating One Parameter)

4.4.1 Phương trình điểm tới hạn (Score Equations)

Score function \[ U(\zeta) = \frac{d \ell}{d \zeta} \] là đạo hàm của log-likelihood theo tham số \(\zeta\).

Ước lượng cực đại hợp lý (MLE) \(\hat{\zeta}\) là nghiệm của phương trình: \[ U(\hat{\zeta}) = 0 \] Log-likelihood trong GLM luôn đơn đỉnh và khả vi, nên nghiệm này là cực đại toàn cục.

Tính chất quan trọng: \[ E[U(\zeta)] = 0, \quad \mathrm{Var}[U(\zeta)] = E[U(\zeta)^2] \]

Ví dụ (Bernoulli):

Hàm log-likelihood: \[ \ell(\mu; y) = \sum_{i=1}^n y_i \log \mu + (1 - y_i) \log (1 - \mu) \]

Score function: \[ U(\mu) = \frac{n(\bar{y} - \mu)}{\mu (1 - \mu)} \]

Giải \(U(\hat{\mu}) = 0\) ta được: \[ \hat{\mu} = \bar{y} \] tức là MLE của \(\mu\) chính là trung bình mẫu.

4.4.2 Thông tin quan sát và thông tin kỳ vọng (Observed and Expected Information)

Thông tin quan sát: \[ J(\zeta) = - \frac{d^2 \ell(\zeta)}{d \zeta^2} = - \frac{d U(\zeta)}{d \zeta} \]

  • Giá trị lớn của \(J(\zeta)\) cho thấy đỉnh log-likelihood sắc nét \(\Rightarrow\) ước lượng chính xác.
  • Giá trị nhỏ của \(J(\zeta)\) cho thấy log-likelihood phẳng \(\Rightarrow\) ước lượng kém chính xác.

Thông tin kỳ vọng (Fisher information): \[ I(\zeta) = E[J(\zeta)] \]

Thông tin kỳ vọng thường dễ tính hơn, luôn dương, và là đặc trưng của mô hình.

4.4.3 Sai số chuẩn của tham số (Standard Errors of Parameters)

Phương sai của MLE xấp xỉ: \[ \mathrm{Var}[\hat{\zeta}] \approx \frac{1}{I(\zeta)} \]

Sai số chuẩn của \(\hat{\zeta}\) được tính bằng: \[ \mathrm{SE}(\hat{\zeta}) = \frac{1}{\sqrt{I(\hat{\zeta})}} \]