“Generalized Linear Models With Examples in R” của Peter K. Dunn và
Gordon K. Smyth nhằm mục đích kết hợp phần giới thiệu ứng dụng tốt về
các mô hình tuyến tính tổng quát (Generalized Linear Models - GLMs) với
một lời giải thích chi tiết về lý thuyết, có thể hiểu được từ góc độ cơ
bản. Các nội dung chính của sách được trình bày qua các chương như
sau:
Chương 1. Mô hình thống kê (Statistical Models)
Giới thiệu về mô hình thống kê, cách mô hình mô tả dữ liệu (ngẫu
nhiên và có hệ thống), mã hóa biến phân loại, và vai trò của hồi quy.
Trình bày nguyên lý “tất cả các mô hình đều sai nhưng một số có
ích”.
Nội dung chính:
- Phân biệt mô hình vật lý và mô hình thống kê.
- Ví dụ sử dụng bộ dữ liệu lung capacity (lungcap).
- Khái niệm biến phản hồi (response) và biến giải thích
(explanatory).
- Giới thiệu về covariates (biến định lượng) và factors (biến định
tính).
- Khái niệm tổng quát về mô hình hồi quy.
- Hai tiêu chí đánh giá mô hình: độ chính xác (accuracy) và tính đơn
giản (parsimony).
- Phân biệt dữ liệu quan sát và dữ liệu thực nghiệm.
- Giới thiệu sơ bộ về cách dùng R trong phân tích thống kê.
Chương 2. Mô hình hồi quy tuyến tính (Linear Regression Models)
Trình bày hồi quy tuyến tính: từ mô hình đơn giản đến hồi quy bội,
bao gồm các công thức ước lượng hệ số, kiểm định giả thuyết, lựa chọn mô
hình (AIC/BIC), và sử dụng R để thực hành.
Nội dung chính:
- Hồi quy tuyến tính đơn và bội.
- Ký hiệu ma trận cho mô hình hồi quy tuyến tính.
- Ước lượng hệ số bằng phương pháp bình phương tối thiểu (OLS).
- Diễn giải hệ số hồi quy, sai số chuẩn, kiểm định giả thuyết
(t-test).
- Đánh giá độ phù hợp mô hình qua R^2, AIC.
- Mô hình có trọng số (Weighted least squares).
- Ví dụ minh họa chi tiết với dữ liệu R, bao gồm cả biểu đồ
Chương 3. Chẩn đoán hồi quy tuyến tính và xây dụng mô hình (Linear
Regression Diagnostics and Model-Building)
Kiểm tra giả định của hồi quy tuyến tính bằng cách dùng đồ thị phần
dư, phát hiện ngoại lệ, collinearity, và các kỹ thuật biến đổi (Box–Cox,
spline, polynomial). Bao gồm cả ví dụ minh họa và cách thực hiện trên
R.
Nội dung chính:
- Kiểm tra phần dư: residual plots, normal QQ plots.
- Phát hiện điểm ngoại lệ (outliers) và điểm có ảnh hưởng cao
(influential points).
- Kiểm tra phương sai không đồng đều (heteroscedasticity) và
collinearity.
- Biến đổi biến: Box–Cox, log, polynomial.
- Sử dụng biến tương tác, spline, biến giả (dummy variables).
- Quy trình xây dựng mô hình từ đơn giản đến phức tạp (stepwise,
f-rward, backward).
- Các ví dụ thực hành trên R rất cụ thể với dữ liệu thật
Chương 4. Vượt ngoài hồi quy tuyến tính: Phương pháp khả năng hợp lí
tối đa (Beyond Linear Regression – Maximum Likelihood)
Giới thiệu phương pháp ước lượng hợp lý cực đại (MLE), lý thuyết điểm
số, thông tin Fisher, kiểm định và khoảng tin cậy với MLE, và so sánh mô
hình không lồng.
Nội dung chính:
- So sánh giữa OLS và MLE.
- Lý thuyết likelihood: log-likelihood, hàm hợp lý, Fisher
scoring.
- Ước lượng tham số và kiểm định với likelihood ratio test.
- Ví dụ minh họa ước lượng bằng MLE với các phân phối khác nhau.
- Ứng dụng trên các mô hình phi tuyến hoặc dữ liệu không chuẩn.
Chương 5. Các mô hình tuyến tính tổng quát (Generalized Linear
Models: Structure)
Định nghĩa tổng quát GLM với hai thành phần: ngẫu nhiên (random) và
hệ thống (systematic). Mô tả chi tiết về exponential dispersion models
(EDMs), hàm liên kết (link function), và khái niệm deviance.
Nội dung chính:
Cấu trúc mô hình GLM: thành phần hệ thống (systematic) và thành phần
ngẫu nhiên (random). - Giới thiệu exponential dispersion models (EDM)
làm nền tảng phân phối cho GLM. - Hàm liên kết (link function), hàm
logit, log, identity, cloglog. - Deviance như một chỉ số đánh giá mô
hình. - Ví dụ áp dụng với các phân phối: Poisson, binomial, gamma. - So
sánh GLM với hồi quy tuyến tính cổ điển. - Tầm quan trọng của lựa chọn
đúng liên kết và phân phối trong GLM
Chương 6. Các mô hình tuyến tính tổng quát: Ước lượng (Generalized
Linear Models: Estimation)
Giải thích chi tiết cách ước lượng các tham số trong GLM (β, φ), bao
gồm dùng Fisher scoring và các dạng biểu diễn ma trận, cũng như cách
dùng R để ước lượng.
Nội dung chính:
- Trình bày cách ước lượng các tham số trong GLM (β và φ).
- Dựa vào phương pháp Maximum Likelihood Estimation (MLE).
- Giải thích Score function, Information matrix, và ước lượng Standard
Errors.
- Giới thiệu công cụ Iteratively Reweighted Least Squares (IRLS) để
tính toán.
- Các phương pháp khác nhau để ước lượng tham số phân tán φ:
likelihood-based, Pearson, deviance-based.
- Cách dùng R để fit GLM và giải thích kết quả.
Chương 7. Các mô hình tuyến tính tổng quát: Suy luận (Generalized
Linear Models: Inference)
Trình bày các kiểm định thống kê: Wald, likelihood ratio, score test.
So sánh các phương pháp kiểm định, đánh giá độ phù hợp của mô hình, và
trình bày các công cụ chọn mô hình.
Nội dung chính:
- Kiểm định giả thuyết về tham số hồi quy trong GLM.
- Ba loại kiểm định chính: Wald test, Likelihood Ratio Test, và Score
Test.
- Trình bày cách xây dựng Confidence Intervals, Deviance tables.
- So sánh các mô hình lồng nhau và không lồng nhau.
- Phân biệt giữa khi φ đã biết và φ chưa biết.
- Thực hành phân tích thống kê suy diễn với dữ liệu thật bằng R.
Chương 8. Các mô hình tuyến tính tổng quát: Chẩn đoán (Generalized
Linear Models: Diagnostics)
Chẩn đoán mô hình GLM: residuals (Pearson, deviance, quantile), ảnh
hưởng của quan sát ngoại lệ, leverage, collinearity, và các phương pháp
kiểm tra giả định trong GLM.
Nội dung chính:
- Đánh giá chất lượng mô hình GLM thông qua diagnostics.
- Các loại phần dư: Pearson, Deviance, Quantile residuals.
- Kiểm tra các giả định: phương sai, độc lập, đúng dạng mô hình.
- Xác định outliers và influential observations.
- Đề xuất cách khắc phục các vấn đề qua biến đổi mô hình.
- Giới thiệu quasi-likelihood, extended quasi-likelihood và các ứng
dụng trong thực tiễn.
Chương 9. Mô hình cho tỷ lệ (Models for Proportions: Binomial
GLMs)
Mô hình hóa dữ liệu nhị phân và tỷ lệ bằng các mô hình nhị thức
(binomial GLM), với các link function phổ biến như logit, probit,
cloglog. Thảo luận về overdispersion và độ tin cậy của kiểm định
Wald.
Nội dung chính:
- Áp dụng GLM với phân phối Binomial cho dữ liệu nhị phân và tỷ
lệ.
- Thảo luận các hàm liên kết phổ biến: logit, probit, cloglog.
- Ý nghĩa của odds và odds ratio trong logit model.
- Các vấn đề như overdispersion và lỗi khi dùng Wald test.
- Thảo luận hạn chế của kiểm định goodness-of-fit cho dữ liệu nhị
phân.
- Trình bày case study và phân tích bằng R.
Chương 10. Mô hình cho dữ liệu đếm (Models for Counts: Poisson and
Negative Binomial GLMs)
Mô hình hóa dữ liệu đếm với Poisson và negative binomial GLM, phân
tích bảng liên hợp (contingency tables), và vấn đề overdispersion.
Nội dung chính:
- Phân tích dữ liệu đếm bằng Poisson GLM và Negative Binomial
GLM.
- Mô hình hóa tỷ lệ (rates) với offset.
- Phân tích bảng liên hợp bằng mô hình log-linear.
- Thảo luận về Simpson’s Paradox, so sánh Poisson và Binomial
GLM.
- Giới thiệu xử lý overdispersion: quasi-Poisson, negative
binomial.
- Phân tích dữ liệu đếm thực tế với ví dụ dùng R.
Chương 11. Mô hình cho dữ liệu liên tục (Positive Continuous Data:
Gamma and Inverse Gaussian GLMs)
Mô hình hóa dữ liệu dương liên tục bằng phân phối gamma và inverse
Gaussian, bao gồm cách chọn hàm liên kết và ước lượng tham số phân
tán.
Nội dung chính:
- Phân tích dữ liệu dương liên tục (ví dụ: thời gian, chi phí).
- Mô hình sử dụng phân phối Gamma và Inverse Gaussian.
- Thảo luận về lựa chọn link function: identity, log, inverse.
- Ước lượng tham số phân tán (dispersion parameter).
- Trình bày case studies và hướng dẫn dùng R.
Chương 12. Tweeie GLMs
Nội dung chính:
- Giới thiệu mô hình Tweedie – kết hợp dữ liệu đếm và dương liên
tục.
- Trình bày cách ước lượng tham số chỉ số (index), ứng dụng cho dữ
liệu có giá trị bằng 0 và dương.
- Giới thiệu mô hình Tweedie GLM cho dữ liệu kết hợp liên tục-dương
với số 0 (zero-inflated).
- Trình bày về phân phối Tweedie, hàm phương sai và hàm liên kết.
- Ước lượng chỉ số phân phối ξ (index parameter).
- Ứng dụng mô hình trong bảo hiểm và dữ liệu chi phí.
- Trình bày case studies và sử dụng R để fit mô hình Tweedie.