“Generalized Linear Models With Examples in R” của Peter K. Dunn và Gordon K. Smyth nhằm mục đích kết hợp phần giới thiệu ứng dụng tốt về các mô hình tuyến tính tổng quát (Generalized Linear Models - GLMs) với một lời giải thích chi tiết về lý thuyết, có thể hiểu được từ góc độ cơ bản. Các nội dung chính của sách được trình bày qua các chương như sau:

Chương 1. Mô hình thống kê (Statistical Models)

Giới thiệu về mô hình thống kê, cách mô hình mô tả dữ liệu (ngẫu nhiên và có hệ thống), mã hóa biến phân loại, và vai trò của hồi quy. Trình bày nguyên lý “tất cả các mô hình đều sai nhưng một số có ích”.

Nội dung chính:

Chương 2. Mô hình hồi quy tuyến tính (Linear Regression Models)

Trình bày hồi quy tuyến tính: từ mô hình đơn giản đến hồi quy bội, bao gồm các công thức ước lượng hệ số, kiểm định giả thuyết, lựa chọn mô hình (AIC/BIC), và sử dụng R để thực hành.

Nội dung chính:

Chương 3. Chẩn đoán hồi quy tuyến tính và xây dụng mô hình (Linear Regression Diagnostics and Model-Building)

Kiểm tra giả định của hồi quy tuyến tính bằng cách dùng đồ thị phần dư, phát hiện ngoại lệ, collinearity, và các kỹ thuật biến đổi (Box–Cox, spline, polynomial). Bao gồm cả ví dụ minh họa và cách thực hiện trên R.

Nội dung chính:

Chương 4. Vượt ngoài hồi quy tuyến tính: Phương pháp khả năng hợp lí tối đa (Beyond Linear Regression – Maximum Likelihood)

Giới thiệu phương pháp ước lượng hợp lý cực đại (MLE), lý thuyết điểm số, thông tin Fisher, kiểm định và khoảng tin cậy với MLE, và so sánh mô hình không lồng.

Nội dung chính:

Chương 5. Các mô hình tuyến tính tổng quát (Generalized Linear Models: Structure)

Định nghĩa tổng quát GLM với hai thành phần: ngẫu nhiên (random) và hệ thống (systematic). Mô tả chi tiết về exponential dispersion models (EDMs), hàm liên kết (link function), và khái niệm deviance.

Nội dung chính:

Cấu trúc mô hình GLM: thành phần hệ thống (systematic) và thành phần ngẫu nhiên (random). - Giới thiệu exponential dispersion models (EDM) làm nền tảng phân phối cho GLM. - Hàm liên kết (link function), hàm logit, log, identity, cloglog. - Deviance như một chỉ số đánh giá mô hình. - Ví dụ áp dụng với các phân phối: Poisson, binomial, gamma. - So sánh GLM với hồi quy tuyến tính cổ điển. - Tầm quan trọng của lựa chọn đúng liên kết và phân phối trong GLM

Chương 6. Các mô hình tuyến tính tổng quát: Ước lượng (Generalized Linear Models: Estimation)

Giải thích chi tiết cách ước lượng các tham số trong GLM (β, φ), bao gồm dùng Fisher scoring và các dạng biểu diễn ma trận, cũng như cách dùng R để ước lượng.

Nội dung chính:

Chương 7. Các mô hình tuyến tính tổng quát: Suy luận (Generalized Linear Models: Inference)

Trình bày các kiểm định thống kê: Wald, likelihood ratio, score test. So sánh các phương pháp kiểm định, đánh giá độ phù hợp của mô hình, và trình bày các công cụ chọn mô hình.

Nội dung chính:

Chương 8. Các mô hình tuyến tính tổng quát: Chẩn đoán (Generalized Linear Models: Diagnostics)

Chẩn đoán mô hình GLM: residuals (Pearson, deviance, quantile), ảnh hưởng của quan sát ngoại lệ, leverage, collinearity, và các phương pháp kiểm tra giả định trong GLM.

Nội dung chính:

Chương 9. Mô hình cho tỷ lệ (Models for Proportions: Binomial GLMs)

Mô hình hóa dữ liệu nhị phân và tỷ lệ bằng các mô hình nhị thức (binomial GLM), với các link function phổ biến như logit, probit, cloglog. Thảo luận về overdispersion và độ tin cậy của kiểm định Wald.

Nội dung chính:

Chương 10. Mô hình cho dữ liệu đếm (Models for Counts: Poisson and Negative Binomial GLMs)

Mô hình hóa dữ liệu đếm với Poisson và negative binomial GLM, phân tích bảng liên hợp (contingency tables), và vấn đề overdispersion.

Nội dung chính:

Chương 11. Mô hình cho dữ liệu liên tục (Positive Continuous Data: Gamma and Inverse Gaussian GLMs)

Mô hình hóa dữ liệu dương liên tục bằng phân phối gamma và inverse Gaussian, bao gồm cách chọn hàm liên kết và ước lượng tham số phân tán.

Nội dung chính:

Chương 12. Tweeie GLMs

Nội dung chính:

Chương 13. Extra Problems