Cuốn sách hướng đến việc:
Cuốn sách này là liệu bổ trợ quan trọng trong các môn học như:
Mô hình Thống kê: Là công cụ để mô tả cả đặc điểm ngẫu nhiên và có hệ thống của dữ liệu.
Mô hình Hồi quy: Mô hình mối quan hệ giữa một biến đáp ứng và một hoặc nhiều biến giải thích.
“Tất cả các mô hình đều sai, nhưng một số mô hình hữu ích” (trích dẫn của George Box).
Hồi quy Tuyến tính: Mô hình với biến đáp ứng có phân phối chuẩn và thành phần hệ thống là tổ hợp tuyến tính của các biến giải thích.
Ước lượng Bình phương Tối thiểu (Least-Squares Estimation): Phương pháp kinh điển để ước lượng tham số trong hồi quy tuyến tính bằng cách cực tiểu hóa tổng bình phương phần dư.
Giả định của Mô hình Tuyến tính: - Tính tuyến tính của thành phần hệ thống - Phương sai sai số không đổi (đồng nhất) - Sự độc lập của các quan sát - Phân phối chuẩn của sai số (cho suy luận)
Phần dư (Residuals): Hiệu giữa giá trị quan sát và giá trị dự đoán của mô hình. Các loại phần dư khác nhau (Pearson, Deviance, Quantile) được sử dụng để chẩn đoán các giả định mô hình.
Giá trị ảnh hưởng (Influential values): Các điểm dữ liệu có ảnh hưởng lớn đến kết quả ước lượng mô hình. Cook’s distance là một thước đo phổ biến.
Mô hình Tuyến tính Tổng quát (GLMs): Mở rộng hồi quy tuyến tính, cho phép biến đáp ứng có phân phối từ họ Mô hình Phân tán Hàm mũ (EDMs) và sử dụng hàm liên kết (link function) để kết nối trung bình của biến đáp ứng với tổ hợp tuyến tính của các biến giải thích.
Mô hình Phân tán Hàm mũ (EDMs): Bao gồm các phân
phối Chuẩn, Poisson, Gamma, Nhị thức, Nhị thức âm, được đặc trưng bởi
hàm phương sai V(μ) và tham số phân tán φ.
Hàm liên kết (Link Function g(μ)): Hàm ánh xạ trung
bình của biến đáp ứng (μ) tới thành phần hệ thống tuyến
tính (η = β₀ + β₁x₁ + ...). - Các hàm liên kết phổ biến:
logit (cho tỷ lệ), log (cho dữ liệu đếm), và identity (cho hồi quy tuyến
tính).
Độ lệch (Deviance): Thước đo mức độ phù hợp của mô hình, tương tự như tổng bình phương phần dư trong hồi quy tuyến tính.
Hiện tượng Quá phân tán (Overdispersion): Khi phương sai dữ liệu lớn hơn dự kiến theo mô hình lý thuyết. Ví dụ: phương sai phân phối Poisson bằng trung bình, nhưng dữ liệu thực tế có thể có phương sai lớn hơn. Phân phối Nhị thức âm thường được dùng thay thế.
GLMs Tweedie: Một lớp GLMs rộng hơn, phù hợp cho dữ liệu liên tục dương (đặc biệt là dữ liệu có nhiều giá trị 0), ví dụ: dữ liệu bảo hiểm, lượng mưa.
Dữ liệu về Dung tích phổi (lungcap): Minh họa mô tả dữ liệu và biểu đồ hóa mối quan hệ giữa FEV và các biến như Age và Height. - Giải thích cách phù hợp mô hình, diễn giải hệ số (tác động của việc hút thuốc), chẩn đoán mô hình (kiểm tra tuyến tính, phương sai đồng nhất). - Các biểu đồ phần dư và giá trị ảnh hưởng minh họa rõ ràng.
Dữ liệu về Sỏi thận (kidney stones): Minh họa GLMs Poisson cho dữ liệu đếm. - Dữ liệu: số ca thành công và thất bại của hai phương pháp phẫu thuật, phân loại theo kích thước sỏi. - Minh họa mô hình log-linear và Nghịch lý Simpson (Simpson’s Paradox): khi phân tích riêng lẻ và khi gộp chung dữ liệu có thể dẫn đến kết luận trái ngược.
Cuốn sách có ứng dụng rộng trong nhiều lĩnh vực:
Y sinh và Sức khỏe: - Mô hình hóa tỷ lệ mắc bệnh (Binomial GLMs), số ca tử vong (Poisson/Negative Binomial GLMs) - Liên hệ giữa yếu tố sinh học/y tế và kết quả sức khỏe: dung tích phổi, tỷ lệ mỡ cơ thể - Dữ liệu thử nghiệm lâm sàng: tác động hóa chất, sỏi thận, Down syndrome
Khoa học Môi trường và Sinh thái: - Mô hình hóa số lượng loài, ảnh hưởng môi trường
Kinh tế và Tài chính: - Mô hình hóa rủi ro, tần suất sự kiện như số yêu cầu bảo hiểm (Tweedie GLMs)
Kỹ thuật: - Phân tích hiệu suất hệ thống, ví dụ: dữ liệu tua-bin
Khoa học Xã hội: - Phân tích khảo sát, hành vi xã hội
Khoa học Dữ liệu và AI: - GLMs là lớp mô hình nền tảng cho bài toán hồi quy và phân loại (ví dụ: hồi quy logistic = Binomial GLM)