Cuốn sách tập trung vào việc trình bày các mô hình tuyến tính tổng quát và minh họa bằng các ví dụ sử dụng phần mềm thống kê R. Các chủ đề chính được đề cập bao gồm:
Mô hình Thống kê: Giới thiệu tổng quan, quy ước mô tả dữ liệu, vẽ biểu đồ dữ liệu, mã hóa cho các yếu tố, và cách mô hình thống kê mô tả cả thành phần ngẫu nhiên và hệ thống.
Mô hình Hồi quy Tuyến tính (Chương 2 và 3): Bao
gồm các chẩn đoán và xây dựng mô hình cho hồi quy tuyến tính. Các ví dụ
sử dụng dữ liệu lungcap
(dung tích phổi) và phân tích
phương sai (ANOVA) được trình bày. Sách cũng đề cập đến các phép biến
đổi đơn giản của các biến giải thích và phân tích chẩn đoán bằng cách sử
dụng biểu đồ phần dư chuẩn hóa.
Mô hình cho Tỷ lệ: GLMs nhị thức (Chương 9): Giải thích mô hình GLM nhị thức, thích hợp cho dữ liệu là tỷ lệ hoặc số lượng thành công trong một số lần thử cố định. Ví dụ về mô hình hồi quy logistic được đưa ra.
Mô hình cho Số đếm: GLMs Poisson và Nhị thức âm (Chương
10): Trình bày GLMs Poisson và Nhị thức âm, phù hợp cho dữ liệu
đếm. Ví dụ về dữ liệu hcrabs
(cua móng ngựa) được sử dụng
để so sánh mô hình quasi-Poisson và nhị thức âm. Khái niệm phân phối
Poisson bị cắt cụt (zero-truncated Poisson) cũng được giới
thiệu.
GLMs Gamma và Gaussian ngược (Chương 11): Thảo luận về GLMs Gamma và Gaussian ngược, thường được sử dụng cho dữ liệu liên tục dương. Các biểu đồ phần dư chuẩn hóa được sử dụng để chẩn đoán mô hình.
GLMs Tweedie (Chương 12): Một loại phân phối thuộc mô hình tán sắc mũ (Exponential Dispersion Models - EDMs) được sử dụng để mô hình hóa dữ liệu liên tục dương, đặc biệt là dữ liệu có giá trị không chính xác. Phân phối Gamma (ξ = 2) và Gaussian ngược (ξ = 3) là các trường hợp đặc biệt của phân phối Tweedie.
Các khái niệm cốt lõi của GLMs: Cuốn sách giới thiệu cấu trúc của GLMs, bao gồm:
Kiểm định giả thuyết: Các phương pháp kiểm định giả thuyết lớn dựa trên kết quả tiệm cận, bao gồm kiểm định Wald và kiểm định Score, được thảo luận.
Sử dụng R: Cuốn sách bao gồm hướng dẫn sử dụng phần mềm R để phân tích dữ liệu, tải dữ liệu, và thực hiện các phân tích mô hình tuyến tính tổng quát. Nhiều bộ dữ liệu khác nhau được sử dụng làm ví dụ trong sách.
data <- read.csv("C:/Users/PHAN THANH TRONG/Downloads/Supermarket Transactions.csv")
summary(data)
## STT PurchaseDate CustomerID Gender
## Min. : 1 Length:14059 Min. : 3 Length:14059
## 1st Qu.: 3516 Class :character 1st Qu.: 2549 Class :character
## Median : 7030 Mode :character Median : 5060 Mode :character
## Mean : 7030 Mean : 5117
## 3rd Qu.:10544 3rd Qu.: 7633
## Max. :14059 Max. :10280
## MaritalStatus Homeowner Children AnnualIncome
## Length:14059 Length:14059 Min. :0.00 Length:14059
## Class :character Class :character 1st Qu.:1.00 Class :character
## Mode :character Mode :character Median :3.00 Mode :character
## Mean :2.53
## 3rd Qu.:4.00
## Max. :5.00
## City StateorProvince Country ProductFamily
## Length:14059 Length:14059 Length:14059 Length:14059
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
## ProductDepartment ProductCategory UnitsSold Revenue
## Length:14059 Length:14059 Min. :1.000 Min. : 0.53
## Class :character Class :character 1st Qu.:3.000 1st Qu.: 6.84
## Mode :character Mode :character Median :4.000 Median :11.25
## Mean :4.081 Mean :13.00
## 3rd Qu.:5.000 3rd Qu.:17.37
## Max. :8.000 Max. :56.70