Phần 1: Tóm tắt

Cuốn sách tập trung vào việc trình bày các mô hình tuyến tính tổng quát và minh họa bằng các ví dụ sử dụng phần mềm thống kê R. Các chủ đề chính được đề cập bao gồm:

  • Mô hình Thống kê: Giới thiệu tổng quan, quy ước mô tả dữ liệu, vẽ biểu đồ dữ liệu, mã hóa cho các yếu tố, và cách mô hình thống kê mô tả cả thành phần ngẫu nhiên và hệ thống.

  • Mô hình Hồi quy Tuyến tính (Chương 2 và 3): Bao gồm các chẩn đoán và xây dựng mô hình cho hồi quy tuyến tính. Các ví dụ sử dụng dữ liệu lungcap (dung tích phổi) và phân tích phương sai (ANOVA) được trình bày. Sách cũng đề cập đến các phép biến đổi đơn giản của các biến giải thích và phân tích chẩn đoán bằng cách sử dụng biểu đồ phần dư chuẩn hóa.

  • Mô hình cho Tỷ lệ: GLMs nhị thức (Chương 9): Giải thích mô hình GLM nhị thức, thích hợp cho dữ liệu là tỷ lệ hoặc số lượng thành công trong một số lần thử cố định. Ví dụ về mô hình hồi quy logistic được đưa ra.

  • Mô hình cho Số đếm: GLMs Poisson và Nhị thức âm (Chương 10): Trình bày GLMs Poisson và Nhị thức âm, phù hợp cho dữ liệu đếm. Ví dụ về dữ liệu hcrabs (cua móng ngựa) được sử dụng để so sánh mô hình quasi-Poisson và nhị thức âm. Khái niệm phân phối Poisson bị cắt cụt (zero-truncated Poisson) cũng được giới thiệu.

  • GLMs Gamma và Gaussian ngược (Chương 11): Thảo luận về GLMs Gamma và Gaussian ngược, thường được sử dụng cho dữ liệu liên tục dương. Các biểu đồ phần dư chuẩn hóa được sử dụng để chẩn đoán mô hình.

  • GLMs Tweedie (Chương 12): Một loại phân phối thuộc mô hình tán sắc mũ (Exponential Dispersion Models - EDMs) được sử dụng để mô hình hóa dữ liệu liên tục dương, đặc biệt là dữ liệu có giá trị không chính xác. Phân phối Gamma (ξ = 2) và Gaussian ngược (ξ = 3) là các trường hợp đặc biệt của phân phối Tweedie.

  • Các khái niệm cốt lõi của GLMs: Cuốn sách giới thiệu cấu trúc của GLMs, bao gồm:

    • Hàm phương sai: V(μ)
    • Hàm tích lũy (cumulant function): κ(θ)
    • Tham số chính tắc: θ
    • Tham số tán sắc: φ
    • Độ lệch đơn vị (unit deviance): d(y, μ)
  • Kiểm định giả thuyết: Các phương pháp kiểm định giả thuyết lớn dựa trên kết quả tiệm cận, bao gồm kiểm định Wald và kiểm định Score, được thảo luận.

  • Sử dụng R: Cuốn sách bao gồm hướng dẫn sử dụng phần mềm R để phân tích dữ liệu, tải dữ liệu, và thực hiện các phân tích mô hình tuyến tính tổng quát. Nhiều bộ dữ liệu khác nhau được sử dụng làm ví dụ trong sách.

Phần 2: Thống kê mô tả

data <- read.csv("C:/Users/PHAN THANH TRONG/Downloads/Supermarket Transactions.csv")
summary(data)
##       STT        PurchaseDate         CustomerID       Gender         
##  Min.   :    1   Length:14059       Min.   :    3   Length:14059      
##  1st Qu.: 3516   Class :character   1st Qu.: 2549   Class :character  
##  Median : 7030   Mode  :character   Median : 5060   Mode  :character  
##  Mean   : 7030                      Mean   : 5117                     
##  3rd Qu.:10544                      3rd Qu.: 7633                     
##  Max.   :14059                      Max.   :10280                     
##  MaritalStatus       Homeowner            Children    AnnualIncome      
##  Length:14059       Length:14059       Min.   :0.00   Length:14059      
##  Class :character   Class :character   1st Qu.:1.00   Class :character  
##  Mode  :character   Mode  :character   Median :3.00   Mode  :character  
##                                        Mean   :2.53                     
##                                        3rd Qu.:4.00                     
##                                        Max.   :5.00                     
##      City           StateorProvince      Country          ProductFamily     
##  Length:14059       Length:14059       Length:14059       Length:14059      
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
##                                                                             
##  ProductDepartment  ProductCategory      UnitsSold        Revenue     
##  Length:14059       Length:14059       Min.   :1.000   Min.   : 0.53  
##  Class :character   Class :character   1st Qu.:3.000   1st Qu.: 6.84  
##  Mode  :character   Mode  :character   Median :4.000   Median :11.25  
##                                        Mean   :4.081   Mean   :13.00  
##                                        3rd Qu.:5.000   3rd Qu.:17.37  
##                                        Max.   :8.000   Max.   :56.70