Phần 1: Tóm tắt

Cuốn sách “Generalized Linear Models With Examples in R” cung cấp cả lý thuyết sâu sắc và ứng dụng thực tế của Mô hình tuyến tính tổng quát (GLM). Nó sử dụng ngôn ngữ R để minh họa các ví dụ và phân tích dữ liệu như sau:

  • Chương 1:Mô hình Thống kê Giới thiệu tổng quan, quy ước mô tả dữ liệu, vẽ biểu đồ dữ liệu, mã hóa cho các yếu tố, và cách mô hình thống kê mô tả cả thành phần ngẫu nhiên và hệ thống.Hướng dẫn cách trực quan hóa dữ liệu thông qua các biểu đồ, với các ví dụ cụ thể như mối quan hệ giữa thể tích thở ra gắng sức (FEV) và các biến số khác (tuổi, chiều cao, tình trạng hút thuốc, giới tính).Đồng thời giải thích cách mã hóa các biến định tính (factors) để đưa vào mô hình thống kê.Nhấn mạnh rằng mô hình thống kê bao gồm cả thành phần ngẫu nhiên (random) và thành phần hệ thống (systematic).

  • Chương 2: Mô hình Hồi quy Tuyến tính Phần này trình bày tổng quan về mô hình hồi quy tuyến tính — một công cụ thống kê cơ bản, bao gồm định nghĩa, thành phần, và cách xây dựng mô hình hồi quy tuyến tính đơn giản. Nội dung đi sâu vào phương pháp ước lượng bình phương nhỏ nhất, cách tính hệ số, phương sai, sai số chuẩn và giá trị phù hợp. Đề cập đến các bài toán liên quan đến mô hình trên nhưnhư lungcap (dung tích phổi) và phân tích phương sai (ANOVA). Sách cũng đề cập đến các phép biến đổi đơn giản của các biến giải thích và phân tích chẩn đoán bằng cách sử dụng biểu đồ phần dư chuẩn hóa.

  • chương 3: Xây dựng mô hình hồi quy tuyến tính Chương này tập trung vào các kỹ thuật chẩn đoán mô hình hồi quy tuyến tính nhằm đánh giá mức độ phù hợp của mô hình, thông qua việc sử dụng các biểu đồ minh họa như biểu đồ phần dư chuẩn hóa so với giá trị phù hợp để kiểm tra tính tuyến tính và phương sai không đổi, biểu đồ Q-Q chuẩn của phần dư để đánh giá giả định phân phối chuẩn của sai số, biểu đồ đòn bẩy và khoảng cách Cook nhằm xác định các điểm dữ liệu có ảnh hưởng lớn đến mô hình. Ngoài ra, các biểu đồ phần dư chuẩn hóa so với biến dự đoán giúp phát hiện các mối quan hệ phi tuyến, trong khi biểu đồ phần dư từng phần được sử dụng để đánh giá ảnh hưởng riêng lẻ của từng biến. Chương cũng thảo luận về việc kiểm tra các giả định cơ bản của mô hình hồi quy tuyến tính và các phương pháp cải thiện mô hình, chẳng hạn như biến đổi biến phản hồi hoặc biến dự đoán. Một nghiên cứu trường hợp về dữ liệu nha khoa được trình bày nhằm minh họa quá trình phân tích hồi quy và diễn giải kết quả, đồng thời so sánh biểu đồ dữ liệu gốc và dữ liệu sau biến đổi logarit để cho thấy hiệu quả của việc biến đổi.

  • Chương 4: Lý thuyết về tiệm cận Phần này tập trung vào lý thuyết tiệm cận, cung cấp nền tảng lý thuyết quan trọng cho việc suy luận thống kê trong các mô hình thống kê. Đặc biệt, phần 4.10 thảo luận về kiểm định giả thuyết trong bối cảnh mẫu lớn, nhấn mạnh vai trò của các kết quả tiệm cận trong việc hỗ trợ suy luận. Nội dung giới thiệu kiểm định giả thuyết cho một tham số duy nhất và trình bày ba phương pháp kiểm định, trong đó đáng chú ý là kiểm định Wald – phương pháp dựa trên khoảng cách giữa ước lượng tham số và giá trị được giả thuyết.

  • Chương 5: Mô hình phân tán mũ Phần này giới thiệu các mô hình phân tán mũ (EDM), một lớp các phân phối xác suất quan trọng trong thống kê, cùng với các ký hiệu và thuật ngữ liên quan. Các mô hình EDM phổ biến như Normal, Binomial, Negative Binomial, Poisson, Gamma, Inverse Gaussian và Tweedie được liệt kê kèm theo các thuộc tính đặc trưng như hàm phương sai, hàm tích lũy, tham số chính tắc, tham số phân tán, độ lệch đơn vị và miền giá trị. Nội dung cũng thảo luận sâu về phân phối Tweedie như một trường hợp đặc biệt, cùng mối liên hệ của nó với các phân phối khác trong lớp EDM. Giá trị kỳ vọng của độ lệch đơn vị cho các phân phối Gamma, Poisson và Binomial được trình bày, cùng với các quy tắc ngón tay cái để xấp xỉ phân phối chuẩn. Ngoài ra, phần này đề cập đến phân phối Generalized Hyperbolic Secant và hàm phương sai tương ứng.

  • Chương 6: Giới thiệu về GLMs Phần này giới thiệu về Mô hình tuyến tính tổng quát (GLM), một mở rộng của mô hình hồi quy tuyến tính truyền thống, cho phép mô hình hóa nhiều loại dữ liệu khác nhau thông qua liên kết giữa kỳ vọng của biến phản hồi và tổ hợp tuyến tính của các biến dự đoán. Nội dung chương được trình bày trong bối cảnh giải quyết bài toán thực tế, cụ thể là việc ước lượng một mô hình Poisson GLM, minh họa cách áp dụng GLM để xử lý dữ liệu đếm và đưa ra suy luận thống kê phù hợp.

  • Chương 7: Suy luận thống kê cho GLMs Chương 7 tập trung vào suy luận thống kê trong mô hình tuyến tính tổng quát (GLM), bao gồm các kỹ thuật kiểm định giả thuyết và xây dựng khoảng tin cậy cho các tham số mô hình. Nội dung chương được minh họa thông qua phần giải pháp bài toán, trong đó sử dụng hai phương pháp kiểm định phổ biến là kiểm định tỷ số khả năng (Likelihood Ratio Test – LRT) và kiểm định Wald để đánh giá ý nghĩa thống kê của các biến trong mô hình.

  • Chương 8: Kiểm tra các giả định của mô hình GLMs Phần này thảo luận về các phương pháp kiểm tra giả định trong mô hình tuyến tính tổng quát (GLM), tập trung nhấn mạnh việc sử dụng các biểu đồ phần dư như phần dư lượng tử và phần dư độ lệch để đánh giá tính phù hợp của mô hình. Các biểu đồ này giúp phát hiện các vấn đề tiềm ẩn trong mô hình, từ đó hỗ trợ việc cải thiện và điều chỉnh mô hình GLM cho phù hợp hơn với dữ liệu thực tế.

  • Chương 9: Mô hình cho Tỷ lệ Binomial GLMs Phần này trình bày mô hình GLM nhị thức (Binomial GLMs) dùng để mô hình hóa dữ liệu tỷ lệ, đi kèm với nghiên cứu trường hợp về tỷ lệ turbine bị nứt theo giờ sử dụng nhằm minh họa ứng dụng thực tế. Ví dụ về dữ liệu mầm hạt và bảng ANOVA cho mô hình GLM cũng được giới thiệu. Các biểu đồ chẩn đoán, đặc biệt là biểu đồ Q-Q chuẩn của phần dư lượng tử, được sử dụng để đánh giá tính phù hợp của mô hình. Bài toán về số lượng bướm đêm thuốc lá bị tiêu diệt theo liều thuốc trừ sâu cũng được trình bày, bao gồm việc ước lượng và diễn giải mô hình hồi quy logistic, kiểm tra chẩn đoán và vẽ biểu đồ dữ liệu.

  • Chương 10: Mô hình cho dữ liệu đếm: Poisson và Negative Binomial GLMs Trình bày GLMs Poisson và Nhị thức âm, phù hợp cho dữ liệu đếm. Ví dụ về dữ liệu hcrabs (cua móng ngựa) được sử dụng để so sánh mô hình quasi-Poisson và nhị thức âm. Khái niệm phân phối Poisson bị cắt cụt (zero-truncated Poisson) cũng được giới thiệu.Phần này so sánh mô hình quasi-Poisson và Negative Binomial, làm rõ điểm mạnh và hạn chế của từng mô hình trong việc xử lý dữ liệu đếm có hiện tượng quá phân tán. Dựa trên đó, các khuyến nghị về lựa chọn mô hình phù hợp được đưa ra nhằm giúp người dùng áp dụng hiệu quả hơn trong thực tế.

  • Chương 11: Dữ liệu dương liên tục: Gamma và Inverse Gaussian GLMs Phần này giới thiệu các mô hình GLM Gamma và Inverse Gaussian, được sử dụng để mô hình hóa dữ liệu dương liên tục. Nội dung trình bày tổng quan về đặc điểm của dữ liệu dương liên tục, mô tả chi tiết về phân phối Gamma và Inverse Gaussian cùng các hàm liên kết đa dạng có thể áp dụng cho các mô hình này. Phần này cũng thảo luận về phương pháp ước lượng tham số phân tán và sử dụng các biểu đồ phần dư chuẩn hóa cùng khoảng cách Cook để so sánh hiệu quả của các mô hình Gamma GLM với các hàm liên kết khác nhau.

  • Chương 12: Mô hình Tuyến tính Tổng quát Một loại phân phối thuộc mô hình tán sắc mũ (Exponential Dispersion Models - EDMs) được sử dụng để mô hình hóa dữ liệu liên tục dương, đặc biệt là dữ liệu có giá trị không chính xác. Phân phối Gamma (ξ = 2) và Gaussian ngược (ξ = 3) là các trường hợp đặc biệt của phân phối Tweedie.

  • Các khái niệm cốt lõi của GLMs: Cuốn sách giới thiệu cấu trúc của GLMs, bao gồm:

    • Hàm phương sai: V(μ)
    • Hàm tích lũy (cumulant function): κ(θ)
    • Tham số chính tắc: θ
    • Tham số tán sắc: φ
    • Độ lệch đơn vị (unit deviance): d(y, μ)
  • Kiểm định giả thuyết: Các phương pháp kiểm định giả thuyết lớn dựa trên kết quả tiệm cận, bao gồm kiểm định Wald và kiểm định Score, được thảo luận.

Phần 2: Thống kê mô tả

  • Thực hiện thống kê mô tả các biến: Tính thống kê mô tả là một bước cơ bản nhưng rất quan trọng trong quá trình phân tích dữ liệu. Mục tiêu của bước này là cung cấp cái nhìn tổng quan về các biến trong bộ dữ liệu. Các thông tin thống kê như số lượng quan sát, giá trị trung bình, độ lệch chuẩn, giá trị nhỏ nhất, giá trị lớn nhất và các phân vị (quartiles) giúp người phân tích hiểu được phân bố dữ liệu, nhận diện các giá trị bất thường và đưa ra định hướng phù hợp cho các phân tích sâu hơn. Đây là kết quả thống kê mô tả từ dữ liệu được cho:
# Tải thư viện
library(readxl)
## Warning: package 'readxl' was built under R version 4.4.3
library(psych)
## Warning: package 'psych' was built under R version 4.4.3
# Đọc dữ liệu từ file Excel (sheet đầu tiên)
data <- read_excel("C:/Users/Admin/Documents/R.xlsx")
## New names:
## • `` -> `...1`
# Hiển thị 6 dòng đầu tiên để kiểm tra
head(data)
## # A tibble: 6 × 16
##    ...1 PurchaseDate        CustomerID Gender MaritalStatus Homeowner Children
##   <dbl> <dttm>                   <dbl> <chr>  <chr>         <chr>        <dbl>
## 1     1 2007-12-18 00:00:00       7223 F      S             Y                2
## 2     2 2007-12-20 00:00:00       7841 M      M             Y                5
## 3     3 2007-12-21 00:00:00       8374 F      M             N                2
## 4     4 2007-12-21 00:00:00       9619 M      M             Y                3
## 5     5 2007-12-22 00:00:00       1900 F      S             Y                3
## 6     6 2007-12-22 00:00:00       6696 F      M             Y                3
## # ℹ 9 more variables: AnnualIncome <chr>, City <chr>, StateorProvince <chr>,
## #   Country <chr>, ProductFamily <chr>, ProductDepartment <chr>,
## #   ProductCategory <chr>, UnitsSold <dbl>, Revenue <dbl>
# Tính thống kê mô tả cho tất cả biến
describe(data)
## Warning in FUN(newX[, i], ...): no non-missing arguments to min; returning Inf
## Warning in FUN(newX[, i], ...): no non-missing arguments to max; returning -Inf
##                    vars     n    mean      sd  median trimmed     mad  min
## ...1                  1 14059 7030.00 4058.63 7030.00 7030.00 5211.34 1.00
## PurchaseDate          2 14059     NaN      NA      NA     NaN      NA  Inf
## CustomerID            3 14059 5116.90 2920.76 5060.00 5107.72 3780.63 3.00
## Gender*               4 14059    1.49    0.50    1.00    1.49    0.00 1.00
## MaritalStatus*        5 14059    1.51    0.50    2.00    1.51    0.00 1.00
## Homeowner*            6 14059    1.60    0.49    2.00    1.63    0.00 1.00
## Children              7 14059    2.53    1.49    3.00    2.53    1.48 0.00
## AnnualIncome*         8 14059    4.40    2.20    5.00    4.44    1.48 1.00
## City*                 9 14059   12.20    5.92   13.00   12.31    7.41 1.00
## StateorProvince*     10 14059    5.89    2.90    6.00    5.95    2.97 1.00
## Country*             11 14059    2.62    0.59    3.00    2.73    0.00 1.00
## ProductFamily*       12 14059    2.10    0.52    2.00    2.11    0.00 1.00
## ProductDepartment*   13 14059   12.44    6.12   13.00   12.70    7.41 1.00
## ProductCategory*     14 14059   26.77   14.41   29.00   27.57   19.27 1.00
## UnitsSold            15 14059    4.08    1.17    4.00    4.08    1.48 1.00
## Revenue              16 14059   13.00    8.22   11.25   12.05    7.40 0.53
##                        max    range  skew kurtosis    se
## ...1               14059.0 14058.00  0.00    -1.20 34.23
## PurchaseDate          -Inf     -Inf    NA       NA    NA
## CustomerID         10280.0 10277.00  0.01    -1.19 24.63
## Gender*                2.0     1.00  0.04    -2.00  0.00
## MaritalStatus*         2.0     1.00 -0.05    -2.00  0.00
## Homeowner*             2.0     1.00 -0.41    -1.83  0.00
## Children               5.0     5.00 -0.02    -1.03  0.01
## AnnualIncome*          8.0     7.00 -0.42    -1.08  0.02
## City*                 23.0    22.00 -0.15    -1.05  0.05
## StateorProvince*      10.0     9.00 -0.37    -1.31  0.02
## Country*               3.0     2.00 -1.32     0.69  0.00
## ProductFamily*         3.0     2.00  0.13     0.54  0.00
## ProductDepartment*    22.0    21.00 -0.35    -1.11  0.05
## ProductCategory*      45.0    44.00 -0.33    -1.14  0.12
## UnitsSold              8.0     7.00  0.01    -0.44  0.01
## Revenue               56.7    56.17  1.13     1.39  0.07
# Nếu chỉ muốn tính cho các biến dạng số:
describe(data[sapply(data, is.numeric)])
##            vars     n    mean      sd  median trimmed     mad  min     max
## ...1          1 14059 7030.00 4058.63 7030.00 7030.00 5211.34 1.00 14059.0
## CustomerID    2 14059 5116.90 2920.76 5060.00 5107.72 3780.63 3.00 10280.0
## Children      3 14059    2.53    1.49    3.00    2.53    1.48 0.00     5.0
## UnitsSold     4 14059    4.08    1.17    4.00    4.08    1.48 1.00     8.0
## Revenue       5 14059   13.00    8.22   11.25   12.05    7.40 0.53    56.7
##               range  skew kurtosis    se
## ...1       14058.00  0.00    -1.20 34.23
## CustomerID 10277.00  0.01    -1.19 24.63
## Children       5.00 -0.02    -1.03  0.01
## UnitsSold      7.00  0.01    -0.44  0.01
## Revenue       56.17  1.13     1.39  0.07
  • Nhận xét các biến: Bảng này cung cấp các thống kê mô tả cho 4 biến số chính: CustomerID, Children, UnitsSold và Revenue. Biến CustomerID: Giá trị trung bình của CustomerID là 5116.90 và trung vị là 5060, cho thấy phân phối gần đối xứng. Độ lệch chuẩn là 2920.76, cho thấy sự phân tán đáng kể của dữ liệu. Khách hàng được phân bố tương đối đều từ 3 đến 10280. Độ xiên là 0.01 và hệ số kurtosis là -1.19, cho thấy phân phối gần đối xứng và hơi phẳng. Biến Children: Biến Children có giá trị trung bình là 2.53 và trung vị là 3, cho thấy số lượng con trung bình là khoảng 2-3 con. Độ lệch chuẩn là 1.49, cho thấy sự phân tán không lớn. Giá trị nhỏ nhất là 0 và lớn nhất là 5. Độ xiên là -0.02 và hệ số kurtosis là -1.03, cho thấy phân phối gần đối xứng và phẳng. Biến UnitsSold: Giá trị trung bình của UnitsSold là 4.08 và trung vị là 4, cho thấy số lượng sản phẩm bán ra trung bình là khoảng 4. Độ lệch chuẩn là 1.17, cho thấy sự phân tán nhỏ. Giá trị nhỏ nhất là 1 và lớn nhất là 8. Độ xiên là 0.01 và hệ số kurtosis là -0.44, cho thấy phân phối gần đối xứng. Biến Revenue: Đối với biến Revenue, giá trị trung bình là 13 và trung vị là 11.25, cho thấy doanh thu trung bình là 13. Độ lệch chuẩn là 8.22, cho thấy sự phân tán đáng kể của dữ liệu. Giá trị nhỏ nhất là 0.53 và lớn nhất là 56.7. Độ xiên là 1.13 và hệ số kurtosis là 1.39, cho thấy phân phối lệch phải và có đuôi dày. Có một số giá trị doanh thu cao hơn nhiều so với phần còn lại.

Phần 3: Kết luận về quyển sách

  • Kết hợp lý thuyết và ứng dụng: Sách cung cấp cả kiến thức lý thuyết sâu sắc về Mô hình tuyến tính tổng quát (GLM) và các ví dụ ứng dụng thực tế.

  • Trình bày ngôn ngữ R xuyên suốt quá trình:Sách tích hợp việc sử dụng ngôn ngữ R xuyên suốt, với các ví dụ code R toàn diện và code hoàn chỉnh cho hầu hết các phân tích dữ liệu và nghiên cứu trường hợp. R được sử dụng để minh họa các khái niệm, thực hiện các phân tích và trình bày kết quả, giúp người đọc có thể tự mình tái tạo và mở rộng các ví dụ.

  • Dữ liệu được lấy thực tế:Sách sử dụng dữ liệu thực tế từ gói R GLMsData,giúp người đọc có được cái nhìn thực tế về các loại dữ liệu khác nhau và cách xử lý chúng.

  • Giải thích rõ ràng:Sách giải thích rõ ràng mối liên hệ giữa kiểm định điểm số và thống kê Pearson, đồng thời đưa ra các hướng dẫn thực tế và cụ thể để sử dụng các xấp xỉ tiệm cận.