1 Tóm tắt sách

1.1 Giới thiệu về sách
Generalized Linear Models With Examples in R

1.1.1 Mục tiêu của sách

Mục tiêu trọng tâm của cuốn sách là giới thiệu và khai thác chuyên sâu Mô hình Tuyến tính Tổng quát (Generalized Linear Models – GLMs). Mở đầu bằng việc trình bày các khái niệm nền tảng trong lý thuyết mô hình thống kê, tác giả hướng dẫn cách mô tả dữ liệu một cách có hệ thống và sử dụng phần mềm R như một công cụ chủ đạo trong quá trình xây dựng mô hình. Cuốn sách được thiết kế nhằm giúp người đọc nắm bắt cách thức các mô hình thống kê phản ánh đồng thời các thành phần ngẫu nhiên và cấu trúc hệ thống bên trong dữ liệu.

Thông qua việc trình bày chi tiết mô hình hồi quy tuyến tính như một trường hợp đặc biệt của GLMs, sách từng bước dẫn dắt người đọc đến với khuôn khổ tổng quát hơn. Quá trình này bao gồm các bước thiết lập mô hình, ước lượng tham số (model fitting), diễn giải kết quả, kiểm định chẩn đoán (model diagnostics) và lựa chọn mô hình phù hợp cho từng tình huống thực tiễn. Một mục tiêu xuyên suốt của cuốn sách là lồng ghép việc sử dụng ngôn ngữ lập trình R vào toàn bộ quy trình phân tích, với các ví dụ minh họa cụ thể giúp người đọc dễ dàng chuyển hóa lý thuyết thành thực hành.

1.1.2 Đối tượng người đọc và ưu điểm

Cuốn sách được thiết kế dành riêng cho những ai đang học hoặc làm việc với R, với lộ trình rõ ràng từ cơ bản đến nâng cao, thích hợp cho cả môi trường học thuật lẫn tự học nghiêm túc. Việc tích hợp lý thuyết với các ví dụ minh họa cụ thể trong R giúp người học nhanh chóng chuyển hóa kiến thức thành kỹ năng thực tế.

Điểm mạnh nổi bật của sách là tính thực hành cao và cấu trúc chặt chẽ. Bạn sẽ được hướng dẫn bài bản từ hồi quy tuyến tính đến GLM, với phân tích sâu các thành phần thống kê như phân phối thuộc họ mũ (EDM) và hàm liên kết. Sách đi kèm hàng loạt ví dụ thực tế, dữ liệu đa dạng (như lungcap, trees, kstones), chương riêng về chẩn đoán mô hình, và hệ thống bài tập có lời giải – tất cả nhằm giúp bạn không chỉ hiểu mô hình mà còn áp dụng được chúng trong các tình huống thực tiễn.

1.2 Chương 1: Statistical Models

1.2.1 Mục tiêu và thông điệp của chương

Chương 1: Statistical Models đóng vai trò là chương nhập môn quan trọng, đặt nền móng cho toàn bộ cuốn sách tập trung vào các mô hình tuyến tính tổng quát (Generalized Linear Models - GLMs). Mục tiêu nhận thức chính của chương này là giới thiệu khái niệm cơ bản về mô hình thống kê, cùng với ngôn ngữ, ký hiệu và các vấn đề cốt lõi liên quan. Chương trang bị cho người học kiến thức nền tảng về cách mô tả dữ liệu một cách toán học, bao gồm phân biệt biến phụ thuộc (response variable - y) với các biến giải thích (explanatory variables - \(x_1, x_2, ..., x_p\)), cũng như định nghĩa các biến định lượng (covariates) và định tính (factors).Một kỹ năng quan trọng được nhấn mạnh là tầm quan trọng của việc trực quan hóa dữ liệu thông qua các biểu đồ trước khi xây dựng mô hình. Ngoài ra, chương cũng giới thiệu phương pháp mã hóa các biến định tính thành các biến số (dummy variables) để sử dụng trong mô hình toán học.

Thông điệp cốt lõi mà chương truyền tải là ý tưởng rằng mô hình thống kê được sử dụng để mô tả cả hai đặc điểm ngẫu nhiên và có hệ thống của dữ liệu. Mặc dù “tất cả các mô hình đều sai, nhưng một số lại hữu ích”, việc nhận thức được bản chất xấp xỉ của mô hình là rất quan trọng. Chương thảo luận về mục đích khác nhau của mô hình thống kê (như hiểu biết hoặc dự đoán) và giới thiệu hai tiêu chí để đánh giá mô hình: độ chính xác (accuracy) và tính đơn giản (parsimony). Chương cũng lưu ý về những hạn chế quan trọng của mô hình thống kê, đặc biệt là sự khác biệt giữa suy luận nhân quả (causality) từ các nghiên cứu thực nghiệm và chỉ là mối liên hệ (association) từ các nghiên cứu quan sát. Vấn đề mà chương giải quyết là cung cấp một khung khái niệm ban đầu để hiểu và áp dụng các mô hình thống kê, tạo điều kiện thuận lợi cho việc tiếp cận sâu hơn các mô hình phức tạp hơn như GLMs.

1.2.2 Kiến thức chính trong chương

1.2.2.1 Mô tả dữ liệu và ký hiệu

Chương bắt đầu bằng cách thiết lập các quy ước để mô tả dữ liệu trong ngữ cảnh mô hình thống kê. Dữ liệu được xem xét bao gồm biến phụ thuộc (response variable) ký hiệu là y, đại diện cho kết quả cần mô hình hóa, và các biến giải thích (explanatory variables) \(x_1, x_2, ..., x_p\), được sử dụng để giải thích hoặc dự đoán y. Tổng số quan sát được ký hiệu là n, và số biến giải thích là p. Các biến giải thích định lượng được gọi là covariates, trong khi các biến giải thích định tính được gọi là factors. Ký hiệu số lượng của tham số hồi quy là p’, thường là p+1 nếu mô hình có hệ số chặn \(\beta_0\). Logic trình bày tập trung vào việc cấu trúc dữ liệu một cách toán học để chuẩn bị cho việc xây dựng mô hình. Ví dụ về dữ liệu lungcap (dung tích phổi) được giới thiệu để minh họa các loại biến này (fev là biến phụ thuộc, age, height, gender, smoking status là biến giải thích). Việc hiểu rõ cách mô tả và ký hiệu dữ liệu là nền tảng cho việc xây dựng và diễn giải mô hình sau này.

1.2.2.2 Trực quan hoá dữ liệu

Chương nhấn mạnh tầm quan trọng của việc vẽ biểu đồ dữ liệu trước khi tiến hành phân tích mô hình hóa. Mục đích là để khám phá các mối quan hệ tiềm năng, phát hiện các xu hướng hoặc đặc điểm bất thường của dữ liệu mà có thể không rõ ràng chỉ bằng việc xem các bảng số liệu. Mặc dù chương 1 giới thiệu ý tưởng này, các chương sau và các phần phụ lục về R cung cấp các công cụ cụ thể để thực hiện. Việc trực quan hóa giúp người học hình thành giả thuyết ban đầu về mối quan hệ giữa các biến và đánh giá liệu các giả định mô hình có vẻ hợp lý hay không. Ví dụ, các biểu đồ về dữ liệu fev (dung tích phổi) so với age và height được đưa ra để minh họa mối quan hệ (hoặc sự thiếu mối quan hệ tuyến tính) trong dữ liệu thực tế. Việc sử dụng các hàm plot()legend() trong R được giới thiệu như những công cụ cơ bản cho bước này.

1.2.2.3 Mã hoá biến định tính (Factors)

Để sử dụng các biến định tính (factors) trong mô hình thống kê toán học, chúng cần được mã hóa thành các biến số (numerical variables). Phương pháp phổ biến là sử dụng dummy variables. Đối với một biến định tính có k mức (levels), cần sử dụng k-1 biến dummy. Kiểu mã hóa treatment coding được sử dụng phổ biến và là mặc định trong phần mềm R. Logic ở đây là chuyển đổi thông tin phân loại thành dạng số để mô hình có thể xử lý các hiệu ứng của các mức khác nhau của biến định tính. Ví dụ, biến giới tính (gender) hoặc tình trạng hút thuốc (smoking status) trong dữ liệu lungcap là các biến định tính cần mã hóa. Việc mã hóa đúng cách là điều kiện tiên quyết để đưa các yếu tố định tính vào mô hình hồi quy.

1.2.2.4 Hai thành phần của mô hình thống kê

Một ý tưởng cốt lõi được giới thiệu là mô hình thống kê được sử dụng để mô tả hai khía cạnh của dữ liệu: thành phần có hệ thống (systematic component) và thành phần ngẫu nhiên (random component). Thành phần có hệ thống mô tả cách giá trị trung bình của biến phụ thuộc (\(E[y_i]\) hoặc \(μ_i\)) liên quan đến các biến giải thích. Đây là phần dự đoán được của mô hình, thường biểu diễn bằng một hàm của các biến giải thích và các tham số. Thành phần ngẫu nhiên mô tả sự biến động hoặc sai số xung quanh giá trị trung bình đó. Điều này liên quan đến phân phối xác suất của biến phụ thuộc, mô tả tính ngẫu nhiên không giải thích được bởi các biến giải thích. Việc phân tách dữ liệu thành hai thành phần này là nền tảng cho cấu trúc của hầu hết các mô hình thống kê, bao gồm cả mô hình hồi quy tuyến tính và GLMs.

1.2.2.5 Mô hình Hồi quy (Regression Models)

Mô hình hồi quy là một lớp mô hình thống kê quan trọng, bao gồm tất cả các mô hình được thảo luận trong cuốn sách này. Trong mô hình hồi quy, thành phần có hệ thống thường có dạng là một hàm tuyến tính của các tham số (linearity in the parameters), ngay cả khi nó có thể phi tuyến tính đối với các biến giải thích. Cấu trúc chung của thành phần có hệ thống trong mô hình hồi quy tuyến tính là: \[ E[y_i] = \beta_0 + \beta_1 x_{1i} + ... + \beta_p x_{pi} \] . Đối với GLMs, mối liên hệ này được tổng quát hóa thông qua một hàm liên kết (link function), tức là: \[ g(μ_i) = β_0 + β_1x_{1i} + ... + β_px_{pi} \]

Chương giới thiệu các ví dụ về các dạng thành phần có hệ thống khác nhau (1.8-1.12), minh họa sự linh hoạt trong việc mô tả mối quan hệ giữa trung bình và các biến giải thích. Việc hiểu cấu trúc này là chìa khóa để xây dựng và diễn giải mô hình hồi quy.

1.2.2.6 Mục đích và đánh giá mô hình

Mục đích của việc xây dựng mô hình thống kê có thể khác nhau, ví dụ như để hiểu sâu sắc mối quan hệ giữa các biến hoặc để đưa ra dự đoán. Chương 1 giới thiệu rằng không có mô hình nào là hoàn hảo, nhưng chúng có thể hữu ích để làm sáng tỏ dữ liệu. Việc đánh giá mô hình được dựa trên hai tiêu chí chính: độ chính xác (accuracy) trong việc mô tả hoặc dự đoán dữ liệu, và tính đơn giản (parsimony), nghĩa là mô hình nên đủ đơn giản để dễ hiểu và tránh hiện tượng quá khớp (overfitting). Thường có sự đánh đổi giữa hai tiêu chí này. Việc cân nhắc mục đích và sử dụng các tiêu chí đánh giá phù hợp là rất quan trọng trong quá trình xây dựng mô hình thực tế.

1.2.2.7 Giới hạn của mô hình thống kê

Cuối cùng thì chương nhấn mạnh tầm quan trọng của việc hiểu rõ các giới hạn của mô hình thống kê. Một điểm quan trọng là sự khác biệt giữa suy luận nhân quả (causality) và chỉ là mối liên hệ (association). Mô hình hồi quy chủ yếu mô tả mối liên hệ giữa các biến. Chỉ có dữ liệu từ các nghiên cứu thực nghiệm (experiments) được thiết kế đúng đắn mới cho phép suy luận về nhân quả, trong khi dữ liệu từ các nghiên cứu quan sát (observational studies) thường chỉ cho phép suy luận về mối liên hệ. Ngoài ra, khả năng tổng quát hóa (generalizability) của mô hình phụ thuộc vào cách dữ liệu được thu thập. Một mô hình chỉ nên được áp dụng cho tập dữ liệu có đặc điểm tương tự với dữ liệu được sử dụng để huấn luyện mô hình. Việc nhận thức những giới hạn này giúp người học sử dụng mô hình một cách có trách nhiệm và tránh đưa ra kết luận sai lầm.

1.2.3 Vai trò của chương

Chương 1 đóng vai trò là nền tảng khái niệm và thuật ngữ cho toàn bộ cuốn sách. Nó giới thiệu ý tưởng cơ bản về mô hình thống kê như một công cụ để phân tách và hiểu dữ liệu thông qua thành phần có hệ thống và ngẫu nhiên. Bằng việc định nghĩa rõ ràng các loại biến, quy ước ký hiệu và tầm quan trọng của trực quan hóa dữ liệu, chương này chuẩn bị cho người học ngôn ngữ và tư duy cần thiết. Quan trọng hơn, nó giới thiệu lớp mô hình hồi quy, đặt các Mô hình Tuyến tính Tổng quát (GLMs) - trọng tâm của cuốn sách - vào bối cảnh rộng hơn.

Chương 1 liên kết trực tiếp với các chương sau bằng cách giới thiệu các khái niệm cốt lõi sẽ được mở rộng và chi tiết hóa. Cụ thể, Chương 2 và 3 sẽ đào sâu vào mô hình hồi quy tuyến tính, một trường hợp đặc biệt và đơn giản hơn của GLM, dựa trên nền tảng về thành phần có hệ thống tuyến tính và thành phần ngẫu nhiên với phương sai hằng số được giới thiệu trong Chương 1. Các khái niệm về ước lượng tham số, kiểm định giả thuyết và chẩn đoán mô hình cho hồi quy tuyến tính sẽ được xây dựng trên cơ sở các ý tưởng về mô hình hóa được trình bày ở đây. Sau đó, Chương 5 trở đi sẽ tổng quát hóa từ hồi quy tuyến tính sang các GLMs đầy đủ, cho phép xử lý các loại dữ liệu và cấu trúc phương sai đa dạng hơn. Mục tiêu tổng thể của cuốn sách là cung cấp một giới thiệu áp dụng sâu sắc về GLMs, và Chương 1 chính là cánh cửa mở ra thế giới mô hình hóa này, định hướng người học cách tiếp cận dữ liệu một cách có cấu trúc và phê phán.

1.3 Chương 2 Linear Regression Models

1.3.1 Mục tiêu và thông điệp chương

Chương 2: Linear Regression Models tập trung vào việc giới thiệu mô hình hồi quy tuyến tính, đây là dạng phổ biến nhất của các mô hình hồi quy và là trường hợp đặc biệt của các mô hình tuyến tính tổng quát (GLMs). Mục tiêu nhận thức chính của chương này là trang bị cho người đọc hiểu rõ cấu trúc, giả định và các phương pháp cơ bản để ước lượng, diễn giải và thực hiện suy luận thống kê cho mô hình hồi quy tuyến tính đa biến. Chương này được thiết kế để cung cấp nền tảng ngôn ngữ và ký hiệu chung cho việc nghiên cứu sâu hơn về GLMs trong các chương sau. Chương giả định người đọc có kiến thức cơ bản về thống kê, giải tích, xác suất và kiểm định giả thuyết.

Thông điệp cốt lõi mà chương truyền tải là mô hình hồi quy tuyến tính là một công cụ mạnh mẽ để mô tả mối quan hệ tuyến tính giữa biến phản hồi định lượng và một hoặc nhiều biến giải thích, bằng cách phân tách dữ liệu thành thành phần hệ thống (tuyến tính) và thành phần ngẫu nhiên (phương sai hằng số). Chương nhấn mạnh tầm quan trọng của việc hiểu rõ các giả định của mô hình (mặc dù chẩn đoán chi tiết được thực hiện ở chương sau) và các phương pháp tiêu chuẩn để ước lượng tham số (bình phương tối thiểu) cùng với suy luận thống kê (kiểm định t, phân tích phương sai). Việc sử dụng phần mềm R cũng được giới thiệu để thực hành các kỹ thuật này.

Chương này có tầm quan trọng nền tảng vì nó giới thiệu cấu trúc mô hình (thành phần hệ thống và ngẫu nhiên) và quy trình phân tích dữ liệu (ước lượng, suy luận, đánh giá) theo một cách tiếp cận có cấu trúc, chuẩn bị cho người học hiểu cách các khái niệm này được mở rộng trong GLMs. Nó giải quyết vấn đề mô hình hóa mối quan hệ giữa các biến khi biến phản hồi có tính chất liên tục và tuân theo giả định phương sai hằng số, cung cấp các công cụ và phương pháp phân tích tiêu chuẩn mà từ đó các mô hình phức tạp hơn sẽ được xây dựng và so sánh.

1.3.2 Kiến thức chính trong chương

1.3.2.1 Định nghĩa Mô hình hồi quy tuyến tính

  • Khái niệm cốt lõi: Chương định nghĩa mô hình hồi quy tuyến tính cho dữ liệu với biến phản hồi y và p biến giải thích \(x_1, ..., x_p\). Mô hình bao gồm hai thành phần: thành phần hệ thống (systematic component) và thành phần ngẫu nhiên (random component).

  • Logic trình bày: Bắt đầu bằng cách giới thiệu cấu trúc mô hình, sau đó đi sâu vào các thành phần cụ thể. Thành phần hệ thống giả định giá trị kỳ vọng của biến phản hồi \(E[y_i] = μ_i\) có dạng tuyến tính theo các biến giải thích: \[ μ_i = β_0 + β_1x_{1i} + · · · + β_px{pi} \] Thành phần ngẫu nhiên giả định phương sai của phản hồi \(y_i\) là hằng số \(σ^2\) hoặc tỷ lệ với các trọng số đã biết w_i (\(var[y_i] = \frac {σ^2}{w_i}\)).

  • Ý nghĩa: Cung cấp khuôn khổ toán học cho việc mô tả mối quan hệ tuyến tính và biến thiên ngẫu nhiên của dữ liệu, là nền tảng cho mọi phân tích hồi quy tuyến tính.

1.3.2.2 Ước lượng tham số bằng phương pháp Bình phương Tối thiểu (Least Squares Estimation)

Chương giới thiệu cách ước lượng các tham số \(β\) bằng cách tối thiểu hóa tổng bình phương các sai lệch (sum of squared deviations), \(S = ∑ w_i(y_i - \hatμ_i)²\). Đối với hồi quy tuyến tính đơn giản (p=1), các công thức giải tích cho \(\hat\beta _0\)\(\hatβ_1\) được trình bày. Đối với hồi quy đa biến, phương pháp này được mở rộng, dẫn đến việc ước lượng các hệ số. Ví dụ 2.2 minh họa việc tính S cho các giá trị \(β₀\) và$ β₁$ khác nhau. Công thức tổng quát cho ước lượng bình phương nhỏ nhất của$ β$ trong dạng ma trận là \(\hat\beta\) = \((XᵀWX)⁻¹XᵀWy\). Việc hiểu phương pháp này là cơ bản để thu được ước lượng tham số từ dữ liệu.

1.3.2.3 Dạng ma trận của Mô hình hồi quy tuyến tính

Phần này cung cấp một giới thiệu chi tiết về dạng ma trận của mô hình hồi quy tuyến tính, rất hữu ích cho những người có nền tảng về đại số tuyến tính. Mô hình được biểu diễn dưới dạng vector và ma trận: \[ y = Xβ + ε \] Trong đó y là vector dữ liệu biến phản hồi, X là ma trận mô hình (bao gồm cột các số 1 cho hệ số chặn và các cột dữ liệu cho biến giải thích), β là vector tham số hồi quy, và ε là vector sai số ngẫu nhiên.

Phương sai của vector phản hồi là \[ var[y] = σ²W^{-1} \] Trong đó W là ma trận đường chéo của các trọng số trước \(w_i\). Dạng ma trận cho phép tính toán ước lượng hệ số \(\hat\beta = (XᵀWX)⁻¹XᵀWy\), ước lượng phương sai $^2 $ và ma trận hiệp phương sai của \(\hat\beta\), \(var[\hat\beta] = (XᵀWX^{-1})\). Hiểu dạng ma trận giúp đơn giản hóa việc trình bày lý thuyết và các tính toán phức tạp.

1.3.2.4 Sử dụng R để Phù hợp Mô hình Hồi quy Tuyến tính

Chương hướng dẫn cách phù hợp mô hình hồi quy tuyến tính sử dụng hàm lm() trong R. Ví dụ 2.15 minh họa cách sử dụng lm() với dữ liệu lungcap để phù hợp mô hình với \(log(FEV)\) là biến phản hồi và Age, Ht, Gender, Smoke là biến giải thích. Chương cũng giải thích cách sử dụng model.matrix() để tạo ma trận mô hình X. Phần này quan trọng vì R là công cụ chính được sử dụng trong cuốn sách để thực hiện các phân tích.

1.3.2.5 Diễn giải hệ số hồi quy

Việc diễn giải ý nghĩa của các hệ số hồi quy \(β_j\) là một bước quan trọng sau khi phù hợp mô hình. Hệ số \(β_j\) thường biểu thị sự thay đổi dự đoán của giá trị trung bình biến phản hồi (\(\mu\)) khi biến giải thích \(x_j\) thay đổi một đơn vị, giả sử giữ nguyên các biến giải thích khác. Hệ số chặn\(β_0\) là giá trị dự đoán của \(μ\) khi tất cả các biến giải thích bằng 0. Việc diễn giải cần được thực hiện trong giới hạn của mô hình và dữ liệu. Ví dụ 2.1 mô tả dữ liệu lungcap, sau đó có bài tập yêu cầu diễn giải hệ số trong mô hình đơn giản sử dụng dữ liệu này.

1.3.2.6 Suy luận cho mô hình hồi quy tuyến tính

Dựa trên giả định phân phối chuẩn cho sai số, chương phát triển các thủ tục suy luận cho các hệ số hồi quy. Đối với mô hình hồi quy tuyến tính chuẩn, ước lượng \(\hat\beta_j\) tuân theo phân phối chuẩn trong các mẫu lớn. Các kiểm định t được sử dụng để kiểm định giả thuyết về từng hệ số βj, ví dụ như kiểm định xem \(\beta_j\) có bằng 0 hay không. Khoảng tin cậy cho \(\beta_j\) và giá trị trung bình \(\mu\) cũng được xây dựng dựa trên phân phối t. Các kiểm định t và khoảng tin cậy là công cụ cần thiết để đánh giá ý nghĩa thống kê của từng biến giải thích trong mô hình.

1.3.2.7 Phân tích phương sai cho mô hình hồi quy

Phân tích phương sai (ANOVA) là một phương pháp khác để kiểm định giả thuyết về các hệ số hồi quy, đặc biệt là kiểm định xem ít nhất một biến giải thích có liên quan đến biến phản hồi hay không. Bảng ANOVA phân tách tổng biến thiên của biến phản hồi thành phần do mô hình (thành phần hệ thống) và phần do ngẫu nhiên (phần dư). Thống kê F được tính từ tỷ lệ giữa trung bình bình phương của thành phần hệ thống và trung bình bình phương của phần dư, tuân theo phân phối F dưới giả thuyết null. Bảng ANOVA cung cấp một cái nhìn tổng thể về sự phù hợp của mô hình.

1.3.2.8 So sánh Nested Models

Khi một mô hình là trường hợp đặc biệt của một mô hình khác (các tham số của mô hình nhỏ hơn là tập con của mô hình lớn hơn), chúng được gọi là Nested Model. Chương thảo luận cách sử dụng phân tích phương sai để so sánh hai mô hình hồi quy tuyến tính lồng nhau. Việc so sánh này giúp xác định xem việc thêm các biến giải thích vào mô hình có cải thiện đáng kể sự phù hợp hay không. Ví dụ 2.18 sử dụng bảng ANOVA để so sánh các mô hình cho dữ liệu lungcap.

1.3.2.9 So sánh Non-nested Models

AIC và BIC: Đối với các mô hình không lồng nhau, không thể sử dụng phân tích phương sai hoặc kiểm định tỷ số khả năng hợp lý trực tiếp. Chương giới thiệu Tiêu chí Thông tin Akaike (AIC) và Tiêu chí Thông tin Bayesian (BIC) như các công cụ để so sánh các mô hình không lồng nhau. AIC và BIC cân bằng giữa độ chính xác của mô hình (thường được đo bằng khả năng hợp lý) và tính tiết kiệm (số lượng tham số). Mô hình có giá trị AIC hoặc BIC nhỏ hơn thường được ưu tiên. Đây là các công cụ hữu ích trong quá trình lựa chọn mô hình.

1.3.3 Vai trò của Chương

Chương 2 về mô hình hồi quy tuyến tính đặt nền tảng vững chắc cho toàn bộ cuốn sách. Nó giới thiệu các khái niệm cốt lõi và ngôn ngữ được sử dụng xuyên suốt, bao gồm cấu trúc hai thành phần của mô hình thống kê (thành phần ngẫu nhiên và hệ thống), ký hiệu cho biến phản hồi và biến giải thích, ma trận mô hình, ước lượng tham số, và các phương pháp suy luận (kiểm định giả thuyết, khoảng tin cậy). Các khái niệm về trọng số trước (prior weights) và phương sai không đổi được trình bày chi tiết trong bối cảnh hồi quy tuyến tính, sau này sẽ được mở rộng trong GLMs.

Chương này liên kết trực tiếp với các chương sau bằng cách trình bày mô hình hồi quy tuyến tính như một trường hợp đặc biệt của GLMs. Chương 3 tiếp nối bằng cách tập trung vào chẩn đoán và xây dựng mô hình cho hồi quy tuyến tính, các kỹ thuật này cũng được khái quát hóa cho GLMs ở Chương 8. Chương 4 giới thiệu lý thuyết khả năng hợp lý (likelihood theory), là nền tảng lý thuyết cho việc ước lượng và suy luận trong GLMs. Các Chương 5 trở đi tập trung vào GLMs, khái quát hóa các khái niệm từ hồi quy tuyến tính bằng cách cho phép biến phản hồi tuân theo các phân phối khác thuộc họ phân phối mũ (exponential dispersion models - EDMs) và sử dụng hàm liên kết (link function) để kết nối giá trị trung bình của phản hồi với tổ hợp tuyến tính của các biến giải thích. Do đó, sự hiểu biết thấu đáo về hồi quy tuyến tính từ Chương 2 là điều kiện tiên quyết để nắm bắt cấu trúc, ước lượng và suy luận trong GLMs. Mục tiêu tổng thể của cuốn sách là cung cấp một giới thiệu thực tế và lý thuyết về GLMs, và Chương 2 là bước khởi đầu thiết yếu trên con đường đó.

1.4 Chương 3: Linear Regression Models: Diagnostics and Model-Building

1.4.1 Mục tiêu và thông điệp chương

Sau khi xây dựng và ước lượng một mô hình hồi quy tuyến tính tiềm năng, quá trình phân tích đòi hỏi một bước kiểm tra quan trọng: chẩn đoán mô hình. Mục tiêu nhận thức chính của Chương 3 là trang bị cho người học những kiến thức và kỹ năng cần thiết để đánh giá tính phù hợp của các giả định của mô hình hồi quy tuyến tính và xác định các vấn đề tiềm ẩn trong mô hình đã ước lượng. Chương này nhấn mạnh rằng việc chỉ dựa vào các phân tích thăm dò ban đầu có thể không đủ để đảm bảo mô hình hoàn toàn phù hợp với dữ liệu.

Thông điệp cốt lõi được truyền tải là sự cần thiết phải kiểm tra cẩn thận các giả định mô hình sau khi mô hình đã được ước lượng. Chương này khẳng định rằng việc xây dựng mô hình không chỉ dừng lại ở việc tìm ra các ước lượng tham số, mà còn bao gồm một quy trình lặp đi lặp lại của việc kiểm tra, xác định vấn đề và tìm cách khắc phục. Triết lý học thuật ở đây là nhận thức rằng “tất cả các mô hình đều sai, nhưng một số hữu ích” (một ý tưởng tương tự được đề cập trong Chương 1), và để đảm bảo tính hữu ích của một mô hình, chúng ta cần hiểu rõ khi nào và ở đâu các giả định của nó bị vi phạm. Câu nói “Normality is a myth; there never was, and never will be, a normal distribution” của Geary (dẫn lại từ trong nguồn gốc) ở đầu chương củng cố quan điểm thực tế rằng các giả định mô hình thường chỉ là xấp xỉ và việc chẩn đoán là cần thiết để đánh giá mức độ nghiêm trọng của sự sai lệch.

Chương 3 có tầm quan trọng then chốt vì việc vi phạm các giả định mô hình có thể dẫn đến các kết luận không chính xác từ phân tích. Nó cung cấp các công cụ chuyên biệt (các thước đo và biểu đồ chẩn đoán) để phát hiện các vi phạm này và thảo luận về các hành động có thể thực hiện để khắc phục, giúp người học xây dựng các mô hình mạnh mẽ và đáng tin cậy hơn. Đây là bước bắt buộc để đảm bảo tính hợp lệ của các suy luận thống kê dựa trên mô hình hồi quy tuyến tính.

1.4.2 Kiến thức chính trong chương

1.4.2.1 Các giả định của mô hình hồi quy tuyến tính

Chương này bắt đầu bằng việc xem xét lại các giả định của mô hình hồi quy tuyến tính từ quan điểm thực tiễn. Các giả định bao gồm: thành phần dự báo tuyến tính (linear predictor), phương sai hằng số (constant variance), tính độc lập (independence), tính chuẩn (normality) và thang đo (measurement scales). Logic trình bày là điểm lại các giả định này trước khi đi sâu vào các công cụ kiểm tra chúng. Việc hiểu rõ các giả định này là quan trọng vì chúng là nền tảng cho tính hợp lệ của các ước lượng và suy luận thống kê. Chương cũng thảo luận về hậu quả của việc vi phạm các giả định này và tính chất xấp xỉ của chúng.

1.4.2.2 Phần dư (Residuals) và Đòn bẩy (Leverage)

Phần dư được giới thiệu là công cụ chính để phân tích chẩn đoán. Các loại phần dư khác nhau được định nghĩa (mặc dù các loại cụ thể như Pearson, Deviance, Quantile residuals được thảo luận chi tiết hơn cho GLMs trong Chương 8), và thuật ngữ liên quan được tóm tắt. Đòn bẩy (leverage) là một thước đo bổ sung, đo lường vị trí của một quan sát so với vị trí trung bình của các quan sát covariate khác. Công thức tính đòn bẩy sử dụng đại số ma trận cũng được đưa ra. Hiểu phần dư giúp đánh giá sự sai lệch của dữ liệu so với mô hình, trong khi đòn bẩy giúp xác định các điểm dữ liệu có ảnh hưởng tiềm năng đến ước lượng mô hình.

1.4.2.3 Các Biểu đồ Chẩn đoán (Diagnostic Plots)

Đây là một phần quan trọng, sử dụng phần dư và đòn bẩy để kiểm tra trực quan các giả định. Các biểu đồ được trình bày bao gồm: biểu đồ phần dư chống lại các biến giải thích (kiểm tra tính tuyến tính), biểu đồ phần dư một phần (partial residual plots), biểu đồ phần dư chống lại các giá trị dự báo (kiểm tra phương sai hằng số - heteroskedasticity), biểu đồ Q–Q plot (kiểm tra tính chuẩn), và biểu đồ lag plots (kiểm tra tính phụ thuộc theo thời gian). Ví dụ về Q-Q plot cho dữ liệu lung capacity và các biểu đồ phần dư/Q-Q plot cho dữ liệu heat capacity được sử dụng để minh họa. Các biểu đồ này rất quan trọng vì chúng cung cấp cái nhìn trực quan về các vấn đề mô hình mà các chỉ số số học có thể bỏ sót.

1.4.2.4 Các Điểm Ngoại lệ (Outliers) và Quan sát Có Ảnh hưởng (Influential Observations)

Chương thảo luận về việc xác định các quan sát bất thường có thể ảnh hưởng đáng kể đến kết quả mô hình. Điểm ngoại lệ là các quan sát có phần dư lớn. Các phần dư được student hóa (Studentized residuals) được sử dụng để phát hiện điểm ngoại lệ. Quan sát có ảnh hưởng là các điểm mà khi loại bỏ chúng sẽ làm thay đổi đáng kể các ước lượng tham số của mô hình. Các thước đo ảnh hưởng như Cook’s distance và các thước đo khác được giới thiệu. Việc xác định các điểm này rất quan trọng để đánh giá sự ổn định của mô hình và hiểu rõ tác động của các quan sát riêng lẻ.

1.4.2.5 Các Biện pháp Khắc phục (Remedies) và Kỹ thuật Xây dựng Mô hình

Sau khi xác định các vấn đề thông qua chẩn đoán, chương đề xuất các biện pháp khắc phục. Các kỹ thuật bao gồm biến đổi biến phản hồi (response variable) (ví dụ: sử dụng “ladder of powers” để đạt tính đối xứng hoặc ổn định phương sai, biến đổi Box–Cox) và biến đổi các biến giải thích (covariates) (ví dụ: biến đổi đơn giản, sử dụng các xu hướng đa thức hoặc splines hồi quy). Việc “sửa” các điểm ngoại lệ đã xác định cũng được đề cập. Các kỹ thuật này rất quan trọng vì chúng cung cấp các chiến lược cụ thể để cải thiện mô hình khi các giả định ban đầu không được đáp ứng.

1.4.2.6 Vấn đề Đa cộng tuyến

Chương cũng đề cập đến vấn đề đa cộng tuyến, xảy ra khi các biến giải thích có mối tương quan cao với nhau. Đa cộng tuyến có thể gây ra sự không ổn định trong các ước lượng hệ số hồi quy và làm cho việc diễn giải trở nên khó khăn. Đây là một vấn đề quan trọng cần được chẩn đoán (thường thông qua các chỉ số như hệ số phóng đại phương sai VIF, mặc dù không được chi tiết trong các trích đoạn này) và xử lý trong quá trình xây dựng mô hình.

1.4.3 Vai trò của chương

Chương 3 đóng vai trò là cầu nối thiết yếu giữa việc thiết lập và ước lượng mô hình hồi quy tuyến tính (được đề cập trong Chương 2) và việc khái quát hóa mô hình này sang các mô hình tuyến tính tổng quát (Generalized Linear Models - GLMs) là trọng tâm của cuốn sách. Nó đặt nền tảng cho tư duy phản biện trong phân tích dữ liệu bằng cách nhấn mạnh rằng việc lắp đặt mô hình chỉ là bước đầu; đánh giá nghiêm ngặt sự phù hợp của mô hình là cực kỳ quan trọng.

Các kỹ thuật chẩn đoán được giới thiệu trong Chương 3, như phân tích phần dư và xác định điểm ảnh hưởng, không chỉ dành riêng cho mô hình hồi quy tuyến tính chuẩn mà còn là cơ sở khái niệm cho các phương pháp chẩn đoán GLMs được trình bày trong Chương 8. Việc hiểu cách kiểm tra các giả định (linearity, constant variance, normality, independence) trong bối cảnh tuyến tính giúp người đọc dễ dàng tiếp cận các khái niệm chẩn đoán tương tự nhưng phức tạp hơn cho các phân phối và hàm liên kết khác nhau trong GLMs. Chương 3 giúp người học nhận ra rằng ngay cả mô hình “đơn giản” nhất (hồi quy tuyến tính) cũng cần được kiểm tra kỹ lưỡng, từ đó củng cố tầm quan trọng của quy trình chẩn đoán cho các mô hình phức tạp hơn. Nó chuẩn bị cho người đọc cách tư duy về các vấn đề mô hình và chiến lược khắc phục chúng, là kỹ năng cốt lõi để sử dụng GLMs hiệu quả.

1.5 Chương 4: Beyond Linear Regression: The Method of Maximum Likelihood

1.5.1 Mục tiêu và thông điệp chương

Sau khi đã nắm vững và thực hành mô hình hồi quy tuyến tính tiêu chuẩn (được giới thiệu trong Chương 2) cùng các kỹ thuật chẩn đoán và xây dựng mô hình (Chương 3), người học sẽ nhận thấy rằng các giả định của mô hình hồi quy tuyến tính, đặc biệt là giả định về phương sai hằng số và tính chuẩn, thường không phù hợp với nhiều loại dữ liệu trong thực tế. Chương 4 đặt mục tiêu nhận thức chính là giới thiệu và trang bị cho người học phương pháp Ước lượng Hợp lý Tối đa (Maximum Likelihood Estimation - MLE) như một công cụ mạnh mẽ và tổng quát để ước lượng tham số cho các mô hình thống kê khi các giả định của hồi quy tuyến tính chuẩn bị vi phạm. Mục tiêu là hiểu được lý do tại sao cần vượt ra ngoài hồi quy tuyến tính và học cách áp dụng một nguyên lý ước lượng thống kê rộng rãi hơn.

Thông điệp cốt lõi của chương là MLE là một nguyên lý ước lượng linh hoạt và có nền tảng lý thuyết vững chắc, phù hợp để phân tích nhiều loại dữ liệu khác nhau mà hồi quy tuyến tính truyền thống không thể xử lý hiệu quả. Triết lý học thuật ở đây là không nên cố gắng áp đặt một mô hình đơn giản như hồi quy tuyến tính chuẩn lên dữ liệu không phù hợp. Thay vào đó, cần có các phương pháp cho phép mô hình hóa cấu trúc ngẫu nhiên (random component) của dữ liệu một cách chính xác hơn, và MLE cung cấp cách để làm điều đó. Câu nói của Box nhấn mạnh tầm quan trọng của việc chọn mô hình có hình thức và độ phức tạp phù hợp, ngụ ý rằng MLE là cần thiết khi mô hình tuyến tính chuẩn không đủ.

Chương 4 có tầm quan trọng then chốt vì nó giải quyết trực tiếp hạn chế của hồi quy tuyến tính khi gặp dữ liệu không có phương sai hằng số hoặc không tuân theo phân phối chuẩn. Nó cung cấp nền tảng lý thuyết và các công cụ tính toán cần thiết để phân tích các loại biến phản hồi đa dạng như biến nhị phân, biến đếm hoặc biến liên tục dương. Việc nắm vững MLE trong chương này là bước chuẩn bị không thể thiếu cho việc học và ứng dụng Mô hình Tuyến tính Tổng quát (Generalized Linear Models - GLMs), trọng tâm của cuốn sách.

1.5.2 Kiến thức chính trong chương

1.5.2.1 Sự cần thiết của các mô hình hồi quy không chuẩn

Chương bắt đầu bằng việc minh họa các tình huống mà mô hình hồi quy tuyến tính chuẩn không phù hợp. Hồi quy tuyến tính giả định phương sai hằng số và thường là phân phối chuẩn. Tuy nhiên, nhiều loại dữ liệu thực tế có cấu trúc ngẫu nhiên khác biệt. Chương liệt kê các ví dụ như biến phản hồi nhị phân hoặc đếm nhị thức (binary outcomes and binomial counts), biến đếm không giới hạn (unrestricted counts) có thể theo phân phối Poisson hoặc Negative Binomial, hoặc các quan sát liên tục dương (continuous positive observations). Đối với các loại dữ liệu này, mối quan hệ giữa trung bình và phương sai thường không hằng số, và phân phối không phải là chuẩn, khiến ước lượng bình phương tối thiểu (least-squares estimation) trong hồi quy tuyến tính trở nên không phù hợp. Đây là động lực chính để tìm kiếm các phương pháp mô hình hóa và ước lượng linh hoạt hơn.

1.5.2.2 Ý tưởng về Ước lượng Hợp lý

Khi hồi quy tuyến tính thất bại, cần một cách tiếp cận ước lượng khác. Chương giới thiệu Ước lượng Hợp lý Tối đa (MLE) như một nguyên lý ước lượng chung. Ý tưởng cốt lõi là tìm ra các giá trị của tham số mô hình sao cho xác suất (hoặc mật độ xác suất) quan sát thấy dữ liệu đã cho là lớn nhất. Hàm hợp lý (likelihood function) biểu diễn xác suất này như một hàm của các tham số. Thường thì hàm log-hợp lý (log-likelihood function) được sử dụng thay thế vì nó có cùng điểm cực đại nhưng dễ làm việc hơn về mặt toán học. Logic là thay vì cực tiểu hóa tổng bình phương phần dư (như trong hồi quy tuyến tính), chúng ta cực đại hóa hàm hợp lý.

1.5.2.3 Ước lượng Hợp lý Tối đa cho một hoặc nhiều Tham số

Chương trình bày cách tìm ước lượng hợp lý tối đa. Đối với một tham số, ước lượng được tìm bằng cách lấy đạo hàm bậc nhất của hàm log-hợp lý theo tham số đó và giải phương trình đạo hàm bằng không ( score equation). Đối với nhiều tham số, ta có một hệ các phương trình điểm số, mỗi phương trình tương ứng với đạo hàm theo một tham số. Vector điểm số (score vector) chứa các đạo hàm bậc nhất và Ma trận thông tin (Information Matrix) (hoặc ma trận Hessian, chứa các đạo hàm bậc hai của log-hợp lý) rất quan trọng. Ma trận thông tin (đặc biệt là Thông tin Fisher - expected information) được sử dụng để ước lượng phương sai và sai số chuẩn của các ước lượng MLE. Việc tìm nghiệm cho hệ phương trình điểm số thường yêu cầu các phương pháp tối ưu hóa lặp.

1.5.2.4 Công thức Ma trận và Tính toán MLE

Đối với các mô hình có nhiều biến giải thích, việc sử dụng đại số ma trận giúp biểu diễn các phương trình điểm số và ma trận thông tin một cách gọn gàng và hiệu quả. Chương trình bày cách tính các thành phần này dưới dạng ma trận. Các thuật toán tính toán như Fisher Scoring được giới thiệu như một phương pháp lặp để tìm ước lượng MLE cho các tham số. Thuật toán này cập nhật các ước lượng tham số dựa trên vector điểm số và ma trận thông tin. Một điểm quan trọng được nhấn mạnh là quá trình ước lượng GLMs (sử dụng MLE) về mặt cục bộ giống như hồi quy tuyến tính có trọng số. Phần này quan trọng vì nó cung cấp cơ sở cho việc lập trình và sử dụng phần mềm thống kê (như R, được đề cập trong Sect 4.14) để ước lượng các mô hình phức tạp hơn.

1.5.2.5 Các Thuộc tính của MLEs

Chương thảo luận về các thuộc tính thống kê mong muốn của ước lượng hợp lý tối đa. Đối với các mẫu có kích thước đủ lớn (large sample asymptotic results), ước lượng MLE có các thuộc tính hấp dẫn như tính vững (consistency) (ước lượng hội tụ về giá trị thực của tham số khi cỡ mẫu tăng), tính hiệu quả (efficiency) (ước lượng có phương sai nhỏ nhất có thể đạt được) và tính chuẩn tiệm cận (asymptotic normality) (phân phối của ước lượng xấp xỉ phân phối chuẩn khi cỡ mẫu lớn). Việc hiểu các thuộc tính này giúp tin tưởng vào kết quả phân tích khi sử dụng MLE, đặc biệt với dữ liệu có cỡ mẫu lớn.

1.5.2.6 Suy luận Thống kê (Inference): Kiểm định Giả thuyết và Khoảng tin cậy (Hypothesis Testing and Confidence Intervals

Dựa trên lý thuyết MLE và các thuộc tính tiệm cận của nó, chương giới thiệu các phương pháp suy luận thống kê tổng quát. Ba phương pháp chính để kiểm định giả thuyết (ví dụ: kiểm định một tham số bằng không hoặc so sánh các mô hình lồng nhau - nested models) được trình bày: Kiểm định Wald (Wald Test), Kiểm định Điểm số (Score Test), và Kiểm định Tỷ số Hợp lý (Likelihood Ratio Test). Các phương pháp này dựa trên sự khác biệt của hàm log-hợp lý hoặc các đạo hàm của nó tại các giá trị tham số khác nhau. Chương cũng chỉ ra cách xây dựng khoảng tin cậy (confidence intervals) cho các tham số mô hình dựa trên ước lượng MLE và sai số chuẩn của chúng. Cuối cùng, các tiêu chí như AIC (Akaike Information Criterion) và BIC (Bayesian Information Criterion) (đã được giới thiệu cho hồi quy tuyến tính trong Chương 2) được thảo luận như các công cụ để so sánh các mô hình không lồng nhau (non-nested models). Các công cụ suy luận này rất quan trọng để rút ra kết luận có ý nghĩa thống kê từ mô hình đã ước lượng.

1.5.3 Vai trò của chương

Chương 4 đóng vai trò là trụ cột lý thuyết và phương pháp luận cho toàn bộ phần còn lại của cuốn sách, đặc biệt là cho việc hiểu và áp dụng Mô hình Tuyến tính Tổng quát (GLMs). Nó không chỉ đơn thuần là một chương tiếp theo sau hồi quy tuyến tính, mà là chương đặt nền móng vững chắc cho việc vượt ra khỏi các giới hạn của mô hình chuẩn.

Chương 4 cung cấp nguyên lý ước lượng (MLE) và khung làm việc toán học/thống kê (hàm hợp lý, phương trình điểm số, thông tin, kiểm định giả thuyết, khoảng tin cậy) mà Chương 5 sẽ sử dụng để định nghĩa cấu trúc của GLMs và Chương 6 sẽ áp dụng trực tiếp để ước lượng tham số cho GLMs. Các phương pháp suy luận được học ở Chương 4 sẽ được cụ thể hóa cho GLMs trong Chương 7. Chương 8 về chẩn đoán GLMs cũng dựa trên ý tưởng về phần dư và ảnh hưởng (từ Chương 3) nhưng được tính toán trong khuôn khổ ước lượng MLE của GLMs. Các chương sau đó (9-12) chỉ đơn giản là áp dụng khung GLM/MLE này cho các phân phối dữ liệu cụ thể.

Nói cách khác, Chương 4 là động cơ thống kê cho GLMs. Nó cho phép cuốn sách chuyển từ mô hình hồi quy tuyến tính cụ thể sang một lớp mô hình rộng lớn hơn nhiều, giải quyết các loại dữ liệu đa dạng hơn và phù hợp hơn với thực tế. Việc nắm vững MLE ở đây là chìa khóa để hiểu cách GLMs hoạt động và tại sao chúng là lựa chọn ưu việt trong nhiều trường hợp.

1.6 Chương 5: Generalized Linear Models: Structure

1.6.1 Mục tiêu và thông điệp chương

Chương 5 đặt nền móng cho việc nghiên cứu các mô hình tuyến tính tổng quát (GLMs), mở rộng đáng kể phạm vi ứng dụng của mô hình hồi quy so với mô hình hồi quy tuyến tính thông thường đã thảo luận ở Chương 2 và 3. Mục tiêu nhận thức chính của chương này là giúp người học nắm vững cấu trúc cốt lõi của GLMs, hiểu được cách các mô hình này được xây dựng từ hai thành phần riêng biệt: thành phần ngẫu nhiên và thành phần hệ thống. Thông điệp cốt lõi mà chương truyền tải là GLMs cung cấp một khung phân tích linh hoạt và mạnh mẽ hơn bằng cách không bị ràng buộc bởi giả định về phương sai hằng số và cho phép biến phản hồi tuân theo các phân phối khác ngoài phân phối chuẩn. Chương này giải quyết vấn đề làm thế nào để xây dựng các mô hình hồi quy có thể phù hợp với nhiều loại dữ liệu đa dạng hơn, chẳng hạn như dữ liệu đếm (counts), dữ liệu tỷ lệ (proportions) hoặc dữ liệu liên tục dương (positive continuous data), nơi giả định phân phối chuẩn và phương sai hằng số của hồi quy tuyến tính truyền thống là không phù hợp. Bằng cách giới thiệu ngôn ngữ, ký hiệu và các khái niệm cơ bản, chương định hướng người học tiếp cận GLMs một cách có hệ thống, từ đó có thể áp dụng chúng một cách chính xác trong phân tích dữ liệu.

1.6.2 Kiến thức chính trong chương

1.6.2.1 Hai thành phần của GLMs

Chương bắt đầu bằng cách giới thiệu rằng GLMs, giống như các mô hình hồi quy khác, bao gồm hai thành phần chính được lựa chọn riêng biệt: thành phần ngẫu nhiên mô tả sự ngẫu nhiên hoặc biến thiên của dữ liệu, và thành phần hệ thống mô tả cách các biến giải thích ảnh hưởng đến giá trị trung bình của biến phản hồi. GLMs được định nghĩa là các mô hình hồi quy tuyến tính theo tham số. Việc phân chia rõ ràng hai thành phần này là quan trọng vì nó làm nổi bật tính linh hoạt của GLMs, cho phép lựa chọn các phân phối và cấu trúc mối quan hệ phù hợp với từng loại dữ liệu cụ thể.

1.6.2.2 Thành phần ngẫu nhiên: Exponential Dispersion Models - EDMs

Thành phần ngẫu nhiên của GLMs dựa trên giả định rằng biến phản hồi đến từ một phân phối thuộc họ Mô hình Phân tán Hàm mũ (EDMs). Chương giới thiệu định nghĩa EDMs và dạng tổng quát của hàm mật độ xác suất: \[ P(y;\theta;\phi) = a(y;\phi)e^{\frac{y\theta-\kappa(\theta)}{\phi}} \] Các phân phối phổ biến như chuẩn (Normal), Poisson, Gamma, nhị thức (Binomial), và nhị thức âm (Negative Binomial) là các ví dụ của EDMs. Việc dựa trên họ EDMs là quan trọng vì nó cung cấp một khung lý thuyết thống nhất cho nhiều loại phân phối dữ liệu khác nhau, không chỉ giới hạn ở phân phối chuẩn, từ đó mở rộng khả năng mô hình hóa các loại dữ liệu phi chuẩn.

1.6.2.3 Đặc tính của EDMs (Trung bình, Phương sai, Hàm phương sai)

Chương thảo luận về các đặc tính quan trọng của EDMs, bao gồm trung bình \(E(y)=\mu\) và phương sai \(var(y)=\phi V(\mu)\). Đặc biệt, chương giới thiệu khái niệm Hàm phương sai \(\phi V(\mu)\), mô tả mối quan hệ giữa phương sai và giá trị trung bình của biến phản hồi. Điều này khác biệt với giả định phương sai hằng số (\(var(y_i)=\sigma^2\)) trong hồi quy tuyến tính chuẩn (trừ khi sử dụng trọng số prior). Sự hiểu biết về hàm phương sai là cốt yếu để lựa chọn phân phối phù hợp cho dữ liệu và hiểu cách GLMs mô hình hóa sự biến thiên dữ liệu.

1.6.2.4 Dạng Mô hình Phân tán của EDMs và Độ lệch đơn vị (Unit Deviance)

Chương trình bày cách viết EDMs dưới dạng mô hình phân tán và giới thiệu khái niệm Độ lệch đơn vị \(d(y, \mu)\). Độ lệch đơn vị đo lường sự khác biệt giữa giá trị quan sát được (\(y\)) và giá trị trung bình kỳ vọng từ mô hình (\(\mu\)). Nó đóng vai trò tương tự như bình phương phần dư (residual squared) trong hồi quy tuyến tính chuẩn. Khái niệm này quan trọng vì nó là nền tảng cho việc tính toán Tổng độ lệch (Total Deviance) và phần dư độ lệch (deviance residuals), những công cụ chính để đánh giá độ phù hợp của mô hình và chẩn đoán ở các chương sau.

1.6.2.6 Định nghĩa chính thức GLMs và Tổng độ lệch (Total Deviance

Sau khi thảo luận các thành phần riêng lẻ, chương đưa ra định nghĩa chính thức về GLMs. Đồng thời, khái niệm Tổng độ lệch (tổng của các độ lệch đơn vị cho tất cả các quan sát) được giới thiệu. Tổng độ lệch là một thước đo quan trọng về sự phù hợp của mô hình và được sử dụng để so sánh các mô hình khác nhau, đặc biệt là các mô hình lồng nhau (nested models). Chương cũng so sánh việc sử dụng GLMs với cách tiếp cận truyền thống là biến đổi biến phản hồi để dữ liệu phù hợp với hồi quy tuyến tính chuẩn.

1.6.3 Vai trò của chương

Chương 5 đóng vai trò nền tảng lý thuyết quan trọng trong cấu trúc của cuốn sách, xây dựng trên kiến thức về hồi quy tuyến tính từ Chương 2 và 3. Nó giới thiệu khung khái niệm tổng quát cho GLMs, giải thích lý do tại sao GLMs cần thiết (để vượt qua các hạn chế của mô hình tuyến tính chuẩn, đặc biệt là giả định về phân phối và phương sai hằng số). Chương này trang bị cho người đọc ngôn ngữ và ký hiệu cần thiết để hiểu các chương sau. Cụ thể, nó đặt nền móng cho việc hiểu cách các tham số của GLMs được ước lượng (Chương 6), làm thế nào để thực hiện suy luận thống kê (Chương 7), và cách chẩn đoán các vấn đề của mô hình (Chương 8). Hơn nữa, cấu trúc được giới thiệu ở đây là cơ sở cho các chương tiếp theo tập trung vào các loại GLMs cụ thể cho dữ liệu tỷ lệ (Chương 9), dữ liệu đếm (Chương 10) và dữ liệu liên tục dương (Chương 11, 12). Do đó, Chương 5 là bước chuyển quan trọng, định hướng người học từ hồi quy tuyến tính sang thế giới rộng lớn hơn của các mô hình thống kê cho dữ liệu phi chuẩn, là mục tiêu tổng thể của cuốn sách.

1.7 Chương 6 Generalized Linear Models:Estimation

1.7.1 Mục tiêu và thông điệp chương

Chương 6 tập trung vào khía cạnh then chốt của việc sử dụng các mô hình tuyến tính tổng quát (GLMs): ước lượng tham số mô hình. Dựa trên nền tảng cấu trúc GLMs đã được định nghĩa trong Chương 5 và nguyên lý Ước lượng Hợp lý Tối đa (MLE) từ Chương 4, mục tiêu nhận thức chính của chương này là trang bị cho người học kiến thức và kỹ năng để tính toán các ước lượng tham số (\(\hat\beta\)\(\hat\varphi\)) cho GLMs từ dữ liệu thực tế. Người học sẽ hiểu được các phương pháp tính toán dựa trên lý thuyết khả năng hợp lý và sự khác biệt so với phương pháp bình phương nhỏ nhất của hồi quy tuyến tính chuẩn.

Thông điệp cốt lõi mà chương truyền tải là mặc dù cấu trúc GLMs linh hoạt cho phép mô hình hóa nhiều loại dữ liệu khác nhau, việc ước lượng tham số đòi hỏi các kỹ thuật tính toán lặp do sự phức tạp của hàm hợp lý, khác với công thức giải tích đơn giản của hồi quy tuyến tính. Tuy nhiên, quá trình ước lượng này về mặt cục bộ tương tự như hồi quy tuyến tính có trọng số, cung cấp một cầu nối quan trọng giữa hai lớp mô hình này. Chương này giải quyết vấn đề làm thế nào để thu được các giá trị ước lượng cụ thể cho các hệ số hồi quy và tham số phân tán (nếu có) sau khi cấu trúc mô hình đã được xác định, một bước không thể thiếu để có thể diễn giải, suy luận và sử dụng mô hình. Tóm lại, chương 6 là về biến lý thuyết GLM và MLE thành các con số ước lượng cụ thể từ dữ liệu.

1.7.2 Kiến thức chính trong chương

1.7.2.1 Tính toán khả năng hợp lý cho β

Chương bắt đầu bằng cách áp dụng trực tiếp nguyên lý Ước lượng Hợp lý Tối đa (MLE) từ Chương 4 để ước lượng vector tham số hệ thống β. Hàm log-hợp lý (log-likelihood) cho GLMs được xây dựng dựa trên các phân phối thuộc họ Mô hình Phân tán Hàm mũ (EDMs) đã giới thiệu trong Chương 5. Việc tìm ước lượng MLE cho β đòi hỏi việc tối đa hóa hàm log-hợp lý đối với β. Điều này thường được thực hiện bằng cách tìm nghiệm cho hệ phương trình điểm số (score equations), là các đạo hàm bậc nhất của hàm log-hợp lý theo từng tham số \(β_j\), đặt bằng 0. Lý do phần này quan trọng là nó thiết lập cơ sở toán học cho việc ước lượng, chỉ ra rằng ước lượng trong GLMs được tìm thông qua việc cực đại hóa xác suất quan sát dữ liệu, một khái niệm tổng quát hơn so với việc cực tiểu hóa tổng bình phương phần dư của hồi quy tuyến tính.

1.7.2.2 Tính toán Ước lượng của β: Các phương pháp lặp và Dạng Ma trận

Do hệ phương trình điểm số trong GLMs thường là phi tuyến tính đối với các tham số \(β\) (trừ trường hợp hồi quy tuyến tính chuẩn với hàm liên kết đồng nhất), không có công thức giải tích đơn giản để tìm ước lượng \(\hat\beta\). Thay vào đó, cần sử dụng các phương pháp tính toán lặp để tìm nghiệm. Chương giới thiệu cách các thuật toán lặp, ví dụ như Fisher Scoring (đã đề cập trong bối cảnh MLE chung ở Chương 4), hoạt động để cập nhật ước lượng \(β\) tại mỗi bước lặp. Phương pháp này thường tương đương với phương pháp bình phương nhỏ nhất có trọng số lặp (Iteratively Weighted Least Squares - IWLS) trong bối cảnh GLMs. Dạng ma trận của các phương trình điểm số và ma trận thông tin (từ Chương 4) được trình bày để hỗ trợ việc thực hiện các thuật toán này. Sự quan trọng của phần này nằm ở việc nó giải thích cách phần mềm thống kê thực sự tìm ra các ước lượng tham số, biến lý thuyết MLE thành một quy trình tính toán khả thi.

1.7.2.3 Độ lệch phần dư (Residual Deviance)

Dựa trên khái niệm Độ lệch đơn vị (Unit Deviance) và Tổng độ lệch (Total Deviance) đã được giới thiệu ở Chương 5, Chương 6 định nghĩa Độ lệch dư. Độ lệch phần dư là một thước đo tổng thể về sự phù hợp của mô hình GLM đã được ước lượng. Nó được tính toán dựa trên sự khác biệt giữa hàm log-hợp lý của mô hình đã ước lượng và hàm log-hợp lý của “mô hình bão hòa” (saturated model) - mô hình phù hợp hoàn hảo với dữ liệu (một tham số cho mỗi quan sát). Độ lệch dư đóng vai trò tương tự như Tổng bình phương phần dư (Residual Sum of Squares) trong hồi quy tuyến tính chuẩn và là một trong những thống kê chính được sử dụng để đánh giá độ phù hợp của mô hình và so sánh các mô hình lồng nhau (nested models).

1.7.2.4 Sai số Chuẩn cho \(\hat\beta\)

Sau khi ước lượng được các tham số \(\beta\), điều quan trọng là phải biết độ chính xác của các ước lượng này. Chương trình bày cách tính sai số chuẩn (standard errors) cho các ước lượng \(\hat\beta\). Các sai số chuẩn này được suy ra từ ma trận hiệp phương sai của \(\hat\beta\), vốn được tính từ nghịch đảo của ma trận thông tin Fisher tại ước lượng MLE của \(\beta\). Đối với các mẫu lớn, sai số chuẩn này cho phép xây dựng khoảng tin cậy và thực hiện kiểm định giả thuyết về từng tham số \(\beta_j\), là nền tảng cho suy luận thống kê trong Chương 7.

1.7.2.5 Ước lượng \(\phi\)

Đối với nhiều phân phối thuộc họ EDMs (như chuẩn, Gamma, Inverse Gaussian), có một tham số phân tán \(\phi\) chưa biết (ngoài các tham số liên quan đến trung bình \(\mu\)). Chương 6 thảo luận về các phương pháp để ước lượng tham số \(\phi\) này. Các phương pháp bao gồm ước lượng Hợp lý Tối đa cho \(\phi\) và các ước lượng thay thế như ước lượng dựa trên Trung bình độ lệch (Mean Deviance Estimator) hoặc ước lượng Pearson (Pearson Estimator). Việc ước lượng \(\phi\) là cần thiết để tính toán chính xác phương sai của các quan sát
(\(var[y] = \phi V(μ)\)) và để thực hiện suy luận thống kê khi \(\phi\) không được biết trước.

1.7.2.6 Sử dụng R để phù hợp GLMs

Chương bao gồm hướng dẫn thực hành về cách phù hợp các mô hình GLMs sử dụng phần mềm R. Hàm glm() trong R là công cụ chính được giới thiệu cho mục đích này. Phần này kết nối lý thuyết và các thuật toán tính toán với việc ứng dụng thực tế, cho phép người học áp dụng các phương pháp ước lượng GLM trên dữ liệu của riêng họ.

1.7.3 Vai trò của chương

Chương 6 đóng vai trò là khâu nối quan trọng trong chuỗi các chương về GLMs, chuyển đổi cấu trúc mô hình lý thuyết từ Chương 5 và nguyên lý ước lượng tổng quát từ Chương 4 thành các kết quả phân tích cụ thể từ dữ liệu. Nó đặt nền móng thực hành cho việc sử dụng GLMs bằng cách cung cấp phương pháp để thu được các ước lượng tham số \(\hat\beta\)\(\hat\varphi\), là kết quả trực tiếp của việc phù hợp mô hình.

Chương này liên kết chặt chẽ với các chương sau. Các ước lượng tham số và sai số chuẩn thu được trong Chương 6 là đầu vào thiết yếu cho các thủ tục suy luận thống kê (kiểm định giả thuyết, khoảng tin cậy) được trình bày trong Chương 7. Hơn nữa, mô hình đã được ước lượng (với các giá trị \(\hat\mu\) dự báo dựa trên \(\hat\beta\)) là cần thiết để tính toán các loại phần dư và thước đo ảnh hưởng trong Chương 8 (Chẩn đoán GLMs). Cuối cùng, các Chương 9 đến 12, tập trung vào các loại GLMs cụ thể cho dữ liệu tỷ lệ, đếm, v.v., đều sử dụng khuôn khổ ước lượng tổng quát được chi tiết hóa trong Chương 6. Do đó, việc nắm vững cách ước lượng GLMs từ Chương 6 là điều kiện tiên quyết để tiến hành suy luận, chẩn đoán và áp dụng GLMs cho các loại dữ liệu đa dạng, góp phần vào mục tiêu tổng thể của cuốn sách là trang bị khả năng phân tích dữ liệu phi chuẩn bằng GLMs.

1.8 Chương 7 Generalized Linear Models: Inference

1.8.1 Mục tiêu và thông điệp chương

Sau khi đã nắm vững cấu trúc của Mô hình Tuyến tính Tổng quát (GLMs) trong Chương 5 và các phương pháp ước lượng tham số (bao gồm cả ước lượng Hợp lý Tối đa - MLE) trong Chương 6, Chương 7 chuyển trọng tâm sang khía cạnh then chốt tiếp theo của phân tích thống kê: suy luận thống kê (statistical inference). Mục tiêu nhận thức chính của chương này là trang bị cho người học kiến thức và kỹ năng để thực hiện kiểm định giả thuyết và xây dựng khoảng tin cậy cho các tham số và các khía cạnh khác của mô hình GLM đã được ước lượng. Người học sẽ hiểu được cách áp dụng các nguyên lý suy luận dựa trên lý thuyết khả năng hợp lý (likelihood theory) đã được giới thiệu tổng quát ở Chương 4 vào bối cảnh cụ thể của GLMs.

Thông điệp cốt lõi mà chương truyền tải là việc ước lượng mô hình chỉ là bước khởi đầu. Để rút ra các kết luận có ý nghĩa thống kê và đánh giá sự chắc chắn của các ước lượng, cần phải thực hiện suy luận. Chương này khẳng định rằng khung lý thuyết khả năng hợp lý cung cấp một nền tảng vững chắc và thống nhất cho nhiều loại suy luận khác nhau trong GLMs, cho phép chúng ta kiểm định các giả thuyết cụ thể về ảnh hưởng của các biến giải thích hoặc sự phù hợp tổng thể của mô hình. Triết lý học thuật ở đây được tóm lược qua câu nói của Sir Ronald A. Fisher: “There is no more pressing need… than to test whether a given body of data is or is not in agreement with any suggested hypothesis”. Chương 7 cung cấp các công cụ để thực hiện việc kiểm định sự phù hợp này trong khuôn khổ GLMs. Tầm quan trọng của chương nằm ở chỗ nó biến các ước lượng tham số thu được từ dữ liệu thành các kết luận có thể được diễn giải và tin cậy, là bước bắt buộc để có thể sử dụng GLMs một cách khoa học và hiệu quả.

1.8.2 Kiến thức chính trong chương

1.8.2.1 Nền tảng lý thuyết suy luận: Kết quả Tiệm cận

Chương 7 đặt nền tảng lý thuyết cho các thủ tục suy luận bằng cách thảo luận về các kết quả tiệm cận (asymptotic results). Các kết quả này, đặc biệt là các kết quả tiệm cận mẫu lớn (large-sample asymptotics), đảm bảo rằng các thống kê kiểm định dựa trên lý thuyết khả năng hợp lý (như kiểm định Wald, Score, và Tỷ số Hợp lý) sẽ tuân theo các phân phối xác suất chuẩn (như phân phối chuẩn, Chi-bình phương) trong các mẫu có kích thước đủ lớn. Chương cũng đề cập đến các kết quả tiệm cận phân tán nhỏ (small dispersion asymptotic results) cần thiết cho các kiểm định độ phù hợp dựa trên Độ lệch phần dư (Residual Deviance). Hiểu các kết quả tiệm cận này rất quan trọng vì chúng biện minh cho việc sử dụng các phân phối tiêu chuẩn để tính giá trị p và xây dựng khoảng tin cậy, là nền tảng cho tính hợp lệ của suy luận thống kê.

1.8.2.2 Suy luận về Hệ số Hồi quy

Chương trình bày cách thực hiện suy luận thống kê về các hệ số hồi quy \(\beta\). Dựa trên ước lượng tham số \(\hat\beta\) và ma trận hiệp phương sai của \(\hat\beta\) (được tính từ nghịch đảo của ma trận thông tin Fisher, thu được trong quá trình ước lượng ở Chương 6), có thể tính toán sai số chuẩn (standard errors) cho từng hệ số \(\hat\beta_j\). Các sai số chuẩn này, kết hợp với thuộc tính chuẩn tiệm cận của MLEs (từ Chương 4), cho phép thực hiện kiểm định Wald (Wald Test) về ý nghĩa thống kê của từng hệ số (ví dụ: kiểm định \(H_0: β_j = 0\)) và xây dựng khoảng tin cậy (confidence intervals) cho \(β_j\). Chương thảo luận suy luận trong cả trường hợp tham số phân tán \(\phi\) đã biết và chưa biết, đề cập đến cách xử lý \(\phi\) chưa biết dựa trên các ước lượng \(\phi\) từ Chương 6.

1.8.2.3 Kiểm định Độ phù hợp Tổng thể của Mô hình

Một khía cạnh quan trọng của suy luận là đánh giá xem mô hình tổng thể có phù hợp tốt với dữ liệu hay không. Chương giới thiệu các kiểm định độ phù hợp (goodness-of-fit tests) dựa trên Độ lệch dư (Residual Deviance). Độ lệch dư đo lường sự khác biệt về khả năng hợp lý giữa mô hình đang xét và mô hình “bão hòa” (saturated model). Đối với một số GLMs (khi \(\phi\) đã biết hoặc bằng 1), thống kê kiểm định dựa trên Độ lệch dư (hoặc Độ lệch dư chia cho \(\phi\)) có thể được xấp xỉ bởi phân phối Chi-bình phương (\(χ²\)) với bậc tự do phù hợp, cho phép tính giá trị p để kiểm định giả thuyết rằng mô hình hiện tại phù hợp với dữ liệu. Các kiểm định này rất quan trọng để xác nhận rằng các biến giải thích đã chọn đủ để mô tả các xu hướng hệ thống trong dữ liệu.

1.8.2.4 So sánh các Mô hình Lồng nhau (Comparing Nested Models)

Trong quá trình xây dựng mô hình, thường cần so sánh các mô hình lồng nhau (nested models), trong đó một mô hình nhỏ hơn là trường hợp đặc biệt của một mô hình lớn hơn (thường bằng cách loại bỏ một số biến giải thích). Chương trình bày cách sử dụng Kiểm định Tỷ số Hợp lý (Likelihood Ratio Test) để so sánh hai mô hình GLM lồng nhau. Thống kê kiểm định dựa trên sự khác biệt giữa Độ lệch dư (hoặc log-hợp lý) của hai mô hình, và dưới giả thuyết null (rằng mô hình nhỏ hơn là đủ), thống kê này tuân theo phân phối Chi-bình phương. Phương pháp này tương tự như việc sử dụng Phân tích Phương sai (ANOVA) để so sánh các mô hình lồng nhau trong hồi quy tuyến tính chuẩn (đã học ở Chương 2).

1.8.2.5 Các Phương pháp Suy luận Dựa trên Khả năng hợp lý: Wald, Score, Tỷ số Hợp lý

Chương thảo luận chi tiết và so sánh ba phương pháp suy luận chính dựa trên lý thuyết khả năng hợp lý: Kiểm định Wald, Kiểm định Điểm số (Score Test), và Kiểm định Tỷ số Hợp lý (Likelihood Ratio Test). Các phương pháp này cung cấp ba cách tiếp cận khác nhau để kiểm định cùng một giả thuyết, dựa trên ước lượng tham số và sai số chuẩn (Wald), vector điểm số (Score), hoặc sự khác biệt về khả năng hợp lý (Tỷ số Hợp lý). Chương so sánh ưu nhược điểm của từng phương pháp và hướng dẫn khi nào nên sử dụng phương pháp nào. Việc hiểu cả ba phương pháp này mang lại cái nhìn toàn diện về cách suy luận được thực hiện dựa trên lý thuyết khả năng hợp lý.

1.8.2.6 So sánh Mô hình Không Lồng nhau và Lựa chọn Mô hình Tự động

Khi các mô hình cần so sánh không phải là lồng nhau, không thể sử dụng Kiểm định Tỷ số Hợp lý. Chương giới thiệu lại các tiêu chí thông tin như AIC (Akaike Information Criterion) và BIC (Bayesian Information Criterion) (đã được giới thiệu trong bối cảnh hồi quy tuyến tính ở Chương 2) như các công cụ để so sánh các mô hình không lồng nhau. Các tiêu chí này cân bằng giữa độ phù hợp của mô hình và số lượng tham số. Chương cũng đề cập đến các phương pháp tự động để lựa chọn mô hình (như lựa chọn từng bước - stepwise selection). Phần này trang bị cho người học các công cụ thực tế để lựa chọn mô hình “tốt nhất” từ một tập hợp các mô hình tiềm năng khi đối mặt với dữ liệu phức tạp.

1.8.3 Vai trò của chương

Chương 7 đóng vai trò là đích đến thực tiễn của quá trình xây dựng và ước lượng mô hình GLM được trình bày trong các chương trước. Nó đặt nền tảng cho việc diễn giải và ra quyết định dựa trên kết quả phân tích GLM bằng cách cung cấp các công cụ để đánh giá ý nghĩa thống kê của các mối quan hệ và độ phù hợp của mô hình.

Chương này liên kết chặt chẽ với Chương 4 (Ước lượng Hợp lý Tối đa) bằng cách áp dụng các nguyên lý và phương pháp suy luận tổng quát (Wald, Score, LR tests, AIC/BIC) vào khuôn khổ GLM. Nó cũng sử dụng trực tiếp các ước lượng tham số, sai số chuẩn và Độ lệch dư thu được từ Chương 6 (Ước lượng GLM) làm đầu vào cho các thủ tục kiểm định và xây dựng khoảng tin cậy. Các kết quả suy luận từ Chương 7, đặc biệt là việc xác định các biến có ý nghĩa thống kê và đánh giá độ phù hợp, sẽ ảnh hưởng đến các bước tiếp theo như chẩn đoán mô hình (Chương 8), có thể cần kiểm tra lại hoặc sửa đổi mô hình nếu các giả định suy luận bị vi phạm hoặc mô hình không phù hợp. Cuối cùng, các phương pháp suy luận được trình bày ở đây sẽ được áp dụng cụ thể trong các chương sau (9-12) khi mô hình hóa các loại dữ liệu khác nhau (binomial, Poisson, v.v.) bằng GLMs. Do đó, Chương 7 là bước không thể thiếu để biến kết quả ước lượng thô thành các kết luận thống kê có ý nghĩa và đáng tin cậy, đóng góp vào mục tiêu tổng thể của cuốn sách là trang bị kỹ năng phân tích dữ liệu đa dạng bằng GLMs.

1.9 Chương 8 Generalized Linear Models: Diagnostics

1.9.1 Mục tiêu và thông điệp chương

Sau khi đã thiết lập cấu trúc (Chương 5) và ước lượng tham số (Chương 6, 7) cho Mô hình Tuyến tính Tổng quát (GLMs), quá trình phân tích dữ liệu với GLMs đòi hỏi một bước kiểm tra nghiêm ngặt: chẩn đoán mô hình. Mục tiêu nhận thức chính của Chương 8 là trang bị cho người học những kiến thức và kỹ năng cần thiết để đánh giá tính phù hợp của các giả định của mô hình GLM đã được ước lượng. Chương này nhấn mạnh rằng việc chỉ dựa vào kết quả ước lượng hoặc các chỉ số độ phù hợp tổng thể có thể không đủ để đảm bảo mô hình phản ánh chính xác cấu trúc dữ liệu.

Thông điệp cốt lõi mà chương truyền tải là sự cần thiết phải kiểm tra cẩn thận các giả định mô hình GLM sau khi ước lượng. Chương 8 khẳng định rằng việc xây dựng mô hình là một quy trình lặp đi lặp lại bao gồm việc lắp đặt, chẩn đoán, xác định vấn đề và tìm cách khắc phục. Triết lý học thuật ở đây là nhận thức rằng các giả định của GLMs, như phân phối dữ liệu thuộc họ Mô hình Phân tán Hàm mũ (EDM) và cấu trúc thành phần hệ thống (link function và linear predictor), cần được kiểm tra để đảm bảo tính hợp lệ của suy luận thống kê. Chương này cung cấp các công cụ chuyên biệt để phát hiện các vi phạm giả định, nhận diện các quan sát bất thường hoặc có ảnh hưởng, từ đó giúp người học xây dựng các mô hình mạnh mẽ và đáng tin cậy hơn. Đây là bước bắt buộc để đảm bảo các kết luận rút ra từ phân tích GLM là chính xác và có giá trị.

1.9.2 Kiến thức chính trong chương

1.9.2.1 Các Giả định của GLMs

Chương này bắt đầu bằng việc xem xét lại các giả định của mô hình GLM. Giả định quan trọng nhất là biến phản hồi đến từ một phân phối thuộc họ Mô hình Phân tán Hàm mũ (EDM) đã chỉ định. Các giả định khác liên quan đến cấu trúc thành phần hệ thống (mối liên hệ giữa trung bình phản hồi và bộ dự báo tuyến tính thông qua hàm liên kết) và tính độc lập của các quan sát. Logic trình bày là nhắc lại các giả định này trước khi giới thiệu các công cụ để kiểm tra chúng, nhấn mạnh rằng việc vi phạm các giả định này có thể dẫn đến các kết luận sai lệch. Hiểu rõ các giả định là nền tảng để biết cần kiểm tra những gì và tại sao.

1.9.2.2 Phần dư (Residuals) cho GLMs

Phần dư là công cụ chính để phân tích chẩn đoán. Chương 8 giải thích tại sao phần dư phản hồi (response residuals) là không đủ cho GLMs, đặc biệt khi phương sai không hằng số. Thay vào đó, chương giới thiệu các loại phần dư được sử dụng cho GLMs: Pearson residuals, Deviance residuals, và Quantile residuals. Mỗi loại phần dư đo lường sự khác biệt giữa dữ liệu quan sát và giá trị dự báo theo những cách khác nhau, có tính đến cấu trúc phương sai của phân phối. Ví dụ, Deviance residuals dựa trên khái niệm Total Deviance, đo lường sự khác biệt về độ phù hợp giữa mô hình đang xét và mô hình bão hòa. Việc hiểu các loại phần dư này và cách chúng được tính toán là quan trọng vì chúng cung cấp thước đo định lượng về sự sai lệch của từng quan sát so với mô hình.

1.9.2.3 Đòn bẩy (Leverages) trong GLMs

Chương giới thiệu khái niệm đòn bẩy cho GLMs, đo lường mức độ ảnh hưởng tiềm năng của một quan sát riêng lẻ lên các giá trị dự báo của mô hình. Khái niệm Working Leverages được giới thiệu, thường được tính toán thông qua Hat Matrix tương tự như trong hồi quy tuyến tính chuẩn nhưng sử dụng các trọng số cục bộ. Đòn bẩy cao cho thấy một quan sát có vị trí “độc nhất” trong không gian các biến giải thích và có thể có ảnh hưởng lớn đến việc lắp đặt mô hình. Việc xác định các quan sát có đòn bẩy cao là quan trọng để kiểm tra xem chúng có làm sai lệch kết quả ước lượng hay không.

1.9.2.4 Phần dư được Chuẩn hóa theo Đòn bẩy (Leverage Standardized Residuals)

Để đánh giá chính xác hơn sự sai lệch của các quan sát, chương giới thiệu phần dư được chuẩn hóa, kết hợp thông tin từ phần dư và đòn bẩy. Các phần dư này được chia cho ước lượng sai số chuẩn của chúng, có tính đến cấu trúc phương sai không hằng số của GLMs và đòn bẩy của từng điểm dữ liệu. Điều này giúp đồng nhất thang đo của phần dư trên toàn bộ tập dữ liệu, làm cho việc phát hiện các điểm ngoại lệ trở nên đáng tin cậy hơn, đặc biệt khi phương sai phụ thuộc vào trung bình. Việc sử dụng các phần dư được chuẩn hóa là cần thiết cho các biểu đồ chẩn đoán hiệu quả.

1.9.2.5 Các Biểu đồ Chẩn đoán (Diagnostic Plots)

Chương tập trung vào việc sử dụng các biểu đồ để kiểm tra trực quan các giả định của GLMs. Các loại biểu đồ được thảo luận bao gồm: biểu đồ phần dư (thường là Pearson, Deviance hoặc Leverage standardized residuals) chống lại các giá trị dự báo hoặc các biến giải thích riêng lẻ (để kiểm tra cấu trúc thành phần hệ thống và hàm liên kết). Biểu đồ Q-Q plot (Quantile-Quantile plot) của Quantile residuals được sử dụng để kiểm tra giả định về phân phối của thành phần ngẫu nhiên. Biểu đồ lag plots kiểm tra tính độc lập theo thời gian. Chương nhấn mạnh tầm quan trọng của việc kiểm tra trực quan các biểu đồ này để phát hiện các xu hướng, cấu trúc hoặc các điểm dữ liệu bất thường không thể thấy qua các con số tổng hợp.

1.9.2.6 Điểm Ngoại lệ (Outliers), Quan sát Có Ảnh hưởng (Influential Observations) và Biện pháp Khắc phục

Chương định nghĩa và thảo luận cách xác định các điểm ngoại lệ (observations with large residuals, potentially detected using Studentized residuals) và các quan sát có ảnh hưởng (observations whose removal significantly changes model estimates). Các thước đo ảnh hưởng như Cook’s distance (được minh họa trong một case study) được sử dụng để định lượng tác động của từng quan sát. Chương cũng đề xuất các biện pháp khắc phục khi phát hiện vấn đề, bao gồm biến đổi biến, sử dụng các phân phối thay thế (như Negative Binomial thay cho Poisson khi có overdispersion), hoặc xem xét các mô hình mở rộng (như quasi-likelihood). Vấn đề đa cộng tuyến (collinearity) cũng được đề cập như một yếu tố cần chẩn đoán.

1.9.3 Vai trò của chương

Chương 8 là bước tiếp theo quan trọng trong quy trình xây dựng và phân tích GLMs, diễn ra sau khi mô hình đã được ước lượng. Nó đặt nền tảng cho việc đánh giá tính hợp lệ và độ tin cậy của mô hình GLM đã lắp đặt, thay vì chỉ chấp nhận kết quả ước lượng một cách thụ động. Chương này liên kết trực tiếp với các khái niệm chẩn đoán từ hồi quy tuyến tính (Chương 3) nhưng khái quát hóa chúng cho các phân phối và cấu trúc phức tạp hơn của GLMs.

Việc nắm vững các kỹ thuật chẩn đoán trong Chương 8 là rất quan trọng vì nó cho phép người học kiểm tra liệu các giả định cốt lõi (về phân phối, cấu trúc hệ thống, độc lập) có phù hợp với dữ liệu hay không. Đây là kỹ năng thiết yếu để đảm bảo các suy luận thống kê và dự báo từ mô hình GLM là chính xác và đáng tin cậy. Chương 8 trang bị cho người học khả năng phát hiện các vấn đề tiềm ẩn và tìm kiếm các giải pháp khắc phục, chuẩn bị cho việc áp dụng GLMs một cách có trách nhiệm và hiệu quả hơn cho các loại dữ liệu cụ thể được thảo luận chi tiết trong các chương tiếp theo (Chương 9-12).

1.10 Chương 9 Models for Proportions: Binomial GLMs

1.10.1 Mục tiêu và thông điệp của chương

Sau khi đã khám phá cấu trúc chung của Mô hình Tuyến tính Tổng quát (GLMs) trong Chương 5, các phương pháp ước lượng trong Chương 6, suy luận thống kê trong Chương 7, và các kỹ thuật chẩn đoán trong Chương 8, Chương 9 đi sâu vào một loại GLM cụ thể và phổ biến nhất: GLMs nhị thức (Binomial GLMs), được sử dụng để mô hình hóa dữ liệu tỷ lệ. Mục tiêu nhận thức chính của chương này là giúp người học nắm vững cách áp dụng khuôn khổ GLM tổng quát để phân tích dữ liệu tỷ lệ, hiểu được các đặc thù của dữ liệu này, các hàm liên kết (link functions) phù hợp, và các vấn đề chẩn đoán/diễn giải riêng. Chương nhấn mạnh rằng dữ liệu tỷ lệ (ví dụ: số trường hợp thành công trên tổng số thử nghiệm) vi phạm các giả định về phương sai hằng số và phân phối chuẩn của hồi quy tuyến tính truyền thống, và GLMs nhị thức cung cấp một giải pháp mô hình hóa phù hợp cho loại dữ liệu này.

Thông điệp cốt lõi mà chương truyền tải là sự cần thiết và hiệu quả của việc sử dụng GLMs khi biến phản hồi là tỷ lệ, và GLM nhị thức là mô hình tiêu chuẩn cho mục đích này. Chương giới thiệu các hàm liên kết phổ biến (logit, probit, complementary log-log) và cách chúng cho phép mô hình hóa mối quan hệ phi tuyến tính giữa các biến giải thích và xác suất thành công. Triết lý học thuật ở đây là áp dụng lý thuyết GLM đã học vào một trường hợp thực tế quan trọng, làm nổi bật cách các thành phần ngẫu nhiên (phân phối nhị thức) và hệ thống (hàm liên kết và bộ dự báo tuyến tính) kết hợp với nhau để mô hình hóa dữ liệu tỷ lệ một cách chính xác. Chương cũng đề cập đến các thách thức cụ thể như vấn đề ước lượng tham số và sự không phù hợp của các kiểm định mức độ phù hợp tiêu chuẩn cho dữ liệu nhị phân, củng cố quan điểm rằng “không có mô hình thống kê nào là cuối cùng” và cần phải hiểu rõ những giới hạn của chúng.

1.10.2 Kiến thức chính trong chương

1.10.2.1 Mô hình hóa dữ liệu tỷ lệ và phân phối nhị thức

Chương bắt đầu bằng việc định nghĩa dữ liệu tỷ lệ, thường phát sinh từ một loạt các thử nghiệm độc lập (ví dụ: số phản hồi tích cực trên tổng số bệnh nhân). Biến phản hồi trong trường hợp này có thể là số lần thành công hoặc tỷ lệ thành công. Thành phần ngẫu nhiên của GLMs nhị thức giả định rằng số lần thành công tuân theo phân phối Nhị thức (Binomial distribution). Phân phối Nhị thức là một thành viên của họ Mô hình Phân tán Hàm mũ (EDMs), với trung bình \(\mu\) và phương sai \(μ(1-p)\), trong đó \(p\) là xác suất thành công. Đối với tỷ lệ, trung bình là \(p\) và phương sai là \(\frac{p(1-p)}{n}\) (n là số thử nghiệm). Điều này làm rõ lý do tại sao hồi quy tuyến tính (với giả định phương sai hằng số) không phù hợp cho dữ liệu tỷ lệ, nơi phương sai phụ thuộc vào trung bình. Việc sử dụng phân phối Nhị thức làm thành phần ngẫu nhiên là nền tảng của GLMs nhị thức.

1.10.2.3 Diễn giải Mô hình: Tỷ số Chênh (Odds Ratios) với Hàm Liên kết Logit

Chương thảo luận cách diễn giải các hệ số hồi quy khi sử dụng hàm liên kết logit. Với hàm logit, bộ dự báo tuyến tính \(η = log(p/(1-p))\) biểu diễn logarit của tỷ số chênh (log-odds). Tỷ số chênh (odds) được định nghĩa là \(\frac{p}{(1-p)}\), biểu thị khả năng thành công so với khả năng thất bại. Một lợi thế quan trọng của hàm logit là các hệ số hồi quy \(β_j\) có thể được diễn giải dễ dàng trên thang tỷ số chênh. Cụ thể, \(e^{βj}\) biểu thị tỷ số chênh thay đổi bao nhiêu lần khi biến giải thích \(x_j\) tăng thêm một đơn vị, giữ nguyên các biến khác. Đây là một cách diễn giải rất hữu ích và phổ biến trong nhiều lĩnh vực.

1.10.2.4 Vấn đề bội nhiễu (Overdispersion)

Một vấn đề phổ biến khi làm việc với dữ liệu đếm hoặc dữ liệu tỷ lệ là bội nhiễu (overdispersion)—tức khi phương sai quan sát được lớn hơn phương sai lý thuyết do mô hình nhị thức dự báo (ví dụ, \(\frac{p(1−p)}{n}\)). Hiện tượng này vi phạm giả định cơ bản về thành phần ngẫu nhiên trong GLMs, dẫn đến việc đánh giá sai độ bất định của các ước lượng: sai số chuẩn bị đánh giá thấp, làm tăng nguy cơ mắc sai lầm loại I (bác bỏ giả thuyết gốc khi nó đúng).Chương 9 đề cập đến bội nhiễu trong mô hình nhị thức, nhấn mạnh tầm quan trọng của việc phát hiện và nhận diện hiện tượng này trong thực hành mô hình hóa. Dù các giải pháp chi tiết như mô hình Quasi-likelihood hay phân phối Negative Binomial chưa được trình bày đầy đủ tại đây, việc hiểu rõ ảnh hưởng của bội nhiễu là điều thiết yếu để đảm bảo tính tin cậy của suy luận thống kê.

1.10.2.5 Các Vấn đề về Suy luận và Độ phù hợp

Chương này cũng lưu ý một số thách thức đặc thù trong suy luận và đánh giá độ phù hợp đối với GLMs nhị thức. Kiểm định Wald có thể kém tin cậy, đặc biệt trong các mẫu nhỏ hoặc khi các ước lượng tiến sát biên của không gian tham số. Trong những trường hợp như vậy, Kiểm định Tỷ số Hợp lý (Likelihood Ratio Test) hoặc Kiểm định Điểm số (Score Test) – được trình bày trong Chương 7 – thường là lựa chọn ưu việt hơn. Ngoài ra, chương giải thích tại sao các kiểm định độ phù hợp như deviance hoặc Pearson chi-squared không thích hợp cho dữ liệu nhị phân. Do biến phản hồi nhị phân (0 hoặc 1) có phương sai hoàn toàn xác định bởi trung bình \(p(1-p)\), các kiểm định dựa trên phân phối chi-squared có thể không thỏa các điều kiện xấp xỉ, dẫn đến suy luận sai lệch. Việc nhận diện những giới hạn này là điều thiết yếu để đảm bảo kết luận rút ra từ mô hình là chính xác và đáng tin cậy.

1.10.3 Vai trò của chương

Chương 9 đánh dấu bước chuyển từ lý thuyết sang ứng dụng thực tiễn trong khuôn khổ Mô hình Tuyến tính Tổng quát (GLMs), tập trung vào dữ liệu tỷ lệ – một dạng dữ liệu phổ biến trong thực hành thống kê. Chương này vận dụng toàn diện các khái niệm đã xây dựng ở các chương trước: cấu trúc mô hình (thành phần ngẫu nhiên, hệ thống, và hàm liên kết), ước lượng tham số bằng cực đại hóa hợp lý (MLE), suy luận thống kê, và chẩn đoán mô hình.

Chương cũng đóng vai trò thiết lập mô hình mẫu cho các chương tiếp theo (Chương 10–12), khi chuyển sang các dạng dữ liệu khác như dữ liệu đếm, dữ liệu liên tục dương, và phân phối Tweedie. Qua đó, người đọc học được cách lựa chọn phân phối phù hợp cho thành phần ngẫu nhiên (như Nhị thức, Poisson, Gamma, Tweedie), cùng với các hàm liên kết đặc trưng. Các vấn đề thực tiễn như bội nhiễu (overdispersion) được giới thiệu tại đây cũng có các đối ứng tương tự trong các chương sau. Nhìn chung, Chương 9 là điểm khởi đầu quan trọng cho việc ứng dụng GLMs vào các loại dữ liệu phi chuẩn một cách hệ thống, hiệu quả và đáng tin cậy.

1.11 Chương 10 Models for Counts: Poisson and Negative Binomial GLMs

1.11.1 Mục tiêu và thông điệp của chương

Chương 10 tiếp nối hành trình khám phá Mô hình Tuyến tính Tổng quát (GLMs) bằng cách mở rộng ứng dụng sang một loại dữ liệu phi chuẩn đặc biệt quan trọng: dữ liệu đếm (count data). Sau khi đã xây dựng nền tảng mô hình hóa cho dữ liệu tỷ lệ ở Chương 9, chương này nhằm mục tiêu giúp người học hiểu sâu sắc về đặc điểm thống kê của dữ liệu đếm, đồng thời lựa chọn và triển khai các mô hình GLM phù hợp.

Hai mô hình trung tâm được trình bày là GLM Poisson và GLM Nhị Thức Âm (Negative Binomial GLM). Cốt lõi của chương là nhận thức rằng dữ liệu đếm – với bản chất là các số nguyên không âm, thường có phương sai phụ thuộc vào trung bình – không thỏa mãn các giả định cơ bản của hồi quy tuyến tính truyền thống (như phân phối chuẩn và phương sai đồng nhất). Do đó, khuôn khổ GLMs, với khả năng đặc tả linh hoạt thành phần ngẫu nhiên, được xem là giải pháp mô hình hóa phù hợp và chính xác.

Chương cũng đề cập đến một số tình huống thực tế thường gặp trong dữ liệu đếm, bao gồm: mô hình hóa tốc độ (rates) khi thời gian hoặc mức độ phơi nhiễm (exposure) khác nhau giữa các đơn vị quan sát; phân tích bảng tần suất (contingency tables) thông qua mô hình log-tuyến tính (log-linear models); và đặc biệt là xử lý hiện tượng bội nhiễu (overdispersion) – khi phương sai thực tế vượt quá mức dự kiến theo mô hình Poisson. Trong bối cảnh đó, mô hình Nhị Thức Âm được trình bày như một mở rộng tự nhiên nhằm giải quyết bội nhiễu một cách thống kê chặt chẽ.Tư tưởng phương pháp luận chủ đạo của chương là vận dụng linh hoạt khung GLM đã học (Chương 5) để điều chỉnh mô hình hóa theo đúng đặc điểm ngẫu nhiên của dữ liệu, từ đó đảm bảo độ tin cậy của suy luận thống kê và nâng cao hiệu quả phân tích thực tiễn.

1.11.2 Nội dung chính trong chương

1.11.2.1 Mô hình hóa dữ liệu Đếm và GLM Poisson

Chương bắt đầu bằng việc mô tả dữ liệu đếm, bao gồm các số nguyên không âm (0, 1, 2, …), thường phát sinh từ việc đếm các sự kiện trong một khoảng thời gian hoặc không gian nhất định. Đặc điểm quan trọng là dữ liệu này không thể âm và thường có phân phối lệch về bên phải. Thành phần ngẫu nhiên tiêu chuẩn cho GLMs dữ liệu đếm là phân phối Poisson (Poisson distribution) [24.2]. Phân phối Poisson là một thành viên của họ Mô hình Phân tán Hàm mũ (EDMs) (Chương 5), với đặc tính quan trọng là trung bình bằng phương sai (\(μ = var[y]\)) [24.2]. Điều này khác biệt rõ rệt với hồi quy tuyến tính chuẩn (phương sai hằng số), làm nổi bật lý do cần sử dụng GLM. GLM Poisson sử dụng phân phối Poisson cho thành phần ngẫu nhiên và thường sử dụng hàm liên kết log (log link), \(g(μ) = log(μ)\) [Inferred from common practice and Log-Linear Models section [24.4]], để đảm bảo giá trị trung bình dự báo (\(μ\)) luôn dương, phù hợp với tính chất của dữ liệu đếm. Bộ dự báo tuyến tính \(η = Xβ\) được liên kết với \(log(μ)\), tức là \(μ = exp(Xβ)\) [Inferred from log link definition]. Việc hiểu phân phối Poisson và đặc tính trung bình-phương sai của nó là nền tảng để mô hình hóa dữ liệu đếm cơ bản.

1.11.2.2 Mô hình hóa Tốc độ (Rates) và Offset

Trong nhiều trường hợp, dữ liệu đếm được thu thập với các khoảng thời gian hoặc đơn vị phơi nhiễm (exposure) khác nhau (ví dụ: số ca bệnh trên 1000 người-năm). Thay vì mô hình hóa số đếm trực tiếp, chúng ta thường muốn mô hình hóa tốc độ (rate) [24.3]. Tốc độ được định nghĩa là số đếm chia cho phơi nhiễm. Trong khuôn khổ GLM Poisson với hàm liên kết log, việc mô hình hóa tốc độ được thực hiện bằng cách đưa logarit của phơi nhiễm (log(Exposure)) vào bộ dự báo tuyến tính dưới dạng một offset [24.3]. Công thức trở thành \(log(μi) = Xβ + log(Exposure_i)\) [24.3], tương đương với \(log(μi / Exposure_i) = Xβ\). Điều này có nghĩa là chúng ta mô hình hóa logarit của tốc độ dự kiến là một hàm tuyến tính của các biến giải thích. Việc sử dụng offset là một kỹ thuật quan trọng để điều chỉnh cho sự khác biệt về phơi nhiễm khi mô hình hóa dữ liệu đếm, đảm bảo rằng kết quả phân tích phản ánh tốc độ thay vì chỉ là số đếm thô [24.3].

1.11.2.3 Bảng Tần suất (Contingency Tables) và Mô hình Log-tuyến tính

Chương giới thiệu cách sử dụng GLMs, đặc biệt là GLM Poisson với hàm liên kết log, để phân tích bảng tần suất (contingency tables) [24.4]. Đây là một cách tiếp cận mạnh mẽ được gọi là mô hình log-tuyến tính (log-linear models) [24.4]. Trong mô hình log-tuyến tính, logarit của kỳ vọng số đếm trong mỗi ô của bảng tần suất (log(μijk…)) được mô hình hóa như một hàm tuyến tính của các hiệu ứng chính (main effects) và hiệu ứng tương tác (interaction effects) của các biến phân loại [24.4.2, 24.4.4, 36]. Ví dụ 10.4 về dữ liệu sỏi thận có thể được phân tích bằng phương pháp này. Chương cũng lưu ý sự tương đương giữa GLM nhị thức và Poisson trong phân tích các bảng 2x2 [24.4.6]. Mô hình log-tuyến tính cung cấp một cách tiếp cận thống nhất và linh hoạt để kiểm tra tính độc lập và các cấu trúc tương tác phức tạp giữa các biến phân loại, vượt ra ngoài các kiểm định chi-bình phương đơn giản [24.4].

1.11.2.4 Vấn đề Bội nhiễu (Overdispersion)

Một trong những thách thức phổ biến và quan trọng khi áp dụng GLM Poisson để mô hình hóa dữ liệu đếm là hiện tượng bội nhiễu (overdispersion) – tức là phương sai quan sát được trong dữ liệu lớn hơn mức phương sai dự kiến dưới giả định phân phối Poisson, vốn giả định rằng \(var(y)=E(y)\). Nói cách khác, bội nhiễu xảy ra khi \(var(y)>E(y)\) – một hiện tượng thường gặp trong các tập dữ liệu thực tế có yếu tố không quan sát được, biến ẩn bị bỏ sót, hay do cấu trúc phụ thuộc phức tạp giữa các quan sát. hi bội nhiễu bị bỏ qua và mô hình Poisson vẫn được sử dụng, các ước lượng sai số chuẩn của tham số sẽ có xu hướng bị đánh giá thấp, dẫn đến kết quả kiểm định thống kê như kiểm định Wald trở nên quá lạc quan (liberal), làm tăng nguy cơ kết luận sai lệch về ý nghĩa thống kê. Việc nhận diện và điều chỉnh cho bội nhiễu do đó đóng vai trò thiết yếu trong việc đảm bảo chất lượng và độ tin cậy của suy luận thống kê.

1.11.2.5 GLMs Nhị Thức Âm (Negative Binomial GLMs)

Để giải quyết vấn đề bội nhiễu, mô hình GLM Nhị Thức Âm (Negative Binomial GLM) được giới thiệu như một phần mở rộng tự nhiên của mô hình Poisson. Phân phối Nhị Thức Âm cũng là một thành viên của họ Exponential Dispersion Models (EDMs) đã được thảo luận trong Chương 5, nhưng không giống như phân phối Poisson, nó cho phép phương sai lớn hơn trung bình, được đặc trưng bởi công thức: \[ Var(y)=\mu+\frac{\mu^2}{k} \] trong đó \(\mu=E(y)\) là trung bình, \(k>0\) là tham số điều chỉnh mức độ bội nhiễu. Khi \(k\to\ \infty\), mô hình Nhị Thức Âm hội tụ về mô hình Poisson, do đó cung cấp một cầu nối linh hoạt giữa hai loại mô hình. Việc sử dụng mô hình Nhị Thức Âm cho phép điều chỉnh trực tiếp sự biến thiên dư thừa trong dữ liệu, từ đó mang lại các ước lượng tham số chính xác và các sai số chuẩn đáng tin cậy hơn.Bên cạnh đó, chương cũng giới thiệu mô hình Quasi-Poisson như một phương pháp xử lý bội nhiễu mà không cần giả định một phân phối xác định, chỉ cần định nghĩa mối quan hệ giữa trung bình và phương sai dưới dạng: \(Var(y)=\phi \mu\) , với \(\phi\) là tham số bội nhiễu (dispersion parameter) được ước lượng từ dữ liệu. Đây là một cách tiếp cận có tính linh hoạt cao, đặc biệt khi cấu trúc phân phối của dữ liệu không rõ ràng.

1.11.2.6 Áp dụng và chấn đoán trong R

Chương cung cấp hướng dẫn thực hành chi tiết cách triển khai các mô hình Poisson và Nhị Thức Âm trong phần mềm R. Hàm glm() được sử dụng với đối số family = poisson để phù hợp mô hình Poisson, trong khi mô hình Nhị Thức Âm thường được triển khai thông qua gói mở rộng như MASS::glm.nb(). Các nghiên cứu tình huống cụ thể được trình bày nhằm minh họa quy trình phân tích, từ việc phù hợp mô hình đến diễn giải tham số và đánh giá sự phù hợp.Mặc dù kỹ thuật chẩn đoán được bàn sâu ở Chương 8, việc áp dụng chúng trong bối cảnh dữ liệu đếm – chẳng hạn như kiểm tra bội nhiễu qua thống kê Pearson hoặc deviance, phân tích phần dư (residuals), hay so sánh AIC giữa các mô hình – là không thể thiếu để đảm bảo tính phù hợp của mô hình. Các biểu đồ so sánh fitted values với residuals, hoặc histogram phần dư, thường được sử dụng để đánh giá sự phù hợp của mô hình Poisson so với Nhị Thức Âm, từ đó hỗ trợ quá trình lựa chọn mô hình.

1.11.3 Vai trò của chương

Chương 10 đóng vai trò then chốt trong việc mở rộng phạm vi ứng dụng thực tiễn của Mô hình Tuyến tính Tổng quát (GLMs) sang một lớp dữ liệu phổ biến – dữ liệu đếm – sau khi đã xử lý dữ liệu tỷ lệ (proportions) ở Chương 9. Chương này không chỉ tiếp nối khuôn khổ lý thuyết đã được xây dựng từ Chương 5, mà còn củng cố nguyên lý lựa chọn thành phần ngẫu nhiên thích hợp (điển hình là phân phối Poisson hoặc Nhị Thức Âm) nhằm phản ánh đúng bản chất thống kê của dữ liệu. Qua đó, chương này minh chứng cho nhu cầu vượt ra khỏi các giả định của hồi quy tuyến tính cổ điển (Chương 2), đặc biệt trong bối cảnh dữ liệu không phân phối chuẩn và phương sai không đồng nhất – một vấn đề đã được đặt ra từ Chương 4 trong quá trình giới thiệu phương pháp cực đại hóa hợp lý (MLE).

Các kỹ thuật trọng tâm được trình bày, đặc biệt là xử lý hiện tượng bội nhiễu thông qua mô hình Negative Binomial hoặc Quasi-Poisson, không chỉ đóng vai trò thiết yếu trong việc mô hình hóa dữ liệu đếm, mà còn đặt nền tảng lý thuyết cho các chương tiếp theo. Cụ thể, chúng mở đường cho việc hiểu và mô hình hóa các loại dữ liệu phức tạp hơn như dữ liệu liên tục dương (Chương 11) hoặc các mô hình linh hoạt hơn như Tweedie GLMs (Chương 12), nơi mối quan hệ giữa kỳ vọng và phương sai, cũng như hiện tượng bội nhiễu, tiếp tục là thách thức thống kê trung tâm.

Hơn nữa, Chương 10 giúp người học phát triển năng lực cốt lõi trong việc lựa chọn mô hình phù hợp với cấu trúc dữ liệu thực nghiệm, biết cách nhận diện và chẩn đoán vấn đề mô hình hóa, từ đó nâng cao khả năng đưa ra suy luận thống kê đáng tin cậy. Những năng lực này chính là nền tảng để đạt được mục tiêu tổng thể của cuốn sách – sử dụng GLMs như một công cụ linh hoạt và hiệu quả trong mô hình hóa dữ liệu phi chuẩn, đa dạng và thực tế.

1.12 Chương 11 Positive Continuous Data: Gamma and Inverse Gaussian GLMs

1.12.1 Mục tiêu và thông điệp của chương

Chương 11 tiếp nối mạch lý luận từ các chương trước về hồi quy tuyến tính chuẩn và các mô hình tuyến tính tổng quát (GLMs) dành cho dữ liệu nhị phân và dữ liệu đếm, nhằm mở rộng khung GLM sang một lớp dữ liệu phổ biến khác: dữ liệu liên tục dương. Mục tiêu trọng yếu của chương là trang bị cho người học nền tảng lý thuyết và kỹ thuật thực hành để mô hình hóa hiệu quả loại dữ liệu này thông qua việc khai thác hai phân phối thuộc họ Mô hình Phân tán Hàm mũ (Exponential Dispersion Models – EDMs), cụ thể là phân phối Gamma và phân phối Inverse Gaussian.Về mặt nhận thức, chương nhấn mạnh một thực tế quan trọng: hồi quy tuyến tính cổ điển thường không phù hợp với dữ liệu liên tục dương, bởi các giả định về phương sai hằng số (homoscedasticity) và phân phối chuẩn thường bị vi phạm. Trong nhiều trường hợp thực tiễn, phương sai của biến phản hồi có xu hướng gia tăng theo kỳ vọng, dẫn đến mối quan hệ không tuyến tính giữa trung bình và phương sai – một đặc điểm không thể hiện đúng trong mô hình tuyến tính chuẩn.

Thông điệp cốt lõi mà chương muốn truyền tải là: việc lựa chọn mô hình thống kê nên được dẫn dắt bởi bản chất nội tại của dữ liệu, đặc biệt là cấu trúc biến thiên của nó, chứ không nên phụ thuộc máy móc vào các mô hình có sẵn. Hai phân phối được giới thiệu – Gamma (với hàm phương sai \(V(\mu)=\mu^2\) và Inverse Gaussian(\(V(\mu)=\mu^3\)) – thể hiện rõ triết lý này khi cung cấp những cấu trúc phương sai phù hợp với nhiều hiện tượng thực tiễn có bản chất dương liên tục, như thời gian sống (survival time), trọng lượng, mức tiêu thụ năng lượng, hay chi phí y tế.

Tầm quan trọng của chương không chỉ nằm ở việc mở rộng phạm vi áp dụng của GLMs, mà còn ở chỗ nó giải quyết một trong những thách thức căn bản trong phân tích dữ liệu thực nghiệm: làm thế nào để xây dựng các mô hình hồi quy đáng tin cậy cho dữ liệu không chuẩn mà không cần dựa vào các phép biến đổi dữ liệu tùy tiện (ví dụ như log-transform) vốn có thể làm mất ý nghĩa diễn giải. Thay vào đó, GLMs với phân phối Gamma và Inverse Gaussian cho phép mô hình hóa trực tiếp dữ liệu dương liên tục, đồng thời vẫn duy trì các nguyên tắc thống kê chặt chẽ về suy luận và kiểm định.

1.12.2 Kiến thức chính trong chương

1.12.2.1 Mô hình hóa Dữ liệu Liên tục Dương

Chương bắt đầu bằng việc xác định đặc điểm của dữ liệu liên tục dương (ví dụ: thời gian, trọng lượng, đo lường) và lý do tại sao hồi quy tuyến tính chuẩn thường không phải là lựa chọn tối ưu cho loại dữ liệu này. Giả định về phương sai hằng số (constant variance) của hồi quy tuyến tính chuẩn thường bị vi phạm; thay vào đó, phương sai thường có xu hướng tăng theo giá trị trung bình cho dữ liệu dương. Phân phối chuẩn cũng có miền giá trị trên toàn trục số thực, không phù hợp hoàn toàn với dữ liệu chỉ nhận giá trị dương. Logic trình bày là chỉ ra các hạn chế của mô hình tuyến tính chuẩn để tạo động lực nghiên cứu các phương pháp khác phù hợp hơn, cụ thể là GLMs dựa trên các phân phối có miền giá trị dương và mô hình hóa được mối quan hệ giữa trung bình và phương sai. Việc nhận thức được sự không phù hợp này là bước đầu tiên quan trọng trong quá trình xây dựng mô hình hiệu quả.

1.12.2.2 Phân phối Gamma

Phân phối Gamma được giới thiệu như một Mô hình Phân tán Hàm mũ (EDM) phù hợp cho dữ liệu liên tục dương. Hàm mật độ xác suất của nó được trình bày ở dạng mô hình phân tán, chỉ rõ các tham số \(μ\) (trung bình) và \(φ\) (tham số phân tán). Một đặc điểm quan trọng của phân phối Gamma là hàm phương sai của nó có dạng \(V(μ) = μ²\). Điều này có nghĩa là sai số chuẩn (standard deviation) tỷ lệ thuận với giá trị trung bình, hoặc hệ số biến thiên (coefficient of variation - tỷ lệ giữa sai số chuẩn và trung bình) là hằng số. Chương giải thích rằng Gamma GLMs hữu ích trong các tình huống mà hệ số biến thiên là (xấp xỉ) hằng số. Việc hiểu đặc điểm phương sai này giúp quyết định khi nào nên xem xét phân phối Gamma cho dữ liệu của mình.

1.12.2.3 Phân phối Inverse Gaussian

Phân phối Inverse Gaussian là một EDM khác được thảo luận, cũng được thiết kế cho dữ liệu liên tục dương. Giống như Gamma, hàm mật độ của nó có thể viết ở dạng mô hình phân tán với tham số trung bình \(μ\) và tham số phân tán \(φ\). Hàm phương sai của phân phối Inverse Gaussian có dạng \(V(μ) = μ³\). Điều này ngụ ý rằng phương sai tăng nhanh hơn theo trung bình so với phân phối Gamma. Chương có thể đề cập đến các ứng dụng vật lý nơi phân phối này xuất hiện, chẳng hạn như trong mô hình hóa thời gian dừng đầu tiên của chuyển động Brownian có xu hướng (drift). Hiểu cấu trúc phương sai \(V(μ) = μ³\) là quan trọng để phân biệt khi nào Inverse Gaussian phù hợp hơn Gamma hoặc các phân phối khác. Ví dụ về dữ liệu perm (độ thấm) được đưa ra như một trường hợp tiềm năng cho mô hình Inverse Gaussian, nơi các biểu đồ cho thấy phương sai tăng với trung bình.

1.12.2.4 Hàm liên kết

Trong GLMs, hàm liên kết (link function) kết nối giá trị trung bình μ của biến phản hồi với bộ dự báo tuyến tính (linear predictor) \(η = Xβ\). Chương thảo luận các hàm liên kết phù hợp cho phân phối Gamma và Inverse Gaussian. Các hàm liên kết phổ biến như hàm nhận dạng (identity link), \(g(μ) = μ\), và hàm log (log link), \(g(μ) = log(μ)\), được giới thiệu và so sánh. Đối với dữ liệu dương, hàm log link đặc biệt hữu ích vì nó đảm bảo rằng giá trị dự báo cho trung bình (sau khi biến đổi ngược) luôn dương, \(g⁻¹(η) = e^\eta > 0\). Việc lựa chọn hàm liên kết phù hợp rất quan trọng vì nó định nghĩa mối quan hệ giữa các biến giải thích và trung bình của biến phản hồi trên thang đo tuyến tính.

1.12.2.5 Ước lượng Tham số Phân tán \(\phi\)

Ngoài các tham số hồi quy \(β\), GLMs dựa trên EDMs còn có một tham số phân tán \(\phi\). Chương thảo luận cách ước lượng tham số \(\phi\) cho phân phối Gamma và Inverse Gaussian. Tham số \(\phi\) kiểm soát mức độ biến thiên xung quanh giá trị trung bình. Việc ước lượng \(\phi\) là cần thiết cho suy luận thống kê (ví dụ: tính sai số chuẩn của các ước lượng \(\hat\beta\)) và đánh giá sự phù hợp của mô hình (ví dụ: kiểm tra overdispersion hoặc underdispersion). Các phương pháp ước lượng \(\phi\) dựa trên nguyên lý khả năng hợp lý tối đa hoặc các phương pháp moment khác có thể được trình bày.

1.12.2.6 Nghiên cứu tình huống và Sử dụng R

Chương bao gồm các nghiên cứu tình huống (case studies) để minh họa việc áp dụng Gamma và Inverse Gaussian GLMs vào dữ liệu thực tế, chẳng hạn dữ liệu về cây chanh lá nhỏ (lime) hoặc độ thấm của vật liệu xây dựng (perm). Các ví dụ này giúp người học thấy được cách các khái niệm lý thuyết được áp dụng trong thực hành và cách diễn giải kết quả. Hơn nữa, chương cung cấp hướng dẫn sử dụng phần mềm R để phù hợp các mô hình GLMs với phân phối Gamma và Inverse Gaussian, sử dụng hàm glm(). Phần này rất quan trọng vì nó trang bị kỹ năng thực hành cần thiết để phân tích dữ liệu sử dụng các mô hình đã học.

1.12.3 Vai trò của chương

Chương 11 đóng vai trò là một chương ứng dụng quan trọng trong chuỗi các chương giới thiệu về Mô hình Tuyến tính Tổng quát (GLMs). Nó đặt nền tảng cho việc hiểu cách áp dụng khung GLM tổng quát (đã được giới thiệu cấu trúc ở Chương 5 và phương pháp ước lượng MLE từ Chương 4) cho một loại dữ liệu cụ thể: dữ liệu liên tục dương. Chương này củng cố kiến thức về vai trò của thành phần ngẫu nhiên trong việc mô hình hóa cấu trúc biến thiên của dữ liệu và giới thiệu các phân phối EDM cụ thể (Gamma, Inverse Gaussian) phù hợp với đặc điểm phương sai tăng theo trung bình.

Chương này liên kết trực tiếp với Chương 9 (GLMs cho dữ liệu tỷ lệ) và Chương 10 (GLMs cho dữ liệu đếm) bằng cách mở rộng phạm vi của GLMs sang một loại biến phản hồi khác. Nó cũng là bước chuẩn bị cho Chương 12 (Tweedie GLMs), vốn bao gồm Gamma và Inverse Gaussian như các trường hợp đặc biệt của phân phối Tweedie. Bằng cách trình bày chi tiết các mô hình cho dữ liệu liên tục dương, chương này giúp người học nhận ra tính linh hoạt và sức mạnh của khung GLM trong việc xử lý nhiều loại dữ liệu phi chuẩn khác nhau, là mục tiêu tổng thể của cuốn sách: cung cấp một giới thiệu toàn diện và thực tế về GLMs.

1.13 Chương 12 Tweedie GLMs

1.13.1 Mục tiêu và thông điệp của chương

Chương 12 là chương cuối cùng trong loạt các chương giới thiệu các mô hình tuyến tính tổng quát (GLMs) cụ thể. Mục tiêu nhận thức chính của chương này là giới thiệu và trang bị cho người học kiến thức về Tweedie GLMs , một họ phân phối rất linh hoạt thuộc Mô hình Phân tán Hàm mũ (EDMs), có khả năng mô hình hóa nhiều loại dữ liệu khác nhau, đặc biệt là những loại dữ liệu mà các GLMs truyền thống (như Poisson hay Gamma) gặp khó khăn, chẳng hạn như dữ liệu liên tục dương có chứa các giá trị 0 chính xác. Chương nhằm mục tiêu giúp người học hiểu được cấu trúc của Tweedie EDMs , cách chúng được sử dụng trong khung GLM, và các thách thức đặc thù trong việc ước lượng tham số cho mô hình này, bao gồm cả tham số chỉ số (index parameter) \(ξ\) .

Thông điệp cốt lõi mà chương truyền tải là Tweedie GLMs cung cấp một khung mô hình hóa thống nhất và mạnh mẽ cho một phổ rộng các loại dữ liệu, vượt ra ngoài phạm vi của các GLMs đơn giản hơn. Triết lý học thuật ở đây là nhấn mạnh sự cần thiết của các công cụ mô hình hóa linh hoạt để xử lý các đặc điểm dữ liệu phức tạp trong thực tế, và Tweedie GLMs là một giải pháp thanh lịch trong khuôn khổ EDMs. Tầm quan trọng của chương nằm ở việc nó cung cấp một mô hình có thể xử lý các loại dữ liệu phổ biến trong nhiều lĩnh vực (như dữ liệu bảo hiểm, lượng mưa, v.v.) mà các GLMs khác không phù hợp, giải quyết vấn đề mô hình hóa dữ liệu có đặc điểm phân phối “hỗn hợp” hoặc phương sai phụ thuộc vào trung bình theo một cách rất tổng quát.

1.13.2 Kiến thức chính trong chương

1.13.2.1 Giới thiệu Tweedie EDMs

Giới thiệu Tweedie EDMs: Chương mở đầu bằng việc giới thiệu họ phân phối Tweedie, thuộc lớp Mô hình Phân tán Hàm mũ (EDMs). Một điểm quan trọng là Tweedie EDMs là một họ phân phối tổng quát, bao gồm nhiều phân phối quen thuộc như Normal (ξ = 0), Poisson (ξ = 1, với φ = 1), Gamma (ξ = 2), và Inverse Gaussian (ξ = 3).Hàm phương sai đặc trưng của Tweedie EDMs có dạng \(V(\mu)=\mu^ξ\), trong đó ξ là tham số chỉ số (index parameter). Logic trình bày được xây dựng dựa trên khái niệm về EDMs đã được giới thiệu ở Chương 5, nhằm minh họa cách mà Tweedie EDMs cung cấp một cơ chế thống nhất để mô tả mối quan hệ giữa trung bình và phương sai trong một phổ rộng các phân phối. Việc hiểu được cấu trúc này là cơ sở để nhận ra tính linh hoạt và khả năng ứng dụng rộng rãi của Tweedie GLMs. Chương cũng lưu ý đến các trường hợp áp dụng Tweedie EDMs cho dữ liệu liên tục dương, đặc biệt là dữ liệu liên tục dương có giá trị bằng 0 một cách chính xác.

1.13.2.2 Cấu trúc của Tweedie GLMs

Tweedie GLMs được định nghĩa tương tự như các GLMs khác, bằng cách kết hợp thành phần ngẫu nhiên (biến phản hồi tuân theo phân phối Tweedie) với thành phần hệ thống thông qua hàm liên kết. Cụ thể, trung bình của biến phản hồi \(μ\) được liên kết với bộ dự báo tuyến tính \(η\) (tổ hợp tuyến tính của các biến giải thích) thông qua hàm liên kết \(g\), sao cho \(g(μ) = η\). Việc áp dụng phân phối Tweedie làm thành phần ngẫu nhiên cho phép mô hình hóa các cấu trúc phương sai cụ thể (\(var[y] = φμ^ξ\)) phù hợp với dữ liệu. Sự kết hợp này cho thấy cách Tweedie GLMs mở rộng khung GLM cơ bản (từ Chương 5) để xử lý các loại dữ liệu phức tạp hơn với các đặc điểm phân tán đặc thù.

1.13.2.3 Ước lượng Tham số trong Tweedie GLMs

Việc ước lượng các tham số hồi quy \(β\) và tham số phân tán \(φ\) cho Tweedie GLMs thường được thực hiện bằng Ước lượng Hợp lý Tối đa (MLE) , giống như các GLMs khác (Chương 6). Tuy nhiên, một thách thức đặc thù là việc ước lượng tham số chỉ số \(ξ\). Không giống như các EDMs khác có \(ξ\) cố định, trong Tweedie GLMs, \(ξ\) cũng cần được ước lượng từ dữ liệu. Chương thảo luận các phương pháp để ước lượng \(ξ\), chẳng hạn như sử dụng phương pháp dựa trên khả năng hợp lý. Quá trình ước lượng này phức tạp hơn so với các GLMs tiêu chuẩn. Hiểu được quy trình ước lượng này là quan trọng để có thể áp dụng mô hình một cách chính xác và diễn giải kết quả.

1.13.2.4 Fitting Tweedie GLMs

Chương đề cập đến cách phù hợp (fitting) Tweedie GLMs, thường liên quan đến việc sử dụng các thuật toán lặp để cực đại hóa hàm log-hợp lý (như đã thảo luận chung trong Chương 6). Do cần ước lượng cả \(β, φ, và ξ\), quá trình phù hợp có thể phức tạp hơn. Việc phù hợp mô hình đòi hỏi các công cụ tính toán chuyên biệt, thường được cung cấp bởi các gói phần mềm thống kê. Phần này là quan trọng từ góc độ thực hành, trang bị cho người học kỹ năng sử dụng phần mềm để áp dụng mô hình Tweedie vào dữ liệu thực tế.

1.13.2.5 Case Studies (Các nghiên cứu điển hình)

Chương trình bày các ví dụ thực tế về việc áp dụng Tweedie GLMs để phân tích dữ liệu. Các case study này minh họa các loại dữ liệu mà Tweedie GLMs phù hợp (ví dụ, dữ liệu liên tục dương với số 0) và cách diễn giải kết quả. Ví dụ 12.4.2 có thể liên quan đến dữ liệu bảo hiểm hoặc tương tự, nơi giá trị bồi thường là dương nhưng nhiều trường hợp không có bồi thường (giá trị 0). Các case study này rất quan trọng vì chúng giúp người học thấy được ứng dụng cụ thể và lợi ích của Tweedie GLMs trong việc giải quyết các bài toán dữ liệu thực tế.

1.13.2.6 Sử dụng R để phù hợp Tweedie GLMs

Chương hướng dẫn cách sử dụng phần mềm R để phù hợp Tweedie GLMs. Điều này thường liên quan đến việc sử dụng hàm glm() với family = tweedie(). Phần này cung cấp các cú pháp và ví dụ cụ thể để thực hiện phân tích trong R, giúp người học áp dụng kiến thức lý thuyết vào thực hành. Việc sử dụng R là một kỹ năng thiết yếu, liên kết lý thuyết với ứng dụng thực tế.

1.13.3 Vai trò của chương

Chương 12 về Tweedie GLMs đóng vai trò là điểm kết thúc lý thuyết quan trọng trong chuỗi các chương giới thiệu các loại GLMs cụ thể (sau Binomial, Poisson, Gamma, Inverse Gaussian). Nó củng cố và mở rộng khung GLM đã được giới thiệu chi tiết từ Chương 5, bằng cách trình bày một họ phân phối (Tweedie EDMs) rất tổng quát có khả năng mô hình hóa nhiều cấu trúc dữ liệu và mối quan hệ trung bình-phương sai khác nhau. Chương này không đặt nền tảng mới về mặt khái niệm GLM (nền tảng đã được xây dựng ở Chương 5, 6, 7, 8), mà là minh họa sức mạnh và tính linh hoạt của khung lý thuyết GLM khi áp dụng cho một trường hợp phân phối nâng cao. Nó liên kết với mục tiêu tổng thể của cuốn sách là cung cấp một giới thiệu toàn diện về GLMs bằng cách giới thiệu một công cụ mô hình hóa tiên tiến cho các bài toán dữ liệu phức tạp hơn mà các mô hình đơn giản hơn không thể xử lý. Chương 12 cho thấy sự đa dạng và khả năng thích ứng của GLMs, chuẩn bị cho người học khả năng đối mặt với các loại dữ liệu và thách thức mô hình hóa đa dạng trong thực tế.

2 Thống kê mô tả

2.1 Tổng quan về dữ liệu

2.1.1 Đọc dữ liệu

Đầu tiên gọi ra các thư viện cần thiết để thực hiện thống kê mô tả

library(tidyverse)
library(janitor)
library(skimr)
library(kableExtra)
library(DT)

Đọc dữ liệu

data <- read.csv("Supermarket Transactions.csv")
datatable(head(data), options = list(scrollX = TRUE))

Tổng quan về bộ dữ liệu

str(data)
## 'data.frame':    14059 obs. of  16 variables:
##  $ X                : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ PurchaseDate     : chr  "2007-12-18" "2007-12-20" "2007-12-21" "2007-12-21" ...
##  $ CustomerID       : int  7223 7841 8374 9619 1900 6696 9673 354 1293 7938 ...
##  $ Gender           : chr  "F" "M" "F" "M" ...
##  $ MaritalStatus    : chr  "S" "M" "M" "M" ...
##  $ Homeowner        : chr  "Y" "Y" "N" "Y" ...
##  $ Children         : int  2 5 2 3 3 3 2 2 3 1 ...
##  $ AnnualIncome     : chr  "$30K - $50K" "$70K - $90K" "$50K - $70K" "$30K - $50K" ...
##  $ City             : chr  "Los Angeles" "Los Angeles" "Bremerton" "Portland" ...
##  $ StateorProvince  : chr  "CA" "CA" "WA" "OR" ...
##  $ Country          : chr  "USA" "USA" "USA" "USA" ...
##  $ ProductFamily    : chr  "Food" "Food" "Food" "Food" ...
##  $ ProductDepartment: chr  "Snack Foods" "Produce" "Snack Foods" "Snacks" ...
##  $ ProductCategory  : chr  "Snack Foods" "Vegetables" "Snack Foods" "Candy" ...
##  $ UnitsSold        : int  5 5 3 4 4 3 4 6 1 2 ...
##  $ Revenue          : num  27.38 14.9 5.52 4.44 14 ...

Trên đây thì ta thấy rằng đây là dữ liệu về lịch sử mua hàng của các khách hàng. Điều đó đồng nghĩa với việc một khách hàng có thể mua lại nhiều lần vì vậy mà ta cần phải loại bỏ đi những dữ liệu đã trùng nhau và chỉ giữ những dữ liệu nào có CustomerID xuất hiện lần đầu tiên.Sau đây thì ta sẽ đếm xem có bao nhiêu khách hàng đã mua hàng ở siêu thị.

nrow(table(data$CustomerID))
## [1] 5404

Vậy là có 5404 khách hàng mua hàng ở siêu thị tiếp đó ta sẽ loại bỏ các dữ liệu trùng.

# Giữ lại lần mua đầu tiên
data_unique <- data %>%
  distinct(CustomerID, .keep_all = TRUE)
str(data_unique)
## 'data.frame':    5404 obs. of  16 variables:
##  $ X                : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ PurchaseDate     : chr  "2007-12-18" "2007-12-20" "2007-12-21" "2007-12-21" ...
##  $ CustomerID       : int  7223 7841 8374 9619 1900 6696 9673 354 1293 7938 ...
##  $ Gender           : chr  "F" "M" "F" "M" ...
##  $ MaritalStatus    : chr  "S" "M" "M" "M" ...
##  $ Homeowner        : chr  "Y" "Y" "N" "Y" ...
##  $ Children         : int  2 5 2 3 3 3 2 2 3 1 ...
##  $ AnnualIncome     : chr  "$30K - $50K" "$70K - $90K" "$50K - $70K" "$30K - $50K" ...
##  $ City             : chr  "Los Angeles" "Los Angeles" "Bremerton" "Portland" ...
##  $ StateorProvince  : chr  "CA" "CA" "WA" "OR" ...
##  $ Country          : chr  "USA" "USA" "USA" "USA" ...
##  $ ProductFamily    : chr  "Food" "Food" "Food" "Food" ...
##  $ ProductDepartment: chr  "Snack Foods" "Produce" "Snack Foods" "Snacks" ...
##  $ ProductCategory  : chr  "Snack Foods" "Vegetables" "Snack Foods" "Candy" ...
##  $ UnitsSold        : int  5 5 3 4 4 3 4 6 1 2 ...
##  $ Revenue          : num  27.38 14.9 5.52 4.44 14 ...

Sau khi loại bỏ thì sẽ giải thích các biến trong dữ liệu

  • X: là số thứ tự các lần mua hàng
  • PurchaseDate:là thời gian mua hàng
  • CustomerID: là mã số của khách hàng
  • Gender: là giới tính của khách hàng
  • MaritalStatus: là tình trạng hôn nhân của khách hàng
  • Homeowner: là tình trạng sở hữu nhà của khách hàng
  • Children: là số con cái của khách hàng
  • AnnualIncome: là khoảng thu nhập của khách hàng
  • City: là thành phố khác hàng đang ở
  • StateorProvince: là bang hoặc tỉnh mà khách hàng đang ở
  • Country: là quốc gia mà khách hàng đang ở
  • ProductFamily: là dòng sản phẩm
  • ProductDepartment: là bộ phận sản phẩm
  • ProductCategory: là danh mục sản phẩm
  • UnitsSold: là số lượng mua hàng
  • Revenue: là doanh thu

Nhận thấy rằng các biến như Gender, MaritalStatus, Homeowner, AnnualIncome, City, StateorProvince, Country, ProductFamily, ProductDepartment, ProductCategory là các biến định tính, tuy nhiên thì Children vừa là một biến định tính vừa là một biến định lượng nên ta sẽ phân tích Children theo 2 hướng. Còn lại UnitsSold và Revenue là biến định lượng.

Việc phân tích các biến như Gender, MaritalStatus, Homeowner, AnnualIncome, City, StateorProvince, Country, Children thì sẽ sử dụng data_unique để phân tích . Còn ProductFamily, ProductDepartment, ProductCategory, UnitsSold vàRevenue sẽ dùng data để phân tích.

2.2 Thống kê mô tả các biến

2.2.1 Biến định tính

2.2.1.1 Biến Gender

ggplot(data_unique, aes(x = Gender)) +
  geom_bar(fill = "steelblue") +
  geom_text(stat = "count", aes(label = after_stat(count)), vjust = -0.5) +
  labs(
    title = "Tần số phân bố theo giới tính",
    x = "Giới tính",
    y = "Số lượng"
  ) +
  theme_minimal()

Dữ liệu cho thấy số lượng khách hàng nữ (F) là 2,674 và khách hàng nam (M) là 2,730, cho thấy sự phân bố gần như cân bằng giữa hai giới tính trong bộ dữ liệu data_unique. Sự chênh lệch nhỏ cho thấy không có sự ưu thế rõ rệt về số lượng khách hàng theo giới tính, điều này giúp đảm bảo tính đại diện và khách quan trong các phân tích tiếp theo.

2.2.1.2 Biến MaritalStatus

ggplot(data_unique, aes(x = MaritalStatus)) +
  geom_bar(fill = "red") +
  geom_text(stat = "count", aes(label = after_stat(count)), vjust = -0.5) +
  labs(
    title = "Tần số phân bố theo tình trạng hôn nhân",
    x = "Tình trạng hôn nhân",
    y = "Số lượng"
  ) +
  theme_minimal()

Dữ liệu cho thấy số lượng khách hàng độc thân (S) là 2,775 và khách hàng đã kết hôn (M) là 2,629, phản ánh tỷ lệ tương đối cân bằng giữa hai nhóm này. Sự phân bố này cho thấy cả nhóm độc thân và đã kết hôn đều đóng vai trò quan trọng trong phân tích hành vi mua hàng, giúp đa dạng hóa đối tượng khách hàng.

2.2.1.3 Biến Homeowner

ggplot(data_unique, aes(x = Homeowner)) +
  geom_bar(fill = "darkgreen") +
  geom_text(stat = "count", aes(label = after_stat(count)), vjust = -0.5) +
  labs(
    title = "Tần số phân bố theo tình trạng sở hữu nhà",
    x = "Tình trạng sở hữu nhà",
    y = "Số lượng"
  ) +
  theme_minimal()

Dữ liệu cho thấy số khách hàng sở hữu nhà (Y) là 3,255, chiếm tỷ lệ cao hơn so với nhóm không sở hữu nhà (N) với 2,149 khách hàng. Điều này cho thấy phần lớn khách hàng trong bộ dữ liệu có khả năng tài chính ổn định và có thể có xu hướng chi tiêu khác biệt so với nhóm không sở hữu nhà, ảnh hưởng đến các chiến lược tiếp thị và phân tích hành vi tiêu dùng.

2.2.1.4 Biến Children

ggplot(data_unique, aes(x = Children)) +
  geom_bar(fill = "blue") +
  geom_text(stat = "count", aes(label = after_stat(count)), vjust = -0.5) +
  labs(
    title = "Tần số phân bố theo số lượng con cái",
    x = "Số lượng con cái",
    y = "Số lượng"
  ) +
  theme_minimal()

Dữ liệu cho thấy phần lớn khách hàng có từ 1 đến 4 người con, với số lượng các nhóm này khá đồng đều (khoảng 1,000 khách hàng mỗi nhóm), trong khi nhóm không có con chỉ chiếm 533 và nhóm có 5 con là 554 khách hàng. Phân bố này phản ánh đa dạng các giai đoạn gia đình trong tập khách hàng, từ không có con đến gia đình đông con, điều này có thể ảnh hưởng đến nhu cầu và thói quen mua sắm khác nhau theo từng nhóm.

2.2.1.5 Biến AnnualIncome

Do các mức thu nhập còn sắp xếp lộn xộn nên cần phải sắp xếp lại theo thứ tự

income_levels <- c(
  "$10K - $30K",
  "$30K - $50K",
  "$50K - $70K",
  "$70K - $90K",
  "$90K - $110K",
  "$110K - $130K",
  "$130K - $150K",
  "$150K +"
)

data_unique$AnnualIncome <- factor(
  data_unique$AnnualIncome,
  levels = income_levels,
  ordered = TRUE
)

Sau khi đã sắp xếp lại thành công thì ta vẽ biểu đồ tần số

ggplot(data_unique, aes(x = AnnualIncome)) +
  geom_bar(fill = "darkorange") +
  geom_text(stat = "count", aes(label = after_stat(count)), vjust = -0.5) +
  labs(
    title = "Tần số phân bố theo khoảng thu nhập hằng năm",
    x = "Khoảng thu nhập hằng năm",
    y = "Số lượng"
  ) +
  theme_minimal()

Phân bố thu nhập cho thấy phần lớn khách hàng thuộc các nhóm thu nhập trung bình, đặc biệt là nhóm $30K - $50K (1,767 người) và $10K - $30K (1,168 người), chiếm tỷ trọng cao nhất. Trong khi đó, các nhóm thu nhập cao từ $110K trở lên có số lượng khách hàng khá khiêm tốn, cho thấy tập khách hàng chủ yếu thuộc tầng lớp thu nhập trung bình–thấp, điều này có thể ảnh hưởng đến hành vi tiêu dùng và khả năng chi tiêu của họ.

2.2.1.6 Biến StateorProvince

ggplot(data_unique, aes(x = StateorProvince  )) +
  geom_bar(fill = "darkgrey") +
  geom_text(stat = "count", aes(label = after_stat(count)), vjust = -0.5) +
  labs(
    title = "Tần số phân bố theo Bang/Tiểu bang sinh sống",
    x = "Bang/Tiểu bang sinh sống",
    y = "Số lượng"
  ) +
  theme_minimal()

Phân bố khách hàng theo bang/tiểu bang cho thấy số lượng tập trung đông nhất tại California (CA) với 1,651 khách, tiếp theo là Washington (WA) với 1,392 và British Columbia (BC) với 547 khách. Ngược lại, các vùng như Jalisco (48), Veracruz (88) và Yucatan (98) có số lượng khách hàng rất hạn chế, điều này phản ánh sự khác biệt về thị trường và quy mô dân cư giữa các khu vực.

2.2.2 Biến Country

ggplot(data_unique, aes(x = Country )) +
  geom_bar(fill = "darkgrey") +
  geom_text(stat = "count", aes(label = after_stat(count)), vjust = -0.5) +
  labs(
    title = "Tần số phân bố theo Quốc gia sinh sống",
    x = "Quốc gia sinh sống",
    y = "Số lượng"
  ) +
  theme_minimal()

Phân tích cho thấy phần lớn khách hàng đến từ Hoa Kỳ (USA) với 3,922 người, chiếm tỷ trọng áp đảo so với Mexico (935) và Canada (547). Sự phân bố này cho thấy thị trường Mỹ là nguồn khách hàng chính trong dữ liệu, điều này có thể ảnh hưởng đến chiến lược kinh doanh, định vị sản phẩm và hành vi tiêu dùng chủ đạo.

2.2.2.1 Biến ProductFamily

ggplot(data, aes(x = ProductFamily)) +
  geom_bar(fill = "darkgrey") +
  geom_text(stat = "count", aes(label = after_stat(count)), vjust = -0.5) +
  labs(
    title = "Tần số phân bố theo ProductFamily",
    x = "ProductFamily",
    y = "Số lượng"
  ) +
  theme_minimal()

Dữ liệu cho thấy phần lớn sản phẩm được mua thuộc nhóm Food (Thực phẩm) với 10,153 giao dịch, chiếm ưu thế rõ rệt so với hai nhóm còn lại. Nhóm Drink (Đồ uống) có 1,250 giao dịch và Non-Consumable (Hàng không tiêu dùng) là 2,656 giao dịch, cho thấy khách hàng chủ yếu tập trung mua các mặt hàng tiêu dùng thiết yếu, đặc biệt là thực phẩm.

2.2.3 Biến định lượng

2.2.3.1 Biến UnitsSold

Tính toán thống kê mô tả

stats <- data.frame(
  Statistic = c("Số quan sát", "Trung bình", "Trung vị", "Độ lệch chuẩn", 
                "Giá trị nhỏ nhất", "Giá trị lớn nhất", "Q1", "Q3"),
  Value = c(
    nrow(data),
    round(mean(data$UnitsSold, na.rm = TRUE), 2),
    median(data$UnitsSold, na.rm = TRUE),
    round(sd(data$UnitsSold, na.rm = TRUE), 2),
    min(data$UnitsSold, na.rm = TRUE),
    max(data$UnitsSold, na.rm = TRUE),
    quantile(data$UnitsSold, 0.25, na.rm = TRUE),
    quantile(data$UnitsSold, 0.75, na.rm = TRUE)
  )
)

datatable(stats, 
          caption = "Thống kê mô tả của UnitsSold ",
          options = list(pageLength = 10, autoWidth = TRUE))

2.2.3.2 Biến Revenue

Tính toán thống kê mô tả

stats <- data.frame(
  Statistic = c("Số quan sát", "Trung bình", "Trung vị", "Độ lệch chuẩn", 
                "Giá trị nhỏ nhất", "Giá trị lớn nhất", "Q1", "Q3"),
  Value = c(
    nrow(data),
    round(mean(data$Revenue, na.rm = TRUE), 2),
    median(data$Revenue, na.rm = TRUE),
    round(sd(data$Revenue, na.rm = TRUE), 2),
    min(data$Revenue, na.rm = TRUE),
    max(data$Revenue, na.rm = TRUE),
    quantile(data$Revenue, 0.25, na.rm = TRUE),
    quantile(data$Revenue, 0.75, na.rm = TRUE)
  )
)

datatable(stats, 
          caption = "Thống kê mô tả của Revenue ",
          options = list(pageLength = 10, autoWidth = TRUE))

Biểu đồ boxplot

ggplot(data, aes(y = Revenue)) +
  geom_boxplot(fill = "#69b3a2", color = "black") +
  labs(title = "Boxplot của Revenue",
       y = "Revenue ",
       x = "") +
  theme_minimal()

Biểu đồ Histogram

ggplot(data, aes(x = Revenue)) +
  geom_histogram(bins = 30, fill = "#69b3a2", color = "black") +
  labs(title = "Histogram của Revenue",
       x = "Revenue ",
       y = "Tần suất") +
  theme_minimal()