NHIỆM VỤ 1 - TÓM TẮT SÁCH
PHẦN 1: TÓM TẮT SÁCH
Tên sách: Generalized Linear Models With Examples in R
Tác giả: Peter K. Dunn & Gordon K. Smyth
Năm xuất bản:: 2018
DOI: https://doi.org/10.1007/978-1-4419-0118-7
Topic: Statistical Theory and Methods, Statistics and Computing/Statistics Programs
Tóm tắt:
Cuốn sách này giới thiệu về mô hình tuyến tính tổng quát (GLMs), kèm theo các bộ dữ liệu thực tế và bài tập thực hành, phù hợp cho cả sinh viên mới bắt đầu và người học nâng cao trong lĩnh vực thống kê ứng dụng. Mô hình GLM là công cụ mạnh mẽ trong thống kê ứng dụng, mở rộng ý tưởng của hồi quy tuyến tính đa biến và phân tích phương sai để xử lý các biến phản hồi không theo phân phối chuẩn. Nhờ đó, GLMs có thể mô hình hóa nhiều loại dữ liệu khác nhau như dữ liệu đếm, tỷ lệ, kết quả nhị phân hoặc các giá trị dương.
Cuốn sách được thiết kế hướng đến người học, phù hợp cho tự học hoặc giảng dạy có cấu trúc. Bắt đầu với giới thiệu hồi quy tuyến tính, cuốn sách cũng đề cập đến các chủ đề nâng cao thường không xuất hiện trong sách cơ bản. Các chương sách có phần giới thiệu và tóm tắt, minh họa rõ ràng cùng nhiều bài tập thực hành, cân bằng giữa lý thuyết và thực hành. Ngoài ra, cuốn sách cung cấp kiến thức thực tế về thống kê ứng dụng thông qua việc sử dụng R, được tích hợp xuyên suốt nội dung.
Một số đặc điểm nổi bật khác bao gồm:
Các chủ đề nâng cao như hàm phương sai lũy thừa, xấp xỉ điểm yên ngựa (saddlepoint), kiểm định likelihood score, likelihood hiệu chỉnh, xấp xỉ phân phối nhỏ, và phần dư phân vị ngẫu nhiên (randomized quantile residuals).
Gần 100 bộ dữ liệu trong gói R kèm theo GLMsData.
Các ví dụ liên kết chặt chẽ với bộ dữ liệu đi kèm, giúp người đọc dễ dàng tải và thực hành phân tích trong môi trường R.
Sơ lược các chương trong quyển sách này gồm:
Chương 1: Mô hình thống kê
1.1 Giới thiệu tổng quan chương
Chương 1 giới thiệu khái quát về mô hình thống kê - mô hình tuyến tính tổng quát, đây là một trong những mô hình phổ biến nhất, giúp hiểu mối quan hệ giữa biến phản hồi và các biến giải thích. Nội dung chương này bao gồm:
Các quy ước để mô tả dữ liệu (Mục 1.2)
Vẽ đồ thị dữ liệu (Mục 1.3)
Mã hóa cho các Factor (Mục 1.4)
Mô hình thống kê mô tả các đặc trưng ngẫu nhiên và hệ thống của dữ liệu (Mục 1.5)
Mô hình hồi quy (Mục 1.6)
Giải thích mô hình hồi quy (Mục 1.7)
Tất cả các mô hình đều sai, nhưng một số mô hình hữu ích (Mục 1.8)
Mục đích của mô hình thống kê ảnh hưởng đến cách phát triển mô hình (Mục 1.9)
Độ chính xác so với tính đơn giản (Mục 1.10)
Thí nghiệm so với nghiên cứu quan sát: Quan hệ nhân quả so với quan hệ kết hợp (Mục 1.11)
Thu thập dữ liệu và khả năng tổng quát (Mục 1.12)
Sử dụng R cho mô hình thống kê (Mục 1.13)
1.2 Các quy ước để mô tả dữ liệu
Phần này giới thiệu các thuật ngữ quan trọng để mô tả dữ liệu trong ngữ cảnh mô hình thống kê:
Biến phản hồi (Response Variable): còn gọi là biến phụ thuộc (dependent variable), thường được ký hiệu là \(y\). Đây là biến mà chúng ta quan tâm và muốn dự đoán hoặc giải thích. Giá trị của biến phản hồi thay đổi theo các biến khác và là đối tượng chính của phân tích. Ví dụ, trong một nghiên cứu về ảnh hưởng của chế độ ăn uống đến cân nặng, cân nặng sẽ là biến phản hồi.
Biến giải thích (Explanatory Variable): còn gọi là biến ứng viên (candidate variables), carriers, biến ngoại sinh (exogenous variables), biến độc lập (independent variables), biến đầu vào (input variables), biến dự báo (predictors), hoặc regressors. Thường được ký hiệu là \(x\). Đây là các biến được sử dụng để giải thích hoặc dự đoán sự thay đổi của biến phản hồi. Có hai loại biến giải thích chính:
Biến định lượng (Covariate): Là các biến có giá trị số học, thể hiện các đại lượng có thể đo lường được. Ví dụ: tuổi, chiều cao, nhiệt độ.
Biến định tính (Factor): Là các biến phân loại, thể hiện các nhóm hoặc danh mục. Ví dụ: giới tính (nam/nữ), màu sắc (đỏ, xanh, vàng).
1.3 Vẽ đồ thị dữ liệu
Phần này nhấn mạnh tầm quan trọng của việc trực quan hóa dữ liệu trong phân tích thống kê. Trước khi xây dựng mô hình, việc vẽ biểu đồ giúp người phân tích nhận diện các đặc điểm quan trọng của dữ liệu như xu hướng, mối quan hệ giữa các biến, các giá trị ngoại lai (outliers), và phân phối của biến.
Một số loại biểu đồ phổ biến như:
Biểu đồ phân tán (scatterplot): thường được dùng để khảo sát mối quan hệ giữa hai biến liên tục.
Biểu đồ hộp (boxplot): hữu ích trong việc phát hiện phân phối lệch và giá trị ngoại lai.
Biểu đồ histogram: giúp hình dung phân phối tần suất của một biến định lượng.
1.4 Mã hóa cho các Factor
Trong phân tích thống kê, đặc biệt khi xây dựng mô hình hồi quy, các biến phân loại (factor variables) cần được mã hóa thành dạng số để phần mềm như R có thể xử lý. Phần này trình bày cách mã hóa các biến phân loại thông qua hệ thống biến giả (dummy variables) – một kỹ thuật chuyển từng mức của biến phân loại thành các biến nhị phân (0 hoặc 1).
Với biến có 2 nhóm (ví dụ: Giới tính gồm “F” và “M”), R sẽ chọn một nhóm làm mức tham chiếu (thường là chữ cái đứng trước bảng chữ cái), nhóm còn lại sẽ được mã hóa là 1. Có thể thay đổi nhóm nào được chọn làm mức tham chiếu bằng hàm relevel().
Nếu một biến phân loại có nhiều hơn hai nhóm (ví dụ: “Chưa từng hút”, “Đã từng hút”, “Đang hút”), ta cần tạo nhiều biến giả để đưa vào mô hình. Với 3 nhóm, cần 2 biến giả vì 1 nhóm sẽ làm mức tham chiếu. Ví dụ, nếu chọn “Chưa từng hút” làm mức tham chiếu, thì:
Biến giả 1 = 1 nếu “Đã từng hút”, 0 nếu không.
Biến giả 2 = 1 nếu “Đang hút”, 0 nếu không.
Nếu cả hai biến giả = 0, thì đó là “Chưa từng hút”. Cách làm này giúp mô hình so sánh từng nhóm với nhóm tham chiếu.
Lưu ý
Với k nhóm, cần k−1 biến giả.
Luôn cần biết nhóm nào là mức tham chiếu để hiểu đúng mô hình hồi quy.
R dùng kiểu mã hóa này gọi là treatment coding, và đây là cách phổ biến nhất.
1.5 Mô hình thống kê mô tả các đặc trưng ngẫu nhiên và hệ thống của dữ liệu
Thành phần hệ thống và thành phần ngẫu nhiên: Một mô hình thống kê bao gồm hai thành phần chính.
Thành phần hệ thống mô hình hóa cách giá trị trung bình của biến phản hồi thay đổi theo các biến giải thích.
Thành phần ngẫu nhiên mô hình hóa sự biến thiên của dữ liệu xung quanh giá trị trung bình.
Mô hình hóa dữ liệu: Mô hình thống kê được sử dụng để mô tả cả hai thành phần này của dữ liệu. Chúng có thể được dùng để dự đoán và để hiểu mối quan hệ giữa các biến.
1.6 Mô hình hồi quy
Mô hình hồi quy: là một loại mô hình thống kê được sử dụng để hiểu dữ liệu. Rất tổng quát, một mô hình hồi quy giả định rằng giá trị trung bình của biến phản hồi \((\mu_i)\) cho quan sát \(i\) phụ thuộc vào \(p\) biến giải thích (\(x_{1i}\) đến \(x_{pi}\)) thông qua một hàm chung \((f)\) và tham số hồi quy \((\beta_j)\). Về mặt toán học, nó được biểu diễn:
\[ \mathbb{E}[y_i] = \mu_i = f(x_{1i}, \ldots, x_{pi};\ \beta_0, \beta_1, \ldots, \beta_q) \]
Thành phần ngẫu nhiên được giả định là có phương sai không đổi \(\sigma^2\) xung quanh \(\mu_i\).
Mô hình hồi quy tuyến tính (Linear regression models) là một trường hợp cụ thể của mô hình hồi quy tuyến tính theo tham số. Có dạng:
\[ \mathbb{E}[y_i] = \mu_i = \beta_0 + \beta_1 x_{1i} + \cdots + \beta_p x_{pi} \]
Mô hình tuyến tính tổng quát (Generalized linear models - GLMs) cũng là mô hình hồi quy tuyến tính theo tham số. Thành phần hệ thống của GLM sử dụng một hàm liên kết \((g)\) để kết nối giá trị trung bình \((\mu_i)\) với tổ hợp tuyến tính của các biến giải thích:
\[ g(\mu_i) = \beta_0 + \beta_1 x_{1i} + \cdots + \beta_p x_{pi} \]
- Ký hiệu: Số lượng biến giải thích là \(p\). Số lượng tham số hồi quy được ký hiệu là \(p'\). Nếu có hằng số \(\beta_0\) trong thành phần hệ thống (thường là trường hợp phổ biến), thì \(p' = p + 1\).
1.7 Giải thích mô hình hồi quy
Giải thích các hệ số hồi quy:
- Đối với mô hình hồi quy tuyến tính đơn giản với thành phần hệ thống \(\mu = \beta_0 + \beta_1 x\), tham số \(\beta_1\) được giải thích là sự thay đổi trung bình trong giá trị của \(\mu\) khi biến \(x\) tăng thêm một đơn vị, trong phạm vi dữ liệu. \(\beta_0\) là giá trị trung bình của \(\mu\) khi \(x\) bằng \(0\).
- Khi có nhiều biến giải thích (\(\mu = \beta_0 + \beta_1 x_1 + \cdots + \beta_p x_{pi}\)), mỗi tham số \(\beta_j\) đại diện cho sự thay đổi trung bình trong \(\mu\) khi \(x_j\) tăng thêm một đơn vị, giữ các biến giải thích khác không đổi (adjusting for other explanatory variables).
- Đối với các mô hình có biến phản hồi được biến đổi hoặc sử dụng hàm liên kết không phải là identity link (ví dụ: log link trong Mô hình Tuyến tính Tổng quát - GLM), việc giải thích sẽ khác biệt. Ví dụ, với thành phần hệ thống \(\log \mu = \beta_0 + \beta_1 x\) (trong GLM với log link hoặc xấp xỉ trong hồi quy tuyến tính với \(\mathbb{E}[\log y]\)), sự tăng thêm một đơn vị của \(x\) tương ứng với việc \(\log \mu\) tăng thêm \(\beta_1\). Điều này ngụ ý rằng \(\mu\) tăng (xấp xỉ) theo hệ số \(\exp(\beta_1)\) khi \(x\) tăng thêm một đơn vị. Việc sử dụng log link trong GLM cho phép giải thích trực tiếp tác động của biến giải thích lên \(\mu\).
1.8 Tất cả các mô hình đều sai, nhưng một số mô hình hữu ích
Tất cả các mô hình đều sai: Phần này bắt đầu bằng việc trích dẫn câu nói nổi tiếng của Box và Draper: “tất cả các mô hình đều sai”.
Mô hình là sự xấp xỉ: Để giải thích ý nghĩa của câu nói này, sách sử dụng phép tương tự với các mô hình vật lý thông thường, chẳng hạn như mô hình bộ xương người được sử dụng để dạy giải phẫu. Các mô hình này không phải là sự tái hiện chính xác của thực tế (ví dụ: bộ xương bằng nhựa thay vì xương thật, kích thước không hoàn hảo). Tuy nhiên, chúng là những sự xấp xỉ hữu ích, nắm bắt đủ thông tin quan trọng cho mục đích cần thiết.
Áp dụng cho mô hình thống kê: Nguyên tắc tương tự áp dụng cho mô hình thống kê. Chúng là những sự xấp xỉ toán học đối với thực tế, biểu diễn các đặc điểm quan trọng của dữ liệu cho nhiệm vụ đang xem xét.
Tầm quan trọng của tính hữu ích: Mục tiêu không phải là tìm kiếm một mô hình hoàn hảo phản ánh chính xác thực tế (điều không thể), mà là tìm kiếm một mô hình đủ chính xác và hữu ích cho mục đích phân tích hoặc dự đoán.
1.9 Mục đích của mô hình thống kê ảnh hưởng đến cách phát triển mô hình
Có hai mục đích chính khi phát triển mô hình hồi quy:
Dự đoán (Prediction): Mục tiêu là tạo ra các dự đoán chính xác cho dữ liệu mới hoặc dữ liệu trong tương lai.
Hiểu và giải thích (Understanding and interpretation): Mục tiêu là hiểu rõ cách các biến liên quan với nhau.
Việc nhận thức rõ mục đích chính của nghiên cứu sẽ ảnh hưởng đến cách mô hình được xây dựng và tinh chỉnh:
Nếu mục đích chính là giải thích, điều quan trọng là tất cả các thuật ngữ (biến giải thích) trong mô hình phải được ước lượng một cách đáng tin cậy và có sự hỗ trợ tốt từ dữ liệu.
Nếu mục đích chính là dự đoán, bất kỳ biến giải thích nào giúp cải thiện độ chính xác của dự đoán đều có thể được đưa vào mô hình, ngay cả khi mối quan hệ nhân quả giữa biến giải thích và biến phản hồi không rõ ràng hoặc hệ số hồi quy của nó tương đối không chắc chắn. Điều này có nghĩa là đôi khi, người ta có thể bao gồm nhiều thuật ngữ hơn trong mô hình hồi quy khi mục đích là dự đoán so với khi mục đích là giải thích và hiểu rõ.
1.10 Độ chính xác so với tính đơn giản
- Vấn đề lựa chọn mô hình: Đối với bất kỳ tập dữ liệu nào, thường có rất nhiều lựa chọn khác nhau cho cả thành phần hệ thống và thành phần ngẫu nhiên của mô hình thống kê. Đôi khi, mô hình có thể dựa trên lý thuyết cơ bản hoặc hiểu biết về các đặc điểm vật lý của tình huống.
Hai tiêu chí cân bằng: Để chọn một mô hình thống kê phù hợp, cần cân bằng hai tiêu chí chính:
Độ chính xác (Accuracy): Mô hình nên mô tả chính xác cả thành phần hệ thống và thành phần ngẫu nhiên của dữ liệu.
Tính tiết kiệm/Đơn giản (Parsimony): Mô hình nên càng đơn giản càng tốt.
- Nguyên tắc Occam’s Razor: Theo nguyên tắc tiết kiệm (principle of parsimony), còn được gọi là Dao cạo của Occam (Occam’s Razor), mô hình chính xác đơn giản nhất là mô hình được ưu tiên.
Mô hình quá đơn giản hoặc quá phức tạp: Một mô hình quá đơn giản hoặc quá phức tạp đều không mô hình hóa dữ liệu tốt.
Một mô hình quá đơn giản có thể không thể hiện được xu hướng hệ thống của dữ liệu, để lại sự biến đổi lớn và không ngẫu nhiên xung quanh đường cong phù hợp.
Mô hình phức tạp (thường là những mô hình có nhiều tham số) có thể phù hợp tốt với dữ liệu đã cho nhưng thường không khái quát hóa tốt cho các tập dữ liệu khác. Hiện tượng này được gọi là quá khớp (over-fitting).
- Kết nối với các tiêu chí lựa chọn mô hình: Các tiêu chí lựa chọn mô hình như AIC (Akaike Information Criterion) và BIC (Bayesian Information Criterion) được thiết kế để cân bằng hai tiêu chí này. AIC cân bằng độ chính xác (đo bằng rss trong hồi quy tuyến tính thông thường) với hình phạt cho sự phức tạp của mô hình. BIC cũng làm như vậy nhưng thường phạt nặng hơn cho các tham số bổ sung, do đó có xu hướng chọn các mô hình đơn giản hơn.
1.11 Thí nghiệm so với nghiên cứu quan sát: Quan hệ nhân quả so với quan hệ kết hợp
Thí nghiệm so với nghiên cứu quan sát:
Thí nghiệm là loại nghiên cứu mà ở đó các nhà nghiên cứu chủ động can thiệp và kiểm soát các yếu tố để xác định ảnh hưởng của một biến cụ thể lên một biến khác.
Nghiên cứu quan sát là loại nghiên cứu mà ở đó các nhà nghiên cứu chỉ quan sát và ghi lại các biến mà không có bất kỳ sự can thiệp nào.
Quan hệ nhân quả so với quan hệ kết hợp:
Quan hệ nhân quả chỉ ra rằng một biến gây ra sự thay đổi ở biến kia. Quan hệ nhân quả chỉ có thể được xác định thông qua các thí nghiệm được thiết kế chặt chẽ.
Quan hệ kết hợp chỉ ra rằng có một mối quan hệ giữa hai biến, nhưng không nhất thiết có nghĩa là một biến gây ra biến kia. Quan hệ kết hợp có thể được quan sát trong cả thí nghiệm và nghiên cứu quan sát.
1.12 Thu thập dữ liệu và khả năng tổng quát
Cách thu thập dữ liệu ảnh hưởng đến kết luận: Một đặc điểm khác của việc thu thập dữ liệu ảnh hưởng đến các kết luận có thể được rút ra là tổng thể (population) từ đó các đối tượng hoặc trường hợp được chọn.
Giới hạn về khả năng khái quát hóa theo tổng thể: Nói chung, các kết luận từ việc trang bị và phân tích một mô hình thống kê chỉ áp dụng cho tổng thể được đại diện bởi mẫu.
- Ví dụ, nếu các đối tượng được lấy mẫu từ phụ nữ trên 60 tuổi ở Nhật Bản, thì các kết luận không nhất thiết áp dụng cho nam giới, cho phụ nữ dưới 60 tuổi ở Nhật Bản, hoặc cho phụ nữ trên 60 tuổi ở nơi khác.
Giới hạn về khả năng ngoại suy: Tương tự, các kết luận từ một mô hình hồi quy không nhất thiết áp dụng (ngoại suy - extrapolated) ra ngoài phạm vi của dữ liệu được sử dụng để xây dựng mô hình.
1.13 Sử dụng R cho mô hình thống kê
Giới thiệu về R: R là một môi trường mạnh mẽ và tiện lợi để phân tích dữ liệu thống kê và đồ họa. Nó không phải là một gói phần mềm thống kê dựa trên menu mà là một môi trường làm việc linh hoạt.
Tính khả dụng: R miễn phí để cài đặt và sử dụng. Có sẵn các giao diện đồ họa như R Commander hoặc RStudio để hỗ trợ làm việc với R.
Chuẩn bị sử dụng R: Phụ lục A hướng dẫn
cách tải về và cài đặt R, cũng như cách tải về và cài đặt các gói
(packages) cần thiết cho cuốn sách, ví dụ như GLMsData
,
MASS
, splines
, statmod
,
foreign
, và tweedie
.
Sử dụng R cơ bản: Phụ lục A giới thiệu cách sử dụng R ở mức cơ bản, bao gồm:
Sử dụng R như một máy tính nâng cao.
Thoát khỏi R.
Nhận trợ giúp (ví dụ: sử dụng
?glm
,example("glm"))
.Tên biến trong R.
Làm việc với vector.
Tải dữ liệu vào R, đặc biệt là làm việc với các khung dữ liệu (data frames) (ví dụ: sử dụng
data()
,read.table())
.Sử dụng các hàm cơ bản.
Các hàm thống kê cơ bản (ví dụ:
mean(
),median()
,sd()
,var()
,summary())
.Vẽ đồ thị cơ bản (ví dụ: sử dụng
plot()
).
Tích hợp vào Mô hình Thống kê: Cuốn sách giải thích việc sử dụng R một cách có hệ thống xuyên suốt các chương cho cả mô hình hồi quy tuyến tính và mô hình hồi quy tuyến tính tổng quát (GLMs). R được sử dụng để:
Trang bị (fit) các mô hình (ví dụ: sử dụng hàm
lm()
cho hồi quy tuyến tính vàglm()
cho GLMs).Giải thích các hệ số hồi quy.
Thực hiện kiểm định giả thuyết (t-test, F-test, chi-squared test).
Phân tích phương sai (ANOVA) để so sánh các mô hình lồng nhau.
Thực hiện phân tích chẩn đoán (diagnostic analysis) để đánh giá sự phù hợp của mô hình (ví dụ: sử dụng
rstandard()
,cooks.distance()
,qqnorm()
,plot()
,qresid()
).Chọn lựa mô hình (ví dụ: sử dụng
add1()
,drop1()
,step()
, AIC, BIC).Làm việc với các loại mô hình cụ thể như Tweedie GLMs (sử dụng các hàm và gói riêng).
Chương 2: Hồi quy tuyến tính
2.1 Giới thiệu tổng quan chương
Mô hình phổ biến nhất trong tất cả các mô hình hồi quy là mô hình hồi quy tuyến tính, được giới thiệu trong chương này. Chương này cũng giới thiệu hệ thống ký hiệu và ngôn ngữ được sử dụng trong toàn bộ cuốn sách, nhằm tạo nền tảng chung cho tất cả người đọc trước khi đi sâu vào nghiên cứu các mô hình tuyến tính tổng quát, trong đó mô hình hồi quy tuyến tính là một trường hợp đặc biệt.
Định nghĩa mô hình hồi quy tuyến tính (Mục 2.2)
Hồi quy tuyến tính đơn (Mục 2.3)
Ước lượng cho hồi quy tuyến tính bội (Mục 2.4)
Biểu diễn mô hình hồi quy tuyến tính dưới dạng ma trận (Mục 2.5)
Ước lượng mô hình hồi quy tuyến tính bằng R (Mục 2.6)
Diễn giải các hệ số hồi quy (Mục 2.7)
Suy luận trong mô hình hồi quy tuyến tính: kiểm định t (Mục 2.8)
Phân tích phương sai (ANOVA) cho mô hình hồi quy (Mục 2.9)
So sánh các mô hình lồng nhau (Mục 2.10)
Lựa chọn giữa các mô hình không lồng nhau: AIC và BIC (Mục 2.11)
Các công cụ hỗ trợ lựa chọn mô hình (Mục 2.12)
Nghiên cứu tình huống (Muc 2.13)
Sử dụng R để ước lượng mô hình hồi quy tuyến tính (Mục 2.14)
2.2 Định nghĩa mô hình hồi quy tuyến tính
Khái niệm: Hồi quy tuyến tính đơn giản là phương pháp thống kê dùng để mô tả mối quan hệ giữa một biến phản hồi (y) và một biến giải thích (x).
Mô hình: Mô hình hồi quy tuyến tính đơn giản có dạng:
\[ y_i = \beta_0 + \beta_1 x_{1i} + \beta_2 x_{2i} + \cdots + \beta_p x_{pi} + \varepsilon_i \]
Tham số mô hình:
Các tham số \(\beta_0\), \(\beta_1\), …, \(\beta_p\) (các tham số hồi quy) và phương sai sai số \(\sigma^2\) là chưa biết và phải được ước lượng từ dữ liệu.
Số lượng tham số hồi quy cho mô hình này là \(p' = p + 1\) (với \(p\) là số biến giải thích, và \(\beta_0\) là hệ số chặn).
\(\beta_0\) thường được gọi là hệ số chặn (intercept), là giá trị của \(y\) khi tất cả các biến giải thích bằng 0.
Các tham số \(\beta_1\), …, \(\beta_p\) đôi khi được gọi là độ dốc (slopes) cho các biến giải thích tương ứng.
Thành phần Hệ thống:
Giả định rằng giá trị kỳ vọng (expected value) của biến phản hồi \(E[y_i] = \mu_i\) có quan hệ tuyến tính với các biến giải thích.
Quan hệ này có dạng: \(\mu_i = \beta_0 + \sum_{j=1}^{p} \beta_j x_{ji}\).
Thành phần này còn được gọi là đoạn dự báo tuyến tính (linear predictor) khi xét trong các mô hình hồi quy tuyến tính tổng quát (GLMs).
2.3 Hồi quy tuyến tính đơn
1. Định nghĩa: Mô hình hồi quy tuyến tính đơn giản là mô hình hồi quy tuyến tính chỉ có một biến giải thích (\(x\) hoặc \(x_1\)). Điều này có nghĩa là mô hình có \(p = 1\) biến giải thích và \(p' = 2\) tham số hồi quy cần ước lượng (gồm hệ số chặn \(\beta_0\) và hệ số góc \(\beta_1\)).
2. Cấu trúc Mô hình:
Nó kế thừa cấu trúc hai thành phần của mô hình hồi quy tuyến tính nói chung.
Thành phần Hệ thống: Giá trị kỳ vọng của biến phản hồi \(E[y_i] = \mu_i\) có quan hệ tuyến tính với biến giải thích \(x_i\):
\[\mu_i = \beta_0 + \beta_1 x_i\]
- Thành phần Ngẫu nhiên: Giả định rằng các biến phản hồi \(y_i\) có phương sai không đổi \(\sigma^2\) hoặc phương sai tỷ lệ với các
trọng số ưu tiên dương đã biết \(w_i\);
tức là
\[\text{var}[y_i] = \frac{\sigma^2}{w_i}\]
3. Ước lượng Tham số:
Các tham số chưa biết (\(\beta_0\), \(\beta_1\)) được ước lượng bằng phương pháp bình phương tối thiểu (least squares).
Phương pháp này tìm các giá trị của \(\beta_0\) và \(\beta_1\) (được ký hiệu là \(\hat{\beta}_0\) và \(\hat{\beta}_1\)) để cực tiểu hóa tổng bình phương các sai lệch:
\[S = \sum_{i=1}^{n} w_i (y_i - \mu_i)^2\]Bằng cách giải các phương trình đạo hàm riêng của \(S\) theo \(\beta_0\) và \(\beta_1\) bằng 0, ta thu được các công thức tường minh cho \(\hat{\beta}_0\) và \(\hat{\beta}_1\).
Các ước lượng bình phương tối thiểu \(\hat{\beta}_0\) và \(\hat{\beta}_1\) có thể được chứng minh là các ước lượng không chệch (unbiased estimators) cho \(\beta_0\) và \(\beta_1\).
Các giá trị dự báo (fitted values) được tính là
\[\hat{\mu}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i\]
4. Ước lượng Phương sai Sai số (\(\sigma^2\)):
- Tổng bình phương sai số dư (residual sum-of-squares - rss) được tính tại các ước lượng bình phương tối thiểu:
\[\text{rss} = \sum_{i=1}^{n} w_i (y_i - \hat{\mu}_i)^2\]
- Một ước lượng không chệch của \(\sigma^2\) là
\[s^2 = \frac{\text{rss}}{n - p'}\]
Trong trường hợp hồi quy tuyến tính đơn giản, \(p' = 2\), nên ước lượng là
\[s^2 = \frac{\text{rss}}{n - 2}\]
5. Sai số Chuẩn (Standard Errors):
Sau khi ước lượng \(\sigma^2\) bằng \(s^2\), ta có thể ước lượng phương sai (\(\widehat{\text{var}}\)) của các ước lượng tham số (\(\hat{\beta}_0\), \(\hat{\beta}_1\)).
Sai số chuẩn (\(se\)) của một ước lượng tham số (\(\hat{\beta}_j\)) là căn bậc hai của phương sai ước lượng của nó (\(\widehat{\text{var}}[\hat{\beta}_j]\)). Các công thức cho phương sai của \(\hat{\beta}_0\) và \(\hat{\beta}_1\) trong hồi quy tuyến tính đơn giản được cung cấp trong nguồn.
6. Ý nghĩa của Tham số:
\(\beta_0\) là hệ số chặn (intercept), thể hiện giá trị kỳ vọng của biến phản hồi khi biến giải thích bằng 0.
\(\beta_1\) là hệ số góc (slope), thể hiện sự thay đổi trung bình của biến phản hồi khi biến giải thích tăng thêm một đơn vị.
7. Trường hợp Đặc biệt: Khi tất cả các trọng số ưu tiên \(w_i\) được đặt bằng một, mô hình hồi quy tuyến tính đơn giản được gọi là mô hình hồi quy tuyến tính thông thường (ordinary simple linear regression model).
8. Công thức Ma trận: Mặc dù có các công thức tường minh, hồi quy tuyến tính đơn giản cũng có thể được biểu diễn và ước lượng bằng công thức ma trận, đặc biệt khi các trọng số được đưa vào.
9. Chẩn đoán Mô hình: Một số khái niệm chẩn đoán, như đòn bẩy (leverage) và biểu đồ sai số dư bán phần (partial residual plot), có dạng đơn giản hơn trong trường hợp hồi quy tuyến tính đơn giản.
2.4 Ước lượng cho hồi quy tuyến tính bội
1. Phương pháp Ước lượng: Tương tự như hồi
quy tuyến tính đơn giản, các tham số chưa biết (\(\beta_j\)) được ước lượng bằng cách sử dụng
phương pháp bình phương tối thiểu (least squares). Phương pháp này nhằm
mục đích cực tiểu hóa tổng bình phương các sai lệch giữa các quan sát
(\(y_i\)) và giá trị trung bình mô hình
(\(\mu_i\)). Tổng bình phương các sai
lệch được định nghĩa là
\[S = \sum_{i=1}^{n} w_i (y_i -
\mu_i)^2,\]
trong đó
\[\mu_i = \beta_0 + \sum_{j=1}^{p} \beta_j
x_{ji}.\]
2. Ước lượng Hệ số:
Các ước lượng bình phương tối thiểu cho \(\beta_j\) (ký hiệu \(\hat{\beta}_j\)) được tìm thấy.
Các công thức cho \(\hat{\beta}_j\) được cung cấp, trong đó có sử dụng biến giải thích đã điều chỉnh (\(x^*_{ij}\)). Biến \(x^*_{ij}\) là phần của biến giải thích \(x_j\) không thể giải thích được bằng hồi quy trên tất cả các biến giải thích khác (trừ chính nó).
Các giá trị dự báo (fitted values) được tính bằng cách sử dụng các ước lượng hệ số này:
\[\hat{\mu}_i = \hat{\beta}_0 + \sum_{j=1}^{p} \hat{\beta}_j x_{ji}.\]
- Các sai số dư (residuals) là độ lệch của các phản hồi từ các giá trị dự báo:
\[r_i = y_i - \hat{\mu}_i.\]
3. Ước lượng Phương sai Sai số:
- Tổng bình phương sai số dư (residual sum-of-squares - rss) được tính bằng cách lấy tổng bình phương các sai lệch giữa các quan sát và các giá trị dự báo:
\[\text{rss} = \sum_{i=1}^{n} w_i (y_i - \hat{\mu}_i)^2.\]
Bậc tự do sai số dư (residual degrees of freedom) liên quan đến rss là \(n - p'\). \(n\) là số lượng quan sát, và \(p'\) là số lượng hệ số hồi quy đã được ước lượng. Việc ước lượng mỗi hệ số được xem như “sử dụng hết” giá trị tương đương với một quan sát.
Một ước lượng không chệch của \(\sigma^2\) (ký hiệu \(s^2\)) thu được bằng cách chia rss cho bậc tự do sai số dư:
\[s^2 = \frac{\text{rss}}{n - p'}.\]
Đây là ước lượng gần như luôn được sử dụng trong thực tế.
4. Sai số Chuẩn:
Phần này đề cập đến việc tính toán sai số chuẩn của các ước lượng hệ số (\(se(\hat{\beta}_j)\)).
Một khái niệm được giới thiệu là \(I^*_j\), là tổng bình phương của biến giải thích thứ \(j\) đã điều chỉnh cho các biến khác. \(I^*_j\) là thước đo mức độ “đòn bẩy” (leverage) của mô hình để ước lượng hệ số thứ \(j\). Giá trị \(I^*_j\) có xu hướng lớn hơn khi \(x_j\) độc lập với các biến giải thích khác và nhỏ hơn khi \(x_j\) tương quan với một hoặc nhiều biến khác.
Giá trị này \(I^*_j\) liên quan đến phương sai của hệ số thứ \(j\). (Lưu ý: Công thức ma trận để ước lượng phương sai của \(\hat{\beta}\) và tính sai số chuẩn được trình bày chi tiết hơn trong Mục 2.5.4).
2.5 Biểu diễn mô hình hồi quy tuyến tính dưới dạng ma trận
1. Ký hiệu ma trận:
Biến phản hồi \(y\) được biểu diễn bằng một vector cột \(n \times 1\).
Các biến giải thích \((x_1, ..., x_p)\) cùng với cột cho hệ số chặn (thường là một cột chứa toàn số 1) được tổ chức thành một ma trận thiết kế (hoặc ma trận mô hình) \(X\), có kích thước \(n \times p'\), trong đó \(p'\) là tổng số hệ số hồi quy cần ước lượng (thường là \(p + 1\)).
Các hệ số hồi quy \((\beta_0, \beta_1, ..., \beta_p)\) được nhóm lại thành một vector cột \(\beta\) có kích thước \(p' \times 1\).
Các trọng số ưu tiên đã biết (\(w_i\)) được đưa vào một ma trận đường chéo \(W\), có kích thước \(n \times n\). Khi tất cả các trọng số bằng một, \(W\) là ma trận đơn vị \(I_n\).
2. Biểu diễn mô hình bằng ma trận:
Giá trị kỳ vọng của biến phản hồi: \(E[y] = \mu = X\beta\).
Ma trận hiệp phương sai của biến phản hồi: \(\mathrm{var}[y] = W^{-1}\sigma^2\).
3. Ước lượng hệ số (\(\hat{\beta}\)):
Mục tiêu của ước lượng bình phương tối thiểu là cực tiểu hóa tổng bình phương các sai lệch:
\[S = \sum_{i=1}^{n} w_i (y_i - \mu_i)^2.\]
Trong dạng ma trận, điều này tương đương với việc cực tiểu hóa:
\[S = (y - X\beta)^T W (y - X\beta).\]
Bằng cách tính đạo hàm của \(S\) theo \(\beta\) và đặt bằng 0, ta thu được công thức ma trận cho ước lượng bình phương tối thiểu của \(\beta\):
\[\hat{\beta} = (X^T W X)^{-1} X^T W y.\]
Công thức ma trận này tương đương với các biểu thức phi ma trận đã trình bày cho hồi quy đơn giản và bội.
\(\hat{\beta}\) là một ước lượng không chệch cho \(\beta\).
Các giá trị dự báo (fitted values) được tính bằng ma trận là:
\[\hat{\mu} = X\hat{\beta}.\]
4. Ước lượng phương sai sai số (\(\sigma^2\)):
Tổng bình phương sai số dư (rss) có thể được tính bằng ma trận tại các ước lượng \(\hat{\beta}\):
\[\text{rss} = (y - \hat{\mu})^T W (y - \hat{\mu}).\]Ước lượng không chệch của \(\sigma^2\), ký hiệu \(s^2\), được tính bằng cách chia rss cho bậc tự do sai số dư \((n - p')\):
\[s^2 = \frac{\text{rss}}{n - p'} = \frac{(y - \hat{\mu})^T W (y - \hat{\mu})}{n - p'}.\]
5. Ước lượng phương sai của \(\hat{\beta}\):
Ma trận hiệp phương sai của ước lượng hệ số \(\hat{\beta}\) được cho bởi công thức:
\[\mathrm{var}[\hat{\beta}] = (X^T W X)^{-1} \sigma^2.\]
Ước lượng của ma trận hiệp phương sai này được tìm thấy bằng cách thay thế \(\sigma^2\) bằng \(s^2\):
\[\hat{\mathrm{var}}[\hat{\beta}] = (X^T W X)^{-1} s^2.\]Sai số chuẩn (standard errors) của từng hệ số \(\hat{\beta}_j\) là căn bậc hai của các phần tử đường chéo trên ma trận \(\hat{\mathrm{var}}[\hat{\beta}]\).
6. Ma trận Hat (Hat matrix):
Ma trận hat \(H\) có công thức:
\[H = W^{1/2} X (X^T W X)^{-1} X^T W^{1/2}.\]Các phần tử đường chéo của \(H\) (\(h_i\)) được gọi là đòn bẩy (leverages), đo lường ảnh hưởng của từng quan sát lên giá trị dự báo của chính nó.
7. Tính toán trong thực tế:
Mặc dù công thức \(\hat{\beta} = (X^T W X)^{-1} X^T W y\) bao gồm phép nghịch đảo ma trận, các thuật toán tính toán hiệu quả trong các phần mềm như R (sử dụng hàm
lm()
) không trực tiếp thực hiện phép nghịch đảo tường minh.Thay vào đó, chúng giải hệ phương trình tuyến tính \(X^T W X \hat{\beta} = X^T W y\) hoặc sử dụng các phương pháp ổn định hơn như phân tích QR để tính toán \(\hat{\beta}\) và các kết quả hồi quy khác.
R cung cấp các hàm như
model.matrix()
để xây dựng ma trận \(X\) và các hàm nhưt()
,%*%
,solve()
để thực hiện các phép tính ma trận.
2.6 Ước lượng mô hình hồi quy tuyến tính bằng R
Hàm
lm()
: Hàm chính để khớp các mô hình hồi quy tuyến tính trong R làlm()
.Cú pháp cơ bản: Việc sử dụng cơ bản hàm
lm()
yêu cầu chỉ định biến phản hồi và các biến giải thích. Điều này được thực hiện thông qua một công thức mô hình. Công thức có dạng:
biến_phản_hồi ~ biến_giải_thích_1 + biến_giải_thích_2 +
…
Đối số
data
: Được sử dụng để chỉ định data frame chứa các biến được sử dụng trong mô hình.Đối số
weights
: Trọng số ưu tiên (\(w_i\)) có thể được cung cấp bằng đối sốweights
. Nếu đối số này bị bỏ qua, tất cả các trọng số được đặt bằng một, tương ứng với mô hình hồi quy tuyến tính thông thường.Đối số
subset
: Có thể khớp mô hình với một tập con của dữ liệu bằng cách sử dụng đối sốsubset
.Kết quả đầu ra: Hàm
lm()
trả về một đối tượng chứa nhiều thông tin về mô hình đã khớp, bao gồm các ước lượng hệ số, sai số dư, giá trị dự báo (fitted values), v.v..Các hàm hữu ích đi kèm: Có nhiều hàm R khác được sử dụng để làm việc với đối tượng
lm
đã khớp:summary(fit)
: In ra tóm tắt của mô hình, bao gồm ước lượng tham số, sai số chuẩn, thống kê t, giá trị P, ước lượng của \(\sigma\) (s), giá trị \(R^2\) và kết quả kiểm định ANOVA tổng thể.coef(fit)
: Trích xuất các ước lượng tham số và sai số chuẩn tương ứng.anova(fit)
: Tạo bảng ANOVA kiểm định tuần tự ý nghĩa của từng biến giải thích khi nó được thêm vào mô hình, hoặc để so sánh một tập hợp các mô hình lồng nhau (nested models).extractAIC(fit)
: Trả về số lượng tham số hồi quy đã ước lượng và giá trị AIC (hoặc BIC nếu chỉ địnhk = log(nobs(fit))
) cho mô hình.fitted(fit)
: Trích xuất các giá trị dự báo (\(\hat{\mu}\)).hatvalues(fit)
: Trích xuất các đòn bẩy (leverages – \(h\)).abline(coef(fit))
: Vẽ thành phần hệ thống (đường hồi quy) cho mô hình hồi quy tuyến tính đơn giản lên biểu đồ hiện tại.Các hàm chẩn đoán khác như
cooks.distance()
,dfbetas()
,dffits()
,covratio()
cũng có thể được sử dụng với các đối tượnglm
.
2.7 Diễn giải các hệ số hồi quy
Ý nghĩa của hệ số chặn (β̂0): Hệ số chặn (β̂0) là ước lượng của β0, là giá trị dự kiến của biến phản hồi (y) khi tất cả các biến giải thích khác (x1, …, xp) bằng không.
Ý nghĩa của hệ số dốc (β̂j cho j > 0): Các ước lượng hệ số dốc (β̂j) là ước lượng của βj (đôi khi được gọi là “độ dốc” cho biến giải thích tương ứng). β̂j biểu thị sự thay đổi dự kiến trong giá trị trung bình của biến phản hồi (μ) khi biến giải thích tương ứng (xj) tăng thêm một đơn vị, trong khi tất cả các biến giải thích khác được giữ không đổi.
Đơn vị: Việc giải thích cần xem xét đơn vị của cả biến phản hồi và các biến giải thích.
Biến đổi biến phản hồi: Nếu biến phản hồi được biến đổi (ví dụ: sử dụng logarit), việc giải thích hệ số dốc trên thang đo đã biến đổi sẽ liên quan đến một sự thay đổi nhân trên thang đo gốc. Ví dụ, nếu E[log y] = β0 + β1x, thì việc tăng x thêm một đơn vị tương ứng (xấp xỉ) với việc thay đổi μ = E[y] bằng một nhân tử exp(β1).
2.8 Suy luận trong mô hình hồi quy tuyến tính: kiểm định t
1. Giả định về Phân phối Chuẩn:
Giả định bổ sung rằng các phản hồi \(y_i\) được phân phối chuẩn, hoặc có phương sai tỷ lệ với các trọng số đã biết \(w_i\). Điều này được biểu diễn là
\[ y_i \sim \mathcal{N}(\mu_i, \sigma^2 / w_i). \]
2. Tầm quan trọng của Giả định Chuẩn:
Giả định chuẩn cho phép phát triển các kiểm định và khoảng tin cậy
hợp lệ cho cỡ mẫu nhỏ.
Đối với cỡ mẫu lớn (n lớn) và không có điểm ngoại lệ nghiêm trọng, kiểm
định t và F vẫn hoạt động tốt ngay cả khi phần dư không phân phối
chuẩn.
Giả định chuẩn là quan trọng nhất với cỡ mẫu nhỏ, mặc dù đánh giá tính
chuẩn khi đó khó khăn.
3. Kiểm định Giả thuyết cho Hệ số \(\beta_j\):
Mục tiêu là kiểm định các giả thuyết về từng hệ số hồi quy riêng lẻ (\(\beta_j\)).
Giả thuyết không phổ biến nhất là:
\[ H_0: \beta_j = \beta_{0j} \] trong đó \(\beta_{0j}\) là một giá trị giả định (thường là 0), chống lại giả thuyết đối một phía hoặc hai phía.Thống kê kiểm định: \[ T = \frac{\hat{\beta}_j - \beta_{0j}}{se(\hat{\beta}_j)} \]
Khi \(H_0\) đúng và \(\sigma^2\) chưa biết, thống kê \(T\) tuân theo phân phối \(t\) với \(n - p'\) bậc tự do (trong đó \(p'\) là số tham số được ước lượng).
Ý nghĩa thống kê (P-value) được xác định bằng cách so sánh giá trị \(T\) tính được với phân phối \(t\) tương ứng. Mỗi kiểm định \(t\) xác định xem có bằng chứng cho thấy tham số khác biệt đáng kể so với \(\beta_{0j}\) khi có mặt các biến khác trong mô hình hay không.
4. Mối liên hệ giữa Kiểm định t và Kiểm định F (ANOVA)
Kiểm định \(t\) luôn điều chỉnh cho tất cả các biến khác trong mô hình cuối cùng.
Kiểm định \(F\) trong bảng ANOVA tuần tự kiểm định ý nghĩa của một biến sau khi đã thêm các biến khác theo thứ tự nhất định.
Kiểm định \(F\) cuối cùng nếu có 1 bậc tự do tương đương với kiểm định \(t\) hai phía tương ứng: \[ F = t^2 \quad \text{(với cùng bậc tự do)} \]
5. Khoảng tin cậy cho Hệ số (\(\beta_j\)):
- Khoảng tin cậy \((1-\alpha)100\%\) cho \(\beta_j\) được tính bằng:
\[ \hat{\beta}_j \pm t^*_{\alpha/2, n - p'} \cdot se(\hat{\beta}_j) \]
- \(t^*_{\alpha/2, n - p'}\) là giá trị tới hạn từ phân phối \(t\) với \(n - p'\) bậc tự do.
6. Khoảng tin cậy cho Giá trị Dự báo Trung bình (\(\hat{\mu}\)):
Khoảng tin cậy cũng có thể được xây dựng cho giá trị trung bình của phản hồi tại các giá trị biến giải thích cụ thể.
Công thức:
\[ \hat{\mu} \pm t^*_{\alpha/2, n - p'} \cdot se(\hat{\mu}) \]
- Nếu biến phản hồi hoặc trung bình được biến đổi (vd: \(\log(\text{FEV})\)), khoảng tin cậy được tính trên thang đo đã biến đổi và sau đó chuyển ngược về thang đo gốc. Khoảng tin cậy khi đó sẽ không đối xứng trên thang đo gốc.
7. Thực hiện trong R:
Hàm
summary()
áp dụng cho đối tượnglm
được khớp trong R cung cấp bảng tóm tắt bao gồm các ước lượng hệ số \((\hat{\beta}_j)\), sai số chuẩn \(\mathrm{se}(\hat{\beta}_j)\), thống kê t, và giá trị P hai phía để kiểm định \(H_0: \beta_j = 0\). Hàmcoef(summary())
có thể trích xuất trực tiếp bảng này.Hàm
predict()
với đối sốse.fit=TRUE
có thể tính toán các ước lượng giá trị trung bình (μ̂) và sai số chuẩn của chúng.Hàm
confint()
tính toán khoảng tin cậy Wald cho các hệ số.
2.9 Phân tích phương sai (ANOVA) cho mô hình hồi quy
1. Nguyên tắc cơ bản: Phân tách biến thiên
Mục tiêu chính của ANOVA trong hồi quy là phân tích nguồn gốc của sự biến thiên trong biến phản hồi (\(y\)).
Mỗi quan sát (\(y_i\)) có thể được tách thành hai thành phần: một thành phần được mô hình dự báo (\(\hat{\mu}_i\)) và phần dư còn lại (\(y_i - \hat{\mu}_i\)). Công thức là: Dữ liệu = Phù hợp (Fit) + Phần dư (Residual).
Để đánh giá đóng góp của các biến giải thích, việc phân tách biến thiên của dữ liệu đã được điều chỉnh theo trung bình (\(y_i - \bar{y}_w\)) là hữu ích hơn.
2. Phân rã Tổng bình phương (Sums of Squares - SS)
Nguyên tắc phân tách biến thiên dẫn đến một đẳng thức quan trọng dựa trên tổng bình phương các độ lệch đã được nhân trọng số (nếu có): \(sst = ssReg + rss\).
sst (Total Sum of Squares - Tổng bình phương toàn bộ): Đo lường tổng biến thiên trong biến phản hồi (y) xung quanh trung bình có trọng số (\(\bar{y}_w\)) của nó. Công thức: \(\sum w_i(y_i − \bar{y}_w)^2\). Bậc tự do (df) là \(n - 1\) (n là số quan sát).
ssReg (Regression Sum of Squares - Tổng bình phương hồi quy): Đo lường biến thiên được giải thích bởi thành phần hệ thống của mô hình (các giá trị dự báo \(\hat{\mu}_i\)) xung quanh trung bình có trọng số (\(\bar{y}_w\)). Nó thể hiện sự đóng góp của các biến giải thích. Công thức: \(\sum w_i(\hat{\mu}_i − \bar{y}_w)^2\). Bậc tự do là \(p' - 1\) (\(p'\) là số lượng tham số được ước lượng, trừ đi hệ số chặn).
rss (Residual Sum of Squares - Tổng bình phương phần dư): Đo lường biến thiên không được giải thích bởi mô hình (các phần dư \(y_i - \hat{\mu}_i\)). Đây là phần biến thiên ngẫu nhiên không thể dự đoán được. Công thức: \(\sum w_i(y_i − \hat{\mu}_i)^2\). Bậc tự do là \(n - p'\), được gọi là bậc tự do phần dư.
Đẳng thức \(sst = ssReg + rss\) là cơ sở của phân tích phương sai, vì nó phân tích các nguồn gốc của sự biến thiên trong dữ liệu.
3. Kiểm định F (F-test) cho Mô hình Tổng thể
ANOVA sử dụng kiểm định F để đánh giá ý nghĩa thống kê của mô hình hồi quy như một tổng thể. Nó so sánh biến thiên do thành phần hệ thống (được giải thích bởi mô hình) với biến thiên do thành phần ngẫu nhiên (phần dư).
Mean Square (Bình phương trung bình): Được tính bằng cách chia Tổng bình phương cho bậc tự do tương ứng.
msReg (Mean Square Regression): \(ssReg / (p' - 1)\).
mse (Mean Square Error): \(rss / (n - p')\). Giá trị này bằng \(s^2\), ước lượng không chệch của phương sai ngẫu nhiên \(\sigma^2\).
Thống kê F: Tỷ lệ của \(msReg\) trên \(mse\): \(F = msReg / mse\).
Nếu mô hình hồi quy tuyến tính thông thường (normal linear regression model) được sử dụng (với giả định các phản hồi được phân phối chuẩn hoặc có phương sai tỷ lệ với trọng số đã biết), và giả thuyết không (\(H_0\)) cho rằng tất cả các hệ số hồi quy (trừ hệ số chặn) bằng 0 là đúng, thì thống kê F tuân theo phân phối F với \((p' - 1, n - p')\) bậc tự do.
Một giá trị F lớn cho thấy tỷ lệ biến thiên được giải thích bởi thành phần hệ thống là lớn so với biến thiên ngẫu nhiên, ngụ ý rằng mô hình có ý nghĩa thống kê.
4. Bảng ANOVA (ANOVA Table)
Các kết quả tính toán được sắp xếp thuận tiện trong một bảng ANOVA. Bảng này thường bao gồm các cột: Nguồn biến thiên (Source of variation), Tổng bình phương (Sums of squares - ss), Bậc tự do (df), Bình phương trung bình (Mean square - ms), và Thống kê F.
Trong R, hàm
summary()
cho đối tượnglm
sẽ hiển thị thông tin tóm tắt về kiểm định F tổng thể ở cuối output, bao gồm thống kê F, bậc tự do tương ứng và giá trị P.
5. Phân tích Phương sai Tuần tự (Sequential Analysis of Variance)
Ngoài kiểm định F tổng thể, ANOVA còn có thể được sử dụng để kiểm định ý nghĩa thống kê của từng biến giải thích khi nó được thêm vào mô hình theo một trình tự nhất định.
Hàm
anova()
áp dụng cho một đối tượnglm
duy nhất trong R sẽ tạo ra bảng ANOVA tuần tự này. Nó hiển thị sự thay đổi trong tổng bình phương phần dư (tức là ss được giải thích bởi biến mới) và bậc tự do tương ứng khi mỗi biến được thêm vào.Kết quả từ bảng ANOVA tuần tự có thể khác với kiểm định t cho từng hệ số riêng lẻ, vì kiểm định F trong ANOVA tuần tự kiểm định biến sau khi đã thêm các biến trước đó trong trình tự.
6. So sánh các Mô hình Lồng nhau (Nested Models)
ANOVA cũng là công cụ chính để so sánh hai mô hình hồi quy tuyến tính lồng nhau.
Mô hình A được coi là lồng trong Mô hình B nếu Mô hình A có thể thu được từ Mô hình B bằng cách đặt một hoặc nhiều tham số trong Mô hình B bằng 0 (hoặc tổng quát hơn là Mô hình A là trường hợp đặc biệt của Mô hình B).
Kiểm định F được sử dụng để xác định xem việc thêm các biến giải thích từ Mô hình A vào Mô hình B có làm giảm đáng kể tổng bình phương phần dư (rss) hay không.
Thống kê kiểm định F cho việc so sánh hai mô hình lồng nhau là
\[ F = \frac{(rss_A − rss_B) / (p'_B − p'_A)}{rss_B / (n − p'_B)}. \] \(rss_A\) và \(rss_B\) là tổng bình phương phần dư của Mô hình A và B; \(p'_A\) và \(p'_B\) là số tham số của Mô hình A và B. Bậc tự do của kiểm định F này là \((p'_B - p'_A, n - p'_B)\).Hàm
anova()
trong R cũng được sử dụng để so sánh các mô hình lồng nhau bằng cách cung cấp nhiều đối tượnglm
làm input (anova(fit1, fit2, ...)
). Các mô hình sẽ được kiểm định theo trình tự được chỉ định.
7. Hệ số xác định (R²) và R² điều chỉnh (Adjusted R²)
Phần trăm tổng biến thiên được giải thích bởi mô hình hồi quy được đo bằng hệ số xác định, ký hiệu là \(R^2\) (multiple R²). Công thức:
\[ R^2 = \frac{ssReg}{sst}. \]
R² điều chỉnh (\(\bar{R}^2\)) là phiên bản sửa đổi của \(R^2\) có tính đến số lượng biến giải thích trong mô hình.
2.10 So sánh các mô hình lồng nhau
1. Định nghĩa Mô hình Lồng nhau
- Mô hình A được gọi là lồng trong Mô hình B nếu Mô hình A có thể thu được từ Mô hình B bằng cách đặt một hoặc nhiều tham số trong Mô hình B bằng 0. Nói cách khác, Mô hình A là một trường hợp đặc biệt của Mô hình B.
- Mô hình B phức tạp hơn (có nhiều biến giải thích/tham số hơn) so với Mô hình A.
2. Mục đích so sánh
- Mục tiêu là để xác định xem mô hình phức tạp hơn (Mô hình B) có thực sự cần thiết hay mô hình đơn giản hơn (Mô hình A) là đủ để mô tả dữ liệu.
- Điều này thường được thực hiện bằng cách kiểm định giả thuyết không (\(H_0\)) rằng các tham số bổ sung trong Mô hình B (các tham số bị đặt bằng 0 để thu được Mô hình A) đều bằng 0.
3. Cách so sánh
- Trong hồi quy tuyến tính thông thường: Việc so sánh hai mô hình lồng nhau được thực hiện bằng cách sử dụng kiểm định F dựa trên sự khác biệt về Tổng bình phương phần dư (rss). Thống kê F so sánh sự giảm rss do việc thêm các biến vào mô hình (chuyển từ Mô hình A sang B) với phương sai ngẫu nhiên ước lượng từ mô hình phức tạp hơn (Mô hình B).
- Trong Mô hình Hồi quy Tuyến tính Tổng quát (GLM):
Việc so sánh được thực hiện bằng kiểm định tỷ số khả năng (Likelihood
Ratio Tests).
- Nếu tham số phân tán (\(\phi\)) được biết (ví dụ: trong phân phối Poisson hoặc Binomial), thống kê kiểm định dựa trên sự khác biệt của deviance phần dư (residual deviance) và xấp xỉ theo phân phối Chi bình phương (\(\chi^2\)).
- Nếu tham số phân tán (\(\phi\)) không biết và được ước lượng (ví dụ: trong phân phối Normal, Gamma, hoặc các mô hình quasi-Poisson/binomial), thống kê kiểm định sẽ theo phân phối F. Thống kê F này tương tự như trong hồi quy tuyến tính thông thường, sử dụng sự khác biệt deviance thay cho sự khác biệt rss và một ước lượng phù hợp cho \(\phi\).
- Kết quả so sánh thường được trình bày trong bảng phân tích phương sai (ANOVA table) cho hồi quy tuyến tính hoặc bảng phân tích deviance (Analysis of Deviance table) cho GLMs.
4. Phân tích Phương sai Tuần tự (Sequential Analysis of Variance)
- Đây là một trường hợp đặc biệt của việc so sánh mô hình lồng nhau, trong đó một chuỗi các mô hình lồng nhau được so sánh lần lượt, thường bằng cách thêm từng biến giải thích một vào mô hình theo một trình tự nhất định.
- Thứ tự các biến được thêm vào mô hình là quan trọng, vì kiểm định F cho mỗi biến được điều chỉnh cho tất cả các biến đã có trong mô hình ở các bước trước đó.
5. Công cụ trong R
- Hàm
anova()
được sử dụng để thực hiện các kiểm định này. Khi cung cấp nhiều mô hình (lồng nhau) choanova(fit1, fit2, ...)
, nó sẽ so sánh các mô hình đó theo trình tự đã cho. Với GLMs, có thể chỉ địnhtest="F"
hoặctest="Chisq"
.
6. Lưu ý quan trọng
- Các phương pháp kiểm định này chỉ áp dụng khi các mô hình được so sánh là lồng nhau. Đối với các mô hình không lồng nhau, các tiêu chí như AIC và BIC được sử dụng để so sánh.
2.11 Lựa chọn giữa các mô hình không lồng nhau: AIC và BIC
1. Lý do cần phương pháp khác
- Các phương pháp kiểm định giả thuyết dựa trên phân tích phương sai (Analysis of Variance) hoặc phân tích deviance (Analysis of Deviance), chẳng hạn như kiểm định F (F-tests) hoặc kiểm định tỷ số khả năng (Likelihood Ratio Tests), chỉ áp dụng khi các mô hình được so sánh là mô hình lồng nhau (nested models).
- Khi các nhà nghiên cứu muốn so sánh các mô hình không lồng nhau, các phương pháp kiểm định truyền thống này không phù hợp.
2. Nguyên tắc so sánh
- Các tiêu chí như AIC và BIC được đưa ra để so sánh các mô hình không nhất thiết phải lồng nhau.
- Việc lựa chọn mô hình thống kê thường dựa trên hai tiêu chí chính:
độ chính xác (accuracy) và tính tiết kiệm (parsimony) (sự đơn giản).
- Tổng bình phương phần dư (rss) chỉ đo lường độ chính xác. Việc thêm một biến giải thích mới vào mô hình không bao giờ làm rss tăng lên, và hầu như luôn làm nó nhỏ hơn. Tuy nhiên, việc thêm nhiều biến làm giảm rss nhưng lại tạo ra một mô hình phức tạp hơn (kém tiết kiệm hơn).
- AIC và BIC cân bằng hai tiêu chí này.
3. Tiêu chí AIC (Akaike’s Information Criterion)
- AIC cân bằng độ chính xác (đo bằng rss hoặc log-likelihood) với độ phức tạp của mô hình (đo bằng số lượng tham số ước lượng).
- Đối với mô hình hồi quy tuyến tính thông thường (khi \(\sigma^2\) chưa biết), công thức cơ bản là: \[ aic = n \log(rss/n) + 2p' \]
- Định nghĩa tổng quát hơn (dựa trên log-likelihood): \[ aic = -2 \times \text{log-likelihood} + 2 \times (\text{Số lượng tham số chưa biết}) \]
- Số 2 nhân với số tham số trong công thức là yếu tố phạt (penalty), phạt các mô hình phức tạp hơn (có \(p'\) lớn hơn).
- Giá trị AIC nhỏ hơn (càng gần \(-\infty\)) đại diện cho mô hình tốt hơn.
- AIC tập trung nhiều hơn vào việc tạo ra một mô hình để đưa ra dự đoán tốt (prediction). Nó có thể bao gồm thêm các biến giải thích nếu chúng có khả năng giúp ích cho việc dự đoán, ngay cả khi bằng chứng về tầm quan trọng của chúng chưa thực sự thuyết phục.
- Bản thân giá trị AIC không có ý nghĩa; nó chỉ hữu ích để so sánh giữa các mô hình.
4. Tiêu chí BIC (Bayesian Information Criterion) / Schwarz’s criterion
- Tương tự như AIC, BIC cũng cân bằng độ chính xác và độ phức tạp.
- Đối với mô hình hồi quy tuyến tính thông thường (khi \(\sigma^2\) chưa biết), công thức cơ bản là: \[ bic = n \log(rss/n) + p' \log n \]
- Định nghĩa tổng quát hơn (dựa trên log-likelihood): \[ bic = -2 \times \text{log-likelihood} + (\log n) \times (\text{Số lượng tham số chưa biết}) \]
- Yếu tố phạt cho BIC là \(\log n\). Trừ khi số lượng quan sát (\(n\)) rất nhỏ, \(\log n\) thường lớn hơn 2.
- BIC có xu hướng chọn các mô hình có chiều thấp hơn (đơn giản hơn/tiết kiệm hơn) so với AIC. Điều này là do yếu tố phạt cho các tham số bổ sung của BIC nghiêm khắc hơn.
- BIC đòi hỏi bằng chứng mạnh mẽ hơn để đưa một biến giải thích vào mô hình, do đó nó tạo ra các mô hình đơn giản hơn, dễ giải thích hơn.
- AIC hướng hoàn toàn vào mục đích dự đoán, trong khi BIC là sự thỏa hiệp giữa giải thích (interpretation) và dự đoán.
- Giá trị BIC nhỏ hơn (càng gần \(-\infty\)) đại diện cho mô hình tốt hơn.
5. Đối với Mô hình Hồi quy Tuyến tính Tổng quát (GLMs)
- AIC và BIC cũng có thể được sử dụng để so sánh các GLMs không lồng nhau.
- Các định nghĩa dựa trên log-likelihood (\(aic = -2 \times \text{log-likelihood} + 2p'\) và \(bic = -2 \times \text{log-likelihood} + (\log n)p'\)) được áp dụng.
- Khi tham số phân tán (\(\phi\)) chưa biết, các công thức được điều chỉnh để tính thêm tham số này: \[ aic = -2 \times \text{log-likelihood} + 2(p' + 1) \] \[ bic = -2 \times \text{log-likelihood} + (\log n)(p' + 1) \] trong đó \(p'\) là số tham số hồi quy, và \(p'+1\) tính cả \(\hat{\phi}\).
- Trong R, AIC và BIC cho GLMs được tính bằng hàm
AIC()
vàBIC()
, hoặcextractAIC()
. Tuy nhiên, khi \(\phi\) được ước lượng, giá trị AIC tính được chỉ là gần đúng. - Lưu ý: AIC không được định nghĩa cho các mô hình quasi- (ví dụ: quasi-Poisson, quasi-binomial) vì chúng không dựa trên một mô hình xác suất đầy đủ.
6. Hạn chế
- Cả AIC và BIC đều không phải là các phương pháp kiểm định chính thức, vì vậy chúng không tạo ra các thống kê kiểm định hoặc giá trị P (P-values). Chúng chỉ là các tiêu chí để hỗ trợ việc lựa chọn và so sánh mô hình.
7. Công cụ trong R
- Các hàm như
extractAIC()
,AIC()
,BIC()
được sử dụng để tính các tiêu chí này. Hàmstep()
trong R sử dụng AIC (mặc định) hoặc BIC để tự động hóa quá trình lựa chọn biến cho cả mô hình hồi quy tuyến tính và GLMs.
2.12 Các công cụ hỗ trợ lựa chọn mô hình
Các công cụ chính được thảo luận, đặc biệt là trong phần mềm R, bao gồm:
add1()
: Hàm này khám phá tác động của việc thêm từng biến giải thích một vào mô hình hiện tại.drop1()
: Hàm này khám phá tác động của việc bỏ từng biến giải thích một khỏi mô hình hiện tại.- Đối với GLMs,
drop1()
vàadd1()
có thể hiển thị kết quả kiểm định F hoặc \(\chi^2\) bằng cách sử dụng đối sốtest
.
- Đối với GLMs,
step()
: Hàm này tự động hóa quá trình lựa chọn mô hình bằng cách lặp lại việc sử dụngadd1()
vàdrop1()
. Nó có thể thực hiện ba loại thủ tục tự động phổ biến:- Forward regression (Hồi quy tiến): Bắt đầu với một mô hình tối thiểu (ví dụ: chỉ có hệ số chặn) và lần lượt thêm các biến giải thích.
- Backward elimination (Loại bỏ lùi): Bắt đầu với một mô hình tối đa (chứa tất cả các biến tiềm năng) và lần lượt bỏ các biến.
- Stepwise regression (Hồi quy từng bước): Kết hợp cả việc thêm và bớt biến.
- Hàm
step()
mặc định dựa trên giá trị của tiêu chí AIC (Akaike’s Information Criterion) để đưa ra quyết định lựa chọn mô hình. Có thể thay đổi để sử dụng tiêu chí BIC (Bayesian Information Criterion) bằng cách thiết lập đối sốk=log(nobs(fit))
. - Để sử dụng
step()
, cần chỉ định phạm vi các mô hình cần xem xét (mô hình tối thiểu và mô hình tối đa). - Ba phương pháp tự động này không phải lúc nào cũng đưa ra cùng một mô hình được đề xuất.
Các công cụ này được áp dụng cho cả mô hình hồi quy tuyến tính và Mô hình Hồi quy Tuyến tính Tổng quát (GLMs).
Tuy nhiên, tồn tại nhiều phản đối nghiêm trọng đối với việc sử dụng các thủ tục stepwise tự động:
- Các phản đối mang tính triết lý bao gồm việc các phương pháp này không dựa vào lý thuyết hoặc hiểu biết về dữ liệu, và chúng kiểm định các giả thuyết mà nhà nghiên cứu không thực sự đặt ra hoặc quan tâm.
- Các phản đối khác liên quan đến vấn đề kiểm định bội (multiple
testing issues):
- Sai số chuẩn của các ước lượng tham số trong mô hình cuối cùng có xu hướng quá thấp.
- Giá trị P (P-values) có xu hướng quá nhỏ.
- Khoảng tin cậy có xu hướng quá hẹp.
- Giá trị \(R^2\) có xu hướng quá cao.
- Phân phối của thống kê kiểm định ANOVA không tuân theo phân phối F như lý thuyết.
- Các ước lượng tham số hồi quy có xu hướng quá lớn về giá trị tuyệt đối.
- Các mô hình được chọn bằng các thủ tục tự động thường không phù hợp tốt với các bộ dữ liệu mới.
Nhiều tác giả mạnh mẽ khuyến nghị không sử dụng các thủ tục tự động. Việc so sánh tất cả các mô hình con khả thi cũng gặp phải những phản đối tương tự.
Khi áp dụng các phương pháp tự động này với GLMs, cần đặc biệt cẩn trọng khi tham số phân tán (\(\phi\)) được ước lượng. Điều này là do ước lượng \(\phi\) khác nhau cho mỗi mô hình đang được so sánh, và ước lượng được sử dụng thường chỉ là ước lượng mean deviance đơn giản (không phải MLE), dẫn đến giá trị AIC được tính toán chỉ là xấp xỉ.
2.13 Sử dụng R để ước lượng mô hình hồi quy tuyến tính
1. Hàm lm()
: Công cụ chính cho hồi quy tuyến
tính
- Cách chính và tiện lợi nhất để hồi quy tuyến tính trong R là sử dụng
hàm
lm()
. - Việc thực hiện các phép tính ma trận tường minh để ước lượng tham số (như mô tả ở các phần trước đó) là tẻ nhạt và không cần thiết khi sử dụng R.
2. Cú pháp cơ bản của lm()
- Hàm
lm()
yêu cầu chỉ định biến phản hồi và các biến giải thích. - Đối số đầu tiên của
lm()
là công thức mô hình (formula
). Công thức này có dạngbiến_phản_hồi ~ biến_giải_thích_1 + biến_giải_thích_2 + ....
Dấu~
được hiểu là ‘được mô hình hóa bởi’. Các biến giải thích được nối với nhau bằng dấu+
. - Đối số thứ hai,
data=tên_data_frame
, chỉ định khung dữ liệu (data frame) chứa các biến được sử dụng. - Đối số
weights
có thể được sử dụng để chỉ định các trọng số trước (prior weights, \(w_i\)), và có thể bỏ qua nếu tất cả các trọng số đều bằng một.
3. Hệ số chặn (Constant Term)
- Hệ số chặn (intercept) luôn được bao gồm ngầm định bởi R trong mô hình, vì nó hầu như luôn cần thiết.
- Để loại bỏ hệ số chặn một cách rõ ràng (điều này không phổ biến), có
thể sử dụng dạng
y ~ 0 + x
hoặcy ~ x - 1
trong công thức.
4. Lưu trữ kết quả
- Kết quả của hàm
lm()
thường được gán cho một đối tượng (object) để có thể truy cập thông tin chi tiết về mô hình đã fitted. Ví dụ:ten.model <- lm(cong_thuc, data=...)
.
5. Các hàm hữu ích khác
Sau khi fitting mô hình bằng lm()
, có nhiều hàm khác
trong R giúp phân tích kết quả:
summary(fit)
: Cung cấp một bản tóm tắt chi tiết về mô hình fitted. Bản tóm tắt này hiển thị:- Các ước lượng tham số (coefficient estimates).
- Sai số chuẩn tương ứng (standard errors).
- Thống kê t (t-statistics) và giá trị P (P-values) cho việc kiểm định giả thuyết \(H_0: \beta_j = 0\).
- Ước lượng của \(\sigma\) (sai số chuẩn của phần dư).
- Giá trị \(R^2\) và \(R^2\) hiệu chỉnh (adjusted \(R^2\)).
- Kết quả của kiểm định ANOVA tổng thể cho mô hình hồi quy.
- Có thể truy cập các thành phần cụ thể của kết quả
summary
(ví dụ:out$r.squared
để lấy \(R^2\),out$sigma
để lấy \(s\)).coef(summary(fit))
hiển thị ước lượng, SE, t-values và P-values.
anova()
: Hàm này có thể được sử dụng theo hai cách:anova(fit)
(với một mô hình duy nhất): Tạo ra bảng ANOVA kiểm định tuần tự (sequentially tests) ý nghĩa của từng biến giải thích khi nó được thêm vào mô hình.anova(fit1, fit2, ...)
(với nhiều mô hình): So sánh bất kỳ tập hợp các mô hình lồng nhau (nested models) nào bằng cách cung cấp tất cả các mô hình cho hàm. Các mô hình sẽ được kiểm định lần lượt theo thứ tự được chỉ định trong danh sách, với các mô hình đứng trước lồng nhau trong các mô hình đứng sau.
6. Tóm lại
R cung cấp hàm lm()
mạnh mẽ và dễ sử dụng để fitted mô
hình hồi quy tuyến tính, và các hàm đi kèm như summary()
và
anova()
để phân tích kết quả fitted một cách chi tiết và
thực hiện các kiểm định cần thiết.
Chương 3: Mô hình Hồi quy Tuyến tính: Chẩn đoán và Xây dựng Mô hình
3.1 Giới thiệu và Tổng quan
Chương 3 tập trung vào phân tích chẩn đoán (diagnostic analysis) trong mô hình hồi quy tuyến tính, nhằm kiểm tra các giả định cơ bản của mô hình và xác định các vấn đề có thể ảnh hưởng đến độ tin cậy của kết quả phân tích. Các nội dung chính bao gồm:
Giới thiệu và tổng quan (Mục 3.1)
Các giả định từ góc nhìn thực tiễn (3.2)
Phần dư trong mô hình hồi quy tuyến tính chuẩn (3.3)
Đòn bẩy trong mô hình hồi quy tuyến tính (3.4)
Biểu đồ phần dư (3.5)
Giá trị ngoại lai và quan sát ảnh hưởng lớn (3.6)
Thuật ngữ về phần dư (3.7)
Cách khắc phục: Sửa các vấn đề đã được nhận diện (3.8)
Biến đổi biến phản hồi (3.9)
Biến đổi đơn giản các biến giải thích (3.10)
Xu hướng đa thức (3.11)
Hàm spline hồi quy (3.12)
Sửa các giá trị ngoại lai đã được xác định (3.13)
Đa cộng tuyến (Collinearity) (3.14)
Các nghiên cứu tình huống (3.15)
Sử dụng R để phân tích chẩn đoán mô hình hồi quy tuyến tính (3.16)
Tóm tắt chương (3.17)
3.2 Các giả định
1. Các Kiểu Giả định
- Phần này tóm tắt các giả định của mô hình hồi quy tuyến tính, có thể được thể hiện qua dạng tổng quát (2.1) hoặc, khi giả định phân phối chuẩn, qua dạng (2.25).
2. Dạng Hàm Tuyến tính (The Linear Predictor)
- Giả định cốt lõi là giá trị trung bình kỳ vọng của biến phản hồi (\(E[y_i] = \mu_i\)) có mối quan hệ tuyến tính với các biến giải thích thông qua một tổ hợp tuyến tính (linear predictor): \[ \mu_i = \beta_0 + \sum_{j=1}^{p} \beta_j x_{ji} \]
3. Phương sai Không đổi (Constant Variance)
- Giả định này, còn gọi là tính đồng nhất phương sai (homoscedasticity), yêu cầu các phản hồi (hoặc phần dư) phải có phương sai không đổi (\(\sigma^2\)) hoặc tỷ lệ với các trọng số đã biết (\(\sigma^2/w_i\)).
- Phương sai không đổi là một giả định quan trọng nhưng không khả thi khi các phản hồi tuân theo các phân phối khác ngoài phân phối chuẩn, đặc biệt khi giá trị trung bình và phương sai có liên hệ với nhau.
- Tình huống phổ biến nhất dẫn đến phương sai thay đổi (heteroscedasticity) là khi độ chính xác của quan sát phụ thuộc vào độ lớn của quan sát.
- Các đại lượng vật lý dương thường có biến thiên tuyệt đối lớn hơn khi giá trị lớn.
- Việc xử lý mối quan hệ giữa trung bình và phương sai là một chủ đề chính của cuốn sách, và chương này sẽ xem xét các cách để giảm thiểu nó bằng cách biến đổi biến phản hồi.
4. Độc lập (Independence)
- Giả định rằng các phản hồi (hoặc phần dư) là độc lập với nhau.
5. Phân phối Chuẩn (Normality)
- Giả định rằng các phản hồi tuân theo phân phối chuẩn (\(y_i \sim N(\mu_i, \sigma^2/w_i)\)).
- Trong thực tế, giả định phân phối chuẩn không quá quan trọng đối với các kiểm định khi kích thước mẫu lớn (\(n\) lớn), nhưng nó lại rất quan trọng để các kiểm định và khoảng tin cậy có giá trị cho các kích thước mẫu nhỏ.
6. Thang đo Lường (Measurement Scales)
- Đây là một yếu tố bao quát ảnh hưởng đến nhiều giả định khác, bao gồm thang đo của biến phản hồi và biến giải thích, đặc biệt là phạm vi giá trị khả thi mà các biến này có thể nhận.
- Ví dụ:
- Biến phản hồi chỉ nhận giá trị dương không thể tuân theo phân phối chuẩn.
- Biến phản hồi dương có thể gây vấn đề nếu bộ dự báo tuyến tính có thể nhận giá trị âm.
- Phương sai không đổi khó xảy ra nếu biến dương có thể nhận các giá trị gần bằng 0.
- Đối với biến phản hồi là tỷ lệ (bị chặn giữa 0 và 1), phương sai không đổi cũng khó xảy ra nếu các giá trị gần 0 hoặc 1 là có thể.
- Mô hình tuyến tính cho các biến phản hồi dương hoặc bị ràng buộc có thể hoạt động tốt trong một phạm vi giá trị hẹp, nhưng có khả năng đáng ngờ khi phạm vi giá trị trải rộng trên nhiều bậc độ lớn.
- Đơn vị đo lường cũng có thể định hướng quá trình xây dựng mô hình.
7. Các Xấp xỉ và Hậu quả (Approximations and Consequences)
- Mô hình thống kê luôn là một lý tưởng toán học và sẽ không bao giờ là biểu diễn chính xác của bất kỳ tập dữ liệu thực hay quá trình vật lý thực nào.
- Khi đánh giá các giả định, chúng ta được hướng dẫn bởi độ nhạy cảm tiềm tàng của các kết luận đối với sự sai lệch so với giả định.
- Ví dụ, một xấp xỉ tuyến tính có thể đủ phù hợp trong một phạm vi giá trị biến giải thích hạn chế ngay cả khi mối quan hệ thực tế không hoàn toàn tuyến tính.
- Các giả định được sắp xếp theo thứ tự từ những giả định ảnh hưởng đến moment bậc thấp của phản hồi (giá trị trung bình), đến moment bậc hai (phương sai) và moment bậc ba/cao hơn (phân phối hoàn chỉnh).
- Nói chung, các giả định ảnh hưởng đến moment bậc thấp hơn là cơ bản nhất, và các giả định liên quan đến moment bậc cao hơn có ưu tiên thấp dần.
3.3 Phần dư trong mô hình hồi quy tuyến tính chuẩn
1. Phần dư thô (Raw residuals)
- Phần dư thô (\(r_i\)) là hiệu số giữa giá trị phản hồi quan sát được (\(y_i\)) và giá trị được mô hình ước lượng (\(\hat{\mu}_i\)) cho quan sát thứ \(i\): \[ r_i = y_i - \hat{\mu}_i \]
2. Tổng bình phương phần dư (Residual sum-of-squares - rss)
- Tổng bình phương phần dư thô có trọng số (\(w_i\)) được định nghĩa là: \[ rss = \sum_{i=1}^{n} w_i r_i^2 \]
3. Phương sai của phần dư thô
- Vì các giá trị fitted (\(\hat{\mu}_i\)) được ước lượng từ dữ liệu, chúng là các biến ngẫu nhiên.
- Do đó, phương sai của phần dư thô (\(var[y_i - \hat{\mu}_i]\)) không giống với phương sai của biến phản hồi gốc (\(var[y_i] = \sigma^2/w_i\)).
- Thay vào đó, phương sai của phần dư thô \(r_i\) là: \[ var[r_i] = (1 - h_i)\sigma^2 \] trong đó \(h_i\) là giá trị đòn bẩy (leverage) cho quan sát thứ \(i\).
- Điều này chỉ ra rằng phương sai của phần dư thô không phải là hằng số mà phụ thuộc vào đòn bẩy của từng quan sát.
4. Phần dư chuẩn hóa (Standardized residuals)
- Để giải quyết vấn đề phương sai không đổi của phần dư thô và làm cho chúng dễ so sánh hơn, phần dư chuẩn hóa (\(r'_i\)) được giới thiệu.
5. Công thức phần dư chuẩn hóa
- Công thức cho phần dư chuẩn hóa là: \[ r'_i = \frac{\sqrt{w_i}(y_i - \hat{\mu}_i)}{s \sqrt{1 - h_i}} \] (Lưu ý: Thuật ngữ cho các loại phần dư có thể gây nhầm lẫn).
6. Ý nghĩa và phân phối
- Phần dư chuẩn hóa ước tính khoảng cách đã được chuẩn hóa giữa dữ liệu \(y_i\) và giá trị fitted \(\hat{\mu}_i\).
- Chúng được cho là có phân phối xấp xỉ chuẩn tắc (standard normal).
- Chính xác hơn, phần dư chuẩn hóa này tuân theo phân phối t (t-distribution) với \(n - p'\) bậc tự do, trong đó \(n\) là số quan sát và \(p'\) là số lượng hệ số hồi quy được ước lượng.
- Phương sai của phần dư chuẩn hóa này gần bằng một.
7. Tính toán trong R
- Trong phần mềm R, phần dư thô được tính bằng hàm
resid(fit)
, còn phần dư chuẩn hóa được tính bằng hàmrstandard(fit)
cho mô hình hồi quy tuyến tính đã fitted (fit
).
3.4 Đòn bẩy trong mô hình hồi quy tuyến tính
1. Định nghĩa Leverages
- Để giải thích rõ về đòn bẩy, phần này bắt đầu bằng việc chuẩn hóa các phản hồi để chúng có phương sai không đổi. Các phản hồi đã chuẩn hóa là \(z_i = \sqrt{w_i}y_i\) với \(E[z_i] = \nu_i = \sqrt{w_i}\mu_i\) và \(var[z_i] = \sigma^2\).
- Các giá trị fitted đã chuẩn hóa \(\hat{\nu}_i = \sqrt{w_i}\hat{\mu}_i\) có thể được coi là hàm tuyến tính của các phản hồi đã chuẩn hóa \(z_j\).
- Hat-values (ký hiệu \(h_{ij}\)) được định nghĩa là các hệ số liên hệ phản hồi đã chuẩn hóa \(z_j\) với giá trị fitted đã chuẩn hóa \(\hat{\nu}_i\), thỏa mãn: \[ \hat{\nu}_i = \sum_{j=1}^{n} h_{ij} z_j \]
- Khi tất cả các trọng số \(w_i\) bằng một, \(h_{ij}\) là hệ số áp dụng cho \(y_j\) để thu được \(\hat{\mu}_i\). Theo cách nói thông thường, hat-values đặt “mũ” lên \(\mu_i\).
2. Leverages là các hat-values đường chéo
- Leverages (ký hiệu \(h_i\)) chính là các giá trị hat-values nằm trên đường chéo chính của ma trận hat (\(h_{ii}\)).
3. Ý nghĩa của Leverages
- Leverages \(h_i\) đo lường trọng lượng mà phản hồi \(y_i\) (hoặc \(z_i\)) nhận được trong quá trình tính toán giá trị fitted (\(\hat{\mu}_i\) hoặc \(\hat{\nu}_i\)) của chính nó.
4. Ma trận Hat
- Đối với hồi quy không trọng số (tất cả \(w_i=1\)), ma trận hat được ký hiệu là \(H = X(X^TX)^{-1}X^T\), và leverages \(h_i\) là các phần tử trên đường chéo của ma trận \(H\) này.
- Đối với hồi quy có trọng số, công thức ma trận tương tự cũng được đưa ra (không hiển thị ở đây để giữ tính ngắn gọn).
5. Phụ thuộc vào Biến Giải thích
- Leverages \(h_i\) chỉ phụ thuộc vào giá trị của các biến giải thích và trọng số, không phụ thuộc vào giá trị của biến phản hồi.
6. Tính chất của Leverages
- \(n\) giá trị leverages thỏa mãn điều kiện: \[ \frac{1}{n} \leq h_i \leq 1 \]
- Tổng của \(n\) leverages bằng số lượng tham số hồi quy được ước lượng (\(p'\)): \[ \sum_{i=1}^{n} h_i = p' \]
- Do đó, giá trị trung bình của leverages là: \[ \bar{h} = \frac{p'}{n} \]
7. Công thức trong trường hợp đơn giản
Đối với hồi quy tuyến tính đơn giản không trọng số: Công thức tính leverage là: \[ h_i = \frac{1}{n} + \frac{(x_i - \bar{x})^2}{ss_x} \] cho thấy leverage tăng theo hàm bậc hai khi giá trị \(x_i\) càng cách xa giá trị trung bình \(\bar{x}\). \(\bar{x}\) được ví như điểm tựa của đòn bẩy.
Đối với hồi quy không trọng số với một biến giải thích là yếu tố (factor): Leverages là \(h_i = 1/n_j\), với \(n_j\) là tổng số quan sát trong cùng một nhóm với quan sát \(i\).
8. Giải thích thực tế về giá trị Leverage
- Leverage nhỏ cho thấy nhiều quan sát khác nhau đang đóng góp vào việc ước lượng giá trị fitted cho quan sát đó.
- Trong trường hợp cực đoan là \(h_i = 1\), giá trị fitted của quan sát \(i\) sẽ hoàn toàn được xác định bởi chính quan sát \(i\), dẫn đến \(\hat{\mu}_i = y_i\).
- Các giá trị \(h_i\) lớn (ví dụ: gấp hai hoặc ba lần giá trị trung bình của \(\bar{h}\)) xác định các tổ hợp bất thường của các biến giải thích. Ví dụ, các quan sát có leverage lớn nhất tương ứng với các quan sát bất thường ở góc dưới bên trái của biểu đồ (trong trường hợp hồi quy đơn biến).
9. Tính toán trong R
- Leverages cho mô hình hồi quy tuyến tính đã fitted (gọi là
fit
) có thể được tính bằng lệnhhatvalues(fit)
.
3.5 Biểu đồ phần dư
1. Biểu đồ Phần dư so với Biến giải thích (Plot Residuals Against \(x_j\))
- Mục đích: Kiểm tra sự sai lệch khỏi mối quan hệ tuyến tính giữa biến phản hồi và biến giải thích sau khi các hiệu ứng tuyến tính của các biến giải thích khác đã được loại bỏ.
- Cách dùng: Vẽ biểu đồ phần dư so với từng biến giải thích \(x_j\).
- Nhận định: Nếu mô hình phù hợp, các điểm nên phân tán ngẫu nhiên quanh giá trị 0 cho mọi giá trị của \(x_j\). Bất kỳ xu hướng có hệ thống nào (ví dụ: đường cong bậc hai) đều cho thấy cần biến đổi \(x_j\) hoặc thêm các hạng tử tương tác vào mô hình tuyến tính.
2. Biểu đồ Phần dư Bán phần (Partial Residual Plots / Component-plus-residual plot)
- Mục đích: Cung cấp một cái nhìn tương tự như biểu đồ biến phản hồi so với biến giải thích trong hồi quy tuyến tính đơn giản, nhưng trong ngữ cảnh hồi quy bội. Nó cho thấy đóng góp của biến giải thích \(x_j\) sau khi đã điều chỉnh cho các biến khác trong mô hình hiện tại.
- Định nghĩa (cho hồi quy tuyến tính): Biểu đồ của \(u_j = r + \hat{\beta}_j x_j\) so với \(x_j\), trong đó \(r\) là phần dư thô, \(\hat{\beta}_j\) là ước lượng hệ số hồi quy cho \(x_j\), và \(x_j\) là biến giải thích.
- Định nghĩa (cho GLMs): Biểu đồ của \(u_j = e_i + \hat{\beta}_j x_j\) so với \(x_j\), trong đó \(e_i\) là phần dư working.
- Nhận định: Biểu đồ này hiển thị cả xu hướng tuyến tính (đường thẳng) và bất kỳ xu hướng phi tuyến tính nào. Độ dốc của đường hồi quy fitted trên biểu đồ phần dư bán phần xấp xỉ với hệ số hồi quy cho biến đó trong mô hình đầy đủ. Tuy nhiên, sự biến động của các điểm quanh đường thẳng trên biểu đồ này có thể trông nhỏ hơn phương sai thực tế một chút.
- Trong R: Có thể tính toán phần dư bán phần bằng
resid(fit, type="partial")
và vẽ biểu đồ bằngtermplot()
.
3. Biểu đồ Phần dư so với Giá trị Fitted (Plot Residuals Against \(\hat{\mu}\))
- Mục đích: Kiểm tra giả định về phương sai không đổi (homoscedasticity).
- Cách dùng: Vẽ biểu đồ các phần dư (ưu tiên phần dư đã chuẩn hóa hoặc Studentized) so với các giá trị fitted \(\hat{\mu}\).
- Nhận định: Nếu giả định phương sai không đổi được thỏa mãn, các điểm nên phân tán ngẫu nhiên quanh 0 và sự biến động không thay đổi theo giá trị fitted. Một mẫu hình hình nón (ví dụ: phương sai tăng hoặc giảm khi giá trị fitted tăng) cho thấy phương sai không phải là hằng số (heteroscedasticity).
4. Biểu đồ Q–Q (Q–Q Plots) và Kiểm tra Tính Chuẩn tắc
- Mục đích: Kiểm tra giả định rằng các phần dư tuân theo phân phối chuẩn tắc.
- Cách dùng: Vẽ biểu đồ các định lượng mẫu của phần dư so với các định lượng lý thuyết của phân phối chuẩn tắc chuẩn (Normal Q-Q Plot). Một đường thẳng được thêm vào để tham khảo.
- Nhận định: Nếu phần dư tuân theo phân phối chuẩn tắc, các điểm trên biểu đồ Q-Q nên nằm gần đường thẳng tham khảo. Sự sai lệch khỏi đường thẳng cho thấy sự sai lệch khỏi tính chuẩn tắc, chẳng hạn như phân phối lệch (skewed), đuôi nặng (heavy tails) hoặc nhẹ (light tails), hoặc phân phối đa mode (bimodal). Phần dư định lượng (quantile residuals) đặc biệt được khuyến khích sử dụng trong các biểu đồ Q-Q, đặc biệt cho dữ liệu rời rạc, vì chúng được thiết kế để tuân theo phân phối chuẩn tắc chuẩn và tránh các mẫu hình gây xao nhãng có thể xuất hiện với các loại phần dư khác.
5. Biểu đồ Lag (Lag Plots) và Kiểm tra Sự phụ thuộc theo Thời gian
- Mục đích: Kiểm tra giả định về tính độc lập của các phản hồi, đặc biệt khi dữ liệu được thu thập theo thời gian hoặc có yếu tố không gian.
- Cách dùng: Vẽ biểu đồ phần dư tại thời điểm \(t\) (hoặc tại một vị trí không gian) so với phần dư tại thời điểm \(t-1\) (hoặc một vị trí không gian lân cận).
- Nhận định: Nếu các phần dư độc lập, biểu đồ nên hiển thị sự phân tán ngẫu nhiên. Bất kỳ mẫu hình có hệ thống nào (ví dụ: tương quan dương hoặc âm) đều cho thấy sự phụ thuộc giữa các quan sát.
3.6 Giá trị ngoại lai và quan sát ảnh hưởng lớn
1. Định nghĩa
- Outliers (Quan sát ngoại lai): Là những quan sát không nhất quán với phần còn lại của tập dữ liệu. Chúng thường được xác định thông qua các phần dư tương ứng có giá trị bất thường, lớn (dương hoặc âm).
- Influential Observations (Quan sát gây ảnh hưởng): Là những quan sát làm thay đổi đáng kể mô hình đã fitted khi bị loại bỏ khỏi tập dữ liệu.
2. Mối quan hệ giữa Outliers và Influential Observations
- Hai vấn đề này có thể liên quan đến nhau, và một đặc tả mô hình không chính xác có thể chỉ ra vấn đề với một quan sát cụ thể.
- Quan sát gây ảnh hưởng nhất thiết phải có phần dư từ vừa phải đến lớn, nhưng không nhất thiết phải là outliers. Tương tự, outliers có thể có hoặc không gây ảnh hưởng.
- Cụ thể hơn, các quan sát gây ảnh hưởng là những quan sát kết hợp phần dư lớn với đòn bẩy (leverage) cao. Leverage cao chỉ ra các tổ hợp bất thường của các biến giải thích.
3. Nhận diện Outliers
- Có thể nhận diện outliers bằng cách xác định các phần dư có giá trị lớn bất thường.
- Nên sử dụng phần dư đã chuẩn hóa (standardized residuals) hoặc phần dư đã Studentized (Studentized residuals) trong các biểu đồ chẩn đoán (như biểu đồ Q-Q) vì chúng có phương sai xấp xỉ không đổi. Việc Studentizing phần dư làm cho chúng tuân theo phân phối t và dễ so sánh hơn.
- Một guideline (chỉ mang tính hướng dẫn) để gắn cờ các outliers tiềm năng là những quan sát có giá trị tuyệt đối của phần dư đã chuẩn hóa (hoặc Studentized) lớn hơn 2.5. Tuy nhiên, khoảng 1.2% các quan sát sẽ có giá trị tuyệt đối phần dư chuẩn hóa vượt quá 2.5 ngay cả khi không có outliers và tất cả các giả định mô hình đều đúng.
- Đối với GLMs, phần dư định lượng (quantile residuals) rất được khuyến khích sử dụng, đặc biệt cho dữ liệu rời rạc.
4. Nhận diện Influential Observations
- Các quan sát gây ảnh hưởng là outliers với đòn bẩy cao.
- Có nhiều chỉ số số học để đo lường mức độ ảnh hưởng của từng quan
sát, bao gồm:
- Cook’s distance (D): Một thước đo phổ biến về ảnh hưởng. Nó đo lường mức độ thay đổi của tất cả các giá trị fitted khi bỏ đi quan sát thứ \(i\). Công thức của Cook’s distance liên quan đến bình phương của phần dư Studentized và tỷ lệ leverage \(h/(1-h)\). Guideline: Các quan sát có \(D > 1\) hoặc vượt quá bách phân vị thứ 50 của phân phối F với (\(p'\), \(n-p'\)) bậc tự do có thể được gắn cờ là có khả năng gây ảnh hưởng.
- dffits: Đo lường mức độ thay đổi của giá trị fitted của chính quan sát thứ \(i\) khi nó bị bỏ đi. Guideline: Quan sát \(i\) được coi là gây ảnh hưởng nếu \(|dffits_i| > 3\sqrt{p'/(n-p')}\).
- dfbetas: Đo lường mức độ thay đổi trong ước lượng của từng hệ số hồi quy (\(\hat{\beta}_j\)) khi bỏ đi quan sát thứ \(i\). Guideline: Quan sát \(i\) được coi là gây ảnh hưởng nếu \(|dfbetas_i| > 1\).
- Covariance ratio (cr): Liên quan đến sự thay đổi trong ma trận hiệp phương sai của các ước lượng hệ số hồi quy khi bỏ đi quan sát \(i\). \(cr_i > 1\) cho thấy ma trận hiệp phương sai giãn ra (các khoảng tin cậy rộng hơn) khi quan sát \(i\) bị bỏ đi, trong khi \(cr_i < 1\) cho thấy nó co lại. Guideline: \(cr_i > 3p'/(n-p')\).
- Leverages (h): Bản thân leverages xác định các quan sát có đòn bẩy cao (tổ hợp biến giải thích bất thường). Guideline: Quan sát có đòn bẩy cao nếu \(h > 3p'/n\).
5. Áp dụng cho GLMs
- Các công cụ để nhận diện outliers và influential observations trong hồi quy tuyến tính cũng được sử dụng cho GLMs.
- Đối với GLMs, các chỉ số ảnh hưởng như Cook’s distance, dffits, dfbetas, và covariance ratio được xấp xỉ bằng cách sử dụng kết quả từ bước cuối cùng của thuật toán Iteratively Reweighted Least Squares (IRLS).
6. Sử dụng R
- Các hàm trong R như
rstudent()
để tính phần dư Studentized,cooks.distance()
,dffits()
,dfbetas()
,covratio()
, vàhatvalues()
được sử dụng để tính toán các chỉ số này. - Hàm
influence.measures()
tính toán và tổng hợp các chỉ số này, đồng thời gắn cờ (*
) các quan sát được coi là gây ảnh hưởng theo các tiêu chí nhất định. - Việc vẽ biểu đồ các chỉ số ảnh hưởng (như Cook’s distance, dffits) thường hữu ích.
7. Giải pháp (Remedies)
- Trước tiên, nên thử các giải pháp cấu trúc mô hình (ví dụ: biến đổi biến phản hồi hoặc thêm/bớt biến) vì chúng có thể làm giảm hoặc loại bỏ các outliers và quan sát gây ảnh hưởng đã xác định trước đó.
- Nếu vấn đề vẫn còn, bước đầu tiên là cố gắng xác định nguyên nhân.
Nguyên nhân có thể là:
- Sai lầm đã biết: Nếu là lỗi thu thập/nhập liệu và có thể sửa được, hãy sửa. Nếu không sửa được, có thể bỏ đi nếu sai sót không phụ thuộc vào giá trị quan sát.
- Đến từ quần thể khác: Quan sát có thể đến từ một nhóm khác so với phần lớn dữ liệu. Có thể bỏ đi nhưng cần báo cáo rõ ràng rằng kết quả không áp dụng cho quần thể này. Nếu có đủ quan sát từ nhóm này, có thể mở rộng mô hình để bao gồm nhóm này.
- Không có lý do rõ ràng: Đừng đơn giản loại bỏ quan sát này. Nó có thể chỉ ra rằng cần một mô hình khác hoặc phức tạp hơn. Một chiến lược là so sánh mô hình fitted có và không có quan sát đó để đánh giá ảnh hưởng của nó đối với các diễn giải và kết luận. Nếu hai mô hình tương tự nhau, quan sát đó không quan trọng. Nếu chúng khác biệt đáng kể, cần xem xét lại mô hình.
- Đối với các vấn đề về sự phụ thuộc giữa các phản hồi (ví dụ: phần dư tương quan), cần các phương pháp mô hình hóa nâng cao hơn (ngoài phạm vi của sách này).
3.7 Thuật ngữ về phần dư
1. Sự không nhất quán trong thuật ngữ về phần dư
- Thuật ngữ được sử dụng cho các loại phần dư khác nhau rất dễ gây nhầm lẫn và không nhất quán.
2. Định nghĩa chung về chuẩn hóa
- Nói chung trong thống kê, việc chia một đại lượng cho ước lượng độ lệch chuẩn của nó được gọi là chuẩn hóa (standardizing).
3. Định nghĩa cụ thể về Student hóa
- Cụ thể hơn, việc chia một đại lượng tuân theo phân phối chuẩn cho độ lệch chuẩn mẫu để tạo ra một đại lượng tuân theo phân phối t được gọi là Student hóa (Studentizing). Điều này theo cách tiếp cận được sử dụng bởi Student khi giới thiệu phân phối t.
4. Sự trùng lặp trong cách sử dụng thuật ngữ
- Theo các định nghĩa được sử dụng phổ biến này, cả \(r'\) (phần dư đã chuẩn hóa) và \(r''\) (phần dư đã Studentized) đều là phần dư đã chuẩn hóa và đã Studentized, và các tác giả khác nhau sử dụng các thuật ngữ này để mô tả cả hai loại phần dư.
5. Quy ước theo R và Belsley et al.
- Tuy nhiên, theo R và Belsley et al., nguồn tài liệu này chuẩn hóa
\(r''\) (có sẵn trong R bằng
hàm
rstudent()
) là phần dư đã Studentized (Studentized residual) vì nó tuân theo phân phối t của Student một cách chính xác.
6. Quy ước của nguồn tài liệu này về \(r'\)
- Nguồn tài liệu này chuẩn hóa \(r'\) (có sẵn trong R bằng hàm
rstandard()
) đơn giản là phần dư đã chuẩn hóa (standardized residual).
7. Quy ước thay thế
- Một quy ước thay thế gọi \(r'\) là phần dư đã Studentized nội bộ (internally Studentized residual) và \(r''\) là phần dư đã Studentized bên ngoài (externally Studentized residual). Tuy nhiên, các nhãn này không được sử dụng rộng rãi trong tài liệu.
3.8 Cách khắc phục: Sửa các vấn đề đã được nhận diện
1. Mục đích
- Phần này mô tả các cách để sửa đổi mô hình đã fitted nhằm khắc phục hoặc cải thiện các điểm yếu đã được xác định bởi các công cụ chẩn đoán.
2. Chiến lược chung
- Ưu tiên sửa các vấn đề cấu trúc mô hình: Thường thì việc giải quyết các vấn đề cấu trúc như thiếu tuyến tính (linearity) hoặc phương sai không đổi (constant variance) (đối với hồi quy tuyến tính) hoặc hàm liên kết (link function) không phù hợp, thành phần hệ thống (systematic component) không đúng, hoặc hàm phương sai (variance function) không phù hợp (đối với GLMs) sẽ giúp giảm hoặc loại bỏ các quan sát ngoại lai (outliers) và gây ảnh hưởng (influential observations) đã xác định trước đó.
- Sau đó, xử lý các outliers/quan sát gây ảnh hưởng còn lại: Nếu các vấn đề về cấu trúc đã được giải quyết nhưng vẫn còn outliers hoặc quan sát gây ảnh hưởng, hoặc các vấn đề mới xuất hiện, cần có quyết định xử lý chúng.
3. Các Biện pháp Cụ thể
- Đối với Phương sai Không đổi (hồi quy tuyến tính) hoặc Hàm
Phương sai (GLMs):
- Nếu phương sai của biến phản hồi không xấp xỉ không đổi (đối với hồi quy tuyến tính) hoặc hàm phương sai được chỉ định không đúng (đối với GLMs), cần biến đổi biến phản hồi để ổn định phương sai (đối với hồi quy tuyến tính) hoặc thay đổi mô hình EDM được giả định (đối với GLMs), ví dụ sử dụng mô hình Tweedie cho dữ liệu liên tục dương có hoặc không có giá trị 0 chính xác.
- Nếu mối quan hệ trung bình-phương sai không tương ứng với một EDM, có thể sử dụng quasi-likelihood.
- Đối với Thiếu Tuyến tính (hồi quy tuyến tính) hoặc Thành
phần Hệ thống không chính xác (GLMs):
- Có thể biến đổi các biến giải thích (covariates) bằng các biến đổi đơn giản.
- Sử dụng các đa thức trong biến giải thích (polynomials).
- Sử dụng regression splines.
- Đối với GLMs, cần kiểm tra lại hàm liên kết. Tuy nhiên, việc thay đổi hàm liên kết có thể không mong muốn vì nó thay đổi mối quan hệ giữa y và tất cả các biến giải thích.
- Đối với Quan sát Ngoại lai hoặc Gây ảnh hưởng còn
lại:
- Bước đầu tiên là cố gắng xác định nguyên nhân.
- Các nguyên nhân có thể là:
- Lỗi đã biết (Known mistake): Quan sát là kết quả của sai sót trong thu thập hoặc nhập liệu. Nếu có thể sửa, hãy sửa. Nếu không thể sửa, có thể bỏ đi nếu sai sót không phụ thuộc vào giá trị quan sát.
- Đến từ quần thể khác (From another population): Quan sát có thể đến từ một nhóm khác biệt so với phần lớn dữ liệu. Có thể bỏ đi quan sát này nhưng cần báo cáo rõ ràng rằng kết quả mô hình không áp dụng cho quần thể này. Nếu có đủ quan sát từ nhóm này, có thể mở rộng mô hình để bao gồm nhóm này.
- Không có lý do rõ ràng (No clear reason): Không nên đơn giản loại bỏ quan sát này. Quan sát này có thể chỉ ra rằng cần một mô hình khác hoặc phức tạp hơn. Một chiến lược là so sánh mô hình fitted có và không có quan sát đó để đánh giá ảnh hưởng của nó đối với các diễn giải và kết luận. Nếu hai mô hình tương tự, quan sát đó không quan trọng. Nếu chúng khác biệt đáng kể, cần xem xét lại mô hình.
- Đối với Phản hồi Không Độc lập (Correlated residuals / Dependence): Nếu các phản hồi không độc lập (ví dụ: phần dư tương quan), cần sử dụng các phương pháp mô hình hóa phức tạp hơn như generalized least squares, mixed models, spatial models hoặc Generalized Estimating Equations, generalized linear mixed models, spatial GLMs. Tuy nhiên, những phương pháp này nằm ngoài phạm vi của cuốn sách.
4. Sử dụng R
- Các hàm trong R như
poly()
,bs()
,ns()
được đề cập là hữu ích cho việc thực hiện các biện pháp khắc phục (ví dụ: thêm các biến giải thích đa thức hoặc splines vào thành phần hệ thống).
3.9 Biến đổi biến phản hồi
1. Ý tưởng cơ bản
- Biến đổi biến phản hồi \(y\) thành một biến mới \(y^* = h(y)\), trong đó \(h()\) là một hàm khả nghịch.
- Sau đó, mô hình hồi quy tuyến tính cơ bản được xây dựng cho \(y^*\) thay vì \(y\), với cấu trúc mô hình giữ nguyên nhưng \(y^*\) thay thế \(y\). Lúc này, \(\mu_i = E[y^*_i]\) chứ không phải \(E[y_i]\).
- Sau khi biến đổi, cần phải fitted lại mô hình và kiểm tra lại các giả định thông qua biểu đồ phần dư mới.
2. Lý do biến đổi biến phản hồi
- Tránh các ràng buộc: Chuyển đổi thang đo biến phản
hồi sang toàn bộ đường số thực có thể tránh được các khó khăn với các
ràng buộc đối với các hệ số hồi quy tuyến tính.
- Ví dụ, đối với các đại lượng vật lý chỉ có giá trị dương (như FEV), mô hình có thể dự đoán các giá trị âm nếu không được biến đổi. Mô hình hóa \(y^* = \log(fev)\) thay vì \(fev\) giúp tránh điều này.
- Đối với các biến đếm có giá trị 0, các biến đổi log sao (\(\log(y+0.5)\) hoặc \(\log(y+1)\)) hoặc biến đổi logistic thực nghiệm (\(\log\{(y+0.5)/(n+0.5)\}\)) cho tỷ lệ đã được sử dụng.
- Làm cho phân phối gần với phân phối chuẩn hơn:
Thông thường, điều này có nghĩa là cố gắng làm cho phân phối của các giá
trị \(y\) đối xứng hơn.
- Các phân phối lệch phải (right-skewed) thường được xử lý bằng biến đổi logarit (\(y^* = \log y\)) hoặc biến đổi lũy thừa (\(y^* = y^\lambda\) với \(\lambda < 1\)). Giá trị \(\lambda\) càng nhỏ, biến đổi càng mạnh.
- Đối với dữ liệu lệch trái (left-skewed), biến đổi lũy thừa với \(\lambda > 1\) có thể được sử dụng.
- Quy trình thông thường là bắt đầu với \(\lambda\) gần một và giảm dần cho đến khi phần dư đạt được tính đối xứng tương đối.
- Đạt được phương sai gần như không đổi (ổn định phương
sai): Đây là động lực cơ bản và quan trọng nhất.
- Đối với biến chỉ có giá trị dương, phương sai thường nhỏ hơn khi trung bình \(\mu\) gần bằng không so với khi \(\mu\) lớn (mối quan hệ trung bình-phương sai dương).
- Nếu \(var[y] = \phi\mu^2\) (mối quan hệ trung bình-phương sai bậc hai), biến đổi ổn định phương sai là logarit (\(h'(\mu) = 1/\mu\)).
- Nếu \(var[y] = \phi\mu\), biến đổi ổn định phương sai là căn bậc hai (\(h'(\mu) = 1/\mu^{1/2}\)).
- Đối với tỷ lệ (0-1), khi \(V(\mu) \propto \mu(1 - \mu)\), biến đổi ổn định phương sai là arcsin-căn bậc hai (\(y^* = \sin^{-1}\sqrt{y}\)).
3. Biến đổi Box-Cox
- Đây là một họ các biến đổi tổng quát bao gồm cả biến đổi lũy thừa và logarit: \[ y^{(\lambda)} = \begin{cases} (y^\lambda - 1)/\lambda & \text{nếu } \lambda \neq 0 \\ \log y & \text{nếu } \lambda = 0 \end{cases} \]
- Hàm
boxcox()
trong góiMASS
của R có thể được sử dụng để ước tính giá trị \(\lambda\) tối ưu dựa trên likelihood cực đại.
4. Sự liên hệ với GLMs
- Việc sử dụng biến đổi ổn định phương sai cho biến phản hồi trong mô hình hồi quy tuyến tính có thể được xem là một phương pháp xấp xỉ để fitted một Mô hình Tuyến tính Tổng quát (GLM).
- Sử dụng hồi quy tuyến tính sau khi biến đổi \(y^* = h(y)\) tương đương với việc fitted một GLM với hàm phương sai \(V(\mu) = 1/h'(\mu)^2\) và hàm liên kết \(g(\mu) = h(\mu)\).
- GLMs cung cấp sự linh hoạt lớn hơn vì cho phép lựa chọn họ phân phối EDM (bao gồm hàm phương sai) và hàm liên kết một cách riêng biệt.
- Việc biến đổi biến phản hồi đôi khi có thể làm mất đi tính tuyến tính mong muốn của mối quan hệ giữa biến phản hồi và các biến giải thích.
5. Trong R
- Các biến đổi biến phản hồi có thể được thực hiện bằng các hàm tiêu
chuẩn của R như
sqrt(y)
,log(y)
,1/y
,asin(sqrt(y))
, vày^(-2)
. - Hàm
boxcox()
trong góiMASS
giúp xác định biến đổi Box-Cox phù hợp nhất.
3.10 Biến đổi đơn giản các biến giải thích
1. Mục đích
- Biến đổi các biến giải thích đôi khi được thực hiện để đạt được tính tuyến tính trong mối quan hệ giữa biến phản hồi và biến giải thích, hoặc để giảm ảnh hưởng của các quan sát có ảnh hưởng lớn (influential observations).
- Nó cũng có thể giúp giải quyết các vấn đề với thành phần hệ thống (systematic component), đảm bảo các biến giải thích được đưa vào mô hình ở thang đo chính xác.
2. Bảo toàn cấu trúc mô hình
- Việc sử dụng các biến giải thích đã được biến đổi vẫn tạo ra một mô hình tuyến tính theo tham số.
- Dạng cơ bản của mô hình \(\mu = \beta_0 + \beta_1x_1 + ... + \beta_px_p\) (hoặc một biến thể với biến phản hồi đã biến đổi) vẫn được giữ nguyên, chỉ là một hoặc nhiều \(x_j\) được thay thế bằng \(h(x_j)\).
3. Thời điểm cân nhắc
- Thường thì, thang đo (measurement scale) của biến phản hồi nên được quyết định trước khi biến đổi các biến giải thích, bởi vì bất kỳ biến đổi nào của biến phản hồi rõ ràng sẽ ảnh hưởng đến hình dạng mối quan hệ của nó với các biến giải thích.
4. Kiểm tra chẩn đoán
- Biểu đồ phần dư (residuals) so với một biến giải thích \(x_j\) có thể giúp phát hiện sự sai lệch khỏi tính tuyến tính. Nếu mô hình phù hợp, các phần dư sẽ không cho thấy bất kỳ mẫu hình nào, chỉ là sự biến thiên không đổi quanh giá trị 0 cho mọi giá trị của \(x_j\). Bất kỳ xu hướng có hệ thống nào trong phần dư (ví dụ: đường cong bậc hai) đều cho thấy cần biến đổi \(x_j\) hoặc thêm các thành phần khác vào mô hình tuyến tính.
- Các biểu đồ phần dư bán phần (partial residual plots) cũng có thể được sử dụng để xác định xem các biến giải thích có được đưa vào mô hình ở thang đo chính xác hay không.
5. Các loại biến đổi đơn giản
- Các biến đổi đơn giản và thường được sử dụng bao gồm logarit (\(\log(x)\)), căn bậc hai (\(\sqrt{x}\)), nghịch đảo (\(1/x\)), và các hàm lũy thừa khác (\(y^{-2}\)).
- Các biến đổi này có thể áp dụng cho bất kỳ hoặc tất cả các biến giải thích định lượng. Tuy nhiên, biến đổi các yếu tố (factors) - biến định tính - là không có ý nghĩa.
6. Thêm thành phần vào mô hình
- Thay vì biến đổi đơn giản, mối quan hệ phức tạp hơn có thể yêu cầu thêm các thành phần khác vào mô hình để nắm bắt mối quan hệ đó, chẳng hạn như thêm các số mũ của biến giải thích để tạo thành xu hướng đa thức (polynomial trends) hoặc sử dụng splines hồi quy (regression splines).
7. Thực hiện trong R
- Các biến đổi đơn giản có thể được tính toán bằng các hàm R tiêu
chuẩn như
sqrt(x)
,log(y)
,1/x
. - Khi sử dụng các biểu thức số học như
1/x
hoặcx^2
trực tiếp trong công thức của hàmlm()
, chúng cần được bọc trong hàmI()
(ví dụ:I(1/x)
). Điều này là cần thiết vì các ký hiệu như/
hoặc^
có ý nghĩa khác trong công thức mô hình của R (ví dụ:/
có thể chỉ sự lồng ghép,^
chỉ sự tương tác giữa các thành phần), vàI()
bảo toàn cách diễn giải số học thông thường của chúng. - Các hàm như
poly()
,bs()
(cho B-splines) vàns()
(cho Natural splines) được sử dụng để xây dựng các thành phần đa thức hoặc spline từ biến giải thích. - Hàm
termplot()
có thể tạo biểu đồ phần dư bán phần để kiểm tra tính tuyến tính.
3.11 Xu hướng đa thức
1. Mục đích
- Khi mối quan hệ giữa biến phản hồi và các biến giải thích phức tạp hơn so với những gì có thể mô tả bằng các biến đổi đơn giản của biến giải thích, chúng ta có thể xây dựng một xu hướng đa thức như một hàm của một trong các biến giải thích. Bậc của đa thức càng cao, sự phức tạp của xu hướng có thể được mô hình hóa càng lớn.
2. Cách thức hoạt động
- Thay vì biến đổi đơn giản biến giải thích (ví dụ: sử dụng \(\log(x)\)), kỹ thuật này bao gồm việc thêm các số mũ của biến giải thích gốc (chẳng hạn như \(x^2\), \(x^3\)) vào thành phần hệ thống (linear predictor).
- Ví dụ, thay vì \(\mu = \beta_0 + \beta_1 x\), mô hình có thể là \(\mu = \beta_0 + \beta_1 x + \beta_2 x^2 + \beta_3 x^3\) (đây là một đa thức bậc ba theo \(x\)).
3. Phân biệt với Biến đổi đơn giản các biến giải thích
- Biến đổi đơn giản (như \(\log(x)\) hoặc \(\sqrt{x}\)) thường chỉ tạo ra một biến giải thích được biến đổi mới.
- Ngược lại, xu hướng đa thức liên quan đến việc thêm các thuật ngữ mới (term) vào mô hình hồi quy tuyến tính (ví dụ: \(x^2\), \(x^3\)).
- Mô hình vẫn là tuyến tính theo các tham số (\(\beta_0, \beta_1, \beta_2, \beta_3\)), nhưng nó không tuyến tính theo biến giải thích gốc (\(x\)).
4. Thực hiện trong R
- Khi thêm các lũy thừa của biến giải thích vào công thức mô hình
trong R (ví dụ: sử dụng hàm
lm()
hoặcglm()
), cần cẩn thận. Lệnhlm(y ~ x + x^2)
không tạo ra kết quả mong muốn. Ký hiệu^
trong công thức R được diễn giải khác (ví dụ: để biểu thị sự tương tác giữa các thuật ngữ) chứ không phải phép toán số học thông thường. - Để buộc R diễn giải
^
như một phép toán số học, cần bọc thuật ngữ đó trong hàmI()
(ví dụ:lm(y ~ x + I(x^2))
). HàmI()
cách ly thuật ngữ bên trong khỏi việc diễn giải theo cú pháp công thức của R, giữ lại ý nghĩa số học của nó.
5. Vấn đề về Tính tương quan (Collinearity)
- Việc sử dụng các đa thức “thô” (như \(x, x^2, x^3\)) làm biến giải thích có thể dẫn đến độ tương quan cực kỳ cao giữa các biến giải thích này.
- Các biến giải thích có tương quan cao có thể gây khó khăn và nhầm lẫn trong việc lựa chọn mô hình.
6. Đa thức trực giao (Orthogonal Polynomials)
- Để giải quyết vấn đề tương quan cao, thông thường người ta sử dụng các đa thức trực giao (orthogonal polynomials).
- Các đa thức trực giao này có thể được tạo ra bằng cách sử dụng hàm
poly()
trong R. - Cách sử dụng hàm
poly()
là cung cấp tên biến giải thích và bậc của đa thức cần tạo (ví dụ:poly(Temp, 2)
để tạo đa thức trực giao bậc 2 của biếnTemp
). - Ưu điểm của việc sử dụng
poly()
là các hệ số của đa thức đã được fit (ước lượng) không thay đổi khi các đa thức bậc cao hơn được thêm vào mô hình, khác với khi sử dụng các đa thức thô (\(1, x, x^2, ...\)).
7. Kiểm tra chẩn đoán và lựa chọn mô hình
- Biểu đồ phần dư bán phần (partial residual plots) có thể giúp xác định xem biến giải thích có cần được đưa vào mô hình ở thang đo chính xác hay không, bao gồm cả việc thêm các thành phần đa thức.
- Việc lựa chọn bậc phù hợp cho đa thức có thể dựa trên các kiểm định ý nghĩa thống kê hoặc các tiêu chí lựa chọn mô hình khác (chẳng hạn như AIC) và đánh giá sự phù hợp của mô hình với dữ liệu.
- Mô hình bậc quá cao có thể khớp cả thành phần ngẫu nhiên của dữ liệu, dẫn đến dự đoán không đáng tin cậy.
8. Các kỹ thuật liên quan
- Ngoài đa thức, spline hồi quy (regression splines) là một khả năng tổng quát hơn để xây dựng các thành phần mô hình phức tạp từ một biến giải thích, và đôi khi linh hoạt hơn đa thức.
- Hàm
bs()
(cho B-splines) vàns()
(cho Natural splines) trong góisplines
của R được sử dụng để fit splines.
3.12 Hàm spline hồi quy
1. Mục đích
- Khi mối quan hệ giữa biến phản hồi và một biến giải thích không thể được mô tả đầy đủ chỉ bằng một đường thẳng hoặc các dạng đa thức đơn giản, spline hồi quy được sử dụng để xác định một đường cong (spline curve) phù hợp với dữ liệu. Kỹ thuật này cho phép mô hình nắm bắt các hình dạng phức tạp hơn của mối quan hệ.
2. Bản chất là Hồi quy Tuyến tính
- Spline hồi quy về bản chất là một dạng hồi quy tuyến tính. Nó hoạt động bằng cách sử dụng các biến giải thích được lựa chọn đặc biệt (specially chosen covariates) làm cơ sở cho đường cong đã fit. Mô hình vẫn là tuyến tính theo các tham số (\(\beta\)).
3. Cách xây dựng
- Cách tiếp cận đơn giản nhất để xác định đường cong spline là chọn một số lượng “nút” (knots) phù hợp, tùy thuộc vào độ phức tạp của đường cong cần thiết. Các nút là các vị trí trên trục ngang (trục của biến giải thích).
4. Độ phức tạp (Bậc tự do)
- Số lượng hệ số hồi quy được sử dụng để fit đường cong spline được gọi là bậc tự do (degrees of freedom) của đường cong. Bậc tự do càng cao, xu hướng mà đường cong có thể theo dõi càng phức tạp.
5. So sánh với Đa thức
- Spline hồi quy là một khả năng tổng quát hơn để xây dựng các thành phần mô hình phức tạp từ một biến giải thích, đôi khi linh hoạt hơn đa thức.
6. Thực hiện trong R
- Có các hàm chuyên biệt trong R để tạo ra các biến giải thích phục vụ
cho spline hồi quy, như
bs()
(cho B-splines) vàns()
(cho Natural splines), cũng như hàmpoly()
(thường dùng cho đa thức trực giao nhưng cũng có thể fit các dạng cong). - Khi sử dụng các hàm như
ns()
, chúng ta chỉ cần chỉ định biến giải thích và số bậc tự do (df
) mong muốn.
7. Ưu điểm
- Bằng cách chia phạm vi của biến giải thích thành các phần và fit các đa thức (thường là bậc ba) riêng biệt trong mỗi phần, spline hồi quy có thể mô hình hóa các mối quan hệ không tuyến tính cục bộ một cách hiệu quả, với sự ràng buộc (thường là tính liên tục và đạo hàm) tại các nút để tạo ra một đường cong trơn toàn bộ.
3.13 Sửa các giá trị ngoại lai đã được xác định
1. Thời điểm áp dụng
- Phần này được thảo luận sau khi đã thực hiện các chẩn đoán mô hình tổng thể và các biện pháp khắc phục chung (như biến đổi để đảm bảo tính tuyến tính và phương sai hằng số). Sau các bước này, những quan sát được xác định là ngoại lai hoặc có ảnh hưởng trước đó có thể không còn như vậy nữa, nhưng đôi khi vẫn còn hoặc xuất hiện những điểm mới.
2. Bước đầu tiên quan trọng
- Bước đầu tiên và quan trọng nhất khi xử lý các quan sát ngoại lai là cố gắng xác định nguyên nhân của chúng.
3. Các nguyên nhân có thể xảy ra và cách xử lý tương ứng
Việc xác định nguyên nhân sẽ dẫn đến một trong các kết luận và hành động sau:
- Quan sát là một sai lầm đã biết: Ví dụ như lỗi ghi
chép, lỗi vận hành thiết bị, hoặc lỗi trong thí nghiệm.
- Nếu có thể sửa chữa sai lầm, đó là giải pháp lý tưởng.
- Nếu sai lầm không thể sửa chữa và việc xảy ra sai lầm không phụ thuộc vào giá trị của quan sát, thì quan sát vi phạm đó có thể bị loại bỏ. Cần cân nhắc phức tạp hơn nếu lỗi phụ thuộc vào giá trị của biến phản hồi.
- Quan sát được biết là đến từ một quần thể khác: Ví
dụ, một bệnh viện lớn hơn nhiều so với các bệnh viện khác trong nghiên
cứu.
- Nếu quan sát này đến từ một quần thể khác không thuộc phạm vi quan tâm của nghiên cứu, nó có thể được loại bỏ một cách an toàn. Tuy nhiên, cần ghi rõ trong báo cáo kết quả rằng kết quả không áp dụng cho quần thể đó.
- Nếu có một số lượng đáng kể các quan sát từ quần thể thứ cấp này, mô hình có thể được mở rộng để cho phép các giá trị tham số riêng biệt cho hai quần thể, từ đó giữ lại các quan sát này trong phân tích.
- Không có lý do nào được biết giải thích tại sao quan sát là ngoại lai: Trong trường hợp này, việc đưa ra quyết định có loại bỏ hay điều chỉnh mô hình để phù hợp với quan sát đó trở nên phức tạp hơn.
- Quan sát là một sai lầm đã biết: Ví dụ như lỗi ghi
chép, lỗi vận hành thiết bị, hoặc lỗi trong thí nghiệm.
4. Áp dụng cho GLMs
- Các công cụ để xác định quan sát ngoại lai (sử dụng phần dư Studentized) và quan sát có ảnh hưởng trong mô hình hồi quy tuyến tính cũng được áp dụng cho các Mô hình Tuyến tính Tổng quát (GLM).
- Các biện pháp khắc phục cho quan sát ngoại lai và có ảnh hưởng trong GLM cũng có thể bao gồm việc thay đổi cấu trúc mô hình hoặc, trong các trường hợp thích hợp, loại bỏ các quan sát này.
3.14 Đa cộng tuyến (Collinearity)
1. Định nghĩa
- Đa cộng tuyến (Collinearity), đôi khi được gọi là multicollinearity, xảy ra khi ít nhất một số biến giải thích có tương quan cao với nhau, điều này ngụ ý rằng chúng đo lường gần như cùng một thông tin.
2. Hậu quả chính
- Vấn đề chính của đa cộng tuyến là nó gây khó khăn cho việc ước lượng các tham số mô hình (các hệ số hồi quy) một cách chính xác và làm cho việc diễn giải các hệ số hồi quy ước lượng (\(\hat{\beta}_j\)) trở nên khó khăn hoặc gần như không thể, vì chúng trở nên rất phụ thuộc vào các biến khác trong mô hình dự đoán tuyến tính.
- Tuy nhiên, đa cộng tuyến không gây ra vấn đề cho việc dự đoán (prediction).
3. Triệu chứng
- Một triệu chứng của đa cộng tuyến là sai số chuẩn (standard errors) của các hệ số hồi quy bị ảnh hưởng trở nên lớn.
- Nếu hai biến giải thích có tương quan rất cao, thông thường chỉ cần giữ lại một trong số chúng trong mô hình, và cả hai đều có thể hoạt động tốt như nhau từ góc độ thống kê.
4. Cách nhận diện
- Đa cộng tuyến thường được xác định dễ dàng nhất bằng cách kiểm tra các tương quan giữa các biến giải thích.
- Các giá trị tương quan gần 1 hoặc -1 (trong trị tuyệt đối) là đáng lo ngại.
5. Trường hợp đặc biệt và giải pháp
- Một trường hợp đặc biệt của đa cộng tuyến xảy ra khi một biến giải thích và lũy thừa của biến đó (ví dụ: \(x\) và \(x^2\)) được đưa vào cùng một mô hình, vì chúng gần như chắc chắn có tương quan cao.
- Sử dụng đa thức trực giao (orthogonal polynomials) hoặc regression splines là cách để tránh vấn đề này.
6. Các biện pháp khắc phục chung
- Nếu phát hiện hoặc nghi ngờ có đa cộng tuyến, các biện pháp khắc
phục bao gồm:
- Loại bỏ một số biến giải thích khỏi phân tích. Nên ưu tiên loại bỏ các biến giải thích có cơ sở lý thuyết yếu hơn, khó diễn giải hơn hoặc khó thu thập hơn.
- Kết hợp các biến giải thích trong mô hình, với điều kiện việc kết hợp đó có ý nghĩa (ví dụ: kết hợp chiều cao và cân nặng thành Chỉ số khối cơ thể - BMI).
- Thu thập thêm dữ liệu nếu có những quan sát có thể phân biệt tốt hơn các biến giải thích có tương quan.
- Sử dụng các phương pháp đặc biệt, chẳng hạn như hồi quy Ridge (ridge regression), tuy nhiên, những phương pháp này nằm ngoài phạm vi thảo luận trong sách này.
7. Áp dụng cho GLMs
- Các khái niệm và biện pháp khắc phục đa cộng tuyến được thảo luận trong hồi quy tuyến tính cũng áp dụng tương tự cho các Mô hình Tuyến tính Tổng quát (GLMs).
- Đa cộng tuyến trong GLMs cũng không gây vấn đề cho việc dự đoán, nhưng việc ước lượng các tham số \(\hat{\beta}_j\) trở nên khó khăn với độ chính xác cao.
3.15 Sử dụng R để phân tích chẩn đoán mô hình hồi quy tuyến tính
1. Vai trò của R
- R là một môi trường mạnh mẽ và thuận tiện cho phân tích thống kê và đồ họa, bao gồm xây dựng mô hình hồi quy tuyến tính.
- Nó là phần mềm miễn phí và có các giao diện đồ họa hỗ trợ như RStudio.
2. Hàm chính để xây dựng mô hình
- Hàm
lm()
được sử dụng trong R để phù hợp (fit) các mô hình hồi quy tuyến tính. - Các đối số phổ biến bao gồm:
formula
: Xác định biến đáp ứng và biến giải thích (ví dụ:y ~ x1 + x2
).data
: Khung dữ liệu (data frame) chứa các biến.weights
: Trọng số ưu tiên (nếu có).
3. Các lệnh R cho phân tích chẩn đoán
Tính toán các loại phần dư (Residuals):
- Phần dư thô (Raw residuals):
resid(fit)
hoặcresiduals(fit)
. (\(r_i = y_i - \hat{\mu}_i\)) - Phần dư chuẩn hóa (Standardized residuals - r’):
rstandard(fit)
. (Đã điều chỉnh để có phương sai xấp xỉ không đổi) - Phần dư Studentized (Studentized residuals - r’’):
rstudent(fit)
. (Phương sai gần như hằng số, khuyến nghị sử dụng)
- Phần dư thô (Raw residuals):
Tính toán các thước đo ảnh hưởng (Influence Measures):
- Khoảng cách Cook (Cook’s distance - D):
cooks.distance(fit)
. (Mức độ thay đổi của các giá trị dự đoán khi một quan sát bị bỏ đi) - dfbetas:
dfbetas(fit)
. (Mức độ thay đổi của từng hệ số hồi quy khi một quan sát bị bỏ đi) - dffits:
dffits(fit)
. (Mức độ thay đổi của giá trị dự đoán cho một quan sát cụ thể khi chính quan sát đó bị bỏ đi) - Tỷ lệ hiệp phương sai (Covariance ratio - cr):
covratio(fit)
. (Sự thay đổi trong ma trận hiệp phương sai của các ước lượng hệ số hồi quy khi một quan sát bị bỏ đi)
- Khoảng cách Cook (Cook’s distance - D):
Tổng hợp thước đo ảnh hưởng và đòn bẩy:
influence.measures(fit)
. (Bảng chứa tất cả các thước đo ảnh hưởng và giá trị đòn bẩy, đánh dấu các quan sát đáng chú ý bằng*
)Các lệnh hữu ích khác cho chẩn đoán:
- Biểu đồ Q-Q:
qqnorm(rstandard(fit))
(hoặcqqnorm(rstudent(fit))
). Kiểm tra giả định phân phối chuẩn của phần dư. Thêm đường tham chiếu bằngqqline(rstandard(fit))
(hoặcqqline(rstudent(fit))
). - Giá trị dự đoán (Fitted values - \(\hat{\mu}\)):
fitted(fit)
. (Thường dùng làm trục x trong biểu đồ phần dư để kiểm tra phương sai hằng số) - Giá trị đòn bẩy (Leverages - h):
hatvalues(fit)
. (Các phần tử trên đường chéo chính của ma trận mũ, giá trị cao cho thấy tổ hợp biến giải thích bất thường)
- Biểu đồ Q-Q:
Biểu đồ chẩn đoán mặc định:
plot(model)
. (Tự động tạo bốn biểu đồ phần dư hữu ích cho chẩn đoán, xem chi tiết bằng?plot.lm
)
Chương 4: ượt ra ngoài hồi quy tuyến tính: Phương pháp ước lượng hợp lý cực đại
4.1 Giới thiệu và tổng quan
Mô hình hồi quy tuyến tính được giới thiệu trong Chương 2 giả định rằng phương sai là không đổi, có thể đến từ một phân phối chuẩn. Tuy nhiên, có nhiều loại dữ liệu mà trong đó tính ngẫu nhiên không giữ nguyên, vì vậy cần áp dụng các phương pháp khác. Chương này trình bày những tình huống mà mô hình hồi quy tuyến tính không còn phù hợp. Trong những trường hợp đó, phương pháp ước lượng bình phương tối thiểu – như đã sử dụng trong Chương 2 – không còn thích hợp. Thay vào đó, ước lượng hợp lý cực đại (maximum likelihood estimation) là phương pháp phù hợp hơn. Nội dung chương 4 gồm:
Giới thiệu và tổng quan (Mục 4.1)
Sự cần thiết của các mô hình hồi quy không tuân theo phân phối chuẩn (Mục 4.2)
Khái quát hóa mô hình tuyến tính chuẩn (Mục 4.3)
Ý tưởng của ước lượng hợp lý (Mục 4.4)
Ước lượng hợp lý cực đại cho một tham số (Mục 4.5)
Ước lượng hợp lý cực đại cho nhiều tham số (Mục 4.6)
Ước lượng hợp lý cực đại sử dụng đại số ma trận (Mục 4.7)
Phương pháp Fisher Scoring để tính MLE (Mục 4.8)
Các tính chất của ước lượng hợp lý cực đại (Mục 4.9)
Kiểm định giả thuyết: Kết quả xấp xỉ khi mẫu lớn (Mục 4.10)
Khoảng tin cậy (Mục 4.11)
So sánh mô hình không lồng nhau: AIC và BIC (Mục 4.12)
Tóm tắt chương (Mục 4.13)
Phụ lục: Mã R để ước lượng mô hình với dữ liệu mưa Quilpie (Mục 4.14)
4.2 Sự cần thiết của các mô hình hồi quy không tuân theo phân phối chuẩn
1. Giả định của Hồi quy Tuyến tính
- Mô hình hồi quy tuyến tính truyền thống giả định rằng thành phần ngẫu nhiên của dữ liệu có phương sai không đổi (constant variance), và thường là tuân theo phân phối chuẩn (normal distribution).
2. Khi giả định thất bại
- Có nhiều loại dữ liệu mà giả định về phương sai không đổi này không đúng, khiến mô hình hồi quy tuyến tính trở thành một lựa chọn không phù hợp.
3. Các tình huống phổ biến khi hồi quy tuyến tính thất bại
- Các nguồn xác định ba trường hợp phổ biến mà sự biến thiên
(variation) của dữ liệu không cố định:
- Biến đáp ứng (response variable) là tỷ lệ (proportion): Dao động trong khoảng từ 0 đến 1. Phương sai tiến gần 0 khi tỷ lệ dự đoán tiến gần 0 hoặc 1. Dữ liệu bị chặn và không thể tuân theo phân phối chuẩn. Phân phối nhị thức (binomial distribution) có thể phù hợp. Dữ liệu nhị phân (binary data) là một trường hợp đặc biệt.
- Biến đáp ứng là dữ liệu đếm (count): Nhận các giá trị 0, 1, 2, …. Phương sai tiến gần 0 khi số đếm dự đoán tiến gần 0. Dữ liệu rời rạc, không âm và phân phối chuẩn không phù hợp. Phân phối Poisson hoặc nhị thức âm (negative binomial) có thể phù hợp.
- Biến đáp ứng là dữ liệu liên tục dương (> 0): Phương sai tiến gần 0 khi giá trị dự đoán tiến gần 0. Dữ liệu thường lệch phải và phân phối chuẩn cho phép giá trị âm nên không phù hợp. Các phân phối như gamma và inverse Gaussian có thể phù hợp.
4. Mối quan hệ không tuyến tính
- Trong các tình huống trên, mối quan hệ giữa biến đáp ứng và các biến giải thích thường cũng không tuyến tính, một phần do các giới hạn (boundaries) của biến đáp ứng.
5. Hạn chế của biến đổi
- Việc biến đổi biến đáp ứng (ví dụ: lấy log) để cố gắng đạt được cả tính tuyến tính và phương sai không đổi thường dẫn đến việc ổn định phương sai làm phá vỡ tính tuyến tính, và ngược lại. Hồi quy tuyến tính sử dụng biến đổi không thể đồng thời đạt được cả hai mục tiêu này một cách hiệu quả.
6. Sự cần thiết của Mô hình Tuyến tính Tổng quát (GLMs)
- Các tình huống trên cho thấy cần có một phương pháp mô hình hóa linh
hoạt hơn, đó là Mô hình Tuyến tính Tổng quát (GLMs). GLMs giải quyết vấn
đề bằng cách:
- Cho phép biến đáp ứng tuân theo một phân phối từ họ Mô hình Phân tán Hàm mũ (Exponential Dispersion Model - EDM), bao gồm chuẩn, Poisson, nhị thức, gamma, nhị thức âm, v.v.
- Sử dụng hàm liên kết (link function) \(g(\mu) = \eta = \beta_0 + \sum \beta_j x_j\) để liên kết giá trị trung bình (\(\mu\)) của biến đáp ứng với một tổ hợp tuyến tính của các biến giải thích (\(\eta\)).
- Cho phép lựa chọn riêng biệt giữa họ phân phối (thành phần ngẫu nhiên) và hàm liên kết (thành phần hệ thống).
7. Ước lượng tham số
- Vì giả định phân phối chuẩn không còn đúng, việc ước lượng tham số trong GLMs thường sử dụng phương pháp ước lượng khả năng xảy ra cực đại (Maximum Likelihood Estimation - MLE).
4.3 Khái quát hóa mô hình tuyến tính chuẩn
1. Hạn chế của Mô hình Tuyến tính Truyền thống
- Các mô hình hồi quy tuyến tính truyền thống giả định phương sai không đổi (hoặc tỷ lệ với trọng số) và thường là phân phối chuẩn cho biến đáp ứng.
- Nhiều loại dữ liệu thực tế (tỷ lệ, đếm, dương liên tục) vi phạm các giả định này.
2. GLMs là Sự Tổng quát Hóa
- Mô hình Tuyến tính Tổng quát (GLMs) cung cấp một khung lý thuyết chung, thống nhất nhiều mô hình dưới một cấu trúc.
- GLMs vẫn là các mô hình hồi quy tuyến tính theo các tham số.
3. Các Thành phần Tổng quát của GLMs
- GLMs có hai thành phần chính, được lựa chọn riêng biệt:
- Thành phần Ngẫu nhiên (Random Component): Biến đáp ứng tuân theo một phân phối từ họ Mô hình Phân tán Hàm mũ (Exponential Dispersion Model - EDM) (bao gồm chuẩn, nhị thức, Poisson, gamma, nhị thức âm). Sự lựa chọn phân phối phù hợp với dữ liệu và mối quan hệ trung bình-phương sai.
- Thành phần Hệ thống (Systematic Component): Sử dụng hàm liên kết (link function) \(g(\mu) = \eta\), nơi \(\eta = \beta_0 + \sum \beta_j x_j\) là bộ dự báo tuyến tính. Hàm liên kết \(g()\) là đơn điệu và khả vi, cho phép mô hình hóa các mối quan hệ không tuyến tính trên thang đo gốc của biến đáp ứng.
4. Ước lượng Tham số
- Thay vì phương pháp bình phương nhỏ nhất (phù hợp cho phân phối chuẩn), GLMs thường sử dụng phương pháp ước lượng khả năng xảy ra cực đại (Maximum Likelihood Estimation - MLE), phù hợp cho nhiều loại phân phối.
5. Mô hình Tuyến tính là Trường hợp Đặc biệt
- Mô hình hồi quy tuyến tính chuẩn là một trường hợp đặc biệt của GLM khi biến đáp ứng tuân theo phân phối chuẩn và hàm liên kết là hàm đồng nhất (identity link function) (\(g(\mu) = \mu\)).
4.4 Ý tưởng của ước lượng hợp lý
1. Hạn chế của Bình phương nhỏ nhất
- Nguyên tắc bình phương nhỏ nhất phù hợp để ước lượng tham số trong hồi quy tuyến tính với dữ liệu phản hồi có phân phối xấp xỉ chuẩn.
- Nhiều loại dữ liệu không tuân theo phân phối chuẩn hoặc có phương sai không đổi, khiến bình phương nhỏ nhất không còn phù hợp.
2. Giới thiệu Ước lượng Khả năng xảy ra cực đại (MLE)
- Ước lượng Khả năng xảy ra cực đại (Maximum Likelihood Estimation - MLE) là một phương pháp ước lượng tổng quát hơn, phù hợp cho các mô hình phi-chuẩn (như nhị thức, Poisson, gamma).
3. Ý tưởng cốt lõi của MLE
- MLE chọn các ước lượng cho các tham số chưa biết sao cho tối đa hóa hàm mật độ xác suất của dữ liệu quan sát được.
4. Hàm Khả năng xảy ra (Likelihood Function)
- Đối với các quan sát độc lập \(y_1, ..., y_n\) và tham số \(\theta\), hàm mật độ xác suất chung là \(P(y_1, ..., y_n; \theta) = \prod_{i} P(y_i; \theta)\).
- Hàm này, khi xem là hàm của \(\theta\) (với \(y\) cố định), là hàm khả năng xảy ra (likelihood function) \(L(\theta; y)\).
5. Ước lượng Khả năng xảy ra cực đại (MLE)
- Các giá trị tham số \(\theta\) tối đa hóa \(L(\theta; y)\) là ước lượng khả năng xảy ra cực đại (maximum likelihood estimates - mle) \(\hat{\theta}\).
6. Hàm Log-Khả năng xảy ra (Log-Likelihood Function)
- Hàm log-khả năng xảy ra \(\ell(\theta; y) = \log L(\theta; y)\) thường tiện lợi hơn để làm việc, và việc tối đa hóa nó tương đương với tối đa hóa \(L(\theta; y)\).
7. Kết nối với Bình phương nhỏ nhất
- Đối với mô hình hồi quy tuyến tính chuẩn, hàm log-khả năng xảy ra phụ thuộc vào các hệ số \(\beta_j\) thông qua tổng bình phương phần dư (rss).
- Tối đa hóa khả năng xảy ra tương đương với tối thiểu hóa rss. Do đó, MLE giống như bình phương nhỏ nhất đối với mô hình hồi quy chuẩn.
8. Tìm MLE thông qua Hàm Score
- MLE thường là nghiệm duy nhất của phương trình score \(U(\hat{\zeta}) = 0\), nơi \(U(\zeta)\) là hàm score (đạo hàm bậc nhất của log-khả năng xảy ra).
- Việc giải phương trình score thường đòi hỏi các phương pháp số.
9. Thông tin (Information)
- Đạo hàm bậc hai (hoặc ma trận đạo hàm bậc hai) của log-khả năng xảy ra \(J(\zeta)\) cung cấp thông tin về độ chính xác của MLE. Giá trị lớn của \(J(\zeta)\) cho thấy ước lượng chính xác.
10. Ứng dụng trong GLMs
- MLE là nền tảng cho việc ước lượng tham số trong GLMs.
- GLMs cho phép chọn phân phối phù hợp (từ họ EDM) và hàm liên kết, và việc ước lượng tham số dựa trên việc tối đa hóa hàm khả năng xảy ra.
- Ngay cả với Quasi-likelihood (không có phân phối đầy đủ), cấu trúc của hàm score vẫn quan trọng.
11. Tính chất của MLE
- MLE có các tính chất thống kê mong muốn cho cỡ mẫu lớn: không chệch tiệm cận, hiệu quả tiệm cận, nhất quán và có phân phối chuẩn tiệm cận.
12. Kiểm định giả thuyết và Khoảng tin cậy
- Các phương pháp suy luận thống kê (kiểm định Wald, Score, Tỷ số khả năng xảy ra) và tiêu chí so sánh mô hình (AIC, BIC) đều dựa trên lý thuyết khả năng xảy ra.
4.5 Ước lượng hợp lý cực đại cho một tham số
1. Tìm MLE bằng Giải tích
- Để tối đa hóa hàm log-khả năng xảy ra \(\ell(\zeta; y)\) với một tham số duy nhất \(\zeta\), ta tìm điểm mà đạo hàm bậc nhất bằng không.
2. Hàm Score và Phương trình Score
- Hàm score: \(U(\zeta) = \frac{d\ell}{d\zeta}\) (đạo hàm bậc nhất của log-khả năng xảy ra).
- Phương trình score: \(U(\hat{\zeta}) = 0\). Nghiệm \(\hat{\zeta}\) thường là MLE.
- Hàm log-khả năng xảy ra thường đơn cực và có đạo hàm liên tục.
- Kỳ vọng của hàm score tại giá trị tham số thực bằng 0: \(E[U(\zeta)] = 0\).
3. Thông tin (Information)
- Thông tin Quan sát được (Observed Information):
\(J(\zeta) = -\frac{d^2\ell(\zeta;
y)}{d\zeta^2}\) (âm của đạo hàm bậc hai).
- \(J(\zeta) > 0\) gần MLE \(\hat{\zeta}\).
- \(J(\zeta)\) lớn \(\implies\) \(\hat{\zeta}\) chính xác.
- \(J(\zeta)\) nhỏ \(\implies\) \(\hat{\zeta}\) kém chính xác.
- \(J(\zeta)\) đo lường lượng thông tin để ước lượng \(\zeta\).
- Thông tin Kỳ vọng (Expected Information) / Thông tin Fisher (Fisher Information): \(I(\zeta) = E[J(\zeta)]\).
4. Sai số Chuẩn (Standard Errors)
- Phương sai của MLE: \(var[\hat{\zeta}] \approx \frac{1}{I(\zeta)}\).
- Sai số chuẩn ước tính: \(se(\hat{\zeta}) \approx \frac{1}{\sqrt{J(\hat{\zeta})}}\) hoặc \(\frac{1}{\sqrt{I(\hat{\zeta})}}\).
5. Ví dụ: Phân phối Bernoulli (dữ liệu lượng mưa Quilpie)
- Tham số: \(\mu\) (xác suất).
- Hàm score: \(U(\mu) = n(\bar{y} - \mu) / (\mu(1-\mu))\).
- MLE: \(\hat{\mu} = \bar{y}\) (tỷ lệ mẫu).
- Thông tin quan sát và kỳ vọng tại \(\hat{\mu}\): \(J(\hat{\mu}) = n / (\hat{\mu}(1-\hat{\mu}))\).
- Sai số chuẩn có thể được tính từ \(J(\hat{\mu})\).
6. Phương pháp Số
- Trong nhiều trường hợp, việc giải phương trình score \(U(\hat{\zeta}) = 0\) đòi hỏi sử dụng các phương pháp số.
7. Nền tảng cho GLMs
- Các ý tưởng và công cụ (hàm score, thông tin) là nền tảng cho việc ước lượng tham số trong GLMs với nhiều tham số.
4.6 Ước lượng hợp lý cực đại cho nhiều tham số
1. Bối cảnh
- Trong các mô hình hồi quy (bao gồm GLMs) với biến giải thích, trung bình của đáp ứng (\(\mu_i\)) được mô hình hóa như một hàm của các biến giải thích (\(x_{ij}\)) và các tham số hồi quy (\(\beta_j\)).
- Các mô hình này thường có nhiều tham số cần ước lượng.
2. Phương trình Score (Score Equations)
- Với vector tham số \(\zeta = [\zeta_1, ..., \zeta_q]\), hàm log-khả năng xảy ra là \(\ell(\zeta; y)\).
- Vector score: \(U(\zeta)\), với thành phần thứ \(j\) là \(U(\zeta_j) = \frac{\partial\ell(\zeta; y)}{\partial\zeta_j}\).
- MLE \(\hat{\zeta}\) thường là nghiệm của hệ phương trình \(U(\hat{\zeta}) = 0\).
- Kỳ vọng của vector score tại giá trị tham số thực bằng 0: \(E[U(\zeta)] = \mathbf{0}\).
- Việc giải hệ phương trình score thường yêu cầu các phương pháp số lặp lại (thuật toán ma trận).
3. Thông tin (Information): Quan sát được (Observed) và Kỳ vọng (Expected)
- Ma trận thông tin quan sát được (observed information matrix): \(J(\zeta)\), với phần tử \((j, k)\) là \(J_{jk}(\zeta) = -\frac{\partial^2\ell(\zeta; y)}{\partial\zeta_j \partial\zeta_k}\). Đo lường lượng thông tin từ dữ liệu.
- Ma trận thông tin kỳ vọng (expected information matrix) / Ma trận thông tin Fisher (Fisher information matrix): \(I(\zeta) = E[J(\zeta)]\).
- Trong một số trường hợp, \(J(\zeta) = I(\zeta)\).
4. Sai số Chuẩn (Standard Errors) của Tham số
- Ma trận hiệp phương sai tiệm cận của \(\hat{\zeta}\): \(var[\hat{\zeta}] = I(\zeta_0)^{-1}\).
- Phương sai tiệm cận của từng ước lượng tham số \(\hat{\zeta}_j\) là phần tử trên đường chéo của \(I(\zeta_0)^{-1}\).
- Sai số chuẩn ước tính: \(se(\hat{\beta}_j) \approx \sqrt{[I(\hat{\zeta})^{-1}]_{jj}}\) hoặc \(\sqrt{[J(\hat{\zeta})^{-1}]_{jj}}\).
5. Nền tảng cho GLMs
- Khái niệm về phương trình score và ma trận thông tin là công cụ cốt lõi để ước lượng các tham số hồi quy (\(\beta_j\)) trong GLMs.
4.7 Ước lượng hợp lý cực đại sử dụng đại số ma trận
1. Ký hiệu
- Vector tham số: \(\zeta = [\zeta_1, ..., \zeta_q]\).
- Hàm khả năng xảy ra: \(L(\zeta; y)\).
- Hàm log-khả năng xảy ra: \(\ell(\zeta; y)\).
- Ước lượng khả năng xảy ra cực đại: \(\hat{\zeta} = [\hat{\zeta}_1, ..., \hat{\zeta}_q]\).
2. Phương trình Score (Score Equations)
- Vector score: \(U(\zeta) = \frac{\partial\ell(\zeta; y)}{\partial\zeta} = \left[ \frac{\partial\ell(\zeta; y)}{\partial\zeta_1}, ..., \frac{\partial\ell(\zeta; y)}{\partial\zeta_q} \right]^T\).
- Phương trình score vector: \(U(\hat{\zeta}) = \mathbf{0}\) (vector không).
- Giải hệ phương trình này thường bằng các phương pháp số lặp lại.
3. Thông tin (Information): Quan sát được (Observed) và Kỳ vọng (Expected)
- Ma trận thông tin quan sát được: \(J(\zeta)\), với phần tử \((j, k)\): \(J_{jk}(\zeta) = -\frac{\partial^2\ell(\zeta; y)}{\partial\zeta_j \partial\zeta_k}\). Đo lường thông tin từ dữ liệu.
- Ma trận thông tin kỳ vọng (Fisher information matrix): \(I(\zeta) = E[J(\zeta)]\).
- Các ma trận này thường liên quan đến các tham số hồi quy \(\beta\).
- Trong một số trường hợp (ví dụ: Bernoulli với liên kết logit), \(J(\zeta) = I(\zeta)\).
4. Sai số Chuẩn (Standard Errors) của Tham số
- Ma trận hiệp phương sai tiệm cận của \(\hat{\zeta}\): \(var[\hat{\zeta}] \approx I(\hat{\zeta})^{-1}\) hoặc \(var[\hat{\zeta}] = I(\zeta_0)^{-1}\).
- Sai số chuẩn của \(\hat{\zeta}_j\): \(se(\hat{\zeta}_j) \approx \sqrt{[I(\hat{\zeta})^{-1}]_{jj}}\).
4.8 Phương pháp Fisher Scoring để tính MLE
1. Mục đích
- Thuật toán Fisher Scoring được sử dụng để tìm nghiệm cho hệ phương trình score \(U(\hat{\zeta}) = 0\), nhằm xác định ước lượng MLE \(\hat{\zeta}\). Việc giải hệ phương trình này thường đòi hỏi các phương pháp số lặp lại.
2. Nền tảng
- Thuật toán Fisher Scoring là một biến thể của phương pháp Newton–Raphson.
3. Công thức lặp
- Bước lặp của Fisher Scoring: \[\hat{\zeta}^{(r+1)} = \hat{\zeta}^{(r)} +
I(\hat{\zeta}^{(r)})^{-1}U(\hat{\zeta}^{(r)})\]
- \(\hat{\zeta}^{(r)}\): Ước lượng của vector tham số \(\zeta\) tại bước lặp \(r\).
- \(U(\hat{\zeta}^{(r)})\): Vector score tại \(\hat{\zeta}^{(r)}\).
- \(I(\hat{\zeta}^{(r)})^{-1}\): Nghịch đảo của ma trận thông tin Fisher tại \(\hat{\zeta}^{(r)}\).
4. Tại sao sử dụng Ma trận Thông tin Fisher
- Phương pháp Newton-Raphson gốc sử dụng nghịch đảo của ma trận thông tin quan sát được \(J(\zeta)\).
- Fisher Scoring sử dụng ma trận thông tin kỳ vọng \(I(\zeta)\) vì \(I(\zeta)\) thường có dạng đơn giản hơn \(J(\zeta)\).
5. Ứng dụng trong GLMs
- Fisher Scoring hiệu quả để tính toán MLE cho các tham số hồi quy \(\beta_j\) trong GLMs.
- Dạng ma trận của phương trình score và ma trận thông tin cho \(\beta\) trong GLMs:
- \(U = X^T W M (y - \mu) / \phi\)
- \(I = X^T W X / \phi\)
- Công thức lặp Fisher Scoring cho \(\beta\) trong GLMs: \[\hat{\beta}^{(r+1)} = \hat{\beta}^{(r)} + (X^T W X)^{-1} X^T W M (y - \hat{\mu})\]
- Tham số phân tán \(\phi\) bị triệt tiêu trong công thức cập nhật \(\beta_j\), do đó không cần biết giá trị của \(\phi\) để ước lượng \(\beta_j\).
6. Iteratively Reweighted Least Squares (IRLS)
- Thuật toán Fisher Scoring để ước lượng \(\beta\) trong GLMs có thể được tổ chức lại thành iteratively reweighted least squares (IRLS).
- Mỗi bước lặp tương đương với việc thực hiện hồi quy bình phương tối thiểu có trọng số trên các “đáp ứng làm việc” (working responses).
7. Thực thi trong R
- Hàm
glm()
trong R tự động thực hiện quá trình lặp Fisher Scoring/IRLS để tìm các ước lượng MLE cho các tham số trong GLMs.
4.9 Các tính chất của ước lượng hợp lý cực đại
Các tính chất quan trọng của MLEs
Tính bất biến (Invariant): Nếu \(s(\zeta)\) là hàm một-đối-một của \(\zeta\), thì \(s(\hat{\zeta})\) là MLE của \(s(\zeta)\).
Tính không chệch tiệm cận (Asymptotically unbiased): \(E[\hat{\zeta}] \rightarrow \zeta\) khi \(n \rightarrow \infty\). (Có thể chệch cho mẫu nhỏ, trừ một số trường hợp như \(\hat{\beta}_j\) trong hồi quy tuyến tính chuẩn).
Tính hiệu quả tiệm cận (Asymptotically efficient): Không có ước lượng không chệch tiệm cận nào khác có phương sai nhỏ hơn. Ước lượng hiệu quả phải tương đương tiệm cận với \(\hat{\zeta}\).
Tính vững (Consistent): \(\hat{\zeta} \rightarrow \zeta\) khi \(n \rightarrow \infty\).
Phân phối chuẩn tiệm cận (Asymptotically normally distributed) và Phương sai/Hiệp phương sai:
- Trường hợp một tham số (\(\zeta\)): \(\hat{\zeta} \sim N(\zeta_0, 1/I(\zeta_0))\) khi \(n\) lớn. \(var[\hat{\zeta}] = 1/I(\zeta_0)\). \(se(\hat{\zeta}) = \sqrt{1/I(\zeta_0)}\).
- Trường hợp nhiều tham số (vector \(\zeta\)): Vector ước lượng MLE \(\hat{\zeta}\) có phân phối chuẩn đa biến tiệm cận với ma trận hiệp phương sai tiệm cận là nghịch đảo của ma trận thông tin Fisher \(I(\zeta_0)^{-1}\). Sai số chuẩn của từng tham số \(\hat{\zeta}_j\) được tính từ căn bậc hai của phần tử đường chéo tương ứng của \(I(\hat{\zeta})^{-1}\).
4.10 Kiểm định giả thuyết: Kết quả xấp xỉ khi mẫu lớn
1. Mục đích
- Kiểm định giả thuyết về các tham số sau khi ước lượng (thường bằng MLE).
2. Ba Phương pháp Kiểm định chính
- Wald Test: Dựa trên khoảng cách giữa \(\hat{\zeta}\) và \(\zeta_0\), chuẩn hóa bằng ước lượng phương sai/hiệp phương sai của \(\hat{\zeta}\).
- Score Test: Dựa trên độ dốc của hàm log-khả năng xảy ra tại \(\zeta_0\), chuẩn hóa bằng thông tin Fisher tại \(\zeta_0\). Không cần tính toán \(\hat{\zeta}\).
- Likelihood Ratio Test (LRT): Dựa trên sự khác biệt giữa \(\ell(\hat{\zeta})\) và \(\ell(\zeta_0)\), thống kê kiểm định là \(2[\ell(\hat{\zeta}) - \ell(\zeta_0)]\). Cần tính toán MLE cho cả mô hình đầy đủ và mô hình dưới giả thuyết null.
3. Phân phối Tiệm cận (Asymptotic Distribution)
- Kiểm định một tham số: Thống kê \(W, S, L \sim \chi^2_1\) tiệm cận. \(\sqrt{W}\) hoặc \(\sqrt{S} \sim N(0, 1)\) cho giả thuyết thay thế một phía.
- Kiểm định nhiều tham số (hoặc tập con): Thống kê \(W, S, L \sim \chi^2_q\) tiệm cận (\(q\) là số tham số kiểm định).
- Ảnh hưởng của \(\phi\) (tham số phân tán): Nếu \(\phi\) chưa biết, LRT so sánh mô hình lồng nhau dùng \(F\) tiệm cận. Kiểm định Wald/Score cho tham số riêng lẻ dùng \(t\) tiệm cận.
4. So sánh và Tính tin cậy
- Wald: Dễ thực hiện (từ kết quả ước lượng), có công thức rõ ràng cho tham số riêng lẻ.
- Score: Ít tính toán hơn.
- LRT: Cần ước lượng hai mô hình, kết quả thường trình bày trong bảng Phân tích Deviance.
- Quan trọng: Với dữ liệu nhị thức/Poisson và \(\hat{\mu}\) gần 0 hoặc 1, kiểm định Wald có thể không đáng tin cậy (Hiệu ứng Hauck–Donner). \(\hat{\beta} \rightarrow \pm\infty\), \(se(\hat{\beta}) \rightarrow \pm\infty\), \(W \rightarrow 0\).
- LRT và Score thường đáng tin cậy hơn trong trường hợp này, xấp xỉ tiệm cận tốt hơn và không bị ảnh hưởng bởi cách tham số hóa.
5. Phân biệt với Kiểm định Goodness-of-Fit
- Kiểm định Deviance và Pearson (Goodness-of-Fit) cũng dùng \(\chi^2\) tiệm cận, nhưng dựa trên lý thuyết tiệm cận cho phân tán nhỏ (small dispersion asymptotics), không phải mẫu lớn.
4.11 Khoảng tin cậy
Khoảng tin cậy trong Mô hình Hồi quy
Khoảng tin cậy ước lượng độ lớn của hiệu ứng và cung cấp phạm vi giá trị hợp lý cho tham số hoặc giá trị trung bình dự đoán.
Các loại khoảng tin cậy:
- Khoảng tin cậy cho từng hệ số hồi quy (\(\hat{\beta}_j\)).
- Khoảng tin cậy cho giá trị trung bình dự đoán (\(\hat{\mu}\)).
- Vùng tin cậy đồng thời cho nhiều tham số.
- Khoảng tin cậy cho tham số chỉ số Tweedie (\(\xi\)).
Ba phương pháp tính khoảng tin cậy (dựa trên MLE):
- Khoảng tin cậy Wald: Dựa trên khoảng cách từ MLE (\(\hat{\zeta}\)). Phổ biến nhất cho hệ số riêng lẻ trong GLMs.
- Khoảng tin cậy Score: Dựa trên độ dốc của hàm log-khả năng xảy ra.
- Khoảng tin cậy Tỷ số Khả năng xảy ra (LR): Dựa trên sự khác biệt giữa \(\ell(\hat{\zeta})\) và \(\ell(\zeta)\).
Cả ba phương pháp dựa trên kết quả tiệm cận cho mẫu lớn (\(\chi^2\) phân phối).
Phân phối được sử dụng:
- Hồi quy tuyến tính chuẩn:
- \(\sigma^2\) chưa biết: phân phối t của Student (\(n - p'\) bậc tự do).
- \(\sigma^2\) đã biết: phân phối Chuẩn tắc.
- GLMs:
- \(\phi\) đã biết: phân phối Chuẩn tắc (Z) tiệm cận (cho \(\beta_j\) và \(\hat{\eta}\)).
- \(\phi\) chưa biết (ước lượng Pearson): phân phối t của Student (\(n - p'\) bậc tự do) tiệm cận (cho \(\beta_j\) và \(\hat{\eta}\)). (Xấp xỉ tốt hơn cho mẫu nhỏ/vừa).
Tính đối xứng của khoảng tin cậy:
- Khoảng tin cậy Wald cho \(\hat{\beta}_j\) hoặc \(\hat{\eta}\) là đối xứng trên thang đo của \(\beta\) hoặc \(\eta\).
- Khoảng tin cậy cho \(\hat{\mu}\) (sau khi chuyển đổi từ \(\hat{\eta}\)) thường không đối xứng.
- Khoảng tin cậy Score và LR cũng không nhất thiết đối xứng.
Tính toán trong R:
confint()
: Tính khoảng tin cậy Wald cho \(\hat{\beta}_j\) (mặc định 95%, có thể điều chỉnh bằnglevel
). Sử dụng ước lượng Pearson của \(\phi\) nếu chưa biết.predict(se.fit=TRUE)
: Trả về sai số chuẩn của \(\hat{\eta}\) (hoặc \(\hat{\mu}\) nếutype="response"
), dùng để xây dựng khoảng tin cậy cho \(\hat{\mu}\) (thường tính cho \(\hat{\eta}\) trước rồi chuyển đổi).
Khoảng tin cậy hữu ích để đưa ra kết luận về phạm vi giá trị có thể có của các tham số hoặc giá trị trung bình của biến phản hồi.
Chương 5: Mô hình tuyến tính tổng quát: Cấu trúc
5.1 Giới thiệu và tổng quan
Chương 2 và 3 đã xem xét các mô hình hồi quy tuyến tính. Những mô hình này giả định phương sai không đổi, điều mà rõ ràng là không đúng với mọi dữ liệu, như đã được chỉ ra trong Chương 4. Mô hình tuyến tính tổng quát (GLM) giả định rằng các biến phản hồi đến từ một phân phối thuộc một họ phân phối tổng quát hơn, đồng thời cho phép các thành phần hệ thống tổng quát hơn. Chương 5 bao gồm các nội dung:
Giới thiệu và tổng quan (Mục 5.1)
Hai thành phần của mô hình tuyến tính tổng quát (Mục 5.2)
Thành phần ngẫu nhiên: Các mô hình phân tán theo hàm mũ (EDM) (Mục 5.3)
EDM ở dạng mô hình phân tán (Mục 5.4)
Thành phần có hệ thống (Mục 5.5)
Định nghĩa mô hình tuyến tính tổng quát (Mục 5.6)
Độ lệch toàn phần (Mục 5.7)
Các phép biến đổi hồi quy xấp xỉ mô hình tuyến tính tổng quát (Mục 5.8)
Tóm tắt chương (Mục 5.9)
5.2 Hai thành phần của mô hình tuyến tính tổng quát
Một GLM là một mô hình hồi quy với hai thành phần chính:
1. Thành phần Ngẫu nhiên (Random Component):
- Mô tả phân phối xác suất của biến phản hồi (\(y\)).
- Giả định \(y_i\) độc lập và tuân
theo một Mô hình Phân tán Lũy thừa (Exponential Dispersion Model
- EDM): \(y_i \sim edm(\mu_i,
\phi/w_i)\).
- \(\mu_i = E[y_i]\): Giá trị kỳ vọng của \(y_i\).
- \(\phi\): Tham số phân tán (thường chưa biết, cần ước lượng).
- \(w_i\): Trọng số trước (đã biết, không âm, thường bằng 1).
- Việc chọn phân phối EDM (Normal, Binomial, Poisson, Gamma, …) dựa trên bản chất của \(y\) và mối quan hệ trung bình-phương sai.
2. Thành phần Hệ thống (Systematic Component):
- Mô tả mối quan hệ giữa các biến giải thích và \(\mu\).
- Sử dụng bộ dự báo tuyến tính (linear predictor) \(\eta = \beta_0 + \sum_{j=1}^{p} \beta_j x_j\) (tuyến tính theo \(\beta_j\)).
- Liên kết \(\mu\) với \(\eta\) thông qua một hàm liên kết
(link function) \(g(\cdot)\):
\(g(\mu) = \eta\).
- \(g(\cdot)\) là hàm đơn điệu và khả vi.
- Tính đơn điệu: Mỗi \(\eta\) tương ứng với một \(\mu\) duy nhất.
- Tính khả vi: Cần cho quá trình ước lượng.
- Hàm liên kết chính tắc (canonical link function):
\(g(\mu) = \theta\) (tham số chính tắc
của EDM).
- Ví dụ: Normal - đồng nhất (\(g(\mu) = \mu\)), Poisson - logarit (\(g(\mu) = \log \mu\)).
- Phần bù (offsets) \(o_i\): Thành phần đã biết trong bộ dự báo tuyến tính, không chứa tham số chưa biết: \(\eta_i = o_i + \beta_0 + \sum_{j=1}^{p} \beta_j x_{ji}\) (thường dùng trong Poisson GLM khi mô hình hóa tỷ lệ, thường bằng 0).
5.3 Thành phần ngẫu nhiên: Các mô hình phân tán theo hàm mũ (EDM)
1. Vai trò của Thành phần Ngẫu nhiên trong GLM
- Mô tả phân phối xác suất của biến phản hồi (\(y\)).
- Có hình thức cụ thể dựa trên việc chọn phân phối xác suất phù hợp.
2. Giả định về Phân phối của Biến Phản hồi
- Các quan sát \(y_i\) độc lập và
tuân theo Mô hình Phân tán Lũy thừa (Exponential Dispersion
Models - EDMs): \(y_i \sim edm(\mu_i,
\phi/w_i)\).
- \(\mu_i\): Giá trị kỳ vọng của \(y_i\).
- \(\phi > 0\): Tham số phân tán.
- \(w_i \ge 0\): Trọng số trước (thường bằng 1).
3. Định nghĩa của Mô hình Phân tán Lũy thừa (EDMs)
- Hàm mật độ/khối xác suất dạng chính tắc: \(P(y; \theta, \phi) = a(y, \phi) \exp \{ (y\theta -
\kappa(\theta)) / \phi \}\).
- \(\theta\): Tham số chính tắc.
- \(\kappa(\theta)\): Hàm tích lũy (cumulant function).
- \(\phi > 0\): Tham số phân tán.
- \(a(y, \phi)\): Hàm chuẩn hóa.
4. Mối quan hệ giữa Tham số EDM và Mean/Variance
- Giá trị kỳ vọng (mean): \(\mu = E[y] = d\kappa/d\theta\).
- Phương sai (variance): \(var[y] = \phi V(\mu)\).
- Hàm phương sai: \(V(\mu) = d^2\kappa(\theta)/d\theta^2 = d\mu/d\theta\).
- Hàm phương sai duy nhất xác định phân phối trong lớp EDMs.
5. Các Ví dụ về EDM
- EDM liên tục: Normal (\(V(\mu)=1\)), Gamma (\(V(\mu)=\mu^2\)), Inverse Gaussian (\(V(\mu)=\mu^3\)), Tweedie (\(V(\mu)=\mu^\xi\), \(\xi \ge 2\) hoặc \(\xi < 0\)), Exponential.
- EDM rời rạc: Poisson (\(V(\mu)=\mu\)), Binomial (\(V(\mu)=\mu(1-\mu)\)), Negative Binomial.
6. Dạng Mô hình Phân tán (Dispersion Model Form)
- Hàm xác suất dạng mô hình phân tán: \(P(y; \mu, \phi) = b(y, \phi) \exp \{ -1/(2\phi) d(y, \mu) \}\).
- Độ lệch đơn vị (unit deviance): \(d(y, \mu) = 2 \{t(y, y) - t(y, \mu)\}\) (liên quan đến log-likelihood).
- \(d(y, \mu) = 0\) khi \(y = \mu\), tăng khi \(\mu\) xa \(y\) (thước đo khoảng cách).
5.4 EDM ở dạng mô hình phân tán
1. Độ Lệch Đơn Vị (The Unit Deviance)
- Định nghĩa: \(d(y, \mu) = 2 \{t(y, y) - t(y, \mu)\}\), liên quan đến log-likelihood.
- Đặc điểm:
- \(d(y, \mu) \ge 0\).
- \(d(y, \mu) = 0\) khi và chỉ khi \(y = \mu\).
- \(d(y, \mu)\) tăng khi \(\mu\) rời xa \(y\).
- Thước đo khoảng cách giữa \(y\) và \(\mu\).
- Ví dụ: Phân phối Chuẩn: \(d(y, \mu) = (y - \mu)^2\).
- Tổng quát hóa cho trường hợp \(y\) ở biên của miền giá trị của \(\mu\).
2. Dạng Mô hình Phân tán (The Dispersion Model Form)
- Hàm xác suất: \(P(y; \mu, \phi) = b(y, \phi) \exp \{ - 1/(2\phi) d(y, \mu) \}\).
- \(b(y, \phi)\): Hàm (có thể không có dạng đóng).
- \(\phi > 0\): Tham số phân tán.
- Dạng này quan trọng cho các nội dung sau.
3. Xấp xỉ Saddlepoint (The Saddlepoint Approximation)
- Định nghĩa: \(\tilde{P}(y; \mu, \phi) = \frac{1}{\sqrt{2\pi\phi V(y)}} \exp \{ -d(y, \mu) / (2\phi) \}\).
- So sánh với dạng mô hình phân tán: \(b(y, \phi) \approx \frac{1}{\sqrt{2\pi\phi V(y)}}\).
- Chính xác cho phân phối Chuẩn.
- Chính xác khi \(\phi \rightarrow 0\).
4. Phân phối của Độ Lệch Đơn Vị (The Distribution of the Unit Deviance)
- Nếu xấp xỉ saddlepoint chính xác, thì \(d(y, \mu) \sim \chi^2_1\). (Chứng minh bằng hàm sinh tích lũy).
- Chính xác cho phân phối Chuẩn và Inverse Gaussian.
- Đối với EDM khác, cần xấp xỉ saddlepoint chính xác cho mọi \(y\) có khả năng xảy ra. Yêu cầu \(\mu\) và \(\phi\) sao cho \(y\) gần biên không quá có khả năng.
- Điều kiện để \(E[d(y, \mu)] = 1\)
(giá trị kỳ vọng chính xác của \(\chi^2_1\)):
- Nhị thức: \(m\mu \ge 3\) và \(m(1 - \mu) \ge 3\).
- Poisson: \(\mu \ge 3\).
- Gamma: \(\phi \le 1/3\).
5.5 Thành phần có hệ thống
1. Vai trò Tổng quát
- Thành phần hệ thống cùng với thành phần ngẫu nhiên tạo nên mô hình thống kê, mô tả mối quan hệ giữa giá trị kỳ vọng của biến phản hồi (\(\mu\)) và các biến giải thích.
2. Cấu trúc Cụ thể trong GLM
- Kết nối giá trị kỳ vọng (\(\mu\)) với bộ dự báo tuyến tính (linear predictor) (\(\eta\)) thông qua hàm liên kết (link function) (\(g()\)).
3. Bộ Dự báo Tuyến tính (The Linear Predictor)
- Dạng tuyến tính theo các tham số không xác định (\(\beta\)): \(\eta = \beta_0 + \sum_{j=1}^{p} \beta_j x_{ji}\).
- Có thể bao gồm phần bù (offsets) (\(o_i\)): \(\eta_i = o_i + \beta_0 + \sum_{j=1}^{p} \beta_j x_{ji}\).
- Tất cả các mô hình trong sách là hồi quy tuyến tính theo tham số.
4. Hàm Liên kết (The Link Function)
- Liên kết \(\mu\) và \(\eta\): \(g(\mu) = \eta\).
- Tính chất: đơn điệu (monotonic) và khả vi (differentiable).
- Đơn điệu: Mỗi \(\eta\) tương ứng với một \(\mu\) duy nhất.
- Khả vi: Cần cho ước lượng tham số.
- Đảm bảo \(\mu\) nằm trong phạm vi giá trị cho phép của phân phối.
- Định hình tác động của biến giải thích lên \(\mu\) (ví dụ: log link tạo tác động nhân).
- Việc chọn phân phối thường gợi ý hàm liên kết phù hợp.
5. Hàm Liên kết Chính tắc (The Canonical Link Function)
- Định nghĩa: \(\eta = \theta = g(\mu)\), với \(\theta\) là tham số chính tắc của EDM.
- Trong R (
glm()
), nếu không chỉ định, hàm liên kết mặc định thường là chính tắc. - Ví dụ:
- Normal: đồng nhất (\(g(\mu) = \mu\)).
- Poisson: logarit (\(g(\mu) = \log \mu\)).
- Binomial: logistic (logit link).
6. Ý nghĩa
- Thành phần hệ thống biểu diễn xu hướng có hệ thống, giải thích phần biến thiên của biến phản hồi do các biến giải thích gây ra.
5.6 Định nghĩa mô hình tuyến tính tổng quát
Một GLM bao gồm hai thành phần chính:
1. Thành phần Ngẫu nhiên (Random Component):
- Các quan sát \(y_i\) độc lập và
tuân theo phân phối từ Mô hình Phân tán Lũy thừa (EDM):
\(y_i \sim edm(\mu_i, \phi/w_i)\)
(\(i = 1, ..., n\)).
- \(\mu_i\): Giá trị trung bình (kỳ vọng) của \(y_i\).
- \(\phi > 0\): Tham số phân tán.
- \(w_i \ge 0\): Trọng số ưu tiên (đã biết).
2. Thành phần Hệ thống (Systematic Component):
- Liên kết \(\mu_i\) với các biến
giải thích thông qua hàm liên kết (link function) \(g(\cdot)\): \(g(\mu_i) = \eta_i\).
- \(g(\cdot)\): Đơn điệu và khả vi.
- Bộ dự báo tuyến tính (linear predictor) \(\eta_i = \beta_0 + \sum_{j=1}^{p} \beta_j x_{ji}\) (tuyến tính theo \(\beta_j\)).
- Có thể bao gồm phần bù (offsets) \(o_i\): \(\eta_i = o_i + \beta_0 + \sum_{j=1}^{p} \beta_j x_{ji}\) (thường dùng trong Poisson GLM cho tỷ lệ/mật độ, liên quan đến “mức độ phơi nhiễm”).
- GLM là mô hình hồi quy tuyến tính theo tham số.
Định nghĩa chính thức của GLM:
\[\begin{cases} y_i \sim edm(\mu_i, \phi/w_i) \\ g(\mu_i) = o_i + \beta_0 + \sum_{j=1}^{p} \beta_j x_{ji} \end{cases}\]
Cấu trúc cốt lõi xác định bởi việc chọn phân phối EDM và hàm liên kết.
Mô hình hồi quy tuyến tính (Normal linear regression models) là một trường hợp đặc biệt của GLM:
- Thành phần ngẫu nhiên: \(y_i \sim N(\mu_i, \sigma^2/w_i)\).
- Hàm liên kết: đồng nhất (\(g(\mu_i) = \mu_i\)).
- Bộ dự báo tuyến tính: \(\mu_i = \beta_0 + \sum_{j=1}^{p} \beta_j x_{ji}\).
- \(\sigma^2\) tương ứng với \(\phi\) trong GLM tổng quát.
5.7 Độ lệch toàn phần
1. Định nghĩa: Tổng Độ Lệch (Total Deviance)
- Thước đo tổng thể về sự khác biệt/khoảng cách giữa giá trị quan sát (\(y_i\)) và giá trị trung bình dự đoán (\(\mu_i\)).
2. Công thức: Tổng Độ Lệch (D(y, μ))
- \(D(y, \mu) = \sum_{i=1}^{n} w_i d(y_i,
\mu_i)\)
- \(y_i\): Giá trị quan sát thứ \(i\).
- \(\mu_i\): Giá trị trung bình dự đoán cho quan sát \(i\) (từ thành phần hệ thống).
- \(w_i\): Trọng số ưu tiên (thường bằng 1).
- \(d(y, \mu)\): Độ lệch đơn vị (khoảng cách giữa \(y\) và \(\mu\), \(d(y, \mu) \ge 0\), \(d(y, \mu) = 0\) khi \(y = \mu\), bắt nguồn từ EDM).
3. Độ Lệch Được Chia Tỷ Lệ (Scaled Deviance)
- \(D^*(y, \mu) = D(y, \mu) / \phi\)
- \(\phi\): Tham số phân tán.
4. Ý nghĩa và Vai trò
- Tổng Độ Lệch nắm bắt phần của log-likelihood phụ thuộc vào \(\mu_i\).
- Tối đa hóa log-likelihood tương đương với tối thiểu hóa Tổng Độ Lệch (nếu \(\phi\) đã biết) để ước lượng \(\beta_j\).
- Độ Lệch Được Chia Tỷ Lệ (\(D^*(y, \mu)\)) xấp xỉ \(\chi^2_n\) (n bậc tự do) dựa trên xấp xỉ điểm yên ngựa (nếu \(\mu_i\) và \(\phi\) là giá trị thực). (Chính xác cho hồi quy tuyến tính Chuẩn, xấp xỉ điểm yên ngựa cũng chính xác cho Chuẩn và Inverse Gaussian).
- Tổng Độ Lệch là thành phần chính để định nghĩa Độ Lệch Dư (Residual Deviance) (\(D(y, \hat{\mu})\)) khi dùng giá trị trung bình ước lượng (\(\hat{\mu}\)). Độ lệch dư dùng trong kiểm định và đánh giá mô hình.
5.8 Các phép biến đổi hồi quy xấp xỉ mô hình tuyến tính tổng quát
Mối liên hệ giữa Biến đổi Ổn định Phương sai và GLM
Ý tưởng chính là các phép biến đổi ổn định phương sai trong hồi quy tuyến tính có thể được xem như là một cách xấp xỉ việc trang bị một GLM.
Giải thích:
- Xét biến đổi \(y^* = h(y)\).
- Sử dụng khai triển Taylor bậc nhất: \(var[y^*] \approx h'(\mu)^2 var[y]\).
- Để \(var[y^*]\) xấp xỉ không đổi, \(h'(\mu) \propto var[y]^{-1/2} = V(\mu)^{-1/2}\).
- Do đó, biến đổi \(h(y)\) xấp xỉ GLM với hàm phương sai \(V(\mu) = 1/h'(\mu)^2\) và hàm liên kết \(g(\mu) = h(\mu)\).
- Lựa chọn \(h(y)\) ảnh hưởng đến cả họ EDM ngụ ý và hàm liên kết ngụ ý.
Ví dụ từ Bảng 5.2:
- \(y^* = \sqrt{y}\) (Box-Cox \(\lambda = 0.5\)) \(\approx\) GLM Poisson với \(g(\mu) = \sqrt{\mu}\) (\(V(\mu) = \mu\)).
- \(y^* = \log y\) (Box-Cox \(\lambda = 0\)) \(\approx\) GLM Gamma với \(g(\mu) = \log \mu\) (\(V(\mu) = \mu^2\)).
- \(y^* = \arcsin\sqrt{y}\) \(\approx\) GLM Binomial với \(g(\mu) = \arcsin\sqrt{\mu}\) (\(V(\mu) = \mu(1-\mu)\)).
- \(y^* = 1/y\) (Box-Cox \(\lambda = -1\)) \(\approx\) GLM Tweedie (\(\xi=4\)) với \(g(\mu) = 1/\mu\) (\(V(\mu) = \mu^4\)).
Họ Box–Cox cũng có thể xấp xỉ GLM Tweedie (\(V(\mu) = \mu^{2(1-\lambda)}\)).
Ưu điểm của GLM so với Biến đổi Đơn lẻ:
- Việc sử dụng một phép biến đổi duy nhất thường quá đơn giản hóa để đạt đồng thời tính tuyến tính và phương sai không đổi.
- GLM linh hoạt hơn vì cho phép lựa chọn riêng biệt họ EDM và hàm liên kết.
- Mô hình hóa dữ liệu trên thang đo gốc, tránh các biến đổi “nhân tạo”.
- Đưa ra các phát biểu xác suất thực tế hơn cho dữ liệu phi Chuẩn.
- Xấp xỉ Chuẩn trong phương pháp biến đổi có thể không chính xác khi \(\phi\) lớn hoặc dữ liệu có giá trị 0/gần 0.
- Phương pháp GLM thường mang lại kết quả tốt hơn.
Chương 6: Mô hình tuyến tính tổng quát: Ước lượng
6.1 Giới thiệu và tổng quan
Chương trước đã định nghĩa mô hình tuyến tính tổng quát (GLM) và nghiên cứu các thành phần cấu thành của một GLM. Chương này thảo luận về việc ước lượng các tham số chưa biết trong GLM: bao gồm các tham số hồi quy và có thể cả tham số phân tán 𝜙. Vì GLM giả định một phân phối xác suất cụ thể cho biến phản hồi từ họ phân phối hàm mũ (EDM), nên các thủ tục ước lượng hợp lý cực đại (xem Mục 4.4) được sử dụng để ước lượng tham số, và các công thức tổng quát được phát triển trong bối cảnh của GLM. Chương 6 gồm các nội dung:
Giới thiệu và tổng quan (Mục 6.1)
Tính toán hàm hợp lý cho β (Mục 6.2)
Ước lượng β (Mục 6.3)
Độ lệch dư (Residual Deviance) (Mục 6.4)
Sai số chuẩn của β̂ (Mục 6.5)
Ước lượng β: Biểu diễn dưới dạng ma trận (Mục 6.6) *
Ước lượng mô hình tuyến tính tổng quát tương tự như hồi quy tuyến tính cục bộ (Mục 6.7)
Ước lượng φ (Mục 6.8)
Sử dụng R để ước lượng GLM (Mục 6.9)
Tóm tắt chương (Mục 6.10)
6.2 Tính toán hàm hợp lý cho β
1. Mục tiêu
- Ước lượng các tham số hồi quy \(\beta_j\) của bộ dự báo tuyến tính \(\eta = g(\mu)\) trong GLM bằng phương pháp Hợp lý Tối đa (Maximum Likelihood).
2. Hàm Hợp lý và Log-hợp lý
- Hàm hợp lý (Likelihood function): Hàm mật độ/xác suất chung của dữ liệu quan sát được, xem như hàm của các tham số chưa biết.
- Hàm log-hợp lý (Log-likelihood function): Thường thuận tiện hơn để tối đa hóa: \[\ell(\beta_0, ..., \beta_p, \phi; y) = \sum_{i=1}^{n} \log P(y_i; \mu_i, \phi/w_i)\] trong đó \(P(y_i; \mu_i, \phi/w_i)\) là hàm xác suất/mật độ cho quan sát \(i\), phụ thuộc vào \(\mu_i, \phi, w_i\).
3. Đạo hàm của Log-hợp lý
- Bước 1: Đạo hàm theo tham số chính (\(\mu\)): \[\frac{\partial \log P(y; \mu, \phi/w)}{\partial \mu} = \frac{w(y - \mu)}{\phi V(\mu)}\] (\(V(\mu)\) là hàm phương sai).
- Bước 2: Đạo hàm theo tham số hồi quy (\(\beta_j\)): Sử dụng quy tắc chuỗi (\(g(\mu_i) = \eta_i = \sum \beta_j x_{ji}\)): \[\frac{\partial \log P(y_i; \mu_i, \phi/w_i)}{\partial \beta_j} = \frac{\partial \log P(y_i; \mu_i, \phi/w_i)}{\partial \mu_i} \times \frac{\partial \mu_i}{\partial \beta_j}\] \[= \frac{(y_i - \mu_i) w_i}{\phi V(\mu_i)} \times \frac{\partial \mu_i}{\partial \beta_j}\] \[= \frac{(y_i - \mu_i) w_i}{\phi V(\mu_i) (d\eta_i/d\mu_i)^{-1}} \times x_{ji} = \frac{(y_i - \mu_i) w_i x_{ji}}{\phi V(\mu_i) (d\mu_i/d\eta_i)}\] \[= (y_i - \mu_i) \frac{w_i x_{ji}}{\phi V(\mu_i) (d\eta_i/d\mu_i)}\]
4. Các Phương trình Score
- Hàm score cho \(\beta_j\): Tổng các đạo hàm riêng theo \(\beta_j\) trên tất cả các quan sát: \[U(\beta_j) = \frac{\partial \ell(\beta; y)}{\partial \beta_j} = \sum_{i=1}^{n} \frac{w_i (y_i - \mu_i) x_{ji}}{\phi V(\mu_i) (d\eta_i/d\mu_i)}\] Có thể viết lại với “working weights” \(W_i = \frac{w_i}{V(\mu_i) (d\eta_i/d\mu_i)^2}\): \[U(\beta_j) = \frac{1}{\phi} \sum_{i=1}^{n} W_i (d\eta_i/d\mu_i) (y_i - \mu_i) x_{ji}\]
- MLE \(\hat{\beta}\) là nghiệm của hệ phương trình score \(U(\hat{\beta}) = 0\) (thường phi tuyến, cần phương pháp số).
5. Thông tin Fisher (Fisher Information)
- Ma trận của kỳ vọng âm các đạo hàm bậc hai của log-hợp lý. Đo lường thông tin về tham số.
- Phần tử \((j, k)\) của ma trận Thông tin Fisher cho \(\beta\): \[I_{jk}(\beta) = E \left[ - \frac{\partial^2 \ell(\beta; y)}{\partial \beta_k \partial \beta_j} \right] = \frac{1}{\phi} \sum_{i=1}^{n} W_i x_{ji} x_{ki}\]
6. Công thức Ma trận
- Vector score: \(U = \frac{1}{\phi} X^T W M (y - \mu)\)
- Ma trận Thông tin Fisher: \(I = \frac{1}{\phi} X^T W X\)
- \(X\): Ma trận thiết kế.
- \(W\): Ma trận đường chéo của working weights \(W_i\).
- \(M\): Ma trận đường chéo của các đạo hàm hàm liên kết \(d\eta_i/d\mu_i\).
Công thức ma trận quan trọng cho các thuật toán tính toán như Fisher scoring.
6.3 Ước lượng β
Ước lượng Tham số trong GLM bằng MLE
- Mục tiêu: Tìm ước lượng Hợp lý Tối đa \(\hat{\beta}\) cho các tham số hồi quy \(\beta_j\).
- Nguyên lý MLE: Tối đa hóa hàm hợp lý (hoặc log-hợp lý) của dữ liệu quan sát được.
- Phương trình Score: Đặt đạo hàm riêng của log-hợp lý theo mỗi \(\beta_j\) bằng 0. Các đạo hàm này là hàm score \(U(\beta)\).
- Công thức Score Function: \[U(\beta_j) = \frac{\partial \ell(\beta;
y)}{\partial \beta_j} = \frac{1}{\phi} \sum_{i=1}^{n} W_i
\left(\frac{d\eta_i}{d\mu_i}\right) (y_i - \mu_i) x_{ji}\]
- \(\ell\): Hàm log-hợp lý.
- \(\phi\): Tham số phân tán.
- \(W_i = w_i / [V(\mu_i)(d\eta_i/d\mu_i)^2]\): Working weights.
- \(d\eta_i/d\mu_i\): Đạo hàm của bộ dự báo tuyến tính theo giá trị trung bình.
- \((y_i - \mu_i)\): Sai lệch giữa quan sát và giá trị trung bình mô hình hóa.
- \(x_{ji}\): Giá trị biến dự báo thứ \(j\) cho quan sát \(i\).
- Giải Hệ Phương trình: MLE \(\hat{\beta}\) là nghiệm của \(U(\hat{\beta}) = 0\) (thường phi tuyến, giải bằng phương pháp số lặp lại).
- Không cần biết \(\phi\) để ước lượng \(\beta\): Việc ước lượng \(\phi\) được thực hiện sau.
- Quá trình lặp và Khởi tạo: Thuật toán ước lượng là lặp lại. Khởi tạo \(\hat{\mu}_i^{(0)} = y_i\) (có thể cần điều chỉnh nhỏ để tránh phép tính không xác định).
- Liên hệ với Hồi quy Tuyến tính: Tương tự cục bộ với việc trang bị hồi quy tuyến tính (IRLS). Các đại lượng như giá trị khớp, phương sai của \(\hat{\beta}_j\), leverages, Cook’s distance, residuals có thể được tính từ lần lặp cuối cùng.
- Tính toán Sai số Chuẩn: \(se(\hat{\beta}_j) = \sqrt{\phi v_j}\), với \(v_j\) là phần tử đường chéo thứ \(j\) của nghịch đảo ma trận thông tin làm việc. Nếu \(\phi\) chưa biết, cần ước lượng.
6.4 Độ lệch phần dư
1. Định nghĩa: Độ lệch dư (Residual Deviance)
- Thước đo tổng thể về sự sai khác giữa dữ liệu quan sát (\(y\)) và giá trị trung bình mô hình hóa (\(\hat{\mu}\)) cho tất cả \(n\) quan sát.
- Tính bằng tổng có trọng số của độ lệch đơn vị: \(D(y, \hat{\mu}) = \sum_{i=1}^{n} w_i d(y_i, \hat{\mu}_i)\).
2. Ý nghĩa và Mục đích
- Đo lường biến thiên dư sau khi mô hình đã được trang bị.
- Tối đa hóa log-hợp lý tương đương với tối thiểu hóa tổng độ lệch (khi \(\phi\) đã biết) để ước lượng \(\beta_j\).
- Là phần của log-hợp lý chỉ phụ thuộc vào \(\mu_i\).
3. Liên hệ với Tổng Bình phương Sai số (RSS)
- Trong hồi quy tuyến tính chuẩn, độ lệch dư = RSS: \(D(y, \hat{\mu}) = \sum_{i=1}^{n} w_i(y_i - \hat{\mu}_i)^2\).
4. Độ lệch dư được chia tỷ lệ (Scaled Residual Deviance)
- \(D^*(y, \hat{\mu}) = D(y, \hat{\mu}) / \phi\).
- Cần biết \(\phi\) để tính.
5. Phân phối của Độ lệch dư
- \(D(y, \hat{\mu})/\phi \sim \chi^2_{n-p'}\) (xấp xỉ, \(p'\) là số tham số ước lượng).
- Chính xác cho phân phối Chuẩn và Inverse Gaussian.
- Điều kiện xấp xỉ tốt phụ thuộc vào phân phối (ví dụ: \(\hat{\mu} \ge 3\) cho Poisson, \(\phi \le 1/3\) cho Gamma).
6. Ước lượng tham số phân tán φ
- Độ lệch dư dùng để ước lượng \(\phi\) khi chưa biết.
- Ước lượng độ lệch trung bình: \(\tilde{\phi} = D(y, \hat{\mu}) / (n - p')\) (xấp xỉ không chệch).
- Trong R, ước lượng Pearson thường là mặc định cho \(\phi\).
- Cho GLM Chuẩn, \(\tilde{\phi} = s^2\) (ước lượng không chệch của \(\sigma^2\)).
7. So sánh Mô hình (Kiểm định Tỷ số Hợp lý - Likelihood Ratio Tests)
- Khác biệt giữa độ lệch dư của mô hình lồng nhau (chia cho \(\phi\) nếu biết) \(\sim \chi^2\) (xấp xỉ).
- Nếu \(\phi\) chưa biết, dùng kiểm định dựa trên phân phối F (dựa trên khác biệt độ lệch dư chia cho ước lượng của \(\phi\)).
- Thông tin thường ở bảng Phân tích Độ lệch (Analysis of Deviance table).
8. Liên hệ với Các Loại Dư (Residuals)
- Dư Độ lệch (Deviance Residuals - \(r_D\)): \(\text{sign}(y - \hat{\mu}) \sqrt{w d(y, \hat{\mu})}\).
- Tổng bình phương dư độ lệch chuẩn hóa liên quan đến giảm độ lệch dư chia cho \(\phi\) khi loại bỏ quan sát.
- Dư độ lệch xấp xỉ phân phối Chuẩn.
9. Chẩn đoán Mô hình
- Độ lệch dư (hoặc ước lượng \(\phi\) từ độ lệch trung bình) giúp đánh giá sự phù hợp, phát hiện overdispersion/underdispersion.
- Độ lệch dư lớn hơn nhiều so với bậc tự do dư gợi ý overdispersion (thường gặp ở Poisson/Binomial). Cần thận trọng khi diễn giải (ví dụ, ở Poisson phụ thuộc vào \(\hat{\mu}\)).
- Biểu đồ dư độ lệch là công cụ chẩn đoán hữu ích.
- Dư độ lệch là loại dư mặc định trong R.
10. Tính toán trong R
- Độ lệch dư của mô hình GLM đã trang bị:
deviance(fit)
.
Tóm lại: Độ lệch dư là thước đo cốt lõi trong GLM, từ hàm hợp lý, quan trọng cho ước lượng tham số, ước lượng \(\phi\), so sánh mô hình và chẩn đoán sự phù hợp.
6.5 Sai số chuẩn của β̂
Định nghĩa và Tính toán Sai số Chuẩn
Định nghĩa: Sai số chuẩn (\(se\)) là độ lệch chuẩn của một đại lượng ước lượng, đo lường sự bất định xung quanh ước lượng điểm của tham số. Đối với \(\beta_j\), \(se(\hat{\beta}_j) = \sqrt{v\hat{ar}[\hat{\beta}_j]}\).
Tính toán:
- Hồi quy tuyến tính đơn giản: Có công thức cụ thể dựa trên sai số chuẩn ước lượng \(s\) và dữ liệu.
- Hồi quy tuyến tính bội: Tính từ ma trận phương sai-hiệp phương sai của \(\hat{\beta}\).
- GLM: Tính từ ma trận thông tin, là căn bậc hai của các phần tử trên đường chéo của ma trận thông tin nghịch đảo. Phần tử \((j, k)\) của ma trận thông tin làm việc là \(\sum_{i=1}^{n} W_i x_{ij} x_{ik}\).
Vai trò của Tham số Phân tán φ
- \(\phi\) đã biết: \(se(\hat{\beta}_j) = \sqrt{\phi v_j}\) (\(v_j\) là phần tử đường chéo của ma trận thông tin làm việc nghịch đảo).
- \(\phi\) chưa biết (phổ
biến): Cần ước lượng \(\phi\)
để tính \(se(\hat{\beta}_j) =
s\sqrt{v_j}\), với \(s^2\) là
ước lượng của \(\phi\).
- Hồi quy tuyến tính chuẩn: \(s^2 = rss / (n - p')\).
- GLM: Ước lượng phổ biến là độ lệch trung bình \(\tilde{\phi} = D(y, \hat{\mu}) / (n - p')\) và ước lượng Pearson \(\bar{\phi} = X^2 / (n - p')\). R mặc định dùng \(\bar{\phi}\).
- Sử dụng ước lượng của \(\phi\) làm tăng sự bất định, thường dùng phân phối t của Student (với \(n - p'\) bậc tự do) thay vì Chuẩn tắc cho kiểm định và khoảng tin cậy trong mẫu nhỏ/vừa.
Sử dụng Sai số Chuẩn
- Kiểm định Giả thuyết (Wald Tests): Thống kê kiểm định \(Z = (\hat{\beta}_j - \beta_{0j}) / se(\hat{\beta}_j)\) (nếu \(\phi\) biết, \(\sim N(0, 1)\)) hoặc \(T = (\hat{\beta}_j - \beta_{0j}) / se(\hat{\beta}_j)\) (nếu \(\phi\) ước lượng, \(\sim t_{n-p'}\)).
- Khoảng Tin cậy: \(\hat{\beta}_j \pm z^*_{\alpha/2} se(\hat{\beta}_j)\) hoặc \(\hat{\beta}_j \pm t^*_{\alpha/2, n-p'} se(\hat{\beta}_j)\).
Tính chất Tiệm cận
- Với mẫu lớn (\(n \rightarrow \infty\)), \(\hat{\beta}_j\) có phân phối tiệm cận chuẩn với phương sai là phần tử đường chéo của \(I(\zeta_0)^{-1}\). Sai số chuẩn tiệm cận là căn bậc hai của phần tử này. Nền tảng cho suy luận thống kê mẫu lớn.
Trong R
lm()
vàglm()
hiển thị ước lượng hệ số và sai số chuẩn trongsummary()
.predict()
có thể trả về sai số chuẩn cho giá trị dự đoán/khớp (se.fit=TRUE
).
6.6 Ước lượng β: Biểu diễn dưới dạng ma trận
1. Công thức Sử dụng Ký hiệu Ma trận
- Vector phản hồi: \(\mathbf{y}\) (\(n \times 1\)).
- Ma trận biến giải thích (ma trận mô hình): \(\mathbf{X}\) (\(n \times p'\)), chứa cột 1 cho hệ số chặn.
- Mô hình hồi quy tuyến tính (dạng ma trận):
- \(var[\mathbf{y}] = \mathbf{W}^{-1}\sigma^2\)
- \(E[\mathbf{y}] = \mathbf{\mu} = \mathbf{X}\mathbf{\beta}\)
- \(\mathbf{W}^{-1}\): Ma trận đối xứng xác định dương (\(n \times n\)), thường \(\mathbf{I}_n\) (trọng số bằng nhau) hoặc đường chéo với phần tử \(1/w_i\).
2. Ước lượng β trong Hồi quy Tuyến tính
- Ước lượng bằng phương pháp bình phương tối thiểu (tối thiểu hóa tổng bình phương độ lệch).
- Tổng bình phương độ lệch có trọng số (dạng ma trận): \(S = (\mathbf{y} - \mathbf{\mu})^T \mathbf{W} (\mathbf{y} - \mathbf{\mu}) = (\mathbf{y} - \mathbf{X}\mathbf{\beta})^T \mathbf{W} (\mathbf{y} - \mathbf{X}\mathbf{\beta})\).
- Phương trình chuẩn (normal equations): \(\mathbf{X}^T\mathbf{W}\mathbf{X}\mathbf{\beta} = \mathbf{X}^T\mathbf{W}\mathbf{y}\).
- Ước lượng bình phương tối thiểu của β (nếu \(\mathbf{X}^T\mathbf{W}\mathbf{X}\) khả nghịch): \(\mathbf{\hat{\beta}} = (\mathbf{X}^T\mathbf{W}\mathbf{X})^{-1}\mathbf{X}^T\mathbf{W}\mathbf{y}\).
- Dạng ma trận tương tự biểu thức không ma trận nhưng phù hợp hơn cho tính toán.
- Các thuật toán R hiệu quả giải hệ phương trình tuyến tính hoặc dùng phân tích QR thay vì nghịch đảo trực tiếp \(\mathbf{X}^T\mathbf{W}\mathbf{X}\).
- \(\mathbf{\hat{\beta}}\) là ước lượng không chệch của \(\mathbf{\beta}\).
3. Ước lượng β trong Mô hình Tuyến tính Tổng quát (GLMs)
- Ước lượng thường bằng Hợp lý Tối đa (MLE). \(\mathbf{\hat{\beta}}\) là nghiệm của phương trình điểm số.
- Vector điểm số (dạng ma trận): \(\mathbf{U} = (1/\phi)
\mathbf{X}^T\mathbf{W}\mathbf{M}(\mathbf{y} - \mathbf{\mu})\).
- \(\mathbf{W}\): Ma trận đường chéo của working weights \(W_i\).
- \(\mathbf{M}\): Ma trận đường chéo của đạo hàm hàm liên kết \(d\eta_i/d\mu_i\).
- Ma trận thông tin Fisher: \(\mathbf{I} = (1/\phi) \mathbf{X}^T\mathbf{W}\mathbf{X}\).
- Giải phương trình điểm số thường cần phương pháp lặp số.
- Thuật toán Fisher Scoring (dạng ma trận): \(\mathbf{\hat{\beta}}^{(r+1)} = \mathbf{\hat{\beta}}^{(r)} + \mathbf{I}(\mathbf{\hat{\beta}}^{(r)})^{-1}\mathbf{U}(\mathbf{\hat{\beta}}^{(r)})\).
- Sau khi thay thế U và I (φ triệt tiêu): \(\mathbf{\hat{\beta}}^{(r+1)} = \mathbf{\hat{\beta}}^{(r)} + (\mathbf{X}^T\mathbf{W}\mathbf{X})^{-1}\mathbf{X}^T\mathbf{W}\mathbf{M}(\mathbf{y} - \mathbf{\hat{\mu}})\). (Các đại lượng vế phải đánh giá tại \(\mathbf{\hat{\beta}}^{(r)}\)).
- Iteratively Reweighted Least Squares (IRLS): \(\mathbf{\hat{\beta}}^{(r+1)} =
(\mathbf{X}^T\mathbf{W}\mathbf{X})^{-1}\mathbf{X}^T \mathbf{W}
\mathbf{z}\).
- \(\mathbf{z}\): Vector phản hồi làm việc (\(\mathbf{z} = \mathbf{\hat{\eta}} + \mathbf{M}(\mathbf{y} - \mathbf{\hat{\mu}})\)).
- \(\mathbf{W}\): Ma trận trọng số làm việc.
- Tương tự cục bộ giữa IRLS (GLMs) và hồi quy tuyến tính: Dạng công thức giống nhau (\(\mathbf{\hat{\beta}} = (\mathbf{X}^T\mathbf{W}\mathbf{X})^{-1}\mathbf{X}^T\mathbf{W}\mathbf{y}\)). Khác biệt chính là \(\mathbf{z}\) và \(\mathbf{W}\) được cập nhật trong mỗi lần lặp của IRLS, trong khi \(\mathbf{y}\) và \(\mathbf{W}\) cố định trong hồi quy tuyến tính.
6.7 Ước lượng mô hình tuyến tính tổng quát tương tự như hồi quy tuyến tính cục bộ
Sự Tương Tự Giữa GLMs và Hồi quy Tuyến tính Thông qua Thuật toán Ước lượng
Sự tương tự giữa GLMs và hồi quy tuyến tính phát sinh từ thuật toán ước lượng Iteratively Reweighted Least Squares (IRLS), một cách tổ chức lại của thuật toán Fisher Scoring.
Cách thức hoạt động và sự tương đồng:
- Thuật toán IRLS lặp lại để ước lượng tham số trong GLMs.
- Mỗi lần lặp tương đương với việc thực hiện hồi quy bình phương tối thiểu của phản hồi làm việc (\(z_i\)) trên các biến giải thích (\(x_{ji}\)).
- Phản hồi làm việc: \(z_i = \eta_i + \frac{d\eta_i}{d\mu_i} (y_i - \mu_i)\).
- Việc lắp đặt GLM xấp xỉ tương đương với hồi quy bình phương tối thiểu với phản hồi \(z_i\) và trọng số làm việc \(W_i\) (tại giá trị hội tụ cuối cùng).
- Công thức ước lượng β:
- Hồi quy tuyến tính: \(\mathbf{\hat{\beta}} = (\mathbf{X}^T\mathbf{W}\mathbf{X})^{-1}\mathbf{X}^T\mathbf{W}\mathbf{y}\).
- IRLS cho GLMs: \(\mathbf{\hat{\beta}}^{(r+1)} = (\mathbf{X}^T\mathbf{W}\mathbf{X})^{-1}\mathbf{X}^T\mathbf{W}\mathbf{z}\).
- Khác biệt chính: Trong IRLS, \(\mathbf{z}\) và \(\mathbf{W}\) được cập nhật ở mỗi lần lặp, trong khi \(\mathbf{y}\) và \(\mathbf{W}\) cố định trong hồi quy tuyến tính.
Ý nghĩa của sự tương đồng cục bộ:
- Tiết lộ một phép loại suy hữu ích giữa GLMs và hồi quy tuyến tính.
- Thuật toán ước lượng cho GLMs cục bộ giống với thuật toán lắp đặt hồi quy tuyến tính.
- Cho phép tính toán nhiều đại lượng tương tự như trong hồi quy tuyến
tính từ lần lặp cuối cùng của IRLS cho GLMs:
- Giá trị phù hợp (fitted values).
- Phương sai của \(\mathbf{\hat{\beta}}_j\).
- Đòn bẩy (leverages).
- Khoảng cách Cook (Cook’s distance).
- dffits.
- dfbetas.
- Phần dư thô (raw residuals).
- Đòn bẩy (leverages) cho GLMs: Tính toán tương tự hồi quy tuyến tính bằng ma trận mũ (hat matrix): \(\mathbf{H} = \mathbf{W}^{1/2}\mathbf{X}(\mathbf{X}^T\mathbf{W}\mathbf{X})^{-1}\mathbf{X}^T\mathbf{W}^{1/2}\) (với \(\mathbf{W}\) từ lần lặp cuối).
- Thước đo ảnh hưởng (Cook’s distance, dffits, dfbetas, covariance ratio): Được xấp xỉ cho GLMs bằng kết quả từ lần lặp cuối của IRLS. Công thức khoảng cách Cook tương tự như trong hồi quy tuyến tính dựa trên xấp xỉ này.
6.8 Ước lượng φ
Vai trò và Ước lượng Tham số Phân tán φ trong GLMs
1. Vai trò của φ trong GLMs:
- Phương sai: \(var[y_i] = \phi V(\mu_i)\).
- \(\phi\): Tham số phân tán.
- \(\phi = 1\) (thường biết trước): Poisson, Binomial (nhưng ước lượng vẫn hữu ích cho overdispersion).
- \(\phi\) thường chưa biết: Normal, Gamma, Inverse Gaussian (cần ước lượng).
2. Tại sao cần ước lượng φ?
- Không cần cho ước lượng \(\beta_j\) (IRLS độc lập với \(\phi\)).
- Cần cho suy luận thống kê: kiểm định giả thuyết, khoảng tin cậy cho \(\beta_j\) và \(\hat{\mu}\).
3. Các phương pháp ước lượng φ:
- MLE: Thường chệch (trừ \(n \gg p'\)). Ví dụ, trong Normal GLM, MLE của \(\sigma^2\) là \((1/n)\sum w_i(y_i - \hat{\mu}_i)^2\) (chệch).
- Ước lượng Độ lệch Trung bình (\(\tilde{\phi}\)): Tổng quát hóa \(s^2\): \(\tilde{\phi} = D(y, \hat{\mu}) / (n - p')\) (không chệch cho Normal GLM).
- Ước lượng Pearson (\(\bar{\phi}\)): \(\bar{\phi} = (1/(n - p')) \sum w_i(y_i - \hat{\mu}_i)^2 / V(\hat{\mu}_i)\) (xấp xỉ không chệch). Ưu tiên hơn \(\tilde{\phi}\) cho Gamma/Inverse Gaussian khi giá trị \(y\) nhỏ có vấn đề.
- Ước lượng Log-Likelihood Biên đã Sửa đổi: Một tùy chọn khác.
- Tweedie GLMs: Thường dùng ước lượng Pearson. MLE của \(\phi\) cần cho profile likelihood của \(\xi\) và tính xác suất tại 0.
4. Sử dụng ước lượng φ trong suy luận:
- \(se(\hat{\beta}_j) = \sqrt{s} v_j\) (với \(s\) là ước lượng của \(\sqrt{\phi}\)).
- Kiểm định Wald dùng phân phối t (\(n - p'\) df) cho mẫu nhỏ/vừa khi \(\phi\) ước lượng (thay vì Z). Chính xác cho Normal GLM.
- Khoảng tin cậy Wald dùng phân phối t khi \(\phi\) ước lượng.
- Kiểm định F và Score cũng dùng ước lượng của \(\phi\) (Score test xấp xỉ t).
- Tính toán phần dư chuẩn hóa dùng ước lượng của \(\phi\).
- AIC/BIC (khi \(\phi\) chưa biết) thường dùng MLE của \(\phi\). R dùng \(\hat{\phi} = D(y, \hat{\mu})/n\) (MLE cho Normal/Inverse Gaussian, xấp xỉ cho Gamma). Do đó, AIC/BIC trong R là xấp xỉ khi \(\phi\) được ước lượng.
5. Ước lượng φ trong R:
glm()
tự động ước lượng \(\phi\) khi không được chỉ định (ví dụ, families gaussian, Gamma, inverse.gaussian).- Mặc định dùng ước lượng Pearson (\(\bar{\phi}\)) cho thống kê t/F và khoảng tin cậy.
summary()
hiển thị giá trị t (hoặc z nếu \(\phi\) biết) và \(se(\hat{\beta}_j)\).- Có thể chỉ định ước lượng khác trong
confint()
hoặcglm.scoretest()
. - \(\tilde{\phi}\) có thể tính từ
deviance(fit)
vàdf.residual(fit)
.
6.9 Sử dụng R để ước lượng GLM
Ước lượng GLMs trong R bằng hàm glm()
1. Hàm chính: glm()
2. Các đối số chính:
formula
: Mô tả thành phần hệ thống (ví dụ:y ~ x1 + x2 + x1:x2
).data
: Khung dữ liệu chứa các biến.weights
: Trọng số trước \(w_i\) (bỏ qua nếu tất cả bằng 1).subset
: Lựa chọn quan sát con.family
: Chỉ định phân phối EDM và hàm liên kết (ví dụ:gaussian()
,binomial()
,poisson()
,Gamma()
,inverse.gaussian()
). Có thể chỉ định link function:family=poisson(link="log")
.
3. Chỉ định Family và Link Function:
- Mỗi family có link mặc định, nhưng cho phép các link khác:
binomial()
: “logit” (mặc định), “probit”, “cloglog”, “log”, “cauchit”.poisson()
: “log” (mặc định), “identity”, “sqrt”.Gamma()
: “inverse”, “identity”, “log”.inverse.gaussian()
: “inverse”, “identity”, “log”, “1/mu^2”. (Chú ý viết hoa ‘G’ trongGamma()
).
4. Chỉ định Biến Phản hồi (Response Variable) cho binomial GLMs:
- Tỷ lệ thành công với trọng số tổng số thử:
glm(y ~ x, weights=m, family=binomial)
. - Ma trận hai cột (success, fail):
cbind(success, fail)
.
5. Sử dụng Offset:
- Biến giải thích đã biết trong mô hình count (ví dụ: Poisson):
glm(Cases ~ offset(log(Pop)) + ..., family=poisson, data=...)
.
6. Ước lượng các mô hình GLM đặc biệt:
- Quasi-GLMs:
quasibinomial()
,quasipoisson()
trongglm()
. - Negative Binomial GLMs:
glm.nb()
từ góiMASS
(khi \(k\) chưa biết).glm.convert()
chuyển đổi sang kiểuglm()
để dùnganova()
vàsummary()
. - Tweedie GLMs:
tweedie()
từ góistatmod
.tweedie.profile()
ước lượng \(\xi\) bằng profile likelihood.
7. Kiểm soát thuật toán ước lượng:
control=glm.control()
trongglm()
: Điều chỉnh tiêu chí hội tụ (epsilon
), số lần lặp tối đa (maxit
).mustart
,etastart
: Cung cấp giá trị bắt đầu để giúp hội tụ (đặc biệt khi link không đảm bảo \(\mu > 0\)).
8. Sử dụng các hàm R sau khi ước lượng (ví dụ:
fit <- glm(...)
):
summary(fit)
: Ước lượng tham số, sai số chuẩn, thống kê t/z, p-value, ước lượng \(\phi\) (mặc định Pearson).anova(fit)
: Bảng ANOVA (kiểm định tuần tự).anova(fit1, fit2, ...)
: So sánh mô hình lồng nhau.coef(fit)
: Ước lượng tham số.fitted(fit)
: Giá trị phù hợp (\(\hat{\mu}\)).resid(fit, type=...)
: Phần dư (“raw”, “pearson”, “deviance”, “working”, “partial”).rstandard(fit)
: Phần dư chuẩn hóa.qresid(fit)
(góistatmod
): Phần dư lượng tử.deviance(fit)
: Độ lệch dư.df.residual(fit)
: Bậc tự do dư.summary(fit)$dispersion
: Ước lượng \(\phi\) (mặc định Pearson).predict(fit, newdata=..., type=...)
: Dự đoán (type="response"
cho \(\hat{\mu}\),se.fit=TRUE
cho sai số chuẩn).confint(fit)
: Khoảng tin cậy cho hệ số.step(fit)
: Lựa chọn mô hình tự động (AIC).- Chẩn đoán:
plot(fit)
(biểu đồ mặc định),qqnorm()/qqline()
,cooks.distance()
,hatvalues()
,rstandard()
,termplot()
,influence.measures()
.
Chương 7: Mô hình tuyến tính tổng quát: Suy luận thống kê
7.1 Giới thiệu và tổng quan
Phần 4.10 đã thảo luận ba phương pháp suy luận dựa trên lý thuyết hợp lý tối đa: Wald, kiểm định điểm (score), và tỉ số hợp lý (likelihood ratio). Trong Chương 7, các phương pháp này được áp dụng trong bối cảnh của các mô hình tuyến tính tổng quát (GLM).
Giới thiệu và tổng quan (Mục 7.1)
Suy luận cho các hệ số khi φ đã biết (Mục 7.2)
Xấp xỉ phân phối lớn (Mục 7.3)
Kiểm định độ phù hợp mô hình khi φ đã biết (Mục 7.4)
Xấp xỉ khi phương sai phân tán nhỏ (Mục 7.5)
Suy luận cho các hệ số khi φ chưa biết (Mục 7.6)
So sánh ba phương pháp kiểm định: Wald, Score và Tỉ số khả năng hợp lý (Mục 7.7)
Lựa chọn giữa các mô hình GLM không lồng nhau: AIC và BIC (Mục 7.8)
Phương pháp tự động chọn mô hình (Mục 7.9)
Thực hiện các kiểm định bằng R (Mục 7.10)
Tóm tắt chương (Mục 7.11)
7.2 Suy luận cho các hệ số khi φ đã biết
Suy diễn Thống kê trong GLMs
1. Kiểm định Wald cho các hệ số hồi quy đơn lẻ:
- Đơn giản, dựa trên ước lượng hệ số và sai số chuẩn.
- \(\hat{\beta}_j \sim N(\beta_j, se(\hat{\beta}_j)^2)\) (tiệm cận).
- Giả thuyết null: \(H_0: \beta_j = \beta_{0j}\) (thường 0).
- Thống kê kiểm định Wald: \(Z = (\hat{\beta}_j - \beta_{0j}) / se(\hat{\beta}_j)\).
- \(se(\hat{\beta}_j) = \sqrt{\phi v_j}\) (\(v_j\) là phần tử đường chéo của \((\mathbf{X}^T\mathbf{W}\mathbf{X})^{-1}\)).
- Nếu \(H_0\) đúng, \(Z \sim N(0, 1)\) (xấp xỉ).
summary()
trong R hiển thị ‘z value’ và P-value dựa trên \(N(0, 1)\) (khi \(\phi\) coi như đã biết).
2. Khoảng tin cậy cho từng hệ số:
- Dùng Wald, Score, hoặc Tỷ lệ khả năng (LR).
- Wald (phổ biến nhất): Dựa trên \(\hat{\beta}_j\) và \(se(\hat{\beta}_j)\).
- Khoảng tin cậy Wald 100(1 - \(\alpha\))% (khi \(\phi\) biết): \(\hat{\beta}_j \pm z^*_{\alpha/2} se(\hat{\beta}_j)\).
- \(z^*_{\alpha/2}\): Giá trị tới hạn từ \(N(0, 1)\).
- Đối xứng trên thang đo của \(\eta\).
confint()
trong R tính khoảng tin cậy Wald.
3. Khoảng tin cậy cho μ (Giá trị phù hợp):
- \(\hat{\mu}\) ước lượng từ \(\hat{\beta}_j\) (có độ không chắc chắn).
- Suy diễn thường trên \(\hat{\eta} = g(\hat{\mu})\).
- Phương sai của \(\hat{\eta}\): \(var[\hat{\eta}] = \mathbf{x}_g^T (\mathbf{X}^T\mathbf{W}\mathbf{X})^{-1} \mathbf{x}_g \phi\).
- Khoảng tin cậy Wald 100(1 - \(\alpha\))% cho \(\eta\) (khi \(\phi\) biết): \(\hat{\eta} \pm z^*_{\alpha/2} se(\hat{\eta})\) với \(se(\hat{\eta}) = \sqrt{var[\hat{\eta}]}\).
- Khoảng tin cậy cho \(\mu\): Áp dụng hàm liên kết nghịch đảo \(g^{-1}(\cdot)\) cho giới hạn của khoảng tin cậy của \(\hat{\eta}\).
- Khoảng tin cậy cho \(\mu\) thường không đối xứng.
predict()
trong R (se.fit=TRUE
) trả về \(se(\hat{\eta})\) (type="link"
) hoặc \(se(\hat{\mu})\) (type="response"
) để xây dựng khoảng tin cậy.
4. Kiểm định Tỷ lệ khả năng (Likelihood Ratio Tests) để so sánh các mô hình lồng nhau (Kiểm định χ²):
- So sánh 2 GLM lồng nhau (cùng họ EDM, khác thành phần hệ thống).
- Khi \(\phi\) biết, thống kê kiểm định: \(D(y, \hat{\mu}_A) - D(y, \hat{\mu}_B)\).
- Hiệu số \(\sim \chi^2_{p'_B - p'_A}\) (xấp xỉ).
anova()
trong R (test="Chisq"
) tạo bảng phân tích độ lệch.
5. Kiểm định Score:
- Dựa trên vector score (đạo hàm của log-likelihood).
- Kiểm định giả thuyết cho tham số/tập tham số.
- Thống kê kiểm định Score \(\sim \chi^2\) (xấp xỉ) dưới \(H_0\).
glm.scoretest()
(góistatmod
) tính thống kê kiểm định Score.
Lưu ý: Khi \(\phi\) biết, phân phối của thống kê kiểm định (Z, \(\chi^2\)) là tiệm cận mẫu lớn. Đối với kiểm định phù hợp tổng thể (goodness-of-fit), khi \(\phi\) biết, tiệm cận phân tán nhỏ (small dispersion asymptotics) phù hợp hơn.
7.3 Xấp xỉ phân phối lớn
Suy Luận Tiệm Cận Mẫu lớn trong GLMs
Định nghĩa: Suy luận tiệm cận mẫu lớn trong GLMs đề cập đến việc sử dụng các phân phối xấp xỉ cho các thống kê suy luận (kiểm định, khoảng tin cậy) khi kích thước mẫu \(n\) đủ lớn. Các xấp xỉ này dựa trên lý thuyết khả năng và các tính chất tiệm cận của MLEs. Khi \(n \rightarrow \infty\), MLEs của \(\beta\) xấp xỉ phân phối Chuẩn (đơn biến: \(N(\zeta_0, 1/I(\zeta_0))\); đa biến: \(N_q(\zeta_0, I(\zeta_0)^{-1})\)).
Nền tảng: Lý thuyết khả năng và đặc tính tiệm cận của MLEs.
Các phương pháp suy luận chính dựa trên tiệm cận mẫu lớn:
1. Kiểm định Wald:
- Dựa trên khoảng cách giữa \(\hat{\beta}_j\) và \(\beta_{0j}\), chuẩn hóa bằng \(se(\hat{\beta}_j)\).
- Thống kê kiểm định: \(Z = (\hat{\beta}_j - \beta_{0j}) / se(\hat{\beta}_j) \xrightarrow{n \to \infty} N(0, 1)\) (hoặc \(Z^2 \xrightarrow{n \to \infty} \chi^2_1\)).
- Kiểm định đồng thời (tập hợp tham số): Thống kê Wald \(\xrightarrow{n \to \infty} \chi^2_q\) (\(q\) là số tham số).
- Ưu điểm: Dễ thực hiện (dựa trên đầu ra tiêu chuẩn của mô hình).
- Nhược điểm: Kém tin cậy hơn LRT và Score trong mẫu vừa, đặc biệt với Binomial/Poisson gần biên (hiệu ứng Hauck–Donner).
2. Kiểm định Score (Lagrange Multiplier Test):
- Dựa trên vector score (đạo hàm log-likelihood) đánh giá dưới \(H_0\).
- Thống kê kiểm định Score: \(\xrightarrow{n \to \infty} \chi^2_q\) dưới \(H_0\).
- Ưu điểm: Đôi khi ít tính toán hơn LRT.
3. Kiểm định Tỷ lệ khả năng (Likelihood Ratio Tests - LRTs):
- So sánh độ phù hợp của mô hình lồng nhau dựa trên sự khác biệt log-likelihood cực đại (độ lệch dư).
- Thống kê kiểm định: \(2 [l(\hat{\boldsymbol{\beta}}_B) - l(\hat{\boldsymbol{\beta}}_A)] = D(y, \hat{\mu}_A) - D(y, \hat{\mu}_B) \xrightarrow{n \to \infty} \chi^2_{p'_B - p'_A}\).
- Ưu điểm: Xấp xỉ phân phối tốt hơn Wald và Score trong mẫu vừa.
So sánh tiệm cận: Khi \(n \rightarrow \infty\), Wald, Score và LRT tương đương tiệm cận. Tuy nhiên, LRT và Score thường tốt hơn cho mẫu hữu hạn.
Điều kiện cho xấp xỉ tốt: \(n\) “đủ lớn” so với số lượng tham số để ước lượng tốt tất cả tham số. Wald thường cần \(n\) lớn hơn để đáng tin cậy.
Quan trọng: Suy luận tiệm cận mẫu lớn không áp dụng cho kiểm định phù hợp tổng thể (ví dụ, dựa trên độ lệch dư hoặc thống kê Pearson khi \(\phi\) biết). Các kiểm định phù hợp dựa trên Suy luận Tiệm cận Phân tán nhỏ (Small Dispersion Asymptotics), sử dụng xấp xỉ điểm yên ngựa và Định lý Giới hạn Trung tâm cho từng quan sát (thích hợp khi \(\phi\) nhỏ).
7.4 Kiểm định độ phù hợp mô hình khi φ đã biết
Kiểm định Mức độ Phù hợp (Goodness-of-fit tests) trong GLMs
Mục đích và Ý tưởng:
- Xác định xem mô hình hiện tại có đủ biến giải thích để mô tả xu hướng hệ thống trong dữ liệu hay không.
- Đánh giá liệu có cần thêm biến giải thích quan trọng vào mô hình.
- Chỉ khả thi khi tham số phân tán \(\phi\) được biết a priori (ví dụ: Binomial, Poisson).
Mô hình So sánh (Mô hình Bão hòa):
- So sánh Mô hình A (hiện tại) với Mô hình B (mô hình bão hòa).
- Mô hình bão hòa: Mô hình lớn nhất có thể, số lượng biến giải thích \(p' = n\).
- Dưới mô hình bão hòa: \(\hat{\mu}_i = y_i\).
- Bậc tự do của kiểm định mức độ phù hợp: \(n - p'\).
- Nếu kiểm định bị bác bỏ: Mô hình hiện tại không phù hợp, thiếu biến giải thích quan trọng.
Các Thống kê Kiểm định:
- Khi \(\phi\) đã biết, hai thống kê
chính:
- Kiểm định mức độ phù hợp Deviance: Chính là độ lệch dư \(D(y, \hat{\mu})\) (ví dụ: G-test cho bảng tần suất).
- Kiểm định mức độ phù hợp Pearson: Chính là thống kê Pearson \(X^2\) (ví dụ: kiểm định chi-square Pearson cho bảng tần suất).
Phân phối và Điều kiện áp dụng:
- Cẩn trọng với tiệm cận cỡ mẫu lớn: Không áp dụng vì \(p'\) của mô hình bão hòa tăng theo \(n\).
- Sử dụng tiệm cận phân tán nhỏ: Dựa trên ước lượng điểm yên ngựa (Deviance) và Định lý giới hạn trung tâm (Pearson).
- Điều kiện cho xấp xỉ \(\chi^2\) tốt: \(\tau \le 1/3\) cho tất cả \(y_i\).
Trường hợp đặc biệt: Phản hồi nhị phân (Binary Responses - \(m_i = 1\)):
- Độ lệch dư và thống kê Pearson hoàn toàn xác định bởi \(\hat{\mu}\).
- Không có khái niệm về biến thiên dư, kiểm định mức độ phù hợp không có ý nghĩa.
- Nên dùng kiểm định tỷ số khả năng và kiểm định score (yêu cầu \(p' \ll n\)).
7.5 Xấp xỉ khi phương sai phân tán nhỏ
Tiệm Cận Phân Tán Nhỏ (Small Dispersion Asymptotics) trong GLMs
Mục đích và Ý tưởng:
- Cung cấp các kết quả phân phối tốt cho các quan sát riêng lẻ trong kiểm định mức độ phù hợp (khi tiệm cận cỡ mẫu lớn không phù hợp).
- Dựa trên giả định độ chính xác của quan sát riêng lẻ lớn (khi tham số phân tán \(\phi\) nhỏ).
Các Công cụ Chính:
- Xấp xỉ điểm yên ngựa (Saddlepoint approximation): Dùng cho thống kê độ lệch dư (chính xác khi \(\phi\) nhỏ).
- Định lý giới hạn trung tâm (CLT): Dùng cho thống kê Pearson.
Kết quả cho Thống kê Kiểm định:
- Đối với Độ lệch dư (Deviance):
- Xấp xỉ điểm yên ngựa cho hàm mật độ xác suất của EDM.
- Độ lệch đơn vị \(d(y, \mu) \sim \chi^2_1\) (xấp xỉ khi \(\phi \rightarrow 0\)).
- Tổng độ lệch dư \(D(y, \hat{\mu}) \sim \chi^2_{n-p'}\) (phù hợp mô tả).
- Chính xác cho phân phối Normal và Inverse Gaussian.
- Đối với Thống kê Pearson (Pearson Statistic):
- \(X^2 \sim \chi^2_{n-p'}\) (xấp xỉ khi CLT áp dụng cho từng quan sát).
- Phần dư Pearson \(\sim N(0, 1)\) (xấp xỉ dưới cùng điều kiện).
Điều kiện áp dụng và Độ chính xác:
- Dựa trên độ chính xác cao của quan sát riêng lẻ (\(\phi\) nhỏ).
- Độ chính xác xấp xỉ điểm yên ngựa:
- Sai số \(O(\phi)\), độc lập \(\mu\) (cho EDM nhất định).
- Tiêu chí: \(\tau = \phi V(y) / (y - boundary)^2 \le 1/3\) cho mọi \(y_i\).
- Với \(\xi \ge 1\): \(\phi \le \min\{y\}^{2-\xi} / 3\).
- Độ chính xác xấp xỉ CLT:
- Tốc độ hội tụ chậm hơn (\(O(\phi^{1/2})\)).
- Tiêu chí chặt chẽ hơn: \(\tau \le 1/5\) cho mọi \(y_i\).
- Xấp xỉ điểm yên ngựa thường chính xác hơn CLT (đặc biệt ở đuôi phân phối, áp dụng cho \(\phi\) lớn hơn).
Trường hợp Lưu ý / Khi xấp xỉ không đáng tin cậy:
- Số đếm rất nhỏ (Poisson).
- Dữ liệu đếm Poisson có giá trị 0.
- Dữ liệu liên tục dương có giá trị 0 chính xác (Tweedie \(1 < \xi < 2\)).
- Tuy nhiên, thống kê mức độ phù hợp lớn vẫn thường là dấu hiệu mô hình không phù hợp.
So sánh Kiểm định Deviance và Pearson:
- Nếu \(\tau \le 1/3\) (điểm yên ngựa tốt) nhưng \(\tau > 1/5\) (CLT kém), kiểm định Deviance đáng tin cậy hơn Pearson.
7.6 Suy luận cho các hệ số khi φ chưa biết
Suy Diễn Thống kê trong GLMs khi Tham số Phân tán φ Chưa Biết
1. Kiểm định Wald cho các hệ số hồi quy đơn lẻ (Wald Tests for Single Regression Coefficients):
- Mục đích: Kiểm định \(H_0: \beta_j = \beta_{0j}\) (thường \(\beta_{0j} = 0\)).
- Thống kê kiểm định: \(T = (\hat{\beta}_j - \beta_{0j}) / se(\hat{\beta}_j)\).
- \(se(\hat{\beta}_j) = \sqrt{s} v_j\) (s² là ước lượng của \(\phi\)).
glm()
trong R mặc định dùng ước lượng Pearson (\(\bar{\phi}\)) cho \(s^2\).- \(T \sim t_{n-p'}\) (xấp xỉ, chính xác cho hồi quy tuyến tính chuẩn).
summary()
trong R hiển thị ‘t value’ và P-value dựa trên phân phối t (\(n - p'\) df) khi \(\phi\) ước lượng (‘z’ và Chuẩn tắc khi \(\phi\) biết).
2. Khoảng tin cậy cho các hệ số riêng lẻ (Confidence Intervals for Individual Coefficients):
- Tương tự khi \(\phi\) biết, nhưng dùng ước lượng \(\phi\) cho \(se(\hat{\beta}_j)\) và phân phối t.
- Khoảng tin cậy Wald 100(1-\(\alpha\))%: \(\hat{\beta}_j \pm t^*_{\alpha/2, n-p'} se(\hat{\beta}_j)\).
- \(t^*_{\alpha/2, n-p'}\): Phân vị của phân phối t (\(n - p'\) df).
3. Khoảng tin cậy cho μ (Confidence Intervals for μ):
- Tương tự khi \(\phi\) biết, nhưng dùng ước lượng \(\phi\) cho \(se(\hat{\eta})\).
- Bắt đầu với \(\hat{\eta} = g(\hat{\mu})\).
- \(se(\hat{\eta}) = \sqrt{v\hat{ar}[\hat{\eta}]}\) (dùng ước lượng \(\phi\)).
- Khoảng tin cậy Wald 100(1-\(\alpha\))% cho \(\eta\): \(\hat{\eta} \pm t^*_{\alpha/2, n-p'} se(\hat{\eta})\).
- Áp dụng \(g^{-1}(\cdot)\) cho giới hạn để có khoảng tin cậy cho \(\mu\).
4. Kiểm định Tỷ số khả năng để so sánh các mô hình lồng nhau: Kiểm định F (Likelihood Ratio Tests to Compare Nested Models: F-Tests):
- So sánh mô hình lồng nhau (A trong B) khi \(\phi\) chưa biết (cần ước lượng).
- Thống kê kiểm định F: \(F = \{D(y, \hat{\mu}_A) - D(y, \hat{\mu}_B)\} / (p'_B - p'_A) / s^2\).
- \(s^2\): Ước lượng \(\phi\) (ví dụ, từ Mô hình B).
- Tương tự kiểm định F trong hồi quy tuyến tính.
- \(F \sim F_{p'_B - p'_A, n - p'_B}\) (xấp xỉ) dưới giả thuyết null.
anova()
trong R (test="F"
,dispersion
argument) tạo bảng phân tích độ lệch dùng kiểm định F (mặc định dùng ước lượng Mean Deviance cho \(\phi\)).
5. Ước lượng φ (Estimating φ):
- Cần thiết cho suy diễn khi \(\phi\) chưa biết.
- Ước lượng Mean Deviance: \(\tilde{\phi} = D(y, \hat{\mu}) / (n - p')\).
- Ước lượng Pearson: \(\bar{\phi} = X^2 / (n - p')\).
- Ước lượng Pearson mạnh mẽ nhất (dựa trên trung bình và phương sai).
glm()
trong R mặc định dùng Pearson. - Ước lượng Mean Deviance tốt khi xấp xỉ điểm yên ngựa chính xác (Normal, Inverse Gaussian, hoặc \(\phi\) nhỏ).
7.7 So sánh ba phương pháp kiểm định: Wald, Score và Tỉ số khả năng hợp lý
So sánh Mô hình Không Lồng Nhau bằng AIC và BIC
1. Bối cảnh: Các kiểm định truyền thống (LR test, F-test) chỉ dùng cho mô hình lồng nhau.
2. Vấn đề với mô hình không lồng nhau: Các phương pháp kiểm định cho mô hình lồng nhau không phù hợp.
3. Giải pháp: AIC và BIC: - Tiêu chí dựa trên lý thuyết khả năng, không phải kiểm định chính thức (không có thống kê, P-value). - Dùng để so sánh mô hình không lồng nhau.
4. Nguyên lý của AIC và BIC: Cân bằng giữa độ chính xác (log-likelihood) và độ phức tạp (số lượng tham số). - AIC = -2 * log-likelihood + 2 * (Số lượng tham số không xác định) - BIC = -2 * log-likelihood + (log n) * (Số lượng tham số không xác định) - Với GLMs (\(\phi\) chưa biết): Số tham số = \(p' + 1\). - Giá trị càng nhỏ (càng gần \(-\infty\)) thì mô hình càng tốt.
5. Sự khác biệt giữa AIC và BIC: - AIC: Ưu tiên mô hình tốt cho dự đoán, có thể thêm biến ít bằng chứng. - BIC: Ưu tiên mô hình đơn giản, cần bằng chứng mạnh để thêm biến (cân bằng giữa diễn giải và dự đoán). BIC thường chọn mô hình ít tham số hơn AIC do hệ số phạt lớn hơn (\(\log n > 2\) trừ khi \(n\) rất nhỏ).
6. Sử dụng trong R (Chương 7): - AIC()
và BIC()
tính giá trị cho GLMs. - extractAIC()
tính AIC (giá trị thứ hai) và BIC (k=log(nobs(y))
). Kết quả
tương tự AIC()
. - Ví dụ (Example 7.22) so sánh GLMs không
lồng nhau bằng AIC()
và extractAIC()
. - Các
hàm lựa chọn mô hình tự động (drop1()
, add1()
,
step()
) thường dùng AIC (cần thận trọng khi \(\phi\) ước lượng).
7. Lưu ý đặc biệt: - AIC không định nghĩa cho “quasi-models” (không dựa trên phân phối đầy đủ). - AIC không tính mặc định cho mô hình Tweedie (có thể chậm).
Chương 8: Mô hình Tuyến tính Tổng quát: Chẩn đoán (Kiểm tra mô hình)
8.1 Giới thiệu và Tổng quan
- Giới thiệu công cụ phát hiện vi phạm giả định GLM và giải pháp.
- Các chủ đề: giả định GLM, các loại phần dư, đòn bẩy, công cụ chẩn đoán, quan sát bất thường/ảnh hưởng, tổng hợp thuật ngữ phần dư, khắc phục điểm yếu (đa cộng tuyến).
- Nhấn mạnh tầm quan trọng của chẩn đoán mô hình (trích dẫn Box).
8.2 Các Giả định của GLMs:
- Phân phối: \(y_i\) từ EDM đã chỉ định.
- Thành phần hệ thống: Hàm liên kết và bộ dự báo tuyến tính mô hình hóa đúng mối quan hệ.
- So sánh với giả định hồi quy tuyến tính chuẩn.
- Giả định ảnh hưởng đến các moment của \(y_i\) (trung bình, phương sai, bậc cao hơn), moment bậc thấp thường quan trọng nhất.
8.3 Phần dư cho GLMs:
- Công cụ chính cho chẩn đoán.
- Phần dư phản hồi (\(y_i - \hat{\mu}_i\)) không đủ do phương sai không cố định.
- Ba loại cơ bản: Pearson, deviance, quantile.
- Phần dư Quantile được khuyến nghị cao cho EDMs rời rạc.
8.4 Đòn bẩy trong GLMs:
- Đo lường vị trí quan sát so với trung bình.
- 8.4.1 Working Leverages: GLM cục bộ như hồi quy tuyến tính với \(z_i\) và \(W_i\), cho phép tính đòn bẩy \(h_i\) (trọng số của \(z_i\) trong \(\hat{\eta}_i\)). \(h_i\) nhỏ: nhiều quan sát đóng góp; \(h_i = 1\): \(\hat{\eta}_i\) hoàn toàn do quan sát \(i\).
- 8.4.2 The Hat Matrix: Đòn bẩy là phần tử đường chéo của \(\mathbf{H} = \mathbf{W}^{1/2} \mathbf{X} (\mathbf{X}^T \mathbf{W} \mathbf{X})^{-1} \mathbf{X}^T \mathbf{W}^{1/2}\).
8.5 Phần dư chuẩn hóa dựa trên đòn bẩy cho GLMs:
- Ưu tiên phần dư chuẩn hóa/Student hóa (phương sai xấp xỉ không đổi).
- Chuẩn hóa: chia cho ước tính độ lệch chuẩn.
- Student hóa: chia cho độ lệch chuẩn mẫu (cho đại lượng có phân phối chuẩn, kết quả có phân phối t).
8.6 Khi nào sử dụng loại phần dư nào:
- Nhận xét về việc sử dụng từng loại, nhấn mạnh phần dư chuẩn hóa/Student hóa.
8.7 Kiểm tra các giả định của mô hình:
- Công cụ chẩn đoán:
- Tính độc lập: Kiểm tra (nếu không độc lập, dùng phương pháp khác).
- Thành phần ngẫu nhiên (EDM): Loại dữ liệu gợi ý EDM (Binomial cho tỷ lệ, Poisson/Negative Binomial cho đếm, Gamma/Inverse Gaussian cho liên tục dương, Tweedie cho một số trường hợp).
- Thành phần hệ thống: Vấn đề do hàm liên kết sai hoặc bộ dự báo tuyến tính sai (thiếu biến, cần biến đổi covariate). Kiểm tra không chính thức: vẽ \(z_i\) vs \(\hat{\eta}_i\).
8.8 Xác định các quan sát bất thường và có ảnh hưởng:
- Áp dụng khái niệm từ hồi quy tuyến tính: khoảng cách Cook, dffits, dfbetas.
- Ví dụ 8.13: Quan sát 17 có ảnh hưởng (Cook’s distance). Quan sát có đòn bẩy cao (ví dụ 11) không nhất thiết có ảnh hưởng nếu phần dư nhỏ.
8.9 Biện pháp khắc phục: Sửa chữa các vấn đề đã xác định:
- Kỹ thuật khắc phục/giảm thiểu điểm yếu.
- Chiến lược chẩn đoán: xác định sai lệch, dùng phần dư và đòn bẩy.
8.10 Quasi-Likelihood và Extended Quasi-Likelihood:
- Giới thiệu quasi-likelihood.
- Hàm
quasi()
trong R: fit quasi-models (tổng quát, dùng mọi link R cung cấp, cần xác định cấu trúc phương sai, ví dụfamily = quasi(link="log", variance="mu")
). Quasi-models không dựa trên phân phối xác suất đầy đủ.
8.11 Đa cộng tuyến (Collinearity):
- Vấn đề đa cộng tuyến trong chẩn đoán GLM (tương tự hồi quy tuyến tính).
8.12 Nghiên cứu điển hình:
- Ví dụ áp dụng kỹ thuật chẩn đoán (ví dụ 8.13 về đòn bẩy và phần dư).
8.13 Sử dụng R để phân tích chẩn đoán GLMs:
- Hướng dẫn dùng hàm/công cụ R:
rstandard()
,cooks.distance()
,qqnorm()
,qqline()
,scatter.smooth()
cho biểu đồ chẩn đoán.
Chương 9: Mô hình Tuyến tính Tổng quát Nhị thức (Binomial GLMs)
9.1 Giới thiệu và Tổng quan:
- GLM nhị thức: mô hình hóa tỷ lệ (số thành công trên tổng số độc lập).
- Chủ đề: phân phối nhị thức, hàm liên kết phổ biến (logit, probit, cloglog), diễn giải odds và odds ratios (logit), ước tính ED50, overdispersion, khi nào kiểm định Wald thất bại, tại sao không có goodness-of-fit cho dữ liệu nhị phân.
- Trích dẫn Singer và Willett về tính tạm thời của mô hình.
9.2 Mô hình hóa Tỷ lệ:
- Tỷ lệ \(y\) trên tổng số \(m\), phân phối nhị thức phù hợp (EDM).
- \(P(y; \mu, m) = \binom{m}{my} \mu^{my} (1-\mu)^{m(1-y)}\) (\(\phi = 1\), \(y \in \{0, 1/m, ..., 1\}\), \(0 < \mu < 1\)).
- Trọng số ưu tiên \(w = m\).
- Deviance đơn vị: \(d(y, \mu) = 2 \{ y \log(y/\mu) + (1-y) \log((1-y)/(1-\mu)) \}\) (dạng giới hạn khi \(y=0\) hoặc \(y=1\)).
- Deviance dư: \(D(y, \hat{\mu}) = \sum_{i=1}^{n} m_i d(y_i, \hat{\mu}_i) \sim \chi^2(n-p')\) (xấp xỉ điểm yên ngựa nếu \(\min\{m_iy_i\} \ge 3\) và \(\min\{m_i(1-y_i)\} \ge 3\)).
- Phần dư quantile được khuyến nghị cho chẩn đoán.
- Dữ liệu phản hồi trong
glm()
có thể là:- Tỷ lệ \(y\) với trọng số
weights = m
. - Mảng 2 cột (thành công, thất bại) (R tự tính tổng).
- Factor hoặc logical (Bernoulli GLM).
- Tỷ lệ \(y\) với trọng số
9.3 Hàm Liên kết:
- Đảm bảo \(0 < \mu < 1\).
- Phổ biến:
- Logit: \(\eta = \log(\mu / (1-\mu))\)
- Probit: \(\eta = \Phi^{-1}(\mu)\)
- Complementary log-log (cloglog): \(\eta = \log(-\log(1-\mu))\)
binomial()
trong R cho phép “logit” (mặc định), “probit”, “cloglog”, “log”, “cauchit”.
9.4 Phân phối Tolerance và Link Probit:
- Hàm liên kết có thể xuất phát từ phân phối tolerance (logit từ Logistic, probit từ Normal, cloglog từ Extreme value, cauchit từ Cauchy).
- Liên quan đến mô hình ngưỡng (threshold models).
9.5 Odds, Tỷ lệ Odds và Link Logit:
- Link logit cho phép diễn giải theo odds.
- Odds của sự kiện với xác suất \(\mu\): \(\mu / (1-\mu)\).
- Link logit mô hình hóa log-odds.
- Trong hồi quy logistic, \(\exp(\beta_j)\) là tỷ lệ odds (odds ratio) cho \(x_j\) (tăng 1 đơn vị, giữ nguyên khác).
- Ví dụ: \(\beta_{IncLow} = 0.4045920 \implies \exp(0.4045920) \approx 1.498691\) (odds phản đối gm foods cao hơn gần 50% ở nhóm thu nhập thấp).
9.6 Median Effective Dose, ED50:
- GLM nhị thức cho mô hình dose-response.
- ED50: liều lượng mà tại đó 50% phản ứng (\(\mu = 0.5\)). Tương tự LD50, LC50.
dose.p()
trong góiMASS
ước tính ED(\(\rho\)) và sai số chuẩn (mặc định \(\rho = 0.5 \implies\) ED50).
9.7 Link Complementary Log-Log trong Phân tích Assay:
- Có thể hữu ích (ví dụ: dữ liệu mammary với cloglog link và \(\log(N.Cells)\) offset).
9.8 Overdispersion:
- Phương sai quan sát lớn hơn dự kiến (khi \(\phi = 1\)).
- Nguyên nhân:
- \(\mu_i\) không cố định giữa các quan sát (cần mô hình phân cấp).
- Các trường hợp \(m_i\) không độc lập.
9.9 Khi Kiểm định Wald Thất bại:
- Cảnh báo về vấn đề tiềm ẩn trong GLM nhị thức.
- Có thể bảo thủ (không phát hiện) hoặc không đáng tin cậy (hệ số lớn, \(se\) lớn, \(z\) nhỏ).
- Thường do dữ liệu có vấn đề như tách biệt (separation), gây khó khăn cho ước tính tham số và \(se\).
9.10 Không có Kiểm định Goodness-of-Fit cho Phản hồi Nhị phân:
- Giải thích lý do (nội dung chi tiết không có trong trích đoạn).
9.11 Sử dụng R để Fit GLM cho Dữ liệu Tỷ lệ:
glm()
vớifamily = binomial()
.- Các link: “logit” (mặc định), “probit”, “cloglog”, “log”, “cauchit”.
- Nhắc lại 3 cách cung cấp dữ liệu phản hồi.
Chương 10: Mô hình Tuyến tính Tổng quát Poisson và Dữ liệu Đếm
10.1 Giới thiệu và Tổng quan:
- Dữ liệu đếm phổ biến (ví dụ: hạt alpha, ca bệnh, lỗi cáp).
- Chương này về số đếm khi các sự kiện độc lập/gần độc lập, không có giới hạn trên rõ ràng hoặc giới hạn rất lớn.
- Tổng hợp về phân phối Poisson (10.2).
- Hồi quy Poisson (đã đề cập trước đó).
- Tập trung vào mô hình cho: dữ liệu đếm với biến giải thích, tỷ lệ (rates - 10.3), số đếm trong bảng (10.4).
- Vấn đề overdispersion (10.5): GLM negative binomial, mô hình quasi-Poisson.
10.2 Tóm tắt GLM Poisson:
- Phân phối Poisson phổ biến nhất cho số đếm.
- \(P(y; \mu) = \exp(-\mu)\mu^y / y!\) (\(y = 0, 1, 2, ...\), \(\mu > 0\)).
- Là EDM, \(\phi = 1\), \(V(\mu) = \mu\).
- Deviance đơn vị: \(d(y, \mu) = 2 \{ y \log(y/\mu) - (y-\mu) \}\).
- Deviance dư: \(D(y, \hat{\mu}) \sim \chi^2(n-p')\) (xấp xỉ nếu \(\min\{y_i\} \ge 3\)).
- Hàm liên kết chuẩn tắc: log (phổ biến). Cho phép: “identity”, “sqrt”.
- Ký hiệu: glm(Pois; link).
- Trong R:
glm(family = poisson())
(chữ ‘p’ thường). - Biến giải thích định tính: mô hình log-linear.
- Biến giải thích định lượng: mô hình hồi quy Poisson.
10.3 Mô hình hóa Tỷ lệ (Rates):
- Dùng GLM Poisson (ví dụ: ca ung thư/dân số).
- Sử dụng offset trong bộ dự báo tuyến tính.
- Offset thường là thước đo phơi nhiễm (ví dụ: người-năm).
- \(\log(\mu/P) = \eta \implies \log(\mu) = \log P + \eta\) (\(\log P\) là offset, đã biết, không ước tính).
10.4 Bảng Tần suất: Mô hình Log-Linear:
- Dữ liệu đếm phân loại chéo.
- Quan sát phân loại theo mức yếu tố.
- Bảng tần suất từ lược đồ lấy mẫu khác nhau (thành phần ngẫu nhiên khác nhau).
- GLM Poisson phù hợp nếu hệ số tương ứng với biên cố định được bao
gồm.
- 10.4.1 Giới thiệu: Bảng hai chiều.
- 10.4.3 Bảng Hai chiều: Thành phần Ngẫu nhiên: Tổng lớn cố định (\(\beta_0\) trong \(\eta\), suy luận có điều kiện dựa trên tổng, Poisson có điều kiện tương đương đa thức). Tổng hàng/cột cố định (hệ số tương ứng trong \(\eta\)).
- 10.4.4 Bảng Ba chiều: Tương tác hai yếu tố, tương tác ba yếu tố. Hiệu ứng chính mô hình hóa tổng biên. Quan tâm đến tương tác. Mô hình chỉ có hiệu ứng chính là cơ sở so sánh. Diễn giải tùy thuộc vào tương tác trong mô hình cuối. Ví dụ: Độc lập từng phần, Độc lập có điều kiện.
- 10.4.5 Nghịch lý Simpson: Gộp bảng không chính xác gây hiểu lầm.
- 10.4.6 Sự tương đương giữa GLM Nhị thức và Poisson: Trong bảng tần suất, quan tâm giải thích yếu tố dựa trên yếu tố khác. Phản hồi nhị phân (2 mức): GLM nhị thức (logit link) tương đương mô hình log-linear Poisson (khi \(m\) lớn, \(\pi\) nhỏ, nhị thức \(\approx\) Poisson).
- 10.4.7 Bảng bậc cao hơn: Khó diễn giải.
10.5 Overdispersion:
- Phương sai quan sát > phương sai Poisson (phương sai = trung bình).
- Dùng phân phối negative binomial.
- 10.5.2 GLM Negative Binomial: EDM nếu \(k\) biết. \(V(\mu) = \mu + \mu^2/k\) (\(k > 0\)). Thường cần ước tính \(k\) (\(\hat{k}\)). Có thể xuất phát từ mô hình
phân cấp (Poisson với \(\lambda_i \sim
Gamma\)). Fit trong R bằng
glm.nb()
(góiMASS
khi \(k\) chưa biết). Chuyển đổi sangglm()
bằngglm.convert()
(đặtdispersion = 1
chosummary()
). Tạo được phần dư quantile. Biểu đồ chẩn đoán thường cho thấy phù hợp khi overdispersion. - 10.5.3 Mô hình Quasi-Poisson: Nếu overdispersion.
\(V(\mu) = \phi \mu\). Fit trong R bằng
glm(family = quasipoisson())
(family = quasi()
cho quasi khác). Suy luận dùngsummary()
(kiểm định Wald),glm.scoretest()
(kiểm định Score),anova()
(so sánh quasi-likelihood, kiểm định F). Ước tính tham số giống Poisson. Không tính được phần dư quantile (không có mô hình xác suất đầy đủ), dùng phần dư deviance chuẩn hóa.
- 10.5.2 GLM Negative Binomial: EDM nếu \(k\) biết. \(V(\mu) = \mu + \mu^2/k\) (\(k > 0\)). Thường cần ước tính \(k\) (\(\hat{k}\)). Có thể xuất phát từ mô hình
phân cấp (Poisson với \(\lambda_i \sim
Gamma\)). Fit trong R bằng
Chương 11: Mô hình Tuyến tính Tổng quát Gamma và Inverse Gaussian cho Dữ liệu Liên tục Dương
11.1 Giới thiệu và Tổng quan:
- Chương về mô hình dữ liệu liên tục dương (đo lường số lượng luôn có mặt).
- Hai GLM phổ biến: dựa trên phân phối Gamma và Inverse Gaussian.
- Lựa chọn hàm liên kết và biến đổi covariate quan trọng.
- Xem xét ước lượng tham số phân tán \(\phi\).
11.2 Mô hình hóa dữ liệu liên tục dương:
- Phân phối thường lệch phải (giới hạn ở 0).
- Phương sai thường tăng khi giá trị kỳ vọng tăng (mean-variance relationship).
- Các hàm phương sai đơn giản tăng: \(V(\mu) = \mu^2\) (Gamma), \(V(\mu) = \mu^3\) (Inverse Gaussian).
- GLM Gamma và Inverse Gaussian hữu ích cho loại dữ liệu này.
- Gamma: hệ số biến thiên không đổi.
- Trong R:
family=Gamma()
,family=inverse.gaussian()
. - Ví dụ 11.2 (cây bồ đề): \(\log(\text{phương sai nhóm}) \approx 2 \times \log(\text{trung bình nhóm}) \implies V(\mu) \approx \mu^2\) (Gamma).
11.3 Phân phối Gamma:
- PDF: \(P(y; \alpha, \beta) = \frac{y^{\alpha-1} \exp(-y/\beta)}{\Gamma(\alpha)\beta^\alpha}\) (\(y > 0, \alpha > 0, \beta > 0\)).
- Tham số hóa \(\mu, \phi\): \(P(y; \mu, \phi) = \frac{(y/(\phi\mu))^{1/\phi}}{y \Gamma(1/\phi)} \exp(-\frac{y}{\phi\mu})\) (\(\alpha = 1/\phi, \beta = \mu\phi\)).
- Kỳ vọng: \(E[y] = \alpha\beta\).
- Phương sai: \(var[y] = \alpha\beta^2\).
- Hàm phương sai: \(V(\mu) = \mu^2\) (hệ số biến thiên không đổi).
- Liên quan đến thời gian chờ đợi sự kiện Poisson.
- Unit deviance: \(d(y, \mu) = 2 \{y \log(y/\mu) - (y - \mu)\}\).
- Residual deviance: \(D(y, \hat{\mu}) \sim \chi^2_{n-p'}\) (nếu \(\phi \le 1/3\)).
- Ước lượng Pearson của \(\phi\) được khuyến nghị. MLE của \(\phi\) là nghiệm của \(D(y, \hat{\mu}) = -2n\{\log \phi + \psi(1/\phi)\}\).
11.4 Phân phối Inverse Gaussian:
- Phù hợp cho dữ liệu liên tục dương.
- PDF: \(P(y; \mu, \phi) = (2\pi y^3 \phi)^{-1/2} \exp\{-\frac{1}{2\phi} \frac{(y - \mu)^2}{y\mu^2}\}\).
- Hàm phương sai: \(V(\mu) = \mu^3\) (phản hồi lệch hơn Gamma).
- Canonical link: \(\eta = \mu^{-2}\).
- Unit deviance: \(d(y, \mu) = (y - \mu)^2 / (y\mu^2 \phi)\) hoặc \((y - \mu)^2 / (y\mu^2)\).
- Liên quan đến first-passage time trong chuyển động Brownian.
- Residual deviance: \(D(y, \hat{\mu}) \sim \chi^2_{n-p'}\) (chính xác khi \(\xi = 3\)).
- Ước lượng Pearson của \(\phi\) được khuyến nghị (MLE chính xác).
- \(\mu \rightarrow \infty\): phân phối Lévy (phương sai vô hạn).
11.5 Hàm liên kết:
- Thường dùng: logarithmic, inverse, identity.
- Logarithmic (phổ biến nhất): đảm bảo \(\mu > 0\), diễn giải nhân.
- Trong R (Gamma, Inverse Gaussian): “log”, “identity”, “inverse”.
- Inverse Gaussian cũng có “1/mu^2” (canonical link).
- Lựa chọn link và biến đổi covariate cho mối quan hệ tiệm cận.
- Ví dụ 11.4 (cây bồ đề): so sánh link log và inverse qua biểu đồ phần dư.
11.6 Ước lượng \(\phi\):
- Mục về ước lượng \(\phi\) cho Gamma và Inverse Gaussian.
- Ước lượng Pearson khuyến nghị cho cả hai.
- MLE chính xác cho Inverse Gaussian.
- Ví dụ 11.5 (Gamma), 11.6 (Inverse Gaussian) so sánh MLE, Mean Deviance, Pearson.
- Mean Deviance: \(D(y, \hat{\mu}) / (n - p')\).
- Pearson (trong R):
summary(glm_object)$dispersion
.
11.7 Sử dụng R để fit GLM Gamma và Inverse Gaussian:
- Gamma:
glm(formula, family = Gamma)
(chú ý chữ ‘G’ hoa). - Inverse Gaussian:
glm(family = inverse.gaussian)
(chú ý chữ ‘i’ thường). - Các link cho phép: “inverse”, “identity”, “log”.
- Inverse Gaussian cũng có link “1/mu^2” (canonical).
Chương 12: Mô hình Tuyến tính Tổng quát Tweedie
12.1 Giới thiệu và Tổng quan:
- Chương về GLMs dựa trên EDM Tweedie (tổng quát hóa Chuẩn, Poisson, Gamma, Inverse Gaussian và khác).
- Thảo luận EDM Tweedie nói chung (12.2), sau đó chi tiết về:
- EDM Tweedie cho dữ liệu liên tục dương (12.2.3) (Gamma, Inverse Gaussian là đặc biệt).
- EDM Tweedie cho dữ liệu liên tục dương có giá trị không chính xác (12.2.4).
- Cuối cùng, cách fit GLM Tweedie (12.3).
12.2 Các EDM Tweedie:
- 12.2.1 Giới thiệu các phân phối Tweedie:
- EDM với \(V(\mu) = \mu^\xi\) (ξ là tham số chỉ số Tweedie/p, \(\xi \in \mathbb{R} \setminus (0, 1)\)).
- Mối quan hệ phương sai theo lũy thừa quan sát được trong tự nhiên.
- Bảng 5.1: EDM phổ biến và thuộc tính (Tweedie với \(\xi \le 0\) hoặc \(\xi \ge 1\)).
- Bảng 12.1: Đặc điểm Tweedie theo ξ (support S, miền Ω cho μ):
- \(\xi < 0\) (Extreme stable): \(S=\mathbb{R}, \Omega=\mathbb{R}^+\).
- \(\xi = 0\) (Chuẩn): \(S=\mathbb{R}, \Omega=\mathbb{R}\).
- \(0 < \xi < 1\): Không tồn tại EDM.
- \(\xi = 1\) (Rời rạc): \(S=\{0, \phi, 2\phi, ...\}, \Omega=\mathbb{R}^+\) (Poisson khi \(\phi=1\)).
- \(1 < \xi < 2\) (Poisson-gamma): \(S=\mathbb{R}^+_0, \Omega=\mathbb{R}^+\).
- \(\xi = 2\) (Gamma): \(S=\mathbb{R}^+, \Omega=\mathbb{R}^+\).
- \(\xi > 2\) (Positive stable): \(S=\mathbb{R}^+, \Omega=\mathbb{R}^+\) (Inverse Gaussian (\(\xi=3\)) đặc biệt).
- Tập trung vào \(1 < \xi < 2\) và \(\xi \ge 2\).
- \(\xi \ge 2\): phù hợp dữ liệu liên tục dương (Gamma, Inverse Gaussian đặc biệt, lệch phải hơn khi ξ tăng).
- 12.2.2 Cấu trúc của các EDM Tweedie:
- Định nghĩa: EDM với \(V(\mu) = \mu^\xi\).
- Công thức cho tham số chuẩn \(\theta\) và hàm tích lũy \(\kappa(\theta)\) (phụ thuộc vào ξ).
- Tweedie là EDM nếu ξ biết (thường phải ước lượng).
- Ký hiệu: \(y \sim Tw_\xi(\mu, \phi)\).
- Unit deviance (công thức 12.2).
- Residual deviance: \(D(y, \hat{\mu}) \sim \chi^2_{n-p'}\) (nếu \(\phi \le y^{2-\xi}/3\), chính xác khi \(\xi = 3\)).
- 12.2.3 Các EDM Tweedie cho dữ liệu liên tục dương:
- \(\xi \ge 2\): phù hợp dữ liệu liên tục dương (thường dùng Gamma hoặc Inverse Gaussian).
- Có thể cần khi Gamma/Inverse Gaussian không đủ (đặc biệt lệch nặng).
- \(V(\mu) = \mu^\xi\) (\(\xi \ge 2\)) đều phù hợp.
- Gamma (\(\xi = 2\)), Inverse Gaussian (\(\xi = 3\)) là đặc biệt (PDF dạng đóng).
- \(V(\mu) = \mu^4 \approx\) biến đổi \(1/y\) trong hồi quy tuyến tính.
- Ví dụ 12.1 (dữ liệu poison) minh họa.
- 12.2.4 Các EDM Tweedie cho dữ liệu liên tục dương có giá trị
không chính xác:
- \(1 < \xi < 2\): phù hợp dữ liệu liên tục dương có exact zeros.
- Liên tục cho \(y > 0\), có \(P(y = 0) = \pi_0 = \exp(-\lambda^*) = \exp\{-\mu^{2-\xi} / (\phi(2-\xi))\}\).
- Cần MLE của \(\mu, \xi, \phi\) để tính MLE của \(\pi_0\).
- Tham số Tweedie \((\mu, \phi, \xi)\) liên quan đến Poisson \((\lambda^*)\) và Gamma \((\mu^*, \phi^*)\) (công thức 12.4) \(\implies\) diễn giải gần đúng dựa trên Poisson/Gamma tiềm ẩn.
- GLM Tweedie (\(1 < \xi < 2\)) có thể là tổng Poisson của Gamma.
- Ví dụ 12.7 (dữ liệu mưa Quilpie) minh họa và diễn giải.
12.3 Tweedie GLMs:
- 12.3.1 Giới thiệu:
- glm(Tweedie, ξ; Link function).
- \(\mu > 0\) cho \(\xi > 2\) và \(1 < \xi < 2\).
- Thường dùng link logarit.
- \(\phi\) thường ước lượng bằng Pearson (MLE cần cho \(P(y=0)\) khi \(1 < \xi < 2\)).
- 12.3.2 Ước lượng tham số chỉ số ξ:
- Cần biết ξ để fit Tweedie GLM (thường không biết, cần ước lượng trước).
- Đơn giản: chia nhóm, vẽ \(\log(var[y])\) vs \(\log(\mu)\) (dựa trên \(\log(var[y]) = \log \phi + \xi \log \mu\)) (Ví dụ 12.1, 5.9). Ước lượng phụ thuộc vào chia nhóm.
- Chặt chẽ hơn: MLE của ξ (thông qua profile likelihood). Chọn ξ, fit GLM (giả sử ξ cố định), tính log-likelihood. ξ cho log-likelihood lớn nhất là ước lượng profile. Vẽ log-likelihood biên vs ξ hữu ích.
- Hàm
tweedie.profile()
(góitweedie
) thực hiện. - \(\hat{\xi}\) và \(\hat{\beta}\) ít tương quan \(\implies\) dùng \(\hat{\xi}\) ít ảnh hưởng đến suy luận về \(\beta\).
- 12.3.3 Hiệu chỉnh GLM Tweedie:
- Sau khi ước lượng ξ, dùng
glm()
thông thường. family=tweedie(var.power, link.power)
(góistatmod
).var.power
: giá trị của ξ.link.power
: cho link \(\mu^{link.power} = \eta\) (thường 0 cho link log). Mặc định là canonical link.- AIC không tính mặc định (
AICtweedie()
trongtweedie
package nếu cần).
- Sau khi ước lượng ξ, dùng
12.4 Nghiên cứu tình huống:
- 1: Độ bền cách điện: Ví dụ 12.8 dùng
tweedie.profile()
. - 2: Thời gian sống sót sau chất độc: Ví dụ 12.9 fit
GLM Tweedie với \(\hat{\xi} = 4\) (từ
profile). Kết quả
glm()
hiển thị (có ước lượng Pearson của \(\phi\)). Dữ liệu này cũng phân tích bằng Box-Cox \(\lambda = -1 \approx\) Tweedie GLM \(\xi = 4\).
12.5 Sử dụng R để hiệu chỉnh GLM Tweedie:
- Cần gói
tweedie
vàstatmod
. - Lệnh cơ bản:
glm(formula, family=tweedie(var.power, link.power))
.
PHẦN 2: THỐNG KÊ MÔ TẢ DỮ LIỆU
1. Nhập và kiểm tra dữ liệu
Đầu tiên, bộ dữ liệu sẽ được nhập vào phần mềm R từ tệp dữ liệu đã được thu thập và lưu trữ dưới định dạng phù hợp CSV. Sau khi được nhập, dữ liệu sẽ được rà soát để đảm bảo không có lỗi định dạng, giá trị thiếu hoặc nhiễu, qua đó đảm bảo tính chính xác và độ tin cậy cho các phân tích thống kê và mô hình hóa sau này.
X | PurchaseDate | CustomerID | Gender | MaritalStatus | Homeowner | Children | AnnualIncome | City | StateorProvince | Country | ProductFamily | ProductDepartment | ProductCategory | UnitsSold | Revenue |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | 2007-12-18 | 7223 | F | S | Y | 2 | $30K - $50K | Los Angeles | CA | USA | Food | Snack Foods | Snack Foods | 5 | 27.38 |
2 | 2007-12-20 | 7841 | M | M | Y | 5 | $70K - $90K | Los Angeles | CA | USA | Food | Produce | Vegetables | 5 | 14.90 |
3 | 2007-12-21 | 8374 | F | M | N | 2 | $50K - $70K | Bremerton | WA | USA | Food | Snack Foods | Snack Foods | 3 | 5.52 |
4 | 2007-12-21 | 9619 | M | M | Y | 3 | $30K - $50K | Portland | OR | USA | Food | Snacks | Candy | 4 | 4.44 |
5 | 2007-12-22 | 1900 | F | S | Y | 3 | $130K - $150K | Beverly Hills | CA | USA | Drink | Beverages | Carbonated Beverages | 4 | 14.00 |
6 | 2007-12-22 | 6696 | F | M | Y | 3 | $10K - $30K | Beverly Hills | CA | USA | Food | Deli | Side Dishes | 3 | 4.37 |
Sau khi nhập dữ liệu, bước tiếp theo sẽ thực hiện kiểm tra xem các giá trị NA có hoặc không trong mỗi cột.
na_counts <- colSums(is.na(data))
na_table <- data.frame(
NA_Count = na_counts)
kable(na_table, caption = "Số lượng NA trong từng cột") %>%
kable_styling(full_width = FALSE) %>%
column_spec(1, width = "20em") %>%
column_spec(2, width = "5em")
NA_Count | |
---|---|
X | 0 |
PurchaseDate | 0 |
CustomerID | 0 |
Gender | 0 |
MaritalStatus | 0 |
Homeowner | 0 |
Children | 0 |
AnnualIncome | 0 |
City | 0 |
StateorProvince | 0 |
Country | 0 |
ProductFamily | 0 |
ProductDepartment | 0 |
ProductCategory | 0 |
UnitsSold | 0 |
Revenue | 0 |
Sau khi tiến hành kiểm tra toàn bộ bộ dữ liệu, không phát hiện bất kỳ giá trị thiếu (NA) nào. Điều này cho thấy dữ liệu có độ đầy đủ cao, không cần thực hiện bước xử lý hoặc thay thế giá trị thiếu, góp phần đảm bảo tính chính xác và tin cậy cho các phân tích tiếp theo.
## [1] 14059 16
Bộ dữ liệu hiện tại bao gồm 14.059 quan sát với 16 biến/thuộc tính. Quy mô dữ liệu khá lớn, đủ để đảm bảo tính đại diện và độ tin cậy trong các phân tích thống kê cũng như mô hình hóa. Việc có nhiều biến giúp khai thác đa chiều thông tin từ dữ liệu, tạo điều kiện thuận lợi cho các bước phân tích sâu hơn.
2. Danh sách biến và kiểu dữ liệu
Biến định lượng:
Children: Số con.
UnitsSold: Số sản phẩm bán ra.
Revenue: Doanh thu.
Biến định tính:
Gender: Giới tính của khách hàng (F: Nữ, M: Nam).
MaritalStatus: Tình trạng hôn nhân (S: Độc thân – Single, M: Đã kết hôn – Married).
Homeowner: Có sở hữu nhà không (Y: Có, N: Không).
AnnualIncome: Thu nhập hàng năm (ví dụ: “$30K - $50K” tức là từ 30.000 đến 50.000 USD/năm).
City: Thành phố nơi khách hàng sống.
StateorProvince: Bang hoặc tỉnh nơi khách hàng sống (ví dụ: CA – California, WA – Washington).
Country: Quốc gia.
ProductFamily: Nhóm sản phẩm chính (ví dụ: Food – Thực phẩm, Drink – Đồ uống).
ProductDepartment: Bộ phận sản phẩm phụ thuộc vào nhóm (ví dụ: Beverages – Đồ uống, Snacks – Đồ ăn nhẹ).
ProductCategory: Danh mục sản phẩm cụ thể hơn (ví dụ: Snack Foods – Đồ ăn vặt, Carbonated Beverages – Nước uống có gas).
Biến thời gian:
- PurchaseDate: Ngày mua hàng.
Biến định danh:
X: ID/tự tăng.
CustomerID: Mã khách hàng.
3. Thống kê mô tả
3.1 Kiểm tra cấu trúc dữ liệu
Bộ dữ liệu bao gồm 14.059 quan sát với 16 biến mô tả thông tin khách hàng, sản phẩm và doanh thu. Các biến như ngày mua hàng, mã khách hàng, giới tính, tình trạng hôn nhân, thu nhập hàng năm và địa điểm cho phép phân tích đa chiều về hành vi tiêu dùng. Dữ liệu bao gồm cả biến dạng số và dạng ký tự, đáp ứng tốt cho các phân tích thống kê và mô hình hóa sau này.
## Rows: 14,059
## Columns: 16
## $ X <int> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 1…
## $ PurchaseDate <chr> "2007-12-18", "2007-12-20", "2007-12-21", "2007-12-2…
## $ CustomerID <int> 7223, 7841, 8374, 9619, 1900, 6696, 9673, 354, 1293,…
## $ Gender <chr> "F", "M", "F", "M", "F", "F", "M", "F", "M", "M", "F…
## $ MaritalStatus <chr> "S", "M", "M", "M", "S", "M", "S", "M", "M", "S", "M…
## $ Homeowner <chr> "Y", "Y", "N", "Y", "Y", "Y", "Y", "Y", "Y", "N", "N…
## $ Children <int> 2, 5, 2, 3, 3, 3, 2, 2, 3, 1, 0, 1, 3, 3, 0, 3, 1, 0…
## $ AnnualIncome <chr> "$30K - $50K", "$70K - $90K", "$50K - $70K", "$30K -…
## $ City <chr> "Los Angeles", "Los Angeles", "Bremerton", "Portland…
## $ StateorProvince <chr> "CA", "CA", "WA", "OR", "CA", "CA", "OR", "WA", "WA"…
## $ Country <chr> "USA", "USA", "USA", "USA", "USA", "USA", "USA", "US…
## $ ProductFamily <chr> "Food", "Food", "Food", "Food", "Drink", "Food", "Fo…
## $ ProductDepartment <chr> "Snack Foods", "Produce", "Snack Foods", "Snacks", "…
## $ ProductCategory <chr> "Snack Foods", "Vegetables", "Snack Foods", "Candy",…
## $ UnitsSold <int> 5, 5, 3, 4, 4, 3, 4, 6, 1, 2, 3, 5, 4, 4, 5, 5, 5, 3…
## $ Revenue <dbl> 27.38, 14.90, 5.52, 4.44, 14.00, 4.37, 13.78, 7.34, …
3.2 Thống kê mô tả cho biến định lượng
Ba biến định lượng chính được phân tích bao gồm: số con của khách hàng (Children), số lượng sản phẩm bán ra (UnitsSold), và doanh thu từ mỗi giao dịch (Revenue). Bảng sau trình bày kết quả thống kê mô tả:
summary_stats <- function(x) {
c(
N = length(x),
Min = min(x, na.rm = TRUE),
Max = max(x, na.rm = TRUE),
Mean = round(mean(x, na.rm = TRUE), 2),
Median = median(x, na.rm = TRUE),
SD = round(sd(x, na.rm = TRUE), 2)
)
}
children_stats <- summary_stats(data$Children)
units_sold_stats <- summary_stats(data$UnitsSold)
revenue_stats <- summary_stats(data$Revenue)
quantitative_summary <- rbind(
Children = children_stats,
UnitsSold = units_sold_stats,
Revenue = revenue_stats
)
kable(quantitative_summary,
digits = 2,
booktabs = TRUE) %>%
kable_styling(full_width = FALSE, position = "center",
bootstrap_options = c("striped", "hover", "condensed", "responsive"))
N | Min | Max | Mean | Median | SD | |
---|---|---|---|---|---|---|
Children | 14059 | 0.00 | 5.0 | 2.53 | 3.00 | 1.49 |
UnitsSold | 14059 | 1.00 | 8.0 | 4.08 | 4.00 | 1.17 |
Revenue | 14059 | 0.53 | 56.7 | 13.00 | 11.25 | 8.22 |
Biến Children
là biến định lượng rời rạc, phản ánh số
con của từng khách hàng. Trung bình, mỗi khách hàng có khoảng 2.53 con,
với giá trị trung vị là 3, tức là phân phối hơi lệch trái nhẹ. Số con
dao động từ 0 đến 5, cho thấy đa phần khách hàng thuộc các hộ gia đình
có quy mô nhỏ đến trung bình. Độ lệch chuẩn (SD = 1.49) thể hiện mức độ
phân tán vừa phải quanh giá trị trung bình. Điều này cho thấy rằng không
có sự chênh lệch lớn trong số lượng con cái giữa các khách hàng.
Biến UnitsSold
biểu thị số đơn vị sản phẩm được bán ra
trong mỗi giao dịch. Trung bình, mỗi giao dịch bán được 4.08 đơn vị sản
phẩm, với trung vị đúng bằng 4, cho thấy phân phối của biến này khá đối
xứng. Giá trị nhỏ nhất là 1 và lớn nhất là 8, đồng nghĩa với việc khách
hàng thường không mua số lượng quá lớn trong một lần. Độ lệch chuẩn nhỏ
(1.17) thể hiện sự ổn định trong hành vi mua hàng — phần lớn các khách
hàng mua số lượng tương đối giống nhau.
Biến Revenue
là biến định lượng liên tục, phản ánh doanh
thu tạo ra từ mỗi giao dịch. Giá trị trung bình là 13.00 đơn vị tiền tệ,
trong khi trung vị là 11.25, cho thấy phân phối bị lệch phải
(right-skewed). Một số giao dịch có giá trị cao đáng kể đã kéo trung
bình lên, dù phần lớn các giao dịch có doanh thu thấp hơn mức trung
bình. Giá trị doanh thu dao động từ 0.53 đến 56.7, trong đó các giá trị
cao có thể đại diện cho các lần mua nhiều sản phẩm giá trị cao, hoặc mua
sỉ. Độ lệch chuẩn cao (8.22) phản ánh mức độ biến động lớn về doanh thu
giữa các giao dịch, điều này rất quan trọng trong phân tích chiến lược
kinh doanh và định giá.
3.3 Thống kê tần suất cho biến định tính
freq_table <- function(var, varname) {
tbl <- table(var)
pct <- round(prop.table(tbl) * 100, 1)
result <- data.frame(Category = names(tbl), Frequency = as.vector(tbl), Percentage = pct)
colnames(result)[1] <- varname
return(result)
}
gender_tbl <- freq_table(data$Gender, "Gender")
marital_tbl <- freq_table(data$MaritalStatus, "MaritalStatus")
homeowner_tbl <- freq_table(data$Homeowner, "Homeowner")
income_tbl <- freq_table(data$AnnualIncome, "AnnualIncome")
city_tbl <- freq_table(data$City, "City")
state_tbl <- freq_table(data$StateorProvince, "State/Province")
country_tbl <- freq_table(data$Country, "Country")
family_tbl <- freq_table(data$ProductFamily, "ProductFamily")
department_tbl <- freq_table(data$ProductDepartment, "ProductDepartment")
category_tbl <- freq_table(data$ProductCategory, "ProductCategory")
3.3.1 Đối với biến Giới tính
Biến Gender
biểu thị giới tính khách hàng, gồm 2 giá
trị: “F” (Female - Nữ) và “M” (Male - Nam). Kết quả thống kê cho thấy tỷ
lệ giới tính khá cân đối, trong đó nữ chiếm khoảng 51% và nam chiếm 49%.
Điều này cho thấy doanh nghiệp đang phục vụ đối tượng khách hàng đồng
đều về giới.
Gender | Frequency | Percentage.var | Percentage.Freq |
---|---|---|---|
F | 7170 | F | 51 |
M | 6889 | M | 49 |
3.3.2 Đối với biến Tình trạng hôn nhân
Biến MaritalStatus
cho biết tình trạng hôn nhân với hai
giá trị: “S” (Single - Độc thân) và “M” (Married - Đã kết hôn). Tỷ lệ
giữa hai nhóm tương đối đồng đều, với nhóm độc thân chiếm khoảng 51.2%.
Nhóm đã kết hôn có thể có hành vi tiêu dùng hướng đến gia đình.
MaritalStatus | Frequency | Percentage.var | Percentage.Freq |
---|---|---|---|
M | 6866 | M | 48.8 |
S | 7193 | S | 51.2 |
3.3.3 Đối với biến Tình trạng sở hữu nhà
Biến Homeowner
thể hiện khách hàng có sở hữu nhà hay
không: “Y” (Yes - Có nhà), “N” (No - Không có nhà). Khoảng 60% khách
hàng là chủ sở hữu nhà, phản ánh mức độ ổn định và tiềm năng tài chính
của nhóm khách hàng này.
Homeowner | Frequency | Percentage.var | Percentage.Freq |
---|---|---|---|
N | 5615 | N | 39.9 |
Y | 8444 | Y | 60.1 |
3.3.4 Đối với biến Thu nhập hằng năm
Biến AnnualIncome
được phân nhóm (ví dụ: “$30K - $50K”).
Nhóm thu nhập $30K - $50K chiếm tỷ lệ cao nhất (~33%), tiếp theo là $10K
- $30K (~22%). Điều này cho thấy phần lớn khách hàng thuộc nhóm thu nhập
trung bình và thấp, là đối tượng cần cân nhắc giá cả.
AnnualIncome | Frequency | Percentage.var | Percentage.Freq |
---|---|---|---|
$10K - $30K | 3090 | $10K - $30K | 22 |
$110K - $130K | 643 | $110K - $130K | 4.6 |
$130K - $150K | 760 | $130K - $150K | 5.4 |
$150K + | 273 | $150K + | 1.9 |
$30K - $50K | 4601 | $30K - $50K | 32.7 |
$50K - $70K | 2370 | $50K - $70K | 16.9 |
$70K - $90K | 1709 | $70K - $90K | 12.2 |
$90K - $110K | 613 | $90K - $110K | 4.4 |
3.3.5 Đối với biến Thành phố
Biến City
mô tả nơi cư trú của khách hàng. Một số thành
phố có số lượng khách hàng cao như Salem, Tacoma, Los Angeles, cho thấy
những nơi này có thể là thị trường trọng điểm.
City | Frequency | Percentage.var | Percentage.Freq |
---|---|---|---|
Acapulco | 383 | Acapulco | 2.7 |
Bellingham | 143 | Bellingham | 1 |
Beverly Hills | 811 | Beverly Hills | 5.8 |
Bremerton | 834 | Bremerton | 5.9 |
Camacho | 452 | Camacho | 3.2 |
Guadalajara | 75 | Guadalajara | 0.5 |
Hidalgo | 845 | Hidalgo | 6 |
Los Angeles | 926 | Los Angeles | 6.6 |
Merida | 654 | Merida | 4.7 |
Mexico City | 194 | Mexico City | 1.4 |
Orizaba | 464 | Orizaba | 3.3 |
Portland | 876 | Portland | 6.2 |
Salem | 1386 | Salem | 9.9 |
San Andres | 621 | San Andres | 4.4 |
San Diego | 866 | San Diego | 6.2 |
San Francisco | 130 | San Francisco | 0.9 |
Seattle | 922 | Seattle | 6.6 |
Spokane | 875 | Spokane | 6.2 |
Tacoma | 1257 | Tacoma | 8.9 |
Vancouver | 633 | Vancouver | 4.5 |
Victoria | 176 | Victoria | 1.3 |
Walla Walla | 160 | Walla Walla | 1.1 |
Yakima | 376 | Yakima | 2.7 |
3.3.6 Đối với biến Bang/Tỉnh
BiếnStateorProvince
này đại diện cho khu vực hành chính
cấp bang hoặc tỉnh. Có thể thấy dữ liệu chủ yếu đến từ các bang như
California (CA), Washington (WA), Oregon (OR), góp phần định hướng chiến
lược phân phối theo địa lý.
State/Province | Frequency | Percentage.var | Percentage.Freq |
---|---|---|---|
BC | 809 | BC | 5.8 |
CA | 2733 | CA | 19.4 |
DF | 815 | DF | 5.8 |
Guerrero | 383 | Guerrero | 2.7 |
Jalisco | 75 | Jalisco | 0.5 |
OR | 2262 | OR | 16.1 |
Veracruz | 464 | Veracruz | 3.3 |
WA | 4567 | WA | 32.5 |
Yucatan | 654 | Yucatan | 4.7 |
Zacatecas | 1297 | Zacatecas | 9.2 |
3.3.7 Đối với biến Quốc gia
Biến Country
ghi nhận quốc gia của khách hàng. Dữ liệu
chủ yếu đến từ Hoa Kỳ (United States), cho thấy đối tượng khảo sát có
tính đồng nhất quốc gia.
Country | Frequency | Percentage.var | Percentage.Freq |
---|---|---|---|
Canada | 809 | Canada | 5.8 |
Mexico | 3688 | Mexico | 26.2 |
USA | 9562 | USA | 68 |
3.3.8 Đối với biến Nhóm sản phẩm chính
Biến ProductFamily
thể hiện nhóm sản phẩm cấp cao như
Food, Drink, Office Supplies. Nhóm sản phẩm Food thường chiếm tỷ lệ cao
nhất, là nhóm sản phẩm tiêu dùng thiết yếu.
ProductFamily | Frequency | Percentage.var | Percentage.Freq |
---|---|---|---|
Drink | 1250 | Drink | 8.9 |
Food | 10153 | Food | 72.2 |
Non-Consumable | 2656 | Non-Consumable | 18.9 |
3.3.9 Đối với biến Bộ phận sản phẩm
ProductDepartment
phân chia sản phẩm theo bộ phận cụ thể
hơn như Beverages, Snacks, Paper Products, giúp hiểu rõ nhu cầu tiêu
dùng chi tiết của khách hàng.
ProductDepartment | Frequency | Percentage.var | Percentage.Freq |
---|---|---|---|
Alcoholic Beverages | 356 | Alcoholic Beverages | 2.5 |
Baked Goods | 425 | Baked Goods | 3 |
Baking Goods | 1072 | Baking Goods | 7.6 |
Beverages | 680 | Beverages | 4.8 |
Breakfast Foods | 188 | Breakfast Foods | 1.3 |
Canned Foods | 977 | Canned Foods | 6.9 |
Canned Products | 109 | Canned Products | 0.8 |
Carousel | 59 | Carousel | 0.4 |
Checkout | 82 | Checkout | 0.6 |
Dairy | 903 | Dairy | 6.4 |
Deli | 699 | Deli | 5 |
Eggs | 198 | Eggs | 1.4 |
Frozen Foods | 1382 | Frozen Foods | 9.8 |
Health and Hygiene | 893 | Health and Hygiene | 6.4 |
Household | 1420 | Household | 10.1 |
Meat | 89 | Meat | 0.6 |
Periodicals | 202 | Periodicals | 1.4 |
Produce | 1994 | Produce | 14.2 |
Seafood | 102 | Seafood | 0.7 |
Snack Foods | 1600 | Snack Foods | 11.4 |
Snacks | 352 | Snacks | 2.5 |
Starchy Foods | 277 | Starchy Foods | 2 |
3.3.10 Đối với biến Danh mục sản phẩm
ProductCategory
, đây là phân nhóm cụ thể nhất trong sản
phẩm, ví dụ Snack Foods, Carbonated Beverages. Việc nắm rõ danh mục sản
phẩm phổ biến giúp doanh nghiệp định hướng phát triển sản phẩm phù
hợp.
ProductCategory | Frequency | Percentage.var | Percentage.Freq |
---|---|---|---|
Baking Goods | 484 | Baking Goods | 3.4 |
Bathroom Products | 365 | Bathroom Products | 2.6 |
Beer and Wine | 356 | Beer and Wine | 2.5 |
Bread | 425 | Bread | 3 |
Breakfast Foods | 417 | Breakfast Foods | 3 |
Candles | 45 | Candles | 0.3 |
Candy | 352 | Candy | 2.5 |
Canned Anchovies | 44 | Canned Anchovies | 0.3 |
Canned Clams | 53 | Canned Clams | 0.4 |
Canned Oysters | 35 | Canned Oysters | 0.2 |
Canned Sardines | 40 | Canned Sardines | 0.3 |
Canned Shrimp | 38 | Canned Shrimp | 0.3 |
Canned Soup | 404 | Canned Soup | 2.9 |
Canned Tuna | 87 | Canned Tuna | 0.6 |
Carbonated Beverages | 154 | Carbonated Beverages | 1.1 |
Cleaning Supplies | 189 | Cleaning Supplies | 1.3 |
Cold Remedies | 93 | Cold Remedies | 0.7 |
Dairy | 903 | Dairy | 6.4 |
Decongestants | 85 | Decongestants | 0.6 |
Drinks | 135 | Drinks | 1 |
Eggs | 198 | Eggs | 1.4 |
Electrical | 355 | Electrical | 2.5 |
Frozen Desserts | 323 | Frozen Desserts | 2.3 |
Frozen Entrees | 118 | Frozen Entrees | 0.8 |
Fruit | 765 | Fruit | 5.4 |
Hardware | 129 | Hardware | 0.9 |
Hot Beverages | 226 | Hot Beverages | 1.6 |
Hygiene | 197 | Hygiene | 1.4 |
Jams and Jellies | 588 | Jams and Jellies | 4.2 |
Kitchen Products | 217 | Kitchen Products | 1.5 |
Magazines | 202 | Magazines | 1.4 |
Meat | 761 | Meat | 5.4 |
Miscellaneous | 42 | Miscellaneous | 0.3 |
Packaged Vegetables | 48 | Packaged Vegetables | 0.3 |
Pain Relievers | 192 | Pain Relievers | 1.4 |
Paper Products | 345 | Paper Products | 2.5 |
Pizza | 194 | Pizza | 1.4 |
Plastic Products | 141 | Plastic Products | 1 |
Pure Juice Beverages | 165 | Pure Juice Beverages | 1.2 |
Seafood | 102 | Seafood | 0.7 |
Side Dishes | 153 | Side Dishes | 1.1 |
Snack Foods | 1600 | Snack Foods | 11.4 |
Specialty | 289 | Specialty | 2.1 |
Starchy Foods | 277 | Starchy Foods | 2 |
Vegetables | 1728 | Vegetables | 12.3 |
3.4 Một số biểu đồ trực quan hóa dữ liệu
3.4.1 Biểu đồ cột: Phân bố giới tính khách hàng
ggplot(data, aes(x = Gender)) +
geom_bar(fill = "steelblue") +
labs(title = "Phân bố giới tính khách hàng", x = "Giới tính", y = "Số lượng") +
theme_minimal()
Biểu đồ phân bố giới tính khách hàng cho thấy sự phân bố tương đối cân đối giữa hai nhóm: nam (M) và nữ (F). Cụ thể, số lượng khách hàng nữ chiếm ưu thế nhẹ, chiếm khoảng 51% tổng số khách hàng, trong khi khách hàng nam chiếm khoảng 49%. Sự chênh lệch này là không đáng kể, cho thấy doanh nghiệp đang tiếp cận một cách hiệu quả và đồng đều cả hai nhóm giới tính.
3.4.2 Biểu đồ boxplot: So sánh doanh thu theo giới tính
ggplot(data, aes(x = Gender, y = Revenue)) +
geom_boxplot(fill = "orange") +
labs(title = "So sánh doanh thu theo giới tính", x = "Giới tính", y = "Doanh thu") +
theme_minimal()
Dựa trên biểu đồ hộp so sánh doanh thu theo giới tính, có thể quan sát thấy sự tương đồng đáng chú ý về mức doanh thu trung bình giữa nhóm khách hàng nữ (F) và nam (M). Đường kẻ đậm nằm trong hộp biểu thị giá trị trung vị cho thấy sự gần gũi giữa doanh thu của hai giới. Mặc dù vậy, độ phân tán doanh thu của nhóm khách hàng nam có phần rộng hơn so với nhóm nữ, điều này được thể hiện qua kích thước hộp và chiều dài của các “râu”. Đồng thời, cả hai nhóm đều xuất hiện các giá trị ngoại lai, cho thấy có một số khách hàng có mức chi tiêu vượt trội so với phần lớn, và số lượng này có vẻ nhỉnh hơn ở nhóm khách hàng nam. Tóm lại, biểu đồ cho thấy sự khác biệt không đáng kể về doanh thu giữa hai giới tính trong tập dữ liệu được khảo sát.
3.4.3 Biểu đồ dòng: Doanh thu theo thời gian
data$PurchaseDate <- as.Date(data$PurchaseDate)
daily_revenue <- aggregate(Revenue ~ PurchaseDate, data = data, sum)
ggplot(daily_revenue, aes(x = PurchaseDate, y = Revenue)) +
geom_line(color = "purple") +
labs(title = "Doanh thu theo ngày", x = "Ngày", y = "Doanh thu") +
theme_minimal()
Ban đầu, từ khoảng đầu năm 2008 đến cuối năm 2008, doanh thu duy trì ở mức tương đối thấp, dao động quanh mức dưới 200. Sau đó, bắt đầu từ khoảng đầu năm 2009, doanh thu có xu hướng tăng mạnh và đạt đỉnh vào khoảng giữa năm 2009, với nhiều ngày có doanh thu vượt qua mức 400, thậm chí có những ngày gần 600. Tiếp theo đó, doanh thu có dấu hiệu suy giảm dần từ nửa cuối năm 2009 và giảm mạnh vào cuối năm 2009, xuống mức rất thấp vào đầu năm 2010. Nhìn chung, biểu đồ cho thấy một giai đoạn tăng trưởng đáng kể trong năm 2009, theo sau là sự sụt giảm vào cuối năm.
3.4.4 Biểu đồ tròn: Tỷ lệ khách hàng theo tình trạng hôn nhân
marital_dist <- table(data$MaritalStatus)
marital_df <- as.data.frame(marital_dist)
colnames(marital_df) <- c("MaritalStatus", "Count")
ggplot(marital_df, aes(x = "", y = Count, fill = MaritalStatus)) +
geom_bar(width = 1, stat = "identity") +
coord_polar("y") +
labs(title = "Tỷ lệ tình trạng hôn nhân") +
theme_void()
Dựa trên biểu đồ tròn thể hiện tỷ lệ tình trạng hôn nhân, có thể thấy dữ liệu được chia thành hai nhóm chính: M và S. Diện tích của mỗi phần tương ứng với tỷ lệ của nhóm đó trong tổng thể. Quan sát cho thấy phần màu hồng (ký hiệu M) và phần màu xanh lam (ký hiệu S) chiếm diện tích gần bằng nhau trên biểu đồ. Điều này cho thấy tỷ lệ giữa hai tình trạng hôn nhân này trong tập dữ liệu là xấp xỉ ngang nhau.