Cuốn sách “Generalized Linear Models With Examples in R” của Peter K. Dunn và Gordon K. Smyth, thuộc loạt sách Springer Texts in Statistics, xuất bản năm 2018 bởi Springer Nature, cung cấp hướng dẫn chuyên sâu về Mô hình Tuyến tính Tổng quát (GLMs) và cách triển khai bằng phần mềm R.
Chương 1 giới thiệu về mô hình thống kê, đặt biệt nhấn mạnh về mô
hình tuyến tính tổng quát. Ngoài ra, nội dung chương còn trình bày các
quy ước toán học để mô tả dữ liệu, tầm quan trọng của việc vẽ đồ thị dữ
liệu và cách mã hóa số cho các biến phi số. Hai thành phấn cơ bả của mô
hình thống kê là thành phần hệ thống và ngẫu nhiên cũng được giới thiệu,
tiếp theo là lớp các mô hình hồi quy. Nội dung còn đề cập tới việc giải
thích mô hình so sánh mô hình thống kê với mô hình vật lý, mục đích của
mô hình thống kê và hai tiêu chí đánh giá mô hình (độ chính xác và tính
tiết kiệm). Cuối cùng là thảo luận về những hạn chế của mô hình thống
kê, tính tổng quát của mô hình và giới thiệu sơ lược về việc sử dụng R
cho mô hình thống kê.
* Conventions for Describing Data (Các Quy ước để Mô tả Dữ
liệu): Việc hiểu các ký hiệu, thuật ngữ và quy ước cơ bản như
kiểu dữ liệu, biến số, và các ký hiệu toán học là nền tảng để tiếp cận
bất kỳ phân tích thống kê nào và giúp đảm bảo giao tiếp hiệu quả về dữ
liệu.
Linear Regression Models Defined (Định nghĩa Mô hình Hồi
quy Tuyến tính): Đề mục này thiết lập các khái niệm cơ bản về
mô hình hồi quy tuyến tính, bao gồm biến phụ thuộc, biến độc lập và giả
định về mối quan hệ tuyến tính giữa chúng.
Simple Linear Regression (Hồi quy Tuyến tính Đơn
giản): Bắt đầu với trường hợp một biến độc lập giúp người đọc
nắm vững các nguyên tắc cơ bản của phương pháp bình phương tối thiểu
(least-squares estimation) để ước lượng các hệ số và đánh giá sự phù hợp
của mô hình.
Estimation for Multiple Regression (Ước lượng cho Hồi quy
Đa biến): Khi có nhiều biến độc lập ảnh hưởng đến biến phụ
thuộc, đề mục này giải thích cách phương pháp bình phương tối thiểu được
mở rộng để ước lượng các hệ số riêng lẻ cho từng biến. Một điểm quan
trọng là việc giải thích ý nghĩa của mỗi hệ số khi các biến độc lập khác
được giữ không đổi (ceteris paribus), giúp hiểu được tác động riêng biệt
của từng yếu tố.
Fitting Linear Regression Models Using R (Ước lượng Mô hình Hồi quy Tuyến tính bằng R): Đề mục này không chỉ hướng dẫn cú pháp cơ bản để sử dụng hàm lm() trong R mà còn có thể đề cập đến cách nhập dữ liệu, kiểm tra dữ liệu ban đầu (ví dụ: vẽ biểu đồ biểu đồ tán xạ), và cách xem các kết quả đầu ra quan trọng từ mô hình (ví dụ: ước lượng hệ số, sai số chuẩn, giá trị \(p,R^2\)). Nó có thể bao gồm cả việc sử dụng các gói và hàm khác để hỗ trợ việc phân tích hồi quy.
Suy diễn cho Mô hình Hồi quy Tuyến tính: Kiểm định t Thực hiện suy diễn thống kê cho các tham số trong mô hình hồi quy tuyến tính, đặc biệt là sử dụng kiểm định t. Nó có thể bắt đầu bằng việc nhắc lại các giả định của mô hình hồi quy tuyến tính chuẩn (Normal Linear Regression Models). Sau đó, chương này sẽ thảo luận về phân phối của các ước lượng hệ số\(\widehat{\text{se}}(\hat{\beta}_j)\) Nội dung chính sẽ là cách xây dựng và thực hiện các kiểm định giả thuyết (Hypothesis Tests) cho từng hệ số hồi quy để xác định xem chúng có khác biệt đáng kể so với không hay không. Cuối cùng, chương này có thể đề cập đến việc xây dựng khoảng tin cậy (Confidence Intervals) cho các hệ số hồi quy (βj) và cho giá trị trung bình của biến phản hồi (μy tại một giá trị cụ thể của các biến dự đoán).
So sánh các mô hình lồng nhau Phương pháp chính được đề cập là phân tích phương sai (ANOVA), hoặc phân tích độ lệch cho GLMs, để đánh giá sự cải thiện phù hợp của mô hình phức tạp hơn. Phân tích phương sai tuần tự cũng được giới thiệu để xem xét đóng góp của từng biến. Chương này có thể thảo luận về các trường hợp hồi quy song song và độc lập. Nguyên tắc tính biên, quan trọng khi xây dựng mô hình có tương tác, cũng được đề cập. Tóm lại, chương này cung cấp các công cụ để lựa chọn mô hình lồng nhau phù hợp.
Công cụ Hỗ trợ Lựa chọn Mô hình
Các công cụ và phương pháp khác nhau để hỗ trợ quá trình lựa chọn mô
hình hồi quy tuyến tính phù hợp bao gồm các kỹ thuật như thêm và loại bỏ
biến một cách thủ công dựa trên các tiêu chí thống kê hoặc kiến thức về
lĩnh vực nghiên cứu. Chương này cũng có khả năng thảo luận về các phương
pháp lựa chọn mô hình tự động, chẳng hạn như quy trình stepwise (tiến,
lùi, hoặc cả hai), mặc dù có thể kèm theo những cảnh báo về việc sử dụng
chúng một cách mù quáng. Cuối cùng, chương này có thể đề cập đến các
phản đối hoặc hạn chế của các quy trình lựa chọn mô hình từng bước, nhấn
mạnh tầm quan trọng của việc lựa chọn mô hình dựa trên cả thống kê và ý
nghĩa thực tế.
Phần này tập trung vào việc kiểm tra các giả định của mô hình hồi quy
tuyến tính và phát hiện các vấn đề tiềm ẩn có thể ảnh hưởng đến tính hợp
lệ của mô hình và các kết quả suy diễn. Các nội dung chính bao
gồm:
* Các Giả định (Assumptions): Chương này sẽ xem xét các
giả định quan trọng của mô hình hồi quy tuyến tính từ góc độ thực tế,
bao gồm các loại giả định (ví dụ: tuyến tính, phương sai không đổi, độc
lập, phân phối chuẩn). Nó cũng có thể thảo luận về các thang đo
(measurement scales) và các hệ quả khi các giả định này bị vi
phạm.
* Phần Dư (Residuals): Chương này sẽ giới thiệu khái
niệm phần dư (sai số ước tính) và cách sử dụng chúng để đánh giá sự phù
hợp của mô hình. Các loại đồ thị phần dư khác nhau sẽ được trình bày để
kiểm tra tính tuyến tính, phương sai không đổi, và sự độc lập của các
sai số.
* Điểm Dữ liệu Ngoại lai và Ảnh hưởng (Outliers and Influential
Observations): Phần này sẽ tập trung vào việc xác định và xử lý
các điểm dữ liệu ngoại lai (có giá trị khác biệt đáng kể so với phần còn
lại) và các quan sát có ảnh hưởng lớn đến các ước lượng tham số của mô
hình. Các công cụ như phần dư student hóa và các thước đo ảnh hưởng
(influential measures) có thể được giới thiệu.
* Thuật ngữ cho Phần dư (Terminology for Residuals): Có
thể có một phần làm rõ các thuật ngữ khác nhau liên quan đến phần
dư.
Phần này tập trung vào các kỹ thuật để cải thiện mô hình hồi quy khi
các vấn đề chẩn đoán được phát hiện hoặc khi muốn xây dựng một mô hình
tốt hơn. Các nội dung chính bao gồm:
* Các Biện pháp Khắc phục các Vấn đề Đã Xác định (Remedies:
Fixing Identified Problems): Khi các giả định bị vi phạm,
chương này sẽ thảo luận về các phương pháp để khắc phục chúng.
* Biến Đổi Phản hồi (Transforming the Response): Một
trong những biện pháp khắc phục phổ biến là biến đổi biến phản hồi để
đạt được tính tuyến tính, phương sai không đổi hoặc phân phối gần chuẩn
hơn. Chương này có thể giới thiệu các loại phép biến đổi khác nhau, bao
gồm thang lũy thừa (ladder of powers) và phép biến đổi Box-Cox.
* Biến Đổi Đơn giản của Các Biến Covariate: tập trung
vào việc áp dụng các hàm toán học cơ bản lên các biến giải thích trong
mô hình hồi quy. Mục đích chính của việc này là để làm tuyến tính hóa
mối quan hệ giữa biến giải thích và biến phản hồi, điều này có thể giúp
mô hình phù hợp hơn với dữ liệu. Các phép biến đổi thường được sử dụng
bao gồm lấy logarit khi mối quan hệ có tính chất tăng hoặc giảm theo cấp
số nhân, lấy căn bậc hai khi sự tác động của biến giảm dần, hoặc sử dụng
hàm nghịch đảo khi tác động mạnh ở giá trị nhỏ và yếu dần ở giá trị
lớn.
Ước lượng khả năng Xảy ra Cực đại (Maximum Likelihood Estimation)
Thuật toán Fisher Scoring
Phần này trình bày thuật toán Fisher scoring như một phương pháp lặp để
tính toán các ước lượng khả năng cực đại, đặc biệt khi không thể giải
phương trình điểm số một cách trực tiếp. Thuật toán này sử dụng ma trận
thông tin kỳ vọng để cập nhật các ước lượng tham số qua các lần lặp cho
đến khi đạt được sự hội tụ. Đây là một phương pháp tối ưu hóa thường
được sử dụng cho các mô hình phức tạp.
Kiểm định Giả thuyết
Phần này tập trung vào việc sử dụng phương pháp ước lượng khả năng cực
đại (MLE) để thực hiện kiểm định giả thuyết về các tham số của mô hình.
Khả năng xảy ra các loại kiểm định bao gồm ba phương pháp tiệm cận chính
cho mẫu lớn: kiểm định tỷ số khả năng (Likelihood Ratio Test - LRT),
kiểm định Wald, và kiểm định điểm số (Score Test). Cả ba kiểm định này
đều dựa trên lý thuyết tiệm cận và thường có phân phối chi bình phương
(\(X^2\)) dưới giả thuyết không khi
kích thước mẫu đủ lớn. Việc lựa chọn kiểm định nào có thể phụ thuộc vào
tính toán, các đặc tính tiệm cận cụ thể, và liệu chúng ta đang kiểm định
một hay nhiều tham số.
Cơ sở của các kiểm định này nằm ở các thuộc tính tiệm cận của MLE. MLE
được chứng minh là nhất quán (converges to the true parameter value khi
kích thước mẫu tăng lên), phân phối tiệm cận chuẩn (asymptotically
normal), và hiệu quả tiệm cận (asymptotically efficient, có phương sai
nhỏ nhất trong lớp các ước lượng không chệch tiệm cận). Kiểm định tỷ số
khả năng so sánh sự phù hợp của mô hình đầy đủ với sự phù hợp của mô
hình bị ràng buộc theo giả thuyết không. Kiểm định Wald dựa trên khoảng
cách giữa ước lượng MLE và giá trị tham số dưới giả thuyết không, sử
dụng sai số chuẩn ước tính từ ma trận thông tin. Kiểm định điểm số đánh
giá độ dốc của hàm log-khả năng tại giá trị tham số được chỉ định bởi
giả thuyết không.
Kiểm định Wald có thể gặp vấn đề với dữ liệu nhị thức, đặc biệt khi các
xác suất gần 0 hoặc 1, hoặc khi kích thước mẫu nhỏ. Trong những tình
huống này, phân phối tiệm cận chuẩn có thể không phải là một xấp xỉ tốt
cho phân phối thực tế của MLE. Điều này có thể dẫn đến các kiểm định
Wald không chính xác, với tỷ lệ lỗi loại I thực tế khác đáng kể so với
mức ý nghĩa danh nghĩa (ví dụ: α=0.05). Các vấn đề thường gặp bao gồm
khoảng tin cậy Wald có thể nằm ngoài khoảng hợp lý của tham số (ví dụ:
xác suất âm hoặc lớn hơn 1) và các kiểm định giả thuyết có thể cho kết
quả không đáng tin cậy. Trong những trường hợp như vậy, kiểm định tỷ số
khả năng (LRT) hoặc kiểm định điểm số (Score Test) thường được coi là
đáng tin cậy hơn vì chúng dựa trên toàn bộ hàm khả năng và có các đặc
tính tiệm cận tốt hơn trong một số tình huống.
Tính toán Khả năng cho β
Để ước lượng các hệ số hồi quy β trong GLMs, chúng ta cần xây dựng hàm
khả năng dựa trên phân phối đã chọn cho biến phản hồi và hàm liên kết.
Hàm khả năng này đo lường mức độ phù hợp của các giá trị tham số với dữ
liệu quan sát được. Việc cực đại hóa hàm khả năng (hoặc log-hàm khả
năng) sẽ cho ra các ước lượng MLE của β. Để tìm điểm cực đại, chúng ta
thường lấy đạo hàm bậc nhất của log-hàm khả năng theo β, tạo ra các
phương trình điểm số. Ma trận thông tin (bao gồm thông tin quan sát và
thông tin kỳ vọng) là đạo hàm bậc hai âm của log-hàm khả năng, cung cấp
thông tin về độ cong và độ chính xác của các ước lượng.
Tính toán Ước lượng của β
Các phương trình điểm số thu được từ log-hàm khả năng thường là phi
tuyến và không thể giải trực tiếp. Do đó, các thuật toán численное lặp
là cần thiết để tìm các ước lượng MLE của β. Các phương pháp phổ biến
bao gồm thuật toán Newton-Raphson, sử dụng ma trận thông tin quan sát,
và thuật toán Fisher Scoring, sử dụng ma trận thông tin kỳ vọng. Các
thuật toán này bắt đầu với một giá trị khởi tạo và lặp đi lặp lại để cải
thiện ước lượng cho đến khi đạt được sự hội tụ. Việc lựa chọn thuật toán
có thể phụ thuộc vào đặc điểm của hàm khả năng và tốc độ hội tụ.
Độ Lệch Phần Dư
Độ lệch là một thước đo về sự khác biệt giữa mô hình hiện tại và một mô
hình bão hòa (saturared model) hoàn toàn phù hợp với dữ liệu. Nó đóng
vai trò tương tự như tổng bình phương sai số (SSE) trong mô hình tuyến
tính thông thường, nhưng được định nghĩa dựa trên hàm khả năng. Độ lệch
phần dư được sử dụng để đánh giá sự phù hợp tổng thể của mô hình GLM với
dữ liệu. Nó cũng là công cụ quan trọng để so sánh các mô hình lồng nhau
thông qua kiểm định tỷ số khả năng (likelihood ratio tests), tương tự
như kiểm định F trong ANOVA của mô hình tuyến tính.
Sai số Chuẩn cho β
Sai số chuẩn của các ước lượng hệ số β đo lường độ biến động của chúng
giữa các mẫu khác nhau và cung cấp thông tin về độ tin cậy của các ước
lượng điểm. Chúng thường được ước tính dựa trên ma trận thông tin. Cụ
thể, ma trận hiệp phương sai tiệm cận của \(\hat{\beta}\) là nghịch đảo của ma trận
thông tin kỳ vọng (hoặc ma trận thông tin quan sát). Sai số chuẩn của
mỗi hệ số là căn bậc hai của phần tử đường chéo tương ứng trong ma trận
hiệp phương sai này. Sai số chuẩn được sử dụng để xây dựng khoảng tin
cậy và thực hiện kiểm định giả thuyết cho các hệ số.
Suy diễn cho các Hệ số Khi ϕ Đã Biết
Khi tham số phân tán ϕ được coi là đã biết, việc suy diễn cho các hệ số
hồi quy β thường dựa trên tính chất tiệm cận của các ước lượng MLE. Kiểm
định Wald được sử dụng để kiểm tra các giả thuyết về từng hệ số riêng lẻ
bằng cách so sánh ước lượng với giá trị giả định dưới giả thuyết không,
sử dụng sai số chuẩn ước tính từ ma trận thông tin. Khoảng tin cậy cho
các hệ số cá nhân có thể được xây dựng dựa trên ước lượng và sai số
chuẩn, thường sử dụng phân phối chuẩn tiệm cận. Các kiểm định và khoảng
tin cậy tương tự cũng có thể được xây dựng cho giá trị kỳ vọng μ của
biến phản hồi tại các giá trị cụ thể của các biến giải thích.
Kiểm định Tỷ số Khả năng để So sánh các Mô hình Lồng nhau: Kiểm
định \(X^2\)
Kiểm định tỷ số khả năng (LRT) là một phương pháp mạnh mẽ để so sánh hai
mô hình GLM lồng nhau, trong đó một mô hình là trường hợp đặc biệt của
mô hình kia (có ít tham số hơn). Thống kê kiểm định LRT được tính bằng
hai lần hiệu số giữa log-likelihood của mô hình phức tạp hơn và mô hình
đơn giản hơn. Dưới giả thuyết không rằng mô hình đơn giản là đúng, thống
kê LRT tiệm cận theo phân phối \(X^2\)
với số bậc tự do bằng hiệu số tham số giữa hai mô hình. LRT đánh giá
liệu việc thêm các tham số vào mô hình phức tạp hơn có cải thiện đáng kể
sự phù hợp với dữ liệu hay không.
Các Kết quả Tiệm cận cho Mẫu Lớn
Nhiều kết quả suy diễn trong GLMs dựa trên lý thuyết tiệm cận, có nghĩa
là chúng trở nên chính xác hơn khi kích thước mẫu tăng lên. Các ước
lượng MLE của β có tính chất tiệm cận chuẩn, với ma trận hiệp phương sai
tiệm cận được ước tính bằng nghịch đảo của ma trận thông tin (Fisher
information). Các thống kê kiểm định như Wald, Score và LRT đều có phân
phối tiệm cận \(X^2\) dưới giả thuyết
không. Các kết quả tiệm cận này cung cấp cơ sở cho việc xây dựng các
kiểm định giả thuyết và khoảng tin cậy trong GLMs, đặc biệt khi phân
phối chính xác của các thống kê này là phức tạp hoặc chưa biết.
Kiểm định Độ Phù hợp Khi ϕ Đã Biết
Đánh giá mức độ phù hợp của mô hình GLM với dữ liệu là rất quan trọng để
đảm bảo tính hợp lệ của các kết quả suy diễn. Khi tham số phân tán ϕ đã
biết, có một số kiểm định độ phù hợp có thể được sử dụng. Kiểm định độ
lệch (deviance goodness-of-fit test) so sánh độ lệch của mô hình hiện
tại với độ lệch của một mô hình bão hòa. Kiểm định Pearson
goodness-of-fit test dựa trên thống kê Pearson chi bình phương, đo lường
sự khác biệt giữa tần số quan sát và tần số kỳ vọng theo mô hình. Cả hai
kiểm định này đều có thể được so sánh với phân phối \(X^2\) để đánh giá liệu mô hình có phù hợp
tốt với dữ liệu hay không.
Các Giả định của GLMs
GLMs dựa trên một số giả định quan trọng, bao gồm sự độc lập của các
quan sát, việc lựa chọn đúng họ phân phối cho biến phản hồi, và việc xác
định đúng hàm liên kết cho mối quan hệ giữa giá trị kỳ vọng và phần
tuyến tính. Khác với mô hình tuyến tính thông thường, GLMs không nhất
thiết yêu cầu phương sai không đổi hoặc phân phối chuẩn cho sai số. Việc
hiểu rõ các giả định cụ thể cho từng loại GLM (dựa trên phân phối được
chọn) là then chốt để đảm bảo tính hợp lệ của các kết quả phân tích. Vi
phạm các giả định này có thể dẫn đến ước lượng tham số bị chệch, sai số
chuẩn không chính xác và các kết luận sai lầm.
Phần dư cho GLMs
Phần dư trong GLMs được định nghĩa khác biệt so với mô hình tuyến tính
thông thường do sự đa dạng của các phân phối và hàm liên kết. Phần dư
phản hồi đơn giản là hiệu số giữa giá trị quan sát và giá trị dự đoán
trên thang đo của biến phản hồi, nhưng chúng thường không có phân phối
và phương sai đồng nhất. Phần dư Pearson được chuẩn hóa theo phương sai
dự kiến và hữu ích cho việc kiểm tra sự phù hợp của phương sai. Phần dư
độ lệch dựa trên tỷ số khả năng và có các đặc tính tốt hơn cho việc kiểm
tra sự phù hợp tổng thể của mô hình. Phần dư quantile cố gắng tạo ra các
phần dư có phân phối gần chuẩn hơn. Việc lựa chọn loại phần dư phù hợp
phụ thuộc vào mục tiêu chẩn đoán cụ thể.
Kiểm tra các Giả định của Mô hình
Việc kiểm tra các giả định của GLMs thường bao gồm việc sử dụng các biểu
đồ phần dư khác nhau. Biểu đồ phần dư theo giá trị dự đoán có thể giúp
phát hiện các vấn đề về tính phi tuyến trong thành phần hệ thống hoặc
phương sai không đồng nhất. Biểu đồ phần dư theo các biến giải thích
riêng lẻ có thể chỉ ra sự cần thiết của việc thêm các số hạng bậc cao
hơn hoặc các biến tương tác. Biểu đồ Q-Q của phần dư quantile có thể
được sử dụng để đánh giá sự phù hợp của phân phối đã chọn cho biến phản
hồi. Việc kiểm tra tính độc lập thường khó khăn hơn và có thể dựa vào
kiến thức về cách dữ liệu được thu thập hoặc sử dụng các kiểm định tự
tương quan nếu có cấu trúc thời gian hoặc không gian.
Điểm Dữ liệu Ngoại lai và Ảnh hưởng
Các điểm dữ liệu ngoại lai (có giá trị khác biệt đáng kể so với phần còn
lại) và các quan sát có ảnh hưởng (ảnh hưởng lớn đến các ước lượng tham
số khi bị loại bỏ) có thể gây ra các vấn đề nghiêm trọng cho mô hình
GLM. Các phương pháp phát hiện ngoại lai trong GLMs bao gồm việc xem xét
các phần dư lớn (đặc biệt là phần dư student hóa hoặc độ lệch) và sử
dụng các thống kê dựa trên khoảng cách (ví dụ: khoảng cách Cook’s). Các
thước đo ảnh hưởng tương tự như trong mô hình tuyến tính (ví dụ:
leverage) cũng có thể được điều chỉnh cho GLMs để xác định các quan sát
có tác động lớn đến các hệ số. Việc xử lý các điểm này cần thận trọng và
dựa trên hiểu biết về dữ liệu.
Các Biện pháp Khắc phục các Vấn đề Đã Xác định
Khi các vấn đề chẩn đoán được xác định, có nhiều biện pháp khắc phục có
thể được áp dụng. Nếu có vấn đề về dạng hàm của thành phần hệ thống,
việc thêm các số hạng đa thức hoặc các biến tương tác có thể hữu ích.
Nếu phân phối của biến phản hồi được cho là không phù hợp, việc thử một
họ phân phối khác trong họ hàm mũ có thể cần thiết. Các phép biến đổi
trên biến phản hồi hoặc các biến giải thích đôi khi có thể giúp cải
thiện tính tuyến tính hoặc tính đồng nhất của phương sai (nếu có). Đối
với các điểm dữ liệu ngoại lai có ảnh hưởng, việc kiểm tra lại dữ liệu
hoặc sử dụng các phương pháp hồi quy mạnh mẽ (robust regression) có thể
được xem xét.
Mô hình hóa Tỷ lệ (Modelling Proportions): Nhiều
nghiên cứu tập trung vào việc phân tích tỷ lệ, chẳng hạn như tỷ lệ cử
tri ủng hộ một ứng viên hoặc tỷ lệ côn trùng chết sau khi tiếp xúc với
các liều lượng thuốc trừ sâu khác nhau. Dữ liệu tỷ lệ thường được mô
hình hóa một cách phù hợp bằng phân phối nhị thức, trong đó biến phản
hồi là số lượng thành công trong một số lượng thử nghiệm cố định. Mô
hình Tuyến tính Tổng quát (GLMs) cung cấp một khuôn khổ thống kê mạnh mẽ
để phân tích các loại dữ liệu này, cho phép chúng ta khám phá mối quan
hệ giữa tỷ lệ và các biến giải thích.
Các Hàm Liên kết (Link Functions): Trong bối cảnh của
Binomial GLMs, việc lựa chọn hàm liên kết phù hợp là rất quan trọng để
đảm bảo các giá trị dự đoán nằm trong khoảng từ 0 đến 1 và mô hình hóa
mối quan hệ một cách hợp lý. Ba hàm liên kết phổ biến thường được sử
dụng cho dữ liệu nhị thức bao gồm hàm logit (hoặc logistic), hàm probit
và hàm complementary log-log. Hàm logit, là hàm liên kết chính tắc cho
phân phối nhị thức, liên kết tỷ lệ với log của odds ratio. Hàm probit sử
dụng hàm phân phối tích lũy của phân phối chuẩn, trong khi hàm
complementary log-log thường được áp dụng trong phân tích dữ liệu sống
còn hoặc khi có sự bất đối xứng trong phản ứng.
Odds, Odds Ratios và Hàm Liên kết Logit (Odds, Odds Ratios and
the Logit Link): Để hiểu rõ hơn về hàm liên kết logit, cần nắm
vững khái niệm về odds, được định nghĩa là tỷ lệ giữa xác suất xảy ra sự
kiện và xác suất không xảy ra sự kiện. Odds ratio là tỷ số của odds giữa
hai nhóm hoặc điều kiện khác nhau, thường được sử dụng để đo lường độ
mạnh của mối liên hệ. Hàm liên kết logit thực hiện phép biến đổi logarit
trên odds, tạo ra một mối quan hệ tuyến tính giữa log-odds và các biến
giải thích trong mô hình GLM. Tính chất này giúp việc diễn giải các hệ
số hồi quy trở nên trực quan hơn, vì chúng thể hiện sự thay đổi trong
log-odds khi các biến giải thích thay đổi.
Quá Phân Tán (Overdispersion): Một vấn đề thường gặp
khi làm việc với dữ liệu nhị thức là hiện tượng quá phân tán, xảy ra khi
phương sai của dữ liệu lớn hơn so với phương sai dự kiến theo mô hình
nhị thức. Quá phân tán có thể do nhiều nguyên nhân, chẳng hạn như sự phụ
thuộc giữa các quan sát hoặc sự khác biệt không giải thích được giữa các
đơn vị quan sát. Việc phát hiện và xử lý quá phân tán là rất quan trọng
để đảm bảo các ước lượng sai số chuẩn và các kết quả kiểm định giả
thuyết là đáng tin cậy. Các phương pháp xử lý có thể bao gồm việc sử
dụng các mô hình quasi-likelihood hoặc các mô hình nhị thức mở
rộng.
Khi Kiểm định Wald Thất Bại (When Wald Tests Fail):
Kiểm định Wald, một phương pháp phổ biến để kiểm tra ý nghĩa của các hệ
số trong GLMs, có thể gặp vấn đề khi làm việc với dữ liệu nhị thức, đặc
biệt khi các tỷ lệ dự đoán gần với các giá trị giới hạn 0 hoặc 1, hoặc
khi kích thước mẫu nhỏ. Trong những tình huống này, các xấp xỉ tiệm cận
mà kiểm định Wald dựa vào có thể không còn chính xác, dẫn đến các kết
luận sai lầm. Do đó, trong những trường hợp như vậy, các phương pháp
kiểm định khác như kiểm định tỷ số khả năng (likelihood ratio test)
thường được ưu tiên sử dụng vì chúng có các đặc tính tiệm cận tốt
hơn.
Không có Kiểm định Độ Phù hợp Tốt cho Phản hồi Nhị phân (No
Goodness-of-Fit for Binary Responses): Khi mỗi đơn vị quan sát
chỉ có một thử nghiệm (ví dụ: m=1 cho dữ liệu Bernoulli), các kiểm định
độ phù hợp truyền thống dựa trên việc so sánh tần số quan sát và tần số
dự kiến thường không thể áp dụng được. Điều này là do không có đủ bậc tự
do để ước tính sự khác biệt giữa mô hình và dữ liệu. Trong những trường
hợp như vậy, việc đánh giá độ phù hợp của mô hình nhị phân thường dựa
trên các phương pháp khác, chẳng hạn như kiểm tra phần dư hoặc đánh giá
ý nghĩa thực tế của các hệ số.
Ví dụ Nghiên cứu (Case Study): Để minh họa việc áp dụng
Binomial GLMs trong thực tế, chương này thường cung cấp một ví dụ nghiên
cứu chi tiết. Ví dụ này có thể bao gồm việc mô hình hóa tỷ lệ côn trùng
chết theo liều lượng thuốc trừ sâu, phân tích tỷ lệ thành công/thất bại
trong một thí nghiệm, hoặc dự đoán tỷ lệ cử tri ủng hộ một đảng chính
trị dựa trên các yếu tố nhân khẩu học. Thông qua ví dụ này, người đọc có
thể hiểu rõ hơn về quy trình xây dựng, ước lượng, diễn giải và đánh giá
một mô hình Binomial GLM.
Poisson GLMs: Phân phối Poisson là lựa chọn mặc định
cho dữ liệu đếm, với đặc điểm phương sai bằng kỳ vọng \((V(\mu)=\mu)\) Hàm liên kết chính tắc là
logarit (log), đảm bảo giá trị fitted\(\hat{\mu}\) luôn dương và mô hình hóa theo
dạng \(log \mu = \eta\) trong đó η là
bộ dự báo tuyến tính. Khi các biến giải thích đều là định tính, mô hình
Poisson GLM được gọi là mô hình log-linear. Đối với Poisson GLMs, nên sử
dụng phần dư quantile để đánh giá sự phù hợp của mô hình.
Mô hình hóa Tỷ lệ (Rates): Poisson GLMs có thể mô hình
hóa tỷ lệ bằng cách đưa biện pháp phơi nhiễm (exposure) vào mô hình như
một phần bù (offset) trong bộ dự báo tuyến tính theo dạng \(log \mu/T=\eta\) tương đương với \(log \mu =logT+\eta\) trong đó \(\text{log T}\) là offset đã biết
lượng.
Bảng Tương tác: Mô hình Log-Linear:Khi dữ liệu đếm được
tóm tắt trong bảng tương tác với các biến định tính, Poisson GLM trở
thành mô hình log-linear. Ngược lại, khi mô hình Poisson log-linear bao
gồm thuật ngữ hằng số, nó có thể tương đương với mô hình multinomial khi
có điều kiện trên tổng lớn. “Nghịch lý Simpson” được đề cập trong mục
này, nhưng không có thông tin chi tiết cụ thể được cung cấp.
Sự Tương đương giữa Binomial và Poisson GLMs: Trong các
trường hợp cụ thể (ví dụ: dữ liệu tỷ lệ từ bảng tương tác khi tổng số
thử nghiệm lớn và tỷ lệ thành công nhỏ), phân phối Binomial xấp xỉ phân
phối Poisson. Điều này dẫn đến sự tương đương giữa Binomial GLM (với
liên kết logit) và Poisson GLM (log-linear) trong những điều kiện
này.
Negative Binomial GLMs: Mô hình này được sử dụng khi dữ
liệu đếm có hiện tượng phân tán quá mức (overdispersion), tức là phương
sai lớn hơn giá trị trung bình. Mô hình Negative Binomial có hàm phương
sai dạng bậc hai \[V(\mu) = \mu + \mu^2 /
k\] cho phép phương sai tăng nhanh hơn trung bình so với Poisson
\((V(\mu)=\mu)\). Mô hình này ước lượng
thêm một tham số phụ (k) ngoài các hệ số hồi quy. Hàm liên kết mặc định
là logarit và nên sử dụng phần dư quantile cho mô hình này.
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
## Warning: package 'crayon' was built under R version 4.3.3
## Warning in instance$preRenderHook(instance): It seems your data is too big for
## client-side DataTables. You may consider server-side processing:
## https://rstudio.github.io/DT/server.html
## Warning: package 'psych' was built under R version 4.3.3
##
## Attaching package: 'psych'
## The following object is masked from 'package:crayon':
##
## %+%
Biến Gender
##
## F M Sum
## 0.5099936 0.4900064 1.0000000
Biểu đồ tròn này thể hiện tỷ lệ giới tính trong bộ dữ liệu. Theo đó,
giới tính nữ (F) chiếm phần lớn hơn một chút với tỷ lệ 51%, trong khi
giới tính nam (M) chiếm 49%. Sự khác biệt giữa hai giới tính là không
đáng kể, cho thấy một sự phân bố giới tính tương đối cân bằng trong tập
dữ liệu này.
Biến MaritalStatus
## value count
## 1 M 6866
## 2 S 7193
## Warning: package 'ggplot2' was built under R version 4.3.3
##
## Attaching package: 'ggplot2'
## The following objects are masked from 'package:psych':
##
## %+%, alpha
## The following object is masked from 'package:crayon':
##
## %+%
Biểu đồ cột này so sánh số lượng giữa hai tình trạng hôn nhân. Dữ liệu
cho thấy số người có tình trạng Độc thân (S) là 7193, cao hơn so với số
người Đã kết hôn (M) là 6866. Mặc dù có sự chênh lệch, nhưng số lượng
người thuộc cả hai nhóm tình trạng hôn nhân này khá tương đương trong bộ
dữ liệu. Điều này cho thấy cả hai nhóm đối tượng khách hàng này đều có
sự hiện diện đáng kể trong các giao dịch siêu thị.
Biến Homeowner
##
## N Y Sum
## 0.3993883 0.6006117 1.0000000
Biểu đồ cột ngang này thể hiện tỷ lệ khách hàng là chủ sở hữu nhà. Theo đó, có tới 60.06% khách hàng xác nhận là chủ sở hữu nhà (ký hiệu Y), trong khi chỉ có 39.94% khách hàng không phải là chủ sở hữu nhà (ký hiệu N). Sự chênh lệch đáng kể này cho thấy đa số khách hàng trong tập dữ liệu này có đặc điểm là chủ sở hữu nhà. Đây có thể là một yếu tố quan trọng cần xem xét khi phân tích hành vi mua hàng, vì quyền sở hữu nhà có thể liên quan đến sự ổn định tài chính và các ưu tiên tiêu dùng khác. Việc có đa số khách hàng là chủ sở hữu nhà có thể ảnh hưởng đến loại sản phẩm và dịch vụ mà siêu thị này cung cấp hoặc tập trung vào.
Biến Children
## value count
## 1 0 1344
## 2 1 2718
## 3 2 2839
## 4 3 2893
## 5 4 2826
## 6 5 1439
Biểu đồ cột này cho thấy sự phân bố số lượng khách hàng theo số lượng con cái của họ. Có thể thấy rằng, số lượng khách hàng có con (từ 1 đến 4 con) chiếm phần lớn trong tập dữ liệu này, với số lượng dao động từ 2718 đến 2893 khách hàng. Đáng chú ý, nhóm khách hàng có 3 con có số lượng cao nhất (2893). Số lượng khách hàng không có con (1344) và số lượng khách hàng có số lượng con lớn nhất (5 con, 1439) thấp hơn đáng kể so với các nhóm có từ 1 đến 4 con. Điều này cho thấy gia đình có từ 1 đến 4 con là nhóm khách hàng phổ biến nhất trong dữ liệu giao dịch siêu thị này. Thông tin này có thể hữu ích cho siêu thị trong việc điều chỉnh các chương trình khuyến mãi và lựa chọn sản phẩm phù hợp với đối tượng khách hàng gia đình. Có vẻ như các gia đình có quy mô vừa phải (1-4 con) là một phân khúc khách hàng quan trọng.
Biến AnnualIncome
Biểu đồ cột ngang này thể hiện tỷ lệ khách hàng theo các khoảng thu nhập hàng năm. Nhóm khách hàng có thu nhập từ $10K - $30K chiếm tỷ lệ cao nhất trong bộ dữ liệu. Tiếp theo là nhóm thu nhập $50K - $70K, chiếm một phần đáng kể. Các nhóm thu nhập cao hơn, từ $90K trở lên, có tỷ lệ khách hàng thấp hơn đáng kể. Đáng chú ý, các nhóm thu nhập $30K - $50K và $150K + chiếm tỷ lệ nhỏ nhất trong tổng số khách hàng. Nhìn chung, phân bố thu nhập của tập khách hàng này tập trung chủ yếu ở các mức thu nhập thấp hơn và trung bình thấp, điều này có thể ảnh hưởng đến các chiến lược marketing và lựa chọn sản phẩm của siêu thị.
Biến City
## value count
## 1 Acapulco 383
## 2 Bellingham 143
## 3 Beverly Hills 811
## 4 Bremerton 834
## 5 Camacho 452
## 6 Guadalajara 75
## 7 Hidalgo 845
## 8 Los Angeles 926
## 9 Merida 654
## 10 Mexico City 194
## 11 Orizaba 464
## 12 Portland 876
## 13 Salem 1386
## 14 San Andres 621
## 15 San Diego 866
## 16 San Francisco 130
## 17 Seattle 922
## 18 Spokane 875
## 19 Tacoma 1257
## 20 Vancouver 633
## 21 Victoria 176
## 22 Walla Walla 160
## 23 Yakima 376
Biểu đồ cột này cho thấy sự phân bố số lượng khách hàng theo thành phố nơi họ sinh sống. Los Angeles nổi bật với số lượng khách hàng cao nhất (1398), theo sau là San Diego với 1267 khách hàng. Các thành phố như Seattle (922) và Beverly Hills (878) cũng có lượng khách hàng đáng kể. Tuy nhiên, phần lớn các thành phố còn lại trong dữ liệu ghi nhận số lượng khách hàng thấp hơn nhiều, thường dưới 500, và thậm chí có một số thành phố chỉ có một số lượng rất nhỏ khách hàng. Điều này cho thấy sự tập trung đáng kể của khách hàng ở một vài thành phố lớn, đặc biệt là Los Angeles và San Diego, có thể phản ánh quy mô dân số hoặc mức độ hoạt động của siêu thị ở các khu vực này. Việc phân tích sâu hơn có thể cho thấy liệu có sự khác biệt đáng kể nào trong hành vi mua hàng giữa khách hàng ở các thành phố khác nhau hay không.
Biến StateorProvince
Biểu đồ cột này cho thấy sự phân bố tỷ lệ khách hàng theo tiểu bang hoặc
tỉnh. Washington (WA) chiếm ưu thế rõ rệt với 32.5% tổng số khách hàng.
Tiếp theo là California (CA) với 19.4% và Oregon (OR) với 16.1%, cho
thấy ba khu vực này chiếm phần lớn tập khách hàng. Các khu vực khác như
British Columbia (BC) và Distrito Federal (DF) có tỷ lệ tương đương là
5.8%. Các tiểu bang/tỉnh còn lại, bao gồm Yucatan và Zacatecas (cùng
4.7%), Veracruz (3.3%), Guerrero (2.7%), và đặc biệt là Jalisco (chỉ
0.5%), có tỷ lệ khách hàng thấp hơn đáng kể. Điều này cho thấy sự tập
trung địa lý rõ ràng của khách hàng ở một số tiểu bang/tỉnh nhất định,
có thể liên quan đến vị trí địa lý của chuỗi siêu thị hoặc các chiến
lược marketing tập trung vào các khu vực cụ thể. Sự khác biệt lớn về tỷ
lệ khách hàng giữa các khu vực có thể là một yếu tố quan trọng trong
việc phân tích doanh số và lập kế hoạch kinh doanh.
Biến Country
Biểu đồ tròn này thể hiện sự phân bố tỷ lệ khách hàng theo quốc gia. Rõ ràng, Hoa Kỳ (USA) chiếm phần lớn nhất, cho thấy đây là thị trường chính của siêu thị. Mexico cũng đóng góp một tỷ lệ khách hàng đáng kể thứ hai. Ngược lại, Canada chỉ chiếm một phần nhỏ nhất trong tổng số khách hàng được thể hiện trong biểu đồ này. Điều này có thể phản ánh vị trí địa lý của chuỗi siêu thị, các chiến lược marketing tập trung hoặc sự khác biệt về mức độ phổ biến của siêu thị ở các quốc gia này. Việc phân tích sâu hơn có thể xem xét hành vi mua hàng khác nhau giữa khách hàng từ các quốc gia này.
Biến ProductFamily
##
## Drink Food Non-Consumable Sum
## 0.08891102 0.72217085 0.18891813 1.00000000
Biểu đồ tròn này thể hiện tỷ lệ các nhóm sản phẩm chính (ProductFamily) trong các giao dịch siêu thị. Nhóm Food chiếm phần lớn nhất với tỷ lệ 72.22%, cho thấy đây là danh mục sản phẩm được mua nhiều nhất. Tiếp theo là nhóm Non-Consumable (Hàng tiêu dùng không thiết yếu) với tỷ lệ 18.89%, cho thấy đây cũng là một phần quan trọng trong doanh số của siêu thị. Nhóm Drink (Đồ uống) chiếm tỷ lệ nhỏ nhất trong ba nhóm chính được hiển thị, chỉ với 8.89%. Sự khác biệt lớn về tỷ lệ cho thấy Food là trụ cột chính trong doanh số của siêu thị này. Các phân tích sâu hơn có thể tập trung vào các danh mục nhỏ hơn bên trong nhóm Food để hiểu rõ hơn về sở thích tiêu dùng.
Biến ProductDepartment
##
## Alcoholic Beverages Baked Goods Baking Goods Beverages
## 356 425 1072 680
## Breakfast Foods Canned Foods Canned Products Carousel
## 188 977 109 59
## Checkout Dairy Deli Eggs
## 82 903 699 198
## Frozen Foods Health and Hygiene Household Meat
## 1382 893 1420 89
## Periodicals Produce Seafood Snack Foods
## 202 1994 102 1600
## Snacks Starchy Foods
## 352 277
Bảng tần số cho biến ProductDepartment trong bộ dữ liệu. Nhìn vào số lượng giao dịch cho từng phòng ban sản phẩm, có thể thấy Produce (Nông sản) có số lượng giao dịch cao nhất với 1994, cho thấy đây là một trong những mặt hàng được mua thường xuyên nhất. Snack Foods (Đồ ăn nhẹ) cũng có số lượng giao dịch đáng kể với 1600. Các phòng ban khác như Household (Đồ gia dụng - 1420) và Frozen Foods (Đồ đông lạnh - 1382) cũng ghi nhận lượng giao dịch lớn, cho thấy sự quan trọng của các mặt hàng này đối với khách hàng. Ngược lại, các phòng ban như Carousel (59) và Checkout (82) có số lượng giao dịch thấp nhất, điều này có thể là do bản chất của các mục này (Carousel có thể là mặt hàng theo mùa hoặc đặc biệt, Checkout có thể liên quan đến các mặt hàng nhỏ lẻ gần quầy thanh toán). Các phòng ban còn lại như Dairy (903), Health and Hygiene (893), Canned Foods (977), và Baking Goods (1072) đều có số lượng giao dịch trung bình cao, cho thấy sự đa dạng trong nhu cầu mua sắm của khách hàng.
##
## Alcoholic Beverages Baked Goods Baking Goods Beverages
## 0.025321858 0.030229746 0.076250089 0.048367594
## Breakfast Foods Canned Foods Canned Products Carousel
## 0.013372217 0.069492852 0.007753041 0.004196600
## Checkout Dairy Deli Eggs
## 0.005832563 0.064229319 0.049719041 0.014083505
## Frozen Foods Health and Hygiene Household Meat
## 0.098300021 0.063518031 0.101002916 0.006330464
## Periodicals Produce Seafood Snack Foods
## 0.014368020 0.141830856 0.007255139 0.113806103
## Snacks Starchy Foods
## 0.025037343 0.019702682
Produce (Nông sản) chiếm tỷ lệ cao nhất (14.18%), cho thấy đây là danh mục hàng hóa được mua thường xuyên nhất, đóng góp đáng kể vào tổng số giao dịch. Tiếp theo là Snack Foods (Đồ ăn nhẹ - 11.38%) và Household (Đồ gia dụng - 10.10%), cho thấy tầm quan trọng của các mặt hàng này trong cơ cấu mua sắm. Frozen Foods (Đồ đông lạnh) cũng chiếm một tỷ lệ đáng kể (9.83%).
Các phòng ban khác như Baking Goods (7.63%), Canned Foods (6.95%), Dairy (6.42%), và Health and Hygiene (6.35%) cũng đóng góp một phần quan trọng vào tổng số giao dịch. Ngược lại, các phòng ban như Carousel (0.42%), Checkout (0.58%), Meat (0.63%), Canned Products (0.78%), và Seafood (0.73%) có tỷ lệ giao dịch rất thấp, cho thấy đây có thể là các mặt hàng ít được mua hoặc có số lượng giao dịch nhỏ. Các phòng ban còn lại có tỷ lệ giao dịch dao động từ khoảng 1% đến gần 5%.
Nhìn chung, tỷ lệ này làm nổi bật sự khác biệt rõ rệt về mức độ đóng góp của từng phòng ban vào tổng số giao dịch của siêu thị, với một số phòng ban chiếm ưu thế rõ ràng trong khi những phòng ban khác chỉ đóng góp một phần rất nhỏ. Thông tin này rất hữu ích cho việc đưa ra các quyết định liên quan đến quản lý hàng tồn kho, bố trí không gian cửa hàng và chiến lược marketing.
Biến ProductCategory
##
## Baking Goods Bathroom Products Beer and Wine
## 484 365 356
## Bread Breakfast Foods Candles
## 425 417 45
## Candy Canned Anchovies Canned Clams
## 352 44 53
## Canned Oysters Canned Sardines Canned Shrimp
## 35 40 38
## Canned Soup Canned Tuna Carbonated Beverages
## 404 87 154
## Cleaning Supplies Cold Remedies Dairy
## 189 93 903
## Decongestants Drinks Eggs
## 85 135 198
## Electrical Frozen Desserts Frozen Entrees
## 355 323 118
## Fruit Hardware Hot Beverages
## 765 129 226
## Hygiene Jams and Jellies Kitchen Products
## 197 588 217
## Magazines Meat Miscellaneous
## 202 761 42
## Packaged Vegetables Pain Relievers Paper Products
## 48 192 345
## Pizza Plastic Products Pure Juice Beverages
## 194 141 165
## Seafood Side Dishes Snack Foods
## 102 153 1600
## Specialty Starchy Foods Vegetables
## 289 277 1728
Bảng tần số cho thấy số lượng giao dịch tuyệt đối cho từng danh mục sản phẩm (ProductCategory). Snack Foods dẫn đầu với 1600 giao dịch, tiếp theo là Vegetables với 1728. Các danh mục khác có số lượng giao dịch đáng chú ý bao gồm Dairy (903), Fruit (765), Meat (761), và Jams and Jellies (588). Ngược lại, các danh mục như Canned Oysters (35), Canned Shrimp (38), và Canned Sardines (40) có số lượng giao dịch rất thấp. Các danh mục còn lại có số lượng giao dịch dao động ở mức trung bình. Nhìn chung, bảng tần số này cho thấy sự khác biệt lớn về mức độ phổ biến của các danh mục sản phẩm dựa trên số lượng giao dịch.
##
## Baking Goods Bathroom Products Beer and Wine
## 0.034426346 0.025962017 0.025321858
## Bread Breakfast Foods Candles
## 0.030229746 0.029660716 0.003200797
## Candy Canned Anchovies Canned Clams
## 0.025037343 0.003129668 0.003769827
## Canned Oysters Canned Sardines Canned Shrimp
## 0.002489508 0.002845153 0.002702895
## Canned Soup Canned Tuna Carbonated Beverages
## 0.028736041 0.006188207 0.010953837
## Cleaning Supplies Cold Remedies Dairy
## 0.013443346 0.006614980 0.064229319
## Decongestants Drinks Eggs
## 0.006045949 0.009602390 0.014083505
## Electrical Frozen Desserts Frozen Entrees
## 0.025250729 0.022974607 0.008393200
## Fruit Hardware Hot Beverages
## 0.054413543 0.009175617 0.016075112
## Hygiene Jams and Jellies Kitchen Products
## 0.014012376 0.041823743 0.015434953
## Magazines Meat Miscellaneous
## 0.014368020 0.054129028 0.002987410
## Packaged Vegetables Pain Relievers Paper Products
## 0.003414183 0.013656732 0.024539441
## Pizza Plastic Products Pure Juice Beverages
## 0.013798990 0.010029163 0.011736254
## Seafood Side Dishes Snack Foods
## 0.007255139 0.010882709 0.113806103
## Specialty Starchy Foods Vegetables
## 0.020556227 0.019702682 0.122910591
Bảng tần suất tương đối (trong ảnh) hiển thị tỷ lệ phần trăm của từng danh mục sản phẩm trong tổng số giao dịch. Vegetables chiếm tỷ lệ cao nhất (12.29%), tiếp theo là Snack Foods (11.38%). Fruit (5.44%) và Meat (5.41%) cũng đóng góp một phần đáng kể vào tổng số giao dịch. Các danh mục có tỷ lệ thấp nhất bao gồm Canned Oysters (0.25%), Canned Shrimp (0.27%), và Canned Sardines (0.28%). Bảng này cung cấp cái nhìn về mức độ đóng góp của từng danh mục vào tổng doanh số hoặc số lượng giao dịch, giúp so sánh tầm quan trọng tương đối của chúng. Ví dụ, mặc dù số lượng giao dịch của Vegetables cao hơn Snack Foods, cả hai đều chiếm tỷ lệ lớn nhất trong tổng số giao dịch.