Cuốn sách “Generalized Linear Models With Examples in R” (Mô hình Tuyến tính Tổng quát với Ví dụ trong R) của Peter K. Dunn và Gordon K. Smyth, xuất bản bởi Springer Texts in Statistics, giới thiệu và trình bày chi tiết về các mô hình thống kê, đặc biệt là mô hình tuyến tính tổng quát (GLM), cùng với cách sử dụng phần mềm R để áp dụng các mô hình này. Cuốn sách này là một phần của series Springer Texts in Statistics.
Chương 1 đóng vai trò là phần giới thiệu và tổng quan. Các phần cụ thể được đề cập trong các nguồn bao gồm:
Plotting Data (Vẽ dữ liệu): Phần này minh họa tầm quan trọng của việc trực quan hóa dữ liệu để hiểu mối quan hệ giữa các biến.
Coding for Factors (Mã hóa cho biến phân loại): Chương này cũng đề cập đến cách mã hóa các biến phân loại (categorical variables), mặc dù các nguồn được cung cấp không đi sâu vào chi tiết cụ thể về cách thực hiện điều này.
Statistical Models Describe Both Random and Systematic Features of Data (Các mô hình thống kê mô tả cả đặc trưng ngẫu nhiên và hệ thống của dữ liệu): Phần này giới thiệu ý tưởng cốt lõi rằng các mô hình thống kê cố gắng nắm bắt cả sự biến đổi có hệ thống (có thể giải thích được bởi các biến khác) và sự biến đổi ngẫu nhiên (không giải thích được) trong dữ liệu.
Số lượng tham số hồi quy (regression parameters) được ký hiệu là \(p'\). Hầu hết các mô hình đều bao gồm một hằng số (constant term), ký hiệu là \(\beta_0\), trong thành phần hệ thống. Khi \(\beta_0\) có trong mô hình, \(p'=p+1\), và các tham số hồi quy là \(\beta_0, \beta_1,...,\beta_p\). Nếu \(\beta_0\) không có, thì \(p'=p\), và các tham số là \(\beta_1,...,\beta_p\).
Tóm lại, Chương 1 là một chương nền tảng, giới thiệu các công cụ cơ bản để khám phá dữ liệu (vẽ biểu đồ), cách cấu trúc dữ liệu cho mô hình (mã hóa biến phân loại) và những nguyên tắc cơ bản về cách các mô hình thống kê mô tả dữ liệu, bao gồm ký hiệu cho các biến và tham số hồi quy, cùng với sự phân biệt quan trọng giữa nghiên cứu thực nghiệm và quan sát đối với việc suy luận nhân quả.
Chương 2 của cuốn sách “Generalized Linear Models With Examples in R” tập trung vào Các Mô hình Hồi quy Tuyến tính (Linear Regression Models). Dưới đây là tóm tắt chi tiết nội dung Chương 2:
Mô hình Hồi quy Tuyến tính: Chương này giới thiệu và khám phá mô hình hồi quy tuyến tính, một công cụ cơ bản để mô tả mối quan hệ giữa biến phản hồi (response variable) và một hoặc nhiều biến giải thích (explanatory variables). Mô hình này giả định mối quan hệ tuyến tính trong thành phần hệ thống và một thành phần ngẫu nhiên thường được mô hình hóa bằng phân phối Chuẩn (Normal distribution).
Biểu diễn bằng Ma trận (Matrix Formulation): Chương 2 bao gồm phần về biểu diễn mô hình hồi quy tuyến tính bằng ma trận (Mục 2.5). Điều này cho phép biểu diễn gọn gàng các phương trình và quá trình ước lượng. Các nguồn cũng chỉ ra cách tính toán ước lượng tham số \(\beta\) sử dụng công thức ma trận liên quan đến nghịch đảo của \((X^TWX)^{-1}X^TW\), trong đó \(X\) là ma trận thiết kế (design matrix), \(y\) là vector biến phản hồi và \(W\) là ma trận trọng số (identity matrix trong hồi quy tuyến tính thông thường).
Ước lượng Tham số: Chương này thảo luận về cách ước lượng các tham số hồi quy (\(\hat{\beta}\)). Trong mô hình hồi quy tuyến tính thông thường, ước lượng này là ước lượng bình phương nhỏ nhất (least squares estimates).
Phân tích Phương sai (ANOVA): Một phần quan trọng của Chương 2 là Phân tích Phương sai (Analysis of Variance). Bảng ANOVA trình bày cách phân chia tổng bình phương sai lệch (total sum of squares) thành các thành phần do thành phần hệ thống (regression) và thành phần ngẫu nhiên (residual).
Kiểm định F (F-test): Chương này giới thiệu kiểm định F được sử dụng trong bảng ANOVA để đánh giá mức độ phù hợp tổng thể của mô hình hoặc so sánh các mô hình lồng nhau (nested models). Giá trị F lớn cho thấy phần biến thiên được giải thích bởi thành phần hệ thống lớn so với phương sai ngẫu nhiên (\(s^2\)).
Tổng bình phương sai lệch Dư (Residual Sum of Squares - RSS) và Ước lượng Phương sai Dư (Residual Variance Estimate): RSS là tổng bình phương của sai lệch giữa giá trị quan sát và giá trị dự đoán của mô hình. Ước lượng không chệch của phương sai ngẫu nhiên (\(\sigma^2\)) được ký hiệu là \(s^2\) và được tính từ RSS chia cho bậc tự do dư (residual degrees of freedom), là \(n-p'\), trong đó \(n\) là số quan sát và \(p'\) là số tham số hồi quy.
So sánh các Mô hình Lồng nhau (Comparing Nested Models): Mục 2.10 thảo luận về cách so sánh các mô hình lồng nhau, sử dụng kiểm định F.
Tiêu chí Lựa chọn Mô hình (Model Selection Criteria): Chương này giới thiệu các tiêu chí lựa chọn mô hình như AIC (Akaike Information Criterion) và BIC (Bayesian Information Criterion). Các tiêu chí này giúp so sánh các mô hình (kể cả mô hình không lồng nhau) dựa trên sự cân bằng giữa mức độ phù hợp với dữ liệu và độ phức tạp của mô hình. Giá trị AIC hoặc BIC thấp hơn thường được ưu tiên. Đối với mô hình hồi quy tuyến tính, bậc tự do tương đương (equivalent degrees of freedom) bằng số lượng tham số hồi quy ước lượng.
Giải thích Tham số (Parameter Interpretation): Chương 2 cung cấp cách giải thích ý nghĩa của các tham số hồi quy (\(\beta\)). Ví dụ, \(\beta_0\) là giá trị dự đoán khi tất cả các biến giải thích bằng 0. Khi sử dụng biến giả cho biến phân loại, các hệ số cho thấy sự khác biệt trung bình của biến phản hồi giữa các nhóm so với nhóm tham chiếu. Việc sử dụng biến đổi (transformation) trên biến phản hồi (ví dụ: log(FEV)) ảnh hưởng đến cách giải thích các hệ số; thay vì khác biệt trung bình, nó trở thành nhân tố trung bình (factor).
Sử dụng R (Using R): Chương này minh họa cách sử dụng phần mềm thống kê R để phù hợp (fit) các mô hình hồi quy tuyến tính, sử dụng hàm lm(), và cách lấy kết quả tóm tắt (summary()) và bảng ANOVA (anova()), cũng như cách tính AIC/BIC (extractAIC() hoặc AIC()).
Trực quan hóa Dữ liệu và Sai lệch (Plotting Data and Residuals): Tiếp nối Chương 1, Chương 2 tiếp tục nhấn mạnh tầm quan trọng của việc vẽ dữ liệu và đặc biệt là vẽ các sai lệch (residuals) để kiểm tra các giả định của mô hình, chẳng hạn như tính đồng nhất phương sai (constant variance). Các biểu đồ như FEV so với tuổi hoặc chiều cao và sai lệch chuẩn hóa (standardized residuals) so với giá trị dự đoán hoặc biến giải thích được sử dụng.
Chương 2 cung cấp nền tảng vững chắc về mô hình hồi quy tuyến tính, từ cấu trúc lý thuyết, phương pháp ước lượng, kiểm định mô hình, đến việc sử dụng R và diễn giải kết quả, chuẩn bị cho việc mở rộng sang các Mô hình Tuyến tính Tổng quát trong các chương tiếp theo.
Chương này mở rộng dựa trên nền tảng về mô hình hồi quy tuyến tính đã được giới thiệu trong Chương 2, tập trung vào việc đánh giá mức độ phù hợp của mô hình và cải thiện mô hình thông qua các kỹ thuật khác nhau. Các nội dung chính được đề cập trong các nguồn bao gồm: * 1. Biến đổi Dữ liệu (Transformations): Chương 3 thảo luận về việc sử dụng các phép biến đổi trên cả biến phản hồi (response variable) và biến giải thích (covariates) để cải thiện sự phù hợp của mô hình và đáp ứng các giả định của mô hình hồi quy tuyến tính.
Biến đổi biến phản hồi: Các phép biến đổi phổ biến như biến đổi căn bậc hai (square root) và biến đổi logarit (logarithmic) được giới thiệu,,,. Biến đổi logarit được minh họa là phù hợp với dữ liệu lungcap để tạo ra phương sai gần như không đổi. Kỹ thuật Box-Cox để tìm phép biến đổi phù hợp cũng được đề cập. Các biểu đồ sai lệch chuẩn hóa (standardized residuals) so với giá trị dự đoán (fitted values) được sử dụng để đánh giá hiệu quả của các phép biến đổi này,,,.
Biến đổi biến giải thích: Các phép biến đổi đơn
giản của biến giải thích như logarit hoặc nghịch đảo cũng được thảo
luận,. Ví dụ dữ liệu windmill
được sử dụng để minh họa ảnh
hưởng của biến đổi log(Wind) hoặc 1/Wind lên mối quan hệ với biến phản
hồi DC và lên biểu đồ sai lệch,. Dữ liệu về tiêu thụ thức ăn của cá cũng
sử dụng biến đổi logarit cho các biến giải thích như MaxWt, Temp, và
AR.
Xu hướng Đa thức (Polynomial Trends): Sử dụng các bậc cao hơn của
biến giải thích (ví dụ: bậc hai, bậc ba, bậc bốn) để mô hình hóa mối
quan hệ cong,,. Các ví dụ bao gồm dữ liệu Kraft paper
và
heat capacity
,,.
Spline Hồi quy (Regression Splines): Kỹ thuật này cho phép mô
hình linh hoạt hơn các mô hình đa thức, bằng cách chia biến giải thích
thành các đoạn và phù hợp các mô hình đa thức (thường là bậc ba) trong
mỗi đoạn, đảm bảo sự liên tục và trơn tru tại các điểm nối (knots),,,.
Các hàm poly()
, ns()
(natural cubic splines),
và bs()
(B-splines) trong R được đề cập để tạo các biến cho
mô hình đa thức và spline,,,. Dữ liệu heat capacity được sử dụng để minh
họa việc sử dụng spline,,.
Biểu đồ Sai lệch (Residual Plots): Vẽ sai lệch (hoặc sai lệch chuẩn hóa/deviance) so với giá trị dự đoán hoặc biến giải thích là cách tiêu chuẩn để kiểm tra các giả định như tính tuyến tính và tính đồng nhất phương sai (constant variance),,,,,,,,. Dữ liệu CT fluoroscopy được dùng làm ví dụ về trường hợp phương sai không đổi.
Biểu đồ Q-Q Chuẩn tắc (Normal Q-Q Plot): Được sử dụng để kiểm tra giả định về phân phối chuẩn của sai lệch,.
Khoảng cách Cook (Cook’s Distance): Một chỉ số để phát hiện các điểm quan sát có ảnh hưởng lớn đến kết quả phù hợp mô hình,.
Biểu đồ Partial (Partial Plots): Minh họa mối quan hệ giữa biến phản hồi (sau khi loại bỏ ảnh hưởng của các biến khác) và một biến giải thích cụ thể,. Các biểu đồ này giúp đánh giá xem một biến có nên được đưa vào mô hình hay không và dạng biến đổi phù hợp,.
Sử dụng trọng số trong hồi quy (Weighted Regression), ví dụ dùng
SampleSize
làm trọng số trong dữ liệu gopher tortoise, có
thể liên quan đến việc xử lý phương sai không đồng nhất.
Sử dụng các tiêu chí thông tin như AIC (Akaike Information Criterion) và BIC (Bayesian Information Criterion) để so sánh các mô hình khác nhau, đặc biệt là các mô hình không lồng nhau (non-nested),. Giá trị AIC hoặc BIC nhỏ hơn thường chỉ ra mô hình được ưu tiên hơn,.
Kiểm định F (F-test) cũng có thể được sử dụng để so sánh các mô hình lồng nhau, như đã giới thiệu trong Chương 2.
Xem xét các tương tác (interaction terms) giữa các biến giải
thích để mô hình hóa các mối quan hệ phức tạp hơn, nơi ảnh hưởng của một
biến phụ thuộc vào giá trị của biến khác,,. Dữ liệu dmft
minh họa mô hình với tương tác giữa Sugar và
Industrialized/Non-industrialized,.
Nguyên tắc biên (marginality principle) được đề cập trong ngữ cảnh các tương tác.
Diễn giải Tham số (Parameter Interpretation): Chương này cung cấp hướng dẫn về cách diễn giải ý nghĩa của các hệ số hồi quy, đặc biệt là khi biến phản hồi đã được biến đổi (ví dụ: log(FEV)),,,. Biến đổi logarit biến đổi mối quan hệ cộng tính thành mối quan hệ nhân tố. Diễn giải cho các biến phân loại (factor) cũng được minh họa.
Nghiên cứu tình huống và Bài tập (Case Studies and
Problems): Chương 3 bao gồm nhiều ví dụ và bài tập thực hành sử
dụng các bộ dữ liệu khác nhau (lungcap
,
gopher
, dmft
,,,, windmill
,,
cherry tree
, heat capacity
,,,,,,
ruminant
, fluoro
(CT fluoroscopy),,,
butterfat
,,) để minh họa các kỹ thuật chẩn đoán, biến đổi
và xây dựng mô hình,,,,,,,.
Tóm lại, Chương 3 là một chương thực hành quan trọng, trang bị cho người đọc các công cụ cần thiết để đánh giá, cải thiện và lựa chọn mô hình hồi quy tuyến tính, chuẩn bị cho việc chuyển sang các loại mô hình tuyến tính tổng quát khác nhau trong các chương tiếp theo.
Chương này giới thiệu về việc vượt ra ngoài khuôn khổ Hồi quy Tuyến tính (Beyond Linear Regression) và đi sâu vào Phương pháp Hợp lý Cực đại (The Method of Maximum Likelihood), đặt nền tảng cho các Mô hình Tuyến tính Tổng quát (Generalized Linear Models - GLMs).
Dưới đây là tóm tắt các điểm chính dựa trên các đoạn trích liên quan đến Chương 4:
Một ví dụ được đưa ra là dữ liệu về các vụ phóng tàu con thoi
shuttles
. Biến phản hồi ở đây là số lượng vòng đệm chữ O bị
hỏng trong số sáu vòng cho mỗi lần phóng. Đây là một biến ngẫu nhiên nhị
thức, chỉ có bảy giá trị có thể có cho biến phản hồi (0 đến 6). Các
nguồn nhấn mạnh rằng không có phép biến đổi nào có thể thay đổi bản chất
của loại biến phản hồi này, ngụ ý rằng một mô hình tuyến tính chuẩn với
giả định phân phối Chuẩn cho sai lệch sẽ không phù hợp.
Ví dụ khác có thể là dữ liệu về xác suất lượng mưa vượt ngưỡng,
cũng là một biến bị chặn (giữa 0 và 1), không phù hợp với giả định phân
phối Chuẩn trên toàn miền giá trị. Một mô hình hồi quy tuyến tính cơ bản
(Linear regression model
) được vẽ lên dữ liệu này, có lẽ để
minh họa sự thiếu phù hợp và cần có một Adopted model
(mô
hình được chấp nhận) khác.
Giới thiệu Phương pháp Hợp lý Cực đại (Maximum Likelihood): Khi các giả định của hồi quy tuyến tính không được đáp ứng (đặc biệt là phân phối của biến phản hồi hoặc cấu trúc phương sai), cần có một phương pháp ước lượng tham số tổng quát hơn. Phương pháp Hợp lý Cực đại được giới thiệu như một kỹ thuật để ước lượng các tham số mô hình cho nhiều loại phân phối khác nhau.
Kiểm định Giả thuyết: Kết quả Tiệm cận Mẫu lớn (Hypothesis Testing): Large Sample Asymptotic Results): Chương 4 đề cập đến việc kiểm định giả thuyết trong khuôn khổ ML, sử dụng các kết quả tiệm cận (khi kích thước mẫu lớn).
betahat
) và
ma trận thông tin (inverse of the information matrix) của chúng. Một ví
dụ về cách tính toán thống kê Wald (W.global
) và giá trị P
(p.W.global
) được trình bày, cho thấy đây là một kiểm định
tổng thể (global test).Tóm lại, Chương 4 chuyển trọng tâm từ mô hình hồi quy tuyến tính chuẩn sang việc sử dụng Phương pháp Hợp lý Cực đại để mô hình hóa các biến phản hồi có phân phối không phải là Chuẩn (ví dụ: dữ liệu đếm, dữ liệu nhị thức). Chương này giới thiệu các kỹ thuật ước lượng và kiểm định giả thuyết phù hợp với khung ML và các kết quả tiệm cận, chuẩn bị cho việc nghiên cứu chi tiết các loại Mô hình Tuyến tính Tổng quát khác nhau trong các chương tiếp theo.
Đây là chương giới thiệu chi tiết về Các Mô hình Phân tán Lũy thừa (Exponential Dispersion Models - EDMs). Đây là nền tảng lý thuyết thống nhất cho các Mô hình Tuyến tính Tổng quát (GLMs). Các nội dung được đề cập trong chương 5 bao gồm:
Giới thiệu về EDMs: Chương này định nghĩa và trình bày cấu trúc toán học của lớp phân phối xác suất được gọi là EDMs. Lớp này bao gồm nhiều phân phối thông dụng như phân phối Chuẩn (Normal), Nhị thức (Binomial), Poisson, Nhị thức Âm (Negative Binomial), Gamma, Gaussian Nghịch đảo (Inverse Gaussian) và Tweedie.
Các Thành phần Chính của EDMs: Chương 5 giới thiệu và giải thích các khái niệm quan trọng đặc trưng cho EDMs:
Hàm phương sai (Variance function, \(V(\mu)\): Cho biết cách phương sai của biến
phản hồi phụ thuộc vào giá trị trung bình (\(\mu\)) của nó. Đây là điểm khác biệt cốt
lõi so với hồi quy tuyến tính chuẩn (nơi phương sai được giả định là
không đổi). Các nguồn minh họa mối quan hệ này bằng cách vẽ logarit của
phương sai mẫu theo nhóm so với logarit của giá trị trung bình mẫu theo
nhóm, ví dụ với dữ liệu noisy miner
.
Tham số phân tán (Dispersion parameter, \(\phi\)): Một tham số riêng biệt kiểm soát phương sai. Đối với một số phân phối (như Poisson), \(\phi\) được cố định (\(\phi=1\)). Đối với các phân phối khác (như Chuẩn, Gamma), \(\phi\) có thể được ước lượng từ dữ liệu. Mối quan hệ phương sai-trung bình tổng quát trong EDMs là \(Var(y)=\phi*V(\mu)\) (ngụ ý từ cấu trúc bảng).
Hàm tích lũy (Cumulant function, \(k(\theta)\)) và tham số chính tắc (Canonical parameter, \(\theta\)).
Độ lệch đơn vị (Unit deviance, \(d(y,\mu)\)): Một thước đo mức độ sai khác giữa quan sát (\(y\)) và giá trị trung bình mô hình dự đoán (\(\mu\)), đóng vai trò quan trọng trong việc đánh giá sự phù hợp của mô hình và được sử dụng để xây dựng hàm độ lệch tổng thể (deviance). Chương này có thể thảo luận về kỳ vọng của độ lệch đơn vị cho các phân phối khác nhau.
Mối liên hệ giữa các Phân phối: EDMs cho thấy các phân phối khác nhau (Poisson, Gamma, Inverse Gaussian, Tweedie…) có mối liên hệ chặt chẽ thông qua tham số chỉ số Tweedie (\(\xi\)). Các trường hợp đặc biệt của phân phối Tweedie tương ứng với các phân phối khác trong khung EDM.
Đặt nền tảng cho GLMs: Bằng cách trình bày EDM, Chương 5 cung cấp khung lý thuyết thống nhất cho việc mô hình hóa các loại dữ liệu khác nhau bằng GLM. Các chương sau sẽ đi sâu vào từng loại GLM cụ thể (ví dụ: Chương 9 về Nhị thức, Chương 10 về Poisson và Nhị thức Âm, Chương 11 về Gamma và Gaussian Nghịch đảo, Chương 12 về Tweedie), nhưng các khái niệm cốt lõi (hàm phương sai, tham số phân tán, độ lệch) đã được thiết lập trong Chương 5 này.
Kiểm tra mối quan hệ Phương sai-Trung bình trong Dữ liệu: Chương này có thể hướng dẫn cách sử dụng biểu đồ (ví dụ: logarit phương sai nhóm so với logarit trung bình nhóm) để khám phá mối quan hệ phương sai-trung bình trong dữ liệu thực tế, giúp lựa chọn một họ EDM phù hợp cho việc mô hình hóa.
Tóm lại, Chương 5 đóng vai trò là chương nền tảng lý thuyết, giới thiệu về gia đình các Mô hình Phân tán Lũy thừa (EDMs), làm nổi bật các thành phần chung của chúng như hàm phương sai và tham số phân tán, và cho thấy cách EDMs cung cấp một khuôn khổ thống nhất để mô hình hóa các loại dữ liệu có cấu trúc phương sai phức tạp hơn so với mô hình hồi quy tuyến tính chuẩn
Đây là chương đầu tiên đi sâu vào việc ứng dụng thực tế khung GLM bằng cách tập trung vào một hoặc một số loại GLM cụ thể, như GLM với phân phối Poisson, và hướng dẫn cách điều chỉnh (fit) các mô hình này bằng hàm glm() trong R. Chương này có thể giải thích chi tiết về cách thiết lập mô hình, cách diễn giải kết quả ban đầu và có thể bao gồm các bài tập thực hành về việc áp dụng GLM cho các tập dữ liệu phù hợp với phân phối Poisson hoặc các phân phối đơn giản khác.
Chương 7 tập trung vào các phương pháp Suy luận (Inference) cho Mô hình Tuyến tính Tổng quát (Generalized Linear Models - GLMs). Suy luận ở đây bao gồm việc kiểm định giả thuyết về các tham số mô hình và xây dựng khoảng tin cậy.
Dưới đây là tóm tắt dựa trên thông tin có sẵn:
Chủ đề chính: Suy luận Thống kê cho GLMs. Chương này chuyển từ việc chỉ điều chỉnh mô hình (như có thể thấy ở Chương 6) sang việc đánh giá ý nghĩa thống kê của các biến giải thích và các tham số ước lượng.
Các phương pháp suy luận được giới thiệu:
Phân tích Độ lệch (Analysis of Deviance): Đây là phương pháp tương tự như Phân tích Phương sai (ANOVA) trong mô hình tuyến tính thông thường, nhưng sử dụng độ lệch (deviance) thay vì tổng bình phương sai số. Bảng phân tích độ lệch được sử dụng để kiểm định ý nghĩa của các biến giải thích trong mô hình bằng cách so sánh sự thay đổi độ lệch khi thêm hoặc bớt các biến. Kiểm định dựa trên sự thay đổi độ lệch thường sử dụng phân phối Chi-bình phương (Chisq).
Kiểm định Tỷ số Hợp lý (Likelihood Ratio Test - LRT): Đây là nền tảng cho Phân tích Độ lệch. LRT được sử dụng để so sánh các mô hình lồng nhau (nested models) và kiểm định ý nghĩa của một nhóm các tham số. Giá trị thống kê LRT (ký hiệu là L trong nguồn) được so sánh với phân phối Chi-bình phương để tính P-value.
Ước lượng Tham số (Parameter Estimates) và Sai số Chuẩn (Standard Errors): Chương này thảo luận về cách thu được các ước lượng cho các tham số hồi quy (\(\beta^j\)) và sai số chuẩn tương ứng của chúng.
Kiểm định Wald (Wald Test): Phương pháp này sử dụng ước lượng tham số và sai số chuẩn của nó để kiểm định ý nghĩa thống kê của từng tham số hồi quy riêng lẻ. Giá trị thống kê Wald thường là \(z=\frac{\beta^j}{Se(\beta^j)}\), được so sánh với phân phối Chuẩn tắc để tính P-value.
Khoảng tin cậy (Confidence Intervals): Chương cũng hướng dẫn cách xây dựng khoảng tin cậy cho các tham số hồi quy dựa trên ước lượng và sai số chuẩn của chúng.
Phần mềm R: Các lời giải bài tập cho thấy việc
thực hiện các kiểm định này trong R sử dụng các hàm như
anova()
với test="Chisq"
, và các hàm liên quan
đến phân phối thống kê như pchisq()
, pnorm()
,
qnorm()
.
Tham số phân tán (Dispersion Parameter - φ): Một phần của chương đề cập đến suy luận khi tham số phân tán \(\phi\) không được biết, điều này quan trọng đối với các GLM nơi phương sai không bằng giá trị trung bình (ví dụ: Phân phối Binomial, Gamma, thay vì Poisson).
Ví dụ dữ liệu: Các bài tập và ví dụ trong chương
này có thể sử dụng các loại dữ liệu khác nhau phù hợp với GLM, chẳng hạn
như dữ liệu đếm (Poisson
,) hoặc dữ liệu tỷ lệ/nhị phân
(Binomial
,).
Tóm lại, Chương 7 là chương quan trọng giới thiệu các phương pháp và công cụ thống kê để đánh giá ý nghĩa của các biến và tham số trong Mô hình Tuyến tính Tổng quát, sử dụng các kỹ thuật như Phân tích Độ lệch (Kiểm định Tỷ số Hợp lý) và Kiểm định Wald, đồng thời hướng dẫn thực hiện các phân tích này trong R.
Chương 8 tập trung vào Phân tích Chẩn đoán (Diagnostic Analysis) và Xây dựng Mô hình (Model-Building) cho Mô hình Tuyến tính Tổng quát (GLM). Mục đích chính là đánh giá sự phù hợp của mô hình đã điều chỉnh và xác định các vấn đề tiềm ẩn trong mô hình hoặc dữ liệu.
Các điểm chính được đề cập trong các nguồn liên quan đến Chương 8 bao gồm:
Nhu cầu về các loại phần dư mới: Đối với GLM, phương sai của biến phản hồi thường phụ thuộc vào giá trị trung bình của nó. Điều này khác với các mô hình tuyến tính thông thường (như hồi quy tuyến tính chuẩn), nơi phương sai thường được giả định là hằng số. Do đó, việc sử dụng các phần dư đơn giản (sai khác giữa giá trị quan sát và giá trị dự đoán, \(y_i-\mu^i\)) không đủ để đánh giá chính xác sự phù hợp của mô hình hoặc xác định các điểm ngoại lai. Chương 8 giới thiệu các định nghĩa mới về phần dư phù hợp với cấu trúc của GLM.
Các loại phần dư chính: Các đoạn trích đề cập đến và sử dụng nhiều loại phần dư khác nhau trong ngữ cảnh chẩn đoán GLM:
Phần dư Độ lệch Chuẩn hóa (Standardized Deviance Residuals - r’D). Đây là một trong những loại phần dư quan trọng để kiểm tra sự phù hợp tổng thể của mô hình.
Phần dư Quantile (Quantile Residuals). Biểu đồ phần dư quantile so với các biến giải thích (hoặc giá trị dự đoán) là một công cụ mạnh mẽ để kiểm tra giả định về phân phối và cấu trúc của thành phần hệ thống. Một xu hướng cong trong biểu đồ này có thể chỉ ra rằng mô hình không phù hợp (inadequate).
Phần dư Làm việc (Working Residuals).
Các đoạn trích khác cũng nhắc đến Phần dư Chuẩn hóa (Standardized Residuals) trong bối cảnh các biểu đồ chẩn đoán.
Biểu đồ phần dư so với giá trị dự đoán (fitted values) hoặc thành phần tuyến tính (linear predictor).
Biểu đồ phần dư so với các biến giải thích.
Biểu đồ Q-Q (Quantile-Quantile Plot) của phần dư (quantile hoặc chuẩn hóa) để kiểm tra giả định về phân phối.
Biểu đồ phần dư từng phần (Partial Residual Plots) giúp đánh giá đóng góp của từng biến giải thích vào mô hình sau khi đã tính đến các biến khác.
Nhận diện Quan sát Ảnh hưởng (Influential Observations) và Giá trị Ngoại lai (Outliers): Chương 8 cung cấp các công cụ để xác định các điểm dữ liệu có ảnh hưởng lớn đến kết quả ước lượng mô hình. Các chỉ số quan trọng bao gồm Khoảng cách Cook (Cook’s distance) và dffits. Biểu đồ của các chỉ số này theo số thứ tự quan sát giúp dễ dàng nhận diện các điểm có ảnh hưởng. Chương cũng đề cập đến các khái niệm liên quan như điểm đòn bẩy cao (high leverage) và phần dư lớn (large residual). Các đoạn mã R cho thấy cách tính và sử dụng các chỉ số này, cũng như cách điều chỉnh mô hình bằng cách loại bỏ các quan sát ảnh hưởng để xem xét tác động của chúng.
Các Biện pháp Khắc phục (Remedies): Một phần của chương được dành cho việc khắc phục các vấn đề được xác định qua phân tích chẩn đoán. Mặc dù các đoạn trích không đi sâu vào chi tiết các biện pháp, việc có một mục như “Remedies: Fixing Identified Problems” cho thấy chương này cung cấp hướng dẫn về cách cải thiện mô hình khi các chẩn đoán chỉ ra vấn đề (ví dụ: thay đổi cấu trúc thành phần hệ thống, link function, hoặc xử lý các điểm ảnh hưởng).
Tóm lại, Chương 8 đóng vai trò cầu nối giữa lý thuyết và thực hành điều chỉnh GLM, trang bị cho người dùng các kỹ thuật cần thiết để kiểm tra nghiêm ngặt các giả định và sự phù hợp của mô hình GLM bằng cách sử dụng các loại phần dư chuyên biệt, các biểu đồ chẩn đoán và các chỉ số nhận diện quan sát ảnh hưởng.
Chương 9 có tiêu đề “Các Mô hình cho Tỷ lệ: GLMs Nhị thức (Models for Proportions: Binomial GLMs)”. Trọng tâm của chương này là mô hình hóa các biến phản hồi có dạng tỷ lệ hoặc số lượng các lần thành công từ một số lần thử cố định.
Các điểm chính về Chương 9 từ các nguồn bao gồm:
Biến phản hồi: Chương này xử lý dữ liệu mà biến phản hồi là tỷ lệ hoặc số lượng quan sát thuộc một danh mục cụ thể trong tổng số quan sát cố định. Đây là dữ liệu tuân theo phân phối Nhị thức (Binomial distribution).
Mô hình chính: Loại mô hình tuyến tính tổng quát (GLM) được thảo luận trong chương này là GLM Nhị thức (Binomial GLM). Khi sử dụng hàm liên kết (link function) logit, mô hình này còn được gọi là Hồi quy Logistic (Logistic Regression).
Điều chỉnh mô hình trong R: Chương này hướng dẫn
cách điều chỉnh các mô hình GLM Nhị thức trong phần mềm R, sử dụng hàm
glm
với family=binomial
. Biến phản hồi có thể
được chỉ định dưới dạng tỷ lệ kết hợp với đối số weights
hoặc dưới dạng một ma trận hai cột
cbind(số_lần_thành_công, số_lần_thất_bại)
.
Các Hàm liên kết (Link Functions): Mặc dù hàm liên kết logit là phổ biến nhất, chương cũng đề cập đến các hàm liên kết khác, ví dụ như hàm liên kết cloglog (complementary log-log) trong ngữ cảnh mô hình “single-hit” và dữ liệu mammary.
Giải thích kết quả: Chương cung cấp cách giải
thích các tham số ước lượng từ mô hình hồi quy logistic, ví dụ như dưới
dạng tỷ số chênh (odds ratios) thông qua việc lấy hàm
mũ (exp
) của các hệ số hồi quy.
Phân tích chẩn đoán (Diagnostic Analysis): Tương tự như các chương khác về GLM, Chương 9 cũng bao gồm phân tích chẩn đoán để đánh giá sự phù hợp của mô hình. Các biểu đồ phần dư quantile (quantile residuals) được sử dụng để kiểm tra sự phù hợp của mô hình và giả định về phân phối.
Các kỹ thuật mô hình hóa khác: Chương có thể bao
gồm việc sử dụng offset trong mô hình, như được minh
họa với mô hình “single-hit” sử dụng hàm liên kết cloglog và offset
log(N.Cells)
.
So sánh mô hình: Phân tích Độ lệch (Analysis of
Deviance) với kiểm định Chi-bình phương (test="Chisq"
) được
sử dụng để so sánh các mô hình lồng nhau.
Các Nghiên cứu điển hình (Case Studies) và Vấn đề: Chương này sử dụng nhiều bộ dữ liệu và ví dụ để minh họa các khái niệm, bao gồm dữ liệu về các vết nứt trên tuabin (turbines), sự nảy mầm của hạt giống (seed germination), sự phát triển tuyến sữa từ tế bào gốc (mammary stem cells), sự hiện diện của chim “noisy miners” liên quan đến cây bạch đàn (eucalypts), tác động của thuốc trừ sâu lên côn trùng (insecticide data), mối liên hệ giữa tăng huyết áp và ngưng thở khi ngủ (hypertension and sleep apnoea), và tác động của thuốc lên bướm thuốc lá (tobacco budworm moths).
Tóm lại, Chương 9 tập trung vào việc xây dựng, điều chỉnh, giải thích và đánh giá các mô hình GLM Nhị thức (hồi quy logistic và các biến thể khác) cho dữ liệu tỷ lệ hoặc đếm từ tổng cố định, trang bị cho người đọc các công cụ cần thiết để phân tích loại dữ liệu này một cách hiệu quả.
Chương 10 được đặt tên là “Các Mô hình cho Số lần Đếm: GLM Poisson và GLM Nhị thức Phủ định (Models for Counts: Poisson and Negative Binomial GLMs)”.
Các điểm chính được đề cập liên quan đến Chương 10 bao gồm:
Loại dữ liệu: Chương này tập trung vào việc mô hình hóa các biến phản hồi dưới dạng số lần đếm (counts). Dữ liệu có thể được trình bày dưới dạng các quan sát đơn lẻ hoặc tổng hợp thành các bảng tần suất (contingency tables), ví dụ như bảng 2x2 về thái độ đối với thực phẩm biến đổi gen theo thu nhập hoặc bảng 3x2x2 về mức độ trầm cảm ở thanh thiếu niên theo giới tính và độ tuổi.
Các mô hình chính: Hai loại mô hình tuyến tính tổng quát (GLM) chính được thảo luận là GLM Poisson và GLM Nhị thức Phủ định (Negative Binomial GLMs). GLM Poisson là mô hình cơ bản cho dữ liệu đếm, trong khi GLM Nhị thức Phủ định hoặc mô hình quasi-Poisson thường được sử dụng để xử lý tình trạng phân tán quá mức (overdispersion), một vấn đề phổ biến trong dữ liệu đếm khi phương sai lớn hơn giá trị trung bình.
Mô hình Log-linear: Chương thảo luận về việc sử dụng mô hình log-linear, đặc biệt cho dữ liệu trong các bảng tần suất. Trong ngữ cảnh này, các thành phần hiệu ứng chính (main-effect terms) trong mô hình log-linear mô hình hóa tổng biên (marginal totals), trong khi thành phần tương tác (interaction term) phản ánh mối quan hệ hoặc sự liên kết giữa các yếu tố. Việc kiểm định sự có ý nghĩa của thành phần tương tác là trọng tâm chính khi phân tích các bảng tần suất bằng mô hình log-linear, ví dụ như phân tích mối liên hệ giữa thu nhập và thái độ đối với thực phẩm biến đổi gen.
Offset Terms: Chương này minh họa cách sử dụng
offset trong mô hình, ví dụ như
offset(log(Pop))
khi mô hình hóa số ca mắc (Cases) theo dân
số (Pop) để thực chất mô hình hóa tỷ lệ mắc (Cases/Pop) trên thang
logarit.
Kiểm tra giả định và chẩn đoán: Tương tự như các GLM khác, chương nhấn mạnh tầm quan trọng của phân tích chẩn đoán để đánh giá sự phù hợp của mô hình và kiểm tra giả định. Các biểu đồ chẩn đoán bao gồm biểu đồ phần dư chuẩn hóa so với căn bậc hai của giá trị dự đoán (Sqrt(Fitted values)) và biểu đồ Q-Q của phần dư quantile để kiểm tra giả định về phân phối. Khoảng cách Cook (Cook’s D) cũng được sử dụng để nhận diện các quan sát có ảnh hưởng. Kiểm định mức độ phù hợp tổng thể (goodness-of-fit test) dựa trên độ lệch dư (residual deviance) và bậc tự do dư (residual df) cũng được thực hiện.
Phương sai và giá trị trung bình: Chương thảo luận về mối quan hệ giữa phương sai và giá trị trung bình trong dữ liệu đếm. Biểu đồ logarit của phương sai nhóm so với logarit của giá trị trung bình nhóm có thể giúp nhận diện xem phương sai có tăng theo giá trị trung bình hay không. Tỷ số giữa phương sai và giá trị trung bình nhóm có thể là một chỉ báo về phân tán quá mức.
Các Nghiên cứu điển hình: Chương sử dụng nhiều bộ dữ liệu và ví dụ để minh họa các khái niệm, bao gồm: dữ liệu ung thư phổi ở Đan Mạch, thái độ đối với thực phẩm biến đổi gen, dữ liệu sỏi thận, mức độ trầm cảm ở thanh thiếu niên, số lượng vết rỗ virus, số lượng cá thể vệ tinh trên cua móng ngựa cái, dữ liệu về kích thước ổ trứng chim blue tit và sự sống sót của con non, hỏng hóc thiết bị điện tử, số ca tử vong do ung thư ở Canada, và dữ liệu về việc trẻ em xây tháp bằng khối.
Phân phối thay thế: Ngoài Poisson và Negative Binomial, chương cũng đề cập rằng phân phối đa thức (multinomial distribution) có thể phù hợp hơn cho dữ liệu đếm khi tổng số quan sát cố định, thay vì giả định rằng số đếm là không giới hạn như trong phân phối Poisson.
Tóm lại, Chương 10 cung cấp một cái nhìn chuyên sâu về mô hình hóa dữ liệu đếm bằng GLM Poisson và Negative Binomial, xử lý các vấn đề như phân tán quá mức và sử dụng mô hình log-linear cho các bảng tần suất, cùng với các kỹ thuật chẩn đoán phù hợp.
Chương 11 có tiêu đề “Các Mô hình cho Dữ liệu Liên tục Dương: GLMs Gamma và Inverse Gaussian (Positive Continuous Data: Gamma and Inverse Gaussian GLMs)”. Điều này cho thấy trọng tâm của chương là mô hình hóa các biến phản hồi có giá trị liên tục và dương.
Các điểm chính về Chương 11 từ các nguồn bao gồm:
Loại dữ liệu: Chương này xử lý dữ liệu liên tục dương, tức là các biến phản hồi chỉ nhận giá trị thực dương. Các ví dụ về dữ liệu này trong các nguồn bao gồm khối lượng lá cây (foliage biomass), chi phí điều trị bệnh nhân, và tốc độ phản ứng hóa học (benzene oxidation rates).
Các mô hình chính: Các loại mô hình tuyến tính tổng quát (GLM) được thảo luận trong chương này là GLM Gamma và GLM Inverse Gaussian. Phân phối Gamma và Inverse Gaussian thường phù hợp cho dữ liệu liên tục dương, đặc biệt khi phương sai của dữ liệu có xu hướng tăng theo giá trị trung bình.
Mối quan hệ giữa Phương sai và Giá trị Trung bình: Đối với dữ liệu phù hợp với GLM Gamma hoặc Inverse Gaussian, phương sai thường không cố định mà có mối quan hệ với giá trị trung bình. Cụ thể, trong phân phối Gamma, phương sai tỷ lệ với bình phương của giá trị trung bình (\(V(\mu)\propto \mu^2\)). Biểu đồ logarit của phương sai nhóm so với logarit của giá trị trung bình nhóm có thể được sử dụng để kiểm tra mối quan hệ này.
Các Hàm liên kết (Link Functions): Chương thảo luận các hàm liên kết phù hợp cho GLM Gamma và Inverse Gaussian. Hàm liên kết logarit (log \(\mu\)) là một lựa chọn phổ biến. Hàm liên kết nghịch đảo (inverse link, \(\frac{1}{\mu}\)) cũng được đề cập và so sánh.
Điều chỉnh mô hình: Các ví dụ minh họa việc điều chỉnh các mô hình này với các biến giải thích liên tục (như đường kính thân cây - DBH, tuổi - Age) và biến phân loại (như nguồn gốc cây - Origin). Việc sử dụng biến đổi logarit cho các biến giải thích liên tục như DBH cũng được xem xét. Mô hình có thể bao gồm các thành phần tương tác giữa các biến giải thích.
Giải thích kết quả: Chương hướng dẫn cách giải thích các tham số ước lượng từ mô hình. Ví dụ, đối với dữ liệu cây bồ đề lá nhỏ (small-leaved lime data), các hệ số ước lượng cho thấy sự khác biệt về khối lượng lá giữa các nhóm nguồn gốc cây (ví dụ: Coppice là mức tham chiếu) và mối quan hệ giữa khối lượng lá và logarit của DBH. Giá trị t-value được sử dụng để đánh giá ý nghĩa thống kê của các hệ số.
Phân tích chẩn đoán (Diagnostic Analysis): Phân tích chẩn đoán là một phần quan trọng để đánh giá sự phù hợp của mô hình. Các kỹ thuật chẩn đoán được sử dụng bao gồm:
Biểu đồ phần dư chuẩn hóa (standardized residuals) so với giá trị dự đoán (trên thang logarit).
Biểu đồ phần dư làm việc (working residuals) so với bộ dự báo tuyến tính (linear predictor).
Biểu đồ Q-Q của phần dư quantile (Q-Q plot of quantile residuals) để kiểm tra giả định về phân phối.
Khoảng cách Cook (Cook’s distance) để xác định các quan sát có ảnh hưởng.
Ước lượng Tham số phân tán (Dispersion Parameter): Việc ước lượng tham số phân tán \(\phi\) là một bước cần thiết trong GLM Gamma và Inverse Gaussian.
Các Nghiên cứu điển hình (Case Studies) và Vấn đề: Chương sử dụng nhiều bộ dữ liệu để minh họa, bao gồm dữ liệu về cây bồ đề lá nhỏ, chi phí điều trị bệnh tâm thần, và tốc độ phản ứng hóa học.
Tóm lại, Chương 11 trang bị cho người đọc kiến thức và kỹ năng để mô hình hóa dữ liệu liên tục dương bằng cách sử dụng GLM Gamma và Inverse Gaussian, bao gồm việc lựa chọn mô hình phù hợp, sử dụng các hàm liên kết khác nhau, phân tích chẩn đoán và giải thích kết quả mô hình.
Chương 12 có tiêu đề “Các Mô hình GLM Tweedie (Tweedie GLMs)”.
Các điểm chính được đề cập liên quan đến Chương 12 bao gồm:
Dữ liệu liên tục dương (Positive continuous data).
Dữ liệu liên tục dương có giá trị không chính xác (Positive continuous data with exact zeros).
Phân phối Tweedie: Phân phối Tweedie là một họ các phân phối thuộc họ phân phối hàm mũ (Exponential Dispersion Models - EDMs). Chúng được đặc trưng bởi hàm phương sai \(V(\mu)=\mu^{\xi}\).
Tham số chỉ số Tweedie (Tweedie index parameter \(\xi\)): Tham số \(\xi\) xác định phân phối cụ thể trong họ Tweedie. Chương này xem xét chi tiết các trường hợp \(1<\xi<2\) và \(\xi\ge2\) **.
Các trường hợp đặc biệt: Một số phân phối đã được nghiên cứu trước đây trong GLM là các trường hợp đặc biệt của phân phối Tweedie:
Phân phối Normal (Chuẩn) tương ứng với \(\xi=0\).
Phân phối Poisson tương ứng với \(\xi=1\) và tham số phân tán \(\phi=1\).
Phân phối Gamma tương ứng với \(\xi =2\).
Phân phối Inverse Gaussian (Gauss nghịch) tương ứng với \(\xi=3\).
Lưu ý rằng không có EDM Tweedie nào tồn tại khi \(0<\xi<1\).
Hàm phương sai: Đối với phân phối Tweedie, hàm phương sai là \(V(\mu)=\mu^\xi\). Điều này có nghĩa là mối quan hệ giữa phương sai và giá trị trung bình có thể thay đổi tùy thuộc vào giá trị của \(\xi\). Biểu đồ logarit của phương sai nhóm so với logarit của giá trị trung bình nhóm có thể được sử dụng để ước lượng \(\xi\) (độ dốc của đường thẳng trên biểu đồ).
Deviance đơn vị: Deviance đơn vị được đưa ra trong công thức (12.2) của sách. Deviance dư \(D(y,\hat\mu)\) được mô tả phù hợp bởi phân phối \(X^2\).
Phân tích chẩn đoán: Chương sử dụng các biểu đồ chẩn đoán như biểu đồ Q-Q của phần dư chuẩn hóa để kiểm tra giả định phân phối và Khoảng cách Cook để xác định các quan sát có ảnh hưởng.
Ước lượng tham số \(\xi\): Chương thảo luận về việc
ước lượng tham số chỉ số \(\xi\), ví dụ
bằng cách sử dụng hàm tweedie.profile()
.
Các Nghiên cứu điển hình (Case Studies) và Vấn đề: Chương sử dụng nhiều bộ dữ liệu để minh họa, bao gồm:
Dữ liệu về thời gian sống sót của động vật dưới các loại thuốc độc và phương pháp điều trị khác nhau (poison data).
Dữ liệu về thời gian ngủ của chuột lang sau khi dùng ketamine, bao gồm các giá trị không chính xác (guinea pig sleep data).
Dữ liệu về lượng mưa hàng tháng (rainfall data).
Dữ liệu về việc sử dụng polythene của các công ty mỹ phẩm (polythene data).
Dữ liệu về hỏng hóc điện môi (dielectric breakdown data).
Dữ liệu về yêu cầu bảo hiểm xe hơi ở Thụy Điển (Swedish insurance claims data).
Tóm lại, Chương 12 giới thiệu về Mô hình GLM Tweedie như một khung tổng quát bao gồm các phân phối Normal, Poisson, Gamma và Inverse Gaussian. Nó tập trung vào việc mô hình hóa dữ liệu liên tục dương, đặc biệt là những dữ liệu có thể chứa giá trị không chính xác, và thảo luận về việc ước lượng tham số chỉ số Tweedie ξ để xác định mối quan hệ giữa phương sai và giá trị trung bình.
Chương 13 có tiêu đề “Các Bài Tập Bổ Sung (Extra Problems)”.
Nội dung chính của Chương 13 bao gồm một tập hợp các bài tập và nghiên cứu điển hình bổ sung để người đọc thực hành và áp dụng các kỹ thuật mô hình GLM đã học từ các chương trước.
Các nguồn cung cấp thông tin chi tiết về một số bài tập trong chương này:
Bài tập 13.1: Sử dụng bộ dữ liệu
satiswt
(sự hài lòng với cân nặng ở thanh thiếu niên, phân
loại theo giới tính, thời điểm dậy thì và ý kiến về cân nặng). Bài tập
này yêu cầu xác định loại giá trị zero (cấu trúc hay lấy mẫu), tìm một
mô hình phù hợp với phân tích chẩn đoán thích hợp và diễn giải mô hình
cuối cùng. Dữ liệu mẫu được trình bày trong Bảng 13.1.
Bài tập 13.2: Sử dụng bộ dữ liệu toxo
(tỷ lệ dân số dương tính với bệnh toxoplasmosis so với lượng mưa hàng
năm ở 34 thành phố tại El Salvador). Bài tập này yêu cầu vẽ biểu đồ dữ
liệu, mô tả các đặc điểm quan trọng và tìm một mô hình phù hợp (có gợi ý
rằng cần một thành phần hệ thống phức tạp). Nguồn cũng xác nhận
toxo
là bộ dữ liệu cho bài tập 13.2.
Bài tập 13.3: Sử dụng bộ dữ liệu boric
(ảnh hưởng của axit boric đến tổn thương phôi thai trong tử cung chuột).
Bài tập này yêu cầu tìm một mô hình phù hợp để mô hình hóa ảnh hưởng của
axit boric đến tổn thương phôi thai ở chuột.
Bài tập 13.12: Sử dụng bộ dữ liệu về số ca sinh sống và số ca sinh mắc hội chứng Down theo nhóm tuổi của mẹ ở British Columbia. Bài tập này yêu cầu lắp đặt (fit) một mô hình hồi quy tuyến tính có trọng số thích hợp cho toàn bộ dữ liệu bằng cách sử dụng phép biến đổi, và ước lượng mối quan hệ giữa các biến quan tâm. Dữ liệu mẫu được trình bày trong Bảng 13.10.
Tóm lại, Chương 13 là một phần bổ sung của cuốn sách, chứa đựng
các bài tập thực hành sử dụng các bộ dữ liệu khác nhau
(satiswt
, toxo
, boric
,
downs.syndrome
) để củng cố kiến thức và kỹ năng mô hình hóa
GLM cho các loại dữ liệu đa dạng, bao gồm cả dữ liệu có giá trị
zero.
Supermarket Transactions.csv
Supermarket Transactions là một bộ dữ liệu bao gồm 14059 quan sát và 15 biến. Bộ dữ liệu này là dữ liệu về thông tin về các giao dịch mua hàng trong siêu thị. Dữ liệu này có thể được sử dụng để phân tích hành vi mua hàng của khách hàng, xu hướng tiêu dùng, hiệu quả bán hàng theo từng danh mục sản phẩm, hoặc đánh giá tác động của các yếu tố nhân khẩu học (giới tính, thu nhập, tình trạng hôn nhân) đến việc mua sắm. Cụ thể thông tin như sau:
PurchaseDate: Ngày mua hàng
CustomerID: ID khách hàng
Gender: Giới tính (F - Nữ; M - Nam)
MarialStatus: Trạng thái hôn nhân (S - Độc thân; M - Đã kết hôn)
Homeowner: Đã sở hữu nhà hay chưa (Y - có; N - Không)
Children: Số con trong gia đình
AnualIncome: Thu nhập hàng năm
City: Thành phố
SateorProvine: Bang hoặc tỉnh
Country: Quốc gia
ProductFamily: Họ sản phẩm (Food, Drink, Non-Consumable)
ProductDepartment: Phân loại sản phẩm (Snack Foods, Produce, Dairy,…).
ProductCategory: Danh mục sản phẩm chi tiết (Snack Foods, Vegetables, Candy,…).
UnitsSold: Số lượng đơn vị sản phẩm đã bán.
Revenue: Doanh thu từ giao dịch.
Vì đây là dữ liệu định tính, ta không thể thực hiện thống kê mô tả theo cách thông thường (Tính trung bình, trung vị, độ nhọn,…) mà thay vào đó ta cần tìm tần số, tần suất và mode cũng như vẽ các biểu đồ để thể hiện các biến. Ta tiến hành thực hiện các bước như sau:
Sử dụng câu lệnh read.csv()
để nhập dữ liệu với
D:/download/SupermarketTransactions.csv
là đường link của
file dữ liệu, gọi bộ dữ liệu là data.
data <- read.csv("D:/download/SupermarketTransactions.csv")
table(data$Gender)
##
## F M
## 7170 6889
Kết quả cho thấy số khách hàng có giới tính nữ là 7170 khách hàng và khách hàng có giới tính nam là 6889 khách hàng.
prop.table(table(data$Gender))*100
##
## F M
## 50.99936 49.00064
Kết quả cho thấy được số khách hàng nữ chiếm gần 51% và số khách hàng nam chiếm gần 49%.
library(ggplot2)
ggplot(data, aes(x = Gender)) +
geom_bar(fill = "gray") +
geom_text(
aes(label = after_stat(count)),
stat = "count",
vjust = -0.3,
size = 3.5
) +
labs(title = "Hình 1: Biểu đồ thể hiện giới tính của khách hàng", x = "Giới tính", y = "Số lượng") +
theme_minimal() +
theme(plot.title = element_text(hjust = 0.5, face = "bold"))
Dựa vào biểu đồ trên, ta có thể dễ dàng thấy được rằng không có quá nhiều sự chênh lệch giữa giới tính cách khách hàng.
table(data$MaritalStatus)
##
## M S
## 6866 7193
Kết quả cho thấy số khách hàng đã trong trạng thái kết hôn là 6866 và số khách hàng độc thân là 7193.
prop.table(table(data$MaritalStatus))*100
##
## M S
## 48.83704 51.16296
Kết quả cho thấy được số khách hàng đã kết hôn chiếm khoảng 48.84% còn số khách hàng độc thân chiếm 51.16%.
ggplot(data, aes(x = MaritalStatus)) +
geom_bar(fill = "gray") +
geom_text(
aes(label = after_stat(count)),
stat = "count",
vjust = -0.3,
size = 3.5
) +
labs(title = "Hình 2: Biểu đồ thể hiện tình trạng hôn nhân của khách hàng", x = "Tình trạng hôn nhân", y = "Số lượng") +
theme_minimal() +
theme(plot.title = element_text(hjust = 0.5, face = "bold"))
Tương tự với giới tính, tình trạng hôn nhân giữa các khách hàng cũng không có quá nhiều sự chênh lệch.
table(data$Homeowner)
##
## N Y
## 5615 8444
Kết quả cho thấy số khách hàng đã sở hữu nhà là 8444 còn không sở hữu nhà là 5615 khách hàng.
prop.table(table(data$Homeowner))*100
##
## N Y
## 39.93883 60.06117
Kết quả cho thấy được số khách hàng đã sở hữu nhà chiếm tỷ lệ khá lớn là 60.06% còn số khách hàng không sở hữu nhà riêng chiếm khoảng 39.94%.
ggplot(data, aes(x = Homeowner)) +
geom_bar(fill = "gray") +
geom_text(
aes(label = after_stat(count)),
stat = "count",
vjust = -0.3,
size = 3.5
) +
labs(title = "Hình 3: Biểu đồ thể hiện tình trạng nhà ở của khách hàng", x = "Tình trạng nhà ở", y = "Số lượng") +
theme_minimal() +
theme(plot.title = element_text(hjust = 0.5, face = "bold"))
Biểu đồ trên thể hiện được rằng phần đông các khách hàng đã có nhà ở, tuy nhiên vẫn còn nhiều khách hàng hiện chưa có nhà ở.
summary(data$Children)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00 1.00 3.00 2.53 4.00 5.00
Trung bình mỗi gia đình có 2.53 con, trong khi giá trị trung vị là 3 con, điều này cho thấy phân phối số con có xu hướng lệch nhẹ về phía những gia đình có ít con hơn. Dữ liệu cho thấy 25% gia đình có 1 con trở xuống (phân vị thứ nhất), 50% gia đình có 3 con trở xuống (trung vị), và 75% gia đình có 4 con trở xuống (phân vị thứ ba). Đặc biệt, có những trường hợp gia đình không có con (giá trị tối thiểu = 0) và tối đa là 5 con. Sự chênh lệch giữa giá trị trung bình và trung vị gợi ý rằng một bộ phận gia đình có số con ít hơn đã kéo giá trị trung bình xuống thấp hơn so với mức phổ biến (3 con). Khoảng biến thiên từ 1 đến 4 con (tính theo các phân vị chính) phản ánh sự đa dạng trong quy mô gia đình.
table(data$Children)
##
## 0 1 2 3 4 5
## 1344 2718 2839 2893 2826 1439
Kết quả cho thấy số khách hàng hiện không có con là 1344, có 1 con là 2718, có 2 con là 2839, có 3 con là 2893, có 4 con là 2826 và có 5 con là 1439
prop.table(table(data$Children))*100
##
## 0 1 2 3 4 5
## 9.559713 19.332812 20.193470 20.577566 20.101003 10.235436
Kết quả cho thấy được rằng 9.56% trong tổng số khách hàng không có con, 19.33% khách hàng có 1 con, 20.19% khách hàng có 2 con, 20.58% khách hàng có 3 con. 20.1% khách hàng có 4 con và có 10.23% khách hàng có 5 con.
ggplot(data, aes(x = Children)) +
geom_bar(fill = "gray") +
geom_text(
aes(label = after_stat(count)),
stat = "count",
vjust = -0.3,
size = 3.5
) +
labs(title = "Hình 4: Biểu đồ thể hiện số con cái trong gia đình KH", x = "Số con", y = "Số lượng") +
theme_minimal() +
theme(plot.title = element_text(hjust = 0.5, face = "bold"))
table(data$AnnualIncome)
##
## $10K - $30K $110K - $130K $130K - $150K $150K + $30K - $50K
## 3090 643 760 273 4601
## $50K - $70K $70K - $90K $90K - $110K
## 2370 1709 613
Kết quả cho thấy số khách hàng có thu nhập bình quân hàng năm từ 10k - 30K là 3090, 30K - 50K là 4601, 50K - 70K là 2370, 70K - 90K là 1079, 90K - 110K là 613, 110K - 130K là 643, 130K - 150K là 760. 150K trở lên là 273 khách hàng (đơn vị: Ngàn Đô la)
prop.table(table(data$AnnualIncome))*100
##
## $10K - $30K $110K - $130K $130K - $150K $150K + $30K - $50K
## 21.978804 4.573583 5.405790 1.941817 32.726367
## $50K - $70K $70K - $90K $90K - $110K
## 16.857529 12.155914 4.360196
Kết quả cho thấy số khách hàng có thu nhập bình quân hàng năm từ 10k - 30K chiếm 21.97%, 30K - 50K chiếm 32.76%, 50K - 70K chiếm 16.86%, 70K - 90K chiếm 12.16%, 90K - 110K là 4.36%, 110K - 130K chiếm 4.57%, 130K - 150K chiếm 5.41%. 150K trở lên chiếm 1.94%.
ggplot(data, aes(x = AnnualIncome)) +
geom_bar(fill = "gray") +
geom_text(
aes(label = after_stat(count)),
stat = "count",
vjust = -0.3,
size = 3.5
) +
labs(title = "Hình 5: Biểu đồ thể hiện thu nhập hàng năm của KH", x = "Thu nhập", y = "Số lượng") +
theme_minimal() +
theme(plot.title = element_text(hjust = 0.5, face = "bold"))
table(data$City)
##
## Acapulco Bellingham Beverly Hills Bremerton Camacho
## 383 143 811 834 452
## Guadalajara Hidalgo Los Angeles Merida Mexico City
## 75 845 926 654 194
## Orizaba Portland Salem San Andres San Diego
## 464 876 1386 621 866
## San Francisco Seattle Spokane Tacoma Vancouver
## 130 922 875 1257 633
## Victoria Walla Walla Yakima
## 176 160 376
Ta thấy Salem dẫn đầu với 1.386 khách, gấp đôi so với nhiều thành phố khác, trong khi Guadalajara chỉ có 75 khách. Các thành phố lớn như Los Angeles 926, Seattle 922, và San Diego 866 cũng có lượng khách hàng cao, phản ánh quy mô dân số và sức hút thị trường. Ngược lại, một số thành phố như San Francisco 130 và Mexico City 194 lại có số khách thấp bất thường dù là trung tâm kinh tế, có thể do hạn chế trong chiến lược kinh doanh hoặc thu thập dữ liệu.
prop.table(table(data$City))*100
##
## Acapulco Bellingham Beverly Hills Bremerton Camacho
## 2.7242336 1.0171420 5.7685468 5.9321431 3.2150224
## Guadalajara Hidalgo Los Angeles Merida Mexico City
## 0.5334661 6.0103848 6.5865282 4.6518245 1.3798990
## Orizaba Portland Salem San Andres San Diego
## 3.3003770 6.2308841 9.8584537 4.4170994 6.1597553
## San Francisco Seattle Spokane Tacoma Vancouver
## 0.9246746 6.5580767 6.2237712 8.9408920 4.5024539
## Victoria Walla Walla Yakima
## 1.2518671 1.1380610 2.6744434
Dữ liệu tần suất giao dịch siêu thị cho thấy sự chênh lệch rõ rệt giữa các thành phố. Salem nổi bật với tần suất cao nhất 9.86, gần gấp đôi so với mức trung bình, theo sau là Tacoma (8.94) và Los Angeles 6.59. Các thành phố lớn như Seattle 6.56, Portland 6.23 và San Diego 6.16 cũng có tần suất giao dịch khá cao. Ngược lại, một số thành phố như Guadalajara 0.53, San Francisco 0.93 và Mexico City 1.38 lại có tần suất rất thấp, dù là các đô thị lớn. Dữ liệu này phản ánh rõ sự khác biệt trong hoạt động mua sắm hoặc mật độ cửa hàng giữa các khu vực.
ggplot(data, aes(x = City)) +
geom_bar(fill = "gray") +
geom_text(
aes(label = after_stat(count)),
stat = "count",
vjust = -0.3,
size = 3.5
) +
labs(title = "Hình 6: Biểu đồ thể hiện thành phố nơi KH sinh sống", x = "Thành phố", y = "Số lượng") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1),
plot.title = element_text(hjust = 0.5, face = "bold"))
table(data$StateorProvince)
##
## BC CA DF Guerrero Jalisco OR Veracruz WA
## 809 2733 815 383 75 2262 464 4567
## Yucatan Zacatecas
## 654 1297
Dữ liệu thống kê theo bang/tỉnh cho thấy sự chênh lệch đáng kể giữa các khu vực. Zacatecas dẫn đầu với con số ấn tượng 4.567, cao gần gấp đôi so với WA 2.262 và DF 2.733. Các bang CA 809, Guerrero 1.297 và Jalisco 815 có mức trung bình, trong khi OR 383 và Yucatan 654 ở mức khá thấp. Đặc biệt, Veracruz chỉ đạt 75 - thấp nhất trong tất cả các khu vực được thống kê. Sự khác biệt lớn này có thể phản ánh sự không đồng đều về quy mô dân số, mức độ hoạt động kinh tế hoặc các yếu tố đặc thù khác của từng vùng.
prop.table(table(data$StateorProvince))*100
##
## BC CA DF Guerrero Jalisco OR Veracruz
## 5.7543211 19.4395049 5.7969984 2.7242336 0.5334661 16.0893378 3.3003770
## WA Yucatan Zacatecas
## 32.4845295 4.6518245 9.2254072
Dữ liệu tần suất cho thấy sự phân bổ không đồng đều giữa các bang/tỉnh. WA có tần suất cao nhất với 32.48, gấp khoảng 3.5 lần so với Zacatecas 9.23 - đứng thứ hai. Các khu vực có tần suất đáng kể khác bao gồm CA 19.44 và OR 16.09. Ở mức trung bình, Yucatan 4.65, BC 5.75 và DF 5.80 có tần suất tương đương nhau. Trong khi đó, Guerrero 2.72 và Veracruz 3.30 có tần suất thấp hơn. Đặc biệt, Jalisco có tần suất thấp nhất chỉ đạt 0.53, thấp hơn đáng kể so với các khu vực khác.
ggplot(data, aes(x = StateorProvince)) +
geom_bar(fill = "gray") +
geom_text(
aes(label = after_stat(count)),
stat = "count",
vjust = -0.3,
size = 3.5
) +
labs(title = "Hình 7: Biểu đồ thể hiện bang mà KH sinh sống", x = "Bang", y = "Số lượng") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1),
plot.title = element_text(hjust = 0.5, face = "bold"))
table(data$Country)
##
## Canada Mexico USA
## 809 3688 9562
Dữ liệu cho thấy rằng đa số các hoạt động giao dịch đều diễn ra ở USA với 9562 khách hàng, đứng thứ hai là Mexico với 3688 khách hàng và khiêm tốn nhất là Canada với 809 khách hàng.
prop.table(table(data$Country))*100
##
## Canada Mexico USA
## 5.754321 26.232307 68.013372
Bảng tần số thể hiện sự phân bố không đồng đều giữa ba quốc gia Bắc Mỹ. Hoa Kỳ (USA) chiếm tỷ trọng áp đảo lên tới 68.01%, gấp khoảng 2.6 lần Mexico (26.23%) và gấp tới 11.8 lần Canada (5.75%). Mexico giữ vị trí trung gian với tỷ lệ gấp 4.6 lần Canada. Tổng tỷ lệ của cả ba quốc gia đạt 100%, cho thấy dữ liệu đã được chuẩn hóa và đảm bảo tính chính xác. Sự chênh lệch lớn này có thể phản ánh quy mô dân số, kinh tế hoặc các yếu tố đặc thù khác tùy theo bối cảnh nghiên cứu. Trong trường hợp cần minh họa trực quan, biểu đồ tròn (pie chart) sẽ là lựa chọn phù hợp để thể hiện rõ sự khác biệt về tỷ trọng giữa các quốc gia này.
ggplot(data, aes(x = Country)) +
geom_bar(fill = "gray") +
geom_text(
aes(label = after_stat(count)),
stat = "count",
vjust = -0.3,
size = 3.5
) +
labs(title = "Hình 8: Biểu đồ thể hiện quốc gia KH đang sống", x = "Quốc gia", y = "Số lượng") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1),
plot.title = element_text(hjust = 0.5, face = "bold"))
table(data$ProductFamily)
##
## Drink Food Non-Consumable
## 1250 10153 2656
Kết quả cho thấy được họ sản phẩm chiếm số lượng cao nhất là Food - Thức ăn với 10153 KH, đứng thứ hai là Non-Consumable - Sản phẩm không tiêu hao với 2656 KH, Cuối cùng là Drink - Thức uống với 1250 KH.
prop.table(table(data$ProductFamily))*100
##
## Drink Food Non-Consumable
## 8.891102 72.217085 18.891813
Dữ liệu tần suất các nhóm sản phẩm cho thấy sự chênh lệch rõ rệt giữa các danh mục. Nhóm Thực phẩm (Food) chiếm ưu thế tuyệt đối với 72.22%, trở thành nhóm sản phẩm chủ đạo trong hệ thống. Trong khi đó, nhóm Phi tiêu dùng (Non-Consumable) đạt 18.89%, và nhóm Đồ uống (Drink) có tần suất thấp nhất, chỉ chiếm 8.89%. Sự phân bố này phản ánh rõ nhu cầu tiêu dùng tập trung chủ yếu vào các sản phẩm thực phẩm, gấp hơn 3 lần so với nhóm phi tiêu dùng và gấp 8 lần so với đồ uống. Điều này có thể xuất phát từ đặc điểm kinh doanh của cửa hàng hoặc thói quen mua sắm của khách hàng. Cần phân tích thêm để xác định nguyên nhân cụ thể dẫn đến sự chênh lệch lớn này giữa các nhóm sản phẩm.
ggplot(data, aes(x = ProductFamily)) +
geom_bar(fill = "gray") +
geom_text(
aes(label = after_stat(count)),
stat = "count",
vjust = -0.3,
size = 3.5
) +
labs(title = "Hình 9: Biểu đồ thể hiện họ sản phẩm", x = "Họ sản phẩm", y = "Số lượng") +
theme_minimal() +
theme(plot.title = element_text(hjust = 0.5, face = "bold"))
table(data$ProductDepartment)
##
## Alcoholic Beverages Baked Goods Baking Goods Beverages
## 356 425 1072 680
## Breakfast Foods Canned Foods Canned Products Carousel
## 188 977 109 59
## Checkout Dairy Deli Eggs
## 82 903 699 198
## Frozen Foods Health and Hygiene Household Meat
## 1382 893 1420 89
## Periodicals Produce Seafood Snack Foods
## 202 1994 102 1600
## Snacks Starchy Foods
## 352 277
Dữ liệu tần số tiêu thụ sản phẩm cho thấy sự phân bố không đồng đều giữa các danh mục. Nhóm Produce (sản phẩm tươi sống) dẫn đầu với tần suất cao nhất (1994), tiếp theo là Household (đồ gia dụng - 1420) và Frozen Foods (đồ đông lạnh - 1382), phản ánh nhu cầu thiết yếu hàng ngày của người tiêu dùng. Các nhóm Snack Foods (1600) và Dairy (903) cũng có tần suất đáng kể, cho thấy xu hướng tiêu dùng đồ ăn nhẹ và sản phẩm từ sữa. Đáng chú ý, một số nhóm có tần suất thấp như Carousel (59), Seafood (102) và Alcoholic Beverages (356), có thể do đặc thù ngành hàng hoặc hạn chế trong chính sách bán hàng. Sự chênh lệch lớn giữa nhóm cao nhất (Produce - 1994) và thấp nhất (Carousel - 59) cho thấy sự tập trung chủ yếu vào các mặt hàng thiết yếu, trong khi nhóm hàng đặc biệt hoặc không thiết yếu có tần suất tiêu thụ thấp hơn rõ rệt. Dữ liệu này giúp nhà quản lý xác định được nhóm sản phẩm cần ưu tiên phát triển và những mặt hàng cần có chiến lược tiếp thị phù hợp để tăng doanh số.
prop.table(table(data$ProductDepartment))*100
##
## Alcoholic Beverages Baked Goods Baking Goods Beverages
## 2.5321858 3.0229746 7.6250089 4.8367594
## Breakfast Foods Canned Foods Canned Products Carousel
## 1.3372217 6.9492852 0.7753041 0.4196600
## Checkout Dairy Deli Eggs
## 0.5832563 6.4229319 4.9719041 1.4083505
## Frozen Foods Health and Hygiene Household Meat
## 9.8300021 6.3518031 10.1002916 0.6330464
## Periodicals Produce Seafood Snack Foods
## 1.4368020 14.1830856 0.7255139 11.3806103
## Snacks Starchy Foods
## 2.5037343 1.9702682
Dữ liệu tần suất tiêu thụ sản phẩm thể hiện sự chênh lệch đáng kể giữa các nhóm hàng. Produce (sản phẩm tươi sống) dẫn đầu với tần suất cao nhất (14.18), gấp gần 34 lần so với nhóm thấp nhất là Carousel (0.42), cho thấy đây là nhóm hàng thiết yếu được ưa chuộng. Các nhóm Snack Foods (11.38), Household (10.10) và Frozen Foods (9.83) cũng có tần suất cao, phản ánh xu hướng tiêu dùng đồ ăn nhanh và nhu cầu thiết yếu hàng ngày. Một số nhóm hàng có tần suất trung bình như Baking Goods (7.63), Canned Foods (6.95), Dairy (6.42) và Health and Hygiene (6.35), trong khi các nhóm Alcoholic Beverages (2.53), Snacks (2.50) và Baked Goods (3.02) có tần suất thấp hơn. Đặc biệt, nhóm Meat (0.63), Seafood (0.73) và Canned Products (0.78) có tần suất rất thấp, có thể do đặc thù ngành hàng hoặc hạn chế về nguồn cung. Sự khác biệt lớn trong tần suất tiêu thụ giữa các nhóm hàng cho thấy sự tập trung của người tiêu dùng vào các sản phẩm thiết yếu và tiện lợi, đồng thời phản ánh tiềm năng phát triển cho các nhóm hàng đang có tần suất thấp. Dữ liệu này có thể giúp nhà quản lý đưa ra chiến lược phân phối và tiếp thị phù hợp để tối ưu hóa hiệu quả kinh doanh.
ggplot(data, aes(x = ProductDepartment)) +
geom_bar(fill = "gray") +
geom_text(
aes(label = after_stat(count)),
stat = "count",
vjust = -0.3,
size = 3.5
) +
labs(title = "Hình 10: Biểu đồ thể hiện phân loại sản phẩm", x = "Loại sản phẩm", y = "Số lượng") +
theme_minimal() +
theme( axis.text.x = element_text(angle = 45, hjust = 1),
plot.title = element_text(hjust = 0.5, face = "bold"))
table(data$ProductCategory)
##
## Baking Goods Bathroom Products Beer and Wine
## 484 365 356
## Bread Breakfast Foods Candles
## 425 417 45
## Candy Canned Anchovies Canned Clams
## 352 44 53
## Canned Oysters Canned Sardines Canned Shrimp
## 35 40 38
## Canned Soup Canned Tuna Carbonated Beverages
## 404 87 154
## Cleaning Supplies Cold Remedies Dairy
## 189 93 903
## Decongestants Drinks Eggs
## 85 135 198
## Electrical Frozen Desserts Frozen Entrees
## 355 323 118
## Fruit Hardware Hot Beverages
## 765 129 226
## Hygiene Jams and Jellies Kitchen Products
## 197 588 217
## Magazines Meat Miscellaneous
## 202 761 42
## Packaged Vegetables Pain Relievers Paper Products
## 48 192 345
## Pizza Plastic Products Pure Juice Beverages
## 194 141 165
## Seafood Side Dishes Snack Foods
## 102 153 1600
## Specialty Starchy Foods Vegetables
## 289 277 1728
Dữ liệu tần số tiêu thụ sản phẩm cho thấy sự phân bố không đồng đều giữa các nhóm hàng hóa. Snack Foods (1600) và Vegetables (1728) nổi bật với tần suất tiêu thụ cao nhất, phản ánh xu hướng ưa chuộng đồ ăn nhẹ và rau củ tươi trong thói quen mua sắm. Các mặt hàng thiết yếu như Dairy (903), Meat (761), và Fruit (765) cũng có tần số đáng kể, trong khi nhóm Baking Goods (484) và Jams and Jellies (588) duy trì mức tiêu thụ trung bình. Đáng chú ý, một số nhóm hàng đặc thù như Canned Anchovies (44), Canned Oysters (35), và Miscellaneous (42) có tần suất rất thấp, có thể do nhu cầu hạn chế hoặc tính chất ngách của sản phẩm. Sự chênh lệch lớn giữa nhóm cao nhất (Vegetables) và thấp nhất (Canned Oysters) lên tới gần 50 lần cho thấy sự tập trung rõ rệt vào các mặt hàng thiết yếu và tiện lợi. Phân tích này gợi ý rằng các chiến lược kinh doanh nên ưu tiên phát triển nhóm hàng có tần suất cao đồng thời xem xét lại hiệu quả phân phối đối với các mặt hàng có tần suất thấp để tối ưu hóa hiệu quả tồn kho và doanh thu.
prop.table(table(data$ProductCategory))*100
##
## Baking Goods Bathroom Products Beer and Wine
## 3.4426346 2.5962017 2.5321858
## Bread Breakfast Foods Candles
## 3.0229746 2.9660716 0.3200797
## Candy Canned Anchovies Canned Clams
## 2.5037343 0.3129668 0.3769827
## Canned Oysters Canned Sardines Canned Shrimp
## 0.2489508 0.2845153 0.2702895
## Canned Soup Canned Tuna Carbonated Beverages
## 2.8736041 0.6188207 1.0953837
## Cleaning Supplies Cold Remedies Dairy
## 1.3443346 0.6614980 6.4229319
## Decongestants Drinks Eggs
## 0.6045949 0.9602390 1.4083505
## Electrical Frozen Desserts Frozen Entrees
## 2.5250729 2.2974607 0.8393200
## Fruit Hardware Hot Beverages
## 5.4413543 0.9175617 1.6075112
## Hygiene Jams and Jellies Kitchen Products
## 1.4012376 4.1823743 1.5434953
## Magazines Meat Miscellaneous
## 1.4368020 5.4129028 0.2987410
## Packaged Vegetables Pain Relievers Paper Products
## 0.3414183 1.3656732 2.4539441
## Pizza Plastic Products Pure Juice Beverages
## 1.3798990 1.0029163 1.1736254
## Seafood Side Dishes Snack Foods
## 0.7255139 1.0882709 11.3806103
## Specialty Starchy Foods Vegetables
## 2.0556227 1.9702682 12.2910591
Dữ liệu tần suất tiêu thụ sản phẩm thể hiện sự phân hóa rõ rệt giữa các nhóm hàng. Vegetables (12.29) và Snack Foods (11.38) dẫn đầu với tần suất vượt trội, phản ánh nhu cầu thiết yếu về rau củ tươi và đồ ăn vặt tiện lợi trong thói quen tiêu dùng. Các mặt hàng chủ lực khác như Dairy (6.42), Meat (5.41) và Fruit (5.44) cũng duy trì tần suất cao, trong khi nhóm Jams and Jellies (4.18) và Baking Goods (3.44) chiếm vị trí trung bình. Đặc biệt, nhóm Canned Oysters (0.25), Canned Anchovies (0.31) và Miscellaneous (0.30) có tần suất thấp nhất, chỉ bằng 1/50 so với nhóm dẫn đầu, cho thấy đây là những mặt hàng ngách hoặc ít được ưa chuộng. Sự chênh lệch đáng kể giữa các nhóm hàng (từ 0.25 đến 12.29) gợi ý rằng:
Các sản phẩm tươi sống và thiết yếu luôn chiếm ưu thế
Đồ hộp và hàng đặc sản có phạm vi tiêu thụ hẹp
Nhóm đồ uống (Beer and Wine: 2.53, Hot Beverages: 1.61) có tiềm năng phát triển thêm
Phân tích này cung cấp cơ sở để tối ưu hóa cơ cấu hàng hóa, tập trung nguồn lực vào nhóm có tần suất cao đồng thời cân nhắc giảm bớt mặt hàng có hiệu suất thấp để nâng cao hiệu quả kinh doanh tổng thể.
ggplot(data, aes(x = ProductCategory)) +
geom_bar(fill = "gray") +
geom_text(
aes(label = after_stat(count)),
stat = "count",
vjust = -0.3,
size = 3.5
) +
labs(title = "Hình 11: Biểu đồ thể hiện danh mục sản phẩm", x = "Danh mục sản phẩm", y = "Số lượng") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1),
plot.title = element_text(hjust = 0.5, face = "bold"))
summary(data$UnitsSold)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 3.000 4.000 4.081 5.000 8.000
Phân tích thống kê về số lượng sản phẩm trong mỗi giao dịch mua sắm cho thấy hành vi tiêu dùng khá ổn định và tập trung. Khách hàng thường mua trung bình khoảng 4 sản phẩm mỗi lần giao dịch, với 50% trường hợp rơi vào khoảng từ 3 đến 5 sản phẩm. Điều này phản ánh xu hướng mua sắm vừa phải, phù hợp với nhu cầu sử dụng hàng ngày của đại đa số người tiêu dùng. Mặc dù có những trường hợp chỉ mua 1 sản phẩm hoặc lên tới 8 sản phẩm mỗi giao dịch, nhưng những trường hợp này không quá phổ biến. Sự chênh lệch không đáng kể giữa giá trị trung bình (4.081) và trung vị (4) cho thấy phân phối dữ liệu tương đối cân đối, không có sự lệch quá lớn về phía nào.
summary(data$Revenue)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.53 6.84 11.25 13.00 17.37 56.70
Phân tích doanh thu từ các giao dịch mua hàng cho thấy sự phân hóa rõ rệt trong hành vi chi tiêu của khách hàng. Dữ liệu chỉ ra rằng một nửa số giao dịch có doanh thu dao động từ 6.84 đến 17.37 đơn vị tiền tệ, với giá trị trung vị là 11.25, phản ánh mức chi tiêu điển hình của đa số khách hàng. Tuy nhiên, sự chênh lệch đáng kể giữa giá trị trung bình (13.00) và trung vị cho thấy sự hiện diện của những giao dịch có giá trị cao đã kéo trung bình lên, trong đó giao dịch cao nhất lên tới 56.70 - gấp gần 8.5 lần so với giao dịch thấp nhất (0.53). Đặc biệt, khoảng 25% giao dịch có doanh thu dưới 6.84, có thể bao gồm các giao dịch nhỏ lẻ hoặc khách hàng có nhu cầu hạn chế. Sự phân bố này gợi ý rằng doanh nghiệp nên tập trung vào việc phục vụ tốt nhóm khách hàng trung tâm (6.84-17.37) đồng thời phát triển các chiến lược đặc biệt để khai thác nhóm khách hàng cao cấp (trên 17.37), những người đang đóng góp đáng kể vào tổng doanh thu.