I. TÓM TẮT NỘI DUNG

Chương 1.Statistical Models

Mục tiêu chính

Giới thiệu cách mô tả, trực quan hóa và xây dựng các mô hình dữ liệu ban đầu, làm nền tảng cho việc hiểu và ứng dụng các loại mô hình phức tạp hơn trong các chương sau.

Nội dung

Nội dung cốt lõi của chương này nhấn mạnh rằng mô hình thống kê được sử dụng để mô tả cả hai khía cạnh của dữ liệu: thành phần ngẫu nhiên và thành phần hệ thống

Thành phần hệ thống biểu diễn mối quan hệ có quy luật hoặc xu hướng có thể dự đoán được trong dữ liệu, thường được định nghĩa thông qua các biến giải thích. Ví dụ, đối với dữ liệu lungcap, tài liệu minh họa các dạng khác nhau cho thành phần hệ thống liên hệ FEV (dung tích phổi) với các biến như Tuổi, Chiều cao, Giới tính, Tình trạng hút thuốc, thông qua các phương trình (1.8) đến (1.12).

Tầm quan trọng của trực quan hóa dữ liệu như một bước khám phá ban đầu để hiểu cấu trúc dữ liệu và mối quan hệ giữa các biến. Các biểu đồ FEV so với tuổi và FEV so với chiều cao được dùng để minh họa cách trực quan hóa xu hướng và sự biến thiên, với khả năng phân biệt các nhóm (ví dụ: người hút thuốc và không hút thuốc) bằng các ký hiệu khác nhau. Tài liệu cũng đề cập đến việc mã hóa biến đối với các biến phân loại (factors) để sử dụng trong mô hình.

Một triết lý quan trọng xuyên suốt chương là nhận định của Box và Draper: “Tất cả các mô hình đều sai, nhưng một số hữu ích”. Điều này nhấn mạnh rằng mô hình chỉ là sự xấp xỉ của thực tế và cần luôn ghi nhớ tính gần đúng của chúng. Chương cũng thảo luận về sự đánh đổi giữa việc đạt được độ chính xác cao và duy trì tính cô đọng (parsimony) của mô hình. Việc sử dụng phần mềm R để hỗ trợ mô hình hóa cũng được giới thiệu.

Tổng kết

Là nền tảng lý thuyết và thực hành sơ bộ cho toàn bộ tài liệu. Nó đặt ra khuôn khổ chung về thành phần hệ thống và ngẫu nhiên.

CHƯƠNG 2. MÔ HÌNH HỒI QUY TUYẾN TÍNH (Linear Regression Models)

Nội dung cốt lõi

Là định nghĩa mô hình hồi quy tuyến tính. Mô hình này giả định biến phản hồi y có giá trị trung bình có điều kiện (thành phần hệ thống) là một hàm tuyến tính của các biến giải thích: E[yᵢ] = μᵢ = β₀ + Σ βⱼxⱼᵢ. Thành phần ngẫu nhiên được mô tả bởi giả định phương sai của yᵢ là hằng số σ² hoặc tỷ lệ với trọng số đã biết wᵢ, tức là var[yᵢ] = σ²/wᵢ. Trường hợp chỉ có một biến giải thích được gọi là hồi quy tuyến tính đơn giản và được minh họa bằng biểu đồ thể hiện các điểm dữ liệu, đường trung bình μ (thành phần hệ thống), và sự biến thiên đồng nhất xung quanh đường này (thành phần ngẫu nhiên).

Tác giả tập trung vào việc ước lượng các tham số β, chủ yếu sử dụng phương pháp Bình phương Tối thiểu (Least Squares Estimation) nhằm giảm thiểu tổng bình phương sai số. Việc ước lượng này được trình bày chi tiết bằng đại số ma trận, cho ra ước lượng β̂ = (XᵀWX)⁻¹XᵀWy. Vector ước lượng β̂ này được chứng minh là không chệch. Ví dụ sử dụng dữ liệu lungcap minh họa các thành phần ma trận và quy trình ước lượng bằng R.

Chương cũng trình bày cách thực hiện suy luận thống kê, bao gồm tính sai số chuẩn của các hệ số và giá trị dự báo, kiểm định giả thuyết về từng hệ số (t-tests) và xây dựng khoảng tin cậy. Ví dụ ước lượng trung bình log(fev) cho một cá nhân cụ thể được đưa ra.

Một phần quan trọng là Phân tích Phương sai (ANOVA), được sử dụng để phân rã tổng biến thiên của dữ liệu thành phần được giải thích bởi mô hình và phần sai số. Bảng ANOVA cung cấp thông tin để đánh giá ý nghĩa của mô hình và so sánh các mô hình lồng nhau (nested models). Đối với các mô hình không lồng nhau, tiêu chí AICBIC được giới thiệu để hỗ trợ lựa chọn.

Tổng kết Chương 2

Chương 2 đóng vai trò là nền tảng thiết yếu. Nó xây dựng trên các khái niệm mô hình thống kê cơ bản từ Chương 1 và là trường hợp đặc biệt của Mô hình Tuyến tính Tổng quát (GLMs) sẽ được trình bày trong các chương sau (đặc biệt là Chương 5). Chương 3 sẽ tiếp tục đi sâu vào chẩn đoán và xây dựng mô hình hồi quy tuyến tính, còn Chương 4 giới thiệu phương pháp Ước lượng Hợp lý Tối đa (MLE), một kỹ thuật ước lượng tổng quát hơn cả Bình phương Tối thiểu.

Chương 3. Linear Regression Models: Diagnostics and Model-Building

Giới thiệu

Tiếp nối Chương 2, mục tiêu chính của chương này là trang bị cho người đọc các công cụ và kỹ thuật cần thiết để đánh giá tính phù hợp của mô hình đã xây dựng và hướng dẫn cách cải thiện mô hình khi các giả định cơ bản bị vi phạm. Đây là bước quan trọng để đảm bảo độ tin cậy và hiệu quả của kết quả mô hình hóa.

Nội dung

Nội dung cốt lõi của Chương 3 tập trung vào việc kiểm tra các giả định của mô hình hồi quy tuyến tính từ góc độ thực hành. Bốn giả định chính được nhấn mạnh bao gồm: tính tuyến tính của thành phần hệ thống (Linear Predictor), phương sai sai số không đổi (Constant Variance), tính độc lập của các quan sát (Independence), và phân phối chuẩn của sai số (Normality).

Trọng tâm của tác giả trong chương này là chẩn đoán mô hình để phát hiện các vi phạm giả định. Kỹ thuật chính được minh họa là sử dụng biểu đồ phần dư (residuals). Cụ thể, các biểu đồ phần dư chuẩn hóa so với giá trị dự báo (fitted values) hoặc các biến giải thích được sử dụng để kiểm tra giả định phương sai hằng số và đánh giá tính tuyến tính của mối quan hệ. Biểu đồ Q-Q chuẩn tắc (Normal Q-Q plot) là công cụ để kiểm tra giả định phân phối chuẩn của phần dư. Ngoài ra, các chỉ số như Cook’s distance được trình bày để xác định các điểm dữ liệu có ảnh hưởng lớn (outliers hoặc influential points) đến mô hình. Ví dụ về dữ liệu lungcap được sử dụng rộng rãi để minh họa các dạng biểu đồ khác nhau và cách chúng biểu thị các cấu trúc mô hình (như mô hình chỉ có hằng số, mô hình đơn, mô hình song song) và vấn đề về tính tuyến tính hoặc phương sai.

Dựa trên kết quả chẩn đoán, chương hướng dẫn các phương pháp xây dựng và tinh chỉnh mô hình. Các kỹ thuật như biến đổi biến (transformations), ví dụ như biến đổi log hoặc căn bậc hai, được giới thiệu như cách để giải quyết các vấn đề như mối quan hệ phi tuyến tính hoặc phương sai không đồng nhất. Việc bổ sung các hàm đa thức (polynomial terms) của biến giải thích cũng là một cách để mô hình hóa các mối quan hệ phi tuyến tính. Tài liệu minh họa việc sử dụng kiểm định ý nghĩa (qua bảng ANOVA hoặc t-tests) để lựa chọn bậc đa thức phù hợp. Việc so sánh các mô hình khác nhau (nested models) bằng Phân tích Phương sai (ANOVA) cũng là một kỹ thuật quan trọng trong xây dựng mô hình, như được thể hiện qua ví dụ với dữ liệu lungcap khi so sánh các mô hình giải thích log(FEV).

Tổng kết

Tóm lại, Chương 3 là một phần quan trọng, cung cấp nền tảng thực tiễn về cách đánh giá nghiêm ngặt các mô hình hồi quy tuyến tính thông qua chẩn đoán chi tiết và các chiến lược xây dựng mô hình có căn cứ, đảm bảo mô hình được chọn là phù hợp và đáng tin cậy cho dữ liệu.

Chương 4. Maximum Likelihood Estimation

Giới thiệu

Chương này có mục tiêu giới thiệu phương pháp Ước lượng Hợp lý Tối đa (MLE), một kỹ thuật ước lượng tham số tổng quát hơn so với phương pháp Bình phương Tối thiểu (Least Squares) được trình bày trong Chương 2. MLE là nền tảng lý thuyết cốt lõi cho việc ước lượng các Mô hình Tuyến tính Tổng quát (Generalized Linear Models - GLMs) sẽ được thảo luận chi tiết trong các chương sau, đặc biệt là Chương 5.

Nội dung

Là xoay quanh việc trình bày lý thuyết về Ước lượng Hợp lý Tối đa. Phương pháp này tìm cách ước lượng các tham số mô hình bằng cách tối đa hóa hàm hợp lý (likelihood function), biểu diễn xác suất quan sát được dữ liệu thực tế dựa trên các giá trị tham số. Ước lượng MLE có các tính chất tiệm cận mong muốn như không chệch (unbiased), nhất quán (consistent), và hiệu quả (efficient) khi cỡ mẫu lớn.

Chương cũng đề cập đến các phương pháp kiểm định giả thuyết dựa trên MLE, bao gồm kiểm định Wald. Kiểm định Wald dựa trên khoảng cách giữa ước lượng tham số (β̂) và giá trị giả thuyết (β₀), được chuẩn hóa bằng ước lượng sai số chuẩn của ước lượng tham số (se(β̂)). Các tiêu chí lựa chọn mô hình như AIC (Akaike Information Criterion) và BIC (Bayesian Information Criterion), vốn dựa trên giá trị tối đa của hàm hợp lý, cũng được giới thiệu hoặc sử dụng như các công cụ đánh giá mô hình.

Tổng kết

Nhấn mạnh chính của tác giả trong chương này là cung cấp một khuôn khổ ước lượng mạnh mẽ và linh hoạt có thể áp dụng cho nhiều loại dữ liệu và phân phối khác nhau, vượt ra ngoài giả định phân phối Chuẩn của hồi quy tuyến tính truyền thống. Điều này chuẩn bị cho việc khám phá các mô hình phức tạp hơn trong các chương tiếp theo.

Chương 5. Generalized Linear Models - GLMs

Giới thiệu

Mục tiêu chính của chương này là giới thiệu và định nghĩa GLMs như một sự tổng quát hóa của mô hình hồi quy tuyến tính truyền thống, cho phép mô hình hóa các biến phản hồi không tuân theo phân phối Chuẩn và mối quan hệ phi tuyến tính giữa biến phản hồi và biến giải thích thông qua hàm liên kết. Chương 5 đặt nền tảng lý thuyết cho việc hiểu và áp dụng GLMs trong các chương tiếp theo, nơi các trường hợp phân phối cụ thể (như Poisson, Binomial) được trình bày chi tiết hơn.

Nội dung

Giới thiệu ba thành phần chính tạo nên một Mô hình Tuyến tính Tổng quát:

1. Thành phần ngẫu nhiên (Random Component): Xác định phân phối xác suất của biến phản hồi y. Chương này nhấn mạnh lớp các phân phối Mô hình Phân tán Hàm mũ (Exponential Dispersion Models - EDMs). Các EDM bao gồm nhiều phân phối phổ biến như Chuẩn (Normal), Poisson, Nhị thức (Binomial), Gamma, Inverse Gaussian và Tweedie. Mỗi phân phối trong lớp EDM có một hàm phương sai V(μ) (mô tả mối quan hệ giữa phương sai và giá trị trung bình của biến phản hồi) và một tham số phân tán φ.

2. Thành phần hệ thống (Systematic Component): Là bộ dự báo tuyến tính, tương tự như trong hồi quy tuyến tính, được tính bằng một tổ hợp tuyến tính của các biến giải thích và các hệ số hồi quy (η = β₀ + β₁x₁ + … + βₚxₚ).

3. Hàm liên kết (Link Function - g): Liên kết giá trị trung bình của biến phản hồi (μ = E[y]) với bộ dự báo tuyến tính (η) thông qua mối quan hệ η = g(μ). Tài liệu cũng đề cập đến hàm liên kết chính tắc (canonical link function), có mối quan hệ đặc biệt với hàm phương sai (V(μ) = 1/g′(μ), với g là hàm liên kết chính tắc).

Khái niệm Độ lệch (Deviance), một thước đo sự phù hợp của mô hình GLM. Việc ước lượng các tham số trong GLMs được thực hiện chủ yếu bằng phương pháp Ước lượng Hợp lý Tối đa (Maximum Likelihood Estimation - MLE), dựa trên nền tảng lý thuyết được trình bày ở Chương 4 [ngầm định, vì MLE là phương pháp chuẩn cho GLMs].

Ví dụ minh họa bbảng 5.1, liệt kê các thành phần (hàm phương sai, tham số chính tắc, độ lệch đơn vị) cho nhiều phân phối trong lớp EDM. Điều này phục vụ mục đích định nghĩa và phân loại các GLMs dựa trên phân phối của biến phản hồi. Các hình vẽ minh họa giá trị kỳ vọng của độ lệch đơn vị cho phân phối Gamma, Poisson và Nhị thức cung cấp hiểu biết về tính chất của các phân phối này trong khuôn khổ GLM.

Tổng kết

Trọng tâm của Chương 5 là cung cấp một khuôn khổ lý thuyết thống nhất và chặt chẽ cho việc mô hình hóa các loại dữ liệu khác nhau (đếm, tỷ lệ, thời gian sống, v.v.) mà không chỉ giới hạn ở dữ liệu liên tục có phân phối Chuẩn.

Chương 6. Generalized Linear Models: Estimation

Giới thiệu

Chương 6 đóng vai trò là cầu nối giữa lý thuyết về Mô hình Tuyến tính Tổng quát (GLMs) được giới thiệu ở Chương 5 và việc áp dụng thực tế các mô hình này. Mục tiêu chính là trình bày chi tiết cách các tham số mô hình trong GLMs được ước lượng, chủ yếu thông qua phương pháp Ước lượng Hợp lý Tối đa (MLE), vốn là nền tảng lý thuyết từ Chương 4.

Nội dung

Nội dung trọng tâm là xoay quanh việc tính toán hàm hợp lý cho các tham số hệ số hồi quy (β). Quá trình này bao gồm việc lấy đạo hàm của hàm xác suất để dẫn đến các Phương trình Score và tính toán Thông tin cho β.

Sau đó, mô tả cách sử dụng các kết quả này để tính toán ước lượng của β. Phương pháp ước lượng này thường được thực hiện thông qua các thuật toán lặp, và tài liệu cũng trình bày công thức ma trận cho việc ước lượng β. ĐĐề cập đến cách tính Sai số chuẩn cho β̂, vốn rất quan trọng cho việc suy luận thống kê.

Ngoài ước lượng các hệ số β, Chương 6 còn thảo luận về ước lượng tham số phân tán φ. Tài liệu giới thiệu nhiều phương pháp ước lượng φ, bao gồm Ước lượng Hợp lý Tối đa (MLE) cho φ, Ước lượng Hợp lý Log-Likelihood biên đã chỉnh sửa, Ước lượng Độ lệch Trung bình, và Ước lượng Pearson, thảo luận về việc lựa chọn ước lượng φ tốt nhất. Một điểm quan trọng được nhấn mạnh là quá trình ước lượng GLMs về mặt cục bộ (locally).

Độ lệch Dư (Residual Deviance), một thước đo sự phù hợp của mô hình được suy ra từ hàm hợp lý, tương tự như Tổng bình phương sai số dư trong hồi quy tuyến tính.

Tổng kết

Trọng tâm chính trong Chương 6 là cung cấp nền tảng toán học và tính toán cho việc ước lượng tham số trong khuôn khổ GLMs. Chương này tập trung vào cơ chế kỹ thuật để tìm ra các ước lượng tham số tối đa hóa hàm hợp lý.

Chương 7. Generalized Linear Models: Inference

Giới thiệu

Mục tiêu chính là trang bị cho người đọc các phương pháp để đánh giá ý nghĩa thống kê của các tham số mô hình và so sánh các mô hình GLM khác nhau, sử dụng các công cụ dựa trên lý thuyết hợp lý tối đa.

Nội dung

Nội dung cốt lõi của chương tập trung vào việc áp dụng ba phương pháp suy luận chính dựa trên lý thuyết hợp lý:

  • Kiểm định Wald (Wald Tests): Đây là phương pháp đơn giản nhất, dựa trên ước lượng tham số β̂j và sai số chuẩn ước lượng của nó (se(β̂j)). Kiểm định Wald dựa trên tính chất tiệm cận chuẩn của ước lượng hợp lý tối đa khi cỡ mẫu đủ lớn.

  • Kiểm định Tỷ số Hợp lý (Likelihood Ratio Tests - LRT): Phương pháp này so sánh giá trị hàm hợp lý (hoặc Độ lệch

  • Deviance, vốn là thước đo sự phù hợp dựa trên hàm hợp lý) giữa hai mô hình lồng nhau. Khi tham số phân tán φ chưa biết, thống kê kiểm định tỷ số hợp lý giữa các mô hình lồng nhau trong GLMs tuân theo phân phối F, và việc so sánh này thường được thực hiện thông qua Bảng Phân tích Độ lệch (Analysis of Deviance Tables).

  • Kiểm định Score (Score Tests): Đây là một phương pháp thay thế dựa trên hàm Score (đạo hàm của hàm log-likelihood). Chương thảo luận chi tiết về việc sử dụng các kiểm định này khi tham số phân tán φ được biết và khi φ chưa biết. Việc xây dựng Khoảng tin cậy cho các hệ số hồi quy riêng lẻ (βj) và giá trị trung bình (μ̂) cũng được trình bày, thường sử dụng phương pháp Wald. Khoảng tin cậy cho μ̂ được suy ra bằng cách áp dụng hàm liên kết nghịch đảo lên khoảng tin cậy của bộ dự báo tuyến tính η̂.

  • Chương 7 cũng đề cập đến các phương pháp so sánh mô hình khi chúng không lồng nhau, sử dụng các tiêu chí như AIC (Akaike’s Information Criterion) và BIC (Bayesian Information Criterion), mặc dù đây không phải là các kiểm định giả thuyết chính thức. Các phương pháp tự động chọn mô hình (như drop1, add1, step trong R) dựa trên AIC cũng được giới thiệu, tương tự như trong hồi quy tuyến tính. Giả sử như:

  • So sánh hai mô hình Poisson lồng nhau sử dụng hàm deviance() và hàm pchisq() để tính p-value từ thống kê kiểm định tỷ số hợp lý.

  • Ví dụ áp dụng kiểm định Wald cho dữ liệu nhị phân và so sánh kết quả với kiểm định Wilcoxon.

  • Minh họa việc tính toán các giá trị t-scores và p-values từ kết quả mô hình, tương ứng với kiểm định Wald cho từng hệ số.

Tổng kết

Trọng tâm của Chương 7 là trang bị các công cụ thực tế và lý thuyết cần thiết để đưa ra kết luận suy luận từ các mô hình GLM đã được ước lượng. Chương tập trung vào việc hiểu và áp dụng các kiểm định Wald, Tỷ số Hợp lý và Score, cũng như các tiêu chí lựa chọn mô hình như AIC/BIC, nhấn mạnh cách thực hiện các phân tích này sử dụng phần mềm R.

Chương 8. Generalized Linear Models: Diagnostics

Giới thiệu

Chương 8 tập trung vào việc đánh giá sự phù hợp của mô hình và kiểm tra các giả định cơ bản của Mô hình Tuyến tính Tổng quát (GLMs). Mục tiêu chính là trang bị các công cụ và kỹ thuật để phát hiện các vấn đề tiềm ẩn trong mô hình đã khớp, nhằm đảm bảo tính hợp lệ của các kết luận suy luận.

Nội dung

Chương trình bày các phương pháp chẩn đoán chuyên biệt cho GLMs, mở rộng từ các kỹ thuật trong hồi quy tuyến tính:

Các loại phần dư (Residuals): Bên cạnh phần dư thông thường (Response Residuals), GLMs sử dụng các loại phần dư dựa trên hàm hợp lý hoặc phương sai, như Pearson ResidualsDeviance Residuals. Deviance Residuals đặc biệt quan trọng vì chúng liên quan trực tiếp đến độ lệch (Deviance), thước đo sự phù hợp của mô hình. Ngoài ra, Quantile Residuals cũng được giới thiệu. Chương thảo luận về việc khi nào nên sử dụng loại phần dư nào. * Đòn bẩy (Leverage): Khái niệm đòn bẩy, đặc trưng bởi ma trận Hat (Hat Matrix), được mở rộng cho GLMs (Working Leverages) để đánh giá mức độ ảnh hưởng của từng quan sát đến việc khớp mô hình. * Phần dư chuẩn hóa đòn bẩy (Leverage Standardized Residuals): Kết hợp phần dư và đòn bẩy để xác định các điểm ngoại lệ (Outliers) và điểm gây ảnh hưởng (Influential Observations). * Kiểm tra các giả định của GLMs: Chương nhấn mạnh việc kiểm tra các giả định về phân phối dữ liệu (phân phối trong họ Exponential Dispersion Models), thành phần hệ thống (Systematic Component) và thành phần ngẫu nhiên (Random Component), cũng như tính độc lập của các quan sát. Các kiểm tra này thường được thực hiện thông qua các biểu đồ chẩn đoán (Diagnostic Plots), chẳng hạn như biểu đồ phần dư chuẩn hóa đòn bẩy so với giá trị khớp (fitted values) hoặc các biến giải thích (covariates).

Ví dụ minh họa: Tài liệu cung cấp các ví dụ sử dụng R để minh họa: * Biểu đồ phần dư deviance chuẩn hóa so với log của giá trị khớp, log(Girth) và log(Height) cho dữ liệu cây anh đào (cherry tree data). Các biểu đồ này giúp kiểm tra tính phù hợp của thành phần hệ thống và thành phần ngẫu nhiên. * Ví dụ về các biểu đồ phần dư và khoảng cách Cook (Cook’s Distance) cho dữ liệu đếm (count data), minh họa cách phát hiện điểm gây ảnh hưởng.

Tổng kết

Trọng tâm của Chương 8 là ứng dụng thực tế các công cụ chẩn đoán để đánh giá độ tin cậy của các mô hình GLM. Tác giả nhấn mạnh tầm quan trọng của việc kiểm tra giả định và nhận diện các điểm dữ liệu có vấn đề, đồng thời đề cập đến các biện pháp khắc phục (Remedies) khi phát hiện sự sai lệch so với giả định, bao gồm cả thảo luận về Quasi-Likelihood như một cách xử lý phương sai dư (overdispersion). Chương cũng liên kết chẩn đoán với quá trình xây dựng mô hình bằng cách đề cập đến các tiêu chí lựa chọn mô hình và phương pháp tự động.

Chương 9 Models for Proportions: Binomial GLMs

Giới thiệu:

Chương 9 tập trung vào việc xây dựng và phân tích các Mô hình Tuyến tính Tổng quát (GLMs) cho dữ liệu tỷ lệ, là những dữ liệu phát sinh từ các phép thử Bernoulli hoặc Binomial, trong đó biến phản hồi thể hiện số lượng “thành công” trong một số lượng thử nghiệm cố định hoặc tỷ lệ thành công. Mục tiêu chính của chương là cung cấp nền tảng lý thuyết và hướng dẫn thực hành để mô hình hóa mối quan hệ giữa tỷ lệ phản hồi và các biến giải thích, vượt ra ngoài giới hạn của hồi quy tuyến tính thông thường khi áp dụng cho dữ liệu tỷ lệ.

Nội dung chính

Chương trình bày các khái niệm cốt lõi để mô hình hóa dữ liệu tỷ lệ bằng GLMs. Thành phần ngẫu nhiên của mô hình dựa trên phân phối Binomial, thuộc họ Exponential Dispersion Models (EDMs) với hàm phương sai là μ(1-μ). Thành phần hệ thống liên kết bộ dự báo tuyến tính với giá trị trung bình (tỷ lệ) thông qua hàm liên kết. Các hàm liên kết thông dụng cho dữ liệu tỷ lệ được thảo luận bao gồm: * Logit Link: Đây là hàm liên kết chính tắc cho phân phối Binomial. Nó mô hình hóa logarit của tỷ lệ chênh (log-odds) là hàm tuyến tính của các biến giải thích. Việc giải thích các hệ số hồi quy trong mô hình logit dưới dạng tỷ lệ chênh (odds ratios) cũng được đề cập. * Probit Link: Dựa trên ý tưởng về phân phối ngưỡng (tolerance distributions). * Complementary Log-Log Link: Được giới thiệu trong phân tích thử nghiệm (assay analysis).

Chương cũng đề cập đến các vấn đề thực tế như Overdispersion (phương sai quan sát lớn hơn phương sai dự kiến của mô hình Binomial). Mặc dù chương không cung cấp ví dụ chi tiết về cách xử lý, nó nhấn mạnh sự tồn tại và tầm quan trọng của vấn đề này. Chương 9 còn thảo luận về những hạn chế của kiểm định Wald trong một số trường hợp của mô hình Binomial và lưu ý rằng không có thước đo “Goodness-of-Fit” tiêu chuẩn cho các phản hồi nhị phân đơn lẻ. Các ví dụ sử dụng R được cung cấp để minh họa việc khớp mô hình Binomial GLM, bao gồm cả việc kiểm định giả thuyết bằng cách sử dụng bảng phân tích độ lệch (Analysis of Deviance) với kiểm định Chi-squared. Ví dụ về dữ liệu diệt côn trùng (deposit) được sử dụng để minh họa cách mô hình hóa tỷ lệ chết (Killed/Number) dựa trên lượng chất diệt côn trùng (Deposit) và loại chất diệt côn trùng (Insecticide). Dữ liệu về tỷ lệ nảy mầm (germ) cũng được sử dụng để minh họa kiểm định các yếu tố (Extract, Seeds, Extract:Seeds) ảnh hưởng đến tỷ lệ nảy mầm trong mô hình binomial.

Tổng kết:

Trọng tâm của Chương 9 là trang bị cho người đọc khả năng xây dựng và phân tích các mô hình GLM phù hợp cho dữ liệu tỷ lệ hoặc nhị phân. Tác giả nhấn mạnh việc hiểu các hàm liên kết khác nhau và ý nghĩa của chúng, đồng thời cảnh báo về các thách thức cụ thể như overdispersion và việc đánh giá sự phù hợp của mô hình trong bối cảnh này.

Chương 10. Models for Counts: Poisson and Negative Binomial GLMs

Giới thiệu

Chương 10 tập trung vào việc mô hình hóa dữ liệu đếm (count data), tức là các biến phản hồi nhận giá trị là các số nguyên không âm, sử dụng khuôn khổ Mô hình Tuyến tính Tổng quát (GLMs). Mục tiêu chính là trang bị cho người đọc các công cụ thống kê phù hợp để phân tích mối quan hệ giữa các biến đếm và các biến giải thích, vượt qua các hạn chế khi áp dụng hồi quy tuyến tính tiêu chuẩn cho loại dữ liệu này.

Nội dung

Chương trình bày hai loại GLM chính cho dữ liệu đếm:

  • Poisson GLM: Đây là mô hình cơ bản cho dữ liệu đếm. Thành phần ngẫu nhiên dựa trên phân phối Poisson, một thành viên của họ Exponential Dispersion Models (EDMs). Đặc trưng của phân phối Poisson là trung bình bằng phương sai (V(μ) = μ). Hàm liên kết chính tắc cho phân phối Poisson là liên kết logarit (log link), nghĩa là log(E(Y)) là hàm tuyến tính của các biến giải thích. Điều này dẫn đến ảnh hưởng nhân (multiplicative impact) của các biến giải thích lên giá trị trung bình. Chương cũng đề cập đến việc mô hình hóa tỷ lệ (rates) bằng cách sử dụng Poisson GLM với một hệ số bù (offset). Một ứng dụng quan trọng của Poisson GLM là trong mô hình log-linear cho bảng tần suất (contingency tables), nơi các ô đếm được mô hình hóa.

  • Overdispersion (Phương sai dư): Một vấn đề phổ biến với dữ liệu đếm là phương sai quan sát thường lớn hơn phương sai dự kiến của mô hình Poisson (tức là phương sai > trung bình). Khi xảy ra overdispersion, ước lượng tham số vẫn đúng nhưng sai số chuẩn bị đánh giá thấp, dẫn đến kiểm định giả thuyết và khoảng tin cậy không chính xác.

  • Negative Binomial GLM và Quasi-Poisson: Để xử lý overdispersion, chương giới thiệu Negative Binomial GLMQuasi-Poisson models. Phân phối Nhị thức Âm cũng là một EDM, cho phép phương sai lớn hơn trung bình thông qua một tham số bổ sung (V(μ) = μ + μ²/k). Mô hình Quasi-Poisson cũng ước lượng một tham số phân tán để điều chỉnh phương sai.

Tổng kết:

Trọng tâm của Chương 10 là cung cấp các kỹ thuật để xây dựng và phân tích GLM cho dữ liệu đếm, với sự tập trung vào mô hình Poisson và việc mở rộng sang Negative BinomialQuasi-Poisson để xử lý overdispersion. Tác giả cũng nhấn mạnh mối liên hệ giữa GLMs và mô hình log-linear cho bảng tần suất.

Chương 11. Positive Continuous Data: Gamma and Inverse Gaussian GLMs

Giới thiệu

Chương 11 tập trung vào việc mô hình hóa dữ liệu liên tục dương (positive continuous data), tức là các biến phản hồi nhận giá trị là số thực dương, trong khuôn khổ Mô hình Tuyến tính Tổng quát (GLMs). Mục tiêu chính là cung cấp nền tảng lý thuyết và hướng dẫn thực hành cho các mô hình phù hợp với loại dữ liệu này, đặc biệt khi giả định về phương sai không đổi của hồi quy tuyến tính thông thường bị vi phạm, thay vào đó phương sai thường tăng theo trung bình.

Nội dung chính

Chương trình bày hai phân phối chính thuộc họ Exponential Dispersion Models (EDMs) phù hợp cho dữ liệu liên tục dương, đó là phân phối Gammaphân phối Inverse Gaussian. Đối với dữ liệu liên tục dương, phương sai của biến phản hồi thường tăng lên khi giá trị trung bình tăng. Phân phối Gamma có hàm phương sai là V(μ) = μ² và đặc trưng bởi hệ số biến thiên không đổi (coefficient of variation). Nó cũng có mối liên hệ với thời gian giữa các sự kiện Poisson. Phân phối Inverse Gaussian có hàm phương sai là V(μ) = μ³ và phù hợp cho dữ liệu có độ lệch cao hơn phân phối Gamma. Cả hai phân phối đều cho phép mô hình hóa sự tăng phương sai theo trung bình. Các hàm liên kết (link functions) phổ biến cho cả GLM Gamma và Inverse Gaussian bao gồm liên kết logarit (log link), liên kết nghịch đảo (inverse link) và liên kết đồng nhất (identity link). Inverse Gaussian còn có liên kết chính tắc là 1/mu^2.

Dữ liệu sinh khối tán lá (foliage) minh họa dữ liệu liên tục dương có phương sai tăng theo trung bình. Dữ liệu độ thấm vật liệu xây dựng (perm) được sử dụng làm ví dụ nghiên cứu điển hình (Case Study 1), gợi ý mô hình Inverse Gaussian có thể phù hợp dựa trên cơ sở lý thuyết về chuyển động hạt. Dữ liệu năng suất hành tây (yield-density) là một ví dụ nghiên cứu điển hình khác. Tài liệu cũng đề cập đến việc sử dụng R để khớp các mô hình này thông qua hàm glm() với family=Gamma() hoặc family=inverse.gaussian().

Tổng kết

Trọng tâm của Chương 11 là trang bị cho người đọc khả năng xây dựng và phân tích các mô hình GLM phù hợp cho dữ liệu liên tục dương, tập trung vào GLM GammaInverse Gaussian. Tác giả nhấn mạnh việc hiểu cách các mô hình này xử lý vấn đề phương sai tăng theo trung bình thông qua hàm phương sai đặc thù của chúng.

Chương 12. Tweedie GLMs

Giới thiệu

Chương 12 giới thiệu và khám phá lớp Mô hình Tuyến tính Tổng quát Tweedie (Tweedie GLMs). Mục tiêu chính là cung cấp một khung lý thuyết và thực hành thống nhất để mô hình hóa nhiều loại dữ liệu khác nhau. Chương nhấn mạnh rằng Tweedie GLMs tổng quát hóa nhiều Mô hình Phân tán Lũy thừa (EDMs) đã được giới thiệu trước đó, bao gồm cả phân phối Chuẩn (Normal), Poisson, Gamma, và Inverse Gaussian. Tweedie GLMs đặc biệt hữu ích cho dữ liệu liên tục dương có hàm phương sai phụ thuộc vào trung bình theo dạng lũy thừa, và cả dữ liệu liên tục dương có chứa các giá trị 0 chính xác.

Nội dung

Khái niệm cốt lõi là phân phối Tweedie, một họ các phân phối thuộc EDMs được xác định bởi hàm phương sai V(μ) = μ^ξ. Tham số ξ (chỉ số Tweedie) quyết định hình dạng cụ thể của phân phối và mối quan hệ phương sai-trung bình. Các phân phối quen thuộc như Poisson (ξ = 1, với tham số phân tán φ=1) và Gamma (ξ = 2) là các trường hợp đặc biệt của phân phối Tweedie. Cấu trúc của Tweedie EDMs bao gồm các công thức cho tham số chính tắc θ và hàm tích lũy κ(θ) phụ thuộc vào ξ. Trong thực tế, chỉ số ξ thường được ước lượng từ dữ liệu cùng với các tham số khác của mô hình. Chương cũng trình bày cách khớp (fitting) Tweedie GLMs và sử dụng phần mềm R cho mục đích này.

Tổng kết

Trọng tâm của Chương 12 là giới thiệu Tweedie GLMs như một công cụ mô hình hóa mạnh mẽ và linh hoạt, có khả năng bao trùm và tổng quát hóa nhiều mô hình GLM phổ biến khác. Tác giả đặc biệt nhấn mạnh vào việc hiểu và sử dụng hàm phương sai V(μ) = μ^ξ và tầm quan trọng của việc ước lượng chỉ số ξ từ dữ liệu.

Chương 13. Extra Problems

Giới thiệu

Chương 13 đóng vai trò là tập hợp các bài toán và nghiên cứu điển hình bổ sung. Mục tiêu chính của chương là cung cấp cơ hội cho người đọc áp dụng và củng cố kiến thức về các Mô hình Tuyến tính Tổng quát (GLMs) đã được giới thiệu ở các chương trước. Chương không giới thiệu một loại mô hình GLM mới mà thay vào đó, tập trung vào việc thực hành xây dựng, phân tích và diễn giải mô hình GLM trên nhiều loại dữ liệu khác nhau.

Nội dung chính

Nội dung cốt lõi của chương được thể hiện qua các bài toán đa dạng. Các vấn đề này yêu cầu người đọc thực hiện nhiều khía cạnh của quy trình mô hình hóa GLM, bao gồm: phân tích dữ liệu sơ bộ (ví dụ: vẽ biểu đồ và mô tả đặc điểm dữ liệu), lựa chọn mô hình phù hợp dựa trên đặc điểm dữ liệu, khớp mô hình (ví dụ: sử dụng hồi quy tuyến tính có trọng số sau khi biến đổi dữ liệu), thực hiện phân tích chẩn đoán để đánh giá sự phù hợp của mô hình, và diễn giải kết quả cuối cùng. Các bài toán đề cập đến việc xử lý các loại dữ liệu khác nhau, bao gồm cả dữ liệu có chứa các giá trị 0 và yêu cầu xác định tính chất của các giá trị 0 đó (cấu trúc hay do mẫu chọn). Các bộ dữ liệu được sử dụng trong các bài toán bao gồm dữ liệu về thời gian dậy thì và sự hài lòng về cân nặng (satiswt), mối quan hệ giữa nhiễm toxoplasmosis và lượng mưa (toxo), tác động của boric acid lên phôi thai (boric), và dữ liệu về hội chứng Down theo tuổi mẹ.

Tổng kết

Trọng tâm của Chương 13 là vào thực hành và ứng dụng các nguyên lý của GLMs thông qua một loạt các bài toán. Tác giả nhấn mạnh tầm quan trọng của việc phân tích dữ liệu kỹ lưỡng, lựa chọn mô hình cẩn thận (bao gồm cả việc xem xét các khía cạnh như loại dữ liệu, cấu trúc phương sai, và sự hiện diện của các giá trị 0), và thực hiện chẩn đoán mô hình đầy đủ để đảm bảo độ tin cậy của kết quả. Chương này giúp người đọc phát triển kỹ năng cần thiết để đối phó với các thách thức thực tế trong việc mô hình hóa dữ liệu sử dụng khung GLM.

II. MÔ TẢ DỮ LIỆU

Thống kê mô tả biến định lượng

1. Children

Biến Children là một biến định lượng dạng rời rạc, phản ánh số con của mỗi khách hàng trong tập dữ liệu. Thông tin này mang lại giá trị trong việc phân tích cấu trúc hộ gia đình của người tiêu dùng, qua đó hỗ trợ các nhà bán lẻ trong việc điều chỉnh các chiến lược tiếp thị và phát triển sản phẩm nhằm phù hợp hơn với từng phân khúc khách hàng cụ thể.

  • Biến Children được phân tích dựa trên 14.059 quan sát, đại diện cho số con của từng khách hàng. Giá trị trung bình của biến này là khoảng 2.53, cho thấy mỗi khách hàng có trung bình hơn 2 con một chút. Trung vị đạt mức 3, nghĩa là một nửa số khách hàng có không quá 3 con, trong khi nửa còn lại có nhiều hơn. Độ lệch chuẩn khoảng 1.49 cho thấy mức độ phân tán dữ liệu quanh giá trị trung bình là vừa phải, không quá cao.

  • Giá trị thấp nhất được ghi nhận là 0, phản ánh một số khách hàng không có con, trong khi giá trị cao nhất là 5, cho thấy một số hộ gia đình có đến năm người con. Độ lệch (skewness) xấp xỉ 0 (-0.021), cho thấy phân phối gần như đối xứng quanh trung bình. Hệ số nhọn (kurtosis) âm (-1.03), gợi ý rằng phân phối có đỉnh phẳng và đuôi ngắn hơn so với phân phối chuẩn – một đặc điểm của phân phối dẹt (platikurtic).

  • Sai số chuẩn của trung bình rất nhỏ (~0.0126), cho thấy ước lượng trung bình có độ tin cậy cao. Tổng thể, phân phối của biến Children khá cân đối và tập trung quanh mức trung bình. Đa số khách hàng có từ 2 đến 3 con, trong khi sự xuất hiện của các hộ không có con hoặc có nhiều con hơn phản ánh mức độ đa dạng nhất định nhưng không quá lớn, cho thấy mức độ đồng nhất tương đối trong cấu trúc gia đình của tập khách hàng này.

2. UnitsSold

Biến UnitsSold là một biến định lượng liên tục, thể hiện số lượng sản phẩm được bán ra trong mỗi giao dịch trong tập dữ liệu Supermarket Transactions. Đây là chỉ số then chốt để đánh giá mức tiêu thụ sản phẩm, hành vi mua hàng và hiệu quả kinh doanh theo từng danh mục. Biến này thường được sử dụng trong các phân tích mô tả, mô hình hồi quy và phân tích doanh thu nhằm hỗ trợ ra quyết định trong lĩnh vực bán lẻ.

  • Biến UnitsSold được phân tích từ 14.059 quan sát, một kích thước mẫu lớn giúp đảm bảo độ tin cậy cho các kết luận thống kê. Giá trị trung bình khoảng 4.08 cho thấy mỗi giao dịch bán trung bình khoảng 4 sản phẩm, trong khi trung vị là 4, phản ánh sự phân bố khá cân đối giữa các giao dịch bán ít và nhiều sản phẩm.

= Độ lệch chuẩn khoảng 1.17 cho thấy mức độ dao động quanh trung bình không quá lớn. Số lượng sản phẩm bán ra trong mỗi giao dịch dao động từ 1 đến 8, với khoảng biến thiên (range) là 7 – tương đối hẹp, cho thấy dữ liệu không có các giá trị ngoại biên cực đoan.

= Phân phối của biến khá đối xứng với độ lệch (skewness) gần bằng 0 (~0.012), và có độ nhọn thấp hơn chuẩn (kurtosis ~ -0.44), thể hiện đặc điểm của phân phối dẹt (platikurtic). Sai số chuẩn của trung bình nhỏ (~0.0099), chứng tỏ giá trị trung bình được ước lượng một cách chính xác.

Tổng quan, UnitsSold là một biến có phân phối ổn định, tập trung quanh giá trị trung bình là 4. Giao dịch phổ biến nhất rơi vào khoảng 3 đến 5 sản phẩm. Với đặc điểm phân phối không lệch và không có biến dạng đáng kể, biến này hoàn toàn phù hợp để sử dụng trong các mô hình hồi quy tuyến tính hoặc các phân tích định lượng khác mà không cần điều chỉnh thêm.

3. Revenue

Biến Revenue là một biến định lượng, đại diện cho tổng số tiền thu được từ mỗi giao dịch bán hàng trong một khoảng thời gian xác định. Trong tập dữ liệu Supermarket Transactions, biến này được ghi nhận theo từng đơn hàng, phản ánh trực tiếp quy mô giá trị giao dịch và mức độ đóng góp của mỗi đơn hàng vào tổng doanh thu của cửa hàng. Giá trị của biến thường được biểu diễn dưới dạng tiền tệ, cho phép đánh giá hiệu suất kinh doanh, phân tích xu hướng tiêu dùng cũng như so sánh hiệu quả giữa các loại sản phẩm hoặc nhóm khách hàng khác nhau.

Biến Revenue gồm 14.059 quan sát, với trung bình khoảng 13.00 và trung vị 11.25, cho thấy phân phối lệch phải nhẹ do trung bình cao hơn trung vị. Độ lệch chuẩn lớn (~8.22) phản ánh sự dao động đáng kể giữa các giao dịch. Doanh thu dao động từ 0.53 đến 56.7, cho thấy biên độ khá rộng.

Phân phối không đối xứng với skewness dương (1.13), cho thấy phần lớn các giao dịch có giá trị nhỏ, nhưng một số ít có doanh thu rất cao. Giá trị kurtosis (1.39) cho thấy phân phối có đỉnh nhọn hơn phân phối chuẩn. Sai số chuẩn nhỏ (~0.069) chứng tỏ giá trị trung bình được ước lượng đáng tin cậy.

Tóm lại, Revenue là biến có độ phân tán lớn và phân phối lệch, đặc trưng thường thấy trong dữ liệu bán hàng do sự chênh lệch rõ rệt giữa các giao dịch.

Thống kê mô tả biến định tính

1. Gender (giới tính)

Biến Gender là một biến định tính phân loại nhị phân, phản ánh giới tính của khách hàng trong tập dữ liệu.

library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.3.3
## 
## Attaching package: 'ggplot2'
## The following objects are masked from 'package:psych':
## 
##     %+%, alpha
# Tạo bảng tần số cho Gender
gender_freq <- table(td$Gender)
gender_df <- as.data.frame(gender_freq)
colnames(gender_df) <- c("Gender", "Count")

# Vẽ biểu đồ cột
ggplot(gender_df, aes(x = Gender, y = Count, fill = Gender)) +
  geom_bar(stat = "identity", width = 0.6) +
  scale_fill_manual(values = c("lightgreen", "lightpink")) +
  labs(title = "Biểu đồ số lượng theo Giới tính", x = "Giới tính", y = "Số lượng") +
  theme_minimal()

Phân tích mô tả cho thấy cơ cấu giới tính trong bộ dữ liệu khá đồng đều, với tỷ lệ nữ là 51% và nam chiếm 49%. Sự phân bố gần như tương đương này phản ánh sự cân bằng giới, góp phần nâng cao độ tin cậy của các kết quả phân tích sau này. Nhờ vào việc không có sự thiên lệch đáng kể giữa hai nhóm giới tính, nguy cơ sai lệch do chọn mẫu được giảm thiểu. Đồng thời, sự đồng đều này cũng hỗ trợ tốt cho việc xây dựng và kiểm định các mô hình thống kê có yếu tố phân tích theo giới.

2. MaritalStatus (tình trạng hôn nhân)

Biến MaritalStatus phản ánh trạng thái hôn nhân của người tiêu dùng, với ký hiệu ‘S’ tương ứng với nhóm độc thân và ‘M’ cho nhóm đã lập gia đình. Đây là một biến định tính thuộc dạng phân đôi, thường được khai thác trong các nghiên cứu hành vi để phân biệt sự khác nhau trong thói quen chi tiêu giữa các đối tượng khách hàng. Chẳng hạn, những người chưa kết hôn có xu hướng chi tiêu cho nhu cầu cá nhân, trong khi những người đã kết hôn thường ưu tiên mua sắm cho hộ gia đình hoặc cân nhắc kỹ lưỡng về mặt tài chính. Việc đưa biến này vào quá trình phân tích không chỉ giúp nhận diện rõ hơn đặc điểm nhân khẩu học mà còn hỗ trợ doanh nghiệp trong việc thiết kế chiến lược tiếp thị, dự đoán hành vi và phân chia thị trường mục tiêu một cách chính xác hơn.

library(ggplot2)

# Tạo bảng tần số cho Gender
gender_freq <- table(td$MaritalStatus)
gender_df <- as.data.frame(gender_freq)
colnames(gender_df) <- c("Gender", "Count")

# Vẽ biểu đồ cột
ggplot(gender_df, aes(x = Gender, y = Count, fill = Gender)) +
  geom_bar(stat = "identity", width = 0.6) +
  scale_fill_manual(values = c("lightgreen", "lightpink")) +
  labs(title = "Biểu đồ số lượng theo Giới tính", x = "Giới tính", y = "Số lượng") +
  theme_minimal()

Dữ liệu thống kê cho thấy nhóm khách hàng độc thân chiếm tỷ lệ khoảng 51,2%, trong khi nhóm đã kết hôn chiếm 48,8%. Tỷ lệ này cho thấy sự phân bổ giữa hai trạng thái hôn nhân khá cân bằng, phản ánh tính đại diện xã hội tương đối tốt của tập dữ liệu. Việc nhóm độc thân chiếm ưu thế nhẹ có thể là dấu hiệu cho thấy phần lớn khách hàng có xu hướng sống một mình, từ đó gợi mở nhu cầu tiêu dùng thiên về cá nhân hóa và linh hoạt hơn. Thông tin này có thể là cơ sở hữu ích cho việc điều chỉnh chiến lược tiếp thị hoặc thiết kế sản phẩm phù hợp với đặc điểm của nhóm khách hàng chủ đạo.

3. Homeowner

Biến Homeowner thể hiện thông tin về quyền sở hữu nhà ở của khách hàng, trong đó ký hiệu ‘Y’ đại diện cho những người có nhà riêng và ‘N’ dành cho những người chưa sở hữu nhà. Đây là một biến phân loại nhị phân, thường được sử dụng trong phân tích để đánh giá năng lực tài chính hoặc mức độ ổn định kinh tế của đối tượng nghiên cứu. Việc sở hữu nhà không chỉ phản ánh phần nào thu nhập và tài sản tích lũy của khách hàng, mà còn có thể ảnh hưởng đến hành vi chi tiêu cũng như nhu cầu về các sản phẩm và dịch vụ nhất định – đặc biệt trong các lĩnh vực như ngân hàng, bảo hiểm hoặc tiêu dùng bền vững.

home_freq <- table(td$Homeowner)                
home_pct <- round(prop.table(home_freq) * 100, 1) 
labels <- paste(names(home_freq), "(", home_pct, "%)", sep = "") 
pie(home_freq,
    labels = labels,
    col = c("blue", "yellow"),
    main = "Biểu đồ thể hiện tình trạng sở hữu nhà  ")

Tỷ lệ khách hàng sở hữu nhà trong tập dữ liệu đạt 60,1%, cao hơn so với 39,9% còn lại không có nhà ở. Sự phân bố này phản ánh mức độ ổn định tài chính nhất định của phần lớn khách hàng, đồng thời cho thấy sự khác biệt tiềm năng về hành vi tiêu dùng giữa hai nhóm. Trong khi nhóm có nhà có xu hướng hướng đến các lựa chọn đầu tư dài hạn, thì nhóm không sở hữu nhà có thể ưu tiên các giải pháp tiêu dùng linh hoạt hơn. Do đó, đặc điểm này đóng vai trò quan trọng trong việc phân tích nhân khẩu học và hoạch định chiến lược tiếp cận phù hợp.

4. AnnualIncome

Biến AnnualIncome mô tả thu nhập hàng năm của khách hàng, được chia thành các nhóm theo từng khoảng mức tăng dần. Đây là một biến phân loại có thứ tự (ordinal), phản ánh sự khác biệt về khả năng tài chính giữa các nhóm khách hàng. Thứ tự sắp xếp các mức thu nhập cho phép khai thác sâu hơn trong phân tích nhân khẩu học và phân tầng tiêu dùng

library(ggplot2)
# Thống kê tần suất
table_income <- table(td$AnnualIncome)
prop_income <- prop.table(table_income) * 100  # Tỷ lệ phần trăm

# Kết hợp thành data frame 
income_freq <- data.frame(
  Annualincome = names(table_income),
  Frequency = as.vector(table_income),
  Percentage = round(as.vector(prop_income), 2))

print(income_freq)
##    Annualincome Frequency Percentage
## 1   $10K - $30K      3090      21.98
## 2 $110K - $130K       643       4.57
## 3 $130K - $150K       760       5.41
## 4       $150K +       273       1.94
## 5   $30K - $50K      4601      32.73
## 6   $50K - $70K      2370      16.86
## 7   $70K - $90K      1709      12.16
## 8  $90K - $110K       613       4.36
ggplot(income_freq, aes(x = "", y = Percentage, fill = Annualincome)) +
  geom_col(width = 1, color = "white") +
  coord_polar(theta = "y") +
  labs(title = "Phần trăm thu nhập hàng năm của khách hàng") +
  theme_void() +
  theme(legend.title = element_blank())

Phân bố thu nhập của khách hàng cho thấy nhóm có số lượng đông đảo nhất thuộc vào khoảng thu nhập từ 30.000 đến 50.000 đô la, với hơn 4.600 cá nhân. Nhóm thu nhập thấp, nằm trong khoảng 10.000 đến 30.000 đô la, cũng chiếm tỷ lệ đáng kể với gần 3.100 khách hàng. Các phân khúc thu nhập trung bình như 50.000 đến 70.000 đô la và 70.000 đến 90.000 đô la lần lượt có khoảng 2.370 và 1.700 khách hàng. Ngược lại, số lượng khách hàng thuộc các nhóm thu nhập cao hơn, từ 90.000 đến trên 150.000 đô la, tương đối khiêm tốn, dao động trong khoảng từ 270 đến 760 cá nhân. Những con số này cho thấy đa phần khách hàng trong bộ dữ liệu tập trung chủ yếu ở các nhóm thu nhập thấp đến trung bình, trong khi nhóm thu nhập cao có quy mô hạn chế hơn đáng kể.

5. City

# Thống kê tần suất
table_city <- table(td$City)
prop_city <- prop.table(table_city) * 100  # Tỷ lệ phần trăm

# Kết hợp thành data frame 
city_freq <- data.frame(
  city = names(table_city),
  Frequency = as.vector(table_city),
  Percentage = round(as.vector(prop_city), 2))

print(city_freq)
##             city Frequency Percentage
## 1       Acapulco       383       2.72
## 2     Bellingham       143       1.02
## 3  Beverly Hills       811       5.77
## 4      Bremerton       834       5.93
## 5        Camacho       452       3.22
## 6    Guadalajara        75       0.53
## 7        Hidalgo       845       6.01
## 8    Los Angeles       926       6.59
## 9         Merida       654       4.65
## 10   Mexico City       194       1.38
## 11       Orizaba       464       3.30
## 12      Portland       876       6.23
## 13         Salem      1386       9.86
## 14    San Andres       621       4.42
## 15     San Diego       866       6.16
## 16 San Francisco       130       0.92
## 17       Seattle       922       6.56
## 18       Spokane       875       6.22
## 19        Tacoma      1257       8.94
## 20     Vancouver       633       4.50
## 21      Victoria       176       1.25
## 22   Walla Walla       160       1.14
## 23        Yakima       376       2.67
library(ggplot2)
print(city_freq)
##             city Frequency Percentage
## 1       Acapulco       383       2.72
## 2     Bellingham       143       1.02
## 3  Beverly Hills       811       5.77
## 4      Bremerton       834       5.93
## 5        Camacho       452       3.22
## 6    Guadalajara        75       0.53
## 7        Hidalgo       845       6.01
## 8    Los Angeles       926       6.59
## 9         Merida       654       4.65
## 10   Mexico City       194       1.38
## 11       Orizaba       464       3.30
## 12      Portland       876       6.23
## 13         Salem      1386       9.86
## 14    San Andres       621       4.42
## 15     San Diego       866       6.16
## 16 San Francisco       130       0.92
## 17       Seattle       922       6.56
## 18       Spokane       875       6.22
## 19        Tacoma      1257       8.94
## 20     Vancouver       633       4.50
## 21      Victoria       176       1.25
## 22   Walla Walla       160       1.14
## 23        Yakima       376       2.67
library(ggplot2)
ggplot(city_freq, aes(x = reorder(city, -Frequency), y = Frequency)) +
  geom_bar(stat = "identity", fill = "brown") +
  labs(title = "Sô lượng khách hàng đến từ các thành phố khác nhau ",
       x = "City ",
       y = "Lượng khách hàng") +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

ggplot(city_freq, aes(x = reorder(city, -Percentage), y = Percentage)) +
  geom_bar(stat = "identity", fill = "darkcyan") +
  labs(title = "Tỷ lệ phần trăm khách hàng theo thành phố",
       x = "Thành phố",
       y = "Tỷ lệ phần trăm (%)") +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

Dữ liệu cho thấy khách hàng phân bố tại nhiều thành phố khác nhau, trong đó một số địa phương nổi bật với số lượng khách hàng lớn. Salem dẫn đầu với 1.386 khách, chiếm khoảng 10% tổng số quan sát. Tiếp theo là Tacoma với 1.257 khách và Seattle với 922 khách, phản ánh sự tập trung khách hàng tại các vùng đô thị này. Ngược lại, các thành phố như Guadalajara (75 khách), San Francisco (130 khách) và Bellingham (143 khách) ghi nhận số lượng khách hàng tương đối thấp, cho thấy sự phân bố không đồng đều trong tập dữ liệu. Một số thành phố khác như Portland (876 khách), Spokane (875 khách) và San Diego (866 khách) có lượng khách hàng gần tương đương, nằm trong nhóm có số lượng cao nhưng không có sự khác biệt đáng kể.Tổng thể, kết quả minh họa xu hướng tập trung khách hàng chủ yếu tại các thành phố lớn hoặc trung tâm kinh tế, trong khi các khu vực nhỏ hơn có mức độ tham gia thị trường thấp hơn.

6. StateorProvince

Biến StateorProvince đại diện cho các khu vực hành chính như bang hoặc tỉnh nơi khách hàng cư trú hoặc thực hiện giao dịch. Bộ giá trị bao gồm nhiều khu vực đa dạng như BC, CA, DF, Guerrero, Jalisco, OR, Veracruz, WA, Yucatan và Zacatecas, phản ánh phạm vi địa lý rộng lớn của dữ liệu. Việc phân tích phân bố khách hàng theo các bang hoặc tỉnh cung cấp cái nhìn sâu sắc về đặc điểm vùng miền và thói quen tiêu dùng, qua đó hỗ trợ doanh nghiệp xây dựng các chiến lược tiếp thị hiệu quả cũng như quản lý kho vận hợp lý. Do đây là biến định danh, phân tích chủ yếu tập trung vào tần suất và tỷ lệ phần trăm của từng khu vực, thay vì sử dụng các thống kê mô tả như trung bình hay độ lệch chuẩn.

# Thống kê tần suất
table_state <- table(td$StateorProvince)
prop_state <- prop.table(table_state) * 100  # Tỷ lệ phần trăm

# Kết hợp thành data frame 
state_freq <- data.frame(
  StateOrProvince = names(table_state),
  Frequency = as.vector(table_state),
  Percentage = round(as.vector(prop_state), 2))

print(state_freq)
##    StateOrProvince Frequency Percentage
## 1               BC       809       5.75
## 2               CA      2733      19.44
## 3               DF       815       5.80
## 4         Guerrero       383       2.72
## 5          Jalisco        75       0.53
## 6               OR      2262      16.09
## 7         Veracruz       464       3.30
## 8               WA      4567      32.48
## 9          Yucatan       654       4.65
## 10       Zacatecas      1297       9.23
library(ggplot2)
ggplot(state_freq, aes(x = reorder(StateOrProvince, -Frequency), y = Frequency)) +
  geom_bar(stat = "identity", fill = "pink") +
  labs(title = "Lượng khách hàng đến từ các bang/tỉnh",
       x = "State or Province",
       y = "Lượng khách hàng ") +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

Phân bố khách hàng theo bang hoặc tỉnh cho thấy Washington (WA) dẫn đầu với 4.567 khách hàng, tiếp theo là California (CA) với 2.733 và Oregon (OR) với 2.262 khách hàng, thể hiện mức độ tập trung cao tại các khu vực này. Các bang như Zacatecas, British Columbia (BC) và Distrito Federal (DF) cũng ghi nhận số lượng khách hàng đáng kể, lần lượt là 1.297, 809 và 815. Ngược lại, các bang như Jalisco và Guerrero có lượng khách hàng thấp hơn nhiều, chỉ đạt 75 và 383. Như vậy, phân bố khách hàng theo bang/tỉnh không đồng đều, với sự tập trung rõ rệt tại một số khu vực trọng điểm, trong khi các vùng khác có số lượng khách hàng tương đối hạn chế.

7. Country

Biến Country biểu thị quốc gia nơi khách hàng tiến hành giao dịch, bao gồm ba quốc gia chính: Mỹ (USA), Mexico và Canada. Điều này cho thấy phạm vi hoạt động của siêu thị mở rộng trên toàn bộ khu vực Bắc Mỹ.

  • Về khía cạnh địa lý, dữ liệu phản ánh chiến lược kinh doanh đa quốc gia, tập trung khai thác thị trường tiêu dùng tại ba quốc gia này.

  • Sự đa dạng quốc gia trong dữ liệu cũng tạo điều kiện phân tích sự khác biệt về thói quen tiêu dùng, doanh thu và các sản phẩm ưa chuộng theo từng vùng lãnh thổ.

# Thống kê tần suất
table_cou <- table(td$Country)
prop_cou <- prop.table(table_cou) * 100  # Tỷ lệ phần trăm

# Kết hợp thành data frame 
cou_freq <- data.frame(
 cou = names(table_cou),
  Frequency = as.vector(table_cou),
  Percentage = round(as.vector(prop_cou), 2))

print(cou_freq)
##      cou Frequency Percentage
## 1 Canada       809       5.75
## 2 Mexico      3688      26.23
## 3    USA      9562      68.01
library(ggplot2)
ggplot(cou_freq, aes(x = Frequency, y = reorder(cou, Frequency))) +
  geom_bar(stat = "identity", fill = "darkgreen") +
  labs(title = "Số lượng khách hàng theo quốc gia",
       x = "Số lượng khách hàng",
       y = "Quốc gia") +
  theme_minimal()

Biến Country trong bộ dữ liệu chỉ chứa duy nhất giá trị “USA”, cho thấy toàn bộ thông tin đều đến từ khách hàng cư trú tại Hoa Kỳ. Điều này cho thấy phạm vi địa lý của dữ liệu khá hạn chế và không phản ánh được sự đa dạng về quốc gia.

Vì biến này không có sự biến đổi nào khác ngoài “USA”, nó không có giá trị trong việc phân loại hay giải thích trong phân tích mô tả. Do đó, trong các bước phân tích tiếp theo như xây dựng mô hình hồi quy hoặc phân đoạn thị trường, biến Country có thể được loại bỏ nếu mục tiêu nghiên cứu không bao gồm mở rộng sang các quốc gia khác.

8. ProductFamily

# Thống kê tần suất
table_fam <- table(td$ProductFamily)
prop_fam <- prop.table(table_fam) * 100  # Tỷ lệ phần trăm

# Kết hợp thành data frame 
fam_freq <- data.frame(
 fam = names(table_fam),
  Frequency = as.vector(table_fam),
  Percentage = round(as.vector(prop_fam), 2))

print(fam_freq)
##              fam Frequency Percentage
## 1          Drink      1250       8.89
## 2           Food     10153      72.22
## 3 Non-Consumable      2656      18.89
library(ggplot2)
ggplot(fam_freq, aes(x = reorder(fam, -Frequency), y = Frequency)) +
  geom_bar(stat = "identity", fill = "red") +
  labs(title = "Số lượng khách hàng đến từ các nước",
       x = "Country",
       y = "Lượng ") +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

table_dep <- table(td$ProductDepartment)
prop_dep <- prop.table(table_dep) * 100  # Tỷ lệ phần trăm

# Kết hợp thành data frame 
dep_freq <- data.frame(
 dep = names(table_dep),
  Frequency = as.vector(table_dep),
  Percentage = round(as.vector(prop_dep), 2))

table_bat <- table(td$ProductCategory)
prop_bat <- prop.table(table_bat) * 100  # Tỷ lệ phần trăm

# Kết hợp thành data frame 
bat_freq <- data.frame(
 bat = names(table_bat),
  Frequency = as.vector(table_bat),
  Percentage = round(as.vector(prop_bat), 2))