1. Tóm tắt sách

Chương 1: Statistical Models

Chương này giới thiệu về mô hình thống kê. Mô hình tuyến tính tổng quát là trọng tâm của cuốn sách này.

  • Với n quan sát, biến phản ứng response (hay biến phụ thuộc) thường được ký hiệu là y và các biến còn lại là các biến giải thích. Các biến giải thích thường ký hiệu bằng x, trong đó:

    • Các biến giải thích định lượng được gọi là các biến đồng nhất.

    • Các biến giải thích định tính được gọi là các yếu tố. Thông thường, các yếu tố phải được mã hóa để sử dụng trong mô hình thống kê bằng cách sử dụng các biến giả. Cần có k - 1 biến giả cho một yếu tố có k mức.

  • Một mô hình thống kê bao gồm một thành phần ngẫu nhiên và một thành phần hệ thống để giải thích hai đặc điểm này của dữ liệu thực. Thành phần hệ thống mô hình hóa cách phản hồi trung bình thay đổi khi các biến giải thích thay đổi; thành phần ngẫu nhiên mô hình hóa sự biến thiên của dữ liệu xung quanh trung bình.

Chương 2: Linear Regression Models

  • Mô hình hồi quy tuyến tính có dạng
## Warning in include_graphics("C:/Users/HUYEN TRANG/OneDrive -
## UFM/Pictures/Screenshots/Screenshot 2025-05-19 093330.png"): It is highly
## recommended to use relative paths for images. You had absolute paths:
## "C:/Users/HUYEN TRANG/OneDrive - UFM/Pictures/Screenshots/Screenshot 2025-05-19
## 093330.png"

trong đó E[yi]=μi, các wi là trọng số dương đã biết, σ2 là phương sai chưa biết, và β0,…,βp là các tham số hồi quy chưa biết. Có p biến giải thích và p tham số βj cần được ước lượng.

Lưu ý:

  • Mô hình hồi quy tuyến tính đơn giản (Simple Linear Regression), p = 1, tức là chỉ có 1 biến giải thích.

  • Các mô hình hồi quy tuyến tính thông thường có tất cả các trọng số trước đó được đặt bằng một (để phân biệt với các mô hình hồi quy tuyến tính có trọng số).

  • Các mô hình hồi quy tuyến tính đa biến (Multiple Regression) đề cập đến các trường hợp p > 1, nhiều biến giải thích.

  • Các mô hình hồi quy tuyến tính chuẩn liên quan đến các mô hình với giả định bổ sung rằng

## Warning in include_graphics("C:/Users/HUYEN TRANG/OneDrive -
## UFM/Pictures/Screenshots/Screenshot 2025-05-19 094716.png"): It is highly
## recommended to use relative paths for images. You had absolute paths:
## "C:/Users/HUYEN TRANG/OneDrive - UFM/Pictures/Screenshots/Screenshot 2025-05-19
## 094716.png"

  • Ước lượng hệ số hồi quy bằng phương pháp bình phương tối thiểu OLS, ước lượng phương sai, tính toán sai số chuẩn cho từng hệ số hồi quy βj.

  • Phân tích phương sai và thực hiện kiểm định cho mô hình.

  • R được sử dụng để xây dựng mô hình hồi quy tuyến tính thông qua hàm lm().

Chương 3: Linear Regression Models: Diagnostics and Model-Building

  • Các giả định trong thực tế:

    • Tất cả các phản hồi đều được tạo ra từ cùng một quy trình, vì vậy mô hình hồi quy giống nhau là phù hợp cho tất cả các quan sát.

    • Tính tuyến tính: Mối quan hệ giữa biến phản hồi và biến giải thích là tuyến tính.

    • Phương sai không đổi: Các phản hồi yi có phương sai không đổi, ngoài các trọng số đã biết wi.

    • Tính độc lập: Các phản hồi yi độc lập thống kê với nhau.

    • Phân phối chuẩn:

## Warning in include_graphics("C:/Users/HUYEN TRANG/OneDrive -
## UFM/Pictures/Screenshots/Screenshot 2025-05-19 101701.png"): It is highly
## recommended to use relative paths for images. You had absolute paths:
## "C:/Users/HUYEN TRANG/OneDrive - UFM/Pictures/Screenshots/Screenshot 2025-05-19
## 101701.png"

  • Phần dư cho các mô hình hồi quy tuyến tính chuẩn

    • Phần dư thô (raw residuals): sai số giữa giá trị quan sát và giá trị dự đoán
## Warning in include_graphics("C:/Users/HUYEN TRANG/OneDrive -
## UFM/Pictures/Screenshots/Screenshot 2025-05-19 102203.png"): It is highly
## recommended to use relative paths for images. You had absolute paths:
## "C:/Users/HUYEN TRANG/OneDrive - UFM/Pictures/Screenshots/Screenshot 2025-05-19
## 102203.png"

  • Phần dư chuẩn hóa (standardized residuals) gần như phân phối chuẩn.

  • Kiểm tra tính phù hợp của mô hình thông qua phần dư. Nếu phát hiện vi phạm giả định: biến đổi biến phản hồi, biến đổi biến giải thích,…

Chương 4: Beyond Linear Regression: The Method of Maximum Likelihood

  • Xem xét ba trường hợp quan trọng mà mô hình hồi quy tuyến tính thất bại:

  • Phản ứng y là tỷ lệ của tổng số đếm, trong đó 0 ≤ y ≤ 1.

  • Phản ứng y là một số đếm, trong đó y = 0, 1, 2,….

  • Phản ứng y là liên tục dương, trong đó y > 0.

  • Một cách tiếp cận tổng quát hơn đối với các mô hình hồi quy giả định rằng các phản ứng thuộc về một họ phân phối. Đối với các mô hình này, các phương pháp khả năng cực đại được sử dụng cho việc ước lượng và kiểm định giả thuyết.

  • Ba phương pháp đề xuất bởi các phương pháp khả năng cực đại:

    • Kiểm định Wald,

    • Kiểm định tỉ số hợp lý (Likelihood Ratio),

    • Kiểm định điểm (Score Test)

  • Sử dụng chỉ số AIC và BIC để chọn mô hình tối ưu.

Chương 5: Generalized Linear Models: Structure

  • Các mô hình GLM là mô hình hồi quy tuyến tính theo các tham số, và bao gồm hai thành phần (một thành phần ngẫu nhiên và một thành phần hệ thống).

  • Các phân phối phổ biến mà là GLM bao gồm:

    • phân phối chuẩn, phân phối Poisson,

    • phân phối gamma, phân phối nhị thức

    • phân phối nhị thức âm

  • Hàm xác suất cho GLM có dạng tổng quát:

## Warning in include_graphics("C:/Users/HUYEN TRANG/OneDrive -
## UFM/Pictures/Screenshots/Screenshot 2025-05-19 105003.png"): It is highly
## recommended to use relative paths for images. You had absolute paths:
## "C:/Users/HUYEN TRANG/OneDrive - UFM/Pictures/Screenshots/Screenshot 2025-05-19
## 105003.png"

trong đó θ được gọi là tham số chuẩn, κ(θ) được gọi là hàm cumulant, và φ>0 là tham số phân tán.

Chương 6: GLM - Estimation

  • Việc điều chỉnh glms phụ thuộc vào cấu trúc được cung cấp bởi edms.

  • Thuật toán IRLS (Iteratively Reweighted Least Squares) được sử dụng để tìm ước lượng tối đa khả năng dựa vào score equations và Fisher scoring.

  • Tham số phân tán có thể được ước lượng bằng cách sử dụng một ước lượng log-likelihood theo hồ sơ đã chỉnh sửa của \(\phi\), ước lượng độ lệch trung bình của \(\phi\) hoặc ước lượng Pearson.

  • Đối với tất cả các ước lượng này, kết quả của mô hình hồi quy tuyến tính là các trường hợp đặc biệt của kết quả glm.

  • Trong R, tham số phân tán φ được ước lượng bằng cách sử dụng ước lượng Pearson.

Chương 7: GLM - Inference

  • Thực hiện các kiểm định:

    • Wald test

    • Likelihood ratio tests

    • The score test

  • Trên thực tế, các bài kiểm tra Wald thường được sử dụng để kiểm tra các hệ số riêng lẻ, và các bài kiểm tra tỷ lệ khả năng (likelihood ratio tests) được sử dụng để so sánh các mô hình lồng ghép. Các bài kiểm tra tỷ lệ khả năng và điểm (score tests) được khuyến nghị thay cho các bài kiểm tra Wald để xác định xem một biến có nên được đưa vào mô hình hay không, vì các giả định phân phối của các bài kiểm tra Wald thường không chính xác. Các bài kiểm tra tỷ lệ khả năng thường được sử dụng để kiểm tra các giả thuyết thay thế hai phía.

  • AIC và BIC có thể được sử dụng để so sánh các GLM không lồng ghép. Các phương pháp tự động để chọn giữa các mô hình bao gồm hồi quy tiến, loại bỏ lùi và hồi quy từng bước.

Chương 8: GLM - Diagnostics

  • Chương 8 thảo luận về các phương pháp để xác định các vi phạm có thể xảy ra đối với giả định trong các mô hình tổng quát (GLMs), và sau đó khắc phục hoặc cải thiện những vấn đề này.

  • Các giả định cho GLMs là, theo thứ tự quan trọng:

    • Thiếu các giá trị ngoại lai: Mô hình này phù hợp cho tất cả các quan sát.

    • Hàm liên kết: Hàm liên kết đúng g() được sử dụng.

    • Tuyến tính: Tất cả các biến giải thích quan trọng đều được bao gồm, và mỗi biến giải thích đều được đưa vào dự đoán tuyến tính theo đúng tỷ lệ.

    • Hàm phương sai: Hàm phương sai đúng V (μ) được sử dụng.

    • Phân tán: Tham số phân tán φ là hằng số.

    • Độc lập: Các phản hồi yi là độc lập với nhau.

    • Phân phối: Các phản hồi này đến từ edm đã chỉ định.

  • Công cụ chính cho phân tích chẩn đoán là phần dư. Phần dư Pearson, phần dư deviance và phần dư quantile có thể được sử dụng cho GLMs.

  • Một chiến lược để phân tích chẩn đoán của GLMs là:

    • Kiểm tra tính độc lập của các phản hồi. Nếu các phần dư cho thấy tính không độc lập, hãy sử dụng các phương pháp khác.

    • Vẽ đồ thị phần dư so với \(ˆμ\) và phần dư so với từng xj . Nếu biến thiên không ổn định, có thể đã sử dụng một mô hình edm không chính xác. Nếu có xu hướng, có thể cần thay đổi thành phần hệ thống: thay đổi hàm liên kết, thêm các biến giải thích bổ sung, hoặc biến đổi các biến đồng hành.

    • Để kiểm tra thêm về chức năng liên kết, vẽ đồ thị z so với \(ˆη\)

    • Để xác định xem nguồn gốc của sự phi tuyến tính có phải là do biến đồng covariate xj được đưa vào trên thang đo không chính xác, hãy vẽ đồ thị uj so với xj (được gọi là đồ thị thành phần cộng với phần dư hoặc đồ thị phần dư một phần)

    • Lựa chọn phân phối có thể được kiểm tra bằng cách sử dụng biểu đồ Q–Q của dư lượng phân vị

Chương 9: Models for Proportions: Binomial GLMs

  • Tập trung vào binomial GLM, cụ thể là hồi quy logistic.

  • Dữ liệu phù hợp với mô hình: biến phản hồi là tỉ lệ, nhị phân (success/failure).

  • Các hàm liên kết cho binomial thường được sử dụng là

    • Logit (hàm liên kết chuẩn)

    • Probit

    • Complementary log-log (cloglog)

  • Đối với các mô hình hồi quy nhị thức, các kiểm định Wald có thể thất bại trong trường hợp một hoặc nhiều tham số hồi quy có xu hướng tiến về ±∞.

Chương 10: Models for Counts: Poisson and Negative Binomial GLMs

  • Chương 10 xem xét việc điều chỉnh mô hình GLM cho dữ liệu đếm (count data). Các số liệu đếm thường được mô hình hóa bằng phân phối Poisson trong đó μ>0 là số liệu dự kiến và y =0,1,2,… Hàm liên kết logarithm thường được sử dụng cho các mô hình GLM Poisson.

  • Khi bất kỳ biến giải thích nào có định lượng, mô hình GLM Poisson được ước lượng cũng được gọi là mô hình hồi quy Poisson. Khi tất cả các biến giải thích đều có định tính, mô hình GLM Poisson được ước lượng cũng được gọi là mô hình log-linear.

  • Mô hình GLM Poisson có thể được sử dụng để mô hình hóa tỷ lệ (chẳng hạn như số ca ung thư trên mỗi đơn vị dân số) bằng cách sử dụng một điều chỉnh thích hợp trong dự đoán tuyến tính.

  • Trong trường hợp xảy ra hiện tượng phân tán quá mức so với glm Poisson, một phân phối nhị thức âm (a negative bino-mial distribution) có thể được sử dụng, là một edm nếu k được biết. Đối với phân phối nhị thức âm, V(μ)=μ + μ2/k với k>0. Giá trị của k thường cần được ước lượng (bởi \(ˆk\)) cho một glm nhị thức âm. Nếu quan sát thấy hiện tượng phân tán quá mức, một mô hình quasi-Poisson cũng có thể được thích một cách, điều này giả định V(μ)=φμ.

Chương 11: Positive Continuous Data: Gamma and Inverse Gaussian GLMs

  • Chương 11 xem xét việc điều chỉnh các mô hình GLM cho dữ liệu liên tục dương. Dữ liệu liên tục dương thường có phương sai tăng lên khi giá trị trung bình tăng, vì vậy dữ liệu liên tục dương có thể được mô hình hóa bằng phân phối gamma (Gamma GLMs) hoặc đối với dữ liệu bị lệch nhiều hơn so với phân phối gamma, bằng phân phối Gaussian nghịch đảo (Inverse Gaussian GLMs)

  • Đối với phân phối gamma, V (μ)=μ2. Deviance dư D(y,\(ˆμ\)) được mô tả phù hợp bởi phân phối χ2 n−p′ nếu φ ≤ 1/3. Đối với phân phối Gaussian nghịch, V (μ)=μ3. Deviance dư D(y,\(ˆμ\)) được mô tả bởi phân phối χ2 n−p′.

  • Phân phối gamma mô hình hóa thời gian chờ giữa các sự kiện xảy ra ngẫu nhiên theo phân phối Poisson. Phân phối ngược Gaussian liên quan đến thời gian lần đầu tiên đạt được trong chuyển động Brown.

  • Các hàm liên kết thường được sử dụng bao gồm hàm logarit, hàm nghịch đảo và hàm đồng nhất.

  • Ước lượng Pearson của φ được khuyến nghị cho cả phân phối gamma và phân phối Gaussian ngược.

Chương 12: Mô hình GLM Tweedie

  • Mô hình Tweedie glms cho hai loại dữ liệu: mô hình Tweedie glms cho dữ liệu liên tục dương và mô hình Tweedie glms cho dữ liệu liên tục dương với các giá trị chính xác bằng 0.

  • Các phân phối Tweedie là edms với hàm phương sai V (μ)=μξ, với ξ không thuộc (0,1).

  • Các trường hợp đặc biệt của các phân phối Tweedie đã được nghiên cứu trước đây là phân phối chuẩn (ξ = 0), phân phối Poisson (ξ = 1 và φ = 1), phân phối gamma (ξ = 2) và phân phối Gauss nghịch đảo (ξ = 3).

  • Đối với ξ ≥ 2, các phân phối Tweedie, và do đó các mô hình Tweedie glms, là phù hợp cho dữ liệu liên tục dương. Đối với 1 < ξ < 2, các phân phối Tweedie, và do đó các mô hình Tweedie glms, là phù hợp cho dữ liệu liên tục dương với các giá trị chính xác bằng 0.

  • Giá trị của ξ được ước lượng bằng cách sử dụng hàm tweedie.profile() từ gói r tweedie.

Chương 13: Các vấn đề bổ sung - Bài tập mở rộng

2.Thống kê mô tả dữ liệu

2.1Tải dữ liệu

# Đọc dữ liệu từ file CSV
library()
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.3.3
d <- read.csv(file.choose(), header = T)

# Kích thước của tệp dữ liệu
dim(d)
## [1] 14059    16
# xem cấu trúc của bộ dữ liệu
str(d)
## 'data.frame':    14059 obs. of  16 variables:
##  $ X                : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ PurchaseDate     : chr  "12/18/2007" "12/20/2007" "12/21/2007" "12/21/2007" ...
##  $ CustomerID       : int  7223 7841 8374 9619 1900 6696 9673 354 1293 7938 ...
##  $ Gender           : chr  "F" "M" "F" "M" ...
##  $ MaritalStatus    : chr  "S" "M" "M" "M" ...
##  $ Homeowner        : chr  "Y" "Y" "N" "Y" ...
##  $ Children         : int  2 5 2 3 3 3 2 2 3 1 ...
##  $ AnnualIncome     : chr  "$30K - $50K" "$70K - $90K" "$50K - $70K" "$30K - $50K" ...
##  $ City             : chr  "Los Angeles" "Los Angeles" "Bremerton" "Portland" ...
##  $ StateorProvince  : chr  "CA" "CA" "WA" "OR" ...
##  $ Country          : chr  "USA" "USA" "USA" "USA" ...
##  $ ProductFamily    : chr  "Food" "Food" "Food" "Food" ...
##  $ ProductDepartment: chr  "Snack Foods" "Produce" "Snack Foods" "Snacks" ...
##  $ ProductCategory  : chr  "Snack Foods" "Vegetables" "Snack Foods" "Candy" ...
##  $ UnitsSold        : int  5 5 3 4 4 3 4 6 1 2 ...
##  $ Revenue          : num  27.38 14.9 5.52 4.44 14 ...
d

Bộ dữ liệu là data frame, bao gồm 14059 quan sát và 16 biến. Các biến định lượng là các biến: Children, UnitsSold và Revenue. Các biến định lượng là các biến: Gender, MaritalStatus, Homeowner, AnnualIncome, City, StateoProvince, Country, ProductFamily, ProductDepartment, ProductCategory. Cụ thể:

  • Gender: Giới tính của khách hàng: F = Female (Phụ nữ), M = Male (Đàn ông).

  • MaritalStatus: Tình trạng hôn nhân: S = Single (độc thân), M = Married (đã kết hôn).

  • Homeowner: Khách hàng có sở hữu nhà không: Y = Yes, N = No.

  • Children: Số con của khách hàng.

  • AnnualIncome: Thu nhập hàng năm của khách hàng.

  • City: Thành phố nơi khách hàng sinh sống.

  • StateorProvince: Bang hoặc tỉnh tương ứng với thành phố.

  • Country: Quốc gia.

  • ProductFamily: Nhóm sản phẩm chính.

  • ProductDepartment: Bộ phận các sản phẩm chi tiết hơn trong từng nhóm.

  • ProductCategory: Danh mục cụ thể của sản phẩm.

  • UnitsSold: Số lượng đơn vị sản phẩm được bán trong một giao dịch với mỗi khách hàng.

  • Revenue: Tổng doanh thu (USD) từ giao dịch với khách hàng.

Ngoài ra các biến X là số thứ tự, PurchaseDate là ngày giao dịch mua hàng tại siêu thị và CustomerID là mã định danh khách hàng.

2.2.Thống kê mô tả

Thống kê mô tả cho các biến định lượng

a <- d[ ,c(7,15,16)]
summary(a)
##     Children      UnitsSold        Revenue     
##  Min.   :0.00   Min.   :1.000   Min.   : 0.53  
##  1st Qu.:1.00   1st Qu.:3.000   1st Qu.: 6.84  
##  Median :3.00   Median :4.000   Median :11.25  
##  Mean   :2.53   Mean   :4.081   Mean   :13.00  
##  3rd Qu.:4.00   3rd Qu.:5.000   3rd Qu.:17.37  
##  Max.   :5.00   Max.   :8.000   Max.   :56.70

Thống kê mô tả cho tập dữ liệu thông qua các biến được biểu hiện như sau:

  • Đối với biến Children

    • Số lượng con cái của khách hàng có phạm vi từ 0 đến 5 con, 50% khách hàng có trên 3 con và 50% số khách hàng có con nhỏ hơn 3.

    • 25% khách hàng có số con ít hơn 1 và 75% khách hàng có số con nhiều hơn 1.

    • Có 75% khách hàng có số con ít hơn 4 và 25% khách hàng có số con nhiều hơn 4.

  • Đối với biến UnitsSold

    • Số sản phẩm được bán cho mỗi khách hàng có phạm vi từ 1 đến 8, với số lượng trung bình là 4,081 sản phẩm.

    • Có 25% khách hàng mua ít hơn 3 sản phẩm và 75% khách hàng mua nhiều hơn 3 sản phẩm.

    • Có 50% khách hàng mua ít hơn 4 sản phẩm và 50% còn lại mua số lượng nhiều hơn 4.

    • Có 75% khách hàng mua ít hơn 5 sản phẩm và 25% khách hàng mua nhiều hơn 5 sản phẩm.

  • Đối với biến Revenue

    • Tổng doanh thu thu được từ việc bán sản phẩm có doanh thu từ 0,53 USD đến 56,7 USD, với doanh thu trung bình là 13 USD.

    • 25% tổng doanh thu nhỏ hơn 6,84 USD và 75% còn lại lớn hơn 6,84 USD.

    • 50% tổng doanh thu nhỏ hơn 13 USD và 50% còn lại lớn hơn.

    • 75% doanh thu nhỏ hơn 17,37 USD và 25% còn lại nhỏ hơn 17,37 USD.

Thống kê mô tả cho các biến định tính

table(d$Gender)
## 
##    F    M 
## 7170 6889

Biến Gender thể hiện giới tính của khách hàng: có 7170 khách hàng là nữ và 6889 khách hàng là nam.

table(d$MaritalStatus)
## 
##    M    S 
## 6866 7193

Biến MaritalStatus thể hiện tình trạng hôn nhân của khách hàng: có 6866 khách hàng đã kết hôn và 7193 người đang độc thân.

table(d$Homeowner)
## 
##    N    Y 
## 5615 8444

Tình trạng khách hàng có nhà hay không được thể hiện qua biến Homeowner, có 5615 khách hàng sở hữu nhà và 8444 người không sở hữu.

table(d$AnnualIncome)
## 
##   $10K - $30K $110K - $130K $130K - $150K       $150K +   $30K - $50K 
##          3090           643           760           273          4601 
##   $50K - $70K   $70K - $90K  $90K - $110K 
##          2370          1709           613

Biến AnnualIncome thể hiện thu nhập hằng năm của khách hàng bao gồm các nhóm: - Nhóm thu nhập từ $10K - $30K gồm 3090 khách hàng, - Nhóm thu nhập từ $30K - $50K gồm 4610 khách hàng, - Nhóm thu nhâp từ $50K - $70K gồm 2370 khách hàng, - Nhóm thu nhập từ $70K - $90K gồm 1709 khách hàng, - Nhóm thu nhập từ $90K - $110K gồm 613 khách hàng, - Nhóm thu nhập từ $110K - $130K gồm 643 khách hàng, - Nhóm thu nhập từ $130K - $150K gồm 760 khách hàng và - Có 273 khách hàng có thu nhập trên $150K.

table(d$City)
## 
##      Acapulco    Bellingham Beverly Hills     Bremerton       Camacho 
##           383           143           811           834           452 
##   Guadalajara       Hidalgo   Los Angeles        Merida   Mexico City 
##            75           845           926           654           194 
##       Orizaba      Portland         Salem    San Andres     San Diego 
##           464           876          1386           621           866 
## San Francisco       Seattle       Spokane        Tacoma     Vancouver 
##           130           922           875          1257           633 
##      Victoria   Walla Walla        Yakima 
##           176           160           376
ggplot(d, aes(x = City)) +
    geom_bar(fill = 'pink') +
    labs(x = 'Thành phố', y = 'Số lượng khách hàng') +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

Biến City thể hiện thành phố khách hàng sinh sống, bao gồm 23 thành phố, trong đó khách hàng chủ yếu đến từ Salem với số lượng khách là 1386 khách hàng. Ngược lại, chỉ có 75 khách hàng đến từ Guadalajara.

table(d$StateorProvince)
## 
##        BC        CA        DF  Guerrero   Jalisco        OR  Veracruz        WA 
##       809      2733       815       383        75      2262       464      4567 
##   Yucatan Zacatecas 
##       654      1297
ggplot(d, aes(x = StateorProvince)) +
    geom_bar(fill = 'blue') +
    labs(x = 'Tỉnh (bang)', y = 'Số lượng khách hàng')

Đây là bảng tần số thể hiện các bang hoặc tỉnh tương ướng với thành phố, nơi khách hàng sinh sống. Số khách hàng đến từ các bang (hoặc tỉnh) được thể hiện như sau: có 809 khách hàng đến từ BC, 2733 khách hàng từ CA, 815 khách hàng từ DF, 383 khách hàng đến từ Guerrero, 75 khách hàng từ Jalisco, 2262 khách hàng từ OR, 464 khách hàng đến từ Veracruz, 4567 khách hàng từ WA, 654 khách hàng từ Yucatan và Zacatecas có 1297 khách hàng.

table(d$Country)
## 
## Canada Mexico    USA 
##    809   3688   9562

Biến Country thể hiện khách hàng đến từ 3 quốc gia khác nhau như 809 khách hàng từ Canada, 3688 khách hàng đến từ Mexico và 9562 khách hàng còn lại đến từ USA.

table(d$ProductFamily)
## 
##          Drink           Food Non-Consumable 
##           1250          10153           2656

Các sản phẩm chính được mua bao gồm: Drink, Food và Non-Consumable, trong đó có 1250 khách hàng mua các sản phẩm đồ uống (Drink), 10153 khách hàng mua đồ ăn (Food) và 2656 khách hàng mua hàng không tiêu dùng (Non-Consumable).

ggplot(d, aes(x = ProductDepartment)) +
    geom_bar(fill = 'purple') +
    labs(x = 'ProductDepartment', y = 'Số lượng khách hàng') +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

Biến ProductDepartment thể hiện chi tiết các bộ phẩn sản phẩm cần mua trong từng nhóm sản phẩm chính, bao gồm: Seafood, Alcoholic Beverages, Household,…ứng với từng khách hàng.

ggplot(d, aes(x = ProductCategory)) +
    geom_bar(fill = 'brown') +
    labs(x = 'ProducCategory', y = 'Số lượng khách hàng') +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

Tương tự ProductDepartment, biến ProductCategory là danh mục cụ thể của các sản phầm mà khách hàng cần mua, ví dụ Vegetables, Jams and Jellies, Baking Goods,…