TÓM TẮT CUỐN SÁCH: 2019_Generalized Linear Models With Examples in R_9781441901170.pdf
MỤC TIÊU: Tài liệu này tóm tắt các chủ đề chính và các ý tưởng quan trọng được trình bày trong các chương đầu tiên và các phần được trích dẫn của cuốn sách “Generalized Linear Models With Examples in R”, tập trung vào các khái niệm về mô hình thống kê, hồi quy tuyến tính và các mô hình tuyến tính tổng quát, cũng như các phương pháp chẩn đoán và ước lượng liên quan.
Các nội dung liên quan đến từng chương:
Chương này giới thiệu khái niệm cơ bản về mô hình thống kê như một cách để mô tả cả các đặc điểm ngẫu nhiên và có hệ thống của dữ liệu. Nó nhấn mạnh tầm quan trọng của việc sử dụng các mô hình để phân tích dữ liệu (“Data analysis: The need for models?” - Reese, 1986).
Dữ liệu được trình bày thông qua các ví dụ (như dữ liệu FEV – dung tích phổi):
Age: tuổi (số)
FEV: dung tích thở ra (lít)
Ht: chiều cao (cm)
Gender: giới tính (F/M)
Smoke: hút thuốc (0/1)
Biến số được chia thành:
Biến liên tục (quantitative) → covariates.
Biến phân loại (qualitative) → factors.
Plotting là bước đầu để hiểu dữ liệu, phát hiện xu hướng và mối quan hệ.
Biến phân loại phải được mã hóa thành số để sử dụng trong mô hình thống kê.
Dùng biến giả (dummy variables):
Hệ thống: mô tả mối quan hệ giữa kỳ vọng các biến giải thích:
\[ \mu_i = \mathbb{E}[y_i] = f(\beta_0 + \beta_1 x_{1i} + \cdots + \beta_p x_{pi}) \]
Hệ số hồi quy \(\beta_j\): thay đổi trung bình của \(y\) khi \(x_j\) tăng 1 đơn vị (giữ các biến khác cố định).
Một ý tưởng quan trọng được trích dẫn từ một nguồn khác (không được cung cấp đầy đủ trong trích đoạn) là các mô hình là sự đơn giản hóa thực tế và do đó không bao giờ hoàn toàn chính xác, nhưng chúng có thể là công cụ có giá trị để hiểu dữ liệu.
Mục đích của một mô hình ảnh hưởng đến cách nó được phát triển. Các mục đích có thể bao gồm mô tả, dự đoán và hiểu mối quan hệ giữa các biến.
Có sự đánh đổi giữa độ chính xác của một mô hình (khả năng phù hợp chặt chẽ với dữ liệu) và sự đơn giản của nó (số lượng tham số). Việc lựa chọn mô hình thường liên quan đến việc cân bằng hai yếu tố này.
Cuốn sách phân biệt giữa thực nghiệm (nơi có thể suy luận nguyên nhân - kết quả) và nghiên cứu quan sát (nơi chỉ có thể thiết lập mối liên hệ)
Kết quả mô hình chỉ áp dụng cho quần thể mà dữ liệu được thu thập từ đó.
Không nên ngoại suy kết quả ngoài phạm vi giá trị đã quan sát.
Mô hình hồi quy tuyến tính là loại phổ biến nhất trong tất cả các mô hình hồi quy.
Đây là một trường hợp đặc biệt của mô hình tuyến tính tổng quát (GLM).
Chương này giới thiệu:
Khái niệm và ký hiệu của mô hình.
Ước lượng bình phương tối thiểu (OLS).
Hồi quy đơn và hồi quy bội.
Diễn giải hệ số hồi quy.
Suy luận thống kê.
Phân tích phương sai (ANOVA).
So sánh mô hình lồng và không lồng.
Chọn mô hình tốt nhất
Định nghĩa: Mô hình hồi quy tuyến tính mô tả mối quan hệ giữa biến phản hồi \(y\) và các biến giải thích \(x_1, x_2, \ldots, x_p\) thông qua một biểu thức tuyến tính, cùng với một giả định về phân phối và phương sai của phần dư.
Biểu diễn mô hình:
\[ y_i = \beta_0 + \beta_1 x_{1i} + \beta_2 x_{2i} + \cdots + \beta_p x_{pi} + \varepsilon_i \]
Với giả định:
\(\varepsilon_i \sim \mathcal{N}(0, \sigma^2)\)
Các phần dư \(\varepsilon_i\) là độc lập và có phương sai không đổi.
Cấu trúc mô hình:
Mô hình gồm 2 thành phần:
1. Ngẫu nhiên (random component):
Phương sai của \(y_i\) được giả định là:
\[ \text{Var}[y_i] = \frac{\sigma^2}{w_i} \]
Trong đó:
\(\sigma^2\) là phương sai chưa biết.
\(w_i\) là trọng số (prior weight), thường là \(1\) với mọi \(i\) trong mô hình hồi quy thông thường.
2. Hệ thống (systematic component):
\[ \mu_i = \mathbb{E}[y_i] = \beta_0 + \sum_{j=1}^{p} \beta_j x_{ji} \]
Các loại mô hình hồi quy đặc biệt:
Simple Linear Regression: \(p = 1\), mô hình chỉ có một biến giải thích.
Ordinary Linear Regression: tất cả các trọng số \(w_i = 1\), tức là phương sai đồng nhất.
Multiple Linear Regression: \(p > 1\), có nhiều biến giải thích trong mô hình.
Normal Linear Regression: giả định phân phối chuẩn cho \(y_i\):
\[ y_i \sim \mathcal{N}\left(\mu_i, \frac{\sigma^2}{w_i}\right) \]
Mục tiêu:
ìm các \(\hat{\beta}_j\) sao cho hàm mục tiêu là tổng bình phương phần dư có trọng số (RSS) được tối thiểu hóa:
\[ RSS = \sum_{i=1}^{n} w_i \left(y_i - \mu_i\right)^2 \]
Trong đó:
Trong hồi quy đơn (p = 1):
Ước lượng hệ số hồi quy được tính như sau:
\[ \hat{\beta}_1 = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum (x_i - \bar{x})^2} \]
\[ \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x} \]
Dạng ma trận của mô hình:
Mô hình hồi quy tuyến tính có thể được viết dưới dạng ma trận:
\[ y = X\beta + \varepsilon \]
Trong đó:
Ước lượng OLS:
\[ \hat{\beta} = (X^T W X)^{-1} X^T W y \]
Phần dư và phương sai ước lượng:
Giá trị dự đoán (fitted values):
\[ \hat{\mu}_i = \hat{y}_i = \hat{\beta}_0 + \sum_{j=1}^{p} \hat{\beta}_j x_{ji} \]
Ước lượng phương sai phần dư:
\[ s^2 = \frac{RSS}{n - p'} \]
Sai số chuẩn của \(\hat{\beta}_j\):
\[ SE(\hat{\beta}_j) = \sqrt{s^{2} \cdot \bigl( X^{T} X \bigr)^{-1}_{jj}} \]
Khoảng tin cậy cho \(\hat{\beta}_j\):
\[ \hat{\beta}_j \pm t_{\alpha/2, \, n - p} \times SE(\hat{\beta}_j) \]
Mô hình hóa: model <- lm(y ~ x1 + x2, data = dataset)
Kết quả mô hình:
summary(model)
confint(model)
anova(model)
\(\beta_0\): giá trị trung bình của \(y\) khi tất cả các biến \(x_j = 0\).
\(\beta_j\): mức thay đổi kỳ vọng của \(y\) khi \(x_j\) tăng 1 đơn vị, giữ các biến khác không đổi.
Giả sử kiểm định với
\[ H_0: \beta_j = 0 \]
và thống kê kiểm định
\[ t = \frac{\hat{\beta}_j}{SE(\hat{\beta}_j)} \sim t_{n-p} \]
Trong đó:
\(\hat{\beta}_j\) là hệ số ước lượng của biến \(j\),
\(SE(\hat{\beta}_j)\) là sai số chuẩn của \(\hat{\beta}_j\),
\(t_{n-p}\) là phân phối t với \(n-p\) bậc tự do.
Giá trị tổng phương sai \(TSS\) được tính theo công thức:
\[ TSS = \sum_{i=1}^{n} (y_i - \bar{y})^2 \]
Tổng phương sai được phân tích thành hai phần:
\[ TSS = SSR + RSS \]
Trong đó:
\[ SSR = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2 \]
\[ RSS = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 \]
Hệ số xác định \(R^2\) được định nghĩa là:
\[ R^2 = \frac{SSR}{TSS} = 1 - \frac{RSS}{TSS} \]
Định nghĩa: Hai mô hình được gọi là lồng nhau (nested models) khi mô hình đơn giản hơn (reduced model) là một trường hợp đặc biệt của mô hình phức tạp hơn (full model), tức là nó được tạo ra bằng cách loại bỏ một hay nhiều biến khỏi mô hình đầy đủ.
Kiểm định F:
\[ F = \frac{(RSS_{\text{reduced}} - RSS_{\text{full}}) / (p_{\text{full}} - p_{\text{reduced}})}{s^2_{\text{full}}} \]
Trong đó:
\(RSS_{\text{reduced}}\) là tổng bình phương phần dư của mô hình rút gọn,
\(RSS_{\text{full}}\) là tổng bình phương phần dư của mô hình đầy đủ,
\(p_{\text{full}}\) và \(p_{\text{reduced}}\) lần lượt là số tham số của mô hình đầy đủ và mô hình rút gọn,
\(s^2_{\text{full}}\) là ước lượng phương sai phần dư của mô hình đầy đủ, được tính bằng:
\[ s^2_{\text{full}} = \frac{RSS_{\text{full}}}{n - p_{\text{full}}} \]
với \(n\) là số quan sát.
Định nghĩa: Hai mô hình được gọi là không lồng (non-nested) nếu không có mô hình nào là một trường hợp đặc biệt (submodel) của mô hình còn lại.
AIC (Akaike Information Criterion) là chỉ số dùng để đánh giá độ phù hợp của mô hình, đồng thời phạt mức độ phức tạp của mô hình:
\[ AIC = -2 \cdot \ell(\hat{\theta}) + 2k \]
trong đó:
\(\ell(\hat{\theta})\) là log-likelihood tại ước lượng MLE \(\hat{\theta}\),
\(k\) là số tham số trong mô hình (bao gồm cả hệ số hằng số \(\beta_0\)).
BIC (Bayesian Information Criterion) tương tự AIC nhưng mức phạt độ phức tạp mạnh hơn, được tính bằng:
\[ BIC = -2 \cdot \ell(\hat{\theta}) + \log(n) \cdot k \]
trong đó:
\(n\) là kích thước mẫu,
\(k\) và \(\ell(\hat{\theta})\) như trên.
Nguyên tắc chọn mô hình:
AIC/BIC càng nhỏ càng tốt.
Nếu AIC của mô hình A < mô hình B khoảng 2 điểm trở lên, mô hình A được ưu tiên hơn đáng kể.
Định nghĩa:Lựa chọn mô hình là quá trình tìm ra tập hợp biến giải thích tốt nhất (phù hợp, đơn giản) để mô hình hóa biến phản hồi.
Có nhiều chiến lược lựa chọn mô hình:
Forward selection: bắt đầu từ mô hình rỗng, thêm biến từng bước.
Backward elimination: bắt đầu từ mô hình đầy đủ, loại bỏ từng biến.
Stepwise selection: kết hợp cả thêm và bớt biến ở mỗi bước.
Một số hàm sử dụng:
step(): chọn mô hình theo hướng forward/backward/stepwise.
drop1(), add1(): thêm hoặc bớt biến với kiểm định F.
extractAIC(): trả về AIC và số tham số.
Sau khi xây dựng một mô hình hồi quy tuyến tính, công việc không kết thúc ở việc ước lượng các hệ số hồi quy và kiểm định ý nghĩa thống kê. Một bước quan trọng không thể thiếu là chẩn đoán mô hình – tức là đánh giá xem mô hình đã được xây dựng có thực sự phù hợp với dữ liệu hay không.
Chẩn đoán mô hình hồi quy là một phần thiết yếu trong phân tích dữ liệu vì nó giúp ta:
Xác minh các giả định cơ bản của mô hình hồi quy tuyến tính có được thỏa mãn hay không (ví dụ như quan hệ tuyến tính, phương sai không đổi, phân phối chuẩn…).
Phát hiện những quan sát bất thường như điểm ngoại lai (outliers) hoặc điểm có ảnh hưởng lớn (influential observations) – những điểm có thể bóp méo kết quả ước lượng hoặc kiểm định.
Đánh giá độ tin cậy của các hệ số ước lượng.
Đề xuất cách cải thiện mô hình, ví dụ: biến đổi biến, thêm hoặc bớt biến giải thích, sử dụng mô hình phi tuyến hoặc tổng quát (GLM) thay thế.
Nếu bỏ qua bước này, người phân tích dễ rơi vào bẫy của việc “phù hợp quá mức” (overfitting), hiểu sai mối quan hệ giữa các biến, hoặc dự đoán sai lệch trong thực tế. Do đó, chẩn đoán mô hình không phải là tùy chọn – mà là một phần bắt buộc trong phân tích hồi quy nghiêm túc.
Trong chương này, chúng ta sẽ học cách:
Kiểm tra các giả định của mô hình hồi quy.
Sử dụng phần dư (residuals) để kiểm tra độ phù hợp.
Phát hiện và xử lý các điểm ảnh hưởng lớn.
Đo lường hiện tượng đa cộng tuyến và cách giảm thiểu.
Một mô hình hồi quy tuyến tính tiêu chuẩn đòi hỏi phải thỏa mãn 4 giả định cơ bản:
1. Giả định 1: Quan hệ tuyến tính
Mô hình giả định rằng trung bình của biến phản hồi \(y\) là hàm tuyến tính của các biến giải thích \(x_1, x_2, \ldots, x_p\).
Nếu quan hệ thật sự là phi tuyến mà ta vẫn dùng mô hình tuyến tính, kết quả ước lượng có thể bị thiên lệch và dự đoán sai.
\(\Rightarrow\) Cách kiểm tra: vẽ biểu đồ phần dư so với giá trị dự đoán, nếu thấy xu hướng cong (parabola, S-shape…) thì có thể là mô hình sai dạng.
2. Giả định 2: Phương sai không đổi (Homoscedasticity)
\[ \text{Var}(y_i) = \sigma^2 \]
\(\Rightarrow\) Cách kiểm tra: vẽ đồ thị phần dư. Nếu phần dư có dạng hình nón (rộng dần hoặc hẹp lại) thì có thể bị heteroscedasticity.
3. Giả định 3: Độc lập
Các quan sát \((x_i, y_i)\) phải độc lập nhau.
Nếu dữ liệu có tính chuỗi thời gian, dữ liệu lồng ghép (nested data) hoặc phân nhóm (clustered), thì mô hình tuyến tính cơ bản không còn phù hợp.
\(\Rightarrow\) Cách kiểm tra: nếu dữ liệu theo thời gian, nên kiểm tra phần dư có xu hướng (autocorrelation) hay không.
4. Giả định 4: Phân phối chuẩn của sai số
\(\Rightarrow\) Cách kiểm tra: dùng biểu đồ Q-Q plot (quantile-quantile) để so sánh phần dư với phân phối chuẩn.
Phần dư là công cụ trung tâm để chẩn đoán mô hình. Có nhiều cách tính phần dư:
1. Raw residual (Phần dư thô):
\[ e_i = y_i - \hat{y}_i \] Đơn giản là hiệu giữa giá trị thực tế và giá trị dự đoán.
2. Standardized residual (Phần dư chuẩn hóa):
\[ r_i = \frac{e_i}{\hat{\sigma} \sqrt{1 - h_{ii}}} \]
Giúp so sánh phần dư giữa các điểm có leverage khác nhau.
\(h_{ii}\): leverage – mức ảnh hưởng của điểm \(i\) lên dự đoán \(\hat{y}_i\).
3. Studentized residual:
\[ t_i = \frac{e_i}{\hat{\sigma}_{(i)} \sqrt{1 - h_{ii}}} \]
Giống standardized residual nhưng dùng \(\hat{\sigma}_{(i)}\) – phương sai ước lượng không dùng quan sát \(i\) \(\rightarrow\) chính xác hơn.
Dùng để phát hiện ngoại lai vì nó gần với phân phối t.
Một số biểu đồ quan trọng:
Residual vs Fitted Plot: kiểm tra tuyến tính và phương sai không đổi.
Normal Q-Q Plot: kiểm tra phân phối chuẩn của phần dư.
Scale-Location Plot: chuẩn hóa phần dư để dễ phát hiện heteroscedasticity.
Residuals vs Leverage Plot: xác định điểm ảnh hưởng lớn.
Định nghĩa: Là các điểm dữ liệu mà giá trị phản hồi \(y_i\) khác biệt lớn so với dự đoán từ mô hình, dù biến \(x_i\) không bất thường.
Dùng studentized residual để kiểm tra.
Quy tắc ngưỡng:
\(|t_i| > 2\): nghi ngờ.
\(|t_i| > 3\): có thể là ngoại lai đáng kể.
\(\Rightarrow\) Ngoại lai không nhất thiết có ảnh hưởng lớn, nhưng cần kiểm tra kỹ.
Định nghĩa: Là những điểm dữ liệu mà nếu bị loại bỏ, mô hình sẽ thay đổi đáng kể.
Các chỉ số phổ biến để đo ảnh hưởng:
1. Leverage (Hệ số đòn bẩy):
\[ h_{ii} = x_i^T (X^T X)^{-1} x_i \]
Đo khoảng cách của \(x_i\) đến trung tâm của các điểm \(x\).
Nếu \(h_{ii} > \frac{2p}{n}\): điểm có leverage cao.
2. Cook’s Distance (Khoảng cách Cook):
\[ D_i = \frac{p \hat{\sigma}^2 e_i^2}{(1 - h_{ii})^2 h_{ii}} \]
Kết hợp giữa độ lệch (residual) và leverage.
Nếu \(D_i > 0.5\): có thể có ảnh hưởng.
Nếu \(D_i > 1\): ảnh hưởng lớn cần xem xét kỹ.
3. DFBETAS:
\[ \text{DFBETAS}_{ij} = \frac{\hat{\beta}_j - \hat{\beta}_{j(i)}}{\text{SE}(\hat{\beta}_{j(i)})} \]
Mức thay đổi của hệ số \(\beta_j\) khi loại bỏ quan sát \(i\).
Dùng để kiểm tra ảnh hưởng của từng điểm lên từng hệ số cụ thể.
Định nghĩa: Xảy ra khi hai hay nhiều biến giải thích có tương quan cao, khiến cho ước lượng \(\beta_j\) không ổn định (nhỏ thay đổi dữ liệu \(\rightarrow\) lớn thay đổi hệ số).
Variance Inflation Factor (VIF):
\[ \mathrm{VIF}_j = \frac{1}{1 - R_j^2} \]
\(R_j^2\) : hệ số xác định khi hồi quy \(x_j\) lên tất cả các biến còn lại.
Nếu \(\mathrm{VIF}_j > 5\) hoặc \(> 10\): có vấn đề cần xử lý.
Khi mô hình vi phạm giả định:
Dùng biến đổi (log, sqrt, Box-Cox…).
Dùng mô hình phi tuyến hoặc mô hình GLM.
Loại bỏ hoặc thay thế điểm ảnh hưởng quá lớn.
Thêm biến bị thiếu hoặc loại bớt biến gây nhiễu.
Phương pháp bình phương tối thiểu (OLS) chỉ hoạt động hiệu quả khi dữ liệu thỏa mãn các giả định như phân phối chuẩn, phương sai không đổi, và biến phản hồi liên tục. Tuy nhiên, nhiều loại dữ liệu thực tế không tuân theo những điều kiện đó – ví dụ: dữ liệu nhị phân, đếm, hoặc dương liên tục. Khi đó, Maximum Likelihood Estimation (MLE) là phương pháp mạnh mẽ hơn, dùng để ước lượng các tham số trong mô hình tổng quát.
MLE là nền tảng cho mô hình tuyến tính tổng quát (GLM), vốn là trung tâm của phần còn lại trong sách.
Định nghĩa: Hàm hợp lý là một hàm xác suất của toàn bộ dữ liệu đã quan sát, biểu diễn như một hàm của tham số \(\theta\).
Giả sử ta có một mẫu gồm \(n\) quan sát độc lập \(y_1, y_2, \ldots, y_n\), với mỗi \(y_i\) có phân phối xác suất \(f(y_i; \theta)\), thì:
Hàm hợp lý:
\[ L(\theta) = \prod_{i=1}^{n} f(y_i; \theta) \]
\(L(\theta)\): hàm hợp lý
\(\theta\): vector các tham số cần ước lượng
\(f(y_i; \theta)\): mật độ xác suất (hoặc khối xác suất) của \(y_i\)
Log-hợp lý (log-likelihood):
\[ \ell(\theta) = \log L(\theta) = \sum_{i=1}^{n} \log f(y_i; \theta) \]
Dễ đạo hàm hơn vì tích thành tổng.
Giá trị cực đại của \(\ell(\theta)\) trùng với \(L(\theta)\).
Định nghĩa: MLE là giá trị \(\hat{\theta}\) của tham số \(\theta\) sao cho log-likelihood đạt cực đại.
\[ \hat{\theta} = \arg\max_{\theta} \, \ell(\theta) \] Để tìm \(\hat{\theta}\), ta giải:
\[ \frac{d\ell(\theta)}{d\theta} = 0 \]
\(\Rightarrow\) Đây gọi là phương trình điểm (score equation).
1. Hàm điểm (Score Function):
\[ U(\theta) = \frac{d\ell(\theta)}{d\theta} \]
2. Ma trận thông tin Fisher:
\[ I(\theta) = -\mathbb{E} \left[ \frac{d^2 \ell(\theta)}{d\theta^2} \right] \]
\(I(\theta)\): kỳ vọng âm của đạo hàm bậc hai log-likelihood → đo độ cong.
Là xấp xỉ ngược lại của phương sai: \[ \mathrm{Var}(\hat{\theta}) \approx \frac{1}{I(\theta)} \]
MLE có nhiều tính chất tốt về mặt lý thuyết, đặc biệt khi kích thước mẫu n lớn:
Tính chất | Giải thích |
---|---|
Nhất quán | \(\hat{\theta} \to \theta\) khi \(n \to \infty\) |
Không chệch tiệm cận | Độ lệch giữa \(\hat{\theta}\) và \(\theta\) tiến về 0 |
Hiệu quả | MLE đạt giới hạn Cramér–Rao, là ước lượng “tốt nhất” |
Tiệm cận chuẩn | Khi \(n\) lớn, phân phối của \(\hat{\theta}\) gần chuẩn: \(\hat{\theta} \sim \mathcal{N}(\theta, I(\theta)^{-1})\) |
Muốn kiểm tra giả thuyết:
\[ H_0: \theta = \theta_0 \]
ta có ba cách phổ biến:
1. Wald Test:
\[ Z = \frac{\hat{\theta} - \theta_0}{SE(\hat{\theta})}, \quad Z \sim N(0,1) \]
2. Likelihood Ratio Test (LRT):
\[ LR = 2 \left[ \ell(\hat{\theta}) - \ell(\theta_0) \right] \sim \chi^2_{df} \]
So sánh log-likelihood của mô hình đầy đủ và mô hình rút gọn.
\(df\): số tham số bị ràng buộc trong \(H_0\).
3. Score Test (Lagrange Multiplier Test):
\[ S = \frac{U(\theta_0)^2}{I(\theta_0)} \sim \chi^2_1 \]
Không cần ước lượng mô hình đầy đủ.
Khi không thể dùng kiểm định LRT (do mô hình không lồng), ta dùng:
1. AIC – Akaike Information Criterion:
\[ \text{AIC} = -2\ell + 2k \]
\(k\): số tham số trong mô hình
\(\ell\): log-likelihood tại MLE
2. BIC – Bayesian Information Criterion:
\[ \text{BIC} = -2\ell + \log(n) \cdot k \]
→ Chọn mô hình có AIC/BIC thấp hơn.
Hồi quy logistic (nhị phân):
\[ y_i \sim \text{Bernoulli}(\pi_i), \quad \log\left(\frac{\pi_i}{1 - \pi_i}\right) = x_i^T \beta \]
Hồi quy Poisson (đếm):
\[ y_i \sim \text{Poisson}(\mu_i), \quad \log(\mu_i) = x_i^T \beta \]
Hồi quy Gamma (dương liên tục):
\[ y_i \sim \text{Gamma}(\alpha, \mu_i), \quad \log(\mu_i) = x_i^T \beta \]
→ Cả ba đều dùng MLE để ước lượng \(\beta\), chứ không dùng OLS.
Mô hình tuyến tính tổng quát (GLM) là một khuôn khổ mạnh mẽ cho việc mô hình hóa các loại dữ liệu khác nhau – không chỉ dữ liệu liên tục có phân phối chuẩn như trong hồi quy tuyến tính. GLM bao gồm hồi quy logistic, hồi quy Poisson, hồi quy Gamma… và mở rộng khả năng phân tích đến dữ liệu nhị phân, đếm, tỷ lệ và dương liên tục.
Mỗi GLM được xây dựng trên cùng một nguyên lý chung gồm ba thành phần chính: phân phối xác suất, hàm liên kết, và thành phần tuyến tính.
1. Thành phần ngẫu nhiên (Random component)
Biến phản hồi \(y_i\) được giả định phân phối theo một phân phối thuộc họ hàm mũ một tham số (One-Parameter Exponential Family):
\[ f(y_i; \theta_i, \phi) = \exp \left\{ \frac{y_i \theta_i - b(\theta_i)}{\phi} + c(y_i, \phi) \right\} \]
Ý nghĩa các ký hiệu:
→ Họ hàm mũ bao gồm Normal, Poisson, Binomial, Gamma,…
2. Thành phần hệ thống (Systematic component)
Giống như hồi quy tuyến tính, GLM vẫn dùng một predictor tuyến tính:
\[ \eta_i = x_i^T \beta = \beta_0 + \beta_1 x_{i1} + \cdots + \beta_p x_{ip} \]
Ý nghĩa:
Đây là thành phần chứa ảnh hưởng của các biến độc lập lên mô hình.
3. Hàm liên kết (Link function)
GLM dùng một hàm liên kết \(g(\cdot)\) để kết nối trung bình \(\mu_i = E[y_i]\) với predictor tuyến tính \(\eta_i\):
\[ g(\mu_i) = \eta_i \quad \text{hay} \quad \mu_i = g^{-1}(\eta_i) \]
→ Cho phép mô hình hóa các biến phản hồi có đặc tính phi tuyến, không âm, giới hạn trong khoảng (0,1),…
Hàm liên kết thường dùng:
Phân phối | \(\mu_i = E[y_i]\) | Link function \(g(\mu)\) | Ghi chú |
---|---|---|---|
Normal | \(\mu \in \mathbb{R}\) | \(g(\mu) = \mu\) (identity) | Hồi quy tuyến tính chuẩn |
Binomial | \(\mu \in (0,1)\) | \(g(\mu) = \log \frac{\mu}{1-\mu}\) | Logistic regression |
Poisson | \(\mu > 0\) | \(g(\mu) = \log(\mu)\) | Hồi quy đếm |
Gamma | \(\mu > 0\) | \(g(\mu) = \log(\mu)\) hoặc \(g(\mu) = \frac{1}{\mu}\) | Mô hình dữ liệu dương |
1. Hồi quy Logistic (nhị phân)
\[ y_i \sim \text{Bernoulli}(\pi_i) \]
\[ g(\pi_i) = \log \left(\frac{\pi_i}{1-\pi_i}\right) = \eta_i \]
\[ \pi_i = P(y_i = 1 \mid x_i) \]
2. Hồi quy Poisson (đếm)
\[ y_i \sim \text{Poisson}(\mu_i) \]
\[ \log(\mu_i) = x_i^T \beta \]
\(\mu_i\): số sự kiện kỳ vọng xảy ra.
Dùng cho dữ liệu: số ca bệnh, số lần vi phạm, số giao dịch…
3. Hồi quy Gamma (dương liên tục)
\[ y_i \sim \text{Gamma}(\alpha, \mu_i) \]
Hàm liên kết:
\[ g(\mu_i) = \log(\mu_i) \quad \text{hoặc} \quad g(\mu_i) = \frac{1}{\mu_i} \]
Trong GLM, phương sai của \(y_i\) không cần bằng nhau mà được mô hình hóa như hàm của \(\mu_i\):
\[ \text{Var}(y_i) = \phi \cdot V(\mu_i) \]
Trong đó:
Hàm \(V(\mu)\) tùy theo phân phối như sau:
Phân phối | \(V(\mu)\) |
---|---|
Normal | 1 |
Binomial | \(\mu (1 - \mu)\) |
Poisson | \(\mu\) |
Gamma | \(\mu^2\) |
Việc mô hình hóa phương sai như trên giúp xử lý được hiện tượng phương sai thay đổi (heteroscedasticity), vốn là một giả định bị vi phạm trong phương pháp OLS (Hồi quy tuyến tính thông thường).
Canonical Link Function là hàm liên kết sao cho predictor tuyến tính chính là tham số tự nhiên \(\theta\) trong phân phối họ hàm mũ:
\[ \theta_i = \eta_i = x_i^T \beta \]
Ví dụ về hàm liên kết chuẩn (canonical link):
Phân phối | Hàm liên kết (Link function) |
---|---|
Binomial | logit: \(\log\frac{\mu}{1-\mu}\) |
Poisson | log: \(\log(\mu)\) |
Normal | identity: \(\mu\) |
Lưu ý: Dù GLM gọi là “tuyến tính”, nhưng mối quan hệ giữa \(y\) và \(x\) có thể phi tuyến do sử dụng hàm liên kết (link function).
Sau khi xác định được cấu trúc của một GLM (gồm phân phối xác suất, hàm liên kết và thành phần tuyến tính), bước tiếp theo là ước lượng các hệ số hồi quy \(\beta\) trong mô hình.
Khác với hồi quy tuyến tính cổ điển – nơi ta dùng phương pháp bình phương tối thiểu (OLS) – trong GLM, các hệ số được ước lượng bằng phương pháp hợp lý tối đa (Maximum Likelihood Estimation - MLE) thông qua một thuật toán gọi là Iteratively Reweighted Least Squares (IRLS).
Phương pháp IRLS thực hiện việc cập nhật các ước lượng \(\beta\) lặp đi lặp lại, mỗi lần dựa trên trọng số được điều chỉnh sao cho phù hợp với phân phối của dữ liệu và hàm liên kết được chọn.
Cho dữ liệu gồm:
Biến phản hồi: \(y_1, y_2, \ldots, y_n\) có thể là biến đếm, nhị phân hoặc liên tục dương…
Biến giải thích: \(x_{i1}, \ldots, x_{ip}\) với \(i=1, \ldots, n\).
Mô hình GLM được biểu diễn như sau:
\[ g(\mu_i) = \eta_i = \mathbf{x}_i^T \boldsymbol{\beta} \]
với
\[ \mu_i = E[y_i] = g^{-1}(\mathbf{x}_i^T \boldsymbol{\beta}) \]
Mục tiêu là tìm ước lượng \(\hat{\boldsymbol{\beta}}\) sao cho hàm log-likelihood đạt cực đại:
\[ \ell(\boldsymbol{\beta}) = \sum_{i=1}^n \log f(y_i; \theta_i) \]
trong đó:
\(f(y_i; \theta_i)\) là hàm mật độ xác suất (hoặc hàm khối xác suất) của biến \(y_i\),
\(\theta_i\) là tham số tự nhiên trong phân phối thuộc họ hàm mũ,
\(\theta_i\) có quan hệ với \(\mu_i\), từ đó liên hệ với \(\boldsymbol{\beta}\).
Việc ước lượng này thường được thực hiện bằng phương pháp hợp lý tối đa (MLE), sử dụng thuật toán Iteratively Reweighted Least Squares (IRLS).
1. Thuật toán IRLS (Iteratively Reweighted Least Squares):
GLM sử dụng thuật toán IRLS để tìm ước lượng \(\hat{\boldsymbol{\beta}}\). Thuật toán dựa trên việc lặp lại các bước hồi quy tuyến tính có trọng số.
2. Ý tưởng cơ bản:
Ở mỗi vòng lặp, mô hình GLM được xấp xỉ bằng một hồi quy tuyến tính với trọng số.
Biến giả (working response) \(\mathbf{z}\) và ma trận trọng số \(\mathbf{W}\) được cập nhật liên tục ở mỗi bước.
3. Hệ phương trình IRLS:
\[ \mathbf{X}^T \mathbf{W} \mathbf{X} \hat{\boldsymbol{\beta}} = \mathbf{X}^T \mathbf{W} \mathbf{z} \]
Trong đó:
\(\mathbf{X}\) là ma trận thiết kế,
\(\mathbf{W}\) là ma trận trọng số kích thước \(n \times n\),
\(\mathbf{z}\) là vector biến giả \(n \times 1\), tính theo công thức:
\[ z_i = \eta_i + \frac{y_i - \mu_i}{\frac{d \mu_i}{d \eta_i}} \]
\[ W_i = \left(\frac{d \mu_i}{d \eta_i}\right)^2 \Big/ \mathrm{Var}(y_i) \]
Quá trình này được lặp lại cho đến khi các ước lượng \(\boldsymbol{\beta}\) hội tụ.
Hàm điểm (Score Function)
Hàm điểm là đạo hàm của log-likelihood theo vector hệ số \(\boldsymbol{\beta}\):
\[ U(\boldsymbol{\beta}) = \frac{\partial \ell(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}} \]
Đây là hệ phương trình mà khi giải \(U(\boldsymbol{\beta}) = 0\), ta thu được ước lượng cực đại \(\hat{\boldsymbol{\beta}}\).
Ma trận thông tin Fisher
Ma trận thông tin Fisher là kỳ vọng âm của đạo hàm bậc hai của log-likelihood:
\[ \mathcal{I}(\boldsymbol{\beta}) = - \mathbb{E} \left[ \frac{\partial^2 \ell(\boldsymbol{\beta})}{\partial \boldsymbol{\beta} \, \partial \boldsymbol{\beta}^T} \right] \]
Ma trận này đóng vai trò như một thước đo độ “sắc nét” của log-likelihood tại điểm cực đại và được dùng để đánh giá độ chính xác của ước lượng.
Phương sai của \(\hat{\boldsymbol{\beta}}\)
Khi đã có ma trận thông tin Fisher, phương sai hiệp phương sai của vector hệ số ước lượng được tính là:
\[ \mathrm{Var}(\hat{\boldsymbol{\beta}}) = \mathcal{I}(\hat{\boldsymbol{\beta}})^{-1} \]
Nếu sử dụng thuật toán IRLS, ma trận thông tin Fisher được xấp xỉ bởi:
\[ \mathrm{Var}(\hat{\boldsymbol{\beta}}) = (\mathbf{X}^T \mathbf{W} \mathbf{X})^{-1} \]
Trong đó:
\(\mathbf{X}\): ma trận thiết kế,
\(\mathbf{W}\): ma trận trọng số tại nghiệm hội tụ,
Công thức này xuất hiện tự nhiên từ bước giải hệ phương trình IRLS.
Ghi chú
Công thức phương sai trên rất quan trọng để tính khoảng tin cậy và kiểm định giả thuyết trong GLM.
Với các mô hình lớn, ma trận \((\mathbf{X}^T \mathbf{W} \mathbf{X})^{-1}\) thường được tính thông qua giải hệ phương trình thay vì đảo trực tiếp để tránh sai số số học.
Sai số chuẩn (Standard Error)
Sau khi có được ước lượng \(\hat{\boldsymbol{\beta}}\) và ma trận phương sai hiệp phương sai \(\mathrm{Var}(\hat{\boldsymbol{\beta}})\), ta tính sai số chuẩn cho từng hệ số \(\hat{\beta}_j\) như sau:
\[ \mathrm{SE}(\hat{\beta}_j) = \sqrt{[\mathrm{Var}(\hat{\boldsymbol{\beta}})]_{jj}} \]
Trong đó, \([\cdot]_{jj}\) là phần tử hàng \(j\), cột \(j\) trong ma trận phương sai.
Khoảng tin cậy \(100(1 - \alpha)\%\)
Khoảng tin cậy cho hệ số \(\hat{\beta}_j\) được tính bằng công thức:
\[ \hat{\beta}_j \pm z_{\alpha/2} \cdot \mathrm{SE}(\hat{\beta}_j) \]
Trong đó:
\(z_{\alpha/2}\) là bách phân vị \(1 - \alpha/2\) của phân phối chuẩn chuẩn hóa (thường tra từ bảng Z),
Ví dụ: với \(\alpha = 0.05\), \(z_{0.025} \approx 1.96\) (tương ứng khoảng tin cậy 95%).
Kiểm định Wald
Kiểm định Wald giúp đánh giá giả thuyết:
\[ H_0: \beta_j = 0 \quad \text{vs} \quad H_1: \beta_j \neq 0 \]
Thống kê kiểm định:
\[ Z = \frac{\hat{\beta}_j}{\mathrm{SE}(\hat{\beta}_j)} \sim \mathcal{N}(0, 1) \]
Dựa vào giá trị \(Z\), ta có thể tính p-value và đưa ra kết luận thống kê.
Ghi chú
Kiểm định Wald được dùng phổ biến do tính đơn giản và có thể thực hiện ngay sau khi có ước lượng và phương sai.
Nếu \(|Z| > z_{\alpha/2}\), bác bỏ \(H_0\), tức là hệ số \(\beta_j\) có ý nghĩa thống kê.
Trong một số mô hình GLM, đặc biệt là khi phân phối thuộc họ phân phối mũ (exponential family) không chuẩn hóa, ta cần ước lượng tham số phân tán \(\phi\).
Công thức ước lượng:
\[ \hat{\phi} = \frac{1}{n - p} \sum_{i=1}^{n} \frac{(y_i - \hat{\mu}_i)^2}{V(\hat{\mu}_i)} \]
Trong đó:
\(n\): số quan sát
\(p\): số tham số trong mô hình (bao gồm hệ số chặn nếu có)
\(\hat{\mu}_i = \mathbb{E}[y_i] = g^{-1}(\eta_i)\): giá trị kỳ vọng được ước lượng
\(V(\hat{\mu}_i)\): hàm phương sai, phụ thuộc vào phân phối:
Phân phối | Hàm phương sai \(V(\mu)\) |
---|---|
Gaussian | \(1\) |
Poisson | \(\mu\) |
Binomial (logit) | \(\mu(1 - \mu)\) |
Sau khi ước lượng các tham số \(\beta\) trong GLM, bước tiếp theo là đánh giá xem mô hình có phù hợp với dữ liệu không, và nếu có nhiều mô hình cạnh tranh, thì nên chọn mô hình nào là tốt nhất.
Các công cụ đánh giá bao gồm:
Deviance (độ lệch)
Kiểm định \(\chi^2\)
AIC, BIC
So sánh mô hình lồng và không lồng
Đồ thị phần dư và điểm ảnh hưởng
Định nghĩa:
Deviance là đại lượng đo sự khác biệt giữa mô hình hiện tại và mô hình đầy đủ (saturated model) – tức mô hình khớp hoàn toàn với dữ liệu.
\[ D(y; \hat{\mu}) = 2 \left[ \ell(y; y) - \ell(\hat{\mu}; y) \right] \]
Giải thích ký hiệu:
\(\ell(y; y)\): log-likelihood của mô hình bão hòa (saturated model)
\(\ell(\hat{\mu}; y)\): log-likelihood của mô hình đang xét
\(\Rightarrow\) Deviance càng nhỏ → mô hình càng gần với mô hình bão hòa → phù hợp hơn.
Khi hai mô hình lồng nhau, ta có thể so sánh bằng kiểm định sai biệt deviance:
Công thức kiểm định:
\[ \Delta D = D_{\text{reduced}} - D_{\text{full}} \sim \chi^2_{df} \]
Trong đó:
\(\Rightarrow\) Nếu \(\Delta D\) lớn và p-value nhỏ → mô hình đầy đủ tốt hơn.
Khi các mô hình không lồng nhau, ta dùng tiêu chí thông tin để so sánh:
AIC (Akaike Information Criterion):
\[ AIC = -2\ell + 2k \]
\(\ell\): log-likelihood
\(k\): số tham số trong mô hình
BIC (Bayesian Information Criterion):
\[ BIC = -2\ell + \log(n) \cdot k \]
\(\Rightarrow\) Chọn mô hình có AIC/BIC thấp hơn.
\(\Rightarrow\) BIC phạt các mô hình phức tạp nhiều hơn so với AIC.
Phần dư (residuals):
\[ e_i = y_i - \hat{\mu}_i \]
\[ r_i = \frac{y_i - \hat{\mu}_i}{\sqrt{V(\hat{\mu}_i)}} \]
\[ d_i = \text{sign}(y_i - \hat{\mu}_i) \cdot \sqrt{2\left[\ell(y_i; y_i) - \ell(\hat{\mu}_i; y_i)\right]} \]
Biểu đồ kiểm tra mô hình (Diagnostic plots):
Residuals vs Fitted
Normal Q-Q (nếu mô hình gần phân phối chuẩn)
Scale-Location plot
Cook’s distance vs Leverage
Các biểu đồ này giúp phát hiện điểm ngoại lai và điểm ảnh hưởng mạnh đến mô hình.
Phép kiểm định Pearson đo sự khác biệt giữa dữ liệu quan sát và giá trị kỳ vọng từ mô hình:
\[ X^2 = \sum_{i=1}^n \frac{(y_i - \hat{\mu}_i)^2}{V(\hat{\mu}_i)} \]
Nếu \(X^2\) lớn hơn mức kỳ vọng theo phân phối \(\chi^2_{df}\) → mô hình có thể không phù hợp với dữ liệu.
Một số mô hình GLM như Poisson hoặc Binomial giả định hệ số phân tán là:
\[ \phi = 1 \]
Tuy nhiên, trong thực tế, nếu phương sai quan sát lớn hơn phương sai lý thuyết, ta gọi là overdispersion (quá phân tán).
Kiểm tra overdispersion:
Hệ số phân tán ước lượng được tính theo công thức:
\[ \hat{\phi} = \frac{\text{Deviance}}{n - p} \]
\(n\): số quan sát
\(p\): số tham số trong mô hình
\(\Rightarrow\) Nếu:
\[ \hat{\phi} > 1.5 \]
→ Mô hình có thể bị overdispersed (quá phân tán)
\(\Rightarrow\) Trong trường hợp này, cần điều chỉnh mô hình, ví dụ:
Sử dụng quasi-Poisson
Hoặc Negative Binomial
Hồi quy logistic là một trong những mô hình phổ biến nhất thuộc họ GLM, được dùng để mô hình hóa dữ liệu nhị phân (binary), tức khi biến phản hồi
\[ y \in \{0,1\} \]
Ví dụ: bệnh/không bệnh, mua/không mua, đạt/không đạt.
Đặc điểm:
\[
\mu_i = E[y_i] = P(y_i=1) \in (0,1)
\]
Sử dụng hàm liên kết logit:
\[
g(\mu_i) = \log\left(\frac{\mu_i}{1-\mu_i}\right) = \eta_i = x_i^T \beta
\]
Biến phản hồi
\[
y_i \in \{0,1\}
\]
phân phối theo:
\[ y_i \sim \text{Bernoulli}(\pi_i) \]
Trong đó:
\[
\pi_i = P(y_i=1)
\]
và:
\[
\log\left(\frac{\pi_i}{1-\pi_i}\right) = x_i^T \beta
\]
Log-likelihood cho toàn bộ mẫu:
\[
\ell(\beta) = \sum_{i=1}^n \left[ y_i \log(\pi_i) + (1 - y_i)
\log(1-\pi_i) \right]
\]
Không có nghiệm giải tường minh → dùng IRLS để tìm \(\hat{\beta}\).
Khi dùng logit link:
\[
\eta_i = \log\left(\frac{\pi_i}{1-\pi_i}\right) = x_i^T \beta
\]
→ \(\beta_j\) đại diện cho log odds
ratio:
\[
\text{Odds ratio} = \exp(\beta_j)
\]
Nếu \(\beta_j > 0\): biến \(x_j\) làm tăng khả năng \(y=1\)
Nếu \(\beta_j < 0\): biến \(x_j\) làm giảm khả năng \(y=1\)
Sau khi ước lượng \(\hat{\beta}\), ta kiểm định từng hệ số:
Kiểm định Wald:
\[
Z_j = \frac{\hat{\beta}_j}{SE(\hat{\beta}_j)} \sim N(0,1)
\]
Khoảng tin cậy 95%:
\[
\hat{\beta}_j \pm z_{0.975} \cdot SE(\hat{\beta}_j)
\]
Chuyển sang odds ratio bằng
\[
\exp(\hat{\beta}_j)
\]
Deviance:
\[
D = -2 \left[ \ell(\hat{\beta}) - \ell_{\text{saturated}} \right]
\]
Kiểm định deviance giữa mô hình đầy đủ và mô hình rút gọn.
Pseudo-\(R^2\):
\[
R^2 = 1 - \frac{D_{\text{model}}}{D_{\text{null}}}
\]
Có thể mở rộng logistic regression để bao gồm nhiều biến giải thích:
\[ \log\left(\frac{\pi_i}{1-\pi_i}\right) = \beta_0 + \beta_1 x_{i1} + \cdots + \beta_p x_{ip} \]
→ Mô hình đa biến logistic.
Khi dữ liệu không phải từng quan sát riêng lẻ, mà là tổng hợp
\[
\frac{y_i}{n_i}
\]
ta dùng:
\[
y_i \sim \text{Binomial}(n_i, \pi_i)
\]
Log-likelihood:
\[
\ell(\beta) = \sum_{i=1}^n \left[ y_i \log(\pi_i) + (n_i - y_i)
\log(1-\pi_i) \right]
\]
Hồi quy Poisson là một mô hình thuộc họ GLM, được sử dụng để mô hình hóa các biến phản hồi là số lượng sự kiện đếm được trên một đơn vị quan sát, chẳng hạn như:
Số lần nhập viện
Số vụ tai nạn giao thông
Số lỗi phần mềm phát sinh
Đặc biệt phù hợp khi:
Biến phản hồi \(y \in \{0, 1, 2, \ldots \}\)
Dữ liệu không âm, rời rạc
Mục tiêu là ước lượng số sự kiện trung bình theo các đặc tính \(x\)
Hàm xác suất:
\[
P(y_i) = \frac{e^{-\mu_i} \mu_i^{y_i}}{y_i!}, \quad y_i = 0, 1, 2,
\ldots
\]
Trong đó:
\[ \mu_i = E[y_i] : \text{số sự kiện kỳ vọng của quan sát thứ } i \]
\[ \text{Var}(y_i) = \mu_i \quad : \text{đặc điểm then chốt} \]
Hàm liên kết (canonical):
\[ \eta_i = \log(\mu_i) = x_i^T \beta \implies \mu_i = e^{x_i^T \beta} \]
Hàm log đảm bảo:
\[ \mu_i > 0 \]
Mối quan hệ tuyến tính trên log-scale.
Log-likelihood của mô hình:
\[ \ell(\beta) = \sum_{i=1}^n \left[ y_i \log(\mu_i) - \mu_i - \log(y_i!) \right] \]
Thay \(\mu_i = e^{x_i^T \beta}\), ta được:
\[ \ell(\beta) = \sum_{i=1}^n \left[ y_i x_i^T \beta - e^{x_i^T \beta} - \log(y_i!) \right] \]
Score function (đạo hàm log-likelihood):
\[ U(\beta) = \sum_{i=1}^n x_i (y_i - \mu_i) \]
Giải phương trình \(U(\beta) = 0\) → tìm \(\hat{\beta}\) bằng IRLS.
Trong hồi quy Poisson:
Mỗi \(\beta_j\) là tác động log tuyến tính đến số sự kiện trung bình.
\(e^{\beta_j}\) là tỷ lệ thay đổi kỳ vọng \(\mu\) khi \(x_j\) tăng 1 đơn vị, giữ các biến khác không đổi.
Ví dụ:
\(\beta_j = 0.693 \Rightarrow e^{0.693} = 2\): số sự kiện kỳ vọng gấp đôi khi \(x_j\) tăng 1 đơn vị.
\(\beta_j = -0.223\) → giảm khoảng 20%.
Offset là gì?
Khi quan sát không đồng nhất về thời gian/phạm vi, cần điều chỉnh bằng
offset.
Ví dụ:
Quan sát 1: 5 tai nạn trong 10 ngày
Quan sát 2: 2 tai nạn trong 2 ngày
Không thể so sánh số tuyệt đối → dùng tỷ lệ:
\[
\frac{\mu_i}{t_i} \implies \log(\mu_i) = \log(t_i) + x_i^T \beta
\]
Trong đó \(\log(t_i)\) là offset – không có hệ số, nhưng được đưa vào mô hình.
Trong lý thuyết:
\[ \mathrm{Var}(y_i) = \mu_i \]
Nhưng thực tế thường thấy:
\[ \mathrm{Var}(y_i) > \mu_i \quad \Rightarrow \quad \text{overdispersion} \]
Nguyên nhân do bỏ sót biến quan trọng, quá nhiều giá trị 0, hoặc biến động ngẫu nhiên vượt mức.
Hệ số phân tán:
\[ \hat{\phi} = \frac{\text{Deviance}}{n - p} \]
Nếu \(\hat{\phi} > 1.5\) thì đáng lo ngại.
Cách xử lý:
Sử dụng quasi-Poisson: điều chỉnh phương sai mà không thay đổi kỳ vọng.
Dùng Negative Binomial: thêm tham số \(\alpha\) để điều chỉnh phương sai.
Deviance: kiểm tra mức độ phù hợp của mô hình.
AIC: chọn mô hình tốt nhất.
Kiểm định deviance: so sánh hai mô hình lồng nhau.
Biểu đồ phần dư:
Residuals vs fitted
Deviance residuals
Cook’s distance
Kiểm định Pearson chi-square:
\[ X^2 = \sum_{i=1}^n \frac{(y_i - \mu_i)^2}{\mu_i} \quad \Rightarrow \quad X^2 \sim \chi^2_{n-p} \]
Mô hình | Khi nào dùng |
---|---|
Poisson | Dữ liệu đếm, phương sai gần bằng kỳ vọng (\(\mathrm{Var}(y) \approx E(y)\)) |
Quasi-Poisson | Khi có overdispersion nhẹ, giữ cùng hàm liên kết (link function) |
Negative Binomial | Khi overdispersion nặng hoặc dữ liệu có quá nhiều giá trị 0 |
Hồi quy Gamma là một mô hình thuộc họ GLM dùng để mô hình hóa các biến phản hồi dương liên tục có phương sai tăng theo giá trị trung bình.
Ví dụ ứng dụng:
Chi phí y tế
Thời gian sống (survival time)
Lượng tiêu thụ năng lượng
Giả định biến ngẫu nhiên \(y_i\) phân phối Gamma với tham số:
\[ y_i \sim Gamma(\alpha, \mu_i) \]
Trong đó:
\(\mu_i = E[y_i]\) là kỳ vọng.
Phương sai:
\[
Var(y_i) = \frac{\mu_i^2}{\alpha} = \phi \mu_i^2
\]
Phương sai tỷ lệ với bình phương kỳ vọng, phù hợp khi biến thiên tỷ lệ không đổi.
Hàm mật độ xác suất:
\[ f(y; \mu, \phi) = \frac{1}{\Gamma(1/\phi)} \left(\frac{1}{\phi \mu}\right)^{1/\phi} y^{\frac{1}{\phi}-1} \exp\left(-\frac{y}{\phi \mu}\right) \]
Hàm này thuộc họ hàm mũ (exponential family), với:
\[ \theta = -\frac{1}{\mu} \]
\[ b(\theta) = -\log(-\theta) \]
Hàm phương sai:
\[ V(\mu) = \mu^2 \]
\(\phi\) là tham số phân tán.
Mặc định trong GLM:
\[ g(\mu_i) = \log(\mu_i) = \eta_i = x_i^T \beta \]
Các tùy chọn khác:
Identity: \(g(\mu) = \mu\)
Inverse: \(g(\mu) = \frac{1}{\mu}\)
Link log được dùng phổ biến nhất vì đảm bảo \(\mu > 0\).
Ước lượng tham số \(\beta\) bằng phương pháp hợp lý tối đa (MLE) qua thuật toán IRLS.
Hàm log-likelihood:
\[ \ell(\beta) = \sum_{i=1}^n \left[-\log(\mu_i) - \frac{y_i}{\mu_i} \right] + \text{hằng số} \]
với:
\[ \mu_i = e^{x_i^T \beta} \]
Phương trình điểm:
\[ \frac{\partial \ell}{\partial \beta} = \sum_{i=1}^n x_i \left( y_i - \frac{\mu_i}{\mu_i^2} \cdot \frac{d\mu_i}{d\eta_i} \right) = 0 \]
Dùng IRLS để giải phương trình và tìm nghiệm \(\hat{\beta}\).
Với link log:
\[ \log(\mu_i) = \beta_0 + \beta_1 x_{i1} + \cdots + \beta_p x_{ip} \implies \mu_i = e^{x_i^T \beta} \]
Mỗi hệ số \(\beta_j\) được hiểu là tác động trên log-scale, nghĩa là ảnh hưởng đến log của kỳ vọng trung bình.
\[ e^{\beta_j} \]
tức là hệ số tỷ lệ thay đổi của \(\mu\).
\[ Z_j = \frac{\hat{\beta}_j}{SE(\hat{\beta}_j)} \sim \mathcal{N}(0,1) \]
\[ \hat{\beta}_j \pm z_{\alpha/2} \cdot SE(\hat{\beta}_j) \]
\[ \left(e^{\hat{\beta}_j - z_{\alpha/2} SE(\hat{\beta}_j)}, \quad e^{\hat{\beta}_j + z_{\alpha/2} SE(\hat{\beta}_j)} \right) \]
\[ D = 2 \sum_{i=1}^n \left[ \frac{y_i - \mu_i}{\mu_i} - \log\left(\frac{y_i}{\mu_i}\right) \right] \]
\[ X^2 = \sum_{i=1}^n \left( \frac{y_i - \mu_i}{\mu_i} \right)^2 \]
Hai chỉ số này dùng để đánh giá độ phù hợp của mô hình và phát hiện hiện tượng overdispersion nếu có.
Mô hình | Khi dùng |
---|---|
Hồi quy tuyến tính | Khi dữ liệu phân phối chuẩn, phương sai không đổi |
Hồi quy Gamma | Khi dữ liệu dương, phương sai tỷ lệ với bình phương trung bình |
Hồi quy log-normal | Khi \(\log(y)\) phân phối chuẩn (sau biến đổi log) |
Dữ liệu nhị phân dạng 0/1 được mô hình hóa bằng hồi quy logistic. Tuy nhiên, nếu dữ liệu có dạng tổng hợp (grouped) hoặc thể hiện dưới dạng tỷ lệ, ví dụ:
20 thành công trong 30 thử nghiệm → \(y = 20, n = 30\)
Tỷ lệ mắc bệnh ở mỗi quận
Tỷ lệ sinh viên đậu trong từng lớp
→ Cần dùng GLM dạng nhị thức tổng quát (binomial GLM), áp dụng cho số lần thành công trên số lần thử.
Với \(y_i \sim \text{Binomial}(n_i, \pi_i)\), ta mô hình hóa:
\[ \log \left(\frac{\pi_i}{1 - \pi_i}\right) = \eta_i = x_i^T \beta \implies \pi_i = \frac{e^{x_i^T \beta}}{1 + e^{x_i^T \beta}} \]
Trong đó:
\(y_i\): số thành công trong nhóm \(i\)
\(n_i\): tổng số thử nghiệm trong nhóm \(i\)
\(\pi_i\): xác suất thành công
\(\mu_i = E[y_i] = n_i \pi_i\)
\(\text{Var}(y_i) = n_i \pi_i (1 - \pi_i)\)
→ Phù hợp cho dữ liệu dạng “n trials, k successes”.
Hàm log-likelihood:
\[ \ell(\beta) = \sum_{i=1}^n \left[ y_i \log(\pi_i) + (n_i - y_i) \log(1 - \pi_i) \right] \]
Tối đa hóa log-likelihood bằng IRLS (như logistic), nhưng có thêm yếu tố \(n_i\).
Biến giả và trọng số:
\[ w_i = n_i \pi_i (1 - \pi_i) \]
\[ z_i = \eta_i + \frac{y_i - n_i \pi_i}{n_i \pi_i (1 - \pi_i)} \]
Dạng dữ liệu | Mô hình tương ứng | Ghi chú |
---|---|---|
0/1 từng cá nhân | Hồi quy logistic | \(y_i \sim \text{Bernoulli}(\pi_i)\) |
Nhóm nhiều cá nhân | Binomial GLM với \(y_i / n_i\) | \(y_i \sim \text{Binomial}(n_i, \pi_i)\) |
→ Mô hình nhóm cho kết quả ước lượng chính xác hơn vì dùng nhiều thông tin hơn trên mỗi quan sát.
Nếu \(y_i / n_i\) được ghi dưới dạng tỷ lệ (0 < tỷ lệ < 1), ta vẫn dùng mô hình:
\[ \log \left(\frac{y_i / n_i}{1 - y_i / n_i}\right) = x_i^T \beta \]
→ Nhưng phải chỉ rõ số lần thử \(n_i\) để tính đúng phương sai.
Wald test cho các hệ số
Kiểm định deviance giữa mô hình đầy đủ và rút gọn
AIC/BIC để chọn mô hình
Phần dư Pearson / deviance để phát hiện điểm bất thường
Giống hồi quy logistic, mô hình binomial giả định:
\[ \text{Var}(y_i) = n_i \pi_i (1 - \pi_i) \]
Nếu thấy phương sai quan sát lớn hơn → overdispersion.
Kiểm tra:
\[ \hat{\phi} = \frac{\text{Deviance}}{n - p} \]
→ Nếu \(\hat{\phi} > 1.5\): cần chuyển sang mô hình quasi-binomial
Mô hình Tweedie GLM mở rộng họ hàm mũ bằng cách cho phép phân phối có đặc điểm trung gian giữa các phân phối quen thuộc như:
Gaussian
Poisson
Gamma
Inverse Gaussian
Mô hình Tweedie phù hợp với các loại dữ liệu có đặc điểm:
Liên tục dương + rất nhiều giá trị 0
(ví dụ: dữ liệu chi phí, có người không tiêu dùng)
Phân tán quá mức (overdispersion)
Có cả phần rời rạc (0, 1, 2, …) lẫn liên tục dương
→ Ứng dụng rộng rãi trong bảo hiểm, tài chính, y tế, và các bài toán zero-inflated data.
Tweedie là một lớp phân phối thuộc họ hàm mũ (exponential family), với hàm phương sai có dạng:
\[ \text{Var}(Y) = \phi \mu^p \]
Trong đó:
\(\mu = \mathbb{E}[Y]\): kỳ vọng
\(\phi > 0\): hệ số phân tán
\(p\): chỉ số sức mạnh (power index)
\(p\) | Phân phối tương ứng |
---|---|
0 | Gaussian (Normal) |
1 | Poisson |
\((1, 2)\) | Tweedie hỗn hợp (0 + dương liên tục) |
2 | Gamma |
3 | Inverse Gaussian |
→ Với \(1 < p < 2\), mô hình Tweedie hỗn hợp có thể:
Tái hiện được số lượng lớn giá trị 0
Mô hình hóa được giá trị dương liên tục
Rất phù hợp cho các bài toán như chi phí bảo hiểm, tổn thất, dữ liệu có số 0 và giá trị tiền tệ.
Thực hiện thống kê mô tả cho các biến trong file: Supermarket Transactions.csv
library(readr)
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.3.3
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(skimr)
## Warning: package 'skimr' was built under R version 4.3.3
library(psych)
## Warning: package 'psych' was built under R version 4.3.3
##
## Attaching package: 'psych'
## The following objects are masked from 'package:ggplot2':
##
## %+%, alpha
library(csv)
## Warning: package 'csv' was built under R version 4.3.3
Tệp Supermarket Transactions được lưu dưới định dạng CSV, vì vậy ta sẽ đọc dữ liệu từ tệp này.
Sau khi đọc, bộ dữ liệu được gán vào biến data để thuận tiện cho việc xử lý và phân tích sau này.
data <- read.csv("D:/PTDLDT/Supermarket Transactions.csv", header = T)
Bộ dữ liệu Supermarket Transactions ghi lại thông tin về các giao dịch mua hàng tại một hệ thống siêu thị, bao gồm thông tin khách hàng, vị trí địa lý, và chi tiết các sản phẩm được mua.
Dữ liệu này có thể được sử dụng để phân tích hành vi mua sắm của khách hàng, phân khúc thị trường, hoặc đánh giá hiệu quả kinh doanh theo từng sản phẩm, khu vực và nhóm nhân khẩu học.
Tên của các biến trong bộ dữ liệu sẽ bao gồm:
names(data)
## [1] "X" "PurchaseDate" "CustomerID"
## [4] "Gender" "MaritalStatus" "Homeowner"
## [7] "Children" "AnnualIncome" "City"
## [10] "StateorProvince" "Country" "ProductFamily"
## [13] "ProductDepartment" "ProductCategory" "UnitsSold"
## [16] "Revenue"
Cụ thể từng các biến và quan sát có ý nghĩa:
variable_description <- data.frame(
Variable = c(
"Unnamed: 0", "PurchaseDate", "CustomerID", "Gender", "MaritalStatus",
"Homeowner", "Children", "AnnualIncome", "City", "StateorProvince",
"Country", "ProductFamily", "ProductDepartment", "ProductCategory",
"UnitsSold", "Revenue"
),
Description = c(
"Ma dong (co the bo qua)",
"Ngay mua hang",
"ID khach hang",
"Gioi tinh (F: nu, M: nam)",
"Tinh trang hon nhan (S: doc than, M: da ket hon)",
"So huu nha (Y: co, N: khong)",
"So con trong gia dinh",
"Thu nhap hang nam (theo nhom)",
"Thanh pho sinh song",
"Bang / tinh",
"Quoc gia",
"Nhom san pham chinh (Food, Drink, ...)",
"Phong ban san pham (Snacks, Produce, ...)",
"Danh muc san pham cu the",
"So luong san pham da ban",
"Doanh thu tu giao dich (USD)"
),
stringsAsFactors = FALSE
)
library(knitr)
kable(variable_description, col.names = c("Bien", "Mo ta"))
Bien | Mo ta |
---|---|
Unnamed: 0 | Ma dong (co the bo qua) |
PurchaseDate | Ngay mua hang |
CustomerID | ID khach hang |
Gender | Gioi tinh (F: nu, M: nam) |
MaritalStatus | Tinh trang hon nhan (S: doc than, M: da ket hon) |
Homeowner | So huu nha (Y: co, N: khong) |
Children | So con trong gia dinh |
AnnualIncome | Thu nhap hang nam (theo nhom) |
City | Thanh pho sinh song |
StateorProvince | Bang / tinh |
Country | Quoc gia |
ProductFamily | Nhom san pham chinh (Food, Drink, …) |
ProductDepartment | Phong ban san pham (Snacks, Produce, …) |
ProductCategory | Danh muc san pham cu the |
UnitsSold | So luong san pham da ban |
Revenue | Doanh thu tu giao dich (USD) |
dim(data)
## [1] 14059 16
Bộ dữ liệu data chứa tổng cộng 14.059 bản ghi với 16 biến đặc trưng.
Mỗi bản ghi tương ứng với một giao dịch mua hàng tại siêu thị, mô tả chi tiết về lần mua đó thông qua 16 thuộc tính khác nhau.
Để hiểu rõ hơn về cấu trúc tổng thể của bộ dữ liệu, ta có thể thực hiện việc kiểm tra các thành phần cơ bản như số lượng biến, kiểu dữ liệu của từng biến, cũng như một số thông tin tổng quan khác. Việc này giúp chúng ta có cái nhìn bao quát trước khi tiến hành các bước phân tích chuyên sâu hơn.
str(data)
## 'data.frame': 14059 obs. of 16 variables:
## $ X : int 1 2 3 4 5 6 7 8 9 10 ...
## $ PurchaseDate : chr "2007-12-18" "2007-12-20" "2007-12-21" "2007-12-21" ...
## $ CustomerID : int 7223 7841 8374 9619 1900 6696 9673 354 1293 7938 ...
## $ Gender : chr "F" "M" "F" "M" ...
## $ MaritalStatus : chr "S" "M" "M" "M" ...
## $ Homeowner : chr "Y" "Y" "N" "Y" ...
## $ Children : int 2 5 2 3 3 3 2 2 3 1 ...
## $ AnnualIncome : chr "$30K - $50K" "$70K - $90K" "$50K - $70K" "$30K - $50K" ...
## $ City : chr "Los Angeles" "Los Angeles" "Bremerton" "Portland" ...
## $ StateorProvince : chr "CA" "CA" "WA" "OR" ...
## $ Country : chr "USA" "USA" "USA" "USA" ...
## $ ProductFamily : chr "Food" "Food" "Food" "Food" ...
## $ ProductDepartment: chr "Snack Foods" "Produce" "Snack Foods" "Snacks" ...
## $ ProductCategory : chr "Snack Foods" "Vegetables" "Snack Foods" "Candy" ...
## $ UnitsSold : int 5 5 3 4 4 3 4 6 1 2 ...
## $ Revenue : num 27.38 14.9 5.52 4.44 14 ...
Các biến trong bộ dữ liệu bao gồm:
X
: biến số nguyên, có thể là chỉ số thứ tự của bản
ghi.
PurchaseDate
: ngày mua hàng, được lưu dưới dạng
chuỗi ký tự với định dạng “YYYY-MM-DD”.
CustomerID
: mã định danh khách hàng dưới dạng số
nguyên.
Gender
: giới tính khách hàng, ký hiệu bằng ký tự (F:
nữ, M: nam).
MaritalStatus
: tình trạng hôn nhân (S: độc thân, M:
đã kết hôn).
Homeowner
: trạng thái sở hữu nhà (Y: có nhà, N:
không có nhà).
Children
: số lượng con trong gia đình, kiểu số
nguyên.
AnnualIncome
: nhóm thu nhập hàng năm, được ghi dưới
dạng chuỗi ký tự (ví dụ: “$30K - $50K”).
City
: tên thành phố nơi khách hàng sinh
sống.
StateorProvince
: bang hoặc tỉnh, được lưu dưới dạng
chuỗi ký tự.
Country
: quốc gia, dưới dạng chuỗi ký tự.
ProductFamily
: nhóm sản phẩm chính, ví dụ như Food,
Drink,…
ProductDepartment
: phòng ban sản phẩm, ví dụ như
Snack Foods, Produce,…
ProductCategory
: danh mục sản phẩm cụ thể.
UnitsSold
: số lượng sản phẩm đã bán, kiểu số
nguyên.
Revenue
: doanh thu thu được từ giao dịch, kiểu số
thực (đơn vị USD).
Việc hiểu rõ cấu trúc và kiểu dữ liệu của các biến sẽ hỗ trợ rất nhiều trong việc phân tích và xử lý dữ liệu tiếp theo.
Vì bộ dữ liệu bao gồm cả các biến định tính như thông tin nhận dạng hay các phân loại liên quan đến khách hàng, những biến này không thể trực tiếp dùng cho các phép tính số học như các biến định lượng (ví dụ: doanh thu, số lượng sản phẩm bán ra). Do đó, trong quá trình thống kê mô tả, ta cần phân biệt rõ giữa hai nhóm biến này để lựa chọn phương pháp xử lý phù hợp.
library(psych)
describe(select(data, UnitsSold, Revenue, Children))
## vars n mean sd median trimmed mad min max range skew
## UnitsSold 1 14059 4.08 1.17 4.00 4.08 1.48 1.00 8.0 7.00 0.01
## Revenue 2 14059 13.00 8.22 11.25 12.05 7.40 0.53 56.7 56.17 1.13
## Children 3 14059 2.53 1.49 3.00 2.53 1.48 0.00 5.0 5.00 -0.02
## kurtosis se
## UnitsSold -0.44 0.01
## Revenue 1.39 0.07
## Children -1.03 0.01
1. UnitsSold
(Số lượng sản phẩm được bán trong mỗi giao dịch)
Thống kê | Giá trị |
---|---|
Trung bình | 4.08 |
Trung vị | 4.00 |
Min – Max | 1 – 8 |
Độ lệch chuẩn (sd) | 1.17 |
Skew (độ lệch) | 0.01 → Gần đối xứng |
Kurtosis | -0.44 → Gần chuẩn |
Nhận xét: Hầu hết các giao dịch bán khoảng 4 sản phẩm. Phân phối gần với phân phối chuẩn.
2. Revenue
(Doanh thu mỗi giao dịch, đơn vị USD)
Thống kê | Giá trị |
---|---|
Trung bình | 13.00 USD |
Trung vị | 11.25 USD |
Min – Max | 0.53 – 56.70 USD |
Độ lệch chuẩn (sd) | 8.22 |
Skew (độ lệch) | 1.13 → Phân phối lệch phải |
Kurtosis | 1.39 → Phân phối nhọn hơn chuẩn |
Nhận xét: Doanh thu giao dịch có xu hướng lệch phải, nghĩa là phần lớn các giao dịch có doanh thu thấp và chỉ một số ít mang lại giá trị cao.
3. Children (Số con của khách hàng)
Phân bố khá đối xứng
Độ lệch (skew) gần bằng 0, cho thấy phân bố không lệch đáng kể sang
trái hay phải.
Giá trị trung bình (2,53) gần bằng trung vị (3), xác nhận tính đối xứng
này.
Độ phân tán vừa phải
Độ lệch chuẩn khoảng 1,5, nghĩa là đa số khách hàng có từ 1 đến 4
con.
Khoảng 68% các quan sát nằm trong khoảng 1,0 đến 4,0 con (ước lượng bằng
mean ± SD).
Giá trị cực trị hợp lý
Số con thấp nhất là 0 và cao nhất là 5, không có giá trị ngoại lệ bất thường (ví dụ như > 10).
Độ nhọn âm
Kurtosis < 0 cho thấy phân bố hơi “phẳng”, tức đỉnh thấp hơn phân
phối chuẩn,
với tần suất ở trung tâm ít cô đặc hơn, hai đuôi phân bố hơi dày hơn
nhưng vẫn nằm trong tầm kiểm soát.
Hàm ý
Có thể phân nhóm khách hàng dựa trên số con thành:
Không con (0)
Gia đình nhỏ (1–2)
Gia đình trung bình (3–4)
Gia đình lớn (5)
Về tiếp thị sản phẩm:
Nhóm 0–1 con có thể quan tâm đến sản phẩm cá nhân hoặc dành cho đôi.
Nhóm có từ 3 con trở lên ưu tiên gói sản phẩm gia đình và các chương trình chiết khấu theo số lượng.
Trong mô hình dự đoán, do phân bố tương đối đối xứng và không có ngoại lệ nghiêm trọng, biến Children có thể được sử dụng trực tiếp mà không cần biến đổi như log hay winsorize.
# Lấy tên các biến định tính
categorical_vars <- c(
"Gender", "MaritalStatus", "Homeowner", "AnnualIncome",
"City", "StateorProvince", "Country",
"ProductFamily", "ProductDepartment", "ProductCategory"
)
# Tạo bảng tần số cho từng biến
for (var in categorical_vars) {
cat("\n###", var, "\n")
print(table(data[[var]]))
cat("\n")
}
##
## ### Gender
##
## F M
## 7170 6889
##
##
## ### MaritalStatus
##
## M S
## 6866 7193
##
##
## ### Homeowner
##
## N Y
## 5615 8444
##
##
## ### AnnualIncome
##
## $10K - $30K $110K - $130K $130K - $150K $150K + $30K - $50K
## 3090 643 760 273 4601
## $50K - $70K $70K - $90K $90K - $110K
## 2370 1709 613
##
##
## ### City
##
## Acapulco Bellingham Beverly Hills Bremerton Camacho
## 383 143 811 834 452
## Guadalajara Hidalgo Los Angeles Merida Mexico City
## 75 845 926 654 194
## Orizaba Portland Salem San Andres San Diego
## 464 876 1386 621 866
## San Francisco Seattle Spokane Tacoma Vancouver
## 130 922 875 1257 633
## Victoria Walla Walla Yakima
## 176 160 376
##
##
## ### StateorProvince
##
## BC CA DF Guerrero Jalisco OR Veracruz WA
## 809 2733 815 383 75 2262 464 4567
## Yucatan Zacatecas
## 654 1297
##
##
## ### Country
##
## Canada Mexico USA
## 809 3688 9562
##
##
## ### ProductFamily
##
## Drink Food Non-Consumable
## 1250 10153 2656
##
##
## ### ProductDepartment
##
## Alcoholic Beverages Baked Goods Baking Goods Beverages
## 356 425 1072 680
## Breakfast Foods Canned Foods Canned Products Carousel
## 188 977 109 59
## Checkout Dairy Deli Eggs
## 82 903 699 198
## Frozen Foods Health and Hygiene Household Meat
## 1382 893 1420 89
## Periodicals Produce Seafood Snack Foods
## 202 1994 102 1600
## Snacks Starchy Foods
## 352 277
##
##
## ### ProductCategory
##
## Baking Goods Bathroom Products Beer and Wine
## 484 365 356
## Bread Breakfast Foods Candles
## 425 417 45
## Candy Canned Anchovies Canned Clams
## 352 44 53
## Canned Oysters Canned Sardines Canned Shrimp
## 35 40 38
## Canned Soup Canned Tuna Carbonated Beverages
## 404 87 154
## Cleaning Supplies Cold Remedies Dairy
## 189 93 903
## Decongestants Drinks Eggs
## 85 135 198
## Electrical Frozen Desserts Frozen Entrees
## 355 323 118
## Fruit Hardware Hot Beverages
## 765 129 226
## Hygiene Jams and Jellies Kitchen Products
## 197 588 217
## Magazines Meat Miscellaneous
## 202 761 42
## Packaged Vegetables Pain Relievers Paper Products
## 48 192 345
## Pizza Plastic Products Pure Juice Beverages
## 194 141 165
## Seafood Side Dishes Snack Foods
## 102 153 1600
## Specialty Starchy Foods Vegetables
## 289 277 1728
gender_table <- table(data$Gender)
gender_prop <- prop.table(gender_table)
kable(
cbind(So_luong = gender_table, Ty_le = round(gender_prop * 100, 2)),
col.names = c("So luong", "Ty le (%)")
)
So luong | Ty le (%) | |
---|---|---|
F | 7170 | 51 |
M | 6889 | 49 |
gender_df <- as.data.frame(gender_prop) |>
mutate(
Gender = names(gender_prop),
Percent = round(Freq * 100, 2)
)
ggplot(gender_df, aes(x = "", y = Percent, fill = Gender)) +
geom_col(width = 1, color = "white") +
coord_polar(theta = "y") +
geom_text(aes(label = paste0(Percent, "%")),
position = position_stack(vjust = 0.5), size = 5) +
labs(title = "Tỷ lệ giới tính", x = NULL, y = NULL) +
theme_void() +
scale_fill_manual(values = c("#4E79A7", "#F28E2B"))
Tỷ lệ khách hàng theo giới tính khá cân bằng giữa nam (M) và nữ (F).
Nữ chiếm 51%, nhỉnh hơn một chút so với nam là 49%.
Điều này cho thấy không có sự chênh lệch lớn về giới tính trong mẫu dữ liệu này.
Cửa hàng/công ty có thể thiết kế chiến lược marketing không cần phân biệt giới tính mạnh, vì cả hai nhóm khách hàng đều tương đương về tỷ lệ.
marital_table <- table(data$MaritalStatus)
marital_prop <- prop.table(marital_table)
kable(
cbind(So_luong = marital_table, Ty_le = round(marital_prop * 100, 2)),
col.names = c("So luong", "Ty le (%)")
)
So luong | Ty le (%) | |
---|---|---|
M | 6866 | 48.84 |
S | 7193 | 51.16 |
# Đưa về data‑frame
marital_df <- data.frame(
Status = names(marital_prop),
Percent = round(as.vector(marital_prop) * 100, 2)
)
# Biểu đồ tròn
ggplot(marital_df, aes(x = "", y = Percent, fill = Status)) +
geom_col(width = 1, color = "white") +
coord_polar(theta = "y") +
geom_text(aes(label = paste0(Percent, "%")),
position = position_stack(vjust = 0.5), size = 5) +
labs(title = "Tỷ lệ tình trạng hôn nhân", x = NULL, y = NULL) +
theme_void() +
scale_fill_manual(values = c("#59A14F", "#EDC948")) # tuỳ chọn màu
homeowner_table <- table(data$Homeowner)
homeowner_prop <- prop.table(homeowner_table)
kable(
cbind(So_luong = homeowner_table, Ty_le = round(homeowner_prop * 100, 2)),
col.names = c("So luong", "Ty le (%)")
)
So luong | Ty le (%) | |
---|---|---|
N | 5615 | 39.94 |
Y | 8444 | 60.06 |
# Đưa về data‑frame
homeowner_df <- data.frame(
Owner = names(homeowner_prop), # ví dụ: "Yes" / "No"
Percent = round(as.vector(homeowner_prop) * 100, 2) # chuyển sang %
)
# Biểu đồ tròn
ggplot(homeowner_df, aes(x = "", y = Percent, fill = Owner)) +
geom_col(width = 1, color = "white") +
coord_polar(theta = "y") +
geom_text(aes(label = paste0(Percent, "%")),
position = position_stack(vjust = 0.5), size = 5) +
labs(title = "Tỷ lệ chủ sở hữu nhà", x = NULL, y = NULL) +
theme_void() +
scale_fill_manual(values = c("#E15759", "#76B7B2")) # tuỳ chọn màu
# Làm sạch biến AnnualIncome nếu cần
data$AnnualIncome <- gsub("\\$", "", data$AnnualIncome)
data$AnnualIncome <- gsub("\u2013", "-", data$AnnualIncome)
data$AnnualIncome <- trimws(data$AnnualIncome)
data$AnnualIncome <- as.factor(data$AnnualIncome)
# Tính tần suất và tỷ lệ phần trăm
income_table <- table(data$AnnualIncome)
income_prop <- prop.table(income_table)
# Kết hợp thành bảng
income_df <- data.frame(
Muc = names(income_table),
So_luong = as.vector(income_table),
Ty_le = round(100 * as.vector(income_prop), 2)
)
# Hiển thị bảng đẹp
kable(income_df, col.names = c("Mức thu nhập", "Số lượng", "Tỷ lệ (%)"))
Mức thu nhập | Số lượng | Tỷ lệ (%) |
---|---|---|
10K - 30K | 3090 | 21.98 |
110K - 130K | 643 | 4.57 |
130K - 150K | 760 | 5.41 |
150K + | 273 | 1.94 |
30K - 50K | 4601 | 32.73 |
50K - 70K | 2370 | 16.86 |
70K - 90K | 1709 | 12.16 |
90K - 110K | 613 | 4.36 |
ggplot(income_df, aes(x = Muc, y = So_luong)) +
geom_col(fill = "#4E79A7") +
geom_text(aes(label = paste0(Ty_le, "%")),
vjust = -0.3, size = 4) +
labs(title = "Phân bố mức thu nhập",
x = "Mức thu nhập",
y = "Số lượng") +
theme_minimal(base_size = 13) +
theme(
axis.text.x = element_text(angle = 45, hjust = 1)
)
Điểm nổi bật:
Tập trung vào thu nhập tầm trung: Nhóm có thu nhập trong khoảng 30K – 70K chiếm khoảng 50% tổng số khách hàng. Đây chính là thị trường mục tiêu chính.
Thu nhập thấp - trung (10K – 30K) vẫn chiếm gần 22%, cho thấy sự hiện diện rõ rệt của phân khúc tiết kiệm. Nếu sản phẩm hoặc dịch vụ cần định giá, nên cân nhắc gói giá phù hợp nhóm này.
Nhóm có thu nhập cao (> 90K) chỉ chiếm khoảng 16%. Riêng nhóm rất cao > 150K là rất nhỏ. Do đó, các chiến dịch sản phẩm/dịch vụ cao cấp cần nhắm đúng đối tượng, tránh lan rộng thiếu hiệu quả.
Phân bố thu nhập bị lệch trái (left-skewed): Phần lớn khách hàng thuộc nhóm thu nhập thấp - trung. Đỉnh phân bố rơi vào nhóm 30K–50K, càng về mức cao thì số lượng càng giảm.
Hàm ý
Chiến lược giá & khuyến mãi: Ưu tiên xây dựng các gói giá trung bình (30K–70K) đi kèm các lựa chọn tiết kiệm cho nhóm thu nhập thấp (10K–30K).
Sản phẩm cao cấp / Upsell: Tập trung vào việc xây dựng đề nghị giá trị cao rõ nét, vì nhóm thu nhập cao tuy nhỏ nhưng vẫn có gần 2.000 khách hàng tiềm năng (thu nhập > 90K).
Phân khúc tiếp thị: Cần chia ít nhất 3 tầng thu nhập:
Thấp (<30K)
Trung (30K–70K)
Cao (>70K) để cá nhân hóa nội dung và thông điệp tiếp thị phù hợp từng nhóm.
# Nếu muốn, có thể bỏ khoảng trắng dư và ép factor
data$City <- trimws(data$City)
data$City <- as.factor(data$City)
# Tính tần suất & tỷ lệ phần trăm
city_table <- table(data$City)
city_prop <- prop.table(city_table)
# Ghép thành data‑frame
city_df <- data.frame(
City = names(city_table),
So_luong = as.vector(city_table),
Ty_le = round(100 * as.vector(city_prop), 2),
row.names = NULL
)
# Hiển thị bảng đẹp
kable(city_df,
col.names = c("Thành phố", "Số lượng", "Tỷ lệ (%)"))
Thành phố | Số lượng | Tỷ lệ (%) |
---|---|---|
Acapulco | 383 | 2.72 |
Bellingham | 143 | 1.02 |
Beverly Hills | 811 | 5.77 |
Bremerton | 834 | 5.93 |
Camacho | 452 | 3.22 |
Guadalajara | 75 | 0.53 |
Hidalgo | 845 | 6.01 |
Los Angeles | 926 | 6.59 |
Merida | 654 | 4.65 |
Mexico City | 194 | 1.38 |
Orizaba | 464 | 3.30 |
Portland | 876 | 6.23 |
Salem | 1386 | 9.86 |
San Andres | 621 | 4.42 |
San Diego | 866 | 6.16 |
San Francisco | 130 | 0.92 |
Seattle | 922 | 6.56 |
Spokane | 875 | 6.22 |
Tacoma | 1257 | 8.94 |
Vancouver | 633 | 4.50 |
Victoria | 176 | 1.25 |
Walla Walla | 160 | 1.14 |
Yakima | 376 | 2.67 |
ggplot(city_df, aes(x = reorder(City, So_luong), y = So_luong)) +
geom_col(fill = "#59A14F") +
geom_text(aes(label = paste0(Ty_le, "%")),
hjust = -0.1, size = 3.5) +
coord_flip() + # xoay trục -> cột nằm ngang
labs(title = "Phân bố khách hàng theo thành phố",
x = "Thành phố",
y = "Số lượng") +
theme_minimal(base_size = 12) +
theme(
plot.title = element_text(face = "bold"),
axis.title.y = element_blank(), # trục y là tên thành phố, không cần tiêu đề
axis.text.y = element_text(size = 10)
)
Nhận xét tổng quan:
Tập trung tại một số thành phố lớn:
Những thành phố có tỷ lệ khách hàng cao nhất bao gồm:
Salem (9.86%)
Tacoma (8.94%)
Los Angeles (6.59%)
Seattle (6.56%)
Portland (6.23%)
San Diego (6.16%)
→ Đây là những khu vực tập trung đông khách hàng nhất, nên ưu tiên trong các chiến dịch marketing, phân phối hoặc dịch vụ khách hàng.
Phân bố tương đối trải đều ở nhóm giữa:
Một số thành phố như Bremerton, Hidalgo, Spokane, Vancouver,… có tỷ lệ khách hàng ở mức trung bình từ 3% đến 6%, đóng vai trò bổ trợ quan trọng.
Nhóm có tỷ lệ thấp (dưới 2%):
Các thành phố như Guadalajara, Walla Walla, Victoria, San Francisco, Bellingham,… có số lượng khách hàng thấp hơn, có thể không phải là thị trường chính, nhưng có thể khai thác thêm nếu muốn mở rộng.
Hàm ý triển khai:
Ưu tiên nguồn lực: Tập trung nguồn lực vào top 5–6 thành phố đầu bảng để tối ưu hiệu quả tiếp cận và chăm sóc khách hàng.
Chiến dịch địa phương hóa (localization): Với mỗi cụm thành phố có tỷ lệ cao, nên cân nhắc tùy chỉnh thông điệp quảng bá, chương trình khuyến mãi phù hợp vùng miền.
Định hướng mở rộng: Những thành phố có tỷ lệ trung bình có thể là thị trường tiềm năng để mở rộng trong giai đoạn tiếp theo.
# Làm sạch nhẹ (bỏ khoảng trắng thừa) rồi ép factor
data$StateorProvince <- trimws(data$StateorProvince)
data$StateorProvince <- as.factor(data$StateorProvince)
# Tần suất & tỷ lệ
state_tab <- table(data$StateorProvince)
state_prop <- prop.table(state_tab)
# Kết hợp thành bảng
state_df <- data.frame(
Bang_Tinh = names(state_tab),
So_luong = as.vector(state_tab),
Ty_le = round(100 * as.vector(state_prop), 2),
row.names = NULL
)
# Hiển thị
kable(state_df,
col.names = c("Bang/Tỉnh", "Số lượng", "Tỷ lệ (%)"))
Bang/Tỉnh | Số lượng | Tỷ lệ (%) |
---|---|---|
BC | 809 | 5.75 |
CA | 2733 | 19.44 |
DF | 815 | 5.80 |
Guerrero | 383 | 2.72 |
Jalisco | 75 | 0.53 |
OR | 2262 | 16.09 |
Veracruz | 464 | 3.30 |
WA | 4567 | 32.48 |
Yucatan | 654 | 4.65 |
Zacatecas | 1297 | 9.23 |
ggplot(state_df, aes(x = reorder(Bang_Tinh, So_luong), y = So_luong)) +
geom_col(fill = "#EDC948") +
geom_text(aes(label = paste0(Ty_le, "%")),
hjust = -0.1, size = 3.5) +
coord_flip() +
labs(title = "Phân bố khách hàng theo bang/tỉnh",
x = "Bang/Tỉnh",
y = "Số lượng") +
theme_minimal(base_size = 12) +
theme(
plot.title = element_text(face = "bold"),
axis.title.y = element_blank()
)
Nhận xét tổng quan:
Tập trung mạnh tại bang WA (Washington):
Với 32.48% tổng số khách hàng (tương đương 4,567 khách), bang WA là thị trường trọng điểm, cần được ưu tiên cao nhất trong các chiến lược kinh doanh và tiếp thị.
Nhóm quan trọng thứ hai:
CA (California) chiếm 19.44%
OR (Oregon) chiếm 16.09%
→ Tổng cộng ba bang WA, CA, OR đã chiếm đến gần 70% tổng số khách hàng.
Đây là vùng thị trường cốt lõi, nên đầu tư mạnh về nhân lực, quảng bá, dịch vụ hậu mãi tại khu vực này.
Bang có mức độ khách hàng trung bình:
Zacatecas (9.23%)
DF (5.80%)
BC (5.75%)
→ Đây là những khu vực phụ trợ đáng chú ý, có thể cân nhắc triển khai các chương trình marketing khu vực nhỏ (regional marketing).
Bang có tỷ lệ thấp (<5%):
Guerrero, Jalisco, Veracruz, Yucatan — tuy có số lượng khách ít hơn, vẫn có thể cân nhắc tăng nhận diện thương hiệu, đặc biệt nếu muốn mở rộng thị trường về phía Mexico.
Hàm ý triển khai:
Tập trung nguồn lực vào top 3 bang chính (WA, CA, OR) để tối ưu hiệu quả kinh doanh.
Phát triển chiến lược tiếp thị vùng miền cụ thể, tùy theo quy mô khách hàng ở từng bang.
Khám phá thêm tiềm năng từ các bang có mức trung bình (Zacatecas, DF, BC) nếu mở rộng quy mô.
Thí điểm sản phẩm/dịch vụ mới ở thị trường nhỏ như Yucatan hoặc Veracruz để kiểm tra phản ứng thị trường trước khi mở rộng.
# Làm sạch nếu cần (loại khoảng trắng thừa)
data$Country <- trimws(data$Country)
data$Country <- as.factor(data$Country)
# Tính tần suất và tỷ lệ phần trăm
country_table <- table(data$Country)
country_prop <- prop.table(country_table)
# Kết hợp thành bảng
country_df <- data.frame(
Quoc_gia = names(country_table),
So_luong = as.vector(country_table),
Ty_le = round(100 * as.vector(country_prop), 2),
row.names = NULL
)
# Hiển thị bảng đẹp
kable(country_df,
col.names = c("Quốc gia", "Số lượng", "Tỷ lệ (%)"))
Quốc gia | Số lượng | Tỷ lệ (%) |
---|---|---|
Canada | 809 | 5.75 |
Mexico | 3688 | 26.23 |
USA | 9562 | 68.01 |
ggplot(country_df, aes(x = "", y = So_luong, fill = Quoc_gia)) +
geom_col(width = 1, color = "white") + # lát bánh
coord_polar(theta = "y") + # chuyển thành pie
geom_text(
aes(label = paste0(Quoc_gia, ": ", Ty_le, "%")),
position = position_stack(vjust = 0.5),
size = 3
) +
labs(title = "Tỷ lệ khách hàng theo quốc gia",
x = NULL, y = NULL, fill = "Quốc gia") +
theme_void() +
guides(fill = guide_legend(override.aes = list(size = 4)))
Nhận xét tổng quan:
Mỹ (USA) chiếm 68.01% tổng số khách hàng – đây là thị trường chính yếu và áp đảo tuyệt đối.
→ Các chiến lược kinh doanh, marketing, sản phẩm cần ưu tiên tối đa cho khách hàng Hoa Kỳ.
Mexico chiếm 26.23% – là thị trường phụ nhưng rất đáng chú ý với gần 1/4 tổng khách hàng.
→ Có thể cân nhắc bản địa hoá thông điệp, ưu đãi hoặc sản phẩm dành riêng cho khu vực này.
Canada chỉ chiếm 5.75% – số lượng tương đối nhỏ.
→ Không phải thị trường trọng tâm hiện tại, nhưng vẫn có thể được duy trì như một khu vực vệ tinh hỗ trợ hoặc để thử nghiệm sản phẩm mới.
Hàm ý triển khai:
Tập trung phát triển thị trường Mỹ: đầu tư về dịch vụ khách hàng, chiến dịch quảng cáo, mạng lưới phân phối tại Hoa Kỳ.
Phân khúc và bản địa hóa chiến dịch tại Mexico: dùng tiếng Tây Ban Nha, điều chỉnh chính sách giá, vận chuyển phù hợp với khu vực.
Giữ sự hiện diện tại Canada, nhưng chưa cần đầu tư mạnh — có thể khai thác dần khi các thị trường lớn đã ổn định.
# Làm sạch biến ProductFamily (nếu cần)
data$ProductFamily <- trimws(data$ProductFamily)
data$ProductFamily <- as.factor(data$ProductFamily)
# Tính tần suất và tỷ lệ phần trăm
pf_table <- table(data$ProductFamily)
pf_prop <- prop.table(pf_table)
# Kết hợp thành bảng
pf_df <- data.frame(
ProductFamily = names(pf_table),
So_luong = as.vector(pf_table),
Ty_le = round(100 * as.vector(pf_prop), 2),
row.names = NULL
)
# Hiển thị bảng đẹp
kable(pf_df,
col.names = c("Nhóm sản phẩm", "Số lượng", "Tỷ lệ (%)"))
Nhóm sản phẩm | Số lượng | Tỷ lệ (%) |
---|---|---|
Drink | 1250 | 8.89 |
Food | 10153 | 72.22 |
Non-Consumable | 2656 | 18.89 |
ggplot(pf_df, aes(x = "", y = So_luong, fill = ProductFamily)) +
geom_col(width = 1, color = "white") +
coord_polar(theta = "y") +
geom_text(aes(label = paste0(Ty_le, "%")),
position = position_stack(vjust = 0.5),
size = 4) +
labs(title = "Tỷ lệ theo nhóm sản phẩm",
x = NULL, y = NULL, fill = "Nhóm sản phẩm") +
theme_void() +
guides(fill = guide_legend(override.aes = list(size = 5)))
Nhận xét:
Nhóm Food (thực phẩm) chiếm trên 72% tổng giao dịch, là mảng sản phẩm cốt lõi và chủ đạo.
→ Các quyết định về danh mục, chất lượng, giá, khuyến mãi… nên ưu tiên nhóm này.
Non-Consumable (phi tiêu dùng, như đồ gia dụng, điện tử…) chiếm gần 19% – là mảng phụ nhưng tiềm năng.
→ Có thể khai thác thêm về upsell hoặc cross-sell với nhóm khách hàng mua Food.
Drink (thức uống) chỉ chiếm gần 9% – là mảng nhỏ, nên cân nhắc tập trung vào các sản phẩm có biên lợi nhuận cao hoặc liên kết combo với Food.
Hàm ý triển khai:
Đầu tư tối ưu dòng sản phẩm Food: nghiên cứu hành vi mua, xu hướng ẩm thực, cải tiến bao bì, vị, giá.
Khai thác combo Food + Drink hoặc Food + Non-Consumable để tăng giá trị đơn hàng.
Định vị rõ Non-Consumable: dùng như sản phẩm quà tặng, khách hàng thân thiết hoặc nhắm vào nhóm có mức chi tiêu cao.
# Làm sạch biến ProductDepartment nếu cần
data$ProductDepartment <- trimws(data$ProductDepartment)
data$ProductDepartment <- as.factor(data$ProductDepartment)
# Tính tần suất và tỷ lệ phần trăm
pd_table <- table(data$ProductDepartment)
pd_prop <- prop.table(pd_table)
# Kết hợp thành bảng
pd_df <- data.frame(
ProductDepartment = names(pd_table),
So_luong = as.vector(pd_table),
Ty_le = round(100 * as.vector(pd_prop), 2),
row.names = NULL
)
# Hiển thị bảng đẹp
kable(pd_df,
col.names = c("Phòng ban sản phẩm", "Số lượng", "Tỷ lệ (%)"))
Phòng ban sản phẩm | Số lượng | Tỷ lệ (%) |
---|---|---|
Alcoholic Beverages | 356 | 2.53 |
Baked Goods | 425 | 3.02 |
Baking Goods | 1072 | 7.63 |
Beverages | 680 | 4.84 |
Breakfast Foods | 188 | 1.34 |
Canned Foods | 977 | 6.95 |
Canned Products | 109 | 0.78 |
Carousel | 59 | 0.42 |
Checkout | 82 | 0.58 |
Dairy | 903 | 6.42 |
Deli | 699 | 4.97 |
Eggs | 198 | 1.41 |
Frozen Foods | 1382 | 9.83 |
Health and Hygiene | 893 | 6.35 |
Household | 1420 | 10.10 |
Meat | 89 | 0.63 |
Periodicals | 202 | 1.44 |
Produce | 1994 | 14.18 |
Seafood | 102 | 0.73 |
Snack Foods | 1600 | 11.38 |
Snacks | 352 | 2.50 |
Starchy Foods | 277 | 1.97 |
ggplot(pd_df, aes(x = reorder(ProductDepartment, So_luong), y = So_luong)) +
geom_col(fill = "#76B7B2") +
geom_text(aes(label = paste0(Ty_le, "%")),
vjust = -0.5, size = 4) +
labs(title = "Phân bố số lượng theo phòng ban sản phẩm",
x = "Phòng ban sản phẩm",
y = "Số lượng") +
theme_minimal(base_size = 13) +
theme(
axis.text.x = element_text(angle = 45, hjust = 1)
)
Nhận xét:
Produce (Rau quả tươi) là phòng ban chiếm tỷ trọng lớn nhất (14.18%), thể hiện xu hướng tiêu dùng thực phẩm tươi sống cao.
Snack Foods và Frozen Foods chiếm tỷ trọng lớn thứ 2 và 3 → cho thấy nhu cầu cao với đồ ăn nhanh, tiện lợi, thích hợp cho khách bận rộn hoặc gia đình.
Household (Đồ gia dụng) cũng chiếm hơn 10%, là sản phẩm thiết yếu trong đời sống → có thể kết hợp bán chéo.
Các nhóm như Meat, Seafood, Periodicals, Checkout, Carousel… chiếm tỷ trọng rất nhỏ → không phải trọng tâm hiện tại.
Hàm ý triển khai:
Tối ưu danh mục và khuyến mãi cho nhóm: Produce, Snack Foods, Frozen Foods → đây là các phòng ban tạo doanh số chủ lực.
Nhóm Household có thể tích hợp trong các chiến lược upsell hoặc combo cho khách hàng thường xuyên.
Các phòng ban nhỏ nên:
Được xem xét điều chỉnh vị trí/quy mô trưng bày.
Chỉ giữ lại những sản phẩm có biên lợi nhuận cao hoặc giá trị thương hiệu rõ nét.
# Làm sạch biến ProductCategory nếu cần
data$ProductCategory <- trimws(data$ProductCategory)
data$ProductCategory <- as.factor(data$ProductCategory)
# Tính tần suất và tỷ lệ phần trăm
pc_table <- table(data$ProductCategory)
pc_prop <- prop.table(pc_table)
# Kết hợp thành bảng
pc_df <- data.frame(
ProductCategory = names(pc_table),
So_luong = as.vector(pc_table),
Ty_le = round(100 * as.vector(pc_prop), 2),
row.names = NULL
)
# Hiển thị bảng đẹp
kable(pc_df,
col.names = c("Danh mục sản phẩm", "Số lượng", "Tỷ lệ (%)"))
Danh mục sản phẩm | Số lượng | Tỷ lệ (%) |
---|---|---|
Baking Goods | 484 | 3.44 |
Bathroom Products | 365 | 2.60 |
Beer and Wine | 356 | 2.53 |
Bread | 425 | 3.02 |
Breakfast Foods | 417 | 2.97 |
Candles | 45 | 0.32 |
Candy | 352 | 2.50 |
Canned Anchovies | 44 | 0.31 |
Canned Clams | 53 | 0.38 |
Canned Oysters | 35 | 0.25 |
Canned Sardines | 40 | 0.28 |
Canned Shrimp | 38 | 0.27 |
Canned Soup | 404 | 2.87 |
Canned Tuna | 87 | 0.62 |
Carbonated Beverages | 154 | 1.10 |
Cleaning Supplies | 189 | 1.34 |
Cold Remedies | 93 | 0.66 |
Dairy | 903 | 6.42 |
Decongestants | 85 | 0.60 |
Drinks | 135 | 0.96 |
Eggs | 198 | 1.41 |
Electrical | 355 | 2.53 |
Frozen Desserts | 323 | 2.30 |
Frozen Entrees | 118 | 0.84 |
Fruit | 765 | 5.44 |
Hardware | 129 | 0.92 |
Hot Beverages | 226 | 1.61 |
Hygiene | 197 | 1.40 |
Jams and Jellies | 588 | 4.18 |
Kitchen Products | 217 | 1.54 |
Magazines | 202 | 1.44 |
Meat | 761 | 5.41 |
Miscellaneous | 42 | 0.30 |
Packaged Vegetables | 48 | 0.34 |
Pain Relievers | 192 | 1.37 |
Paper Products | 345 | 2.45 |
Pizza | 194 | 1.38 |
Plastic Products | 141 | 1.00 |
Pure Juice Beverages | 165 | 1.17 |
Seafood | 102 | 0.73 |
Side Dishes | 153 | 1.09 |
Snack Foods | 1600 | 11.38 |
Specialty | 289 | 2.06 |
Starchy Foods | 277 | 1.97 |
Vegetables | 1728 | 12.29 |
ggplot(pc_df, aes(x = reorder(ProductCategory, So_luong), y = So_luong)) +
geom_col(fill = "#B07AA1") +
labs(title = "Phân bố số lượng theo danh mục sản phẩm",
x = "Danh mục sản phẩm",
y = "Số lượng") +
theme_minimal(base_size = 13) +
theme(
axis.text.x = element_text(angle = 45, hjust = 1)
)
Nhận xét:
Vegetables là danh mục chiếm tỷ lệ cao nhất (12.29%) → cho thấy ưu tiên hàng đầu với nhóm thực phẩm tươi sống.
Snack Foods tiếp tục là danh mục chủ lực (11.38%) → xu hướng tiêu dùng đồ ăn nhanh, tiện dụng rất rõ ràng.
Dairy, Fruit và Meat đều nằm trong nhóm top 5 → đây là những sản phẩm thiết yếu, tiêu dùng hàng ngày.
Các danh mục như Canned Seafood (Canned Sardines, Tuna, Shrimp…) có tỷ trọng thấp (~0.3–0.6%) → ít được quan tâm, có thể là do khẩu vị, thói quen tiêu dùng.
Các danh mục có tỷ trọng rất thấp (<1%):
Hàm ý chiến lược:
Tập trung marketing và trưng bày nổi bật cho các nhóm: Vegetables, Snack Foods, Dairy, Fruit và Meat.
Gộp nhóm sản phẩm ít phổ biến vào các combo/khuyến mãi kèm → giúp tăng doanh số và giải phóng tồn kho.
Xem xét định vị lại hoặc thay thế danh mục dưới 0.5% nếu không mang lại lợi nhuận tốt hoặc không phục vụ mục tiêu thương hiệu.
# Danh sách các biến định tính
cat_vars <- c("Gender", "MaritalStatus", "Homeowner", "AnnualIncome",
"City", "StateorProvince", "Country",
"ProductFamily", "ProductDepartment", "ProductCategory")
# Hàm xử lý từng biến
cat_summary <- function(df, var) {
v <- trimws(df[[var]]) # loại bỏ khoảng trắng
v <- as.factor(v) # ép kiểu factor nếu chưa
tbl <- table(v, useNA = "ifany")
prop <- prop.table(tbl)
data.frame(
Bien = var,
Muc = names(tbl),
So_luong = as.vector(tbl),
Ty_le = round(100 * as.vector(prop), 2),
row.names = NULL,
stringsAsFactors = FALSE
)
}
# Áp dụng cho tất cả biến và nối thành 1 bảng lớn
big_tbl <- bind_rows(lapply(cat_vars, function(x) cat_summary(data, x)))
# (Tùy chọn) Sắp xếp theo biến rồi giảm dần số lượng
big_tbl <- big_tbl %>%
arrange(Bien, desc(So_luong))
# Hiển thị bảng thống kê
kable(big_tbl,
col.names = c("Biến", "Mức", "Số lượng", "Tỷ lệ (%)"),
caption = "Bảng thống kê mô tả cho tất cả biến định tính")
Biến | Mức | Số lượng | Tỷ lệ (%) |
---|---|---|---|
AnnualIncome | 30K - 50K | 4601 | 32.73 |
AnnualIncome | 10K - 30K | 3090 | 21.98 |
AnnualIncome | 50K - 70K | 2370 | 16.86 |
AnnualIncome | 70K - 90K | 1709 | 12.16 |
AnnualIncome | 130K - 150K | 760 | 5.41 |
AnnualIncome | 110K - 130K | 643 | 4.57 |
AnnualIncome | 90K - 110K | 613 | 4.36 |
AnnualIncome | 150K + | 273 | 1.94 |
City | Salem | 1386 | 9.86 |
City | Tacoma | 1257 | 8.94 |
City | Los Angeles | 926 | 6.59 |
City | Seattle | 922 | 6.56 |
City | Portland | 876 | 6.23 |
City | Spokane | 875 | 6.22 |
City | San Diego | 866 | 6.16 |
City | Hidalgo | 845 | 6.01 |
City | Bremerton | 834 | 5.93 |
City | Beverly Hills | 811 | 5.77 |
City | Merida | 654 | 4.65 |
City | Vancouver | 633 | 4.50 |
City | San Andres | 621 | 4.42 |
City | Orizaba | 464 | 3.30 |
City | Camacho | 452 | 3.22 |
City | Acapulco | 383 | 2.72 |
City | Yakima | 376 | 2.67 |
City | Mexico City | 194 | 1.38 |
City | Victoria | 176 | 1.25 |
City | Walla Walla | 160 | 1.14 |
City | Bellingham | 143 | 1.02 |
City | San Francisco | 130 | 0.92 |
City | Guadalajara | 75 | 0.53 |
Country | USA | 9562 | 68.01 |
Country | Mexico | 3688 | 26.23 |
Country | Canada | 809 | 5.75 |
Gender | F | 7170 | 51.00 |
Gender | M | 6889 | 49.00 |
Homeowner | Y | 8444 | 60.06 |
Homeowner | N | 5615 | 39.94 |
MaritalStatus | S | 7193 | 51.16 |
MaritalStatus | M | 6866 | 48.84 |
ProductCategory | Vegetables | 1728 | 12.29 |
ProductCategory | Snack Foods | 1600 | 11.38 |
ProductCategory | Dairy | 903 | 6.42 |
ProductCategory | Fruit | 765 | 5.44 |
ProductCategory | Meat | 761 | 5.41 |
ProductCategory | Jams and Jellies | 588 | 4.18 |
ProductCategory | Baking Goods | 484 | 3.44 |
ProductCategory | Bread | 425 | 3.02 |
ProductCategory | Breakfast Foods | 417 | 2.97 |
ProductCategory | Canned Soup | 404 | 2.87 |
ProductCategory | Bathroom Products | 365 | 2.60 |
ProductCategory | Beer and Wine | 356 | 2.53 |
ProductCategory | Electrical | 355 | 2.53 |
ProductCategory | Candy | 352 | 2.50 |
ProductCategory | Paper Products | 345 | 2.45 |
ProductCategory | Frozen Desserts | 323 | 2.30 |
ProductCategory | Specialty | 289 | 2.06 |
ProductCategory | Starchy Foods | 277 | 1.97 |
ProductCategory | Hot Beverages | 226 | 1.61 |
ProductCategory | Kitchen Products | 217 | 1.54 |
ProductCategory | Magazines | 202 | 1.44 |
ProductCategory | Eggs | 198 | 1.41 |
ProductCategory | Hygiene | 197 | 1.40 |
ProductCategory | Pizza | 194 | 1.38 |
ProductCategory | Pain Relievers | 192 | 1.37 |
ProductCategory | Cleaning Supplies | 189 | 1.34 |
ProductCategory | Pure Juice Beverages | 165 | 1.17 |
ProductCategory | Carbonated Beverages | 154 | 1.10 |
ProductCategory | Side Dishes | 153 | 1.09 |
ProductCategory | Plastic Products | 141 | 1.00 |
ProductCategory | Drinks | 135 | 0.96 |
ProductCategory | Hardware | 129 | 0.92 |
ProductCategory | Frozen Entrees | 118 | 0.84 |
ProductCategory | Seafood | 102 | 0.73 |
ProductCategory | Cold Remedies | 93 | 0.66 |
ProductCategory | Canned Tuna | 87 | 0.62 |
ProductCategory | Decongestants | 85 | 0.60 |
ProductCategory | Canned Clams | 53 | 0.38 |
ProductCategory | Packaged Vegetables | 48 | 0.34 |
ProductCategory | Candles | 45 | 0.32 |
ProductCategory | Canned Anchovies | 44 | 0.31 |
ProductCategory | Miscellaneous | 42 | 0.30 |
ProductCategory | Canned Sardines | 40 | 0.28 |
ProductCategory | Canned Shrimp | 38 | 0.27 |
ProductCategory | Canned Oysters | 35 | 0.25 |
ProductDepartment | Produce | 1994 | 14.18 |
ProductDepartment | Snack Foods | 1600 | 11.38 |
ProductDepartment | Household | 1420 | 10.10 |
ProductDepartment | Frozen Foods | 1382 | 9.83 |
ProductDepartment | Baking Goods | 1072 | 7.63 |
ProductDepartment | Canned Foods | 977 | 6.95 |
ProductDepartment | Dairy | 903 | 6.42 |
ProductDepartment | Health and Hygiene | 893 | 6.35 |
ProductDepartment | Deli | 699 | 4.97 |
ProductDepartment | Beverages | 680 | 4.84 |
ProductDepartment | Baked Goods | 425 | 3.02 |
ProductDepartment | Alcoholic Beverages | 356 | 2.53 |
ProductDepartment | Snacks | 352 | 2.50 |
ProductDepartment | Starchy Foods | 277 | 1.97 |
ProductDepartment | Periodicals | 202 | 1.44 |
ProductDepartment | Eggs | 198 | 1.41 |
ProductDepartment | Breakfast Foods | 188 | 1.34 |
ProductDepartment | Canned Products | 109 | 0.78 |
ProductDepartment | Seafood | 102 | 0.73 |
ProductDepartment | Meat | 89 | 0.63 |
ProductDepartment | Checkout | 82 | 0.58 |
ProductDepartment | Carousel | 59 | 0.42 |
ProductFamily | Food | 10153 | 72.22 |
ProductFamily | Non-Consumable | 2656 | 18.89 |
ProductFamily | Drink | 1250 | 8.89 |
StateorProvince | WA | 4567 | 32.48 |
StateorProvince | CA | 2733 | 19.44 |
StateorProvince | OR | 2262 | 16.09 |
StateorProvince | Zacatecas | 1297 | 9.23 |
StateorProvince | DF | 815 | 5.80 |
StateorProvince | BC | 809 | 5.75 |
StateorProvince | Yucatan | 654 | 4.65 |
StateorProvince | Veracruz | 464 | 3.30 |
StateorProvince | Guerrero | 383 | 2.72 |
StateorProvince | Jalisco | 75 | 0.53 |
# Tính thống kê mô tả đầy đủ theo từng biến định tính
descriptive_stats_full <- big_tbl %>%
group_by(Bien) %>%
summarise(
Mean = mean(So_luong, na.rm = TRUE),
StdDev = sd(So_luong, na.rm = TRUE),
Min = min(So_luong, na.rm = TRUE),
Q1 = quantile(So_luong, 0.25, na.rm = TRUE),
Median = quantile(So_luong, 0.5, na.rm = TRUE),
Q3 = quantile(So_luong, 0.75, na.rm = TRUE),
Max = max(So_luong, na.rm = TRUE)
)
# Hiển thị bảng đẹp
kable(descriptive_stats_full,
digits = 2,
col.names = c("Biến", "Trung bình", "Độ lệch chuẩn", "Min", "Q1", "Trung vị", "Q3", "Max"),
caption = "Thống kê mô tả đầy đủ số lượng các mức theo từng biến định tính")
Biến | Trung bình | Độ lệch chuẩn | Min | Q1 | Trung vị | Q3 | Max |
---|---|---|---|---|---|---|---|
AnnualIncome | 1757.38 | 1511.35 | 273 | 635.50 | 1234.5 | 2550.00 | 4601 |
City | 611.26 | 370.75 | 75 | 285.00 | 633.0 | 870.50 | 1386 |
Country | 4686.33 | 4461.08 | 809 | 2248.50 | 3688.0 | 6625.00 | 9562 |
Gender | 7029.50 | 198.70 | 6889 | 6959.25 | 7029.5 | 7099.75 | 7170 |
Homeowner | 7029.50 | 2000.41 | 5615 | 6322.25 | 7029.5 | 7736.75 | 8444 |
MaritalStatus | 7029.50 | 231.22 | 6866 | 6947.75 | 7029.5 | 7111.25 | 7193 |
ProductCategory | 312.42 | 358.15 | 35 | 102.00 | 197.0 | 356.00 | 1728 |
ProductDepartment | 639.05 | 569.43 | 59 | 190.50 | 390.5 | 958.50 | 1994 |
ProductFamily | 4686.33 | 4786.18 | 1250 | 1953.00 | 2656.0 | 6404.50 | 10153 |
StateorProvince | 1405.90 | 1393.40 | 75 | 511.50 | 812.0 | 2020.75 | 4567 |
Nhận xét thống kê mô tả các biến định lượng:
AnnualIncome (Thu nhập hàng năm): Trung bình khoảng 1,757, với độ lệch chuẩn lớn (1,511), cho thấy sự chênh lệch thu nhập đáng kể trong tập khách hàng. Phân phối thu nhập có xu hướng lệch phải, với phần lớn khách có thu nhập thấp đến trung bình (Q1 = 635.5, Q3 = 2,550), trong khi một nhóm nhỏ có thu nhập rất cao (max = 4,601).
City (Số lượng khách theo thành phố): Trung bình là 611, dao động từ 75 đến 1,386. Điều này cho thấy số lượng khách phân bố không đồng đều giữa các thành phố, có nơi tập trung rất cao, nơi thì rất ít.
Country (Phân bổ theo quốc gia): Trung bình 4,686 với độ lệch chuẩn lớn (4,461), phản ánh sự mất cân đối mạnh giữa các quốc gia. Phần lớn khách hàng tập trung tại một vài quốc gia chính (như USA), các quốc gia khác chiếm tỷ trọng nhỏ.
Gender, Homeowner, MaritalStatus: Các biến dạng phân loại (được mã hóa số) có trung bình và trung vị gần nhau (~7,029), cho thấy phân phối khá đồng đều giữa các nhóm (giới tính, tình trạng hôn nhân, sở hữu nhà).
ProductCategory: Trung bình 312 với độ lệch chuẩn 358, cho thấy mức độ đa dạng cao giữa các danh mục sản phẩm.
ProductDepartment: Có độ phân tán lớn (std = 569), giá trị lớn nhất lên tới 1,994 sản phẩm, cho thấy một số phòng ban có rất nhiều sản phẩm, trong khi các phòng ban khác có số lượng ít.
ProductFamily: Trung bình 4,686 và độ lệch chuẩn cao (4,786), dao động từ 1,250 đến 10,153. Sự chênh lệch này cho thấy sự khác biệt rõ rệt về số lượng giữa các nhóm sản phẩm tiêu dùng.
StateorProvince: Trung bình 1,405 và độ lệch chuẩn cao (1,393), với min = 75 và max = 4,567. Điều này cho thấy sự phân bố khách hàng không đồng đều giữa các bang hoặc tỉnh, phản ánh thị trường tập trung ở một số khu vực nhất định.