NHIỆM VỤ TUẦN 1

Phần 1. Tóm tắt cuốn sách: 2019_Generalized Linear Models With Examples in R

Phần 2. Thực hiện thống kê mô tả cho các biến trong file: Supermarket Transactions

1 Phần 1: Tóm tắt sách

1.1 Thông tin chung

Thuộc tính Chi tiết
Tên sách Generalized Linear Models With Examples in R
Tác giả Peter K. Dunn (Queensland Uni. of Technology) & Gordon K. Smyth (Walter + Eliza Hall Institute)
Ấn bản trích dẫn Springer Texts in Statistics, 2nd edition 2018 (ấn bản in 2019)
Chủ đề Mô hình thống kê ứng dụng;
• Hồi quy tuyến tính (Linear Regression)
• Mô hình tuyến tính tổng quát (GLM) và họ Phân tán Hàm mũ (EDM)
• Thực hành bằng ngôn ngữ R

1.2 Mục tiêu & Độc giả

1.2.1 Mục tiêu

  1. Lý thuyết vững – giải thích nền tảng toán của OLS, MLE, IRLS, độ lệch & kiểm định.
  2. Thực hành liền mạch – trình diễn R (glm(), anova(), tweedie.profile()), gói GLMsData.
  3. Ứng dụng đa lĩnh vực – ví dụ y sinh, kinh tế, sinh thái, kỹ thuật.

1.2.2 Độc giả

  • Sinh viên ĐH & cao học các ngành thống kê, khoa học dữ liệu, kinh tế lượng.
  • Nhà phân tích đã quen R, muốn mở rộng từ hồi quy thường sang GLM.

Sách thường được dùng kèm các học phần “Regression Analysis”, “Applied GLM”, “R for Statistics”.

1.3 Nội dung từng chương

1.3.1 CHƯƠNG 1: MÔ HÌNH THỐNG KÊ (Statistical Models)

1.3.1.1 Giới thiệu

Chương này giới thiệu khái niệm cơ bản về mô hình thống kê như một cách để mô tả cả các đặc điểm ngẫu nhiên và có hệ thống của dữ liệu. Nó nhấn mạnh tầm quan trọng của việc sử dụng các mô hình để phân tích dữ liệu (“Data analysis: The need for models?” - Reese, 1986).

1.3.1.2 Cách biểu diễn dữ liệu

Mô tả dữ liệu Ví dụ minh họa với bộ dữ liệu FEV (dung tích phổi):

Biến Mô tả Kiểu
Age Tuổi (năm) Liên tục
FEV Dung tích thở ra (lít) Liên tục
Ht Chiều cao (cm) Liên tục
Gender Giới tính (F/M) Phân loại
Smoke Hút thuốc (0/1) Phân loại

1.3.1.3 Biểu đồ và trực quan hóa

Vẽ biểu đồ (scatter plot, boxplot) cho nhìn xu hướng, phát hiện quan hệ phi tuyến, thay đổi phương sai, điểm ngoại lai (outlier) và tương tác giữa các biến. Ví dụ: FEV tăng theo tuổi và chiều cao, phân bố khác biệt nhẹ theo giới tính, người hút thuốc thường lớn tuổi hơn nên có FEV trung bình cao hơn dù quan hệ nhân quả chưa được khẳng định.

1.3.1.4 Mã hóa biến phân loại

Để đưa biến phân loại vào mô hình, ta mã hóa thành biến giả (dummy variable):

  • Với \(k\) mức  \(\Rightarrow\)  cần \(k-1\) biến giả.
  • Ví dụ: Gender (F/M)  \(\rightarrow\)  biến \(x_{\text{Gender}} = 1\) nếu Male, \(0\) nếu Female (mức tham chiếu).
  • Có thể đổi mức tham chiếu bằng relevel() trong R.

1.3.1.5 Cấu trúc kép của mô hình thống kê

Mô hình thống kê luôn gồm:

Thành phần hệ thống – mô tả kỳ vọng:

\[ \mu_i = \mathbb{E}[y_i] = f(\beta_0 + \beta_1 x_{1i} + \cdots + \beta_p x_{pi}) \]

Thành phần ngẫu nhiên – mô tả sai số: \(\operatorname{Var}(y_i)\) quy định dạng phân phối (normal, binomial, …).

1.3.1.6 Mô hình hồi quy

Trình bày khung hồi quy tuyến tính và khái niệm “hồi quy tuyến tính trong tham số” (linear in parameters).
Hai họ mô hình cốt lõi:

  • Hồi quy tuyến tính (Linear regression).
  • Mô hình tuyến tính tổng quát (Generalized Linear Models – GLM) với hàm liên kết \(g(\mu)=\eta\).

1.3.1.7 Diễn giải tham số

  • \(\beta_j\): thay đổi trung bình của \(y\) khi \(x_j\) tăng 1 đơn vị (giữ các biến khác hằng).
  • Cần cẩn trọng khi các biến giải thích tương quan (ví dụ AgeHt).

1.3.1.8 “All Models Are Wrong, but Some Are Useful”

Mô hình là giản lược; giá trị của nó phụ thuộc mục đíchtính đúng đắn tương đối.
Luôn kiểm tra giả định và chấp nhận sai số.

1.3.1.9 Mục đích định hướng mô hình

  • Mô tả/diễn giải – hiểu cơ chế, ước lượng ảnh hưởng.
  • Dự đoán – tối ưu độ chính xác trên dữ liệu mới.

Mục tiêu quyết định cách chọn biến và mức độ phức tạp.

1.3.1.10 Chính xác vs Tính gọn (Accuracy vs Parsimony)

Nguyên lý Occam: mô hình phải cân bằng giữa độ khớpđơn giản.
- Mô hình quá đơn giản → bỏ lỡ tín hiệu.
- Mô hình quá phức tạp → overfitting.

1.3.1.11 Thí nghiệm và Nghiên cứu quan sát

  • Thí nghiệm (experiment): kiểm soát biến, có thể suy diễn nhân-quả.
  • Quan sát (observational): chỉ chứng minh mối liên hệ, dễ nhiễu bởi biến ẩn.

1.3.2 CHƯƠNG 2: MÔ HÌNH HỒI QUY TUYẾN TÍNH (Linear Regression Models)

1.3.2.1 Giới thiệu

Mô hình hồi quy tuyến tính là loại phổ biến nhất trong tất cả các mô hình hồi quy.

Đây là một trường hợp đặc biệt của mô hình tuyến tính tổng quát (GLM).

Chương này giới thiệu:

  • Khái niệm và ký hiệu của mô hình.

  • Ước lượng bình phương tối thiểu (OLS).

  • Hồi quy đơn và hồi quy bội.

  • Diễn giải hệ số hồi quy.

  • Suy luận thống kê.

  • Phân tích phương sai (ANOVA).

  • So sánh mô hình lồng và không lồng.

  • Chọn mô hình tốt nhất

1.3.2.2 Định nghĩa & Giả định

Thành phần Biểu thức / ký hiệu Giải thích Giả định chính
Ngẫu nhiên \(\text{Var}(y_i\mid x) = \sigma^{2} / w_i\) (\(w_i = 1\) → ordinary LR) Đặt biến, quan sát độc lập Sai số có kỳ vọng 0 và phương sai \(\sigma^{2}\).
Hệ thống \(\mu_i = \beta_0 + \sum_{j=1}^{p}\beta_j x_{ij}\) Quan hệ tuyến tính giữa \(y\) & \(x_{ij}\) Hồi quy tuyến tính (linear in parameters).

Trường hợp đặc biệt: simple (\(p = 1\)), multiple (\(p > 1\)), weighted, normal (thêm giả định \(y_i \sim \mathcal N\)).

1.3.2.3 Ước lượng bình phương tối thiểu (OLS)

  • Hàm mục tiêu
    \[ \text{RSS} = \sum_{i=1}^{n} w_i (y_i - \mu_i)^2. \]

  • Simple LR: có công thức đóng \(\hat\beta_1, \hat\beta_0\).

  • Multiple LR (ma trận):
    \[ \hat{\boldsymbol\beta} = (X^\top W X)^{-1} X^\top W\boldsymbol y,\qquad \widehat{\mu}_i = \hat\beta_0 + \sum_{j=1}^{p}\hat\beta_j x_{ij}. \]

  • Ước lượng phương sai
    \[ \hat\sigma^{2} = \frac{\text{RSS}}{\,n-p\,}. \]

1.3.2.4 Độ chính xác & Suy luận

  • Sai số chuẩn
    \[ \operatorname{se}(\hat\beta_j)=\sqrt{\hat\sigma^{2}\big[(X^\top X)^{-1}\big]_{jj}}. \]

  • Khoảng tin cậy \(100(1-\alpha)\%\):
    \(\hat\beta_j \pm t_{n-p;\,1-\alpha/2}\,\operatorname{se}(\hat\beta_j)\).

  • Kiểm định \(H_0:\beta_j=0\) dùng thống kê \(t\) (hoặc kiểm định \(F\) cho toàn mô hình).

1.3.2.5 Phân tích phương sai (ANOVA) & Độ phù hợp

  • Tách tổng sai số: \(\text{TSS} = \text{SSR} + \text{RSS}\).
  • \(R^{2} = \text{SSR}/\text{TSS} = 1 - \text{RSS}/\text{TSS}\).
  • \(R^{2}_{\text{adj}} = 1 - \dfrac{\text{RSS}/(n-p)}{\text{TSS}/(n-1)}\).
  • Bảng ANOVA liệt kê \(\text{SS}_{\text{Reg}}, \text{SS}_{\text{Res}}\), mseReg, mseRes cùng thống kê \(F\).

1.3.2.6 So sánh mô hình

Tình huống Thước đo Công thức/Luận điểm
Nested (mô hình rút gọn ⊂ mô hình đầy đủ) \(F = \dfrac{(\text{RSS}_r - \text{RSS}_f)/(p_r-p_f)}{\text{RSS}_f/(n-p_f)}\) \(F\) ~ \(F_{p_r-p_f,\;n-p_f}\); \(F\) lớn ⇒ mô hình đầy đủ tốt hơn
Non-nested AIC =\(-2\log\mathcal L + 2k\)
BIC =\(-2\log\mathcal L + k\log n\)
Giá trị nhỏ hơn ⇒ mô hình ưu tiên

1.3.2.7 Lựa chọn mô hình

  • Forward: thêm biến từng bước.
  • Backward: bớt biến từng bước.
  • Stepwise: kết hợp thêm-bớt; dừng khi AIC/BIC không còn giảm.
  • Nguyên tắc: đạt cân bằng giữa độ khớpđơn giản (Occam).

1.3.2.8 Ý nghĩa các hệ số

  • \(\beta_0\): giá trị kỳ vọng của \(y\) khi mọi \(x_j = 0\).
  • \(\beta_j\): thay đổi trung bình của \(y\) khi \(x_j\) tăng 1 đơn vị, giữ các biến khác cố định.

1.3.3 CHƯƠNG 3: CHẨN ĐOÁN MÔ HÌNH HỒI QUY TUYẾN TÍNH (Linear Regression Models: Diagnostics and Model-Building)

1.3.3.1 Giới thiệu và tổng quan

Sau khi xây dựng một mô hình hồi quy tuyến tính, công việc không kết thúc ở việc ước lượng các hệ số hồi quy và kiểm định ý nghĩa thống kê. Một bước quan trọng không thể thiếu là chẩn đoán mô hình – tức là đánh giá xem mô hình đã được xây dựng có thực sự phù hợp với dữ liệu hay không.

Chẩn đoán mô hình hồi quy là một phần thiết yếu trong phân tích dữ liệu vì nó giúp ta:

  • Xác minh các giả định cơ bản của mô hình hồi quy tuyến tính có được thỏa mãn hay không (ví dụ như quan hệ tuyến tính, phương sai không đổi, phân phối chuẩn…).

  • Phát hiện những quan sát bất thường như điểm ngoại lai (outliers) hoặc điểm có ảnh hưởng lớn (influential observations) – những điểm có thể bóp méo kết quả ước lượng hoặc kiểm định.

  • Đánh giá độ tin cậy của các hệ số ước lượng.

Đề xuất cách cải thiện mô hình, ví dụ: biến đổi biến, thêm hoặc bớt biến giải thích, sử dụng mô hình phi tuyến hoặc tổng quát (GLM) thay thế.

Nếu bỏ qua bước này, người phân tích dễ rơi vào bẫy của việc “phù hợp quá mức” (overfitting), hiểu sai mối quan hệ giữa các biến, hoặc dự đoán sai lệch trong thực tế. Do đó, chẩn đoán mô hình không phải là tùy chọn – mà là một phần bắt buộc trong phân tích hồi quy nghiêm túc.

Trong chương này, chúng ta sẽ học cách:

  • Kiểm tra các giả định của mô hình hồi quy.

  • Sử dụng phần dư (residuals) để kiểm tra độ phù hợp.

  • Phát hiện và xử lý các điểm ảnh hưởng lớn.

  • Đo lường hiện tượng đa cộng tuyến và cách giảm thiểu.

1.3.3.2 Giả định trong mô hình hồi quy tuyến tính

Giả định Vi phạm thường gặp Công cụ phát hiện
Tuyến tính Xu hướng cong Residual vs Fitted
Phương sai đồng nhất “Hình nón” của phần dư Scale-Location plot
Độc lập Tự tương quan ACF phần dư, DW test
Chuẩn hoá sai số Đuôi dày/lệch Q-Q plot

1.3.3.3 Phần dư – loại & vai trò

  • Raw \(e_i = y_i - \hat y_i\)
  • Standardized \(r_i = e_i\big/ \{s\sqrt{1-h_{ii}}\}\) – so sánh khi leverage khác nhau.
  • Studentized \(t_i = e_i\big/ \{s_i\sqrt{1-h_{ii}}\}\) – gần phân bố t, hữu ích tìm ngoại lai.

1.3.3.4 Đồ thị chẩn đoán chính

Residual vs Fitted, Normal Q-Q, Scale-Location, Residuals vs Leverage – hỗ trợ phát hiện vi phạm giả định & điểm ảnh hưởng.

1.3.3.5 Ngoại lai & điểm ảnh hưởng

Thước đo Ý nghĩa Ngưỡng gợi ý
\(t_i\) Phần dư Studentized \(|t_i| \gtrsim 2\) (thường dùng)
Leverage \(h_i\) Khoảng cách \(x_i\) đến trung tâm \(h_i > 2p/n\)
Cook’s D Kết hợp residual & leverage \(>0.5\) xem xét, \(>1\) ảnh hưởng lớn
dffits, dfbetas, CovRatio Ảnh hưởng lên \(\hat y_i\) hoặc \(\hat\beta_j\)

Bảng influence.measures() trong R gắn dấu () cho quan sát vi phạm các chuẩn trên.*

1.3.3.6 Đa cộng tuyến

  • \(\mathrm{VIF}_j = 1/(1 - R_j^2)\); VIF \(> 5\) (hoặc 10) ⇒ hệ số \(\beta_j\) thiếu ổn định.
  • Giải pháp: bỏ/gộp biến, biến đổi, hoặc dùng ridge / lasso.

1.3.3.7 Biện pháp khắc phục khi mô hình “không ổn”

  1. Biến đổi \(y\) hoặc \(x\) (log, sqrt, Box–Cox).
  2. Weighted least squares khi heteroscedasticity.
  3. Thêm biến quan trọng / chuyển sang hàm đa thức, tương tác, hoặc GLM nếu quan hệ phi tuyến.
  4. Loại / điều tra quan sát gây méo nhưng không đại diện cho quy trình sinh dữ liệu.
  5. Nếu đa cộng tuyến nặng → phạt (ridge) hoặc chọn biến (lasso/stepwise).

1.3.3.8 Quy trình xây dựng mô hình gợi ý

  1. Khám phá dữ liệu (đồ thị, kiến thức chuyên ngành).
  2. Khớp mô hình tạm → kiểm tra giả định, ngoại lai, tinh chỉnh.

1.3.4 CHƯƠNG 4: ƯỚC LƯỢNG HỢP LÝ TỐI ĐA (MAXIMUM LIKELIHOOD ESTIMATION – MLE)

1.3.4.1 Giới thiệu

Phương pháp bình phương tối thiểu (OLS) chỉ hoạt động hiệu quả khi dữ liệu thỏa mãn các giả định như phân phối chuẩn, phương sai không đổi, và biến phản hồi liên tục. Tuy nhiên, nhiều loại dữ liệu thực tế không tuân theo những điều kiện đó – ví dụ: dữ liệu nhị phân, đếm, hoặc dương liên tục. Khi đó, Maximum Likelihood Estimation (MLE) là phương pháp mạnh mẽ hơn, dùng để ước lượng các tham số trong mô hình tổng quát.

MLE là nền tảng cho mô hình tuyến tính tổng quát (GLM), vốn là trung tâm của phần còn lại trong sách.

1.3.4.2 Hàm hợp lý (Likelihood Function)

Cho mẫu \(y_1,\dots,y_n\) độc lập với mật độ \(f(y_i;\theta)\):

\[ L(\theta)=\prod_{i=1}^{n}f(y_i;\theta),\qquad \ell(\theta)=\log L(\theta)=\sum_{i=1}^{n}\log f(y_i;\theta). \]

  • Log-likelihood biến tích thành tổng → dễ lập hàm và tối ưu hoá.

1.3.4.3 Ước lượng MLE

\[ \hat{\theta}=\arg\max_{\theta}\,\ell(\theta) \quad\Longrightarrow\quad \frac{\partial\ell}{\partial\theta}=0 \ \text{(phương trình score)}. \]

  • Thường giải bằng Newton–Raphson, Fisher scoring
  • Kết quả dễ đánh giá tính lệch lạc & độ suy sai; \(\hat\theta\) thừa hưởng tính bất biến (invariance).

1.3.4.4 Score & thông tin Fisher

Khái niệm Công thức / tính chất Ý nghĩa
Score \(S(\theta)\) \(S(\theta)=\partial\ell/\partial\theta\) ; \(\mathbb E\big[S(\theta)\big]=0\) Đạo hàm log-likelihood
Fisher information \(I(\theta)\) \(I(\theta)=-\mathbb E\!\big[\partial^{2}\!\ell/\partial\theta^{2}\big]\) Độ chính xác tối đa có thể
Phương sai ước lượng \(\operatorname{Var}(\hat\theta)\approx I(\hat\theta)^{-1}\) Sai số chuẩn \(\text{se}(\hat\theta)=\sqrt{I(\hat\theta)^{-1}}\)

1.3.4.5 Thuộc tính lớn-mẫu của MLE

  • Nhất quán\(\hat\theta\;\xrightarrow{p}\;\theta\).
  • Không chệch tiệm cận\(\mathbb E[\hat\theta]\to\theta\).
  • Hiệu quả Đạt giới hạn Cramér–Rao (phương sai tối thiểu).
  • Tiệm cận chuẩn\(\displaystyle \hat\theta \;\dot\sim\; \mathcal N\!\bigl(\theta,\; I(\theta)^{-1}\bigr)\).

1.3.4.6 Kiểm định giả thuyết (ba “anh em” \(\chi^{2}\))

Tên Công thức kiểm định Phân phối (large \(n\))
Wald \(Z=\dfrac{\hat\theta-\theta_0}{\text{se}(\hat\theta)}\) \(Z\sim\mathcal N(0,1)\)\(Z^{2}\sim\chi^{2}_{1}\)
Likelihood-Ratio \(\text{LR}=2\bigl[\ell(\hat\theta)-\ell(\theta_0)\bigr]\) \(\chi^{2}_{\text{df}}\) (df = số tham số giam)
Score (LM) \(S=\dfrac{\,S(\theta_0)^{2}}{I(\theta_0)}\) \(\chi^{2}_{\text{df}}\)

1.3.4.7 Chọn mô hình khi không lồng

  • AIC \(= -2\ell + 2k\)
  • BIC \(= -2\ell + k\log n\)

Mô hình có AIC / BIC thấp hơn được ưu tiên.

1.3.4.8 Ứng dụng MLE cho dữ liệu “khác chuẩn”

Loại dữ liệu Phân phối Hàm liên kết \(h(\mu)\) Ý nghĩa tham số
Nhị phân Bernoulli \(\text{logit}\,(\mu)\) Logistic Regression
Đếm Poisson \(\log \mu\) Số lần xảy ra sự kiện
Dương liên tục Gamma / Inverse-Gaussian \(\log \mu\) hoặc \(\sqrt{\mu}\) Chi phí, thời gian, khoảng cách …

1.3.5 CHƯƠNG 5: CẤU TRÚC CỦA MÔ HÌNH TUYẾN TÍNH TỔNG QUÁT (GLM STRUCTURE)

1.3.5.1 Giới thiệu

Mô hình tuyến tính tổng quát (GLM) là một khuôn khổ mạnh mẽ cho việc mô hình hóa các loại dữ liệu khác nhau – không chỉ dữ liệu liên tục có phân phối chuẩn như trong hồi quy tuyến tính. GLM bao gồm hồi quy logistic, hồi quy Poisson, hồi quy Gamma… và mở rộng khả năng phân tích đến dữ liệu nhị phân, đếm, tỷ lệ và dương liên tục.

Mỗi GLM được xây dựng trên cùng một nguyên lý chung gồm ba thành phần chính: phân phối xác suất, hàm liên kết, và thành phần tuyến tính.

1.3.5.2 Cấu trúc 3 phần của GLM

1. Thành phần ngẫu nhiên (Random component)

Biến phản hồi \(y_i\) được giả định phân phối theo một phân phối thuộc họ hàm mũ một tham số (One-Parameter Exponential Family):

\[ f(y_i; \theta_i, \phi) = \exp \left\{ \frac{y_i \theta_i - b(\theta_i)}{\phi} + c(y_i, \phi) \right\} \]

Ý nghĩa các ký hiệu:

  • \(\theta_i\): tham số tự nhiên (natural parameter)
  • \(\phi\): tham số phân tán (dispersion parameter), không phải lúc nào cũng có (ví dụ Poisson thì \(\phi = 1\))
  • \(b(\theta_i)\): hàm log partition
  • \(c(y_i, \phi)\): hàm chuẩn hóa để bảo toàn tích phân bằng 1

→ Họ hàm mũ bao gồm Normal, Poisson, Binomial, Gamma,…


2. Thành phần hệ thống (Systematic component)

Giống như hồi quy tuyến tính, GLM vẫn dùng một predictor tuyến tính:

\[ \eta_i = x_i^T \beta = \beta_0 + \beta_1 x_{i1} + \cdots + \beta_p x_{ip} \]

Ý nghĩa:

  • \(\eta_i\): predictor tuyến tính
  • \(x_i\): vector hàng gồm các biến giải thích của quan sát \(i\)
  • \(\beta\): vector hệ số hồi quy

Đây là thành phần chứa ảnh hưởng của các biến độc lập lên mô hình.


3. Hàm liên kết (Link function)

GLM dùng một hàm liên kết \(g(\cdot)\) để kết nối trung bình \(\mu_i = E[y_i]\) với predictor tuyến tính \(\eta_i\):

\[ g(\mu_i) = \eta_i \quad \text{hay} \quad \mu_i = g^{-1}(\eta_i) \]

→ Cho phép mô hình hóa các biến phản hồi có đặc tính phi tuyến, không âm, giới hạn trong khoảng (0,1),…

Hàm liên kết thường dùng:

Phân phối \(\mu_i = E[y_i]\) Link function \(g(\mu)\) Ghi chú
Normal \(\mu \in \mathbb{R}\) \(g(\mu) = \mu\) (identity) Hồi quy tuyến tính chuẩn
Binomial \(\mu \in (0,1)\) \(g(\mu) = \log \frac{\mu}{1-\mu}\) Logistic regression
Poisson \(\mu > 0\) \(g(\mu) = \log(\mu)\) Hồi quy đếm
Gamma \(\mu > 0\) \(g(\mu) = \log(\mu)\) hoặc \(g(\mu) = \frac{1}{\mu}\) Mô hình dữ liệu dương

1.3.5.3 Ví dụ mô hình hóa trong GLM

1. Hồi quy Logistic (nhị phân)

\[ y_i \sim \text{Bernoulli}(\pi_i) \]

\[ g(\pi_i) = \log \left(\frac{\pi_i}{1-\pi_i}\right) = \eta_i \]

\[ \pi_i = P(y_i = 1 \mid x_i) \]

  • Dùng cho dữ liệu như: sống/chết, mua/không mua, đúng/sai…

2. Hồi quy Poisson (đếm)

\[ y_i \sim \text{Poisson}(\mu_i) \]

\[ \log(\mu_i) = x_i^T \beta \]

  • \(\mu_i\): số sự kiện kỳ vọng xảy ra.

  • Dùng cho dữ liệu: số ca bệnh, số lần vi phạm, số giao dịch…


3. Hồi quy Gamma (dương liên tục)

\[ y_i \sim \text{Gamma}(\alpha, \mu_i) \]

Hàm liên kết:

\[ g(\mu_i) = \log(\mu_i) \quad \text{hoặc} \quad g(\mu_i) = \frac{1}{\mu_i} \]

  • Dùng cho dữ liệu chi phí, độ dài, thời gian

1.3.5.4 Hàm phương sai (Variance Function)

Trong GLM, phương sai của \(y_i\) không cần bằng nhau mà được mô hình hóa như hàm của \(\mu_i\):

\[ \text{Var}(y_i) = \phi \cdot V(\mu_i) \]

Trong đó:

  • \(\phi\): tham số phân tán (dispersion parameter)
  • \(V(\mu)\): hàm phương sai phụ thuộc vào trung bình \(\mu\)

Hàm \(V(\mu)\) tùy theo phân phối như sau:

Phân phối \(V(\mu)\)
Normal 1
Binomial \(\mu (1 - \mu)\)
Poisson \(\mu\)
Gamma \(\mu^2\)

Việc mô hình hóa phương sai như trên giúp xử lý được hiện tượng phương sai thay đổi (heteroscedasticity), vốn là một giả định bị vi phạm trong phương pháp OLS (Hồi quy tuyến tính thông thường).

1.3.5.5 Các khái niệm mở rộng

Canonical Link Function là hàm liên kết sao cho predictor tuyến tính chính là tham số tự nhiên \(\theta\) trong phân phối họ hàm mũ:

\[ \theta_i = \eta_i = x_i^T \beta \]

Ví dụ về hàm liên kết chuẩn (canonical link):

Phân phối Hàm liên kết (Link function)
Binomial logit: \(\log\frac{\mu}{1-\mu}\)
Poisson log: \(\log(\mu)\)
Normal identity: \(\mu\)

Lưu ý: Dù GLM gọi là “tuyến tính”, nhưng mối quan hệ giữa \(y\)\(x\) có thể phi tuyến do sử dụng hàm liên kết (link function).

1.3.6 CHƯƠNG 6: ƯỚC LƯỢNG TRONG MÔ HÌNH TUYẾN TÍNH TỔNG QUÁT (GLMs)

1.3.6.1 Giới thiệu

Sau khi xác định được cấu trúc của một GLM (gồm phân phối xác suất, hàm liên kết và thành phần tuyến tính), bước tiếp theo là ước lượng các hệ số hồi quy \(\beta\) trong mô hình.

Khác với hồi quy tuyến tính cổ điển – nơi ta dùng phương pháp bình phương tối thiểu (OLS) – trong GLM, các hệ số được ước lượng bằng phương pháp hợp lý tối đa (Maximum Likelihood Estimation - MLE) thông qua một thuật toán gọi là Iteratively Reweighted Least Squares (IRLS).

Phương pháp IRLS thực hiện việc cập nhật các ước lượng \(\beta\) lặp đi lặp lại, mỗi lần dựa trên trọng số được điều chỉnh sao cho phù hợp với phân phối của dữ liệu và hàm liên kết được chọn.

1.3.6.2 Tổng quan về ước lượng hợp lý tối đa (MLE) trong GLM

Cho dữ liệu gồm:

  • Biến phản hồi: \(y_1, y_2, \ldots, y_n\) có thể là biến đếm, nhị phân hoặc liên tục dương…

  • Biến giải thích: \(x_{i1}, \ldots, x_{ip}\) với \(i=1, \ldots, n\).

Mô hình GLM được biểu diễn như sau:

\[ g(\mu_i) = \eta_i = \mathbf{x}_i^T \boldsymbol{\beta} \]

với

\[ \mu_i = E[y_i] = g^{-1}(\mathbf{x}_i^T \boldsymbol{\beta}) \]

Mục tiêu là tìm ước lượng \(\hat{\boldsymbol{\beta}}\) sao cho hàm log-likelihood đạt cực đại:

\[ \ell(\boldsymbol{\beta}) = \sum_{i=1}^n \log f(y_i; \theta_i) \]

trong đó:

  • \(f(y_i; \theta_i)\) là hàm mật độ xác suất (hoặc hàm khối xác suất) của biến \(y_i\),

  • \(\theta_i\) là tham số tự nhiên trong phân phối thuộc họ hàm mũ,

  • \(\theta_i\) có quan hệ với \(\mu_i\), từ đó liên hệ với \(\boldsymbol{\beta}\).

Việc ước lượng này thường được thực hiện bằng phương pháp hợp lý tối đa (MLE), sử dụng thuật toán Iteratively Reweighted Least Squares (IRLS).

1.3.6.3 Phương pháp IRLS (Iteratively Reweighted Least Squares)

1. Thuật toán IRLS (Iteratively Reweighted Least Squares):

GLM sử dụng thuật toán IRLS để tìm ước lượng \(\hat{\boldsymbol{\beta}}\). Thuật toán dựa trên việc lặp lại các bước hồi quy tuyến tính có trọng số.

2. Ý tưởng cơ bản:

  • Ở mỗi vòng lặp, mô hình GLM được xấp xỉ bằng một hồi quy tuyến tính với trọng số.

  • Biến giả (working response) \(\mathbf{z}\)ma trận trọng số \(\mathbf{W}\) được cập nhật liên tục ở mỗi bước.

3. Hệ phương trình IRLS:

\[ \mathbf{X}^T \mathbf{W} \mathbf{X} \hat{\boldsymbol{\beta}} = \mathbf{X}^T \mathbf{W} \mathbf{z} \]

Trong đó:

  • \(\mathbf{X}\) là ma trận thiết kế,

  • \(\mathbf{W}\) là ma trận trọng số kích thước \(n \times n\),

  • \(\mathbf{z}\) là vector biến giả \(n \times 1\), tính theo công thức:

\[ z_i = \eta_i + \frac{y_i - \mu_i}{\frac{d \mu_i}{d \eta_i}} \]

  • Trọng số \(W_i\) được tính theo:

\[ W_i = \left(\frac{d \mu_i}{d \eta_i}\right)^2 \Big/ \mathrm{Var}(y_i) \]

Quá trình này được lặp lại cho đến khi các ước lượng \(\boldsymbol{\beta}\) hội tụ.

1.3.6.4 Hàm điểm, ma trận Fisher và phương sai của ước lượng

Hàm điểm (Score Function)

Hàm điểm là đạo hàm của log-likelihood theo vector hệ số \(\boldsymbol{\beta}\):

\[ U(\boldsymbol{\beta}) = \frac{\partial \ell(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}} \]

Đây là hệ phương trình mà khi giải \(U(\boldsymbol{\beta}) = 0\), ta thu được ước lượng cực đại \(\hat{\boldsymbol{\beta}}\).


Ma trận thông tin Fisher

Ma trận thông tin Fisher là kỳ vọng âm của đạo hàm bậc hai của log-likelihood:

\[ \mathcal{I}(\boldsymbol{\beta}) = - \mathbb{E} \left[ \frac{\partial^2 \ell(\boldsymbol{\beta})}{\partial \boldsymbol{\beta} \, \partial \boldsymbol{\beta}^T} \right] \]

Ma trận này đóng vai trò như một thước đo độ “sắc nét” của log-likelihood tại điểm cực đại và được dùng để đánh giá độ chính xác của ước lượng.


Phương sai của \(\hat{\boldsymbol{\beta}}\)

Khi đã có ma trận thông tin Fisher, phương sai hiệp phương sai của vector hệ số ước lượng được tính là:

\[ \mathrm{Var}(\hat{\boldsymbol{\beta}}) = \mathcal{I}(\hat{\boldsymbol{\beta}})^{-1} \]

Nếu sử dụng thuật toán IRLS, ma trận thông tin Fisher được xấp xỉ bởi:

\[ \mathrm{Var}(\hat{\boldsymbol{\beta}}) = (\mathbf{X}^T \mathbf{W} \mathbf{X})^{-1} \]

Trong đó:

  • \(\mathbf{X}\): ma trận thiết kế,

  • \(\mathbf{W}\): ma trận trọng số tại nghiệm hội tụ,

  • Công thức này xuất hiện tự nhiên từ bước giải hệ phương trình IRLS.


Ghi chú

  • Công thức phương sai trên rất quan trọng để tính khoảng tin cậy và kiểm định giả thuyết trong GLM.

  • Với các mô hình lớn, ma trận \((\mathbf{X}^T \mathbf{W} \mathbf{X})^{-1}\) thường được tính thông qua giải hệ phương trình thay vì đảo trực tiếp để tránh sai số số học.

1.3.6.5 Sai số chuẩn và khoảng tin cậy

Sai số chuẩn (Standard Error)

Sau khi có được ước lượng \(\hat{\boldsymbol{\beta}}\) và ma trận phương sai hiệp phương sai \(\mathrm{Var}(\hat{\boldsymbol{\beta}})\), ta tính sai số chuẩn cho từng hệ số \(\hat{\beta}_j\) như sau:

\[ \mathrm{SE}(\hat{\beta}_j) = \sqrt{[\mathrm{Var}(\hat{\boldsymbol{\beta}})]_{jj}} \]

Trong đó, \([\cdot]_{jj}\) là phần tử hàng \(j\), cột \(j\) trong ma trận phương sai.


Khoảng tin cậy \(100(1 - \alpha)\%\)

Khoảng tin cậy cho hệ số \(\hat{\beta}_j\) được tính bằng công thức:

\[ \hat{\beta}_j \pm z_{\alpha/2} \cdot \mathrm{SE}(\hat{\beta}_j) \]

Trong đó:

  • \(z_{\alpha/2}\) là bách phân vị \(1 - \alpha/2\) của phân phối chuẩn chuẩn hóa (thường tra từ bảng Z),

  • Ví dụ: với \(\alpha = 0.05\), \(z_{0.025} \approx 1.96\) (tương ứng khoảng tin cậy 95%).


Kiểm định Wald

Kiểm định Wald giúp đánh giá giả thuyết:

\[ H_0: \beta_j = 0 \quad \text{vs} \quad H_1: \beta_j \neq 0 \]

Thống kê kiểm định:

\[ Z = \frac{\hat{\beta}_j}{\mathrm{SE}(\hat{\beta}_j)} \sim \mathcal{N}(0, 1) \]

Dựa vào giá trị \(Z\), ta có thể tính p-value và đưa ra kết luận thống kê.


Ghi chú

  • Kiểm định Wald được dùng phổ biến do tính đơn giản và có thể thực hiện ngay sau khi có ước lượng và phương sai.

  • Nếu \(|Z| > z_{\alpha/2}\), bác bỏ \(H_0\), tức là hệ số \(\beta_j\) có ý nghĩa thống kê.

1.3.6.6 Ước lượng tham số phân tán

Trong một số mô hình GLM, đặc biệt là khi phân phối thuộc họ phân phối mũ (exponential family) không chuẩn hóa, ta cần ước lượng tham số phân tán \(\phi\).

Công thức ước lượng:

\[ \hat{\phi} = \frac{1}{n - p} \sum_{i=1}^{n} \frac{(y_i - \hat{\mu}_i)^2}{V(\hat{\mu}_i)} \]

Trong đó:

  • \(n\): số quan sát

  • \(p\): số tham số trong mô hình (bao gồm hệ số chặn nếu có)

  • \(\hat{\mu}_i = \mathbb{E}[y_i] = g^{-1}(\eta_i)\): giá trị kỳ vọng được ước lượng

  • \(V(\hat{\mu}_i)\): hàm phương sai, phụ thuộc vào phân phối:

Phân phối Hàm phương sai \(V(\mu)\)
Gaussian \(1\)
Poisson \(\mu\)
Binomial (logit) \(\mu(1 - \mu)\)

1.3.7 CHƯƠNG 7: ĐÁNH GIÁ MỨC ĐỘ PHÙ HỢP VÀ LỰA CHỌN MÔ HÌNH TRONG GLM

1.3.7.1 Giới thiệu

Sau khi ước lượng các tham số \(\beta\) trong GLM, bước tiếp theo là đánh giá xem mô hình có phù hợp với dữ liệu không, và nếu có nhiều mô hình cạnh tranh, thì nên chọn mô hình nào là tốt nhất.

Các công cụ đánh giá bao gồm:

  • Deviance (độ lệch)

  • Kiểm định \(\chi^2\)

  • AIC, BIC

  • So sánh mô hình lồng và không lồng

  • Đồ thị phần dư và điểm ảnh hưởng

1.3.7.2 Deviance – đo lường mức độ phù hợp của mô hình

Định nghĩa:

Deviance là đại lượng đo sự khác biệt giữa mô hình hiện tại và mô hình đầy đủ (saturated model) – tức mô hình khớp hoàn toàn với dữ liệu.

\[ D(y; \hat{\mu}) = 2 \left[ \ell(y; y) - \ell(\hat{\mu}; y) \right] \]

Giải thích ký hiệu:

  • \(\ell(y; y)\): log-likelihood của mô hình bão hòa (saturated model)

  • \(\ell(\hat{\mu}; y)\): log-likelihood của mô hình đang xét

\(\Rightarrow\) Deviance càng nhỏ → mô hình càng gần với mô hình bão hòa → phù hợp hơn.

1.3.7.3 So sánh mô hình bằng kiểm định deviance

Khi hai mô hình lồng nhau, ta có thể so sánh bằng kiểm định sai biệt deviance:

Công thức kiểm định:

\[ \Delta D = D_{\text{reduced}} - D_{\text{full}} \sim \chi^2_{df} \]

Trong đó:

  • \(df\): số tham số bị ràng buộc trong mô hình nhỏ hơn

\(\Rightarrow\) Nếu \(\Delta D\) lớn và p-value nhỏ → mô hình đầy đủ tốt hơn.

1.3.7.4 AIC và BIC – lựa chọn giữa các mô hình không lồng

Khi các mô hình không lồng nhau, ta dùng tiêu chí thông tin để so sánh:

AIC (Akaike Information Criterion):

\[ AIC = -2\ell + 2k \]

  • \(\ell\): log-likelihood

  • \(k\): số tham số trong mô hình

BIC (Bayesian Information Criterion):

\[ BIC = -2\ell + \log(n) \cdot k \]

  • \(n\): số quan sát

\(\Rightarrow\) Chọn mô hình có AIC/BIC thấp hơn.

\(\Rightarrow\) BIC phạt các mô hình phức tạp nhiều hơn so với AIC.


1.3.7.5 Đồ thị chẩn đoán và phần dư

Phần dư (residuals):

  • Phần dư thô (raw residual):

\[ e_i = y_i - \hat{\mu}_i \]

  • Phần dư Pearson:

\[ r_i = \frac{y_i - \hat{\mu}_i}{\sqrt{V(\hat{\mu}_i)}} \]

  • Phần dư deviance:

\[ d_i = \text{sign}(y_i - \hat{\mu}_i) \cdot \sqrt{2\left[\ell(y_i; y_i) - \ell(\hat{\mu}_i; y_i)\right]} \]

Biểu đồ kiểm tra mô hình (Diagnostic plots):

  • Residuals vs Fitted

  • Normal Q-Q (nếu mô hình gần phân phối chuẩn)

  • Scale-Location plot

  • Cook’s distance vs Leverage

Các biểu đồ này giúp phát hiện điểm ngoại laiđiểm ảnh hưởng mạnh đến mô hình.


1.3.7.6 Kiểm định Pearson Chi-square

Phép kiểm định Pearson đo sự khác biệt giữa dữ liệu quan sát và giá trị kỳ vọng từ mô hình:

\[ X^2 = \sum_{i=1}^n \frac{(y_i - \hat{\mu}_i)^2}{V(\hat{\mu}_i)} \]

Nếu \(X^2\) lớn hơn mức kỳ vọng theo phân phối \(\chi^2_{df}\) → mô hình có thể không phù hợp với dữ liệu.

1.3.7.7 Độ phân tán và vấn đề overdispersion

Một số mô hình GLM như Poisson hoặc Binomial giả định hệ số phân tán là:

\[ \phi = 1 \]

Tuy nhiên, trong thực tế, nếu phương sai quan sát lớn hơn phương sai lý thuyết, ta gọi là overdispersion (quá phân tán).

Kiểm tra overdispersion:

Hệ số phân tán ước lượng được tính theo công thức:

\[ \hat{\phi} = \frac{\text{Deviance}}{n - p} \]

  • \(n\): số quan sát

  • \(p\): số tham số trong mô hình

\(\Rightarrow\) Nếu:

\[ \hat{\phi} > 1.5 \]

→ Mô hình có thể bị overdispersed (quá phân tán)

\(\Rightarrow\) Trong trường hợp này, cần điều chỉnh mô hình, ví dụ:

  • Sử dụng quasi-Poisson

  • Hoặc Negative Binomial

1.3.8 CHƯƠNG 8: HỒI QUY LOGISTIC (LOGISTIC REGRESSION)

1.3.8.1 Giới thiệu

Hồi quy logistic là một trong những mô hình phổ biến nhất thuộc họ GLM, được dùng để mô hình hóa dữ liệu nhị phân (binary), tức khi biến phản hồi

\[ y \in \{0,1\} \]

Ví dụ: bệnh/không bệnh, mua/không mua, đạt/không đạt.

Đặc điểm:
\[ \mu_i = E[y_i] = P(y_i=1) \in (0,1) \]

Sử dụng hàm liên kết logit:
\[ g(\mu_i) = \log\left(\frac{\mu_i}{1-\mu_i}\right) = \eta_i = x_i^T \beta \]

1.3.8.2 Phân phối Bernoulli và hàm log-likelihood

Biến phản hồi

\[ y_i \in \{0,1\} \]
phân phối theo:

\[ y_i \sim \text{Bernoulli}(\pi_i) \]

Trong đó:

\[ \pi_i = P(y_i=1) \]
và:
\[ \log\left(\frac{\pi_i}{1-\pi_i}\right) = x_i^T \beta \]

Log-likelihood cho toàn bộ mẫu:
\[ \ell(\beta) = \sum_{i=1}^n \left[ y_i \log(\pi_i) + (1 - y_i) \log(1-\pi_i) \right] \]

Không có nghiệm giải tường minh → dùng IRLS để tìm \(\hat{\beta}\).

1.3.8.3 Diễn giải hệ số hồi quy trong logistic regression

Khi dùng logit link:
\[ \eta_i = \log\left(\frac{\pi_i}{1-\pi_i}\right) = x_i^T \beta \]

\(\beta_j\) đại diện cho log odds ratio:
\[ \text{Odds ratio} = \exp(\beta_j) \]

  • Nếu \(\beta_j > 0\): biến \(x_j\) làm tăng khả năng \(y=1\)

  • Nếu \(\beta_j < 0\): biến \(x_j\) làm giảm khả năng \(y=1\)

1.3.8.4 Khoảng tin cậy và kiểm định

Sau khi ước lượng \(\hat{\beta}\), ta kiểm định từng hệ số:

Kiểm định Wald:
\[ Z_j = \frac{\hat{\beta}_j}{SE(\hat{\beta}_j)} \sim N(0,1) \]

Khoảng tin cậy 95%:
\[ \hat{\beta}_j \pm z_{0.975} \cdot SE(\hat{\beta}_j) \]

Chuyển sang odds ratio bằng
\[ \exp(\hat{\beta}_j) \]

1.3.8.5 Đánh giá mô hình

Deviance:
\[ D = -2 \left[ \ell(\hat{\beta}) - \ell_{\text{saturated}} \right] \]

Kiểm định deviance giữa mô hình đầy đủ và mô hình rút gọn.

Pseudo-\(R^2\):
\[ R^2 = 1 - \frac{D_{\text{model}}}{D_{\text{null}}} \]

1.3.8.6 Mô hình hóa với nhiều biến (multiple predictors)

Có thể mở rộng logistic regression để bao gồm nhiều biến giải thích:

\[ \log\left(\frac{\pi_i}{1-\pi_i}\right) = \beta_0 + \beta_1 x_{i1} + \cdots + \beta_p x_{ip} \]

→ Mô hình đa biến logistic.

1.3.8.7 Mô hình hóa tỷ lệ (Grouped binomial model)

Khi dữ liệu không phải từng quan sát riêng lẻ, mà là tổng hợp
\[ \frac{y_i}{n_i} \]
ta dùng:
\[ y_i \sim \text{Binomial}(n_i, \pi_i) \]

Log-likelihood:
\[ \ell(\beta) = \sum_{i=1}^n \left[ y_i \log(\pi_i) + (n_i - y_i) \log(1-\pi_i) \right] \]

1.3.9 CHƯƠNG 9: HỒI QUY POISSON (POISSON REGRESSION)

1.3.9.1 Giới thiệu và ứng dụng thực tế

Hồi quy Poisson là một mô hình thuộc họ GLM, được sử dụng để mô hình hóa các biến phản hồi là số lượng sự kiện đếm được trên một đơn vị quan sát, chẳng hạn như:

  • Số lần nhập viện

  • Số vụ tai nạn giao thông

  • Số lỗi phần mềm phát sinh

Đặc biệt phù hợp khi:

  • Biến phản hồi \(y \in \{0, 1, 2, \ldots \}\)

  • Dữ liệu không âm, rời rạc

  • Mục tiêu là ước lượng số sự kiện trung bình theo các đặc tính \(x\)

1.3.9.2 Phân phối Poisson và liên kết log

Hàm xác suất:
\[ P(y_i) = \frac{e^{-\mu_i} \mu_i^{y_i}}{y_i!}, \quad y_i = 0, 1, 2, \ldots \]

Trong đó:

\[ \mu_i = E[y_i] : \text{số sự kiện kỳ vọng của quan sát thứ } i \]

\[ \text{Var}(y_i) = \mu_i \quad : \text{đặc điểm then chốt} \]

Hàm liên kết (canonical):

\[ \eta_i = \log(\mu_i) = x_i^T \beta \implies \mu_i = e^{x_i^T \beta} \]

Hàm log đảm bảo:

\[ \mu_i > 0 \]

Mối quan hệ tuyến tính trên log-scale.

1.3.9.3 Hàm log-likelihood và phương trình điểm

Log-likelihood của mô hình:

\[ \ell(\beta) = \sum_{i=1}^n \left[ y_i \log(\mu_i) - \mu_i - \log(y_i!) \right] \]

Thay \(\mu_i = e^{x_i^T \beta}\), ta được:

\[ \ell(\beta) = \sum_{i=1}^n \left[ y_i x_i^T \beta - e^{x_i^T \beta} - \log(y_i!) \right] \]

Score function (đạo hàm log-likelihood):

\[ U(\beta) = \sum_{i=1}^n x_i (y_i - \mu_i) \]

Giải phương trình \(U(\beta) = 0\) → tìm \(\hat{\beta}\) bằng IRLS.

1.3.9.4 Diễn giải hệ số hồi quy

Trong hồi quy Poisson:

  • Mỗi \(\beta_j\) là tác động log tuyến tính đến số sự kiện trung bình.

  • \(e^{\beta_j}\) là tỷ lệ thay đổi kỳ vọng \(\mu\) khi \(x_j\) tăng 1 đơn vị, giữ các biến khác không đổi.

Ví dụ:

  • \(\beta_j = 0.693 \Rightarrow e^{0.693} = 2\): số sự kiện kỳ vọng gấp đôi khi \(x_j\) tăng 1 đơn vị.

  • \(\beta_j = -0.223\) → giảm khoảng 20%.

1.3.9.5 Tỷ lệ xảy ra & offset

Offset là gì?
Khi quan sát không đồng nhất về thời gian/phạm vi, cần điều chỉnh bằng offset.

Ví dụ:

  • Quan sát 1: 5 tai nạn trong 10 ngày

  • Quan sát 2: 2 tai nạn trong 2 ngày

Không thể so sánh số tuyệt đối → dùng tỷ lệ:
\[ \frac{\mu_i}{t_i} \implies \log(\mu_i) = \log(t_i) + x_i^T \beta \]

Trong đó \(\log(t_i)\)offset – không có hệ số, nhưng được đưa vào mô hình.

1.3.9.6 Overdispersion (phân tán quá mức)

Trong lý thuyết:

\[ \mathrm{Var}(y_i) = \mu_i \]

Nhưng thực tế thường thấy:

\[ \mathrm{Var}(y_i) > \mu_i \quad \Rightarrow \quad \text{overdispersion} \]

Nguyên nhân do bỏ sót biến quan trọng, quá nhiều giá trị 0, hoặc biến động ngẫu nhiên vượt mức.

Hệ số phân tán:

\[ \hat{\phi} = \frac{\text{Deviance}}{n - p} \]

Nếu \(\hat{\phi} > 1.5\) thì đáng lo ngại.

Cách xử lý:

  • Sử dụng quasi-Poisson: điều chỉnh phương sai mà không thay đổi kỳ vọng.

  • Dùng Negative Binomial: thêm tham số \(\alpha\) để điều chỉnh phương sai.

1.3.9.7 Đánh giá mô hình

  • Deviance: kiểm tra mức độ phù hợp của mô hình.

  • AIC: chọn mô hình tốt nhất.

  • Kiểm định deviance: so sánh hai mô hình lồng nhau.

  • Biểu đồ phần dư:

    • Residuals vs fitted

    • Deviance residuals

    • Cook’s distance

Kiểm định Pearson chi-square:

\[ X^2 = \sum_{i=1}^n \frac{(y_i - \mu_i)^2}{\mu_i} \quad \Rightarrow \quad X^2 \sim \chi^2_{n-p} \]

1.3.9.8 So sánh với các mô hình khác

Mô hình Khi nào dùng
Poisson Dữ liệu đếm, phương sai gần bằng kỳ vọng (\(\mathrm{Var}(y) \approx E(y)\))
Quasi-Poisson Khi có overdispersion nhẹ, giữ cùng hàm liên kết (link function)
Negative Binomial Khi overdispersion nặng hoặc dữ liệu có quá nhiều giá trị 0

1.3.10 CHƯƠNG 10: HỒI QUY GAMMA (GAMMA REGRESSION)

1.3.10.1 Giới thiệu

Hồi quy Gamma là một mô hình thuộc họ GLM dùng để mô hình hóa các biến phản hồi dương liên tục có phương sai tăng theo giá trị trung bình.

Ví dụ ứng dụng:

  • Chi phí y tế

  • Thời gian sống (survival time)

  • Lượng tiêu thụ năng lượng

1.3.10.2 Phân phối Gamma

Giả định biến ngẫu nhiên \(y_i\) phân phối Gamma với tham số:

\[ y_i \sim Gamma(\alpha, \mu_i) \]

Trong đó:

  • \(\mu_i = E[y_i]\) là kỳ vọng.

  • Phương sai:
    \[ Var(y_i) = \frac{\mu_i^2}{\alpha} = \phi \mu_i^2 \]

Phương sai tỷ lệ với bình phương kỳ vọng, phù hợp khi biến thiên tỷ lệ không đổi.

1.3.10.3 Hàm mật độ xác suất Gamma (dạng GLM)

Hàm mật độ xác suất:

\[ f(y; \mu, \phi) = \frac{1}{\Gamma(1/\phi)} \left(\frac{1}{\phi \mu}\right)^{1/\phi} y^{\frac{1}{\phi}-1} \exp\left(-\frac{y}{\phi \mu}\right) \]

Hàm này thuộc họ hàm mũ (exponential family), với:

\[ \theta = -\frac{1}{\mu} \]

\[ b(\theta) = -\log(-\theta) \]

Hàm phương sai:

\[ V(\mu) = \mu^2 \]

\(\phi\) là tham số phân tán.

1.3.10.5 Ước lượng trong hồi quy Gamma

Ước lượng tham số \(\beta\) bằng phương pháp hợp lý tối đa (MLE) qua thuật toán IRLS.

Hàm log-likelihood:

\[ \ell(\beta) = \sum_{i=1}^n \left[-\log(\mu_i) - \frac{y_i}{\mu_i} \right] + \text{hằng số} \]

với:

\[ \mu_i = e^{x_i^T \beta} \]

Phương trình điểm:

\[ \frac{\partial \ell}{\partial \beta} = \sum_{i=1}^n x_i \left( y_i - \frac{\mu_i}{\mu_i^2} \cdot \frac{d\mu_i}{d\eta_i} \right) = 0 \]

Dùng IRLS để giải phương trình và tìm nghiệm \(\hat{\beta}\).

1.3.10.6 Diễn giải hệ số

Với link log:

\[ \log(\mu_i) = \beta_0 + \beta_1 x_{i1} + \cdots + \beta_p x_{ip} \implies \mu_i = e^{x_i^T \beta} \]

Mỗi hệ số \(\beta_j\) được hiểu là tác động trên log-scale, nghĩa là ảnh hưởng đến log của kỳ vọng trung bình.

  • Khi \(x_j\) tăng 1 đơn vị, trung bình \(\mu\) thay đổi theo tỷ lệ:

\[ e^{\beta_j} \]

tức là hệ số tỷ lệ thay đổi của \(\mu\).

1.3.10.7 Kiểm định và khoảng tin cậy

  • Wald test để kiểm định:

\[ Z_j = \frac{\hat{\beta}_j}{SE(\hat{\beta}_j)} \sim \mathcal{N}(0,1) \]

  • Khoảng tin cậy cho \(\beta_j\):

\[ \hat{\beta}_j \pm z_{\alpha/2} \cdot SE(\hat{\beta}_j) \]

  • Chuyển sang khoảng tin cậy tỷ lệ thay đổi trung bình:

\[ \left(e^{\hat{\beta}_j - z_{\alpha/2} SE(\hat{\beta}_j)}, \quad e^{\hat{\beta}_j + z_{\alpha/2} SE(\hat{\beta}_j)} \right) \]

1.3.10.8 Kiểm tra độ phù hợp (Goodness-of-fit)

  • Deviance:

\[ D = 2 \sum_{i=1}^n \left[ \frac{y_i - \mu_i}{\mu_i} - \log\left(\frac{y_i}{\mu_i}\right) \right] \]

  • Pearson chi-square:

\[ X^2 = \sum_{i=1}^n \left( \frac{y_i - \mu_i}{\mu_i} \right)^2 \]

Hai chỉ số này dùng để đánh giá độ phù hợp của mô hình và phát hiện hiện tượng overdispersion nếu có.

1.3.10.9 So sánh với mô hình khác

Mô hình Khi dùng
Hồi quy tuyến tính Khi dữ liệu phân phối chuẩn, phương sai không đổi
Hồi quy Gamma Khi dữ liệu dương, phương sai tỷ lệ với bình phương trung bình
Hồi quy log-normal Khi \(\log(y)\) phân phối chuẩn (sau biến đổi log)

1.3.11 CHƯƠNG 11: DỮ LIỆU NHÓM HOẶC TỶ LỆ (GROUPED DATA OR PROPORTIONS)

1.3.11.1 Giới thiệu

Dữ liệu nhị phân dạng 0/1 được mô hình hóa bằng hồi quy logistic. Tuy nhiên, nếu dữ liệu có dạng tổng hợp (grouped) hoặc thể hiện dưới dạng tỷ lệ, ví dụ:

20 thành công trong 30 thử nghiệm → \(y = 20, n = 30\)

  • Tỷ lệ mắc bệnh ở mỗi quận

  • Tỷ lệ sinh viên đậu trong từng lớp

→ Cần dùng GLM dạng nhị thức tổng quát (binomial GLM), áp dụng cho số lần thành công trên số lần thử.

1.3.11.2 Mô hình hóa số thành công trong nhóm

Với \(y_i \sim \text{Binomial}(n_i, \pi_i)\), ta mô hình hóa:

\[ \log \left(\frac{\pi_i}{1 - \pi_i}\right) = \eta_i = x_i^T \beta \implies \pi_i = \frac{e^{x_i^T \beta}}{1 + e^{x_i^T \beta}} \]

Trong đó:

  • \(y_i\): số thành công trong nhóm \(i\)

  • \(n_i\): tổng số thử nghiệm trong nhóm \(i\)

  • \(\pi_i\): xác suất thành công

  • \(\mu_i = E[y_i] = n_i \pi_i\)

  • \(\text{Var}(y_i) = n_i \pi_i (1 - \pi_i)\)

→ Phù hợp cho dữ liệu dạng “n trials, k successes”.

1.3.11.3 Log-likelihood và IRLS

Hàm log-likelihood:

\[ \ell(\beta) = \sum_{i=1}^n \left[ y_i \log(\pi_i) + (n_i - y_i) \log(1 - \pi_i) \right] \]

Tối đa hóa log-likelihood bằng IRLS (như logistic), nhưng có thêm yếu tố \(n_i\).

Biến giả và trọng số:

\[ w_i = n_i \pi_i (1 - \pi_i) \]

\[ z_i = \eta_i + \frac{y_i - n_i \pi_i}{n_i \pi_i (1 - \pi_i)} \]

1.3.11.4 Ưu điểm so với mô hình nhị phân

Dạng dữ liệu Mô hình tương ứng Ghi chú
0/1 từng cá nhân Hồi quy logistic \(y_i \sim \text{Bernoulli}(\pi_i)\)
Nhóm nhiều cá nhân Binomial GLM với \(y_i / n_i\) \(y_i \sim \text{Binomial}(n_i, \pi_i)\)

→ Mô hình nhóm cho kết quả ước lượng chính xác hơn vì dùng nhiều thông tin hơn trên mỗi quan sát.

1.3.11.5 Dữ liệu tỷ lệ (proportions)

Nếu \(y_i / n_i\) được ghi dưới dạng tỷ lệ (0 < tỷ lệ < 1), ta vẫn dùng mô hình:

\[ \log \left(\frac{y_i / n_i}{1 - y_i / n_i}\right) = x_i^T \beta \]

→ Nhưng phải chỉ rõ số lần thử \(n_i\) để tính đúng phương sai.

1.3.11.6 Kiểm định mô hình

  • Wald test cho các hệ số

  • Kiểm định deviance giữa mô hình đầy đủ và rút gọn

  • AIC/BIC để chọn mô hình

  • Phần dư Pearson / deviance để phát hiện điểm bất thường

1.3.11.7 Kiểm tra overdispersion

Giống hồi quy logistic, mô hình binomial giả định:

\[ \text{Var}(y_i) = n_i \pi_i (1 - \pi_i) \]

Nếu thấy phương sai quan sát lớn hơn → overdispersion.

Kiểm tra:

\[ \hat{\phi} = \frac{\text{Deviance}}{n - p} \]

→ Nếu \(\hat{\phi} > 1.5\): cần chuyển sang mô hình quasi-binomial

1.3.12 CHƯƠNG 12: MÔ HÌNH TUYẾN TÍNH TỔNG QUÁT TWEEDEE (TWEEDIE GLMs)

1.3.12.1 Giới thiệu

Mô hình Tweedie GLM mở rộng họ hàm mũ bằng cách cho phép phân phối có đặc điểm trung gian giữa các phân phối quen thuộc như:

  • Gaussian

  • Poisson

  • Gamma

  • Inverse Gaussian

Mô hình Tweedie phù hợp với các loại dữ liệu có đặc điểm:

  • Liên tục dương + rất nhiều giá trị 0
    (ví dụ: dữ liệu chi phí, có người không tiêu dùng)

  • Phân tán quá mức (overdispersion)

  • Có cả phần rời rạc (0, 1, 2, …) lẫn liên tục dương

→ Ứng dụng rộng rãi trong bảo hiểm, tài chính, y tế, và các bài toán zero-inflated data.

1.3.12.2 Định nghĩa và tính chất

Tweedie là một lớp phân phối thuộc họ hàm mũ (exponential family), với hàm phương sai có dạng:

\[ \text{Var}(Y) = \phi \mu^p \]

Trong đó:

  • \(\mu = \mathbb{E}[Y]\): kỳ vọng

  • \(\phi > 0\): hệ số phân tán

  • \(p\): chỉ số sức mạnh (power index)

1.3.12.3 Giá trị đặc biệt của chỉ số \(p\)

\(p\) Phân phối tương ứng
0 Gaussian (Normal)
1 Poisson
\((1, 2)\) Tweedie hỗn hợp (0 + dương liên tục)
2 Gamma
3 Inverse Gaussian

→ Với \(1 < p < 2\), mô hình Tweedie hỗn hợp có thể:

  • Tái hiện được số lượng lớn giá trị 0

  • Mô hình hóa được giá trị dương liên tục

Rất phù hợp cho các bài toán như chi phí bảo hiểm, tổn thất, dữ liệu có số 0 và giá trị tiền tệ.

2 Phần 2: Thống kê mô tả dữ liệu

2.1 Đọc file CSV

Tệp Supermarket Transactions ở định dạng CSV, ta lưu toàn bộ dữ liệu vào biến data. Nhờ vậy, ta có thể dễ dàng sử dụng data để xử lý và phân tích sau này.

library(readr)
## Warning: package 'readr' was built under R version 4.3.3
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.3.3
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(skimr)
library(psych)
## Warning: package 'psych' was built under R version 4.3.3
library(csv)
## Warning: package 'csv' was built under R version 4.3.3
library(dplyr)
library(ggplot2)
## 
## Attaching package: 'ggplot2'
## The following objects are masked from 'package:psych':
## 
##     %+%, alpha
library(summarytools)
library(tidyverse)
## Warning: package 'tidyverse' was built under R version 4.3.3
## Warning: package 'lubridate' was built under R version 4.3.3
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ lubridate 1.9.3     ✔ tibble    3.2.1
## ✔ purrr     1.0.2     ✔ tidyr     1.3.0
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ ggplot2::%+%()   masks psych::%+%()
## ✖ ggplot2::alpha() masks psych::alpha()
## ✖ dplyr::filter()  masks stats::filter()
## ✖ dplyr::lag()     masks stats::lag()
## ✖ tibble::view()   masks summarytools::view()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(lubridate)
library(scales) 
## 
## Attaching package: 'scales'
## 
## The following object is masked from 'package:purrr':
## 
##     discard
## 
## The following objects are masked from 'package:psych':
## 
##     alpha, rescale
## 
## The following object is masked from 'package:readr':
## 
##     col_factor
data <- read.csv("C:/Users/ASUS/Downloads/Supermarket Transactions.csv", header = T)

2.2 Tổng quan bộ dữ liệu

2.2.1 Nội dung bộ dữ liệu

Bộ dữ liệu Supermarket Transactions ghi lại các giao dịch mua hàng tại một hệ thống siêu thị, kèm theo thông tin khách hàng, địa lý, và chi tiết sản phẩm.

Nó có thể dùng để phân tích hành vi mua sắm, phân khúc khách hàng, hoặc hiệu suất kinh doanh theo sản phẩm, khu vực, nhân khẩu học.

2.2.2 Danh sách các biến và mô tả

Tên của các biến trong bộ dữ liệu sẽ bao gồm:

names(data)
##  [1] "X"                 "PurchaseDate"      "CustomerID"       
##  [4] "Gender"            "MaritalStatus"     "Homeowner"        
##  [7] "Children"          "AnnualIncome"      "City"             
## [10] "StateorProvince"   "Country"           "ProductFamily"    
## [13] "ProductDepartment" "ProductCategory"   "UnitsSold"        
## [16] "Revenue"

Cụ thể từng các biến và quan sát có ý nghĩa như sau:

variable_description <- data.frame(
  Variable = c(
    "Unnamed: 0", "PurchaseDate", "CustomerID", "Gender", "MaritalStatus",
    "Homeowner", "Children", "AnnualIncome", "City", "StateorProvince",
    "Country", "ProductFamily", "ProductDepartment", "ProductCategory",
    "UnitsSold", "Revenue"
  ),
  Description = c(
    "Ma dong (co the bo qua)",
    "Ngay mua hang",
    "ID khach hang",
    "Gioi tinh (F: nu, M: nam)",
    "Tinh trang hon nhan (S: doc than, M: da ket hon)",
    "So huu nha (Y: co, N: khong)",
    "So con trong gia dinh",
    "Thu nhap hang nam (theo nhom)",
    "Thanh pho sinh song",
    "Bang / tinh",
    "Quoc gia",
    "Nhom san pham chinh (Food, Drink, ...)",
    "Phong ban san pham (Snacks, Produce, ...)",
    "Danh muc san pham cu the",
    "So luong san pham da ban",
    "Doanh thu tu giao dich (USD)"
  ),
  stringsAsFactors = FALSE
)

library(knitr)
kable(variable_description, col.names = c("Bien", "Mo ta"))
Bien Mo ta
Unnamed: 0 Ma dong (co the bo qua)
PurchaseDate Ngay mua hang
CustomerID ID khach hang
Gender Gioi tinh (F: nu, M: nam)
MaritalStatus Tinh trang hon nhan (S: doc than, M: da ket hon)
Homeowner So huu nha (Y: co, N: khong)
Children So con trong gia dinh
AnnualIncome Thu nhap hang nam (theo nhom)
City Thanh pho sinh song
StateorProvince Bang / tinh
Country Quoc gia
ProductFamily Nhom san pham chinh (Food, Drink, …)
ProductDepartment Phong ban san pham (Snacks, Produce, …)
ProductCategory Danh muc san pham cu the
UnitsSold So luong san pham da ban
Revenue Doanh thu tu giao dich (USD)

2.3 Thống kê mô tả cho các biến

2.3.1 Số biến và số quan sát

  • Bộ dữ liệu gồm 14059 quan sát, tương ứng với 14.059 giao dịch mua hàng tại siêu thị. Mỗi quan sát đại diện cho một lần mua hàng, cùng với 16 yếu tố mô tả đã nói trên
dim(data)
## [1] 14059    16

2.3.2 Kiểm tra cấu trúc tổng quát

Để có cái nhìn tổng quát hơn về cấu trúc tổng thể của bộ dữ liệu, ta thực hiện việc kiểm tra các thành phần cơ bản như số lượng biến, kiểu dữ liệu của từng biến, cũng như một số thông tin tổng quan khác.

str(data)
## 'data.frame':    14059 obs. of  16 variables:
##  $ X                : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ PurchaseDate     : chr  "2007-12-18" "2007-12-20" "2007-12-21" "2007-12-21" ...
##  $ CustomerID       : int  7223 7841 8374 9619 1900 6696 9673 354 1293 7938 ...
##  $ Gender           : chr  "F" "M" "F" "M" ...
##  $ MaritalStatus    : chr  "S" "M" "M" "M" ...
##  $ Homeowner        : chr  "Y" "Y" "N" "Y" ...
##  $ Children         : int  2 5 2 3 3 3 2 2 3 1 ...
##  $ AnnualIncome     : chr  "$30K - $50K" "$70K - $90K" "$50K - $70K" "$30K - $50K" ...
##  $ City             : chr  "Los Angeles" "Los Angeles" "Bremerton" "Portland" ...
##  $ StateorProvince  : chr  "CA" "CA" "WA" "OR" ...
##  $ Country          : chr  "USA" "USA" "USA" "USA" ...
##  $ ProductFamily    : chr  "Food" "Food" "Food" "Food" ...
##  $ ProductDepartment: chr  "Snack Foods" "Produce" "Snack Foods" "Snacks" ...
##  $ ProductCategory  : chr  "Snack Foods" "Vegetables" "Snack Foods" "Candy" ...
##  $ UnitsSold        : int  5 5 3 4 4 3 4 6 1 2 ...
##  $ Revenue          : num  27.38 14.9 5.52 4.44 14 ...

2.3.3 Thống kê mô tả cho các biến phân loại

Bộ dữ liệu bao gồm cả biến định tính như thông tin định danh và phân loại khách hàng, không thể sử dụng trực tiếp trong các phép tính số học như biến định lượng (doanh thu, số lượng…). Vì vậy, khi thực hiện thống kê mô tả, cần phân biệt rõ hai loại biến để áp dụng phương pháp xử lý phù hợp và chính xác.

2.3.3.1 Thống kê mô tả biến định lượng

library(psych)
library(dplyr)  
describe(select(data, UnitsSold, Revenue, Children))
##           vars     n  mean   sd median trimmed  mad  min  max range  skew
## UnitsSold    1 14059  4.08 1.17   4.00    4.08 1.48 1.00  8.0  7.00  0.01
## Revenue      2 14059 13.00 8.22  11.25   12.05 7.40 0.53 56.7 56.17  1.13
## Children     3 14059  2.53 1.49   3.00    2.53 1.48 0.00  5.0  5.00 -0.02
##           kurtosis   se
## UnitsSold    -0.44 0.01
## Revenue       1.39 0.07
## Children     -1.03 0.01

Nhận xét

UnitsSold: Mỗi giao dịch thường gồm khoảng 4 món; giá trị thấp nhất là 1, cao nhất là 8, nên lượng hàng mua khá ổn định và gần cân đối giữa các hóa đơn.

Revenue: Trung bình một hóa đơn vào khoảng 13 USD nhưng dao động khá rộng (từ chưa tới 1 USD đến gần 57 USD). Điều này cho thấy có nhiều hóa đơn nhỏ trong khi một số ít giao dịch có giá trị rất cao, làm phân bố lệch về phía phải.

Children: Khách hàng trung bình có khoảng 2–3 con; dữ liệu trải từ 0 đến 5 con và tương đối đối xứng, không xuất hiện giá trị cực đoan.

2.3.3.2 Thống kê mô tả biến định tính

# Lấy tên các biến định tính
categorical_vars <- c(
  "Gender", "MaritalStatus", "Homeowner", "AnnualIncome",
  "City", "StateorProvince", "Country",
  "ProductFamily", "ProductDepartment", "ProductCategory"
)

# Tạo bảng tần số cho từng biến
for (var in categorical_vars) {
  cat("\n###", var, "\n")
  print(table(data[[var]]))
  cat("\n")
}
## 
## ### Gender 
## 
##    F    M 
## 7170 6889 
## 
## 
## ### MaritalStatus 
## 
##    M    S 
## 6866 7193 
## 
## 
## ### Homeowner 
## 
##    N    Y 
## 5615 8444 
## 
## 
## ### AnnualIncome 
## 
##   $10K - $30K $110K - $130K $130K - $150K       $150K +   $30K - $50K 
##          3090           643           760           273          4601 
##   $50K - $70K   $70K - $90K  $90K - $110K 
##          2370          1709           613 
## 
## 
## ### City 
## 
##      Acapulco    Bellingham Beverly Hills     Bremerton       Camacho 
##           383           143           811           834           452 
##   Guadalajara       Hidalgo   Los Angeles        Merida   Mexico City 
##            75           845           926           654           194 
##       Orizaba      Portland         Salem    San Andres     San Diego 
##           464           876          1386           621           866 
## San Francisco       Seattle       Spokane        Tacoma     Vancouver 
##           130           922           875          1257           633 
##      Victoria   Walla Walla        Yakima 
##           176           160           376 
## 
## 
## ### StateorProvince 
## 
##        BC        CA        DF  Guerrero   Jalisco        OR  Veracruz        WA 
##       809      2733       815       383        75      2262       464      4567 
##   Yucatan Zacatecas 
##       654      1297 
## 
## 
## ### Country 
## 
## Canada Mexico    USA 
##    809   3688   9562 
## 
## 
## ### ProductFamily 
## 
##          Drink           Food Non-Consumable 
##           1250          10153           2656 
## 
## 
## ### ProductDepartment 
## 
## Alcoholic Beverages         Baked Goods        Baking Goods           Beverages 
##                 356                 425                1072                 680 
##     Breakfast Foods        Canned Foods     Canned Products            Carousel 
##                 188                 977                 109                  59 
##            Checkout               Dairy                Deli                Eggs 
##                  82                 903                 699                 198 
##        Frozen Foods  Health and Hygiene           Household                Meat 
##                1382                 893                1420                  89 
##         Periodicals             Produce             Seafood         Snack Foods 
##                 202                1994                 102                1600 
##              Snacks       Starchy Foods 
##                 352                 277 
## 
## 
## ### ProductCategory 
## 
##         Baking Goods    Bathroom Products        Beer and Wine 
##                  484                  365                  356 
##                Bread      Breakfast Foods              Candles 
##                  425                  417                   45 
##                Candy     Canned Anchovies         Canned Clams 
##                  352                   44                   53 
##       Canned Oysters      Canned Sardines        Canned Shrimp 
##                   35                   40                   38 
##          Canned Soup          Canned Tuna Carbonated Beverages 
##                  404                   87                  154 
##    Cleaning Supplies        Cold Remedies                Dairy 
##                  189                   93                  903 
##        Decongestants               Drinks                 Eggs 
##                   85                  135                  198 
##           Electrical      Frozen Desserts       Frozen Entrees 
##                  355                  323                  118 
##                Fruit             Hardware        Hot Beverages 
##                  765                  129                  226 
##              Hygiene     Jams and Jellies     Kitchen Products 
##                  197                  588                  217 
##            Magazines                 Meat        Miscellaneous 
##                  202                  761                   42 
##  Packaged Vegetables       Pain Relievers       Paper Products 
##                   48                  192                  345 
##                Pizza     Plastic Products Pure Juice Beverages 
##                  194                  141                  165 
##              Seafood          Side Dishes          Snack Foods 
##                  102                  153                 1600 
##            Specialty        Starchy Foods           Vegetables 
##                  289                  277                 1728
2.3.3.2.1 Gender (Giới tính)
# Tần suất và biểu đồ giới tính
gender_freq <- data %>% count(Gender)
gender_freq
##   Gender    n
## 1      F 7170
## 2      M 6889
# Biểu đồ
ggplot(gender_freq, aes(x = Gender, y = n, fill = Gender)) +
  geom_col() +
  labs(title = "Phân phối giới tính", x = "Giới tính", y = "Số lượng") +
  theme_minimal()

Nhận xét

Tỷ lệ nam–nữ khá cân bằng; nữ chỉ nhỉnh hơn nam khoảng 2 %.

2.3.3.2.2 MaritalStatus (Tình trạng hôn nhân)
marital_freq <- data %>% count(MaritalStatus)
marital_freq
##   MaritalStatus    n
## 1             M 6866
## 2             S 7193
ggplot(marital_freq, aes(x = MaritalStatus, y = n, fill = MaritalStatus)) +
  geom_col() +
  labs(title = "Tình trạng hôn nhân", x = "Tình trạng", y = "Số lượng") +
  theme_minimal()

Nhận xét

Người chưa kết hôn (S) hơi nhiều hơn người đã kết hôn (M); chênh lệch dưới 3 %.

2.3.3.2.3 Homeowner (Sở hữu nhà)
homeowner_freq <- data %>% count(Homeowner)
homeowner_freq
##   Homeowner    n
## 1         N 5615
## 2         Y 8444
ggplot(homeowner_freq, aes(x = Homeowner, y = n, fill = Homeowner)) +
  geom_col() +
  labs(title = "Khách hàng có sở hữu nhà không?", x = "Homeowner", y = "Số lượng") +
  theme_minimal()

Nhận xét

Đa số (≈ 60 %) là chủ sở hữu nhà; nhóm không sở hữu chiếm khoảng 40 %.

2.3.3.2.4 AnnualIncome (Thu nhập hàng năm – theo nhóm)
# Làm sạch biến AnnualIncome nếu cần
data$AnnualIncome <- gsub("\\$", "", data$AnnualIncome)
data$AnnualIncome <- gsub("\u2013", "-", data$AnnualIncome)
data$AnnualIncome <- trimws(data$AnnualIncome)
data$AnnualIncome <- as.factor(data$AnnualIncome)

# Tính tần suất và tỷ lệ phần trăm
income_table <- table(data$AnnualIncome)
income_prop  <- prop.table(income_table)

# Kết hợp thành bảng
income_df <- data.frame(
  Muc      = names(income_table),
  So_luong = as.vector(income_table),
  Ty_le    = round(100 * as.vector(income_prop), 2)
)

# Hiển thị bảng đẹp
kable(income_df, col.names = c("Mức thu nhập", "Số lượng", "Tỷ lệ (%)"))
Mức thu nhập Số lượng Tỷ lệ (%)
10K - 30K 3090 21.98
110K - 130K 643 4.57
130K - 150K 760 5.41
150K + 273 1.94
30K - 50K 4601 32.73
50K - 70K 2370 16.86
70K - 90K 1709 12.16
90K - 110K 613 4.36

Nhận xét

Phân bố lệch trái (skew về mức thu nhập thấp–trung bình): khoảng 55 % quan sát tập trung trong hai nhóm 10 K – 50 K.

Tỷ lệ giảm dần rõ rệt khi thu nhập vượt 70 K; nhóm 150 K + chỉ chiếm ~2 %.

Không có nhóm nào quá nhỏ tới mức < 1 %, nên biến vẫn đủ thông tin để phân tích; tuy vậy có thể cân nhắc gộp các nhóm thu nhập cao để đảm bảo kích thước mẫu nếu cần mô hình hoá chi tiết.

2.3.3.2.5 City (Thành phố)
# Nếu muốn, có thể bỏ khoảng trắng dư và ép factor
data$City <- trimws(data$City)
data$City <- as.factor(data$City)

# Tính tần suất & tỷ lệ phần trăm
city_table <- table(data$City)
city_prop  <- prop.table(city_table)

# Ghép thành data‑frame
city_df <- data.frame(
  City     = names(city_table),
  So_luong = as.vector(city_table),
  Ty_le    = round(100 * as.vector(city_prop), 2),
  row.names = NULL
)

# Hiển thị bảng đẹp
kable(city_df,
      col.names = c("Thành phố", "Số lượng", "Tỷ lệ (%)"))
Thành phố Số lượng Tỷ lệ (%)
Acapulco 383 2.72
Bellingham 143 1.02
Beverly Hills 811 5.77
Bremerton 834 5.93
Camacho 452 3.22
Guadalajara 75 0.53
Hidalgo 845 6.01
Los Angeles 926 6.59
Merida 654 4.65
Mexico City 194 1.38
Orizaba 464 3.30
Portland 876 6.23
Salem 1386 9.86
San Andres 621 4.42
San Diego 866 6.16
San Francisco 130 0.92
Seattle 922 6.56
Spokane 875 6.22
Tacoma 1257 8.94
Vancouver 633 4.50
Victoria 176 1.25
Walla Walla 160 1.14
Yakima 376 2.67

Nhận xét

Phân bố khá đa dạng: 6 / 20 thành phố chiếm > 40 % dữ liệu, nhưng không có thành phố nào vượt xa 10 %.

Salem và Tacoma nổi bật nhất; cụm 6 thành phố quanh mức ~6 % tạo mặt cắt thứ hai.

Nhiều thành phố có tỷ lệ rất nhỏ (< 1 %) → nếu mô hình hóa, nên cân nhắc gộp nhóm hoặc giữ dưới dạng “khác” để tránh hệ số không ổn định.

2.3.3.2.6 StateorProvince (Bang hoặc tỉnh)
# Làm sạch nhẹ (bỏ khoảng trắng thừa) rồi ép factor
data$StateorProvince <- trimws(data$StateorProvince)
data$StateorProvince <- as.factor(data$StateorProvince)

# Tần suất & tỷ lệ
state_tab  <- table(data$StateorProvince)
state_prop <- prop.table(state_tab)

# Kết hợp thành bảng
state_df <- data.frame(
  Bang_Tinh = names(state_tab),
  So_luong  = as.vector(state_tab),
  Ty_le     = round(100 * as.vector(state_prop), 2),
  row.names = NULL
)

# Hiển thị
kable(state_df,
      col.names = c("Bang/Tỉnh", "Số lượng", "Tỷ lệ (%)"))
Bang/Tỉnh Số lượng Tỷ lệ (%)
BC 809 5.75
CA 2733 19.44
DF 815 5.80
Guerrero 383 2.72
Jalisco 75 0.53
OR 2262 16.09
Veracruz 464 3.30
WA 4567 32.48
Yucatan 654 4.65
Zacatecas 1297 9.23

Nhận xét

Phân bố dữ liệu không đều: ba bang WA, CA, OR chiếm gần 70 % mẫu (riêng WA đã hơn 1/3), trong khi các bang Mexico và Canada chỉ góp phần nhỏ. Một số bang như Jalisco xuất hiện rất ít (< 1 %), nên nếu mô hình hóa cần cân nhắc gộp vào nhóm “khác” để tránh độ tin cậy kém.

2.3.3.2.7 Country (Quốc gia)
country_freq <- data %>% count(Country, sort = TRUE)
country_freq
##   Country    n
## 1     USA 9562
## 2  Mexico 3688
## 3  Canada  809
ggplot(country_freq, aes(x = reorder(Country, n), y = n)) +
  geom_col(fill = "orange") +
  coord_flip() +
  labs(title = "Phân phối khách hàng theo quốc gia", x = "Quốc gia", y = "Số lượng") +
  theme_minimal()

Nhận xét

USA chiếm tỷ trọng lớn nhất – khoảng 68 % mẫu ⇒ dữ liệu thiên mạnh về Hoa Kỳ.

Mexico đứng thứ hai, khoảng 26 %, đủ lớn để phân tích riêng.

Canada chỉ khoảng 6 % – nhóm nhỏ nhất nhưng vẫn > 5 %, có thể giữ nguyên hoặc gộp với “khác” tùy mục đích mô hình.

2.3.3.2.8 ProductFamily (Nhóm sản phẩm)
family_freq <- data %>% count(ProductFamily, sort = TRUE)
family_freq
##    ProductFamily     n
## 1           Food 10153
## 2 Non-Consumable  2656
## 3          Drink  1250
ggplot(family_freq, aes(x = reorder(ProductFamily, n), y = n)) +
  geom_col(fill = "blue") +
  coord_flip() +
  labs(title = "Phân phối theo nhóm sản phẩm", x = "Nhóm sản phẩm", y = "Số lượng") +
  theme_minimal()

Nhận xét

Food chiếm áp đảo – khoảng 72 % tổng số giao dịch, cho thấy danh mục thực phẩm là mảng kinh doanh chính.

Non-Consumable đứng thứ hai với ≈ 19 %; nhóm hàng phi tiêu dùng có quy mô đáng kể nhưng vẫn kém xa Food.

Drink chỉ ≈ 9 %, là phân khúc nhỏ nhất trong ba nhóm. → Phân bố khá lệch, tập trung mạnh vào sản phẩm thực phẩm; nếu cần phân tích chi tiết, nên kiểm tra thêm độ đa dạng và biên lợi nhuận giữa ba nhóm.

2.3.3.2.9 ProductDepartment (Phòng ban sản phẩm)
dept_freq <- data %>% count(ProductDepartment, sort = TRUE)
dept_freq
##      ProductDepartment    n
## 1              Produce 1994
## 2          Snack Foods 1600
## 3            Household 1420
## 4         Frozen Foods 1382
## 5         Baking Goods 1072
## 6         Canned Foods  977
## 7                Dairy  903
## 8   Health and Hygiene  893
## 9                 Deli  699
## 10           Beverages  680
## 11         Baked Goods  425
## 12 Alcoholic Beverages  356
## 13              Snacks  352
## 14       Starchy Foods  277
## 15         Periodicals  202
## 16                Eggs  198
## 17     Breakfast Foods  188
## 18     Canned Products  109
## 19             Seafood  102
## 20                Meat   89
## 21            Checkout   82
## 22            Carousel   59
ggplot(dept_freq, aes(x = reorder(ProductDepartment, n), y = n)) +
  geom_col(fill = "red") +
  coord_flip() +
  labs(title = "Phân phối theo phòng ban sản phẩm", x = "Phòng ban", y = "Số lượng") +
  theme_minimal()

Nhận xét

Produce (rau tươi) chiếm nhiều nhất (~14%) → khách chuộng thực phẩm tươi.

Snack Foods & Frozen Foods đứng kế → món nhanh, tiện dụng rất hút khách.

Household > 10% → đồ dùng thiết yếu, thích hợp bán kèm.

Meat, Seafood, Periodicals… tỷ trọng nhỏ → chưa phải ưu tiên.

2.3.3.2.10 ProductCategory (Danh mục sản phẩm cụ thể)
# Làm sạch biến ProductCategory nếu cần
data$ProductCategory <- trimws(data$ProductCategory)
data$ProductCategory <- as.factor(data$ProductCategory)

# Tính tần suất và tỷ lệ phần trăm
pc_table <- table(data$ProductCategory)
pc_prop  <- prop.table(pc_table)

# Kết hợp thành bảng
pc_df <- data.frame(
  ProductCategory = names(pc_table),
  So_luong       = as.vector(pc_table),
  Ty_le          = round(100 * as.vector(pc_prop), 2),
  row.names      = NULL
)

# Hiển thị bảng đẹp
kable(pc_df,
      col.names = c("Danh mục sản phẩm", "Số lượng", "Tỷ lệ (%)"))
Danh mục sản phẩm Số lượng Tỷ lệ (%)
Baking Goods 484 3.44
Bathroom Products 365 2.60
Beer and Wine 356 2.53
Bread 425 3.02
Breakfast Foods 417 2.97
Candles 45 0.32
Candy 352 2.50
Canned Anchovies 44 0.31
Canned Clams 53 0.38
Canned Oysters 35 0.25
Canned Sardines 40 0.28
Canned Shrimp 38 0.27
Canned Soup 404 2.87
Canned Tuna 87 0.62
Carbonated Beverages 154 1.10
Cleaning Supplies 189 1.34
Cold Remedies 93 0.66
Dairy 903 6.42
Decongestants 85 0.60
Drinks 135 0.96
Eggs 198 1.41
Electrical 355 2.53
Frozen Desserts 323 2.30
Frozen Entrees 118 0.84
Fruit 765 5.44
Hardware 129 0.92
Hot Beverages 226 1.61
Hygiene 197 1.40
Jams and Jellies 588 4.18
Kitchen Products 217 1.54
Magazines 202 1.44
Meat 761 5.41
Miscellaneous 42 0.30
Packaged Vegetables 48 0.34
Pain Relievers 192 1.37
Paper Products 345 2.45
Pizza 194 1.38
Plastic Products 141 1.00
Pure Juice Beverages 165 1.17
Seafood 102 0.73
Side Dishes 153 1.09
Snack Foods 1600 11.38
Specialty 289 2.06
Starchy Foods 277 1.97
Vegetables 1728 12.29

Nhận xét

Vegetables dẫn đầu (≈ 12 %) → khách rất chuộng thực phẩm tươi.

Snack Foods bám sát → nhu cầu đồ ăn nhanh, tiện lợi cao.

Dairy, Fruit, Meat cũng bán mạnh vì là hàng thiết yếu hằng ngày.

Canned Seafood và các nhóm lẻ (< 1 %) ít được mua.

2.3.3.3 Thống kê mô tả của các biến định tính

# Danh sách các biến định tính
cat_vars <- c("Gender", "MaritalStatus", "Homeowner", "AnnualIncome",
              "City", "StateorProvince", "Country",
              "ProductFamily", "ProductDepartment", "ProductCategory")

# Hàm xử lý từng biến
cat_summary <- function(df, var) {
  v <- trimws(df[[var]])         # loại bỏ khoảng trắng
  v <- as.factor(v)              # ép kiểu factor nếu chưa
  tbl  <- table(v, useNA = "ifany")
  prop <- prop.table(tbl)

  data.frame(
    Bien     = var,
    Muc      = names(tbl),
    So_luong = as.vector(tbl),
    Ty_le    = round(100 * as.vector(prop), 2),
    row.names = NULL,
    stringsAsFactors = FALSE
  )
}

# Áp dụng cho tất cả biến và nối thành 1 bảng lớn
big_tbl <- bind_rows(lapply(cat_vars, function(x) cat_summary(data, x)))

# (Tùy chọn) Sắp xếp theo biến rồi giảm dần số lượng
big_tbl <- big_tbl %>%
  arrange(Bien, desc(So_luong))

# Hiển thị bảng thống kê
kable(big_tbl,
      col.names = c("Biến", "Mức", "Số lượng", "Tỷ lệ (%)"),
      caption = "Bảng thống kê mô tả cho tất cả biến định tính")
Bảng thống kê mô tả cho tất cả biến định tính
Biến Mức Số lượng Tỷ lệ (%)
AnnualIncome 30K - 50K 4601 32.73
AnnualIncome 10K - 30K 3090 21.98
AnnualIncome 50K - 70K 2370 16.86
AnnualIncome 70K - 90K 1709 12.16
AnnualIncome 130K - 150K 760 5.41
AnnualIncome 110K - 130K 643 4.57
AnnualIncome 90K - 110K 613 4.36
AnnualIncome 150K + 273 1.94
City Salem 1386 9.86
City Tacoma 1257 8.94
City Los Angeles 926 6.59
City Seattle 922 6.56
City Portland 876 6.23
City Spokane 875 6.22
City San Diego 866 6.16
City Hidalgo 845 6.01
City Bremerton 834 5.93
City Beverly Hills 811 5.77
City Merida 654 4.65
City Vancouver 633 4.50
City San Andres 621 4.42
City Orizaba 464 3.30
City Camacho 452 3.22
City Acapulco 383 2.72
City Yakima 376 2.67
City Mexico City 194 1.38
City Victoria 176 1.25
City Walla Walla 160 1.14
City Bellingham 143 1.02
City San Francisco 130 0.92
City Guadalajara 75 0.53
Country USA 9562 68.01
Country Mexico 3688 26.23
Country Canada 809 5.75
Gender F 7170 51.00
Gender M 6889 49.00
Homeowner Y 8444 60.06
Homeowner N 5615 39.94
MaritalStatus S 7193 51.16
MaritalStatus M 6866 48.84
ProductCategory Vegetables 1728 12.29
ProductCategory Snack Foods 1600 11.38
ProductCategory Dairy 903 6.42
ProductCategory Fruit 765 5.44
ProductCategory Meat 761 5.41
ProductCategory Jams and Jellies 588 4.18
ProductCategory Baking Goods 484 3.44
ProductCategory Bread 425 3.02
ProductCategory Breakfast Foods 417 2.97
ProductCategory Canned Soup 404 2.87
ProductCategory Bathroom Products 365 2.60
ProductCategory Beer and Wine 356 2.53
ProductCategory Electrical 355 2.53
ProductCategory Candy 352 2.50
ProductCategory Paper Products 345 2.45
ProductCategory Frozen Desserts 323 2.30
ProductCategory Specialty 289 2.06
ProductCategory Starchy Foods 277 1.97
ProductCategory Hot Beverages 226 1.61
ProductCategory Kitchen Products 217 1.54
ProductCategory Magazines 202 1.44
ProductCategory Eggs 198 1.41
ProductCategory Hygiene 197 1.40
ProductCategory Pizza 194 1.38
ProductCategory Pain Relievers 192 1.37
ProductCategory Cleaning Supplies 189 1.34
ProductCategory Pure Juice Beverages 165 1.17
ProductCategory Carbonated Beverages 154 1.10
ProductCategory Side Dishes 153 1.09
ProductCategory Plastic Products 141 1.00
ProductCategory Drinks 135 0.96
ProductCategory Hardware 129 0.92
ProductCategory Frozen Entrees 118 0.84
ProductCategory Seafood 102 0.73
ProductCategory Cold Remedies 93 0.66
ProductCategory Canned Tuna 87 0.62
ProductCategory Decongestants 85 0.60
ProductCategory Canned Clams 53 0.38
ProductCategory Packaged Vegetables 48 0.34
ProductCategory Candles 45 0.32
ProductCategory Canned Anchovies 44 0.31
ProductCategory Miscellaneous 42 0.30
ProductCategory Canned Sardines 40 0.28
ProductCategory Canned Shrimp 38 0.27
ProductCategory Canned Oysters 35 0.25
ProductDepartment Produce 1994 14.18
ProductDepartment Snack Foods 1600 11.38
ProductDepartment Household 1420 10.10
ProductDepartment Frozen Foods 1382 9.83
ProductDepartment Baking Goods 1072 7.63
ProductDepartment Canned Foods 977 6.95
ProductDepartment Dairy 903 6.42
ProductDepartment Health and Hygiene 893 6.35
ProductDepartment Deli 699 4.97
ProductDepartment Beverages 680 4.84
ProductDepartment Baked Goods 425 3.02
ProductDepartment Alcoholic Beverages 356 2.53
ProductDepartment Snacks 352 2.50
ProductDepartment Starchy Foods 277 1.97
ProductDepartment Periodicals 202 1.44
ProductDepartment Eggs 198 1.41
ProductDepartment Breakfast Foods 188 1.34
ProductDepartment Canned Products 109 0.78
ProductDepartment Seafood 102 0.73
ProductDepartment Meat 89 0.63
ProductDepartment Checkout 82 0.58
ProductDepartment Carousel 59 0.42
ProductFamily Food 10153 72.22
ProductFamily Non-Consumable 2656 18.89
ProductFamily Drink 1250 8.89
StateorProvince WA 4567 32.48
StateorProvince CA 2733 19.44
StateorProvince OR 2262 16.09
StateorProvince Zacatecas 1297 9.23
StateorProvince DF 815 5.80
StateorProvince BC 809 5.75
StateorProvince Yucatan 654 4.65
StateorProvince Veracruz 464 3.30
StateorProvince Guerrero 383 2.72
StateorProvince Jalisco 75 0.53
# Tính thống kê mô tả đầy đủ theo từng biến định tính
descriptive_stats_full <- big_tbl %>%
  group_by(Bien) %>%
  summarise(
    Mean    = mean(So_luong, na.rm = TRUE),
    StdDev  = sd(So_luong, na.rm = TRUE),
    Min     = min(So_luong, na.rm = TRUE),
    Q1      = quantile(So_luong, 0.25, na.rm = TRUE),
    Median  = quantile(So_luong, 0.5, na.rm = TRUE),
    Q3      = quantile(So_luong, 0.75, na.rm = TRUE),
    Max     = max(So_luong, na.rm = TRUE))

# Hiển thị bảng đẹp
kable(descriptive_stats_full,
      digits = 2,
      col.names = c("Biến", "Trung bình", "Độ lệch chuẩn", "Min", "Q1", "Trung vị", "Q3", "Max"),
      caption = "Thống kê mô tả đầy đủ số lượng các mức theo từng biến định tính")
Thống kê mô tả đầy đủ số lượng các mức theo từng biến định tính
Biến Trung bình Độ lệch chuẩn Min Q1 Trung vị Q3 Max
AnnualIncome 1757.38 1511.35 273 635.50 1234.5 2550.00 4601
City 611.26 370.75 75 285.00 633.0 870.50 1386
Country 4686.33 4461.08 809 2248.50 3688.0 6625.00 9562
Gender 7029.50 198.70 6889 6959.25 7029.5 7099.75 7170
Homeowner 7029.50 2000.41 5615 6322.25 7029.5 7736.75 8444
MaritalStatus 7029.50 231.22 6866 6947.75 7029.5 7111.25 7193
ProductCategory 312.42 358.15 35 102.00 197.0 356.00 1728
ProductDepartment 639.05 569.43 59 190.50 390.5 958.50 1994
ProductFamily 4686.33 4786.18 1250 1953.00 2656.0 6404.50 10153
StateorProvince 1405.90 1393.40 75 511.50 812.0 2020.75 4567

Nhận xét

Annual Income hiện được ghi dưới dạng khoảng thu nhập (không phải con số USD thật), vì vậy những thống kê “mean = 1 757, sd = 1 511” thực ra là số lượt khách trong từng dải thu nhập. Bức tranh chính: khách tập trung nhiều nhất ở ngưỡng 30–50 k USD, kế đến là 10–30 k USD; nhóm ≥ 110 k USD chỉ chiếm tỷ trọng nhỏ.

City / State or Province / Country: lượng giao dịch phân bố rất không đều – vài thành phố/bang (Los Angeles, Seattle, Washington, California…) và quốc gia Hoa Kỳ chiếm phần lớn; các địa phương khác chỉ đóng góp rải rác.

Gender, Homeowner, Marital Status: hai nhóm trong mỗi biến gần như 50/50 → dữ liệu khá cân bằng giữa nam–nữ, độc thân–kết hôn, thuê nhà–sở hữu nhà.

Product Family / Department / Category: sự chênh lệch lớn: nhóm “Food” áp đảo, kế đến “Snack Foods”, “Dairy”, “Fruit”, “Meat”. Nhiều danh mục nhỏ (Candles, Electrical, Canned Clams…) < 1 % → không phải trọng tâm doanh thu.