PHẦN 1

CHƯƠNG 1: MÔ HÌNH THỐNG KÊ

1.1 Giới thiệu và tổng quan

Chương đầu tiên mở đầu cho cuốn sách bằng cách giới thiệu tổng quan về mô hình thống kê, trong đó mô hình tuyến tính tổng quát (Generalized Linear Model – GLM) đóng vai trò cốt lõi xuyên suốt nội dung. Chương này đặt nền tảng cho người học thông qua việc giải thích các khái niệm cơ bản, ký hiệu sử dụng trong mô hình và những vấn đề then chốt cần lưu ý khi làm việc với dữ liệu.

Một trong những nội dung quan trọng được đề cập là cách biểu diễn dữ liệu bằng ngôn ngữ toán học – bước đầu tiên để xây dựng mô hình có thể xử lý được. Bên cạnh đó, chương cũng nhấn mạnh vai trò của việc trực quan hóa dữ liệu thông qua biểu đồ nhằm phát hiện các xu hướng, mối quan hệ và đặc điểm nổi bật.

Việc xử lý các biến không định lượng, như biến phân loại hay dạng văn bản, cũng được trình bày thông qua kỹ thuật mã hóa, giúp chuyển chúng về dạng số để đưa vào mô hình. Từ đó, người đọc được làm quen với cấu trúc cơ bản của một mô hình thống kê, bao gồm hai thành phần: hệ thống (đại diện cho quy luật xác định) và ngẫu nhiên (đại diện cho phần biến thiên không giải thích được).

Tiếp theo, chương giới thiệu nhóm mô hình hồi quy – công cụ phân tích chính được sử dụng xuyên suốt cuốn sách – và hướng dẫn cách diễn giải kết quả của mô hình một cách có ý nghĩa. Bên cạnh đó, tác giả đưa ra so sánh giữa mô hình thống kê và mô hình vật lý để giúp người đọc hiểu rõ sự tương đồng và khác biệt giữa hai cách tiếp cận.

Ngoài ra, chương cũng làm rõ mục tiêu của mô hình thống kê trong việc mô tả, giải thích và dự đoán hiện tượng, đồng thời chỉ ra hai tiêu chí quan trọng để đánh giá mô hình: độ chính xác và tính đơn giản. Một số hạn chế của mô hình thống kê cũng được bàn đến, đặc biệt là sự khác biệt giữa dữ liệu quan sát (observational data) và dữ liệu thực nghiệm (experimental data), cùng với những tác động của chúng đến việc suy luận.

Khái niệm về khả năng khái quát hóa của mô hình – tức mức độ mà mô hình có thể áp dụng cho các dữ liệu hoặc tình huống mới – cũng được nhấn mạnh như một yếu tố thiết yếu trong phân tích thống kê. Cuối cùng, chương khép lại bằng phần giới thiệu cơ bản về phần mềm R, công cụ sẽ được sử dụng trong suốt cuốn sách để minh họa và thực hành các mô hình thống kê.

1.2 Các quy ước để mô tả dữ liệu

Dữ liệu toán học: biến phản hồi \(y\), biến giải thích \(x_1, x_2, \ldots, x_p\).

Phân loại biến

  • Covariates: biến định lượng
  • Factors: biến định tính

1.3 Vẽ biểu đồ

Plotting Data - Vẽ biểu đồ - Dùng đồ thị như scatter plots, strip charts, boxplots để phát hiện xu hướng, outlier.

1.4 Mã hóa biến phân loạiloại

Coding for Factors - Mã hóa biến phân loại

  • Biến giả (Dummy variables): dùng \(k-1\) biến giả cho một yếu tố có \(k\) mức.

  • R mặc định sử dụng mã hóa “treatment coding”

1.5 Statistical Models Describe Both Random and Systematic Features of Data

Statistical Models Describe Both Random and Systematic Features of Data - Mô hình thống kê mô tả cả yếu tố ngẫu nhiên và có hệ thống của dữ liệu

  • Thành phần hệ thống: mô tả trung bình của phản hồi \(E(y) = μ = β₀ + β₁x₁ + ... + βₚxₚ\)

  • Thành phần ngẫu nhiên (Random): \(Var(y) = σ²\)

  • Thành phần ngẫu nhiên (random component) mô tả phân phối giá trị phản hồi ứng với mỗi tổ hợp biến giải thích.

  • Thành phần hệ thống (systematic component) mô tả mối quan hệ toán học giữa trung bình phản hồi và các biến giải thích (chiều cao, tuổi, giới tính, hút thuốc).

  • Mô hình thống kê = thành phần ngẫu nhiên + thành phần hệ thống, mô tả cả hai đặc điểm của dữ liệu thực tế.

Phổ biến nhất là khi mô hình tuyến tính trong các tham số:

\[ \mu_i = f(\beta_0 + \beta_1 x_{i1} + \cdots + \beta_p x_{ip}) \tag{1.5} \]

Các dạng mô hình hồi quy:

  • Mô hình hồi quy tuyến tính: thành phần hệ thống có dạng:

\[ E[y_i] = \mu_i = \beta_0 + \beta_1 x_{i1} + \cdots + \beta_p x_{ip} \tag{1.6} \]

  • Mô hình hồi quy tuyến tính tổng quát (GLM): thành phần hệ thống có dạng:

\[ \mu_i = g^{-1}(\beta_0 + \beta_1 x_{i1} + \cdots + \beta_p x_{ip}) \]

hoặc:

\[ g(\mu_i) = \beta_0 + \beta_1 x_{i1} + \cdots + \beta_p x_{ip} \]

Trong đó \(g(\cdot)\) là một hàm liên kết đơn điệu (chẳng hạn như hàm logarit).

Một số quy ước:

  • Số lượng biến giải thích: \(x_1, x_2, \ldots, x_p\).
  • Số lượng tham số hồi quy: \(\beta_0, \beta_1, \ldots, \beta_p\).
  • Nếu \(\beta_0\) không đổi và phần còn lại là \(x_j\) thì số lượng biến giải thích là \(p\), số lượng tham số là \(p + 1\).

Các mô hình hồi quy tuyến tính là trường hợp đặc biệt của mô hình hồi quy tuyến tính tổng quát, với hàm liên kết \(g\) là hàm đồng nhất.

CHƯƠNG 2: MÔ HÌNH HỒI QUY TUYẾN TÍNH - LINEAR REGREESSION MODELS

2.1: Introduction and Overview

Tóm tắt nội dung

  • Linear regression model là mô hình hồi quy phổ biến nhất trong thống kê và là trọng tâm mở đầu của chương 2.
  • Chương này thiết lập ngôn ngữ, ký hiệu và giả định cơ bản cho tất cả người đọc trước khi chuyển sang mô hình tổng quát hơn – generalized linear models (GLMs).
  • Linear regression models được xem như một trường hợp đặc biệt của GLMs.

2.2 Linear Regression Models Defined

Cấu trúc cơ bản của mô hình hồi quy tuyến tính

Linear regression model gồm 2 thành phần chính:

  • Thành phần ngẫu nhiên (random component):
    • Giả định phương sai của phản hồi \(y_i\) là không đổi:
      \[ \text{var}[y_i] = \sigma^2 / w_i \]
    • \(w_i\)trọng số ưu tiên đã biết (prior weights). Nếu \(w_i = 1\) với mọi \(i\), mô hình được gọi là hồi quy tuyến tính thường (ordinary linear regression).
  • Thành phần hệ thống (systematic component):
    • Kỳ vọng của \(y_i\) là kết hợp tuyến tính của các biến giải thích: \[ \mu_i = E[y_i] = \beta_0 + \sum_{j=1}^{p} \beta_j x_{ji} \]

Phân loại mô hình

  • Simple linear regression: khi chỉ có 1 biến giải thích \((p = 1)\).
  • Multiple linear regression: khi có nhiều hơn 1 biến giải thích \((p > 1)\).
  • Weighted linear regression: khi các trọng số \(w_i\) khác nhau.
  • Ordinary linear regression: khi mọi trọng số \(w_i = 1\).

Các giả định chính

  • Phù hợp (Suitability): Cùng một mô hình áp dụng cho mọi quan sát.
  • Tuyến tính (Linearity): Quan hệ giữa kỳ vọng \(\mu\) và biến giải thích là tuyến tính.
  • Phương sai không đổi (Constant variance): Phương sai \(\sigma^2\) là không đổi (hoặc tỷ lệ với \(1/w_i\)).
  • Độc lập (Independence): Các phản hồi \(y_i\) là độc lập với nhau.

Ví dụ minh họa

  • Dữ liệu cân nặng sơ sinh theo tuần tuổi thai kỳ từ bệnh viện St George’s (London) được dùng để minh họa mô hình hồi quy tuyến tính giữa cân nặng và tuần tuổi.

2.3 Simple Linear Regression

2.3.1 Least-Squares Estimation

  • Mô hình hồi quy tuyến tính đơn có dạng:

\[ \mu_i = E[y_i] = \beta_0 + \beta_1 x_i,\quad \text{Var}[y_i] = \sigma^2 / w_i \]

  • Tổng sai số bình phương có trọng số cần tối thiểu hóa:

\[ S(\beta_0, \beta_1) = \sum_{i=1}^n w_i (y_i - \beta_0 - \beta_1 x_i)^2 \]

2.3.2 Coefficient Estimates

  • Trung bình có trọng số:

\[ \bar{x}_w = \frac{\sum_{i=1}^{n} w_i x_i}{\sum_{i=1}^{n} w_i},\quad \bar{y}_w = \frac{\sum_{i=1}^{n} w_i y_i}{\sum_{i=1}^{n} w_i} \]

  • Ước lượng hệ số:

\[ \hat{\beta}_1 = \frac{\sum_{i=1}^n w_i (x_i - \bar{x}_w)(y_i)}{\sum_{i=1}^n w_i (x_i - \bar{x}_w)^2} \]

\[ \hat{\beta}_0 = \bar{y}_w - \hat{\beta}_1 \bar{x}_w \]

2.3.3 Estimating the Variance \(\sigma^2\)

  • Phần dư:

\[ e_i = y_i - \hat{\mu}_i = y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i \]

  • Tổng bình phương phần dư (RSS):

\[ \text{RSS} = \sum_{i=1}^n w_i e_i^2 \]

  • Ước lượng không chệch của phương sai:

\[ s^2 = \frac{\text{RSS}}{n - 2} \]

2.3.4 Standard Errors of Coefficients

  • Phương sai và sai số chuẩn của \(\hat{\beta}_1\):

\[ \text{Var}[\hat{\beta}_1] = \frac{\sigma^2}{\sum_{i=1}^n w_i (x_i - \bar{x}_w)^2} \]

\[ \text{SE}[\hat{\beta}_1] = \sqrt{ \frac{s^2}{\sum_{i=1}^n w_i (x_i - \bar{x}_w)^2} } \]

  • Sai số chuẩn của \(\hat{\beta}_0\):

\[ \text{SE}[\hat{\beta}_0] = \sqrt{ s^2 \left( \frac{1}{\sum w_i} + \frac{\bar{x}_w^2}{\sum w_i (x_i - \bar{x}_w)^2} \right) } \]

2.3.5 Standard Errors of Fitted Values

  • Sai số chuẩn của giá trị dự đoán:

\[ \hat{\mu}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i \]

\[ \text{SE}[\hat{\mu}_i] = s \cdot \sqrt{ \frac{1}{\sum w_i} + \frac{(x_i - \bar{x}_w)^2}{\sum w_i (x_i - \bar{x}_w)^2} } \]

Tổng kết

  • Hồi quy tuyến tính đơn là bước đầu cơ bản trong phân tích hồi quy. Việc ước lượng hệ số, phương sai và sai số chuẩn cho phép đánh giá mức độ tin cậy của mô hình. Các công thức trên là nền tảng để mở rộng sang hồi quy tuyến tính bội và generalized linear models.

Ghi nhớ: Kiểm tra các giả định của mô hình là rất quan trọng: tuyến tính, phương sai không đổi, độc lập và mô hình áp dụng phù hợp cho toàn bộ mẫu.

2.4 Ước lượng trong hồi quy bội (nhiều biến)

Dạng ma trận của mô hình:

Mô hình hồi quy tuyến tính có thể được viết dưới dạng ma trận:

\[ y = X\beta + \varepsilon \] Trong đó:

  • \(y\): vector phản hồi (cỡ \(n \times 1\))
  • \(X\): ma trận thiết kế (design matrix) kích thước \(n \times (p+1)\), với cột đầu tiên toàn số 1 (ứng với hệ số chặn \(\beta_0\)), các cột còn lại là giá trị của các biến giải thích \(x_j\)
  • \(\beta\): vector hệ số hồi quy (cỡ \((p+1) \times 1\))
  • \(\varepsilon \sim \mathcal{N}(0, \sigma^2 I)\): vector nhiễu có phân phối chuẩn đa biến với trung bình 0 và phương sai \(\sigma^2 I\)

Ước lượng OLS:

\[ \hat{\beta} = (X^T W X)^{-1} X^T W y \]

Phần dư và phương sai ước lượng:

  • Giá trị dự đoán (fitted values):

\[ \hat{\mu}_i = \hat{y}_i = \hat{\beta}_0 + \sum_{j=1}^{p} \hat{\beta}_j x_{ji} \]

  • Ước lượng phương sai phần dư:

\[ s^2 = \frac{RSS}{n - p'} \]

CHƯƠNG 3: CHẨN ĐOÁN MÔ HÌNH HỒI QUY TUYẾN TÍNH

Linear Regression Models: Diagnostics and Model-Building (Chẩn đoán mô hình hồi quy tuyến tính)

3.1. Giới thiệu và tổng quan

Sau khi xây dựng một mô hình hồi quy tuyến tính, công việc không kết thúc ở việc ước lượng các hệ số hồi quy và kiểm định ý nghĩa thống kê. Một bước quan trọng không thể thiếu là chẩn đoán mô hình – tức là đánh giá xem mô hình đã được xây dựng có thực sự phù hợp với dữ liệu hay không.

Chẩn đoán mô hình hồi quy là một phần thiết yếu trong phân tích dữ liệu vì nó giúp ta:

  • Xác minh các giả định cơ bản của mô hình hồi quy tuyến tính có được thỏa mãn hay không (ví dụ như quan hệ tuyến tính, phương sai không đổi, phân phối chuẩn…).

  • Phát hiện những quan sát bất thường như điểm ngoại lai (outliers) hoặc điểm có ảnh hưởng lớn (influential observations) – những điểm có thể bóp méo kết quả ước lượng hoặc kiểm định.

  • Đánh giá độ tin cậy của các hệ số ước lượng.

Đề xuất cách cải thiện mô hình, ví dụ: biến đổi biến, thêm hoặc bớt biến giải thích, sử dụng mô hình phi tuyến hoặc tổng quát (GLM) thay thế.

Nếu bỏ qua bước này, người phân tích dễ rơi vào bẫy của việc “phù hợp quá mức” (overfitting), hiểu sai mối quan hệ giữa các biến, hoặc dự đoán sai lệch trong thực tế. Do đó, chẩn đoán mô hình không phải là tùy chọn – mà là một phần bắt buộc trong phân tích hồi quy nghiêm túc.

Trong chương này, chúng ta sẽ học cách:

  • Kiểm tra các giả định của mô hình hồi quy.

  • Sử dụng phần dư (residuals) để kiểm tra độ phù hợp.

  • Phát hiện và xử lý các điểm ảnh hưởng lớn.

  • Đo lường hiện tượng đa cộng tuyến và cách giảm thiểu.

3.2 Giả định trong mô hình hồi quy tuyến tính

Một mô hình hồi quy tuyến tính tiêu chuẩn đòi hỏi phải thỏa mãn 4 giả định cơ bản:

1. Giả định 1: Quan hệ tuyến tính

  • Mô hình giả định rằng trung bình của biến phản hồi \(y\) là hàm tuyến tính của các biến giải thích \(x_1, x_2, \ldots, x_p\).

  • Nếu quan hệ thật sự là phi tuyến mà ta vẫn dùng mô hình tuyến tính, kết quả ước lượng có thể bị thiên lệch và dự đoán sai.

\(\Rightarrow\) Cách kiểm tra: vẽ biểu đồ phần dư so với giá trị dự đoán, nếu thấy xu hướng cong (parabola, S-shape…) thì có thể là mô hình sai dạng.

2. Giả định 2: Phương sai không đổi (Homoscedasticity)

  • Phương sai của sai số \(\varepsilon_i\) là như nhau ở mọi mức giá trị của \(x\):

\[ \text{Var}(y_i) = \sigma^2 \]

  • Nếu phương sai thay đổi theo \(x\), ta có hiện tượng phương sai thay đổi (heteroscedasticity), dẫn đến ước lượng không hiệu quả và sai lệch trong kiểm định.

\(\Rightarrow\) Cách kiểm tra: vẽ đồ thị phần dư. Nếu phần dư có dạng hình nón (rộng dần hoặc hẹp lại) thì có thể bị heteroscedasticity.

3. Giả định 3: Độc lập

  • Các quan sát \((x_i, y_i)\) phải độc lập nhau.

  • Nếu dữ liệu có tính chuỗi thời gian, dữ liệu lồng ghép (nested data) hoặc phân nhóm (clustered), thì mô hình tuyến tính cơ bản không còn phù hợp.

\(\Rightarrow\) Cách kiểm tra: nếu dữ liệu theo thời gian, nên kiểm tra phần dư có xu hướng (autocorrelation) hay không.

4. Giả định 4: Phân phối chuẩn của sai số

  • Mặc dù không bắt buộc để ước lượng OLS, giả định này rất quan trọng để kiểm định giả thuyết và tính khoảng tin cậy: \[ \varepsilon_i \sim \mathcal{N}(0, \sigma^2) \]

\(\Rightarrow\) Cách kiểm tra: dùng biểu đồ Q-Q plot (quantile-quantile) để so sánh phần dư với phân phối chuẩn.

3.3 Các loại phần dư (Residuals)

Phần dư là công cụ trung tâm để chẩn đoán mô hình. Có nhiều cách tính phần dư:

1. Raw residual (Phần dư thô):

\[ e_i = y_i - \hat{y}_i \] Đơn giản là hiệu giữa giá trị thực tế và giá trị dự đoán.

2. Standardized residual (Phần dư chuẩn hóa):

\[ r_i = \frac{e_i}{\hat{\sigma} \sqrt{1 - h_{ii}}} \]

  • Giúp so sánh phần dư giữa các điểm có leverage khác nhau.

  • \(h_{ii}\): leverage – mức ảnh hưởng của điểm \(i\) lên dự đoán \(\hat{y}_i\).

3. Studentized residual:

\[ t_i = \frac{e_i}{\hat{\sigma}_{(i)} \sqrt{1 - h_{ii}}} \]

  • Giống standardized residual nhưng dùng \(\hat{\sigma}_{(i)}\) – phương sai ước lượng không dùng quan sát \(i\) \(\rightarrow\) chính xác hơn.

  • Dùng để phát hiện ngoại lai vì nó gần với phân phối t.

3.4 Biểu đồ phần dư (Residual Plots)

Một số biểu đồ quan trọng:

  • Residual vs Fitted Plot: kiểm tra tuyến tính và phương sai không đổi.

  • Normal Q-Q Plot: kiểm tra phân phối chuẩn của phần dư.

  • Scale-Location Plot: chuẩn hóa phần dư để dễ phát hiện heteroscedasticity.

  • Residuals vs Leverage Plot: xác định điểm ảnh hưởng lớn.

3.5 Ngoại lai (Outliers)

Định nghĩa: Là các điểm dữ liệu mà giá trị phản hồi \(y_i\) khác biệt lớn so với dự đoán từ mô hình, dù biến \(x_i\) không bất thường.

Dùng studentized residual để kiểm tra.

Quy tắc ngưỡng:

  • \(|t_i| > 2\): nghi ngờ.

  • \(|t_i| > 3\): có thể là ngoại lai đáng kể.

\(\Rightarrow\) Ngoại lai không nhất thiết có ảnh hưởng lớn, nhưng cần kiểm tra kỹ. ## CHƯƠNG 4: ƯỚC LƯỢNG HỢP LÝ TỐI ĐA Maximum likehood estimation - MLE (ước lượng hợp lý tối đa)

4.1 Giới thiệu

Phương pháp bình phương tối thiểu (OLS) chỉ hoạt động hiệu quả khi dữ liệu thỏa mãn các giả định như phân phối chuẩn, phương sai không đổi, và biến phản hồi liên tục. Tuy nhiên, nhiều loại dữ liệu thực tế không tuân theo những điều kiện đó – ví dụ: dữ liệu nhị phân, đếm, hoặc dương liên tục. Khi đó, Maximum Likelihood Estimation (MLE) là phương pháp mạnh mẽ hơn, dùng để ước lượng các tham số trong mô hình tổng quát.

MLE là nền tảng cho mô hình tuyến tính tổng quát (GLM), vốn là trung tâm của phần còn lại trong sách.

4.2 Hàm hợp lý (Likelihood Function)

Định nghĩa: Hàm hợp lý là một hàm xác suất của toàn bộ dữ liệu đã quan sát, biểu diễn như một hàm của tham số \(\theta\).

Giả sử ta có một mẫu gồm \(n\) quan sát độc lập \(y_1, y_2, \ldots, y_n\), với mỗi \(y_i\) có phân phối xác suất \(f(y_i; \theta)\), thì:

Hàm hợp lý:

\[ L(\theta) = \prod_{i=1}^{n} f(y_i; \theta) \]

  • \(L(\theta)\): hàm hợp lý

  • \(\theta\): vector các tham số cần ước lượng

  • \(f(y_i; \theta)\): mật độ xác suất (hoặc khối xác suất) của \(y_i\)

Log-hợp lý (log-likelihood):

\[ \ell(\theta) = \log L(\theta) = \sum_{i=1}^{n} \log f(y_i; \theta) \]

  • Dễ đạo hàm hơn vì tích thành tổng.

  • Giá trị cực đại của \(\ell(\theta)\) trùng với \(L(\theta)\).

4.3 Ước lượng hợp lý tối đa (Maximum Likelihood Estimation – MLE)

Định nghĩa: MLE là giá trị \(\hat{\theta}\) của tham số \(\theta\) sao cho log-likelihood đạt cực đại.

\[ \hat{\theta} = \arg\max_{\theta} \, \ell(\theta) \] Để tìm \(\hat{\theta}\), ta giải:

\[ \frac{d\ell(\theta)}{d\theta} = 0 \]

\(\Rightarrow\) Đây gọi là phương trình điểm (score equation).

4.4 Ma trận thông tin Fisher và phương sai

1. Hàm điểm (Score Function):

\[ U(\theta) = \frac{d\ell(\theta)}{d\theta} \]

  • \(U(\theta)\): độ dốc của log-likelihood theo \(\theta\)

2. Ma trận thông tin Fisher:

\[ I(\theta) = -\mathbb{E} \left[ \frac{d^2 \ell(\theta)}{d\theta^2} \right] \]

  • \(I(\theta)\): kỳ vọng âm của đạo hàm bậc hai log-likelihood → đo độ cong.

  • Là xấp xỉ ngược lại của phương sai: \[ \mathrm{Var}(\hat{\theta}) \approx \frac{1}{I(\theta)} \]

4.5 Các tính chất của MLE

MLE có nhiều tính chất tốt về mặt lý thuyết, đặc biệt khi kích thước mẫu n lớn:

Tính chất Giải thích
Nhất quán \(\hat{\theta} \to \theta\) khi \(n \to \infty\)
Không chệch tiệm cận Độ lệch giữa \(\hat{\theta}\)\(\theta\) tiến về 0
Hiệu quả MLE đạt giới hạn Cramér–Rao, là ước lượng “tốt nhất”
Tiệm cận chuẩn Khi \(n\) lớn, phân phối của \(\hat{\theta}\) gần chuẩn: \(\hat{\theta} \sim \mathcal{N}(\theta, I(\theta)^{-1})\)

CHƯƠNG 5: CẤU TRÚC CỦA MÔ HÌNH TUYẾN TÍNH TỔNG QUÁT (GLM STRUCTURE)

5.1 Giới thiệu

Mô hình tuyến tính tổng quát (GLM) là một khuôn khổ mạnh mẽ cho việc mô hình hóa các loại dữ liệu khác nhau – không chỉ dữ liệu liên tục có phân phối chuẩn như trong hồi quy tuyến tính. GLM bao gồm hồi quy logistic, hồi quy Poisson, hồi quy Gamma… và mở rộng khả năng phân tích đến dữ liệu nhị phân, đếm, tỷ lệ và dương liên tục.

Mỗi GLM được xây dựng trên cùng một nguyên lý chung gồm ba thành phần chính: phân phối xác suất, hàm liên kết, và thành phần tuyến tính.

5.2 Cấu trúc 3 phần của GLM

1. Thành phần ngẫu nhiên (Random component)

Biến phản hồi \(y_i\) được giả định phân phối theo một phân phối thuộc họ hàm mũ một tham số (One-Parameter Exponential Family):

\[ f(y_i; \theta_i, \phi) = \exp \left\{ \frac{y_i \theta_i - b(\theta_i)}{\phi} + c(y_i, \phi) \right\} \]

  • Ý nghĩa các ký hiệu:

    • \(\theta_i\): tham số tự nhiên (natural parameter)
    • \(\phi\): tham số phân tán (dispersion parameter), không phải lúc nào cũng có (ví dụ Poisson thì \(\phi = 1\))
    • \(b(\theta_i)\): hàm log partition
    • \(c(y_i, \phi)\): hàm chuẩn hóa để bảo toàn tích phân bằng 1

→ Họ hàm mũ bao gồm Normal, Poisson, Binomial, Gamma,…

2. Thành phần hệ thống (Systematic component)

Giống như hồi quy tuyến tính, GLM vẫn dùng một predictor tuyến tính:

\[ \eta_i = x_i^T \beta = \beta_0 + \beta_1 x_{i1} + \cdots + \beta_p x_{ip} \]

Ý nghĩa:

  • \(\eta_i\): predictor tuyến tính
  • \(x_i\): vector hàng gồm các biến giải thích của quan sát \(i\)
  • \(\beta\): vector hệ số hồi quy

Đây là thành phần chứa ảnh hưởng của các biến độc lập lên mô hình.

3. Hàm liên kết (Link function)

GLM dùng một hàm liên kết \(g(\cdot)\) để kết nối trung bình \(\mu_i = E[y_i]\) với predictor tuyến tính \(\eta_i\):

\[ g(\mu_i) = \eta_i \quad \text{hay} \quad \mu_i = g^{-1}(\eta_i) \]

→ Cho phép mô hình hóa các biến phản hồi có đặc tính phi tuyến, không âm, giới hạn trong khoảng (0,1),…

Hàm liên kết thường dùng:

Phân phối \(\mu_i = E[y_i]\) Link function \(g(\mu)\) Ghi chú
Normal \(\mu \in \mathbb{R}\) \(g(\mu) = \mu\) (identity) Hồi quy tuyến tính chuẩn
Binomial \(\mu \in (0,1)\) \(g(\mu) = \log \frac{\mu}{1-\mu}\) Logistic regression
Poisson \(\mu > 0\) \(g(\mu) = \log(\mu)\) Hồi quy đếm
Gamma \(\mu > 0\) \(g(\mu) = \log(\mu)\) hoặc \(g(\mu) = \frac{1}{\mu}\) Mô hình dữ liệu dương

5.3 Ví dụ mô hình hóa trong GLM

1. Hồi quy Logistic (nhị phân)

\[ y_i \sim \text{Bernoulli}(\pi_i) \]

\[ g(\pi_i) = \log \left(\frac{\pi_i}{1-\pi_i}\right) = \eta_i \]

\[ \pi_i = P(y_i = 1 \mid x_i) \]

  • Dùng cho dữ liệu như: sống/chết, mua/không mua, đúng/sai…

2. Hồi quy Poisson (đếm)

\[ y_i \sim \text{Poisson}(\mu_i) \]

\[ \log(\mu_i) = x_i^T \beta \]

  • \(\mu_i\): số sự kiện kỳ vọng xảy ra.

  • Dùng cho dữ liệu: số ca bệnh, số lần vi phạm, số giao dịch…

3. Hồi quy Gamma (dương liên tục)

\[ y_i \sim \text{Gamma}(\alpha, \mu_i) \]

Hàm liên kết:

\[ g(\mu_i) = \log(\mu_i) \quad \text{hoặc} \quad g(\mu_i) = \frac{1}{\mu_i} \]

  • Dùng cho dữ liệu chi phí, độ dài, thời gian

5.4 Hàm phương sai (Variance Function)

Trong GLM, phương sai của \(y_i\) không cần bằng nhau mà được mô hình hóa như hàm của \(\mu_i\):

\[ \text{Var}(y_i) = \phi \cdot V(\mu_i) \]

Trong đó:

  • \(\phi\): tham số phân tán (dispersion parameter)
  • \(V(\mu)\): hàm phương sai phụ thuộc vào trung bình \(\mu\)

Hàm \(V(\mu)\) tùy theo phân phối như sau:

Phân phối \(V(\mu)\)
Normal 1
Binomial \(\mu (1 - \mu)\)
Poisson \(\mu\)
Gamma \(\mu^2\)

Việc mô hình hóa phương sai như trên giúp xử lý được hiện tượng phương sai thay đổi (heteroscedasticity), vốn là một giả định bị vi phạm trong phương pháp OLS (Hồi quy tuyến tính thông thường).

5.5 Các khái niệm mở rộng

Canonical Link Function là hàm liên kết sao cho predictor tuyến tính chính là tham số tự nhiên \(\theta\) trong phân phối họ hàm mũ:

\[ \theta_i = \eta_i = x_i^T \beta \]

Ví dụ về hàm liên kết chuẩn (canonical link):

Phân phối Hàm liên kết (Link function)
Binomial logit: \(\log\frac{\mu}{1-\mu}\)
Poisson log: \(\log(\mu)\)
Normal identity: \(\mu\)

Lưu ý: Dù GLM gọi là “tuyến tính”, nhưng mối quan hệ giữa \(y\)\(x\) có thể phi tuyến do sử dụng hàm liên kết (link function).

CHƯƠNG 6: ƯỚC LƯỢNG TRONG MÔ HÌNH TUYẾN TÍNH TỔNG QUÁT (GLMs)

6.1 Giới thiệu

Sau khi xác định được cấu trúc của một GLM (gồm phân phối xác suất, hàm liên kết và thành phần tuyến tính), bước tiếp theo là ước lượng các hệ số hồi quy \(\beta\) trong mô hình.

Khác với hồi quy tuyến tính cổ điển – nơi ta dùng phương pháp bình phương tối thiểu (OLS) – trong GLM, các hệ số được ước lượng bằng phương pháp hợp lý tối đa (Maximum Likelihood Estimation - MLE) thông qua một thuật toán gọi là Iteratively Reweighted Least Squares (IRLS).

Phương pháp IRLS thực hiện việc cập nhật các ước lượng \(\beta\) lặp đi lặp lại, mỗi lần dựa trên trọng số được điều chỉnh sao cho phù hợp với phân phối của dữ liệu và hàm liên kết được chọn.

6.2 Tổng quan về ước lượng hợp lý tối đa (MLE) trong GLM

Cho dữ liệu gồm:

  • Biến phản hồi: \(y_1, y_2, \ldots, y_n\) có thể là biến đếm, nhị phân hoặc liên tục dương…

  • Biến giải thích: \(x_{i1}, \ldots, x_{ip}\) với \(i=1, \ldots, n\).

Mô hình GLM được biểu diễn như sau:

\[ g(\mu_i) = \eta_i = \mathbf{x}_i^T \boldsymbol{\beta} \]

với

\[ \mu_i = E[y_i] = g^{-1}(\mathbf{x}_i^T \boldsymbol{\beta}) \]

Mục tiêu là tìm ước lượng \(\hat{\boldsymbol{\beta}}\) sao cho hàm log-likelihood đạt cực đại:

\[ \ell(\boldsymbol{\beta}) = \sum_{i=1}^n \log f(y_i; \theta_i) \]

Trong đó:

  • \(f(y_i; \theta_i)\) là hàm mật độ xác suất (hoặc hàm khối xác suất) của biến \(y_i\),

  • \(\theta_i\) là tham số tự nhiên trong phân phối thuộc họ hàm mũ,

  • \(\theta_i\) có quan hệ với \(\mu_i\), từ đó liên hệ với \(\boldsymbol{\beta}\).

Việc ước lượng này thường được thực hiện bằng phương pháp hợp lý tối đa (MLE), sử dụng thuật toán Iteratively Reweighted Least Squares (IRLS).

6.3 Phương pháp IRLS (Iteratively Reweighted Least Squares)

1. Thuật toán IRLS (Iteratively Reweighted Least Squares):

GLM sử dụng thuật toán IRLS để tìm ước lượng \(\hat{\boldsymbol{\beta}}\). Thuật toán dựa trên việc lặp lại các bước hồi quy tuyến tính có trọng số.

2. Ý tưởng cơ bản:

  • Ở mỗi vòng lặp, mô hình GLM được xấp xỉ bằng một hồi quy tuyến tính với trọng số.

  • Biến giả (working response) \(\mathbf{z}\)ma trận trọng số \(\mathbf{W}\) được cập nhật liên tục ở mỗi bước.

3. Hệ phương trình IRLS:

\[ \mathbf{X}^T \mathbf{W} \mathbf{X} \hat{\boldsymbol{\beta}} = \mathbf{X}^T \mathbf{W} \mathbf{z} \]

Trong đó:

  • \(\mathbf{X}\) là ma trận thiết kế,

  • \(\mathbf{W}\) là ma trận trọng số kích thước \(n \times n\),

  • \(\mathbf{z}\) là vector biến giả \(n \times 1\), tính theo công thức:

\[ z_i = \eta_i + \frac{y_i - \mu_i}{\frac{d \mu_i}{d \eta_i}} \]

  • Trọng số \(W_i\) được tính theo:

\[ W_i = \left(\frac{d \mu_i}{d \eta_i}\right)^2 \Big/ \mathrm{Var}(y_i) \]

Quá trình này được lặp lại cho đến khi các ước lượng \(\boldsymbol{\beta}\) hội tụ.

6.4 Hàm điểm, ma trận Fisher và phương sai của ước lượng

Hàm điểm (Score Function)

Hàm điểm là đạo hàm của log-likelihood theo vector hệ số \(\boldsymbol{\beta}\):

\[ U(\boldsymbol{\beta}) = \frac{\partial \ell(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}} \]

Đây là hệ phương trình mà khi giải \(U(\boldsymbol{\beta}) = 0\), ta thu được ước lượng cực đại \(\hat{\boldsymbol{\beta}}\).

Ma trận thông tin Fisher

Ma trận thông tin Fisher là kỳ vọng âm của đạo hàm bậc hai của log-likelihood:

\[ \mathcal{I}(\boldsymbol{\beta}) = - \mathbb{E} \left[ \frac{\partial^2 \ell(\boldsymbol{\beta})}{\partial \boldsymbol{\beta} \, \partial \boldsymbol{\beta}^T} \right] \]

Ma trận này đóng vai trò như một thước đo độ “sắc nét” của log-likelihood tại điểm cực đại và được dùng để đánh giá độ chính xác của ước lượng.

Phương sai của \(\hat{\boldsymbol{\beta}}\)

Khi đã có ma trận thông tin Fisher, phương sai hiệp phương sai của vector hệ số ước lượng được tính là:

\[ \mathrm{Var}(\hat{\boldsymbol{\beta}}) = \mathcal{I}(\hat{\boldsymbol{\beta}})^{-1} \]

Nếu sử dụng thuật toán IRLS, ma trận thông tin Fisher được xấp xỉ bởi:

\[ \mathrm{Var}(\hat{\boldsymbol{\beta}}) = (\mathbf{X}^T \mathbf{W} \mathbf{X})^{-1} \]

Trong đó:

  • \(\mathbf{X}\): ma trận thiết kế,

  • \(\mathbf{W}\): ma trận trọng số tại nghiệm hội tụ,

  • Công thức này xuất hiện tự nhiên từ bước giải hệ phương trình IRLS.

Ghi chú

  • Công thức phương sai trên rất quan trọng để tính khoảng tin cậy và kiểm định giả thuyết trong GLM.

  • Với các mô hình lớn, ma trận \((\mathbf{X}^T \mathbf{W} \mathbf{X})^{-1}\) thường được tính thông qua giải hệ phương trình thay vì đảo trực tiếp để tránh sai số số học.

6.5 Sai số chuẩn và khoảng tin cậy

Sai số chuẩn (Standard Error)

Sau khi có được ước lượng \(\hat{\boldsymbol{\beta}}\) và ma trận phương sai hiệp phương sai \(\mathrm{Var}(\hat{\boldsymbol{\beta}})\), ta tính sai số chuẩn cho từng hệ số \(\hat{\beta}_j\) như sau:

\[ \mathrm{SE}(\hat{\beta}_j) = \sqrt{[\mathrm{Var}(\hat{\boldsymbol{\beta}})]_{jj}} \]

Trong đó, \([\cdot]_{jj}\) là phần tử hàng \(j\), cột \(j\) trong ma trận phương sai.

Khoảng tin cậy \(100(1 - \alpha)\%\)

Khoảng tin cậy cho hệ số \(\hat{\beta}_j\) được tính bằng công thức:

\[ \hat{\beta}_j \pm z_{\alpha/2} \cdot \mathrm{SE}(\hat{\beta}_j) \]

Trong đó:

  • \(z_{\alpha/2}\) là bách phân vị \(1 - \alpha/2\) của phân phối chuẩn chuẩn hóa (thường tra từ bảng Z),

  • Ví dụ: với \(\alpha = 0.05\), \(z_{0.025} \approx 1.96\) (tương ứng khoảng tin cậy 95%).

Kiểm định Wald

Kiểm định Wald giúp đánh giá giả thuyết:

\[ H_0: \beta_j = 0 \quad \text{vs} \quad H_1: \beta_j \neq 0 \]

Thống kê kiểm định:

\[ Z = \frac{\hat{\beta}_j}{\mathrm{SE}(\hat{\beta}_j)} \sim \mathcal{N}(0, 1) \]

Dựa vào giá trị \(Z\), ta có thể tính p-value và đưa ra kết luận thống kê.

Ghi chú

  • Kiểm định Wald được dùng phổ biến do tính đơn giản và có thể thực hiện ngay sau khi có ước lượng và phương sai.

  • Nếu \(|Z| > z_{\alpha/2}\), bác bỏ \(H_0\), tức là hệ số \(\beta_j\) có ý nghĩa thống kê.

6.6 Ước lượng tham số phân tán

Trong một số mô hình GLM, đặc biệt là khi phân phối thuộc họ phân phối mũ (exponential family) không chuẩn hóa, ta cần ước lượng tham số phân tán \(\phi\).

Công thức ước lượng:

\[ \hat{\phi} = \frac{1}{n - p} \sum_{i=1}^{n} \frac{(y_i - \hat{\mu}_i)^2}{V(\hat{\mu}_i)} \]

Trong đó:

  • \(n\): số quan sát

  • \(p\): số tham số trong mô hình (bao gồm hệ số chặn nếu có)

  • \(\hat{\mu}_i = \mathbb{E}[y_i] = g^{-1}(\eta_i)\): giá trị kỳ vọng được ước lượng

  • \(V(\hat{\mu}_i)\): hàm phương sai, phụ thuộc vào phân phối:

Phân phối Hàm phương sai \(V(\mu)\)
Gaussian \(1\)
Poisson \(\mu\)
Binomial (logit) \(\mu(1 - \mu)\)

CHƯƠNG 7: GENERALIZED LINEAR MODELS: INFERENCE

ĐÁNH GIÁ MỨC ĐỘ PHÙ HỢP VÀ LỰA CHỌN MÔ HÌNH TRONG GLM

7.1 Giới thiệu

Sau khi ước lượng các tham số \(\beta\) trong GLM, bước tiếp theo là đánh giá xem mô hình có phù hợp với dữ liệu không, và nếu có nhiều mô hình cạnh tranh, thì nên chọn mô hình nào là tốt nhất.

Các công cụ đánh giá bao gồm:

  • Deviance (độ lệch)

  • Kiểm định \(\chi^2\)

  • AIC, BIC

  • So sánh mô hình lồng và không lồng

  • Đồ thị phần dư và điểm ảnh hưởng

7.2 Deviance – đo lường mức độ phù hợp của mô hình

Định nghĩa:

Deviance là đại lượng đo sự khác biệt giữa mô hình hiện tại và mô hình đầy đủ (saturated model) – tức mô hình khớp hoàn toàn với dữ liệu.

\[ D(y; \hat{\mu}) = 2 \left[ \ell(y; y) - \ell(\hat{\mu}; y) \right] \]

Giải thích ký hiệu:

  • \(\ell(y; y)\): log-likelihood của mô hình bão hòa (saturated model)

  • \(\ell(\hat{\mu}; y)\): log-likelihood của mô hình đang xét

\(\Rightarrow\) Deviance càng nhỏ → mô hình càng gần với mô hình bão hòa → phù hợp hơn.

7.3 So sánh mô hình bằng kiểm định deviance

Khi hai mô hình lồng nhau, ta có thể so sánh bằng kiểm định sai biệt deviance:

Công thức kiểm định:

\[ \Delta D = D_{\text{reduced}} - D_{\text{full}} \sim \chi^2_{df} \]

Trong đó:

  • \(df\): số tham số bị ràng buộc trong mô hình nhỏ hơn

\(\Rightarrow\) Nếu \(\Delta D\) lớn và p-value nhỏ → mô hình đầy đủ tốt hơn.

7.4 AIC và BIC – lựa chọn giữa các mô hình không lồng

Khi các mô hình không lồng nhau, ta dùng tiêu chí thông tin để so sánh:

AIC (Akaike Information Criterion):

\[ AIC = -2\ell + 2k \]

  • \(\ell\): log-likelihood

  • \(k\): số tham số trong mô hình

BIC (Bayesian Information Criterion):

\[ BIC = -2\ell + \log(n) \cdot k \]

  • \(n\): số quan sát

\(\Rightarrow\) Chọn mô hình có AIC/BIC thấp hơn.

\(\Rightarrow\) BIC phạt các mô hình phức tạp nhiều hơn so với AIC.

CHƯƠNG 8: HỒI QUY LOGISTIC (LOGISTIC REGRESSION)

8.1 Giới thiệu

Hồi quy logistic là một trong những mô hình phổ biến nhất thuộc họ GLM, được dùng để mô hình hóa dữ liệu nhị phân (binary), tức khi biến phản hồi

\[ y \in \{0,1\} \]

Ví dụ: bệnh/không bệnh, mua/không mua, đạt/không đạt.

Đặc điểm:
\[ \mu_i = E[y_i] = P(y_i=1) \in (0,1) \]

Sử dụng hàm liên kết logit:
\[ g(\mu_i) = \log\left(\frac{\mu_i}{1-\mu_i}\right) = \eta_i = x_i^T \beta \]

8.2 Phân phối Bernoulli và hàm log-likelihood

Biến phản hồi

\[ y_i \in \{0,1\} \]
phân phối theo:

\[ y_i \sim \text{Bernoulli}(\pi_i) \]

Trong đó:

\[ \pi_i = P(y_i=1) \]
và:
\[ \log\left(\frac{\pi_i}{1-\pi_i}\right) = x_i^T \beta \]

Log-likelihood cho toàn bộ mẫu:
\[ \ell(\beta) = \sum_{i=1}^n \left[ y_i \log(\pi_i) + (1 - y_i) \log(1-\pi_i) \right] \]

Không có nghiệm giải tường minh → dùng IRLS để tìm \(\hat{\beta}\).

8.3 Diễn giải hệ số hồi quy trong logistic regression

Khi dùng logit link:
\[ \eta_i = \log\left(\frac{\pi_i}{1-\pi_i}\right) = x_i^T \beta \]

\(\beta_j\) đại diện cho log odds ratio:
\[ \text{Odds ratio} = \exp(\beta_j) \]

  • Nếu \(\beta_j > 0\): biến \(x_j\) làm tăng khả năng \(y=1\)

  • Nếu \(\beta_j < 0\): biến \(x_j\) làm giảm khả năng \(y=1\)

8.4 Khoảng tin cậy và kiểm định

Sau khi ước lượng \(\hat{\beta}\), ta kiểm định từng hệ số:

Kiểm định Wald:
\[ Z_j = \frac{\hat{\beta}_j}{SE(\hat{\beta}_j)} \sim N(0,1) \]

Khoảng tin cậy 95%:
\[ \hat{\beta}_j \pm z_{0.975} \cdot SE(\hat{\beta}_j) \]

Chuyển sang odds ratio bằng
\[ \exp(\hat{\beta}_j) \]

CHƯƠNG 9: HỒI QUY POISSON (POISSON REGRESSION)

9.1 Giới thiệu và ứng dụng thực tế

Hồi quy Poisson là một mô hình thuộc họ GLM, được sử dụng để mô hình hóa các biến phản hồi là số lượng sự kiện đếm được trên một đơn vị quan sát, chẳng hạn như:

  • Số lần nhập viện

  • Số vụ tai nạn giao thông

  • Số lỗi phần mềm phát sinh

Đặc biệt phù hợp khi:

  • Biến phản hồi \(y \in \{0, 1, 2, \ldots \}\)

  • Dữ liệu không âm, rời rạc

  • Mục tiêu là ước lượng số sự kiện trung bình theo các đặc tính \(x\)

9.2 Phân phối Poisson và liên kết log

Hàm xác suất:
\[ P(y_i) = \frac{e^{-\mu_i} \mu_i^{y_i}}{y_i!}, \quad y_i = 0, 1, 2, \ldots \]

Trong đó:

\[ \mu_i = E[y_i] : \text{số sự kiện kỳ vọng của quan sát thứ } i \]

\[ \text{Var}(y_i) = \mu_i \quad : \text{đặc điểm then chốt} \]

Hàm liên kết (canonical):

\[ \eta_i = \log(\mu_i) = x_i^T \beta \implies \mu_i = e^{x_i^T \beta} \]

Hàm log đảm bảo:

\[ \mu_i > 0 \]

Mối quan hệ tuyến tính trên log-scale.

9.3 Hàm log-likelihood và phương trình điểm

Log-likelihood của mô hình:

\[ \ell(\beta) = \sum_{i=1}^n \left[ y_i \log(\mu_i) - \mu_i - \log(y_i!) \right] \]

Thay \(\mu_i = e^{x_i^T \beta}\), ta được:

\[ \ell(\beta) = \sum_{i=1}^n \left[ y_i x_i^T \beta - e^{x_i^T \beta} - \log(y_i!) \right] \]

Score function (đạo hàm log-likelihood):

\[ U(\beta) = \sum_{i=1}^n x_i (y_i - \mu_i) \]

Giải phương trình \(U(\beta) = 0\) → tìm \(\hat{\beta}\) bằng IRLS.

9.4 Diễn giải hệ số hồi quy

Trong hồi quy Poisson:

  • Mỗi \(\beta_j\) là tác động log tuyến tính đến số sự kiện trung bình.

  • \(e^{\beta_j}\) là tỷ lệ thay đổi kỳ vọng \(\mu\) khi \(x_j\) tăng 1 đơn vị, giữ các biến khác không đổi.

Ví dụ:

  • \(\beta_j = 0.693 \Rightarrow e^{0.693} = 2\): số sự kiện kỳ vọng gấp đôi khi \(x_j\) tăng 1 đơn vị.

  • \(\beta_j = -0.223\) → giảm khoảng 20%.

CHƯƠNG 10: HỒI QUY GAMMA (GAMMA REGRESSION)

10.1 Giới thiệu

Hồi quy Gamma là một mô hình thuộc họ GLM dùng để mô hình hóa các biến phản hồi dương liên tục có phương sai tăng theo giá trị trung bình.

Ví dụ ứng dụng:

  • Chi phí y tế

  • Thời gian sống (survival time)

  • Lượng tiêu thụ năng lượng

10.2 Phân phối Gamma

Giả định biến ngẫu nhiên \(y_i\) phân phối Gamma với tham số:

\[ y_i \sim Gamma(\alpha, \mu_i) \]

Trong đó:

  • \(\mu_i = E[y_i]\) là kỳ vọng.

  • Phương sai:
    \[ Var(y_i) = \frac{\mu_i^2}{\alpha} = \phi \mu_i^2 \]

Phương sai tỷ lệ với bình phương kỳ vọng, phù hợp khi biến thiên tỷ lệ không đổi.

10.3 Hàm mật độ xác suất Gamma (dạng GLM)

Hàm mật độ xác suất:

\[ f(y; \mu, \phi) = \frac{1}{\Gamma(1/\phi)} \left(\frac{1}{\phi \mu}\right)^{1/\phi} y^{\frac{1}{\phi}-1} \exp\left(-\frac{y}{\phi \mu}\right) \]

Hàm này thuộc họ hàm mũ (exponential family), với:

\[ \theta = -\frac{1}{\mu} \]

\[ b(\theta) = -\log(-\theta) \]

Hàm phương sai:

\[ V(\mu) = \mu^2 \]

\(\phi\) là tham số phân tán.

CHƯƠNG 11: DỮ LIỆU NHÓM HOẶC TỶ LỆ (GROUPED DATA OR PROPORTIONS)

11.1 Giới thiệu

Dữ liệu nhị phân dạng 0/1 được mô hình hóa bằng hồi quy logistic. Tuy nhiên, nếu dữ liệu có dạng tổng hợp (grouped) hoặc thể hiện dưới dạng tỷ lệ, ví dụ:

20 thành công trong 30 thử nghiệm → \(y = 20, n = 30\)

  • Tỷ lệ mắc bệnh ở mỗi quận

  • Tỷ lệ sinh viên đậu trong từng lớp

→ Cần dùng GLM dạng nhị thức tổng quát (binomial GLM), áp dụng cho số lần thành công trên số lần thử.

11.2 Mô hình hóa số thành công trong nhóm

Với \(y_i \sim \text{Binomial}(n_i, \pi_i)\), ta mô hình hóa:

\[ \log \left(\frac{\pi_i}{1 - \pi_i}\right) = \eta_i = x_i^T \beta \implies \pi_i = \frac{e^{x_i^T \beta}}{1 + e^{x_i^T \beta}} \]

Trong đó:

  • \(y_i\): số thành công trong nhóm \(i\)

  • \(n_i\): tổng số thử nghiệm trong nhóm \(i\)

  • \(\pi_i\): xác suất thành công

  • \(\mu_i = E[y_i] = n_i \pi_i\)

  • \(\text{Var}(y_i) = n_i \pi_i (1 - \pi_i)\)

→ Phù hợp cho dữ liệu dạng “n trials, k successes”.

11.3 Log-likelihood và IRLS

Hàm log-likelihood:

\[ \ell(\beta) = \sum_{i=1}^n \left[ y_i \log(\pi_i) + (n_i - y_i) \log(1 - \pi_i) \right] \]

Tối đa hóa log-likelihood bằng IRLS (như logistic), nhưng có thêm yếu tố \(n_i\).

Biến giả và trọng số:

\[ w_i = n_i \pi_i (1 - \pi_i) \]

\[ z_i = \eta_i + \frac{y_i - n_i \pi_i}{n_i \pi_i (1 - \pi_i)} \]

11.4 Ưu điểm so với mô hình nhị phân

Dạng dữ liệu Mô hình tương ứng Ghi chú
0/1 từng cá nhân Hồi quy logistic \(y_i \sim \text{Bernoulli}(\pi_i)\)
Nhóm nhiều cá nhân Binomial GLM với \(y_i / n_i\) \(y_i \sim \text{Binomial}(n_i, \pi_i)\)

→ Mô hình nhóm cho kết quả ước lượng chính xác hơn vì dùng nhiều thông tin hơn trên mỗi quan sát.

11.5 Dữ liệu tỷ lệ (proportions)

Nếu \(y_i / n_i\) được ghi dưới dạng tỷ lệ (0 < tỷ lệ < 1), ta vẫn dùng mô hình:

\[ \log \left(\frac{y_i / n_i}{1 - y_i / n_i}\right) = x_i^T \beta \]

→ Nhưng phải chỉ rõ số lần thử \(n_i\) để tính đúng phương sai.

CHƯƠNG 12: MÔ HÌNH TUYẾN TÍNH TỔNG QUÁT TWEEDEE (TWEEDIE GLMs)

12.1 Giới thiệu

Mô hình Tweedie GLM mở rộng họ hàm mũ bằng cách cho phép phân phối có đặc điểm trung gian giữa các phân phối quen thuộc như:

  • Gaussian

  • Poisson

  • Gamma

  • Inverse Gaussian

Mô hình Tweedie phù hợp với các loại dữ liệu có đặc điểm:

  • Liên tục dương + rất nhiều giá trị 0
    (ví dụ: dữ liệu chi phí, có người không tiêu dùng)

  • Phân tán quá mức (overdispersion)

  • Có cả phần rời rạc (0, 1, 2, …) lẫn liên tục dương

→ Ứng dụng rộng rãi trong bảo hiểm, tài chính, y tế, và các bài toán zero-inflated data.

12.2 Định nghĩa và tính chất

Tweedie là một lớp phân phối thuộc họ hàm mũ (exponential family), với hàm phương sai có dạng:

\[ \text{Var}(Y) = \phi \mu^p \]

Trong đó:

  • \(\mu = \mathbb{E}[Y]\): kỳ vọng

  • \(\phi > 0\): hệ số phân tán

  • \(p\): chỉ số sức mạnh (power index)

12.3 Giá trị đặc biệt của chỉ số \(p\)

\(p\) Phân phối tương ứng
0 Gaussian (Normal)
1 Poisson
\((1, 2)\) Tweedie hỗn hợp (0 + dương liên tục)
2 Gamma
3 Inverse Gaussian

→ Với \(1 < p < 2\), mô hình Tweedie hỗn hợp có thể:

  • Tái hiện được số lượng lớn giá trị 0

  • Mô hình hóa được giá trị dương liên tục

Rất phù hợp cho các bài toán như chi phí bảo hiểm, tổn thất, dữ liệu có số 0 và giá trị tiền tệ.

PHẦN 2

THỐNG KÊ MÔ TẢ CÁC BIẾN Supermarket Transactions

Gender

a <- read.csv(file = 'C:/Users/ADMIN/Downloads/Tkmt.csv', header = T) # load data
thong_ke_dinh_tinh <- function(data, var_name) {
  # Check if variable exists in data
  if (!var_name %in% names(data)) {
    stop("Variable does not exist in data")
  }
  
  # Convert to factor if needed
  variable <- as.factor(data[[var_name]])
  
  # freq
  freq <- table(variable)
  percent <- prop.table(freq) * 100
  
  # result
  result <- data.frame(
    Gia_tri = names(freq),
    Tan_so = as.vector(freq),
    Tan_suat = round(as.vector(percent), 2)
  )
  return(result)
}
library(ggplot2)
library(dplyr)

# Tạo bảng đếm số lượng theo giới tính
gender_count <- a %>%
  count(Gender) %>%
  mutate(perc = n / sum(n),
         label = paste0(Gender, " (", round(perc * 100), "%)"))

# Vẽ biểu đồ tròn
ggplot(gender_count, aes(x = "", y = n, fill = Gender)) +
  geom_col(width = 1) +
  coord_polar(theta = "y") +
  geom_text(aes(label = label), position = position_stack(vjust = 0.5)) +
  labs(title = "Tỷ lệ giới tính khách hàng") +
  theme_void()

Phân bố giới tính khá cân bằng, chỉ chênh lệch nhẹ giữa nữ (F) và nam (M).

Điều này cho thấy dữ liệu có tính đại diện giới tương đối tốt, tránh được thiên lệch giới tính.

MaritalStatus

thong_ke_dinh_tinh(a,'MaritalStatus')
##   Gia_tri Tan_so Tan_suat
## 1       M   6866    48.84
## 2       S   7193    51.16

Gần một nửa khách hàng là độc thân, còn lại là đã kết hôn.

Tỷ lệ này cũng tương đối cân bằng, giúp so sánh hành vi theo tình trạng hôn nhân mà không lo thiên lệch dữ liệu.

ggplot(data = a, aes(x = "", fill = MaritalStatus)) +
  geom_bar(width = 1) +
  coord_polar("y") +
  labs(title = "Tỷ lệ độc thân") +
  theme_void()

Homeowner

thong_ke_dinh_tinh(a, 'Homeowner')
##   Gia_tri Tan_so Tan_suat
## 1       N   5615    39.94
## 2       Y   8444    60.06

Phần lớn khách hàng là người sở hữu nhà (chiếm ~60%).

Điều này có thể ảnh hưởng đến thói quen chi tiêu hoặc ưu tiên mua sắm, là một đặc điểm quan trọng để phân khúc khách hàng.

ggplot(data = a, aes(x = Homeowner)) +
  geom_bar(fill = "#AEE0AF") +
  geom_text(stat = "count", aes(label = ..count..), vjust = -0.5) +
  labs(title = "Sở hữu nhà",
       x = "Có hoặc không", y = "Tần số") +
  theme_minimal()
## Warning: The dot-dot notation (`..count..`) was deprecated in ggplot2 3.4.0.
## ℹ Please use `after_stat(count)` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

Children

Children chỉ số con mà khách hàng có, biến này là 1 biến định lượng vì các giá trị của nó có thể so sánh với nhau.

library(skimr)
skim(a$Children)
Data summary
Name a$Children
Number of rows 14059
Number of columns 1
_______________________
Column type frequency:
numeric 1
________________________
Group variables None

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
data 0 1 2.53 1.49 0 1 3 4 5 ▇▆▆▆▃

Trung bình 2.53 và trung vị 3 cho thấy dữ liệu có xu hướng phân bố đều.

Không có dấu hiệu lệch nghiêm trọng hoặc có giá trị ngoại lệ bất thường.

ggplot(a, aes(x = as.factor(Children))) +
  geom_bar(fill = "lightblue") +
  geom_text(stat = "count", aes(label = ..count..), vjust = -0.5) +
  labs(x = "Số con", y = "Số khách hàng", title = "Phân bố số con của khách hàng")

AnnualIncome

thong_ke_dinh_tinh(a, 'AnnualIncome')
##         Gia_tri Tan_so Tan_suat
## 1   $10K - $30K   3090    21.98
## 2 $110K - $130K    643     4.57
## 3 $130K - $150K    760     5.41
## 4       $150K +    273     1.94
## 5   $30K - $50K   4601    32.73
## 6   $50K - $70K   2370    16.86
## 7   $70K - $90K   1709    12.16
## 8  $90K - $110K    613     4.36

$30K - $50K chiếm hơn 1/3 (32.73%) tổng số quan sát → là nhóm đông nhất. Kết hợp với $10K - $30K, ta có khoảng 55% người thuộc nhóm dưới $50K cho thấy mức thu nhập trung bình hoặc thấp là phổ biến.

Nhóm thu nhập cao (trên $90K) Gồm $90K - $110K, $110K - $130K, $130K - $150K, $150K+. Tổng tần suất chỉ khoảng 16.28% cho thấy nhóm thu nhập cao khá nhỏ.

ggplot(a, aes(x = AnnualIncome)) +
  geom_bar(fill = "lightblue", color = "purple") +
  labs(x = "Khoảng thu nhập", y = "Tần suất", title = "Biểu đồ tần suất thu nhập hàng năm") +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

City

thong_ke_dinh_tinh(a,'City')
##          Gia_tri Tan_so Tan_suat
## 1       Acapulco    383     2.72
## 2     Bellingham    143     1.02
## 3  Beverly Hills    811     5.77
## 4      Bremerton    834     5.93
## 5        Camacho    452     3.22
## 6    Guadalajara     75     0.53
## 7        Hidalgo    845     6.01
## 8    Los Angeles    926     6.59
## 9         Merida    654     4.65
## 10   Mexico City    194     1.38
## 11       Orizaba    464     3.30
## 12      Portland    876     6.23
## 13         Salem   1386     9.86
## 14    San Andres    621     4.42
## 15     San Diego    866     6.16
## 16 San Francisco    130     0.92
## 17       Seattle    922     6.56
## 18       Spokane    875     6.22
## 19        Tacoma   1257     8.94
## 20     Vancouver    633     4.50
## 21      Victoria    176     1.25
## 22   Walla Walla    160     1.14
## 23        Yakima    376     2.67

Salem có tần số cao nhất (1386 lần xuất hiện, chiếm 9.86). Tiếp theo là Tacoma (1257 lần, 8.94%).

Guadalajara có tần số thấp nhất (75 lần, chỉ 0.53%).

Nhìn chung, số lượng khách hàng ở các thành phố phân bố khá chênh lệch, điều này có thể dẫn đến những kết quả thiên lệch trong việc phân tích và so sánh giữa các thành phố.

ggplot(a, aes(x = City)) +
  geom_bar(fill = "lightblue", color = "black") +
  labs(x = "Thành phố", y = "Tần số", title = "Biểu đồ tần số khách hàng ở các thành phố") +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

StateorProvince

thong_ke_dinh_tinh(a,'StateorProvince')
##      Gia_tri Tan_so Tan_suat
## 1         BC    809     5.75
## 2         CA   2733    19.44
## 3         DF    815     5.80
## 4   Guerrero    383     2.72
## 5    Jalisco     75     0.53
## 6         OR   2262    16.09
## 7   Veracruz    464     3.30
## 8         WA   4567    32.48
## 9    Yucatan    654     4.65
## 10 Zacatecas   1297     9.23

WA (Washington) chiếm tỷ lệ áp đảo (32.48%, 4567 lần xuất hiện), CA (California) đứng thứ hai (19.44%, 2733 lần), OR (Oregon) đứng thứ ba (16.09%, 2262 lần). => Ba bang này thuộc Tây Bắc Thái Bình Dương của Hoa Kỳ chiếm tổng cộng 68.01% dữ liệu

Các tỉnh Mexico (DF, Guerrero, Jalisco, Veracruz, Yucatan, Zacatecas) có tần suất thấp hơn nhiều. Tổng cộng các tỉnh Mexico chỉ chiếm khoảng 26.23% dữ liệu

Kết quả này cho thấy sự tập trung địa lý rõ rệt trong tập dữ liệu, với phần lớn dữ liệu đến từ ba bang phía Tây Bắc Hoa Kỳ.

ggplot(a, aes(x = StateorProvince)) +
  geom_bar(fill = "#FFC", color = "yellow") +
  labs(x = "Bang", y = "Tần số", title = "Biểu đồ tần số khách hàng ở các bang") +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

Country

thong_ke_dinh_tinh(a,'Country')
##   Gia_tri Tan_so Tan_suat
## 1  Canada    809     5.75
## 2  Mexico   3688    26.23
## 3     USA   9562    68.01

Dữ liệu cho thấy sự phân bố không đồng đều giữa các quốc gia, với Hoa Kỳ (USA) chiếm tỷ lệ áp đảo (68.01%, 9.562 lần xuất hiện), tiếp theo là Mexico (26.23%, 3.688 lần) và Canada (5.75%, 809 lần). Điều này cho thấy tập dữ liệu chủ yếu tập trung vào thị trường Mỹ, có thể do dữ liệu được thu thập từ nguồn ưu tiên các giao dịch hoặc sự kiện tại Hoa Kỳ.

ggplot(a, aes(x = Country)) +
  geom_bar(fill = "#0CC", color = "red") +
  labs(x = "Quốc gia", y = "Tần số", title = "Biểu đồ tần số khách hàng ở các quốc gia") +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

ProductFamily

thong_ke_dinh_tinh(a,'ProductFamily')
##          Gia_tri Tan_so Tan_suat
## 1          Drink   1250     8.89
## 2           Food  10153    72.22
## 3 Non-Consumable   2656    18.89

Dữ liệu cho thấy sản phẩm thực phẩm (Food) chiếm tỷ lệ áp đảo (72.22%, 10.153 lần xuất hiện), trong khi nhóm đồ uống (Drink) chỉ chiếm 8.89% và sản phẩm không tiêu dùng (Non-Consumable) chiếm 18.89%. Sự chênh lệch rõ rệt này (Food gấp 8 lần Drink và gần 4 lần Non-Consumable) phản ánh trọng tâm của tập dữ liệu chủ yếu tập trung vào các sản phẩm thực phẩm.

ggplot(a, aes(x = ProductFamily)) +
  geom_bar(fill = "purple", color = "black") +
  labs(x = "Sản phẩm", y = "Tần số", title = "Phân khúc sản phẩm khách hàng mua")

  theme(axis.text.x = element_text(angle = 45, hjust = 1))
## List of 1
##  $ axis.text.x:List of 11
##   ..$ family       : NULL
##   ..$ face         : NULL
##   ..$ colour       : NULL
##   ..$ size         : NULL
##   ..$ hjust        : num 1
##   ..$ vjust        : NULL
##   ..$ angle        : num 45
##   ..$ lineheight   : NULL
##   ..$ margin       : NULL
##   ..$ debug        : NULL
##   ..$ inherit.blank: logi FALSE
##   ..- attr(*, "class")= chr [1:2] "element_text" "element"
##  - attr(*, "class")= chr [1:2] "theme" "gg"
##  - attr(*, "complete")= logi FALSE
##  - attr(*, "validate")= logi TRUE

ProductDepartment

thong_ke_dinh_tinh(a,'ProductDepartment')
##                Gia_tri Tan_so Tan_suat
## 1  Alcoholic Beverages    356     2.53
## 2          Baked Goods    425     3.02
## 3         Baking Goods   1072     7.63
## 4            Beverages    680     4.84
## 5      Breakfast Foods    188     1.34
## 6         Canned Foods    977     6.95
## 7      Canned Products    109     0.78
## 8             Carousel     59     0.42
## 9             Checkout     82     0.58
## 10               Dairy    903     6.42
## 11                Deli    699     4.97
## 12                Eggs    198     1.41
## 13        Frozen Foods   1382     9.83
## 14  Health and Hygiene    893     6.35
## 15           Household   1420    10.10
## 16                Meat     89     0.63
## 17         Periodicals    202     1.44
## 18             Produce   1994    14.18
## 19             Seafood    102     0.73
## 20         Snack Foods   1600    11.38
## 21              Snacks    352     2.50
## 22       Starchy Foods    277     1.97

Tập trung vào thực phẩm tươi và đồ gia dụng: Hai nhóm Produce và Household chiếm tổng cộng gần 25% dữ liệu, cho thấy đây có thể là các mặt hàng chủ lực.

Sự thiếu cân đối rõ rệt: Trong khi một số nhóm như Produce chiếm tới 14.18% thì nhiều nhóm khác như Meat, Seafood lại chiếm chưa tới 1%.

ggplot(a, aes(x = ProductDepartment)) +
  geom_bar(fill = "#11aa77", color = "blue") +
  labs(x = "Sản phẩm", y = "Tần số", title = "Bộ phận sản phẩm khách hàng mua") +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

ProductCategory

thong_ke_dinh_tinh(a,'ProductCategory')
##                 Gia_tri Tan_so Tan_suat
## 1          Baking Goods    484     3.44
## 2     Bathroom Products    365     2.60
## 3         Beer and Wine    356     2.53
## 4                 Bread    425     3.02
## 5       Breakfast Foods    417     2.97
## 6               Candles     45     0.32
## 7                 Candy    352     2.50
## 8      Canned Anchovies     44     0.31
## 9          Canned Clams     53     0.38
## 10       Canned Oysters     35     0.25
## 11      Canned Sardines     40     0.28
## 12        Canned Shrimp     38     0.27
## 13          Canned Soup    404     2.87
## 14          Canned Tuna     87     0.62
## 15 Carbonated Beverages    154     1.10
## 16    Cleaning Supplies    189     1.34
## 17        Cold Remedies     93     0.66
## 18                Dairy    903     6.42
## 19        Decongestants     85     0.60
## 20               Drinks    135     0.96
## 21                 Eggs    198     1.41
## 22           Electrical    355     2.53
## 23      Frozen Desserts    323     2.30
## 24       Frozen Entrees    118     0.84
## 25                Fruit    765     5.44
## 26             Hardware    129     0.92
## 27        Hot Beverages    226     1.61
## 28              Hygiene    197     1.40
## 29     Jams and Jellies    588     4.18
## 30     Kitchen Products    217     1.54
## 31            Magazines    202     1.44
## 32                 Meat    761     5.41
## 33        Miscellaneous     42     0.30
## 34  Packaged Vegetables     48     0.34
## 35       Pain Relievers    192     1.37
## 36       Paper Products    345     2.45
## 37                Pizza    194     1.38
## 38     Plastic Products    141     1.00
## 39 Pure Juice Beverages    165     1.17
## 40              Seafood    102     0.73
## 41          Side Dishes    153     1.09
## 42          Snack Foods   1600    11.38
## 43            Specialty    289     2.06
## 44        Starchy Foods    277     1.97
## 45           Vegetables   1728    12.29

Dữ liệu cho thấy Snack Foods (11.38%) và Vegetables (12.29%) là hai danh mục phổ biến nhất, chiếm tổng cộng gần 1/4 dữ liệu. Các danh mục đáng chú ý khác bao gồm Dairy (6.42%), Fruit (5.44%), và Meat (5.41%), trong khi nhiều danh mục như đồ hải sản đóng hộp (Canned Oysters 0.25%, Canned Shrimp 0.27%) hoặc các sản phẩm ít phổ biến (Candles 0.32%, Miscellaneous 0.30%) có tần suất rất thấp. Sự phân bố này phản ánh tập trung chính vào các mặt hàng tiêu dùng nhanh và thực phẩm tươi sống, trong khi các sản phẩm đặc biệt hoặc ít phổ biến chỉ chiếm tỷ lệ nhỏ.

ggplot(a, aes(x = ProductCategory)) +
  geom_bar(fill = "#CC9", color = "black") +
  labs(x = "Sản phẩm", y = "Tần số", title = "Danh mục sản phẩm khách hàng mua") +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

UnitsSold

skim(a$UnitsSold)
Data summary
Name a$UnitsSold
Number of rows 14059
Number of columns 1
_______________________
Column type frequency:
numeric 1
________________________
Group variables None

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
data 0 1 4.08 1.17 1 3 4 5 8 ▁▃▇▂▁

Kết quả cho thấy trung bình 1 đơn mua sẽ mua khoảng 4.08 đơn vị sản phẩm, giá trị độ lệch chuẩn bằng 1.17 cho thấy mức độ phân tán tương đối thấp xung quanh giá trị trung bình.

Có thể thấy rằng có 50% giao dịch bán từ 3-5 đơn vị (khoảng tứ phân vị) và 75% giao dịch bán ≤5 đơn vị.

barplot(table(a$UnitsSold), 
        col = "blue", 
        main = "Tần suất UnitsSold", 
        xlab = "Số đơn vị", ylab = "Số lần xuất hiện")

skim(a$Revenue)
Data summary
Name a$Revenue
Number of rows 14059
Number of columns 1
_______________________
Column type frequency:
numeric 1
________________________
Group variables None

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
data 0 1 13 8.22 0.53 6.84 11.25 17.37 56.7 ▇▅▂▁▁

Biến Revenue (doanh thu) cho thấy một phân phối lệch phải rõ rệt với giá trị trung bình 13.00 và trung vị 11.25, phản ánh sự hiện diện của nhiều giao dịch có doanh thu cao kéo trung bình lên. Độ lệch chuẩn lớn (8.22) cùng khoảng biến thiên rộng (từ 0.53 đến 56.7) cho thấy mức độ chênh lệch đáng kể giữa các giao dịch.

hist(a$Revenue, col = "red", 
     main = "Phân phối Revenue", 
     xlab = "Doanh thu")

1 lần nữa xác nhận rõ ràng phân phối lệch phải mạnh của biến Revenue. Các điểm riêng lẻ xuất hiện ở vùng 30-50, trùng khớp với giá trị tối đa 56.7 trong thống kê. Khoảng cách xa từ p75 (~17) đến các điểm này cho thấy chúng thực sự là các giá trị cực trị

