library(tidyverse)
## Warning: package 'tidyverse' was built under R version 4.4.3
## Warning: package 'ggplot2' was built under R version 4.4.3
## Warning: package 'tidyr' was built under R version 4.4.3
## Warning: package 'readr' was built under R version 4.4.3
## Warning: package 'purrr' was built under R version 4.4.3
## Warning: package 'dplyr' was built under R version 4.4.3
## Warning: package 'stringr' was built under R version 4.4.2
## Warning: package 'forcats' was built under R version 4.4.3
## Warning: package 'lubridate' was built under R version 4.4.3
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ ggplot2   3.5.1     ✔ tibble    3.2.1
## ✔ lubridate 1.9.4     ✔ tidyr     1.3.1
## ✔ purrr     1.0.4     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(epitools)
library(DescTools)
## Warning: package 'DescTools' was built under R version 4.4.3
library(DT)
## Warning: package 'DT' was built under R version 4.4.3
library(energy)
## Warning: package 'energy' was built under R version 4.4.3
library(readr)
options(digits = 4)

Tóm tắt sách Generalized Linear Models with R Examples

Cuốn sách “Generalized Linear Models with Examples in R” tập trung giới thiệu về lý thuyết và ứng dụng của mô hình tuyến tính tổng quát (GLM) — một khung tổng quát mở rộng các mô hình tuyến tính cổ điển, thích hợp cho nhiều loại biến kết quả không tuân theo phân phối chuẩn như nhị phân, đếm, và phân phối khác.

Sách đi sâu vào các thành phần chính của GLM: hàm liên kết, phân phối xác suất trong họ phân phối mũ (exponential family), phương pháp ước lượng (thường là tối đa hợp lý), kiểm định mô hình, lựa chọn mô hình, và chẩn đoán mô hình. R được dùng làm ngôn ngữ chính để minh họa các bước phân tích thực tế.

Dưới đây là phân tích chuyên sâu về nội dung của từng chương trong cuốn sách “Generalized Linear Models with Examples in R” của Peter K. Dunn và Gordon K. Smyth, kết hợp với các công thức toán học và lý thuyết liên quan. Mỗi chương sẽ được trình bày với các khái niệm chính, công thức, và ví dụ minh họa cụ thể.


Chương 1: Mô hình Thống kê (Statistical Models)

Giới thiệu tổng quan: - Mô hình thống kê là một công cụ mạnh mẽ để mô tả và phân tích dữ liệu. Chương này nhấn mạnh rằng mô hình thống kê không chỉ là các công thức toán học mà còn là cách để hiểu và giải thích dữ liệu thực tế. - Mô hình thống kê có thể được sử dụng cho nhiều mục đích khác nhau, bao gồm dự đoán và suy luận nhân quả.

Khám phá dữ liệu bằng đồ thị (Data visualization): - Vẽ đồ thị là bước đầu tiên quan trọng để hiểu mối quan hệ giữa các biến. Sử dụng dữ liệu dung tích phổi (FEV) để minh họa mối quan hệ giữa FEV và các biến như tuổi, chiều cao, giới tính, và tình trạng hút thuốc. - Các đồ thị như biểu đồ phân tán cho thấy mối quan hệ giữa FEV và tuổi, chiều cao, và phân tách theo tình trạng hút thuốc, giúp phát hiện các mối quan hệ phi tuyến.

Mã hóa biến định tính: - Các biến định tính cần được mã hóa thành biến số để có thể sử dụng trong mô hình hồi quy. Giải thích chi tiết về treatment coding cho biến Smoke (0: non-smoker, 1: smoker) và Gender. - Ma trận thiết kế X được xây dựng thông qua hàm model.matrix(), cho phép mô hình hóa các biến định tính một cách hiệu quả.

Phân tích mô hình: - Đề xuất 3 dạng hàm hệ thống cho FEV: 1. Tuyến tính đơn giản: \(\mu = \beta_0 + \beta_1 \text{Age} + \beta_2 \text{Height}\) 2. Đa thức bậc 2: \(\mu = \beta_0 + \beta_1 \text{Age} + \beta_2 \text{Age}^2\) 3. Log-linear: \(\log(\mu) = \beta_0 + \beta_1 \text{Height}\) - Sử dụng Q-Q plot và Shapiro-Wilk test để kiểm định giả thiết chuẩn của phần dư.

Lý thuyết căn bản: - Phát triển công thức ma trận cho ước lượng OLS: \[ \hat{\beta} = (X^T W X)^{-1} X^T W y \] với W là ma trận trọng số đường chéo. Chứng minh tính chất BLUE (Best Linear Unbiased Estimator) của \(\hat{\beta}\) dùng Gauss-Markov theorem.


Chương 2: Mô hình Hồi quy Tuyến tính (Linear Regression Models)

Ước lượng tham số: - Phương pháp bình phương tối thiểu trọng số (WLS) cho dữ liệu gestation (n=21): \[ \min_{\beta} \sum_{i=1}^n w_i(y_i - x_i^T \beta)^2 \] với \(w_i\) là số trường hợp quan sát tại mỗi tuổi thai.

Kiểm định giả thuyết: - Xây dựng kiểm định t cho \(H_0: \beta_j = 0\): \[ t = \frac{\hat{\beta}_j}{SE(\hat{\beta}_j)} \sim t_{n-p'} \] - Phân tích ANOVA với decomposition: \[ SST = SS_{reg} + SSE \]\[ R^2_{adj} = 1 - \frac{SSE/(n-p')}{SST/(n-1)} \]

Case study lungcap: - So sánh 4 mô hình lồng nhau bằng F-test: \[ F = \frac{(SSE_{reduced} - SSE_{full})/(df_{red} - df_{full})}{MSE_{full}} \] - Phát hiện hiệu ứng confounder: hệ số Smoke thay đổi từ 0.15 (p=0.12) sang -0.046 (p=0.028) sau khi kiểm soát Height.


Chương 3: Chẩn đoán Mô hình (Model Diagnostics)

Phân tích phần dư: - Xác định outliers bằng studentized residuals: \[ r_i^* = \frac{r_i}{\hat{\sigma}\sqrt{1-h_{ii}}} \] với \(h_{ii}\) là leverage từ ma trận hat \(H = X(X^TX)^{-1}X^T\).

Biến đổi Box-Cox: - Tối ưu tham số λ bằng profile likelihood: \[ L_{max}(\lambda) = -\frac{n}{2}\log(SSE(\lambda)) \] - Ứng dụng cho dữ liệu FEV tìm được λ ≈ 0.3, gợi ý biến đổi căn bậc 3.


Chương 4: Ước lượng Hợp lý Cực đại (Maximum Likelihood Estimation)

Lý thuyết căn bản: - Hàm score function: \[ U(\theta) = \frac{\partial \ell(\theta)}{\partial \theta} \] - Ma trận thông tin Fisher: \[ I(\theta) = -E\left[\frac{\partial^2 \ell}{\partial \theta \partial \theta^T}\right] \]

Thuật toán Fisher Scoring: - Cập nhật tham số: \[ \theta^{(t+1)} = \theta^{(t)} + I^{-1}(\theta^{(t)})U(\theta^{(t)}) \] - Áp dụng cho Poisson regression với link log.


Chương 5: Cấu trúc GLM (GLM Structure)

Thành phần ngẫu nhiên: - Phân phối thuộc Exponential Dispersion Family: \[ f(y;\theta,\phi) = \exp\left\{\frac{y\theta - b(\theta)}{a(\phi)} + c(y,\phi)\right\} \] - Ví dụ: Poisson(μ) có θ=logμ, ϕ=1, b(θ)=e^θ.

Link functions: - Canonical link: \(g(\mu) = \theta\) - Identity link cho Normal, Logit cho Binomial, Log cho Poisson.


Chương 6: Ước lượng trong GLM (GLM Estimation)

Thuật toán IWLS (Iteratively Reweighted Least Squares): - Cơ sở lý thuyết: - Tối ưu hóa hàm log-likelihood bằng phương pháp Newton-Raphson: \[ \beta^{(t+1)} = \beta^{(t)} + \mathcal{I}^{-1}(\beta^{(t)})U(\beta^{(t)}) \] với \(\mathcal{I}\) là ma trận thông tin Fisher, \(U\) là hàm score. - Trọng số cập nhật: \(w_i = [V(\mu_i)g'(\mu_i)^2]^{-1}\) với \(V\) là hàm phương sai.

  • Triển khai trong R:

    glm(FEV ~ Age + Height, family = Gamma(link="log"), data=lungcap)
    • Giải thích output: Deviance residuals, null/deviance, AIC.

Case study: Ước lượng mô hình Gamma cho chi phí y tế (dữ liệu medical_cost) với link log, so sánh hiệu năng qua AIC/BIC.


Chương 7: Suy luận trong GLM (GLM Inference)

Kiểm định Wald/Likelihood Ratio/Score: - Wald test: \[ W = \frac{\hat{\beta}_j}{SE(\hat{\beta}_j)} \sim N(0,1) \] - Ứng dụng kiểm tra significance của smoking status trong mô hình logistic.

  • Likelihood Ratio Test: \[ D = 2(\ell_{\text{full}} - \ell_{\text{reduced}}) \sim \chi^2_{df} \]
    • Ví dụ: So sánh mô hình đầy đủ và mô hình không có interaction term.

Phân tích Deviance: - Bảng ANOVA cho GLM: | Nguồn biến động | Deviance | df | p-value | |—————-|———-|—-|———| | Model | 58.79 | 4 | <0.001 | | Residual | 13.73 | 649| |


Chương 8: Chẩn đoán GLM (GLM Diagnostics)

Phần dư chuẩn hóa: - Pearson residuals: \[ r_i^P = \frac{y_i - \hat{\mu}_i}{\sqrt{V(\hat{\mu}_i)}} \] - Deviance residuals: \[ r_i^D = \text{sign}(y_i - \hat{\mu}_i)\sqrt{2\left[\ell(y_i;y_i) - \ell(\hat{\mu}_i;y_i)\right]} \] - Q-Q plot kiểm định phân phối phần dư, phát hiện overdispersion.

Ví dụ: Phân tích mô hình Poisson cho số lần nhập viện (dữ liệu hospital), phát hiện overdispersion qua Pearson statistic \(\chi^2/\text{df} = 2.5\).


Chương 9: Mô hình Binomial (Binomial GLMs)

Logistic Regression: - Link logit: \[ \log\left(\frac{\pi}{1-\pi}\right) = X\beta \] - Giải thích odds ratio: \(\exp(\beta_1) = 2.5\) → X tăng 1 đơn vị, odds tăng 2.5 lần.

Probit/Complementary Log-Log: - Ứng dụng trong dose-response analysis (dữ liệu toxicity), so sánh ED50 giữa các link functions.

Overdispersion: - Kiểm tra bằng: \[ \frac{\sum (r_i^P)^2}{n-p'} > 1 \] - Xử lý bằng quasi-binomial hoặc mixed models.


Chương 10: Mô hình Poisson & Negative Binomial

Poisson Regression: - Mô hình offset: \[ \log(\mu_i) = \log(t_i) + X\beta \] - Ứng dụng khi phân tích tỷ lệ (ví dụ: số ca bệnh theo dân số).

Negative Binomial: - Khắc phục overdispersion với tham số \(\theta\): \[ V(\mu) = \mu + \frac{\mu^2}{\theta} \] - Triển khai trong R: r glm.nb(count ~ treatment + offset(log(exposure)), data=epidemic)


Chương 11: Gamma & Inverse Gaussian

Gamma Regression: - Link log: \[ \log(\mu_i) = X\beta \] - Phù hợp cho dữ liệu chi phí (right-skewed). - Ước lượng \(\phi\) bằng phương pháp maximum likelihood.

Inverse Gaussian: - Ứng dụng cho dữ liệu thời gian sống (survival data) với \(V(\mu) = \mu^3\).


Chương 12: Mô hình Tweedie

Cấu trúc phân phối: - Kết hợp point mass tại 0 và phân phối liên tục dương: \[ f(y) = p_0 \delta_0(y) + (1-p_0)f_+(y) \] - Power variance function: \[ V(\mu) = \phi \mu^\xi \] - Ước lượng \(\xi\) bằng profile likelihood.

Case study: Bảo hiểm nông nghiệp với dữ liệu có excess zeros (tỉ lệ thiệt hại ≥ 0).


Chương 13: Các Vấn Đề Bổ Sung

Xử lý Dữ liệu Phức tạp: - Missing Data Mechanisms: - Phân loại theo Rubin (1976): - MCAR (Missing Completely At Random) - MAR (Missing At Random) - MNAR (Missing Not At Random)

  • Công cụ trong R:

    library(mice)
    imp_data <- mice(lungcap, m=5, method="pmm") # Predictive Mean Matching
    fit <- with(imp_data, lm(log(FEV) ~ Age + Height))
    pool(fit) # Kết hợp kết quả

Mô hình Đa cấp (Multilevel Models): - Phương trình: \[ \logit(\pi_{ij}) = \beta_0 + \beta_1X_{ij} + u_j \quad (u_j \sim N(0,\sigma_u^2)) \]

Kiểm định Mô hình: - Vuong Test cho so sánh non-nested models: \[ V = \frac{\sqrt{n}\bar{D}}{s_D} \sim N(0,1) \]


Chương 14: Sử Dụng R cho Phân Tích Dữ Liệu

Hệ sinh thái GLM trong R: - Các package chính:

Package Chức năng Ví dụ
lme4 GLMMs glmer(y ~ x + (1|group))
mgcv GAMs gam(y ~ s(x))
brms Bayesian GLMs brm(y ~ x, family=negbinomial))

Pipeline phân tích:

# Kiểm tra overdispersion
dispersion_test <- function(model) {
  r <- residuals(model, type="pearson")
  sum(r^2)/df.residual(model)
}

Chương 15: Giải Quyết Các Vấn Đề (Troubleshooting)

Convergence Issues: - Cảnh báo thường gặp: Warning: glm.fit: algorithm did not converge - Giải pháp: - Tăng maxit trong glm.control - Kiểm tra separation

Hiện tượng Quasi-complete Separation: - Phát hiện: - Hệ số \(\beta \rightarrow \infty\) trong logistic regression - Sử dụng Firth’s correction: r library(logistf) logistf(y ~ x1 + x2, data=...)

Xử lý Outliers: - Robust GLMs:

library(robust)
glmRob(y ~ x, family=poisson, data=...)

Chương 16: Case Studies Tổng hợp

Ứng dụng Y tế: - Dữ liệu: ICU mortality (n=2000) - Mô hình:

glm(death ~ age + sepsis + (1|hospital), family=binomial, data=icu)

Ứng dụng Kinh tế: - Mô hình Tweedie cho claim insurance:

library(tweedie)
glm(claim ~ age + type, family=tweedie(var.power=1.5, link.power=0), data=insurance)

Ứng dụng Môi trường: - Zero-inflated Poisson cho số lần xuất hiện loài:

library(pscl)
zeroinfl(count ~ temp + rainfall | 1, data=species)

Điểm nhấn đặc biệt

  1. Reproducible Research: Sử dụng knitr/rmarkdown để tích hợp code, kết quả và báo cáo.
  2. Interactive Visualization: Sử dụng plotly để tạo đồ thị tương tác.
  3. Shiny Apps: Xây dựng dashboard tương tác để khám phá mô hình.

Đọc dữ liệu

d <- read_csv("C:/Users/Hoang Quyen/Downloads/Supermarket Transactions.csv")
## New names:
## Rows: 14059 Columns: 16
## ── Column specification
## ──────────────────────────────────────────────────────── Delimiter: "," chr
## (10): Gender, MaritalStatus, Homeowner, AnnualIncome, City, StateorProv... dbl
## (5): ...1, CustomerID, Children, UnitsSold, Revenue date (1): PurchaseDate
## ℹ Use `spec()` to retrieve the full column specification for this data. ℹ
## Specify the column types or set `show_col_types = FALSE` to quiet this message.
## • `` -> `...1`

Dữ liệu “Supermarket Transactions.csv” với 14.059 quan sát được phân tích nhằm mô tả đặc điểm của một số biến định tính như Giới tính, Tình trạng hôn nhân, Sở hữu nhà, Bang/Tỉnh và Nhóm sản phẩm. Phân tích được thực hiện bằng ngôn ngữ R, sử dụng các hàm như table(), prop.table() để tạo bảng tần số và tỷ lệ phần trăm, và ggplot2 để trực quan hóa dữ liệu.

Thống kê mô tả cho biến định tính

Biến Gender (Giới tính)

table(d$Gender)
## 
##    F    M 
## 7170 6889
table(d$Gender) / sum(table(d$Gender))
## 
##    F    M 
## 0.51 0.49
ggplot(d, aes(Gender)) + 
  geom_bar(fill = 'steelblue') + 
  xlab('Giới tính') + ylab('Số lượng')

ggplot(d, aes(Gender)) + 
  geom_bar(aes(y = after_stat(count)/sum(after_stat(count))), fill = 'steelblue') + 
  xlab('Giới tính') + ylab('Tỷ lệ %')

abc_gender <- d |> group_by(Gender) |> summarise(freq = n()) |> mutate(per = freq/sum(freq))
ggplot(abc_gender, aes(x = '', y = per, fill = Gender)) + 
  geom_bar(stat = 'identity') + 
  coord_polar('y') + 
  theme_void() + 
  labs(fill = 'Giới tính')

Biến Gender phản ánh giới tính của khách hàng. Tần số cho thấy có 7,170 khách hàng nữ và 6,889 khách hàng nam, tương ứng với tỷ lệ lần lượt là 51% và 49%. Biểu đồ cột và biểu đồ bánh được sử dụng để trực quan hóa sự phân bố này, cho thấy phân bố giới tính tương đối đồng đều giữa hai nhóm.

Biến MaritalStatus (Tình trạng hôn nhân)

table(d$MaritalStatus)
## 
##    M    S 
## 6866 7193
table(d$MaritalStatus) / sum(table(d$MaritalStatus))
## 
##      M      S 
## 0.4884 0.5116
ggplot(d, aes(MaritalStatus)) + 
  geom_bar(fill = 'darkorange') + 
  xlab('Tình trạng hôn nhân') + ylab('Số lượng')

ggplot(d, aes(MaritalStatus)) + 
  geom_bar(aes(y = after_stat(count)/sum(after_stat(count))), fill = 'darkorange') + 
  xlab('Tình trạng hôn nhân') + ylab('Tỷ lệ %')

abc_marital <- d |> group_by(MaritalStatus) |> summarise(freq = n()) |> mutate(per = freq/sum(freq))
ggplot(abc_marital, aes(x = '', y = per, fill = MaritalStatus)) + 
  geom_bar(stat = 'identity') + 
  coord_polar('y') + 
  theme_void() + 
  labs(fill = 'Tình trạng hôn nhân')

Biến MaritalStatus cho biết khách hàng đã kết hôn hay còn độc thân. Kết quả cho thấy có 7,193 khách hàng độc thân (51.16%) và 6,866 khách hàng đã kết hôn (48.84%). Các biểu đồ cột và biểu đồ tròn thể hiện rõ sự phân bố gần như đồng đều giữa hai nhóm khách hàng.

Biến Homeowner (Sở hữu nhà)

table(d$Homeowner)
## 
##    N    Y 
## 5615 8444
table(d$Homeowner) / sum(table(d$Homeowner))
## 
##      N      Y 
## 0.3994 0.6006

Sở hữu nhà (Own Home): Phân tích cho thấy khoảng 60.1% khách hàng sở hữu nhà. Biểu đồ cột và bảng tỷ lệ được sử dụng để phản ánh sự khác biệt giữa hai nhóm “Y” (Yes) và “N” (No).

ggplot(d, aes(Homeowner)) + 
  geom_bar(fill = 'forestgreen') + 
  xlab('Sở hữu nhà') + ylab('Số lượng')

ggplot(d, aes(Homeowner)) + 
  geom_bar(aes(y = after_stat(count)/sum(after_stat(count))), fill = 'forestgreen') + 
  xlab('Sở hữu nhà') + ylab('Tỷ lệ %')

abc_homeowner <- d |> group_by(Homeowner) |> summarise(freq = n()) |> mutate(per = freq/sum(freq))
ggplot(abc_homeowner, aes(x = '', y = per, fill = Homeowner)) + 
  geom_bar(stat = 'identity') + 
  coord_polar('y') + 
  theme_void() + 
  labs(fill = 'Sở hữu nhà')

Biến Homeowner phản ánh việc khách hàng có sở hữu nhà hay không. Có 8,444 người sở hữu nhà (60.06%) và 5,615 người không sở hữu (39.94%). Biểu đồ cột và biểu đồ bánh cung cấp cái nhìn trực quan về sự chênh lệch này, cho thấy phần lớn khách hàng trong tập dữ liệu là người sở hữu nhà.

Biến StateorProvince (Bang/Tỉnh)

table(d$StateorProvince)
## 
##        BC        CA        DF  Guerrero   Jalisco        OR  Veracruz        WA 
##       809      2733       815       383        75      2262       464      4567 
##   Yucatan Zacatecas 
##       654      1297
table(d$StateorProvince) / sum(table(d$StateorProvince))
## 
##        BC        CA        DF  Guerrero   Jalisco        OR  Veracruz        WA 
##  0.057543  0.194395  0.057970  0.027242  0.005335  0.160893  0.033004  0.324845 
##   Yucatan Zacatecas 
##  0.046518  0.092254
ggplot(d, aes(fct_infreq(StateorProvince))) + 
  geom_bar(color = 'blue', fill = 'green') + 
  xlab('Bang/Tỉnh') + ylab('Số lượng') + 
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

ggplot(d, aes(fct_infreq(StateorProvince))) + 
  geom_bar(aes(y = after_stat(count)/sum(after_stat(count))), color = 'blue', fill = 'green') + 
  xlab('Bang/Tỉnh') + ylab('Tỷ lệ %') + 
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

abc_state <- d |> group_by(StateorProvince) |> summarise(freq = n()) |> mutate(per = freq/sum(freq))
ggplot(abc_state, aes(x = '', y = per, fill = StateorProvince)) + 
  geom_bar(stat = 'identity') + 
  coord_polar('y') + 
  theme_void() + 
  labs(fill = 'Bang/Tỉnh')

Biến StateorProvince cho biết khu vực địa lý của khách hàng, với 10 bang/tỉnh khác nhau. Washington (WA) có số lượng khách hàng cao nhất (32.48%), tiếp theo là California (CA, 19.44%), trong khi Jalisco có số lượng thấp nhất (0.53%). Biểu đồ cột sắp xếp theo tần suất giảm dần và biểu đồ tròn giúp hình dung sự phân bố theo khu vực.

Biến ProductFamily (Nhóm sản phẩm)

table(d$ProductFamily)
## 
##          Drink           Food Non-Consumable 
##           1250          10153           2656
table(d$ProductFamily) / sum(table(d$ProductFamily))
## 
##          Drink           Food Non-Consumable 
##        0.08891        0.72217        0.18892
ggplot(d, aes(ProductFamily)) + 
  geom_bar(fill = 'purple') + 
  xlab('Nhóm sản phẩm') + ylab('Số lượng')

ggplot(d, aes(ProductFamily)) + 
  geom_bar(aes(y = after_stat(count)/sum(after_stat(count))), fill = 'purple') + 
  xlab('Nhóm sản phẩm') + ylab('Tỷ lệ %')

abc_product <- d |> group_by(ProductFamily) |> summarise(freq = n()) |> mutate(per = freq/sum(freq))
ggplot(abc_product, aes(x = '', y = per, fill = ProductFamily)) + 
  geom_bar(stat = 'identity') + 
  coord_polar('y') + 
  theme_void() + 
  labs(fill = 'Nhóm sản phẩm')

Biến ProductFamily phân loại sản phẩm theo ba nhóm chính: Food (72.22%), Non-Consumable (18.89%) và Drink (8.89%). Kết quả cho thấy nhóm sản phẩm thực phẩm chiếm ưu thế rõ rệt. Các biểu đồ trực quan hỗ trợ làm rõ sự phân bố không đồng đều này giữa các nhóm sản phẩm.

Thống kê mô tả cho biến định lượng

Biến Children (Số con)

summary(d$Children)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    1.00    3.00    2.53    4.00    5.00
ggplot(d, aes(y = Children)) + 
  geom_boxplot(fill = 'lightblue') + 
  ylab('Số con')

ggplot(d, aes(Children)) + 
  geom_histogram(binwidth = 1, fill = 'lightblue', color = 'black') + 
  xlab('Số con') + ylab('Số lượng')

Biến Children cho biết số lượng con của khách hàng. Thống kê mô tả cho thấy số con trung bình là 2.53, trung vị là 3, dao động từ 0 đến 5. Biểu đồ hộp và biểu đồ histogram giúp minh họa rõ hơn về sự phân bố, độ lệch và các giá trị ngoại lai.

Biến UnitsSold (Số đơn vị bán ra)

summary(d$UnitsSold)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1.00    3.00    4.00    4.08    5.00    8.00
ggplot(d, aes(y = UnitsSold)) + 
  geom_boxplot(fill = 'lightgreen') + 
  ylab('Số đơn vị bán ra')

ggplot(d, aes(UnitsSold)) + 
  geom_histogram(binwidth = 1, fill = 'lightgreen', color = 'black') + 
  xlab('Số đơn vị bán ra') + ylab('Số lượng')

Biến UnitsSold phản ánh số lượng sản phẩm được bán trong mỗi giao dịch, với trung bình là 4.08 đơn vị. Giá trị nhỏ nhất là 1, lớn nhất là 8. Biểu đồ hộp và histogram được sử dụng để thể hiện phân bố và sự tập trung của biến này xung quanh trung vị.

Biến Revenue (Doanh thu)

summary(d$Revenue)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.53    6.84   11.25   13.00   17.37   56.70
ggplot(d, aes(y = Revenue)) + 
  geom_boxplot(fill = 'lightcoral') + 
  ylab('Doanh thu')

ggplot(d, aes(Revenue)) + 
  geom_histogram(binwidth = 5, fill = 'lightcoral', color = 'black') + 
  xlab('Doanh thu') + ylab('Số lượng')

Biến Revenue thể hiện tổng doanh thu từ mỗi giao dịch. Doanh thu trung bình là 13.00, với trung vị 11.25 và dao động từ 0.53 đến 56.70. Biểu đồ hộp và histogram cho thấy phân bố hơi lệch phải với một số giá trị doanh thu cao vượt trội.

Thống kê mô tả cho hai biến

Gender và ProductFamily

abc_gender_product <- table(d$Gender, d$ProductFamily)
abc_gender_product
##    
##     Drink Food Non-Consumable
##   F   669 5149           1352
##   M   581 5004           1304
abc_gender_product_prop <- prop.table(abc_gender_product)
addmargins(abc_gender_product_prop)
##      
##         Drink    Food Non-Consumable     Sum
##   F   0.04759 0.36624        0.09617 0.50999
##   M   0.04133 0.35593        0.09275 0.49001
##   Sum 0.08891 0.72217        0.18892 1.00000
ggplot(d, aes(Gender, fill = ProductFamily)) + 
  geom_bar(position = 'dodge') + 
  xlab('Giới tính') + ylab('Số lượng') + 
  labs(fill = 'Nhóm sản phẩm')

Mối quan hệ giữa Gender và ProductFamily cho thấy phụ nữ mua sản phẩm Food nhiều hơn nam giới, với các con số lần lượt là 5,149 và 5,004. Tỷ lệ tương ứng cho thấy xu hướng lựa chọn sản phẩm giữa hai giới tương đối tương đồng, tuy nhiên có sự khác biệt nhỏ trong nhóm Drink và Non-Consumable. Biểu đồ cột so sánh trực tiếp giúp nhận diện xu hướng này một cách trực quan.

MaritalStatus và Homeowner

abc_marital_homeowner <- table(d$MaritalStatus, d$Homeowner)
abc_marital_homeowner
##    
##        N    Y
##   M 1719 5147
##   S 3896 3297
abc_marital_homeowner_prop <- prop.table(abc_marital_homeowner)
addmargins(abc_marital_homeowner)
##      
##           N     Y   Sum
##   M    1719  5147  6866
##   S    3896  3297  7193
##   Sum  5615  8444 14059
riskratio(abc_marital_homeowner, rev = 'c')
## $data
##        
##            Y    N Total
##   M     5147 1719  6866
##   S     3297 3896  7193
##   Total 8444 5615 14059
## 
## $measure
##    risk ratio with 95% C.I.
##     estimate lower upper
##   M    1.000    NA    NA
##   S    2.163 2.066 2.266
## 
## $p.value
##    two-sided
##     midp.exact fisher.exact chi.square
##   M         NA           NA         NA
##   S          0   1.822e-277 3.663e-272
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
oddsratio(abc_marital_homeowner, rev = 'c')
## $data
##        
##            Y    N Total
##   M     5147 1719  6866
##   S     3297 3896  7193
##   Total 8444 5615 14059
## 
## $measure
##    odds ratio with 95% C.I.
##     estimate lower upper
##   M    1.000    NA    NA
##   S    3.538 3.294 3.801
## 
## $p.value
##    two-sided
##     midp.exact fisher.exact chi.square
##   M         NA           NA         NA
##   S          0   1.822e-277 3.663e-272
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
ggplot(d, aes(MaritalStatus, fill = Homeowner)) + 
  geom_bar(position = 'dodge') + 
  xlab('Tình trạng hôn nhân') + ylab('Số lượng') + 
  labs(fill = 'Sở hữu nhà')

Sự kết hợp giữa hai biến MaritalStatus và Homeowner cho thấy phần lớn khách hàng đã kết hôn sở hữu nhà (75%), trong khi tỷ lệ này ở nhóm độc thân chỉ khoảng 46%. Tỷ số chênh (odds ratio) là 3.538, và rủi ro tương đối (risk ratio) là 2.163, cho thấy sự khác biệt đáng kể giữa hai nhóm. Biểu đồ cột minh họa rõ sự khác biệt trong quyền sở hữu nhà theo tình trạng hôn nhân.

Thống kê mô tả cho ba biến

Gender, Homeowner, Country

Phân tích ba biến kết hợp cho thấy sự phân bố quyền sở hữu nhà theo giới tính và quốc gia. Ví dụ, tại Canada, tỷ lệ nữ sở hữu nhà cao hơn nam; trong khi tại Mexico, sự khác biệt giữa hai giới ít rõ rệt hơn. Dữ liệu được trình bày trong bảng tần số ba chiều, giúp nắm bắt tổng quan sự khác biệt theo từng quốc gia.

abc_gender_homeowner_country <- ftable(d$Gender, d$Homeowner, d$Country)
abc_gender_homeowner_country
##      Canada Mexico  USA
##                        
## F N     136    866 1824
##   Y     237   1190 2917
## M N     184    607 1998
##   Y     252   1025 2823
abc_gender_homeowner_country_prop <- prop.table(abc_gender_homeowner_country)
round(addmargins(abc_gender_homeowner_country_prop), 4)
##                             Sum
##     0.0097 0.0616 0.1297 0.2010
##     0.0169 0.0846 0.2075 0.3090
##     0.0131 0.0432 0.1421 0.1984
##     0.0179 0.0729 0.2008 0.2916
## Sum 0.0575 0.2623 0.6801 1.0000

Độ nhạy và độ đặc hiệu

Dựa trên mối quan hệ giữa MaritalStatus và Homeowner, độ nhạy (khả năng dự đoán đúng người sở hữu nhà khi đã kết hôn) là 74.96%, và độ đặc hiệu (khả năng dự đoán đúng người không sở hữu nhà khi độc thân) là 54.16%. Hai chỉ số này giúp đánh giá hiệu quả phân loại dựa vào tình trạng hôn nhân.

abc_marital_homeowner
##    
##        N    Y
##   M 1719 5147
##   S 3896 3297
sensitivity <- abc_marital_homeowner[1, 2] / (abc_marital_homeowner[1, 2] + abc_marital_homeowner[1, 1])
sensitivity
## [1] 0.7496
specificity <- abc_marital_homeowner[2, 1] / (abc_marital_homeowner[2, 1] + abc_marital_homeowner[2, 2])
specificity
## [1] 0.5416
---
title: "Nhiệm vụ 1"
author: "Hoàng Quyên"
date: "2025-05-18"
output:
  html_document:
    code_folding: hide
    code_download: true
    number_sections: false  
    toc: true
    toc_depth: 5
    toc_float:
      collapsed: true
      smooth_scroll: true
  word_document:
    toc: true
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
```

```{r}
library(tidyverse)
library(epitools)
library(DescTools)
library(DT)
library(energy)
library(readr)
options(digits = 4)
```
# Tóm tắt sách Generalized Linear Models with R Examples

Cuốn sách "Generalized Linear Models with Examples in R" tập trung giới thiệu về lý thuyết và ứng dụng của mô hình tuyến tính tổng quát (GLM) — một khung tổng quát mở rộng các mô hình tuyến tính cổ điển, thích hợp cho nhiều loại biến kết quả không tuân theo phân phối chuẩn như nhị phân, đếm, và phân phối khác.

Sách đi sâu vào các thành phần chính của GLM: hàm liên kết, phân phối xác suất trong họ phân phối mũ (exponential family), phương pháp ước lượng (thường là tối đa hợp lý), kiểm định mô hình, lựa chọn mô hình, và chẩn đoán mô hình. R được dùng làm ngôn ngữ chính để minh họa các bước phân tích thực tế.

Dưới đây là phân tích chuyên sâu về nội dung của từng chương trong cuốn sách "Generalized Linear Models with Examples in R" của Peter K. Dunn và Gordon K. Smyth, kết hợp với các công thức toán học và lý thuyết liên quan. Mỗi chương sẽ được trình bày với các khái niệm chính, công thức, và ví dụ minh họa cụ thể.

---

## **Chương 1: Mô hình Thống kê (Statistical Models)**

**Giới thiệu tổng quan:**
- Mô hình thống kê là một công cụ mạnh mẽ để mô tả và phân tích dữ liệu. Chương này nhấn mạnh rằng mô hình thống kê không chỉ là các công thức toán học mà còn là cách để hiểu và giải thích dữ liệu thực tế.
- Mô hình thống kê có thể được sử dụng cho nhiều mục đích khác nhau, bao gồm dự đoán và suy luận nhân quả.

**Khám phá dữ liệu bằng đồ thị (Data visualization):**
- Vẽ đồ thị là bước đầu tiên quan trọng để hiểu mối quan hệ giữa các biến. Sử dụng dữ liệu dung tích phổi (FEV) để minh họa mối quan hệ giữa FEV và các biến như tuổi, chiều cao, giới tính, và tình trạng hút thuốc.
- Các đồ thị như biểu đồ phân tán cho thấy mối quan hệ giữa FEV và tuổi, chiều cao, và phân tách theo tình trạng hút thuốc, giúp phát hiện các mối quan hệ phi tuyến.

**Mã hóa biến định tính:**
- Các biến định tính cần được mã hóa thành biến số để có thể sử dụng trong mô hình hồi quy. Giải thích chi tiết về treatment coding cho biến Smoke (0: non-smoker, 1: smoker) và Gender.
- Ma trận thiết kế X được xây dựng thông qua hàm `model.matrix()`, cho phép mô hình hóa các biến định tính một cách hiệu quả.

**Phân tích mô hình:**
- Đề xuất 3 dạng hàm hệ thống cho FEV:
  1. Tuyến tính đơn giản: \( \mu = \beta_0 + \beta_1 \text{Age} + \beta_2 \text{Height} \)
  2. Đa thức bậc 2: \( \mu = \beta_0 + \beta_1 \text{Age} + \beta_2 \text{Age}^2 \)
  3. Log-linear: \( \log(\mu) = \beta_0 + \beta_1 \text{Height} \)
- Sử dụng Q-Q plot và Shapiro-Wilk test để kiểm định giả thiết chuẩn của phần dư.

**Lý thuyết căn bản:**
- Phát triển công thức ma trận cho ước lượng OLS:
  \[
  \hat{\beta} = (X^T W X)^{-1} X^T W y
  \]
  với W là ma trận trọng số đường chéo. Chứng minh tính chất BLUE (Best Linear Unbiased Estimator) của \( \hat{\beta} \) dùng Gauss-Markov theorem.

---

## **Chương 2: Mô hình Hồi quy Tuyến tính (Linear Regression Models)**

**Ước lượng tham số:**
- Phương pháp bình phương tối thiểu trọng số (WLS) cho dữ liệu gestation (n=21):
  \[
  \min_{\beta} \sum_{i=1}^n w_i(y_i - x_i^T \beta)^2
  \]
  với \( w_i \) là số trường hợp quan sát tại mỗi tuổi thai.

**Kiểm định giả thuyết:**
- Xây dựng kiểm định t cho \( H_0: \beta_j = 0 \):
  \[
  t = \frac{\hat{\beta}_j}{SE(\hat{\beta}_j)} \sim t_{n-p'}
  \]
- Phân tích ANOVA với decomposition:
  \[
  SST = SS_{reg} + SSE
  \]
  và 
  \[
  R^2_{adj} = 1 - \frac{SSE/(n-p')}{SST/(n-1)}
  \]

**Case study lungcap:**
- So sánh 4 mô hình lồng nhau bằng F-test:
  \[
  F = \frac{(SSE_{reduced} - SSE_{full})/(df_{red} - df_{full})}{MSE_{full}}
  \]
- Phát hiện hiệu ứng confounder: hệ số Smoke thay đổi từ 0.15 (p=0.12) sang -0.046 (p=0.028) sau khi kiểm soát Height.

---

## **Chương 3: Chẩn đoán Mô hình (Model Diagnostics)**

**Phân tích phần dư:**
- Xác định outliers bằng studentized residuals:
  \[
  r_i^* = \frac{r_i}{\hat{\sigma}\sqrt{1-h_{ii}}}
  \]
  với \( h_{ii} \) là leverage từ ma trận hat \( H = X(X^TX)^{-1}X^T \).

**Biến đổi Box-Cox:**
- Tối ưu tham số λ bằng profile likelihood:
  \[
  L_{max}(\lambda) = -\frac{n}{2}\log(SSE(\lambda))
  \]
- Ứng dụng cho dữ liệu FEV tìm được λ ≈ 0.3, gợi ý biến đổi căn bậc 3.

---

## **Chương 4: Ước lượng Hợp lý Cực đại (Maximum Likelihood Estimation)**

**Lý thuyết căn bản:**
- Hàm score function:
  \[
  U(\theta) = \frac{\partial \ell(\theta)}{\partial \theta}
  \]
- Ma trận thông tin Fisher:
  \[
  I(\theta) = -E\left[\frac{\partial^2 \ell}{\partial \theta \partial \theta^T}\right]
  \]

**Thuật toán Fisher Scoring:**
- Cập nhật tham số:
  \[
  \theta^{(t+1)} = \theta^{(t)} + I^{-1}(\theta^{(t)})U(\theta^{(t)})
  \]
- Áp dụng cho Poisson regression với link log.

---

## **Chương 5: Cấu trúc GLM (GLM Structure)**

**Thành phần ngẫu nhiên:**
- Phân phối thuộc Exponential Dispersion Family:
  \[
  f(y;\theta,\phi) = \exp\left\{\frac{y\theta - b(\theta)}{a(\phi)} + c(y,\phi)\right\}
  \]
- Ví dụ: Poisson(μ) có θ=logμ, ϕ=1, b(θ)=e^θ.

**Link functions:**
- Canonical link: \( g(\mu) = \theta \)
- Identity link cho Normal, Logit cho Binomial, Log cho Poisson.

---

## **Chương 6: Ước lượng trong GLM (GLM Estimation)**

**Thuật toán IWLS (Iteratively Reweighted Least Squares):**
- **Cơ sở lý thuyết:**
  - Tối ưu hóa hàm log-likelihood bằng phương pháp Newton-Raphson:
    \[
    \beta^{(t+1)} = \beta^{(t)} + \mathcal{I}^{-1}(\beta^{(t)})U(\beta^{(t)})
    \]
    với \(\mathcal{I}\) là ma trận thông tin Fisher, \(U\) là hàm score.
  - Trọng số cập nhật: \(w_i = [V(\mu_i)g'(\mu_i)^2]^{-1}\) với \(V\) là hàm phương sai.

- **Triển khai trong R:**
  ```r
  glm(FEV ~ Age + Height, family = Gamma(link="log"), data=lungcap)
  ```
  - Giải thích output: Deviance residuals, null/deviance, AIC.

**Case study:** Ước lượng mô hình Gamma cho chi phí y tế (dữ liệu medical_cost) với link log, so sánh hiệu năng qua AIC/BIC.

---

## **Chương 7: Suy luận trong GLM (GLM Inference)**

**Kiểm định Wald/Likelihood Ratio/Score:**
- **Wald test:**
  \[
  W = \frac{\hat{\beta}_j}{SE(\hat{\beta}_j)} \sim N(0,1)
  \]
  - Ứng dụng kiểm tra significance của smoking status trong mô hình logistic.

- **Likelihood Ratio Test:**
  \[
  D = 2(\ell_{\text{full}} - \ell_{\text{reduced}}) \sim \chi^2_{df}
  \]
  - Ví dụ: So sánh mô hình đầy đủ và mô hình không có interaction term.

**Phân tích Deviance:**
- Bảng ANOVA cho GLM:
  | Nguồn biến động | Deviance | df | p-value |
  |----------------|----------|----|---------|
  | Model          | 58.79    | 4  | <0.001  |
  | Residual       | 13.73    | 649|         |

---

## **Chương 8: Chẩn đoán GLM (GLM Diagnostics)**

**Phần dư chuẩn hóa:**
- **Pearson residuals:**
  \[
  r_i^P = \frac{y_i - \hat{\mu}_i}{\sqrt{V(\hat{\mu}_i)}}
  \]
- **Deviance residuals:**
  \[
  r_i^D = \text{sign}(y_i - \hat{\mu}_i)\sqrt{2\left[\ell(y_i;y_i) - \ell(\hat{\mu}_i;y_i)\right]}
  \]
- **Q-Q plot** kiểm định phân phối phần dư, phát hiện overdispersion.

**Ví dụ:** Phân tích mô hình Poisson cho số lần nhập viện (dữ liệu hospital), phát hiện overdispersion qua Pearson statistic \(\chi^2/\text{df} = 2.5\).

---

## **Chương 9: Mô hình Binomial (Binomial GLMs)**

**Logistic Regression:**
- **Link logit:**
  \[
  \log\left(\frac{\pi}{1-\pi}\right) = X\beta
  \]
- **Giải thích odds ratio:**
  \(\exp(\beta_1) = 2.5\) → X tăng 1 đơn vị, odds tăng 2.5 lần.

**Probit/Complementary Log-Log:**
- Ứng dụng trong dose-response analysis (dữ liệu toxicity), so sánh ED50 giữa các link functions.

**Overdispersion:**
- Kiểm tra bằng:
  \[
  \frac{\sum (r_i^P)^2}{n-p'} > 1
  \]
  - Xử lý bằng quasi-binomial hoặc mixed models.

---

## **Chương 10: Mô hình Poisson & Negative Binomial**

**Poisson Regression:**
- **Mô hình offset:**
  \[
  \log(\mu_i) = \log(t_i) + X\beta
  \]
  - Ứng dụng khi phân tích tỷ lệ (ví dụ: số ca bệnh theo dân số).

**Negative Binomial:**
- Khắc phục overdispersion với tham số \(\theta\):
  \[
  V(\mu) = \mu + \frac{\mu^2}{\theta}
  \]
  - Triển khai trong R:
    ```r
    glm.nb(count ~ treatment + offset(log(exposure)), data=epidemic)
    ```

---

## **Chương 11: Gamma & Inverse Gaussian**

**Gamma Regression:**
- **Link log:**
  \[
  \log(\mu_i) = X\beta
  \]
  - Phù hợp cho dữ liệu chi phí (right-skewed).
  - Ước lượng \(\phi\) bằng phương pháp maximum likelihood.

**Inverse Gaussian:**
- Ứng dụng cho dữ liệu thời gian sống (survival data) với \(V(\mu) = \mu^3\).

---

## **Chương 12: Mô hình Tweedie**

**Cấu trúc phân phối:**
- Kết hợp point mass tại 0 và phân phối liên tục dương:
  \[
  f(y) = p_0 \delta_0(y) + (1-p_0)f_+(y)
  \]
- **Power variance function:**
  \[
  V(\mu) = \phi \mu^\xi
  \]
  - Ước lượng \(\xi\) bằng profile likelihood.

**Case study:** Bảo hiểm nông nghiệp với dữ liệu có excess zeros (tỉ lệ thiệt hại ≥ 0).

---

## **Chương 13: Các Vấn Đề Bổ Sung**

**Xử lý Dữ liệu Phức tạp:**
- **Missing Data Mechanisms**:
  - Phân loại theo Rubin (1976):
    - MCAR (Missing Completely At Random)
    - MAR (Missing At Random)
    - MNAR (Missing Not At Random)

- **Công cụ trong R**:
  ```r
  library(mice)
  imp_data <- mice(lungcap, m=5, method="pmm") # Predictive Mean Matching
  fit <- with(imp_data, lm(log(FEV) ~ Age + Height))
  pool(fit) # Kết hợp kết quả
  ```

**Mô hình Đa cấp (Multilevel Models):**
- **Phương trình**:
  \[
  \logit(\pi_{ij}) = \beta_0 + \beta_1X_{ij} + u_j \quad (u_j \sim N(0,\sigma_u^2))
  \]

**Kiểm định Mô hình:**
- **Vuong Test** cho so sánh non-nested models:
  \[
  V = \frac{\sqrt{n}\bar{D}}{s_D} \sim N(0,1)
  \]

---

## **Chương 14: Sử Dụng R cho Phân Tích Dữ Liệu**

**Hệ sinh thái GLM trong R:**
- **Các package chính**:
  
  
  | Package | Chức năng | Ví dụ |
  |---------|-----------|-------|
  | `lme4` | GLMMs | `glmer(y ~ x + (1|group))` |
  | `mgcv` | GAMs | `gam(y ~ s(x))` |
  | `brms` | Bayesian GLMs | `brm(y ~ x, family=negbinomial))` |

**Pipeline phân tích:**
```r
# Kiểm tra overdispersion
dispersion_test <- function(model) {
  r <- residuals(model, type="pearson")
  sum(r^2)/df.residual(model)
}
```

---

## **Chương 15: Giải Quyết Các Vấn Đề (Troubleshooting)**

**Convergence Issues:**
- **Cảnh báo thường gặp**:
  ```
  Warning: glm.fit: algorithm did not converge
  ```
  - Giải pháp:
    - Tăng `maxit` trong `glm.control`
    - Kiểm tra separation

**Hiện tượng Quasi-complete Separation:**
- **Phát hiện**:
  - Hệ số \(\beta \rightarrow \infty\) trong logistic regression
  - Sử dụng Firth's correction:
  ```r
  library(logistf)
  logistf(y ~ x1 + x2, data=...)
  ```

**Xử lý Outliers:**
- **Robust GLMs**:
```r
library(robust)
glmRob(y ~ x, family=poisson, data=...)
```

---

## **Chương 16: Case Studies Tổng hợp**

**Ứng dụng Y tế:**
- **Dữ liệu**: ICU mortality (n=2000)
- **Mô hình**:
```r
glm(death ~ age + sepsis + (1|hospital), family=binomial, data=icu)
```

**Ứng dụng Kinh tế:**
- **Mô hình Tweedie** cho claim insurance:
```r
library(tweedie)
glm(claim ~ age + type, family=tweedie(var.power=1.5, link.power=0), data=insurance)
```

**Ứng dụng Môi trường:**
- **Zero-inflated Poisson** cho số lần xuất hiện loài:
```r
library(pscl)
zeroinfl(count ~ temp + rainfall | 1, data=species)
```

---

## **Điểm nhấn đặc biệt**
1. **Reproducible Research**: Sử dụng `knitr`/`rmarkdown` để tích hợp code, kết quả và báo cáo.
2. **Interactive Visualization**: Sử dụng `plotly` để tạo đồ thị tương tác.
3. **Shiny Apps**: Xây dựng dashboard tương tác để khám phá mô hình.

---

Đọc dữ liệu
```{r}
d <- read_csv("C:/Users/Hoang Quyen/Downloads/Supermarket Transactions.csv")
```

Dữ liệu "Supermarket Transactions.csv" với 14.059 quan sát được phân tích nhằm mô tả đặc điểm của một số biến định tính như Giới tính, Tình trạng hôn nhân, Sở hữu nhà, Bang/Tỉnh và Nhóm sản phẩm. Phân tích được thực hiện bằng ngôn ngữ R, sử dụng các hàm như table(), prop.table() để tạo bảng tần số và tỷ lệ phần trăm, và ggplot2 để trực quan hóa dữ liệu.

# Thống kê mô tả cho biến định tính
## Biến Gender (Giới tính)
```{r}
table(d$Gender)
table(d$Gender) / sum(table(d$Gender))
```

```{r}
ggplot(d, aes(Gender)) + 
  geom_bar(fill = 'steelblue') + 
  xlab('Giới tính') + ylab('Số lượng')

ggplot(d, aes(Gender)) + 
  geom_bar(aes(y = after_stat(count)/sum(after_stat(count))), fill = 'steelblue') + 
  xlab('Giới tính') + ylab('Tỷ lệ %')
```

```{r}
abc_gender <- d |> group_by(Gender) |> summarise(freq = n()) |> mutate(per = freq/sum(freq))
ggplot(abc_gender, aes(x = '', y = per, fill = Gender)) + 
  geom_bar(stat = 'identity') + 
  coord_polar('y') + 
  theme_void() + 
  labs(fill = 'Giới tính')
```

Biến Gender phản ánh giới tính của khách hàng. Tần số cho thấy có 7,170 khách hàng nữ và 6,889 khách hàng nam, tương ứng với tỷ lệ lần lượt là 51% và 49%. Biểu đồ cột và biểu đồ bánh được sử dụng để trực quan hóa sự phân bố này, cho thấy phân bố giới tính tương đối đồng đều giữa hai nhóm.

## Biến MaritalStatus (Tình trạng hôn nhân)
```{r}
table(d$MaritalStatus)
table(d$MaritalStatus) / sum(table(d$MaritalStatus))
```

```{r}
ggplot(d, aes(MaritalStatus)) + 
  geom_bar(fill = 'darkorange') + 
  xlab('Tình trạng hôn nhân') + ylab('Số lượng')

ggplot(d, aes(MaritalStatus)) + 
  geom_bar(aes(y = after_stat(count)/sum(after_stat(count))), fill = 'darkorange') + 
  xlab('Tình trạng hôn nhân') + ylab('Tỷ lệ %')
```

```{r}
abc_marital <- d |> group_by(MaritalStatus) |> summarise(freq = n()) |> mutate(per = freq/sum(freq))
ggplot(abc_marital, aes(x = '', y = per, fill = MaritalStatus)) + 
  geom_bar(stat = 'identity') + 
  coord_polar('y') + 
  theme_void() + 
  labs(fill = 'Tình trạng hôn nhân')
```

Biến MaritalStatus cho biết khách hàng đã kết hôn hay còn độc thân. Kết quả cho thấy có 7,193 khách hàng độc thân (51.16%) và 6,866 khách hàng đã kết hôn (48.84%). Các biểu đồ cột và biểu đồ tròn thể hiện rõ sự phân bố gần như đồng đều giữa hai nhóm khách hàng.



## Biến Homeowner (Sở hữu nhà)
```{r}
table(d$Homeowner)
table(d$Homeowner) / sum(table(d$Homeowner))
```

Sở hữu nhà (Own Home): Phân tích cho thấy khoảng 60.1% khách hàng sở hữu nhà. Biểu đồ cột và bảng tỷ lệ được sử dụng để phản ánh sự khác biệt giữa hai nhóm "Y" (Yes) và "N" (No).

```{r}
ggplot(d, aes(Homeowner)) + 
  geom_bar(fill = 'forestgreen') + 
  xlab('Sở hữu nhà') + ylab('Số lượng')

ggplot(d, aes(Homeowner)) + 
  geom_bar(aes(y = after_stat(count)/sum(after_stat(count))), fill = 'forestgreen') + 
  xlab('Sở hữu nhà') + ylab('Tỷ lệ %')
```

```{r}
abc_homeowner <- d |> group_by(Homeowner) |> summarise(freq = n()) |> mutate(per = freq/sum(freq))
ggplot(abc_homeowner, aes(x = '', y = per, fill = Homeowner)) + 
  geom_bar(stat = 'identity') + 
  coord_polar('y') + 
  theme_void() + 
  labs(fill = 'Sở hữu nhà')
```

Biến Homeowner phản ánh việc khách hàng có sở hữu nhà hay không. Có 8,444 người sở hữu nhà (60.06%) và 5,615 người không sở hữu (39.94%). Biểu đồ cột và biểu đồ bánh cung cấp cái nhìn trực quan về sự chênh lệch này, cho thấy phần lớn khách hàng trong tập dữ liệu là người sở hữu nhà.

## Biến StateorProvince (Bang/Tỉnh)
```{r}
table(d$StateorProvince)
table(d$StateorProvince) / sum(table(d$StateorProvince))
```


```{r}
ggplot(d, aes(fct_infreq(StateorProvince))) + 
  geom_bar(color = 'blue', fill = 'green') + 
  xlab('Bang/Tỉnh') + ylab('Số lượng') + 
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

ggplot(d, aes(fct_infreq(StateorProvince))) + 
  geom_bar(aes(y = after_stat(count)/sum(after_stat(count))), color = 'blue', fill = 'green') + 
  xlab('Bang/Tỉnh') + ylab('Tỷ lệ %') + 
  theme(axis.text.x = element_text(angle = 45, hjust = 1))
```

```{r}
abc_state <- d |> group_by(StateorProvince) |> summarise(freq = n()) |> mutate(per = freq/sum(freq))
ggplot(abc_state, aes(x = '', y = per, fill = StateorProvince)) + 
  geom_bar(stat = 'identity') + 
  coord_polar('y') + 
  theme_void() + 
  labs(fill = 'Bang/Tỉnh')
```

Biến StateorProvince cho biết khu vực địa lý của khách hàng, với 10 bang/tỉnh khác nhau. Washington (WA) có số lượng khách hàng cao nhất (32.48%), tiếp theo là California (CA, 19.44%), trong khi Jalisco có số lượng thấp nhất (0.53%). Biểu đồ cột sắp xếp theo tần suất giảm dần và biểu đồ tròn giúp hình dung sự phân bố theo khu vực.

## Biến ProductFamily (Nhóm sản phẩm)
```{r}
table(d$ProductFamily)
table(d$ProductFamily) / sum(table(d$ProductFamily))
```


```{r}
ggplot(d, aes(ProductFamily)) + 
  geom_bar(fill = 'purple') + 
  xlab('Nhóm sản phẩm') + ylab('Số lượng')

ggplot(d, aes(ProductFamily)) + 
  geom_bar(aes(y = after_stat(count)/sum(after_stat(count))), fill = 'purple') + 
  xlab('Nhóm sản phẩm') + ylab('Tỷ lệ %')
```

```{r}
abc_product <- d |> group_by(ProductFamily) |> summarise(freq = n()) |> mutate(per = freq/sum(freq))
ggplot(abc_product, aes(x = '', y = per, fill = ProductFamily)) + 
  geom_bar(stat = 'identity') + 
  coord_polar('y') + 
  theme_void() + 
  labs(fill = 'Nhóm sản phẩm')
```

Biến ProductFamily phân loại sản phẩm theo ba nhóm chính: Food (72.22%), Non-Consumable (18.89%) và Drink (8.89%). Kết quả cho thấy nhóm sản phẩm thực phẩm chiếm ưu thế rõ rệt. Các biểu đồ trực quan hỗ trợ làm rõ sự phân bố không đồng đều này giữa các nhóm sản phẩm.

# Thống kê mô tả cho biến định lượng
## Biến Children (Số con)
```{r}
summary(d$Children)
```

```{r}
ggplot(d, aes(y = Children)) + 
  geom_boxplot(fill = 'lightblue') + 
  ylab('Số con')
```

```{r}
ggplot(d, aes(Children)) + 
  geom_histogram(binwidth = 1, fill = 'lightblue', color = 'black') + 
  xlab('Số con') + ylab('Số lượng')
```
Biến Children cho biết số lượng con của khách hàng. Thống kê mô tả cho thấy số con trung bình là 2.53, trung vị là 3, dao động từ 0 đến 5. Biểu đồ hộp và biểu đồ histogram giúp minh họa rõ hơn về sự phân bố, độ lệch và các giá trị ngoại lai.


## Biến UnitsSold (Số đơn vị bán ra)
```{r}
summary(d$UnitsSold)
```

```{r}
ggplot(d, aes(y = UnitsSold)) + 
  geom_boxplot(fill = 'lightgreen') + 
  ylab('Số đơn vị bán ra')
```

```{r}
ggplot(d, aes(UnitsSold)) + 
  geom_histogram(binwidth = 1, fill = 'lightgreen', color = 'black') + 
  xlab('Số đơn vị bán ra') + ylab('Số lượng')

```

Biến UnitsSold phản ánh số lượng sản phẩm được bán trong mỗi giao dịch, với trung bình là 4.08 đơn vị. Giá trị nhỏ nhất là 1, lớn nhất là 8. Biểu đồ hộp và histogram được sử dụng để thể hiện phân bố và sự tập trung của biến này xung quanh trung vị.



## Biến Revenue (Doanh thu)
```{r}
summary(d$Revenue)
```

```{r}
ggplot(d, aes(y = Revenue)) + 
  geom_boxplot(fill = 'lightcoral') + 
  ylab('Doanh thu')
```

```{r}
ggplot(d, aes(Revenue)) + 
  geom_histogram(binwidth = 5, fill = 'lightcoral', color = 'black') + 
  xlab('Doanh thu') + ylab('Số lượng')
```

Biến Revenue thể hiện tổng doanh thu từ mỗi giao dịch. Doanh thu trung bình là 13.00, với trung vị 11.25 và dao động từ 0.53 đến 56.70. Biểu đồ hộp và histogram cho thấy phân bố hơi lệch phải với một số giá trị doanh thu cao vượt trội.

# Thống kê mô tả cho hai biến

## Gender và ProductFamily
```{r}

abc_gender_product <- table(d$Gender, d$ProductFamily)
abc_gender_product
```

```{r}
abc_gender_product_prop <- prop.table(abc_gender_product)
addmargins(abc_gender_product_prop)
```

```{r}
ggplot(d, aes(Gender, fill = ProductFamily)) + 
  geom_bar(position = 'dodge') + 
  xlab('Giới tính') + ylab('Số lượng') + 
  labs(fill = 'Nhóm sản phẩm')
```

Mối quan hệ giữa Gender và ProductFamily cho thấy phụ nữ mua sản phẩm Food nhiều hơn nam giới, với các con số lần lượt là 5,149 và 5,004. Tỷ lệ tương ứng cho thấy xu hướng lựa chọn sản phẩm giữa hai giới tương đối tương đồng, tuy nhiên có sự khác biệt nhỏ trong nhóm Drink và Non-Consumable. Biểu đồ cột so sánh trực tiếp giúp nhận diện xu hướng này một cách trực quan.



## MaritalStatus và Homeowner
```{r}
abc_marital_homeowner <- table(d$MaritalStatus, d$Homeowner)
abc_marital_homeowner
```

```{r}
abc_marital_homeowner_prop <- prop.table(abc_marital_homeowner)
addmargins(abc_marital_homeowner)
```

```{r}
riskratio(abc_marital_homeowner, rev = 'c')
```

```{r}
oddsratio(abc_marital_homeowner, rev = 'c')
```

```{r}
ggplot(d, aes(MaritalStatus, fill = Homeowner)) + 
  geom_bar(position = 'dodge') + 
  xlab('Tình trạng hôn nhân') + ylab('Số lượng') + 
  labs(fill = 'Sở hữu nhà')
```

Sự kết hợp giữa hai biến MaritalStatus và Homeowner cho thấy phần lớn khách hàng đã kết hôn sở hữu nhà (75%), trong khi tỷ lệ này ở nhóm độc thân chỉ khoảng 46%. Tỷ số chênh (odds ratio) là 3.538, và rủi ro tương đối (risk ratio) là 2.163, cho thấy sự khác biệt đáng kể giữa hai nhóm. Biểu đồ cột minh họa rõ sự khác biệt trong quyền sở hữu nhà theo tình trạng hôn nhân.



# Thống kê mô tả cho ba biến

## Gender, Homeowner, Country

Phân tích ba biến kết hợp cho thấy sự phân bố quyền sở hữu nhà theo giới tính và quốc gia. Ví dụ, tại Canada, tỷ lệ nữ sở hữu nhà cao hơn nam; trong khi tại Mexico, sự khác biệt giữa hai giới ít rõ rệt hơn. Dữ liệu được trình bày trong bảng tần số ba chiều, giúp nắm bắt tổng quan sự khác biệt theo từng quốc gia.


```{r}
abc_gender_homeowner_country <- ftable(d$Gender, d$Homeowner, d$Country)
abc_gender_homeowner_country
```

```{r}
abc_gender_homeowner_country_prop <- prop.table(abc_gender_homeowner_country)
round(addmargins(abc_gender_homeowner_country_prop), 4)
```
# Độ nhạy và độ đặc hiệu

Dựa trên mối quan hệ giữa MaritalStatus và Homeowner, độ nhạy (khả năng dự đoán đúng người sở hữu nhà khi đã kết hôn) là 74.96%, và độ đặc hiệu (khả năng dự đoán đúng người không sở hữu nhà khi độc thân) là 54.16%. Hai chỉ số này giúp đánh giá hiệu quả phân loại dựa vào tình trạng hôn nhân.


```{r}
abc_marital_homeowner

sensitivity <- abc_marital_homeowner[1, 2] / (abc_marital_homeowner[1, 2] + abc_marital_homeowner[1, 1])
sensitivity

specificity <- abc_marital_homeowner[2, 1] / (abc_marital_homeowner[2, 1] + abc_marital_homeowner[2, 2])
specificity
```
