Chương này giới thiệu về mô hình thống kê. Mô hình tuyến tính tổng quát là trọng tâm của cuốn sách này.
Với n quan sát, biến phản ứng response (hay biến phụ thuộc) thường được ký hiệu là y và các biến còn lại là các biến giải thích. Các biến giải thích thường ký hiệu bằng x, trong đó:
Các biến giải thích định lượng được gọi là các biến đồng nhất.
Các biến giải thích định tính được gọi là các yếu tố. Thông thường, các yếu tố phải được mã hóa để sử dụng trong mô hình thống kê bằng cách sử dụng các biến giả. Cần có k - 1 biến giả cho một yếu tố có k mức.
Một mô hình thống kê bao gồm một thành phần ngẫu nhiên và một thành phần hệ thống để giải thích hai đặc điểm này của dữ liệu thực. Thành phần hệ thống mô hình hóa cách phản hồi trung bình thay đổi khi các biến giải thích thay đổi; thành phần ngẫu nhiên mô hình hóa sự biến thiên của dữ liệu xung quanh trung bình.
## Warning in include_graphics("C:/Users/HUYEN TRANG/OneDrive -
## UFM/Pictures/Screenshots/Screenshot 2025-05-19 093330.png"): It is highly
## recommended to use relative paths for images. You had absolute paths:
## "C:/Users/HUYEN TRANG/OneDrive - UFM/Pictures/Screenshots/Screenshot 2025-05-19
## 093330.png"
trong đó E[yi]=μi, các wi là trọng số dương đã biết, σ2 là phương sai chưa biết, và β0,…,βp là các tham số hồi quy chưa biết. Có p biến giải thích và p tham số βj cần được ước lượng.
Lưu ý:
Mô hình hồi quy tuyến tính đơn giản (Simple Linear Regression), p = 1, tức là chỉ có 1 biến giải thích.
Các mô hình hồi quy tuyến tính thông thường có tất cả các trọng số trước đó được đặt bằng một (để phân biệt với các mô hình hồi quy tuyến tính có trọng số).
Các mô hình hồi quy tuyến tính đa biến (Multiple Regression) đề cập đến các trường hợp p > 1, nhiều biến giải thích.
Các mô hình hồi quy tuyến tính chuẩn liên quan đến các mô hình với giả định bổ sung rằng
## Warning in include_graphics("C:/Users/HUYEN TRANG/OneDrive -
## UFM/Pictures/Screenshots/Screenshot 2025-05-19 094716.png"): It is highly
## recommended to use relative paths for images. You had absolute paths:
## "C:/Users/HUYEN TRANG/OneDrive - UFM/Pictures/Screenshots/Screenshot 2025-05-19
## 094716.png"
Ước lượng hệ số hồi quy bằng phương pháp bình phương tối thiểu OLS, ước lượng phương sai, tính toán sai số chuẩn cho từng hệ số hồi quy βj.
Phân tích phương sai và thực hiện kiểm định cho mô hình.
R được sử dụng để xây dựng mô hình hồi quy tuyến tính thông qua hàm lm().
Các giả định trong thực tế:
Tất cả các phản hồi đều được tạo ra từ cùng một quy trình, vì vậy mô hình hồi quy giống nhau là phù hợp cho tất cả các quan sát.
Tính tuyến tính: Mối quan hệ giữa biến phản hồi và biến giải thích là tuyến tính.
Phương sai không đổi: Các phản hồi yi có phương sai không đổi, ngoài các trọng số đã biết wi.
Tính độc lập: Các phản hồi yi độc lập thống kê với nhau.
Phân phối chuẩn:
## Warning in include_graphics("C:/Users/HUYEN TRANG/OneDrive -
## UFM/Pictures/Screenshots/Screenshot 2025-05-19 101701.png"): It is highly
## recommended to use relative paths for images. You had absolute paths:
## "C:/Users/HUYEN TRANG/OneDrive - UFM/Pictures/Screenshots/Screenshot 2025-05-19
## 101701.png"
Phần dư cho các mô hình hồi quy tuyến tính chuẩn
## Warning in include_graphics("C:/Users/HUYEN TRANG/OneDrive -
## UFM/Pictures/Screenshots/Screenshot 2025-05-19 102203.png"): It is highly
## recommended to use relative paths for images. You had absolute paths:
## "C:/Users/HUYEN TRANG/OneDrive - UFM/Pictures/Screenshots/Screenshot 2025-05-19
## 102203.png"
Phần dư chuẩn hóa (standardized residuals) gần như phân phối chuẩn.
Kiểm tra tính phù hợp của mô hình thông qua phần dư. Nếu phát hiện vi phạm giả định: biến đổi biến phản hồi, biến đổi biến giải thích,…
Xem xét ba trường hợp quan trọng mà mô hình hồi quy tuyến tính thất bại:
Phản ứng y là tỷ lệ của tổng số đếm, trong đó 0 ≤ y ≤ 1.
Phản ứng y là một số đếm, trong đó y = 0, 1, 2,….
Phản ứng y là liên tục dương, trong đó y > 0.
Một cách tiếp cận tổng quát hơn đối với các mô hình hồi quy giả định rằng các phản ứng thuộc về một họ phân phối. Đối với các mô hình này, các phương pháp khả năng cực đại được sử dụng cho việc ước lượng và kiểm định giả thuyết.
Ba phương pháp đề xuất bởi các phương pháp khả năng cực đại:
Kiểm định Wald,
Kiểm định tỉ số hợp lý (Likelihood Ratio),
Kiểm định điểm (Score Test)
Sử dụng chỉ số AIC và BIC để chọn mô hình tối ưu.
Các mô hình GLM là mô hình hồi quy tuyến tính theo các tham số, và bao gồm hai thành phần (một thành phần ngẫu nhiên và một thành phần hệ thống).
Các phân phối phổ biến mà là GLM bao gồm:
phân phối chuẩn, phân phối Poisson,
phân phối gamma, phân phối nhị thức
phân phối nhị thức âm
Hàm xác suất cho GLM có dạng tổng quát:
## Warning in include_graphics("C:/Users/HUYEN TRANG/OneDrive -
## UFM/Pictures/Screenshots/Screenshot 2025-05-19 105003.png"): It is highly
## recommended to use relative paths for images. You had absolute paths:
## "C:/Users/HUYEN TRANG/OneDrive - UFM/Pictures/Screenshots/Screenshot 2025-05-19
## 105003.png"
trong đó θ được gọi là tham số chuẩn, κ(θ) được gọi là hàm cumulant, và φ>0 là tham số phân tán.
Việc điều chỉnh glms phụ thuộc vào cấu trúc được cung cấp bởi edms.
Thuật toán IRLS (Iteratively Reweighted Least Squares) được sử dụng để tìm ước lượng tối đa khả năng dựa vào score equations và Fisher scoring.
Tham số phân tán có thể được ước lượng bằng cách sử dụng một ước lượng log-likelihood theo hồ sơ đã chỉnh sửa của \(\phi\), ước lượng độ lệch trung bình của \(\phi\) hoặc ước lượng Pearson.
Đối với tất cả các ước lượng này, kết quả của mô hình hồi quy tuyến tính là các trường hợp đặc biệt của kết quả glm.
Trong R, tham số phân tán φ được ước lượng bằng cách sử dụng ước lượng Pearson.
Thực hiện các kiểm định:
Wald test
Likelihood ratio tests
The score test
Trên thực tế, các bài kiểm tra Wald thường được sử dụng để kiểm tra các hệ số riêng lẻ, và các bài kiểm tra tỷ lệ khả năng (likelihood ratio tests) được sử dụng để so sánh các mô hình lồng ghép. Các bài kiểm tra tỷ lệ khả năng và điểm (score tests) được khuyến nghị thay cho các bài kiểm tra Wald để xác định xem một biến có nên được đưa vào mô hình hay không, vì các giả định phân phối của các bài kiểm tra Wald thường không chính xác. Các bài kiểm tra tỷ lệ khả năng thường được sử dụng để kiểm tra các giả thuyết thay thế hai phía.
AIC và BIC có thể được sử dụng để so sánh các GLM không lồng ghép. Các phương pháp tự động để chọn giữa các mô hình bao gồm hồi quy tiến, loại bỏ lùi và hồi quy từng bước.
Chương 8 thảo luận về các phương pháp để xác định các vi phạm có thể xảy ra đối với giả định trong các mô hình tổng quát (GLMs), và sau đó khắc phục hoặc cải thiện những vấn đề này.
Các giả định cho GLMs là, theo thứ tự quan trọng:
Thiếu các giá trị ngoại lai: Mô hình này phù hợp cho tất cả các quan sát.
Hàm liên kết: Hàm liên kết đúng g() được sử dụng.
Tuyến tính: Tất cả các biến giải thích quan trọng đều được bao gồm, và mỗi biến giải thích đều được đưa vào dự đoán tuyến tính theo đúng tỷ lệ.
Hàm phương sai: Hàm phương sai đúng V (μ) được sử dụng.
Phân tán: Tham số phân tán φ là hằng số.
Độc lập: Các phản hồi yi là độc lập với nhau.
Phân phối: Các phản hồi này đến từ edm đã chỉ định.
Công cụ chính cho phân tích chẩn đoán là phần dư. Phần dư Pearson, phần dư deviance và phần dư quantile có thể được sử dụng cho GLMs.
Một chiến lược để phân tích chẩn đoán của GLMs là:
Kiểm tra tính độc lập của các phản hồi. Nếu các phần dư cho thấy tính không độc lập, hãy sử dụng các phương pháp khác.
Vẽ đồ thị phần dư so với \(ˆμ\) và phần dư so với từng xj . Nếu biến thiên không ổn định, có thể đã sử dụng một mô hình edm không chính xác. Nếu có xu hướng, có thể cần thay đổi thành phần hệ thống: thay đổi hàm liên kết, thêm các biến giải thích bổ sung, hoặc biến đổi các biến đồng hành.
Để kiểm tra thêm về chức năng liên kết, vẽ đồ thị z so với \(ˆη\)
Để xác định xem nguồn gốc của sự phi tuyến tính có phải là do biến đồng covariate xj được đưa vào trên thang đo không chính xác, hãy vẽ đồ thị uj so với xj (được gọi là đồ thị thành phần cộng với phần dư hoặc đồ thị phần dư một phần)
Lựa chọn phân phối có thể được kiểm tra bằng cách sử dụng biểu đồ Q–Q của dư lượng phân vị
Tập trung vào binomial GLM, cụ thể là hồi quy logistic.
Dữ liệu phù hợp với mô hình: biến phản hồi là tỉ lệ, nhị phân (success/failure).
Các hàm liên kết cho binomial thường được sử dụng là
Logit (hàm liên kết chuẩn)
Probit
Complementary log-log (cloglog)
Đối với các mô hình hồi quy nhị thức, các kiểm định Wald có thể thất bại trong trường hợp một hoặc nhiều tham số hồi quy có xu hướng tiến về ±∞.
Chương 10 xem xét việc điều chỉnh mô hình GLM cho dữ liệu đếm (count data). Các số liệu đếm thường được mô hình hóa bằng phân phối Poisson trong đó μ>0 là số liệu dự kiến và y =0,1,2,… Hàm liên kết logarithm thường được sử dụng cho các mô hình GLM Poisson.
Khi bất kỳ biến giải thích nào có định lượng, mô hình GLM Poisson được ước lượng cũng được gọi là mô hình hồi quy Poisson. Khi tất cả các biến giải thích đều có định tính, mô hình GLM Poisson được ước lượng cũng được gọi là mô hình log-linear.
Mô hình GLM Poisson có thể được sử dụng để mô hình hóa tỷ lệ (chẳng hạn như số ca ung thư trên mỗi đơn vị dân số) bằng cách sử dụng một điều chỉnh thích hợp trong dự đoán tuyến tính.
Trong trường hợp xảy ra hiện tượng phân tán quá mức so với glm Poisson, một phân phối nhị thức âm (a negative bino-mial distribution) có thể được sử dụng, là một edm nếu k được biết. Đối với phân phối nhị thức âm, V(μ)=μ + μ2/k với k>0. Giá trị của k thường cần được ước lượng (bởi \(ˆk\)) cho một glm nhị thức âm. Nếu quan sát thấy hiện tượng phân tán quá mức, một mô hình quasi-Poisson cũng có thể được thích một cách, điều này giả định V(μ)=φμ.
Chương 11 xem xét việc điều chỉnh các mô hình GLM cho dữ liệu liên tục dương. Dữ liệu liên tục dương thường có phương sai tăng lên khi giá trị trung bình tăng, vì vậy dữ liệu liên tục dương có thể được mô hình hóa bằng phân phối gamma (Gamma GLMs) hoặc đối với dữ liệu bị lệch nhiều hơn so với phân phối gamma, bằng phân phối Gaussian nghịch đảo (Inverse Gaussian GLMs)
Đối với phân phối gamma, V (μ)=μ2. Deviance dư D(y,\(ˆμ\)) được mô tả phù hợp bởi phân phối χ2 n−p′ nếu φ ≤ 1/3. Đối với phân phối Gaussian nghịch, V (μ)=μ3. Deviance dư D(y,\(ˆμ\)) được mô tả bởi phân phối χ2 n−p′.
Phân phối gamma mô hình hóa thời gian chờ giữa các sự kiện xảy ra ngẫu nhiên theo phân phối Poisson. Phân phối ngược Gaussian liên quan đến thời gian lần đầu tiên đạt được trong chuyển động Brown.
Các hàm liên kết thường được sử dụng bao gồm hàm logarit, hàm nghịch đảo và hàm đồng nhất.
Ước lượng Pearson của φ được khuyến nghị cho cả phân phối gamma và phân phối Gaussian ngược.
Mô hình Tweedie glms cho hai loại dữ liệu: mô hình Tweedie glms cho dữ liệu liên tục dương và mô hình Tweedie glms cho dữ liệu liên tục dương với các giá trị chính xác bằng 0.
Các phân phối Tweedie là edms với hàm phương sai V (μ)=μξ, với ξ không thuộc (0,1).
Các trường hợp đặc biệt của các phân phối Tweedie đã được nghiên cứu trước đây là phân phối chuẩn (ξ = 0), phân phối Poisson (ξ = 1 và φ = 1), phân phối gamma (ξ = 2) và phân phối Gauss nghịch đảo (ξ = 3).
Đối với ξ ≥ 2, các phân phối Tweedie, và do đó các mô hình Tweedie glms, là phù hợp cho dữ liệu liên tục dương. Đối với 1 < ξ < 2, các phân phối Tweedie, và do đó các mô hình Tweedie glms, là phù hợp cho dữ liệu liên tục dương với các giá trị chính xác bằng 0.
Giá trị của ξ được ước lượng bằng cách sử dụng hàm tweedie.profile() từ gói r tweedie.
## Warning: package 'ggplot2' was built under R version 4.3.3
## [1] 14059 16
## 'data.frame': 14059 obs. of 16 variables:
## $ X : int 1 2 3 4 5 6 7 8 9 10 ...
## $ PurchaseDate : chr "12/18/2007" "12/20/2007" "12/21/2007" "12/21/2007" ...
## $ CustomerID : int 7223 7841 8374 9619 1900 6696 9673 354 1293 7938 ...
## $ Gender : chr "F" "M" "F" "M" ...
## $ MaritalStatus : chr "S" "M" "M" "M" ...
## $ Homeowner : chr "Y" "Y" "N" "Y" ...
## $ Children : int 2 5 2 3 3 3 2 2 3 1 ...
## $ AnnualIncome : chr "$30K - $50K" "$70K - $90K" "$50K - $70K" "$30K - $50K" ...
## $ City : chr "Los Angeles" "Los Angeles" "Bremerton" "Portland" ...
## $ StateorProvince : chr "CA" "CA" "WA" "OR" ...
## $ Country : chr "USA" "USA" "USA" "USA" ...
## $ ProductFamily : chr "Food" "Food" "Food" "Food" ...
## $ ProductDepartment: chr "Snack Foods" "Produce" "Snack Foods" "Snacks" ...
## $ ProductCategory : chr "Snack Foods" "Vegetables" "Snack Foods" "Candy" ...
## $ UnitsSold : int 5 5 3 4 4 3 4 6 1 2 ...
## $ Revenue : num 27.38 14.9 5.52 4.44 14 ...
Bộ dữ liệu là data frame, bao gồm 14059 quan sát và 16 biến. Các biến định lượng là các biến: Children, UnitsSold và Revenue. Các biến định lượng là các biến: Gender, MaritalStatus, Homeowner, AnnualIncome, City, StateoProvince, Country, ProductFamily, ProductDepartment, ProductCategory. Cụ thể:
Gender: Giới tính của khách hàng: F = Female (Phụ nữ), M = Male (Đàn ông).
MaritalStatus: Tình trạng hôn nhân: S = Single (độc thân), M = Married (đã kết hôn).
Homeowner: Khách hàng có sở hữu nhà không: Y = Yes, N = No.
Children: Số con của khách hàng.
AnnualIncome: Thu nhập hàng năm của khách hàng.
City: Thành phố nơi khách hàng sinh sống.
StateorProvince: Bang hoặc tỉnh tương ứng với thành phố.
Country: Quốc gia.
ProductFamily: Nhóm sản phẩm chính.
ProductDepartment: Bộ phận các sản phẩm chi tiết hơn trong từng nhóm.
ProductCategory: Danh mục cụ thể của sản phẩm.
UnitsSold: Số lượng đơn vị sản phẩm được bán trong một giao dịch với mỗi khách hàng.
Revenue: Tổng doanh thu (USD) từ giao dịch với khách hàng.
Ngoài ra các biến X là số thứ tự, PurchaseDate là ngày giao dịch mua hàng tại siêu thị và CustomerID là mã định danh khách hàng.
## Children UnitsSold Revenue
## Min. :0.00 Min. :1.000 Min. : 0.53
## 1st Qu.:1.00 1st Qu.:3.000 1st Qu.: 6.84
## Median :3.00 Median :4.000 Median :11.25
## Mean :2.53 Mean :4.081 Mean :13.00
## 3rd Qu.:4.00 3rd Qu.:5.000 3rd Qu.:17.37
## Max. :5.00 Max. :8.000 Max. :56.70
Thống kê mô tả cho tập dữ liệu thông qua các biến được biểu hiện như sau:
Đối với biến Children
Số lượng con cái của khách hàng có phạm vi từ 0 đến 5 con, 50% khách hàng có trên 3 con và 50% số khách hàng có con nhỏ hơn 3.
25% khách hàng có số con ít hơn 1 và 75% khách hàng có số con nhiều hơn 1.
Có 75% khách hàng có số con ít hơn 4 và 25% khách hàng có số con nhiều hơn 4.
Đối với biến UnitsSold
Số sản phẩm được bán cho mỗi khách hàng có phạm vi từ 1 đến 8, với số lượng trung bình là 4,081 sản phẩm.
Có 25% khách hàng mua ít hơn 3 sản phẩm và 75% khách hàng mua nhiều hơn 3 sản phẩm.
Có 50% khách hàng mua ít hơn 4 sản phẩm và 50% còn lại mua số lượng nhiều hơn 4.
Có 75% khách hàng mua ít hơn 5 sản phẩm và 25% khách hàng mua nhiều hơn 5 sản phẩm.
Đối với biến Revenue
Tổng doanh thu thu được từ việc bán sản phẩm có doanh thu từ 0,53 USD đến 56,7 USD, với doanh thu trung bình là 13 USD.
25% tổng doanh thu nhỏ hơn 6,84 USD và 75% còn lại lớn hơn 6,84 USD.
50% tổng doanh thu nhỏ hơn 13 USD và 50% còn lại lớn hơn.
75% doanh thu nhỏ hơn 17,37 USD và 25% còn lại nhỏ hơn 17,37 USD.
##
## F M
## 7170 6889
Biến Gender thể hiện giới tính của khách hàng: có 7170 khách hàng là nữ và 6889 khách hàng là nam.
##
## M S
## 6866 7193
Biến MaritalStatus thể hiện tình trạng hôn nhân của khách hàng: có 6866 khách hàng đã kết hôn và 7193 người đang độc thân.
##
## N Y
## 5615 8444
Tình trạng khách hàng có nhà hay không được thể hiện qua biến Homeowner, có 5615 khách hàng sở hữu nhà và 8444 người không sở hữu.
##
## $10K - $30K $110K - $130K $130K - $150K $150K + $30K - $50K
## 3090 643 760 273 4601
## $50K - $70K $70K - $90K $90K - $110K
## 2370 1709 613
Biến AnnualIncome thể hiện thu nhập hằng năm của khách hàng bao gồm các nhóm: - Nhóm thu nhập từ $10K - $30K gồm 3090 khách hàng, - Nhóm thu nhập từ $30K - $50K gồm 4610 khách hàng, - Nhóm thu nhâp từ $50K - $70K gồm 2370 khách hàng, - Nhóm thu nhập từ $70K - $90K gồm 1709 khách hàng, - Nhóm thu nhập từ $90K - $110K gồm 613 khách hàng, - Nhóm thu nhập từ $110K - $130K gồm 643 khách hàng, - Nhóm thu nhập từ $130K - $150K gồm 760 khách hàng và - Có 273 khách hàng có thu nhập trên $150K.
##
## Acapulco Bellingham Beverly Hills Bremerton Camacho
## 383 143 811 834 452
## Guadalajara Hidalgo Los Angeles Merida Mexico City
## 75 845 926 654 194
## Orizaba Portland Salem San Andres San Diego
## 464 876 1386 621 866
## San Francisco Seattle Spokane Tacoma Vancouver
## 130 922 875 1257 633
## Victoria Walla Walla Yakima
## 176 160 376
ggplot(d, aes(x = City)) +
geom_bar(fill = 'pink') +
labs(x = 'Thành phố', y = 'Số lượng khách hàng') +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
Biến City thể hiện thành phố khách hàng sinh sống, bao gồm 23 thành phố,
trong đó khách hàng chủ yếu đến từ Salem với số lượng khách là 1386
khách hàng. Ngược lại, chỉ có 75 khách hàng đến từ Guadalajara.
##
## BC CA DF Guerrero Jalisco OR Veracruz WA
## 809 2733 815 383 75 2262 464 4567
## Yucatan Zacatecas
## 654 1297
ggplot(d, aes(x = StateorProvince)) +
geom_bar(fill = 'blue') +
labs(x = 'Tỉnh (bang)', y = 'Số lượng khách hàng')
Đây là bảng tần số thể hiện các bang hoặc tỉnh tương ướng với thành phố,
nơi khách hàng sinh sống. Số khách hàng đến từ các bang (hoặc tỉnh) được
thể hiện như sau: có 809 khách hàng đến từ BC, 2733 khách hàng từ CA,
815 khách hàng từ DF, 383 khách hàng đến từ Guerrero, 75 khách hàng từ
Jalisco, 2262 khách hàng từ OR, 464 khách hàng đến từ Veracruz, 4567
khách hàng từ WA, 654 khách hàng từ Yucatan và Zacatecas có 1297 khách
hàng.
##
## Canada Mexico USA
## 809 3688 9562
Biến Country thể hiện khách hàng đến từ 3 quốc gia khác nhau như 809 khách hàng từ Canada, 3688 khách hàng đến từ Mexico và 9562 khách hàng còn lại đến từ USA.
##
## Drink Food Non-Consumable
## 1250 10153 2656
Các sản phẩm chính được mua bao gồm: Drink, Food và Non-Consumable, trong đó có 1250 khách hàng mua các sản phẩm đồ uống (Drink), 10153 khách hàng mua đồ ăn (Food) và 2656 khách hàng mua hàng không tiêu dùng (Non-Consumable).
ggplot(d, aes(x = ProductDepartment)) +
geom_bar(fill = 'purple') +
labs(x = 'ProductDepartment', y = 'Số lượng khách hàng') +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
Biến ProductDepartment thể hiện chi tiết các bộ phẩn sản phẩm cần mua
trong từng nhóm sản phẩm chính, bao gồm: Seafood, Alcoholic Beverages,
Household,…ứng với từng khách hàng.
ggplot(d, aes(x = ProductCategory)) +
geom_bar(fill = 'brown') +
labs(x = 'ProducCategory', y = 'Số lượng khách hàng') +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
Tương tự ProductDepartment, biến ProductCategory là danh mục cụ thể của
các sản phầm mà khách hàng cần mua, ví dụ Vegetables, Jams and Jellies,
Baking Goods,…