Mô hình thống kê là công cụ kết hợp giữa lý thuyết xác suất và dữ liệu quan sát. Chương này cung cấp nền tảng cơ bản về cấu trúc, chức năng và giới hạn của mô hình thống kê. Đây là cơ sở cho các mô hình tuyến tính tổng quát (GLMs) được phát triển trong các chương tiếp theo.
Mô hình thống kê là một công cụ toán học được sử dụng để mô tả, phân tích và dự đoán các hiện tượng có yếu tố ngẫu nhiên. Trong các lĩnh vực như khoa học, xã hội và kỹ thuật, mô hình thống kê đóng vai trò là cầu nối giữa dữ liệu thực nghiệm và lý thuyết phân tích.
Theo Dunn & Smyth (2019), mô hình thống kê bao gồm hai thành phần chính:
Thành phần hệ thống (Systematic Component): Mô tả mối quan hệ có cấu trúc giữa các biến giải thích (covariates hoặc predictors) và trung bình của biến phản hồi.
Thành phần ngẫu nhiên (Random Component): Mô tả sự dao động ngẫu nhiên xung quanh giá trị trung bình, thường được giả định theo một phân phối xác suất cụ thể như phân phối chuẩn, Poisson hoặc nhị thức.
Mục tiêu của mô hình thống kê là:
Hiểu rõ cấu trúc dữ liệu.
Dự đoán kết quả trong tương lai.
Tổng quát hóa từ mẫu dữ liệu ra toàn bộ quần thể.
Dữ liệu thống kê thường bao gồm:
Ví dụ: Mô hình hóa (FEV) theo tuổi và chiều cao:
\[ \mu_i = \mathbb{E}[y_i] = \beta_0 + \beta_1 \text{Age}_i + \beta_2 \text{Ht}_i \]
Trong đó:
Biến định lượng (Quantitative): Tuổi, chiều cao, cân nặng…
Biến định tính (Qualitative/Categorical): Giới tính, tình trạng hút thuốc…
Biến định tính cần được mã hóa thành biến giả (dummy variables) để sử dụng trong mô hình.
Mô hình tuyế tính đơn
\[ \mu_i = \beta_0 + \beta_1 \text{x}_i \] Mô hình tuyến tính đa biến
\[ \mu_i = \beta_0 + \beta_1 x_{1i} + \beta_2 x_{2i} + \cdots + \beta_p x_{pi} \] Mô hình tuyến tính tổng quát (GLMs): Mở rộng mô hình tuyến tính khi biến phản hồi không theo phân phối chuẩn, bao gồm:
Nhị thức: dữ liệu nhị phân
Poisson: dữ liệu đếm
Gamma: dữ liệu dương liên tục
Mô hình thống kê có vai trò:
Giải thích mối quan hệ giữa các biến.
Dự đoán biến phản hồi trong tương lai.
Kiểm định giả thuyết thống kê.
Tổng quát hóa kết quả từ mẫu lên toàn bộ quần thể
Chính xác (Accuracy): Dự đoán gần đúng giá trị thực.
Đơn giản (Parsimony): Tránh sử dụng quá nhiều biến, giảm nguy cơ overfitting.
Diễn giải được (Interpretability): Hệ số có ý nghĩa thực tế và dễ hiểu.
Mô hình vật lý | Mô hình thống kê |
---|---|
Dựa trên các định luật tự nhiên | Dựa trên dữ liệu quan sát |
Chính xác trong điều kiện lý tưởng | Có sai số ngẫu nhiên |
Có thể kiểm nghiệm lặp lại | Dựa trên xác suất và kiểm định thống kê |
Thí nghiệm (Experiment): Nhà nghiên cứu can thiệp và kiểm soát biến → có thể rút ra kết luận nhân quả.
Quan sát (Observational study): Thu thập dữ liệu tự nhiên, không kiểm soát → chỉ đánh giá tương quan.
Không nên ngoại suy (extrapolate) ngoài phạm vi dữ liệu.
Kết luận chỉ đúng trong điều kiện dữ liệu khảo sát.
Cần kiểm tra kỹ các giả định trước khi tin tưởng kết quả mô hình.
Chương 2 cung cấp cái nhìn toàn diện về mô hình hồi quy tuyến tính từ khái niệm, công thức, cách ước lượng, kiểm định đến ứng dụng thực tiễn với R. Đây là nền tảng quan trọng để hiểu các mô hình phức tạp hơn trong các chương tiếp theo.
Hồi quy tuyến tính là mô hình hồi quy phổ biến nhất trong thống kê và là một trường hợp đặc biệt của mô hình hồi quy tuyến tính tổng quát (GLM). Chương này đặt nền tảng về ký hiệu, giả định và phương pháp tính, từ mô hình đơn giản đến mô hình phức tạp hơn, bao gồm cả cách thực hiện trong phần mềm R.
Mô hình có hai thành phần:
\[ \mu_i = \beta_0 + \beta_1 x_{i1} + \cdots + \beta_p x_{ip} \]
với \(E[y_i] = \mu_i\) là kỳ vọng của biến phản hồi.
\[ \text{Var}(y_i) = \frac{\sigma^2}{w_i}, \quad \text{với } w_i \text{ là trọng số đã biết.} \]
Các biến \(\beta_j\) là hệ số hồi quy chưa biết, cần được ước lượng.
Hồi quy tuyến tính đơn giản: \(p = 1\)
Hồi quy tuyến tính thường: \(w_i = 1\) với mọi \(i\)
Hồi quy tuyến tính có trọng số: \(w_i \ne 1\)
Hồi quy tuyến tính nhiều biến: \(p > 1\)
Hồi quy tuyến tính chuẩn: giả định thêm \(y_i \sim \mathcal{N}(\mu_i, \sigma^2 / w_i)\)
Phương trình mô hình:
\[ \mu_i = \beta_0 + \beta_1 x_i, \qquad \text{Var}(y_i) = \frac{\sigma^2}{w_i} \]
Tối thiểu hóa:
\[ S = \sum w_i (y_i - \mu_i)^2 \]
Giải hệ phương trình đạo hàm riêng của \(S\) để tìm các \(\hat{\beta}_j\).
\[ \hat{\sigma}^2 = \frac{RSS}{n - p'} \]
RSS: tổng bình phương phần dư
\[ se(\hat{\beta}_j) = \sqrt{\frac{\hat{\sigma}^2}{I_j^*}} \]
Khi có nhiều biến giải thích, ta mở rộng ước lượng sang: \[ \mu_i = \beta_0 + \beta_1 x_{i1} + \cdots + \beta_p x_{ip} \]
Hệ số beta vẫn được ước lượng bằng tối thiểu hóa hàm mất mát S như trên, nhưng dùng đại số tuyến tính và ma trận.
Mô hình hồi quy tuyến tính dưới dạng:
\[ y = X \beta + \varepsilon, \qquad \varepsilon \sim \mathcal{N}(0, \sigma^2 W^{-1}) \]
Trong đó:
Hệ số ước lượng:
\[ \hat{\beta} = (X^T W X)^{-1} X^T W y \]
Thay vì phải tính toán thủ công để tìm các hệ số của mô hình hồi quy như trong các phần 2.3 và 2.5, ta có thể dùng R để làm việc này một cách nhanh chóng và tiện lợi bằng hàm lm(). Đây là hàm cơ bản để xây dựng mô hình hồi quy tuyến tính trong R.
Khi sử dụng hàm lm(), bạn chỉ cần chỉ ra đâu là biến phụ thuộc (biến cần dự đoán) và đâu là các biến độc lập (các yếu tố ảnh hưởng đến biến phụ thuộc).
Trong công thức của hàm lm(), biến phụ thuộc (chẳng hạn như Weight, tức cân nặng) được đặt bên trái dấu ~. Các biến độc lập được đặt bên phải dấu ~ và nối nhau bằng dấu + nếu có nhiều biến.
Tham số data = gestation cho R biết rằng tất cả các biến đang được dùng đều nằm trong bảng dữ liệu có tên là gestation. Nếu có trọng số (chẳng hạn số ca sinh ứng với từng quan sát), bạn chỉ định bằng đối số weights. Nếu mọi quan sát đều có trọng số như nhau, thì có thể bỏ qua phần này.
Giả định:
\[ y_i \sim \mathcal{N}(\mu_i, \sigma^2 / w_i) \]
Giả thuyết không:
\[ H_0 : \beta_j = \beta_j^0 \]
Thống kê kiểm định t:
\[ t = \frac{\hat{\beta}_j - \beta_j^0}{se(\hat{\beta}_j)} \]
-Khoảng tin cậy 95% cho \(\beta_j\):
\[ \hat{\beta}_j \pm t^*_{n - p'} \cdot se(\hat{\beta}_j) \]
Trong đó: - \(t^*_{n - p'}\): phân vị t phân phối Student với \(n - p'\) bậc tự do, - \(se(\hat{\beta}_j)\): sai số chuẩn của \(\hat{\beta}_j\).
Giá trị tổng phương sai \(TSS\) được tính theo công thức:
\[ TSS = \sum_{i=1}^{n} (y_i - \bar{y})^2 \]
Tổng phương sai được phân tích thành hai phần:
\[ TSS = SSR + RSS \]
Trong đó:
\[ SSR = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2 \]
\[ RSS = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 \]
Hệ số xác định \(R^2\) được định nghĩa là:
\[ R^2 = \frac{SSR}{TSS} = 1 - \frac{RSS}{TSS} \]
Hai mô hình được gọi là lồng nhau (nested models) khi mô hình đơn giản hơn (reduced model) là một trường hợp đặc biệt của mô hình phức tạp hơn (full model), tức là nó được tạo ra bằng cách loại bỏ một hay nhiều biến khỏi mô hình đầy đủ.
Kiểm định F:
\[ F = \frac{(RSS_{\text{reduced}} - RSS_{\text{full}}) / (p_{\text{full}} - p_{\text{reduced}})}{s^2_{\text{full}}} \]
Các kiểm định giả thuyết được trình bày trong Mục 2.10 chỉ áp dụng khi các mô hình so sánh là mô hình lồng nhau (nested). Tuy nhiên, đôi khi các nhà nghiên cứu muốn so sánh các mô hình không lồng nhau, vì vậy các phương pháp kiểm định đó không còn phù hợp. Phần này giới thiệu các đại lượng để so sánh các mô hình không nhất thiết phải lồng nhau.
Trước tiên, hãy nhớ rằng có hai tiêu chí để chọn mô hình thống kê là:
Độ chính xác (accuracy)
Tính đơn giản hợp lý (parsimony).
Tổng bình phương phần dư (RSS) chỉ đo lường độ chính xác: việc thêm một biến giải thích mới vào mô hình không bao giờ làm tăng RSS.
Khi thêm nhiều biến giải thích vào mô hình, giá trị RSS thường sẽ giảm, nhưng đồng thời mô hình cũng trở nên phức tạp hơn.
Tiêu chí thông tin Akaike (Akaike’s Information Criterion - AIC) giúp cân bằng hai tiêu chí:
Độ chính xác (đo bằng RSS)
Và mức độ phức tạp của mô hình (đo bằng số lượng tham số ước lượng).
Đối với mô hình hồi quy tuyến tính chuẩn, khi phương sai σ² chưa biết, công thức tính AIC là:
\[ AIC = n.log. \frac{RSS}{n} + 2p \] Trong đó - n là số quan sát, p là tham số mô hình
Giá trị AIC càng nhỏ thì mô hình càng tốt
2p dùng để đánh giá các mô hình có nhiều tham số (phức tạp hơn), với hệ số k= 2.
Lưu ý: Giá trị AIC không có ý nghĩa riêng lẻ, nó chỉ dùng để so sánh giữa các mô hình với nhau.
Ngoài AIC còn có các tiêu chí tương tự khác, với các hình thức phạt khác nhau. Một ví dụ là Tiêu chí Thông tin Bayes (Bayesian Information Criterion - BIC), hay còn gọi là Tiêu chí Schwarz:
BIC ưu tiên chọn các mô hình đơn giản hơn (ít tham số hơn) so với AIC, vì mức phạt trong BIC là ***p.logn, và thường lớn hơn 2p (trừ trường hợp quan sát n rất nhỏ)
\[ SIC = n.log. \frac{RSS}{n} + p.logn \]
AIC (Akaike Information Criterion) ưu tiên khả năng dự đoán. Nó sẵn sàng chấp nhận các biến giải thích mới dù bằng chứng thống kê chưa rõ ràng, miễn là các biến đó có tiềm năng cải thiện độ chính xác của dự đoán.
BIC (Bayesian Information Criterion) lại yêu cầu bằng chứng thuyết phục hơn để thêm biến vào mô hình. Do đó, nó thường chọn mô hình đơn giản hơn, dễ diễn giải và tránh dư thừa.
Mục tiêu tập trung vào việc chẩn đoán mô hình hồi quy tuyến tính nhằm đảm bảo mô hình phản ánh đúng bản chất dữ liệu và có độ tin cậy cao. Nội dung giúp người đọc kiểm định các giả định quan trọng như quan hệ tuyến tính, phương sai không đổi, tính độc lập và phân phối chuẩn của sai số. Thông qua việc phân tích phần dư và các chỉ số như leverage, Cook’s distance, DFBETAS, có thể phát hiện điểm ngoại lai và điểm ảnh hưởng lớn. Đồng thời, nội dung cũng làm rõ tác hại của đa cộng tuyến và hướng dẫn cách xử lý bằng chỉ số VIF. Cuối cùng, phần này đề xuất các chiến lược điều chỉnh như biến đổi dữ liệu hoặc áp dụng mô hình thay thế để cải thiện độ phù hợp và khả năng diễn giải của mô hình.
Sau khi xây dựng một mô hình hồi quy tuyến tính, việc ước lượng các hệ số và kiểm định ý nghĩa thống kê mới chỉ là bước khởi đầu. Để đảm bảo mô hình thực sự phản ánh đúng bản chất dữ liệu và có khả năng ứng dụng hiệu quả trong thực tế, một bước tiếp theo không thể thiếu chính là chẩn đoán mô hình.
Mục tiêu của chuẩn đoán mô hình
Chẩn đoán mô hình không chỉ là công cụ hỗ trợ kỹ thuật, mà còn là quá trình đánh giá tính hợp lệ, độ tin cậy và khả năng khái quát hóa của mô hình. Cụ thể, nó giúp:
Kiểm tra tính đúng đắn của các giả định nền tảng trong hồi quy tuyến tính:
Mối quan hệ tuyến tính giữa biến phụ thuộc và biến giải thích
Phương sai đồng nhất (homoscedasticity)
Phân phối chuẩn của sai số ngẫu nhiên
Độc lập giữa các phần dư (không có tự tương quan)
Phát hiện các quan sát đặc biệt, bao gồm:
Điểm ngoại lai (outliers) – có thể làm sai lệch ước lượng
Điểm ảnh hưởng lớn (influential observations) – có thể thống trị mô hình nếu không được xử lý đúng cách
Đánh giá tính ổn định và đáng tin cậy của các hệ số hồi quy
Đề xuất hướng điều chỉnh mô hình nhằm nâng cao hiệu suất và tính diễn giải, như:
Biến đổi dữ liệu (logarit hóa, chuẩn hóa, bình phương, căn bậc hai,…)
Thêm hoặc loại bỏ biến giải thích
Cân nhắc sử dụng mô hình phi tuyến hoặc mô hình hồi quy tổng quát (GLM) nếu phù hợp hơn với dữ liệu
Nếu bỏ qua bước này, người phân tích dễ rơi vào bẫy của việc “phù hợp quá mức” (overfitting), hiểu sai mối quan hệ giữa các biến, hoặc dự đoán sai lệch trong thực tế. Do đó, chẩn đoán mô hình không phải là tùy chọn – mà là một phần bắt buộc trong phân tích hồi quy nghiêm túc.
Trong chương này, chúng ta sẽ học cách:
Phân tích và kiểm tra các giả định cơ bản của mô hình hồi quy
Sử dụng phần dư để đánh giá độ phù hợp và phát hiện vi phạm giả định
Nhận diện và xử lý các điểm ảnh hưởng lớn
Phân tích hiện tượng đa cộng tuyến và các giải pháp khắc phục
Một mô hình hồi quy tuyến tính tiêu chuẩn phải thỏa mãn 4 giả định cơ bản sau:
Mô hình giả định rằng trung bình của biến phản hồi \(y\) là hàm tuyến tính của các biến giải thích \(x_1, x_2, \ldots, x_p\).
Nếu mối quan hệ thực sự giữa các biến là phi tuyến mà mô hình vẫn áp đặt tuyến tính, các ước lượng có thể bị thiên lệch và dẫn đến dự đoán sai lệch.
\(\Rightarrow\) Cách kiểm tra: Vẽ biểu đồ phần dư so với giá trị dự đoán. Nếu thấy hình dạng cong (dạng parabol, hình chữ S…), có thể mô hình đang sai dạng hàm.
Phương sai của sai số \(\varepsilon_i\) không thay đổi theo giá trị của biến giải thích:\(x\):
\[ \text{Var}(y_i) = \sigma^2 \]
Nếu phương sai thay đổi theo mức độ của \(x\), iện tượng này gọi là phương sai thay đổi (heteroscedasticity) – khiến ước lượng kém hiệu quả và các kiểm định thống kê không còn đáng tin cậy.
\(\Rightarrow\) Cách kiểm tra: vẽ đồ thị phần dư. Nếu phần dư có dạng hình nón (rộng dần hoặc hẹp lại) thì có thể bị heteroscedasticity.
Các quan sát \((x_i, y_i)\) phải độc lập nhau.
Nếu dữ liệu có tính chuỗi thời gian, dữ liệu lồng ghép (nested data) hoặc phân nhóm (clustered), thì mô hình tuyến tính cơ bản không còn phù hợp.
\(\Rightarrow\) Cách kiểm tra: Với dữ liệu theo thời gian, kiểm tra phần dư có xuất hiện tính tự tương quan (autocorrelation) hay không (dùng biểu đồ hoặc kiểm định Durbin-Watson).
Mặc dù không bắt buộc để ước lượng OLS, giả định này rất quan trọng để kiểm định giả thuyết và tính khoảng tin cậy:
\[ \varepsilon_i \sim \mathcal{N}(0, \sigma^2) \]
\(\Rightarrow\) Cách kiểm tra: dùng biểu đồ Q-Q plot (quantile-quantile) để so sánh phần dư với phân phối chuẩn.
Phần dư là công cụ trung tâm để kiểm định giả định và đánh giá độ phù hợp của mô hình.
\[ e_i = y_i - \hat{y}_i \] Đơn giản là hiệu giữa giá trị thực tế và giá trị dự đoán.
\[ r_i = \frac{e_i}{\hat{\sigma} \sqrt{1 - h_{ii}}} \]
Giúp so sánh phần dư giữa các điểm có leverage khác nhau.
\(h_{ii}\): leverage – mức ảnh hưởng của điểm \(i\) lên dự đoán \(\hat{y}_i\).
\[ t_i = \frac{e_i}{\hat{\sigma}_{(i)} \sqrt{1 - h_{ii}}} \]
Dùng phương sai được ước lượng khi loại bỏ chính điểm đó, giúp phát hiện ngoại lai một cách đáng tin cậy hơn (phân phối gần với t).
Một số biểu đồ quan trọng:
Residual vs Fitted Plot: phát hiện sai dạng mô hình và phương sai thay đổi
Normal Q-Q Plot: kiểm tra phân phối chuẩn của phần dư.
Scale-Location Plot: kiểm tra homoscedasticity với phần dư chuẩn hóa.
Residuals vs Leverage Plot: phát hiện điểm có ảnh hưởng lớn.
Định nghĩa: Là những quan sát mà phần dư (đặc biệt là studentized residual) lớn bất thường — nghĩa là giá trị thực tế quá khác so với giá trị dự đoán, dù biến giải thích có thể không đặc biệt
Dùng studentized residual để kiểm tra.
Quy tắc ngưỡng:
\(|t_i| > 2\): nghi ngờ.
\(|t_i| > 3\): có thể là ngoại lai đáng kể.
\(\Rightarrow\) Ngoại lai không nhất thiết có ảnh hưởng lớn, nhưng cần kiểm tra kỹ.
Là những điểm mà nếu bị loại bỏ, các hệ số hồi quy sẽ thay đổi đáng kể. Các chỉ số phổ biến để đo ảnh hưởng như:
\[ h_{ii} = x_i^T (X^T X)^{-1} x_i \]
Đo khoảng cách quan sát của \(x_i\) đến tâm của các điểm \(x\).
Nếu \(h_{ii} > \frac{2p}{n}\): điểm có leverage cao.
\[ D_i = \frac{p \hat{\sigma}^2 e_i^2}{(1 - h_{ii})^2 h_{ii}} \]
Tổng hợp giữa phần dư và leverage để đo ảnh hưởng tổng thể.
Nếu \(D_i > 0.5\): có thể có ảnh hưởng.
Nếu \(D_i > 1\): ảnh hưởng đáng kể, nên xem xét kỹ.
Mức thay đổi của hệ số \(\beta_j\) khi loại bỏ quan sát \(i\).
Dùng để kiểm tra ảnh hưởng của từng điểm lên từng hệ số cụ thể.
\[ \text{DFBETAS}_{ij} = \frac{\hat{\beta}_j - \hat{\beta}_{j(i)}}{\text{SE}(\hat{\beta}_{j(i)})} \]
DFBETAS giúp xác định điểm nào có ảnh hưởng đáng kể lên từng hệ số riêng biệt, chứ không chỉ mô hình tổng thể.
Ngưỡng tham khảo:
Nếu |\(DFBETAS_{ij}| > \frac{2}{n}\) quan sát i có thể ảnh hưởng mạnh đến hệ số
Đa cộng tuyến xảy ra khi các biến giải thích trong mô hình có tương quan cao với nhau. Điều này dẫn đến hệ số hồi quy ước lượng không ổn định, sai số chuẩn lớn và kết luận thống kê dễ bị sai lệch.
Hệ quả:
Các hệ số có thể thay đổi mạnh khi có thêm hoặc bớt một vài quan sát.
Mô hình vẫn có R^2 cao, nhưng các hệ số không có ý nghĩa thống kê (P-value lớn).
Khó diễn giải được vai trò riêng của từng biến.
Variance Inflation Factor (VIF):
\[ \mathrm{VIF}_j = \frac{1}{1 - R_j^2} \]
\(R_j^2\) : hệ số xác định khi hồi quy \(x_j\) lên tất cả các biến còn lại.
Nếu \(\mathrm{VIF}_j > 5\) hoặc \(> 10\): có vấn đề cần xử lý.
Khi mô hình hồi quy tuyến tính vi phạm các giả định cơ bản, ta cần có những biện pháp hiệu quả để điều chỉnh hoặc thay đổi mô hình. Một số hướng xử lý phổ biến:
Dùng biến đổi (log, sqrt, Box-Cox…).
Dùng mô hình phi tuyến hoặc mô hình GLM.
Loại bỏ hoặc thay thế điểm ảnh hưởng quá lớn.
Thêm biến bị thiếu hoặc loại bớt biến gây nhiễu.
Phương pháp bình phương tối thiểu (Ordinary Least Squares - OLS) là công cụ kinh điển trong hồi quy tuyến tính, nhưng hiệu quả của nó chỉ được đảm bảo khi dữ liệu tuân thủ đầy đủ các giả định nền tảng — bao gồm phân phối chuẩn của sai số, phương sai đồng nhất, và biến phản hồi dạng liên tục. Tuy nhiên, trong thực tế, dữ liệu hiếm khi hoàn hảo như vậy. Các dạng dữ liệu phổ biến như nhị phân (0/1), số đếm (count), hoặc các giá trị dương liên tục thường vi phạm những giả định đó, khiến OLS không còn phù hợp hoặc cho kết quả sai lệch.
Trong bối cảnh này, phương pháp ước lượng hợp lý tối đa (Maximum Likelihood Estimation - MLE) nổi bật như một công cụ thống kê mạnh mẽ và linh hoạt hơn. Không bị giới hạn bởi các giả định cứng nhắc, MLE cho phép ta xây dựng và ước lượng các mô hình phù hợp với bản chất của nhiều loại dữ liệu đa dạng.
Quan trọng hơn, MLE chính là nền tảng lý thuyết vững chắc cho khung mô hình hiện đại: mô hình tuyến tính tổng quát (Generalized Linear Models - GLM). GLM không chỉ mở rộng khả năng mô hình hóa beyond OLS mà còn đóng vai trò trung tâm xuyên suốt phần còn lại của cuốn sách — trở thành cầu nối giữa lý thuyết thống kê cổ điển và thực tiễn phân tích dữ liệu ngày nay.
Hàm hợp lý là một hàm xác suất của toàn bộ dữ liệu đã quan sát, biểu diễn như một hàm của tham số \(\theta\).
Giả sử ta có một mẫu gồm \(n\) quan sát độc lập \(y_1, y_2, \ldots, y_n\), với mỗi \(y_i\) có phân phối xác suất \(f(y_i; \theta)\), thì:
Hàm hợp lý:
\[ L(\theta) = \prod_{i=1}^{n} f(y_i; \theta) \]
\(L(\theta)\): hàm hợp lý
\(\theta\): vector các tham số cần ước lượng
\(f(y_i; \theta)\): mật độ xác suất (hoặc khối xác suất) của \(y_i\)
Log-hợp lý (log-likelihood):
\[ \ell(\theta) = \log L(\theta) = \sum_{i=1}^{n} \log f(y_i; \theta) \]
Dễ đạo hàm hơn vì tích thành tổng.
Giá trị cực đại của \(\ell(\theta)\) trùng với \(L(\theta)\).
MLE là giá trị \(\hat{\theta}\) của tham số \(\theta\) sao cho log-likelihood đạt cực đại.
\[ \hat{\theta} = \arg\max_{\theta} \, \ell(\theta) \]
Để tìm \(\hat{\theta}\), ta giải:
\[ \frac{d\ell(\theta)}{d\theta} = 0 \]
\(\Rightarrow\) Đây gọi là phương trình điểm (score equation).
\[ U(\theta) = \frac{d\ell(\theta)}{d\theta} \]
\[ I(\theta) = -\mathbb{E} \left[ \frac{d^2 \ell(\theta)}{d\theta^2} \right] \]
\(I(\theta)\): kỳ vọng âm của đạo hàm bậc hai log-likelihood → đo độ cong.
Là xấp xỉ ngược lại của phương sai:
\[ \mathrm{Var}(\hat{\theta}) \approx \frac{1}{I(\theta)} \]
MLE có nhiều tính chất tốt về mặt lý thuyết, đặc biệt khi kích thước mẫu n lớn:
Tính chất | Giải thích |
---|---|
Nhất quán | \(\hat{\theta} \to \theta\) khi \(n \to \infty\) |
Không chệch tiệm cận | Độ lệch giữa \(\hat{\theta}\) và \(\theta\) tiến về 0 |
Hiệu quả | MLE đạt giới hạn Cramér–Rao, là ước lượng “tốt nhất” |
Tiệm cận chuẩn | Khi \(n\) lớn, phân phối của \(\hat{\theta}\) gần chuẩn: \(\hat{\theta} \sim \mathcal{N}(\theta, I(\theta)^{-1})\) |
Muốn kiểm tra giả thuyết:
\[ H_0: \theta = \theta_0 \]
ta có ba cách phổ biến:
\[ Z = \frac{\hat{\theta} - \theta_0}{SE(\hat{\theta})}, \quad Z \sim N(0,1) \]
\[ LR = 2 \left[ \ell(\hat{\theta}) - \ell(\theta_0) \right] \sim \chi^2_{df} \]
So sánh log-likelihood của mô hình đầy đủ và mô hình rút gọn.
\(df\): số tham số bị ràng buộc trong \(H_0\).
\[ S = \frac{U(\theta_0)^2}{I(\theta_0)} \sim \chi^2_1 \]
Không cần ước lượng mô hình đầy đủ.
Khi không thể dùng kiểm định LRT (do mô hình không lồng), ta dùng:
\[ \text{AIC} = -2\ell + 2k \]
\(k\): số tham số trong mô hình
\(\ell\): log-likelihood tại MLE
\[ \text{BIC} = -2\ell + \log(n) \cdot k \]
Chọn mô hình có AIC/BIC thấp hơn.
Hồi quy logistic (nhị phân):
\[ y_i \sim \text{Bernoulli}(\pi_i), \quad \log\left(\frac{\pi_i}{1 - \pi_i}\right) = x_i^T \beta \]
Hồi quy Poisson (đếm):
\[ y_i \sim \text{Poisson}(\mu_i), \quad \log(\mu_i) = x_i^T \beta \]
Hồi quy Gamma (dương liên tục):
\[ y_i \sim \text{Gamma}(\alpha, \mu_i), \quad \log(\mu_i) = x_i^T \beta \]
Cả ba đều dùng MLE để ước lượng \(\beta\), chứ không dùng OLS.
Chương này hướng đến việc cung cấp một cái nhìn toàn diện và có hệ thống về mô hình tuyến tính tổng quát (GLM) – một khuôn khổ mạnh mẽ cho phép mở rộng hồi quy tuyến tính sang nhiều loại dữ liệu khác nhau. Người học sẽ được khám phá cấu trúc ba thành phần cốt lõi của GLM: phân phối xác suất thuộc họ hàm mũ, predictor tuyến tính và hàm liên kết – yếu tố kết nối kỳ vọng của biến phản hồi với tổ hợp tuyến tính của các biến giải thích. Chương cũng làm rõ vai trò của hàm liên kết chuẩn (canonical link) trong việc đơn giản hóa quá trình ước lượng và giải thích. Ngoài ra, người học sẽ nắm vững cách xây dựng mô hình phù hợp cho dữ liệu nhị phân, đếm, tỷ lệ và dữ liệu dương liên tục, cũng như hiểu được cơ chế mô hình hóa phương sai thay đổi thông qua hàm phương sai. Kiến thức trong chương là nền tảng quan trọng cho việc áp dụng GLM một cách chính xác và linh hoạt trong thực tiễn phân tích dữ liệu.
Mô hình tuyến tính tổng quát (Generalized Linear Model – GLM) là một lớp mô hình thống kê linh hoạt, cho phép mô hình hóa biến phản hồi có phân phối khác phân phối chuẩn (Normal). Đây là một bước tiến tự nhiên từ hồi quy tuyến tính cổ điển, dựa trên lý thuyết phân phối thuộc họ hàm mũ một tham số (One-Parameter Exponential Family).
GLM cung cấp một khung toán học thống nhất cho nhiều mô hình quen thuộc như hồi quy tuyến tính, hồi quy logistic, hồi quy Poisson và Gamma regression. Mỗi mô hình trong GLM chia sẻ một cấu trúc gồm ba thành phần cơ bản, đảm bảo tính thống nhất trong xây dựng, ước lượng và suy luận.
Giả định rằng biến phản hồi \(y_i\) (có điều kiện theo biến giải thích \(x_i\) được giả định phân phối theo một phân phối thuộc họ hàm mũ một tham số (One-Parameter Exponential Family):
\[ f(y_i; \theta_i, \phi) = \exp \left\{ \frac{y_i \theta_i - b(\theta_i)}{\phi} + c(y_i, \phi) \right\} \]
Trong đó:
Họ hàm mũ bao gồm Normal, Poisson, Binomial, Gamma,…
Tương tự hồi quy tuyến tính, GLM sử dụng một hàm tuyến tính để biểu diễn ảnh hưởng của các biến giải thích:
\[ \eta_i = x_i^T \beta = \beta_0 + \beta_1 x_{i1} + \cdots + \beta_p x_{ip} \]
Trong đó:
Đây là thành phần chứa ảnh hưởng của các biến độc lập lên mô hình.
GLM dùng một hàm liên kết \(g(\cdot)\) để kết nối trung bình \(\mu_i = E[y_i]\) với predictor tuyến tính \(\eta_i\):
\[ g(\mu_i) = \eta_i \quad \text{hay} \quad \mu_i = g^{-1}(\eta_i) \]
Đây là yếu tố giúp GLM mở rộng được sang các dữ liệu phi chuẩn. Việc lựa chọn hàm liên kết phù hợp là rất quan trọng và phụ thuộc vào bản chất của dữ liệu. Cho phép mô hình hóa các biến phản hồi có đặc tính phi tuyến, không âm, giới hạn trong khoảng (0,1),…
Hàm liên kết thường dùng:
Phân phối | \(\mu_i = E[y_i]\) | Link function \(g(\mu)\) | Ghi chú |
---|---|---|---|
Normal | \(\mu \in \mathbb{R}\) | \(g(\mu) = \mu\) (identity) | Hồi quy tuyến tính chuẩn |
Binomial | \(\mu \in (0,1)\) | \(g(\mu) = \log \frac{\mu}{1-\mu}\) | Logistic regression |
Poisson | \(\mu > 0\) | \(g(\mu) = \log(\mu)\) | Hồi quy đếm |
Gamma | \(\mu > 0\) | \(g(\mu) = \log(\mu)\) hoặc \(g(\mu) = \frac{1}{\mu}\) | Mô hình dữ liệu dương |
\[ y_i \sim \text{Bernoulli}(\pi_i) \]
\[ g(\pi_i) = \log \left(\frac{\pi_i}{1-\pi_i}\right) = \eta_i \]
\[ \pi_i = P(y_i = 1 \mid x_i) \]
\[ y_i \sim \text{Poisson}(\mu_i) \]
\[ \log(\mu_i) = x_i^T \beta \]
\(\mu_i\): số sự kiện kỳ vọng xảy ra.
Dùng cho dữ liệu: số ca bệnh, số lần vi phạm, số giao dịch…
\[ y_i \sim \text{Gamma}(\alpha, \mu_i) \]
Hàm liên kết:
\[ g(\mu_i) = \log(\mu_i) \quad \text{hoặc} \quad g(\mu_i) = \frac{1}{\mu_i} \]
Trong GLM, phương sai của \(y_i\) không cần bằng nhau mà được mô hình hóa như hàm của \(\mu_i\):
\[ \text{Var}(y_i) = \phi \cdot V(\mu_i) \]
Trong đó:
Hàm \(V(\mu)\) tùy theo phân phối như sau:
Phân phối | \(V(\mu)\) |
---|---|
Normal | 1 |
Binomial | \(\mu (1 - \mu)\) |
Poisson | \(\mu\) |
Gamma | \(\mu^2\) |
Việc mô hình hóa phương sai như trên giúp xử lý được hiện tượng phương sai thay đổi (heteroscedasticity), vốn là một giả định bị vi phạm trong phương pháp OLS (Hồi quy tuyến tính thông thường).
Canonical Link Function là hàm liên kết sao cho predictor tuyến tính chính là tham số tự nhiên \(\theta\) trong phân phối họ hàm mũ:
\[ \theta_i = \eta_i = x_i^T \beta \]
Việc sử dụng hàm liên kết chuẩn mang lại nhiều lợi ích lý thuyết và thực tiễn:
Đơn giản hóa dạng hàm hợp lý (log-likelihood).
Thuật toán tối ưu hội tụ nhanh hơn (ví dụ: IRLS).
Ma trận Fisher và các công thức ước lượng trở nên rõ ràng hơn.
Ví dụ về hàm liên kết chuẩn (canonical link):
Phân phối | Hàm liên kết (Link function) |
---|---|
Binomial | logit: \(\log\frac{\mu}{1-\mu}\) |
Poisson | log: \(\log(\mu)\) |
Normal | identity: \(\mu\) |
Trong một số trường hợp, người dùng có thể lựa chọn các hàm liên kết khác (không chuẩn) để phù hợp với đặc điểm dữ liệu hoặc yêu cầu diễn giải. Tuy nhiên, dùng hàm liên kết chuẩn thường giúp quá trình tính toán hiệu quả và ổn định hơn.
Lưu ý: Dù GLM gọi là “tuyến tính”, nhưng mối quan hệ giữa \(y\) và \(x\) có thể phi tuyến do sử dụng hàm liên kết (link function). Thông qua hàm liên kết, mô hình GLM cho phép thiết lập các quan hệ phi tuyến giữa biến phản hồi và biến giải thích, phù hợp với nhiều loại dữ liệu thực tế như nhị phân, đếm, tỷ lệ, hay dương liên tục.
Sau khi thiết lập đầy đủ cấu trúc của một mô hình tuyến tính tổng quát (GLM) gồm ba thành phần chính: phân phối xác suất, hàm liên kết và thành phần tuyến tính, bước tiếp theo là ước lượng các hệ số hồi quy \(\beta\) trong mô hình.
Trong GLM, thay vì sử dụng phương pháp bình phương tối thiểu (OLS) như hồi quy tuyến tính cổ điển, ta sử dụng phương pháp hợp lý tối đa (Maximum Likelihood Estimation – MLE) để tìm giá trị các tham số tối ưu. Do tính chất phi tuyến của các phương trình log-likelihood trong GLM, việc tìm nghiệm thường không có công thức đóng, mà phải giải bằng thuật toán lặp có trọng số – IRLS (Iteratively Reweighted Least Squares).
Cho dữ liệu gồm:
Biến phản hồi: \(y_1, y_2, \ldots, y_n\) có thể là biến đếm, nhị phân hoặc liên tục dương…
Biến giải thích: \(x_{i1}, \ldots, x_{ip}\) với \(i=1, \ldots, n\).
Mô hình GLM được biểu diễn như sau:
\[ g(\mu_i) = \eta_i = \mathbf{x}_i^T \boldsymbol{\beta} \]
với
\[ \mu_i = E[y_i] = g^{-1}(\mathbf{x}_i^T \boldsymbol{\beta}) \]
Mục tiêu là tìm ước lượng \(\hat{\boldsymbol{\beta}}\) sao cho hàm log-likelihood đạt cực đại:
\[ \ell(\boldsymbol{\beta}) = \sum_{i=1}^n \log f(y_i; \theta_i) \]
trong đó:
\(f(y_i; \theta_i)\) là hàm mật độ xác suất (hoặc hàm khối xác suất) của biến \(y_i\),
\(\theta_i\) là tham số tự nhiên trong phân phối thuộc họ hàm mũ,
\(\theta_i\) có quan hệ với \(\mu_i\), từ đó liên hệ với \(\boldsymbol{\beta}\).
Phương pháp MLE thường không cho nghiệm tường minh, nên được giải thông qua thuật toán IRLS.
Trong GLM, thuật toán IRLS được sử dụng để giải bài toán tối đa hóa log-likelihood. Đây là một thuật toán lặp, tại mỗi vòng lặp ta thực hiện một bước hồi quy tuyến tính có trọng số, nhờ đó dần tiệm cận đến nghiệm tối ưu.
Tại mỗi vòng lặp, ta tuyến tính hóa mối quan hệ giữa biến phản hồi và predictor tuyến tính bằng cách sử dụng một biến phản hồi tạm thời gọi là biến giả (working response)
Biến giả (working response) \(\mathbf{z}\) và ma trận trọng số \(\mathbf{W}\) được cập nhật dựa trên phân phối của y và dạng của hàm liên kết.
\[ \mathbf{X}^T \mathbf{W} \mathbf{X} \hat{\boldsymbol{\beta}} = \mathbf{X}^T \mathbf{W} \mathbf{z} \]
Trong đó:
\(\mathbf{X}\) là ma trận thiết kế n*p,
\(\mathbf{W}\) là ma trận trọng số kích thước \(n \times n\),
\(\mathbf{z}\) là vector biến giả \(n \times 1\), tính theo công thức:
\[ z_i = \eta_i + \frac{y_i - \mu_i}{\frac{d \mu_i}{d \eta_i}} \]
\[ W_i = \left(\frac{d \mu_i}{d \eta_i}\right)^2 \Big/ \mathrm{Var}(y_i) \]
Thuật toán dừng khi các ước lượng \(\boldsymbol{\beta}\) hội tụ (thường dựa trên sai khác nhỏ giữa hai vòng lặp liên tiếp).
Hàm điểm (Score Function)
Hàm điểm là đạo hàm của log-likelihood theo vector hệ số \(\boldsymbol{\beta}\):
\[ U(\boldsymbol{\beta}) = \frac{\partial \ell(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}} \]
Đây là hệ phương trình mà khi giải \(U(\boldsymbol{\beta}) = 0\), ta thu được ước lượng cực đại \(\hat{\boldsymbol{\beta}}\).
Ma trận thông tin Fisher
Được định nghĩa là kỳ vọng của âm đạo hàm bậc hai:
\[ \mathcal{I}(\boldsymbol{\beta}) = - \mathbb{E} \left[ \frac{\partial^2 \ell(\boldsymbol{\beta})}{\partial \boldsymbol{\beta} \, \partial \boldsymbol{\beta}^T} \right] \]
Đây là thước đo độ chính xác của ước lượng, phản ánh độ cong của log-likelihood quanh điểm cực đại. Ma trận này đóng vai trò như một thước đo độ “sắc nét” của log-likelihood tại điểm cực đại và được dùng để đánh giá độ chính xác của ước lượng.
Phương sai của \(\hat{\boldsymbol{\beta}}\)
Khi đã có ma trận thông tin Fisher, phương sai hiệp phương sai của vector hệ số ước lượng được tính là:
\[ \mathrm{Var}(\hat{\boldsymbol{\beta}}) = \mathcal{I}(\hat{\boldsymbol{\beta}})^{-1} \]
Nếu sử dụng thuật toán IRLS,thì ma trận xấp xỉ bởi:
\[ \mathrm{Var}(\hat{\boldsymbol{\beta}}) = (\mathbf{X}^T \mathbf{W} \mathbf{X})^{-1} \]
Trong đó:
\(\mathbf{X}\): ma trận thiết kế,
\(\mathbf{W}\): ma trận trọng số tại nghiệm hội tụ,
Công thức này xuất hiện tự nhiên từ bước giải hệ phương trình IRLS.
Công thức phương sai trên rất quan trọng để tính khoảng tin cậy và kiểm định giả thuyết trong GLM.
Với các mô hình lớn, ma trận \((\mathbf{X}^T \mathbf{W} \mathbf{X})^{-1}\) thường được tính thông qua giải hệ phương trình thay vì đảo trực tiếp để tránh sai số số học.
Sau khi có được ước lượng \(\hat{\boldsymbol{\beta}}\) và ma trận phương sai hiệp phương sai \(\mathrm{Var}(\hat{\boldsymbol{\beta}})\), ta tính sai số chuẩn cho từng hệ số \(\hat{\beta}_j\) như sau:
\[ \mathrm{SE}(\hat{\beta}_j) = \sqrt{[\mathrm{Var}(\hat{\boldsymbol{\beta}})]_{jj}} \]
Trong đó, \([\cdot]_{jj}\) là phần tử hàng \(j\), cột \(j\) trong ma trận phương sai.
Khoảng tin cậy cho hệ số \(\hat{\beta}_j\) được tính bằng công thức:
\[ \hat{\beta}_j \pm z_{\alpha/2} \cdot \mathrm{SE}(\hat{\beta}_j) \]
Trong đó:
\(z_{\alpha/2}\) là bách phân vị \(1 - \alpha/2\) của phân phối chuẩn chuẩn hóa (thường tra từ bảng Z),
Ví dụ: với \(\alpha = 0.05\), \(z_{0.025} \approx 1.96\) (tương ứng khoảng tin cậy 95%).
Kiểm định Wald giúp đánh giá giả thuyết:
\[ H_0: \beta_j = 0 \quad \text{vs} \quad H_1: \beta_j \neq 0 \]
Thống kê kiểm định:
\[ Z = \frac{\hat{\beta}_j}{\mathrm{SE}(\hat{\beta}_j)} \sim \mathcal{N}(0, 1) \]
Dựa vào giá trị \(Z\), ta có thể tính p-value và đưa ra kết luận thống kê.
Kiểm định Wald được dùng phổ biến do tính đơn giản và có thể thực hiện ngay sau khi có ước lượng và phương sai.
Nếu \(|Z| > z_{\alpha/2}\), bác bỏ \(H_0\), tức là hệ số \(\beta_j\) có ý nghĩa thống kê.
Trong một số mô hình GLM, đặc biệt khi sử dụng các phân phối thuộc họ hàm mũ nhưng không có dạng chuẩn hóa, việc ước lượng tham số phân tán \(phi\) là cần thiết để phản ánh đúng mức độ biến thiên của dữ liệu không được giải thích bởi mô hình.
\[ \hat{\phi} = \frac{1}{n - p} \sum_{i=1}^{n} \frac{(y_i - \hat{\mu}_i)^2}{V(\hat{\mu}_i)} \]
Trong đó:
\(n\): số quan sát
\(p\): số tham số trong mô hình (bao gồm hệ số chặn nếu có)
\(\hat{\mu}_i = \mathbb{E}[y_i] = g^{-1}(\eta_i)\): giá trị kỳ vọng được ước lượng
\(V(\hat{\mu}_i)\): hàm phương sai, phụ thuộc vào phân phối:
Phân phối | Hàm phương sai \(V(\mu)\) |
---|---|
Gaussian | \(1\) |
Poisson | \(\mu\) |
Binomial (logit) | \(\mu(1 - \mu)\) |
Mục tiêu để đánh giá mức độ phù hợp của mô hình tuyến tính tổng quát (GLM) sau khi đã thực hiện ước lượng tham số. Người học sẽ hiểu và vận dụng được các công cụ như deviance, kiểm định \(\chi^2\), và phần dư để kiểm tra mức độ khớp giữa mô hình và dữ liệu thực tế. Chương này cũng hướng dẫn cách so sánh các mô hình, bao gồm mô hình lồng nhau (sử dụng kiểm định deviance) và mô hình không lồng nhau (sử dụng tiêu chí thông tin như AIC và BIC). Ngoài ra, người học sẽ biết cách sử dụng đồ thị chẩn đoán và phân tích phần dư để phát hiện điểm ngoại lai và điểm ảnh hưởng mạnh. Cuối cùng, chương trình bày cách phát hiện hiện tượng quá phân tán (overdispersion) – khi phương sai quan sát lớn hơn phương sai kỳ vọng – và giới thiệu các mô hình thay thế như quasi-Poisson hoặc Negative Binomial để xử lý hiện tượng này một cách hiệu quả.
Sau khi đã ước lượng được các tham số \(\beta\) trong mô hình tuyến tính tổng quát (GLM), bước tiếp theo là đánh giá mức độ phù hợp của mô hình với dữ liệu thực tế. Đồng thời, nếu tồn tại nhiều mô hình cạnh tranh, ta cần lựa chọn mô hình tối ưu dựa trên các tiêu chí thống kê.
Các công cụ đánh giá bao gồm:
Deviance (độ lệch)
Kiểm định \(\chi^2\)
Tiêu chí thông tin AIC và BIC
So sánh giữa các mô hình lồng và không lồng
Đồ thị phần dư và phân tích điểm ảnh hưởng
Deviance là đại lượng được sử dụng để đo lường mức độ khác biệt giữa mô hình hiện tại và mô hình bão hòa (saturated model) – tức mô hình có số lượng tham số tối đa, khớp hoàn toàn với dữ liệu quan sát.
\[ D(y; \hat{\mu}) = 2 \left[ \ell(y; y) - \ell(\hat{\mu}; y) \right] \]
Trong đó:
\(\ell(y; y)\): log-likelihood của mô hình bão hòa (saturated model)
\(\ell(\hat{\mu}; y)\): log-likelihood của mô hình đang xét
\(\Rightarrow\) Deviance càng nhỏ → mô hình càng gần với mô hình bão hòa → phù hợp hơn.
Khi so sánh hai mô hình lồng nhau (nested models), ta có thể sử dụng kiểm định dựa trên sự sai biệt deviance:
Công thức kiểm định:
\[ \Delta D = D_{\text{reduced}} - D_{\text{full}} \sim \chi^2_{df} \]
Trong đó:
Nếu \(\Delta D\) lớn và p-value nhỏ → mô hình đầy đủ tốt hơn.
Trong trường hợp các mô hình không lồng nhau, ta không thể sử dụng kiểm định deviance, mà thay vào đó sử dụng các tiêu chí thông tin để so sánh mức độ phù hợp có tính đến độ phức tạp của mô hình.
AIC (Akaike Information Criterion):
\[ AIC = -2\ell + 2k \] Trong đó:
\(\ell\): log-likelihood
\(k\): số tham số trong mô hình
BIC (Bayesian Information Criterion):
\[ BIC = -2\ell + \log(n) \cdot k \]
Mô hình có AIC/BIC thấp hơn được xem là tốt hơn.
BIC áp dụng mức phạt nặng hơn đối với các mô hình phức tạp so với AIC.
Phần dư thô (raw residual):
\[ e_i = y_i - \hat{\mu}_i \]
Phần dư Pearson:
\[ r_i = \frac{y_i - \hat{\mu}_i}{\sqrt{V(\hat{\mu}_i)}} \]
Phần dư deviance:
\[ d_i = \text{sign}(y_i - \hat{\mu}_i) \cdot \sqrt{2\left[\ell(y_i; y_i) - \ell(\hat{\mu}_i; y_i)\right]} \]
Biểu đồ phần dư vs fitted values
Biểu đồ Normal Q-Q
Biểu đồ Scale-Location
Biểu đồ Cook’s distance vs leverage
Các biểu đồ này giúp phát hiện các điểm ngoại lai, điểm có ảnh hưởng lớn đến mô hình, và kiểm tra giả định phân phối phần dư.
Kiểm định Pearson là một phương pháp cổ điển để đánh giá mức độ phù hợp giữa dữ liệu thực tế và mô hình.
\[ X^2 = \sum_{i=1}^n \frac{(y_i - \hat{\mu}_i)^2}{V(\hat{\mu}_i)} \]
Nếu \(X^2\) lớn hơn mức kỳ vọng theo phân phối \(\chi^2_{df}\) mô hình có thể không phù hợp với dữ liệu.
Một số mô hình GLM như Poisson và Binomial mặc định giả định tham số phân tán:
\[ \phi = 1 \]
Tuy nhiên, trên thực tế, phương sai quan sát đôi khi lớn hơn nhiều so với phương sai giả định của mô hình, gọi là hiện tượng quá phân tán (overdispersion).
Kiểm tra overdispersion:
Hệ số phân tán ước lượng được tính theo công thức:
\[ \hat{\phi} = \frac{\text{Deviance}}{n - p} \]
\(n\): số quan sát
\(p\): số tham số trong mô hình
Nếu:
\[ \hat{\phi} > 1.5 \]
Mô hình có thể bị overdispersed (quá phân tán)
Trong trường hợp này, cần điều chỉnh mô hình, ví dụ:
Sử dụng quasi-Poisson
Hoặc Negative Binomial
Mô hình Tuyến tính Tổng quát (GLM) được thiết kế để xử lý dữ liệu nhị phân, trong đó biến phản hồi chỉ nhận giá trị 0 hoặc 1. Mục tiêu của chương là giúp người học nắm vững cách mô hình hóa xác suất xảy ra của một sự kiện nhị phân thông qua hàm liên kết logit, từ đó xây dựng và diễn giải mô hình hồi quy logistic một cách chính xác. Chương trình bày chi tiết cấu trúc của hàm log-likelihood dựa trên phân phối Bernoulli, và cách ước lượng tham số bằng phương pháp hợp lý tối đa. Ngoài ra, người học sẽ hiểu rõ ý nghĩa của các hệ số hồi quy thông qua odds ratio, cũng như biết cách kiểm định mức độ ý nghĩa của chúng thông qua kiểm định Wald và xây dựng khoảng tin cậy. Bên cạnh việc đánh giá mức độ phù hợp của mô hình thông qua deviance và pseudo, chương cũng mở rộng sang mô hình hồi quy logistic đa biến và mô hình nhị thức nhóm, giúp người học ứng dụng linh hoạt mô hình này trong thực tế.
Hồi quy logistic là một mô hình thuộc họ Mô hình Tuyến tính Tổng quát (GLM), được sử dụng phổ biến trong việc mô hình hóa các dữ liệu mà biến phản hồi là nhị phân, tức nhận giá trị 0 hoặc 1
\[ y \in \{0,1\} \]
Ví dụ: có bệnh/không có bệnh, mua hàng/không mua hàng, đạt/không đạt. Trong trường hợp này, kỳ vọng của biến phản hồi là một xác suất.
Đặc điểm:
\[
\mu_i = E[y_i] = P(y_i=1) \in (0,1)
\]
Sử dụng hàm liên kết logit:
\[
g(\mu_i) = \log\left(\frac{\mu_i}{1-\mu_i}\right) = \eta_i = x_i^T \beta
\]
Với biến phản hồi nhị phân:
\[
y_i \in \{0,1\}
\]
phân phối theo:
\[ y_i \sim \text{Bernoulli}(\pi_i) \]
Trong đó:
\[
\pi_i = P(y_i=1)
\]
và:
\[
\log\left(\frac{\pi_i}{1-\pi_i}\right) = x_i^T \beta
\]
Log-likelihood tổng quát cho toàn bộ mẫu có dạng:
\[
\ell(\beta) = \sum_{i=1}^n \left[ y_i \log(\pi_i) + (1 - y_i)
\log(1-\pi_i) \right]
\]
Do không có nghiệm giải tường minh cho hệ số → dùng IRLS để tìm \(\hat{\beta}\).
Khi dùng logit link:
\[
\eta_i = \log\left(\frac{\pi_i}{1-\pi_i}\right) = x_i^T \beta
\]
→ \(\beta_j\) đại diện cho log odds
ratio nghĩa là:
\[
\text{Odds ratio} = \exp(\beta_j)
\]
Nếu \(\beta_j > 0\): biến \(x_j\) làm tăng khả năng \(y=1\)
Nếu \(\beta_j < 0\): biến \(x_j\) làm giảm khả năng \(y=1\)
Sau khi ước lượng \(\hat{\beta}\), ta kiểm định ý nghĩa của từng hệ số thông qua kiểm định Wald:
\[ Z_j = \frac{\hat{\beta}_j}{SE(\hat{\beta}_j)} \sim N(0,1) \]
Khoảng tin cậy 95% được ước tính như sau:
\[
\hat{\beta}_j \pm z_{0.975} \cdot SE(\hat{\beta}_j)
\]
Chuyển sang odds ratio bằng
\[
\exp(\hat{\beta}_j)
\]
Deviance là một đại lượng đo mức độ phù hợp của mô hình:
\[ D = -2 \left[ \ell(\hat{\beta}) - \ell_{\text{saturated}} \right] \]
Kiểm định deviance giữa mô hình đầy đủ và mô hình rút gọn.
Pseudo-\(R^2\):
\[
R^2 = 1 - \frac{D_{\text{model}}}{D_{\text{null}}}
\]
Hồi quy logistic có thể dễ dàng mở rộng để bao gồm nhiều biến giải thích:
\[ \log\left(\frac{\pi_i}{1-\pi_i}\right) = \beta_0 + \beta_1 x_{i1} + \cdots + \beta_p x_{ip} \]
Đây là mô hình hồi quy logistic đa biến (multiple logistic regression), cho phép phân tích ảnh hưởng đồng thời của nhiều yếu tố lên xác suất xảy ra sự kiện.
Trong một số trường hợp, dữ liệu phản hồi không phải từng quan sát riêng lẻ mà được tổng hợp dưới dạng tỷ lệ:
\[
\frac{y_i}{n_i}
\]
ta dùng:
\[
y_i \sim \text{Binomial}(n_i, \pi_i)
\]
Log-likelihood:
\[
\ell(\beta) = \sum_{i=1}^n \left[ y_i \log(\pi_i) + (n_i - y_i)
\log(1-\pi_i) \right]
\]
Mục tiêu của chương này là giới thiệu mô hình hồi quy Poisson trong khuôn khổ GLM, vốn được thiết kế để phân tích dữ liệu đếm – tức các biến phản hồi rời rạc, không âm như số sự kiện xảy ra trong một đơn vị thời gian hoặc không gian. Chương trình bày cách xây dựng mô hình với hàm liên kết log để đảm bảo giá trị kỳ vọng luôn dương, giải thích ý nghĩa các hệ số hồi quy trên thang logarit, và chỉ rõ cách ước lượng các tham số bằng phương pháp hợp lý tối đa. Ngoài ra, chương còn tập trung vào các vấn đề quan trọng như điều chỉnh offset khi dữ liệu quan sát có độ dài khác nhau, xử lý hiện tượng phân tán quá mức (overdispersion) bằng quasi-Poisson hoặc Negative Binomial, và đánh giá mô hình thông qua các tiêu chí như deviance, AIC và kiểm định Pearson chi-square.
Hồi quy Poisson là một mô hình thuộc họ Mô hình Tuyến tính Tổng quát (GLM), được thiết kế để mô hình hóa các biến phản hồi là số lượng sự kiện xảy ra trong một đơn vị quan sát, chẳng hạn như:
Số lần nhập viện
Số vụ tai nạn giao thông
Số lỗi phần mềm được ghi nhận
Mô hình này đặc biệt thích hợp khi:
Biến phản hồi \(y \in \{0, 1, 2, \ldots \}\)
Dữ liệu có rời rạc và không âm
Mục tiêu là ước lượng số sự kiện trung bình theo các đặc tính \(x\)
\[ P(y_i) = \frac{e^{-\mu_i} \mu_i^{y_i}}{y_i!}, \quad y_i = 0, 1, 2, \ldots \]
Trong đó:
\[ \mu_i = E[y_i] : \text{số sự kiện kỳ vọng của quan sát thứ } i \]
\[ \text{Var}(y_i) = \mu_i \quad : \text{đặc điểm then chốt} \]
\[ \eta_i = \log(\mu_i) = x_i^T \beta \implies \mu_i = e^{x_i^T \beta} \]
\[ \mu_i > 0 \]
Mối quan hệ tuyến tính trên log-scale.
\[ \ell(\beta) = \sum_{i=1}^n \left[ y_i \log(\mu_i) - \mu_i - \log(y_i!) \right] \]
Thay \(\mu_i = e^{x_i^T \beta}\), ta được:
\[ \ell(\beta) = \sum_{i=1}^n \left[ y_i x_i^T \beta - e^{x_i^T \beta} - \log(y_i!) \right] \]
\[ U(\beta) = \sum_{i=1}^n x_i (y_i - \mu_i) \]
Giải phương trình \(U(\beta) = 0\) → tìm \(\hat{\beta}\) bằng IRLS.
Trong hồi quy Poisson:
Mỗi \(\beta_j\) thể hiện ảnh hưởng tuyến tính trên thang log đến số sự kiện trung bình.
\(e^{\beta_j}\) là tỷ lệ thay đổi kỳ vọng \(\mu\) khi \(x_j\) tăng 1 đơn vị, các biến khác giữ nguyên.
Offset: Khi các quan sát khác nhau về thời gian hoặc phạm vi theo dõi, cần điều chỉnh để mô hình phản ánh tỷ lệ sự kiện, thay vì số lượng tuyệt đối.
\[ \frac{\mu_i}{t_i} \implies \log(\mu_i) = \log(t_i) + x_i^T \beta \]
Trong đó \(\log(t_i)\) là offset được đưa vào mô hình nhưng không có hệ số hồi quy đi kèm.
Về lý thuyết, mô hình Poisson giả định:
\[ \mathrm{Var}(y_i) = \mu_i \]
Tuy nhiên, trong thực tế, thường thấy:
\[ \mathrm{Var}(y_i) > \mu_i \quad \Rightarrow \quad \text{overdispersion} \]
Nguyên nhân có thể bao gồm: bỏ sót biến quan trọng, quá nhiều giá trị bằng 0, hoặc sự biến động vượt ngoài dự kiến.
Hệ số phân tán:
\[ \hat{\phi} = \frac{\text{Deviance}}{n - p} \]
Nếu \(\hat{\phi} > 1.5\) thì cần lưu ý hiện tượng phân tán quá mức.
Giải pháp xử lý:
Dùng quasi-Poisson: điều chỉnh phương sai mà không thay đổi kỳ vọng.
Dùng Negative Binomial: thêm tham số α để mô hình hóa phương sai lớn hơn.
Các phương pháp đánh giá bao gồm:
Deviance: đo lường mức độ phù hợp của mô hình.
AIC: tiêu chí lựa chọn mô hình tối ưu.
Kiểm định deviance: so sánh mô hình đầy đủ và mô hình rút gọn.
Biểu đồ phần dư:
Residuals vs Fitted
Deviance residuals
Cook’s distance
Kiểm định Pearson chi-square:
\[ X^2 = \sum_{i=1}^n \frac{(y_i - \mu_i)^2}{\mu_i} \quad \Rightarrow \quad X^2 \sim \chi^2_{n-p} \]
Mô hình | Khi nào dùng |
---|---|
Poisson | Khi dữ liệu đếm và phương sai xấp xỉ bằng kỳ vọng (\(\mathrm{Var}(y) \approx E(y)\)) |
Quasi-Poisson | Khi có phân tán quá mức nhẹ, vẫn giữ nguyên hàm liên kết log (link function) |
Negative Binomial | Khi phân tán quá mức nghiêm trọng hoặc dữ liệu chứa nhiều giá trị bằng 0 |
Chương này tập trung vào mô hình hồi quy Gamma – một dạng GLM chuyên biệt dùng cho các biến phản hồi liên tục, dương và có phương sai tỷ lệ với bình phương giá trị kỳ vọng. Mục tiêu của chương là giúp người đọc hiểu được cách mô hình hóa dữ liệu kiểu này thông qua phân phối Gamma và hàm liên kết log, vốn phổ biến vì đảm bảo tính dương của kỳ vọng. Chương cũng hướng dẫn chi tiết cách thiết lập hàm log-likelihood và giải hệ phương trình điểm bằng thuật toán IRLS để ước lượng tham số. Ngoài ra, chương còn cung cấp cách diễn giải các hệ số hồi quy trên thang log, thực hiện kiểm định giả thuyết với Wald test, tính khoảng tin cậy, kiểm tra độ phù hợp mô hình với deviance và Pearson chi-square, đồng thời so sánh với các mô hình thay thế như hồi quy tuyến tính hoặc hồi quy log-normal.
Hồi quy Gamma là một mô hình thuộc họ Mô hình Tuyến tính Tổng quát (GLM), được sử dụng để mô hình hóa các biến phản hồi liên tục, dương với phương sai tăng theo giá trị trung bình. Mô hình này đặc biệt phù hợp trong các trường hợp mà độ biến thiên của dữ liệu tỉ lệ với bình phương trung bình.
Một số ví dụ ứng dụng điển hình:
Chi phí y tế
Thời gian sống (survival time)
Lượng tiêu thụ năng lượng
Giả định biến ngẫu nhiên \(y_i\), tuân theo phân phối Gamma với các tham số:
\[ y_i \sim Gamma(\alpha, \mu_i) \]
Trong đó:
\(\mu_i = E[y_i]\) là kỳ vọng của \(y_i\).
Phương sai:
\[
Var(y_i) = \frac{\mu_i^2}{\alpha} = \phi \mu_i^2
\]
Tức là phương sai tỷ lệ với bình phương kỳ vọng – một giả định phù hợp trong nhiều bài toán thực tế có tính biến thiên tương đối không đổi.
Hàm mật độ xác suất của phân phối Gamma (dưới dạng hàm mũ):
\[ f(y; \mu, \phi) = \frac{1}{\Gamma(1/\phi)} \left(\frac{1}{\phi \mu}\right)^{1/\phi} y^{\frac{1}{\phi}-1} \exp\left(-\frac{y}{\phi \mu}\right) \]
Phân phối Gamma thuộc họ hàm mũ với các đặc trưng:
Tham số tự nhiên: \[ \theta = -\frac{1}{\mu} \]
hàm chuẩn hóa:
\[ b(\theta) = -\log(-\theta) \]
Hàm phương sai:
\[ V(\mu) = \mu^2 \]
\(\phi\) là tham số phân tán.
Mặc định trong GLM sử dụng hàm log làm hàm liên kết:
\[ g(\mu_i) = \log(\mu_i) = \eta_i = x_i^T \beta \]
Ngoài ra, có thể sử dụng các hàm liên kết khác:
Hàm đồng nhất Identity: \(g(\mu) = \mu\)
Hàm nghịch đảo Inverse: \(g(\mu) = \frac{1}{\mu}\)
Tuy nhiên, hàm log thường được ưu tiên sử dụng vì đảm bảo \(\mu > 0\) và duy trì tuyến tính trên thàn log.
Ước lượng tham số \(\beta\) được ước lượng bằng phương pháp hợp lý tối đa (MLE), thông qua thuật toán IRLS (Iteratively Reweighted Least Squares).
Hàm log-likelihood:
\[ \ell(\beta) = \sum_{i=1}^n \left[-\log(\mu_i) - \frac{y_i}{\mu_i} \right] + \text{hằng số} \]
với:
\[ \mu_i = e^{x_i^T \beta} \]
Ta thiết lập phương trình điểm:
\[ \frac{\partial \ell}{\partial \beta} = \sum_{i=1}^n x_i \left( y_i - \frac{\mu_i}{\mu_i^2} \cdot \frac{d\mu_i}{d\eta_i} \right) = 0 \]
Dùng IRLS để giải phương trình và tìm nghiệm \(\hat{\beta}\).
Với link log:
\[ \log(\mu_i) = \beta_0 + \beta_1 x_{i1} + \cdots + \beta_p x_{ip} \implies \mu_i = e^{x_i^T \beta} \]
Mỗi hệ số \(\beta_j\) được hiểu là tác động trên log-scale, nghĩa là ảnh hưởng đến log của kỳ vọng trung bình.
\[ e^{\beta_j} \]
tức là hệ số tỷ lệ thay đổi của \(\mu\).
\[ Z_j = \frac{\hat{\beta}_j}{SE(\hat{\beta}_j)} \sim \mathcal{N}(0,1) \]
\[ \hat{\beta}_j \pm z_{\alpha/2} \cdot SE(\hat{\beta}_j) \]
\[ \left(e^{\hat{\beta}_j - z_{\alpha/2} SE(\hat{\beta}_j)}, \quad e^{\hat{\beta}_j + z_{\alpha/2} SE(\hat{\beta}_j)} \right) \]
Khoảng tin cậy này giúp diễn giải ảnh hưởng của biến giải thích lên trung bình phản hồi dưới dạng tỷ lệ.
Hai tiêu chí phổ biến để đánh giá mô hình:
\[ D = 2 \sum_{i=1}^n \left[ \frac{y_i - \mu_i}{\mu_i} - \log\left(\frac{y_i}{\mu_i}\right) \right] \]
\[ X^2 = \sum_{i=1}^n \left( \frac{y_i - \mu_i}{\mu_i} \right)^2 \]
Các chỉ số này phản ánh mức độ phù hợp của mô hình với dữ liệu, đồng thời giúp phát hiện hiện tượng overdispersion nếu có.
Mô hình | Khi dùng |
---|---|
Hồi quy tuyến tính | Khi dữ liệu phân phối chuẩn và phương sai không đổi |
Hồi quy Gamma | Khi dữ liệu dương, phương sai tỷ lệ với bình phương trung bình |
Hồi quy log-normal | Khi \(\log(y)\) phân phối chuẩn (sau biến đổi log) |
Mục tiêu chính của chương này là trình bày mô hình hóa dữ liệu nhị thức tổng quát (binomial GLM) trong trường hợp phản hồi là số lượng thành công trên tổng số lần thử, thường xuất hiện dưới dạng dữ liệu nhóm hoặc tỷ lệ. Thay vì áp dụng hồi quy logistic cho từng cá nhân, chương này phát triển mô hình phù hợp với dữ liệu đã được tổng hợp – ví dụ như số người mắc bệnh trên tổng dân số từng khu vực. Chương trình bày chi tiết cách xây dựng mô hình với link logit, cách tính log-likelihood và áp dụng thuật toán IRLS có trọng số để ước lượng tham số. Bên cạnh đó, chương cũng so sánh hiệu quả giữa dữ liệu nhóm và dữ liệu nhị phân cá nhân, chỉ ra những lưu ý khi làm việc với dữ liệu tỷ lệ, đồng thời hướng dẫn các kiểm định mô hình, phát hiện hiện tượng overdispersion, và đề xuất sử dụng quasi-binomial khi cần thiết.
Hồi quy logistic thường được dùng để mô hình hóa dữ liệu nhị phân 0/1 (Bernoulli). Tuy nhiên, trong thực tế ta thường gặp các trường hợp mà dữ liệu có dạng nhóm hoặc được biểu diễn dưới dạng tỷ lệ thành công. Cần dùng GLM dạng nhị thức tổng quát (binomial GLM), áp dụng cho số lần thành công trên số lần thử.
Giả sử với \(y_i \sim \text{Binomial}(n_i, \pi_i)\), ta mô hình hóa:
\[ \log \left(\frac{\pi_i}{1 - \pi_i}\right) = \eta_i = x_i^T \beta \implies \pi_i = \frac{e^{x_i^T \beta}}{1 + e^{x_i^T \beta}} \]
Trong đó:
\(y_i\): số lần thành công trong nhóm \(i\)
\(n_i\): tổng số lần thử nghiệm trong nhóm \(i\)
\(\pi_i\): xác suất thành công
\(\mu_i = E[y_i] = n_i \pi_i\)
\(\text{Var}(y_i) = n_i \pi_i (1 - \pi_i)\)
Thích hợp cho dữ liệu dạng “n thử nghiệm, k thành công”.
Hàm log-likelihood:
\[ \ell(\beta) = \sum_{i=1}^n \left[ y_i \log(\pi_i) + (n_i - y_i) \log(1 - \pi_i) \right] \]
Việc ước lượng \(\beta\) được thực hiện bằng phương pháp hợp lý tối đa (MLE) thông qua thuật toán IRLS (Iteratively Reweighted Least Squares), tương tự như logistic, nhưng có thêm hệ số \(n_i\).
Biến giả và trọng số:
\[ w_i = n_i \pi_i (1 - \pi_i) \]
\[ z_i = \eta_i + \frac{y_i - n_i \pi_i}{n_i \pi_i (1 - \pi_i)} \]
Dạng dữ liệu | Mô hình tương ứng | Ghi chú |
---|---|---|
0/1 từng cá nhân | Hồi quy logistic | \(y_i \sim \text{Bernoulli}(\pi_i)\) |
Nhóm nhiều cá nhân | Binomial GLM với \(y_i / n_i\) | \(y_i \sim \text{Binomial}(n_i, \pi_i)\) |
Mô hình nhóm giúp tận dụng nhiều thông tin hơn, thường cho ước lượng chính xác hơn và hiệu quả hơn so với mô hình từng cá nhân.
Nếu \(y_i / n_i\) được ghi dưới dạng tỷ lệ (0 < tỷ lệ < 1), ta vẫn dùng mô hình:
\[ \log \left(\frac{y_i / n_i}{1 - y_i / n_i}\right) = x_i^T \beta \]
Phải cung cấp số lần thử \(n_i\) cho mỗi quan sát để phần mềm thống kê tính đúng phương sai.
Các công cụ đánh giá mô hình:
Kiểm định Wald cho từng hệ số
Kiểm định Deviance giữa mô hình đầy đủ và mô hình rút gọn
Chọn mô hình: AIC, BIC
Chẩn đoán mô hình:
Phân tích phần dư Pearson
Phân tích phần dư deviance
Dùng để phát hiện outlier và quan sát không phù hợp.
Giống hồi quy logistic, mô hình binomial giả định:
\[ \text{Var}(y_i) = n_i \pi_i (1 - \pi_i) \]
Tuy nhiên, nếu quan sát thực tế cho thấy phương sai lớn hơn kỳ vọng → hiện tượng overdispersion.
Cách kiểm tra:
\[ \hat{\phi} = \frac{\text{Deviance}}{n - p} \]
Nếu \(\hat{\phi} > 1.5\): cần chuyển sang mô hình quasi-binomial
Mô hình tuyến tính tổng quát Tweedie – một công cụ linh hoạt và mạnh mẽ trong phân tích thống kê, đặc biệt phù hợp với các loại dữ liệu có cấu trúc phức tạp như vừa có nhiều giá trị bằng 0, vừa có phần liên tục dương. Chương này làm rõ cách mô hình Tweedie mở rộng họ hàm mũ thông qua hàm phương sai tổng quát, cũng như vai trò then chốt của chỉ số sức mạnh trong việc liên kết mô hình này với các phân phối quen thuộc như Gaussian, Poisson và Gamma. Người đọc sẽ nắm được đặc điểm, điều kiện áp dụng và ứng dụng thực tiễn của mô hình Tweedie trong các lĩnh vực như bảo hiểm, tài chính, y tế – nơi dữ liệu thường phân tán mạnh và có sự kết hợp giữa các đặc điểm rời rạc và liên tục.
Mô hình Tweedie GLM là một mở rộng linh hoạt của họ hàm mũ trong GLM, cho phép mô hình hóa các phân phối có đặc tính trung gian giữa những phân phối phổ biến như:
Phân phối Gaussian (chuẩn)
Phân phối Poisson
Phân phối Gamma
Phân phối Inverse Gaussian
Mô hình này đặc biệt hữu ích khi làm việc với các loại dữ liệu có tính chất:
Dữ liệu liên tục dương kèm nhiều giá trị bằng 0, chẳng hạn như chi phí y tế hoặc tổn thất bảo hiểm – nơi một số cá nhân không phát sinh chi phí
Phân tán quá mức (overdispersion), tức phương sai lớn hơn kỳ vọng
Dữ liệu bao gồm phần rời rạc (0, 1, 2, …) kết hợp với phần liên tục dương
Nhờ tính linh hoạt đó, mô hình Tweedie được ứng dụng rộng rãi trong các lĩnh vực như bảo hiểm, tài chính, y tế, và đặc biệt phù hợp với các bài toán có dữ liệu chứa nhiều số 0 (zero-inflated).
Mô hình Tweedie thuộc họ phân phối hàm mũ (exponential family), đặc trưng bởi hàm phương sai có dạng:
\[ \text{Var}(Y) = \phi \mu^p \]
Trong đó:
\(\mu = \mathbb{E}[Y]\): kỳ vọng của biến phản hồi
\(\phi > 0\): hệ số phân tán, điều chỉnh độ biến thiên của dữ liệu
\(p\): chỉ số sức mạnh (power index), xác định dạng phân phối cụ thể trong lớp Tweedie
\(p\) | Phân phối tương ứng |
---|---|
0 | Gaussian (Normal) |
1 | Poisson |
\((1, 2)\) | Tweedie hỗn hợp (0 + dương liên tục) |
2 | Gamma |
3 | Inverse Gaussian |
Với chỉ số \(1 < p < 2\), ta có dạng Tweedie hỗn hợp, rất đặc biệt vì:
Có khả năng tái hiện số lượng lớn giá trị bằng 0
Đồng thời mô hình hóa các giá trị phản hồi dương, liên tục
Mô hình này do đó rất phù hợp cho các dữ liệu thực tế như chi phí bảo hiểm, tổn thất tài chính hoặc các biến phản hồi dạng “0 hoặc giá trị tiền tệ dương”.
Bộ dữ liệu được cung cấp được định dạng là file csv. Vì vậy sau ta sẽ dùng hàm sau để đọc dữ liệu đề bài cho:
library(csv)
data <- read.csv("C:/Users/PC/Downloads/Supermarket Transactions.csv")
str (data)
## 'data.frame': 14059 obs. of 16 variables:
## $ X : int 1 2 3 4 5 6 7 8 9 10 ...
## $ PurchaseDate : chr "2007-12-18" "2007-12-20" "2007-12-21" "2007-12-21" ...
## $ CustomerID : int 7223 7841 8374 9619 1900 6696 9673 354 1293 7938 ...
## $ Gender : chr "F" "M" "F" "M" ...
## $ MaritalStatus : chr "S" "M" "M" "M" ...
## $ Homeowner : chr "Y" "Y" "N" "Y" ...
## $ Children : int 2 5 2 3 3 3 2 2 3 1 ...
## $ AnnualIncome : chr "$30K - $50K" "$70K - $90K" "$50K - $70K" "$30K - $50K" ...
## $ City : chr "Los Angeles" "Los Angeles" "Bremerton" "Portland" ...
## $ StateorProvince : chr "CA" "CA" "WA" "OR" ...
## $ Country : chr "USA" "USA" "USA" "USA" ...
## $ ProductFamily : chr "Food" "Food" "Food" "Food" ...
## $ ProductDepartment: chr "Snack Foods" "Produce" "Snack Foods" "Snacks" ...
## $ ProductCategory : chr "Snack Foods" "Vegetables" "Snack Foods" "Candy" ...
## $ UnitsSold : int 5 5 3 4 4 3 4 6 1 2 ...
## $ Revenue : num 27.38 14.9 5.52 4.44 14 ...
summary(data)
## X PurchaseDate CustomerID Gender
## Min. : 1 Length:14059 Min. : 3 Length:14059
## 1st Qu.: 3516 Class :character 1st Qu.: 2549 Class :character
## Median : 7030 Mode :character Median : 5060 Mode :character
## Mean : 7030 Mean : 5117
## 3rd Qu.:10544 3rd Qu.: 7633
## Max. :14059 Max. :10280
## MaritalStatus Homeowner Children AnnualIncome
## Length:14059 Length:14059 Min. :0.00 Length:14059
## Class :character Class :character 1st Qu.:1.00 Class :character
## Mode :character Mode :character Median :3.00 Mode :character
## Mean :2.53
## 3rd Qu.:4.00
## Max. :5.00
## City StateorProvince Country ProductFamily
## Length:14059 Length:14059 Length:14059 Length:14059
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
## ProductDepartment ProductCategory UnitsSold Revenue
## Length:14059 Length:14059 Min. :1.000 Min. : 0.53
## Class :character Class :character 1st Qu.:3.000 1st Qu.: 6.84
## Mode :character Mode :character Median :4.000 Median :11.25
## Mean :4.081 Mean :13.00
## 3rd Qu.:5.000 3rd Qu.:17.37
## Max. :8.000 Max. :56.70
names (data)
## [1] "X" "PurchaseDate" "CustomerID"
## [4] "Gender" "MaritalStatus" "Homeowner"
## [7] "Children" "AnnualIncome" "City"
## [10] "StateorProvince" "Country" "ProductFamily"
## [13] "ProductDepartment" "ProductCategory" "UnitsSold"
## [16] "Revenue"
variable_description <- data.frame(
Variable = c(
"Unnamed: 0", "PurchaseDate", "CustomerID", "Gender", "MaritalStatus",
"Homeowner", "Children", "AnnualIncome", "City", "StateorProvince",
"Country", "ProductFamily", "ProductDepartment", "ProductCategory",
"UnitsSold", "Revenue"
),
Description = c(
"Ma dong (co the bo qua)",
"Ngay mua hang",
"ID khach hang",
"Gioi tinh (F: nu, M: nam)",
"Tinh trang hon nhan (S: doc than, M: da ket hon)",
"So huu nha (Y: co, N: khong)",
"So con trong gia dinh",
"Thu nhap hang nam (theo nhom)",
"Thanh pho sinh song",
"Bang / tinh",
"Quoc gia",
"Nhom san pham chinh (Food, Drink, ...)",
"Phong ban san pham (Snacks, Produce, ...)",
"Danh muc san pham cu the",
"So luong san pham da ban",
"Doanh thu tu giao dich (USD)"
),
stringsAsFactors = FALSE
)
library(knitr)
kable(variable_description, col.names = c("Bien", "Mo ta"))
Bien | Mo ta |
---|---|
Unnamed: 0 | Ma dong (co the bo qua) |
PurchaseDate | Ngay mua hang |
CustomerID | ID khach hang |
Gender | Gioi tinh (F: nu, M: nam) |
MaritalStatus | Tinh trang hon nhan (S: doc than, M: da ket hon) |
Homeowner | So huu nha (Y: co, N: khong) |
Children | So con trong gia dinh |
AnnualIncome | Thu nhap hang nam (theo nhom) |
City | Thanh pho sinh song |
StateorProvince | Bang / tinh |
Country | Quoc gia |
ProductFamily | Nhom san pham chinh (Food, Drink, …) |
ProductDepartment | Phong ban san pham (Snacks, Produce, …) |
ProductCategory | Danh muc san pham cu the |
UnitsSold | So luong san pham da ban |
Revenue | Doanh thu tu giao dich (USD) |
Kiểm tra số dòng, số cột dữ liệu
dim(data)
## [1] 14059 16
Tần suất và bảng phân phối biến phân loại
table(data$Gender)
##
## F M
## 7170 6889
table(data$MaritalStatus)
##
## M S
## 6866 7193
table(data$Homeowner)
##
## N Y
## 5615 8444
table(data$City)
##
## Acapulco Bellingham Beverly Hills Bremerton Camacho
## 383 143 811 834 452
## Guadalajara Hidalgo Los Angeles Merida Mexico City
## 75 845 926 654 194
## Orizaba Portland Salem San Andres San Diego
## 464 876 1386 621 866
## San Francisco Seattle Spokane Tacoma Vancouver
## 130 922 875 1257 633
## Victoria Walla Walla Yakima
## 176 160 376
table(data$ProductFamily)
##
## Drink Food Non-Consumable
## 1250 10153 2656
Biểu đồ thể hiện giới tính
table(data$Gender)
##
## F M
## 7170 6889
library(ggplot2)
ggplot(data, aes(x = Gender)) +
geom_bar(fill = "green") +
labs(title = "Tần suất theo Giới tính") +
theme_minimal()
Biểu đồ doanh thu
table(data$Revenue)
##
## 0.53 0.6 0.62 0.65 0.67 0.73 0.76 0.85 0.86 0.9 0.94 0.97 1.02
## 1 1 1 1 1 1 1 1 1 1 1 2 1
## 1.06 1.08 1.1 1.12 1.14 1.17 1.18 1.19 1.2 1.22 1.24 1.26 1.28
## 4 1 1 2 1 2 1 1 1 2 2 1 2
## 1.29 1.3 1.32 1.33 1.34 1.37 1.38 1.39 1.4 1.42 1.43 1.45 1.46
## 1 1 3 1 3 1 1 2 2 1 5 1 6
## 1.47 1.48 1.5 1.51 1.52 1.53 1.54 1.55 1.56 1.57 1.58 1.59 1.6
## 1 2 1 1 1 2 5 1 4 1 4 4 8
## 1.62 1.63 1.64 1.65 1.66 1.68 1.7 1.71 1.72 1.74 1.75 1.76 1.77
## 1 3 2 1 4 6 2 2 5 3 2 4 1
## 1.78 1.8 1.82 1.83 1.84 1.85 1.86 1.87 1.88 1.89 1.9 1.91 1.92
## 1 4 4 3 1 3 3 3 3 4 3 3 6
## 1.94 1.95 1.96 1.97 1.98 1.99 2 2.01 2.02 2.03 2.04 2.05 2.07
## 1 7 2 2 6 1 3 2 2 2 4 3 6
## 2.08 2.09 2.1 2.11 2.12 2.14 2.15 2.16 2.18 2.19 2.21 2.22 2.23
## 6 6 2 1 4 3 2 6 4 4 5 4 6
## 2.24 2.25 2.27 2.28 2.29 2.3 2.31 2.32 2.33 2.34 2.36 2.37 2.38
## 8 3 6 9 1 5 9 3 3 5 3 4 3
## 2.39 2.4 2.41 2.42 2.43 2.44 2.45 2.46 2.47 2.48 2.49 2.5 2.51
## 8 3 5 4 3 7 6 4 1 7 5 6 2
## 2.52 2.53 2.54 2.55 2.56 2.57 2.58 2.59 2.6 2.61 2.62 2.63 2.64
## 10 1 6 12 5 8 3 2 7 1 4 5 7
## 2.65 2.66 2.67 2.68 2.69 2.7 2.71 2.73 2.74 2.75 2.76 2.77 2.78
## 7 6 4 5 6 6 2 4 12 8 8 8 1
## 2.79 2.8 2.81 2.82 2.83 2.84 2.85 2.86 2.88 2.89 2.9 2.91 2.92
## 3 2 16 2 2 5 9 8 10 2 2 7 8
## 2.93 2.94 2.95 2.96 2.97 2.98 2.99 3 3.02 3.03 3.04 3.06 3.07
## 8 5 4 9 6 2 5 6 13 1 9 7 11
## 3.08 3.09 3.1 3.11 3.12 3.13 3.14 3.15 3.16 3.17 3.18 3.19 3.2
## 5 1 5 8 6 2 5 7 3 7 1 10 6
## 3.21 3.22 3.23 3.24 3.25 3.26 3.27 3.28 3.29 3.3 3.31 3.32 3.33
## 4 8 2 13 4 3 1 5 2 2 4 10 4
## 3.34 3.35 3.36 3.37 3.38 3.39 3.4 3.41 3.42 3.43 3.44 3.45 3.46
## 7 10 14 1 6 2 8 4 10 3 5 2 4
## 3.47 3.48 3.49 3.5 3.51 3.52 3.53 3.54 3.55 3.56 3.57 3.58 3.59
## 4 14 4 12 3 11 8 12 3 13 1 5 14
## 3.6 3.61 3.62 3.63 3.64 3.65 3.66 3.67 3.68 3.69 3.7 3.71 3.72
## 10 7 9 5 5 16 5 6 4 8 6 3 12
## 3.73 3.74 3.75 3.76 3.77 3.78 3.79 3.8 3.81 3.82 3.83 3.84 3.85
## 2 20 7 9 1 12 1 7 2 14 5 22 1
## 3.86 3.87 3.88 3.89 3.9 3.91 3.92 3.93 3.94 3.95 3.96 3.97 3.98
## 6 11 8 9 10 1 11 7 9 2 11 2 11
## 3.99 4 4.01 4.02 4.03 4.05 4.06 4.07 4.08 4.09 4.1 4.11 4.12
## 6 9 4 6 20 12 7 4 12 10 11 5 2
## 4.13 4.14 4.15 4.16 4.18 4.19 4.2 4.21 4.22 4.23 4.24 4.25 4.26
## 11 13 1 15 14 6 9 8 12 2 2 3 13
## 4.27 4.28 4.29 4.3 4.31 4.32 4.33 4.34 4.35 4.36 4.37 4.38 4.39
## 11 10 13 2 5 8 7 5 10 5 15 7 7
## 4.4 4.41 4.42 4.43 4.44 4.45 4.46 4.47 4.48 4.49 4.5 4.51 4.52
## 2 1 12 6 8 9 3 12 6 8 8 5 9
## 4.53 4.54 4.56 4.58 4.59 4.6 4.61 4.62 4.63 4.64 4.65 4.66 4.67
## 2 18 15 7 15 4 7 20 3 8 4 5 2
## 4.68 4.69 4.7 4.71 4.72 4.73 4.74 4.75 4.76 4.77 4.78 4.79 4.8
## 17 5 20 3 11 2 4 12 15 6 6 4 3
## 4.81 4.82 4.83 4.84 4.85 4.86 4.87 4.88 4.89 4.9 4.91 4.92 4.93
## 2 13 9 10 6 21 7 9 1 4 8 6 7
## 4.94 4.95 4.96 4.97 4.98 4.99 5 5.01 5.02 5.04 5.05 5.06 5.07
## 3 9 7 9 14 7 5 1 14 37 4 7 4
## 5.08 5.09 5.1 5.11 5.12 5.13 5.15 5.16 5.17 5.18 5.19 5.21 5.22
## 12 7 15 12 13 10 7 13 5 11 6 6 12
## 5.23 5.24 5.25 5.26 5.27 5.28 5.29 5.3 5.31 5.32 5.33 5.34 5.35
## 4 13 6 9 3 11 12 8 3 11 5 7 9
## 5.36 5.37 5.38 5.39 5.4 5.41 5.42 5.43 5.44 5.45 5.46 5.47 5.48
## 9 3 9 1 15 2 9 7 8 4 3 11 4
## 5.49 5.5 5.51 5.52 5.53 5.54 5.55 5.56 5.57 5.58 5.59 5.6 5.61
## 4 5 7 10 2 14 5 6 9 8 5 2 3
## 5.62 5.63 5.64 5.65 5.66 5.67 5.68 5.69 5.7 5.71 5.72 5.73 5.74
## 12 12 2 4 8 6 7 8 13 13 9 10 5
## 5.75 5.76 5.77 5.78 5.79 5.8 5.81 5.82 5.83 5.84 5.85 5.86 5.87
## 3 28 2 6 2 10 9 4 9 2 9 6 3
## 5.88 5.89 5.9 5.91 5.92 5.93 5.94 5.95 5.96 5.97 5.98 5.99 6
## 16 3 15 5 12 14 5 6 13 6 15 7 6
## 6.01 6.02 6.03 6.04 6.05 6.07 6.08 6.09 6.1 6.11 6.12 6.13 6.14
## 13 2 3 4 16 5 12 2 4 4 12 5 13
## 6.15 6.16 6.17 6.18 6.19 6.2 6.21 6.22 6.23 6.24 6.25 6.26 6.27
## 2 12 2 3 11 6 5 6 8 13 2 13 13
## 6.28 6.29 6.3 6.31 6.32 6.33 6.34 6.35 6.36 6.37 6.38 6.39 6.4
## 8 5 15 3 6 3 20 5 8 8 15 4 12
## 6.41 6.42 6.43 6.44 6.45 6.46 6.47 6.48 6.49 6.5 6.51 6.52 6.53
## 5 6 13 20 3 4 7 9 2 4 8 6 14
## 6.54 6.55 6.56 6.57 6.58 6.59 6.6 6.61 6.62 6.63 6.64 6.65 6.66
## 3 9 11 5 4 10 11 5 5 8 8 4 11
## 6.67 6.68 6.69 6.7 6.71 6.72 6.73 6.74 6.75 6.76 6.77 6.78 6.79
## 8 5 7 9 6 30 11 2 3 9 5 6 8
## 6.8 6.81 6.82 6.83 6.84 6.85 6.86 6.87 6.88 6.89 6.9 6.91 6.92
## 13 4 5 2 15 5 10 2 4 7 13 14 8
## 6.93 6.94 6.95 6.96 6.97 6.98 6.99 7 7.01 7.02 7.03 7.04 7.05
## 6 6 10 19 10 8 5 12 6 11 9 10 6
## 7.06 7.07 7.08 7.1 7.11 7.12 7.13 7.14 7.15 7.16 7.17 7.18 7.19
## 16 10 12 10 4 9 12 11 8 4 8 10 4
## 7.2 7.21 7.22 7.23 7.24 7.25 7.26 7.27 7.28 7.29 7.3 7.31 7.32
## 15 2 10 8 7 10 11 3 12 8 13 8 6
## 7.33 7.34 7.35 7.36 7.37 7.38 7.39 7.4 7.41 7.42 7.43 7.44 7.45
## 8 11 8 5 3 14 10 8 7 2 3 13 12
## 7.46 7.47 7.48 7.49 7.5 7.51 7.52 7.53 7.54 7.55 7.56 7.57 7.58
## 5 7 12 9 6 2 8 4 4 1 25 4 2
## 7.59 7.6 7.61 7.62 7.63 7.64 7.65 7.66 7.67 7.68 7.69 7.7 7.71
## 11 10 4 20 7 8 7 7 16 15 2 7 5
## 7.72 7.73 7.74 7.75 7.76 7.77 7.78 7.79 7.8 7.81 7.82 7.83 7.84
## 14 11 18 5 5 8 10 2 13 10 5 10 5
## 7.85 7.86 7.87 7.88 7.89 7.9 7.91 7.92 7.94 7.95 7.96 7.97 7.98
## 21 6 10 8 7 9 7 13 9 14 12 5 14
## 7.99 8 8.01 8.02 8.03 8.04 8.05 8.06 8.07 8.09 8.1 8.11 8.12
## 6 10 19 6 2 3 6 22 2 11 17 7 4
## 8.13 8.14 8.15 8.16 8.17 8.18 8.19 8.2 8.21 8.22 8.23 8.24 8.25
## 2 6 11 9 4 2 13 1 9 8 6 3 8
## 8.26 8.27 8.28 8.29 8.3 8.31 8.32 8.33 8.34 8.35 8.36 8.37 8.38
## 6 7 16 4 14 6 13 5 6 15 3 18 5
## 8.39 8.4 8.42 8.43 8.44 8.45 8.46 8.47 8.48 8.49 8.5 8.51 8.52
## 2 20 19 2 7 6 8 1 5 3 13 11 9
## 8.53 8.54 8.55 8.56 8.57 8.58 8.59 8.6 8.61 8.62 8.63 8.64 8.65
## 5 10 7 11 14 17 5 7 6 4 5 13 5
## 8.66 8.67 8.68 8.69 8.7 8.71 8.72 8.73 8.74 8.75 8.76 8.77 8.78
## 6 5 7 8 15 4 3 9 15 9 10 6 14
## 8.79 8.8 8.81 8.82 8.83 8.84 8.85 8.86 8.87 8.88 8.89 8.9 8.91
## 4 11 4 13 5 11 9 9 1 10 11 3 7
## 8.92 8.93 8.94 8.95 8.96 8.97 8.98 8.99 9 9.01 9.02 9.03 9.04
## 3 11 7 7 10 7 9 3 7 4 13 5 9
## 9.05 9.06 9.07 9.08 9.09 9.1 9.11 9.12 9.13 9.14 9.15 9.16 9.17
## 9 4 15 11 5 1 11 5 5 5 3 6 4
## 9.18 9.2 9.21 9.22 9.23 9.24 9.25 9.26 9.28 9.29 9.3 9.31 9.32
## 11 11 2 6 11 14 11 4 12 14 11 7 10
## 9.33 9.34 9.35 9.36 9.37 9.38 9.39 9.4 9.41 9.42 9.43 9.44 9.45
## 1 3 8 27 6 1 7 7 15 6 4 8 8
## 9.46 9.47 9.48 9.49 9.5 9.51 9.52 9.53 9.54 9.55 9.56 9.57 9.58
## 11 6 10 5 16 4 16 5 7 5 5 8 11
## 9.59 9.6 9.61 9.62 9.63 9.64 9.65 9.66 9.67 9.68 9.69 9.7 9.71
## 7 17 4 4 11 3 9 8 9 7 7 6 3
## 9.72 9.73 9.74 9.75 9.76 9.77 9.78 9.79 9.8 9.81 9.82 9.83 9.84
## 20 2 9 2 2 21 1 7 15 3 1 15 4
## 9.85 9.86 9.87 9.88 9.89 9.9 9.91 9.92 9.93 9.94 9.95 9.96 9.97
## 1 20 5 9 7 8 9 5 8 13 4 11 9
## 9.98 9.99 10 10.01 10.02 10.03 10.04 10.05 10.06 10.07 10.08 10.09 10.1
## 10 4 8 10 7 7 11 6 7 4 24 2 6
## 10.12 10.13 10.14 10.15 10.16 10.17 10.18 10.19 10.2 10.21 10.22 10.23 10.24
## 6 10 6 8 6 8 10 4 8 12 10 2 4
## 10.25 10.26 10.27 10.28 10.29 10.3 10.31 10.32 10.33 10.34 10.35 10.36 10.37
## 9 14 3 5 2 17 4 12 6 6 9 2 16
## 10.38 10.4 10.41 10.42 10.43 10.44 10.46 10.47 10.48 10.49 10.5 10.51 10.52
## 11 7 4 14 5 12 3 9 2 12 10 11 4
## 10.53 10.54 10.55 10.56 10.57 10.58 10.6 10.61 10.62 10.63 10.64 10.65 10.66
## 11 2 5 16 3 14 9 8 17 6 7 1 10
## 10.67 10.68 10.69 10.7 10.71 10.72 10.73 10.74 10.75 10.76 10.77 10.78 10.79
## 7 8 15 8 7 9 13 2 10 10 2 1 5
## 10.8 10.81 10.82 10.83 10.84 10.85 10.86 10.87 10.88 10.89 10.9 10.91 10.92
## 17 4 3 5 6 7 13 4 13 13 5 2 23
## 10.94 10.95 10.96 10.97 10.98 10.99 11 11.01 11.02 11.03 11.04 11.05 11.06
## 12 6 7 2 9 4 17 1 12 4 26 6 3
## 11.07 11.08 11.09 11.1 11.12 11.13 11.14 11.15 11.16 11.17 11.18 11.19 11.2
## 7 7 20 7 9 8 6 6 10 11 3 4 7
## 11.21 11.22 11.23 11.24 11.25 11.26 11.27 11.28 11.29 11.3 11.31 11.32 11.33
## 6 11 6 1 6 11 5 9 2 4 9 10 4
## 11.34 11.35 11.36 11.37 11.38 11.39 11.4 11.41 11.42 11.43 11.44 11.45 11.46
## 24 8 7 2 4 13 15 3 10 7 5 6 9
## 11.47 11.48 11.49 11.5 11.51 11.52 11.53 11.54 11.55 11.56 11.57 11.58 11.59
## 7 11 6 14 5 11 5 5 10 5 11 7 15
## 11.6 11.61 11.62 11.63 11.64 11.65 11.66 11.68 11.7 11.71 11.72 11.73 11.74
## 9 6 8 13 9 2 18 10 15 5 11 3 3
## 11.75 11.76 11.77 11.78 11.79 11.8 11.81 11.82 11.83 11.84 11.85 11.86 11.87
## 9 8 1 10 9 11 7 6 9 14 4 9 3
## 11.88 11.89 11.9 11.91 11.92 11.93 11.94 11.95 11.96 11.97 11.98 11.99 12
## 13 1 6 6 7 14 3 7 3 10 1 7 6
## 12.01 12.02 12.03 12.04 12.05 12.06 12.07 12.08 12.1 12.11 12.12 12.13 12.14
## 13 1 9 6 9 3 3 10 15 4 5 2 9
## 12.15 12.16 12.17 12.18 12.19 12.2 12.21 12.22 12.23 12.24 12.25 12.26 12.27
## 6 3 5 11 8 6 4 11 3 17 3 11 2
## 12.28 12.29 12.3 12.31 12.32 12.33 12.34 12.35 12.37 12.38 12.39 12.4 12.41
## 5 7 6 15 9 4 7 12 4 16 2 6 3
## 12.42 12.43 12.44 12.45 12.46 12.47 12.48 12.49 12.5 12.51 12.52 12.53 12.54
## 13 11 6 1 6 9 9 2 5 13 4 16 8
## 12.55 12.56 12.57 12.58 12.6 12.61 12.62 12.63 12.64 12.65 12.66 12.67 12.68
## 3 13 3 10 11 3 5 2 12 3 5 7 3
## 12.69 12.7 12.71 12.72 12.74 12.75 12.76 12.77 12.78 12.79 12.8 12.82 12.83
## 9 6 5 11 5 1 3 8 6 6 8 11 3
## 12.84 12.85 12.86 12.87 12.88 12.89 12.9 12.92 12.93 12.94 12.95 12.96 12.97
## 8 8 3 3 8 2 14 2 2 8 3 19 2
## 12.98 12.99 13 13.01 13.02 13.03 13.04 13.05 13.06 13.07 13.08 13.1 13.11
## 4 4 8 11 12 9 7 10 10 8 2 13 10
## 13.12 13.13 13.14 13.15 13.16 13.17 13.18 13.19 13.2 13.21 13.22 13.23 13.25
## 6 3 4 4 10 2 4 6 11 2 6 4 9
## 13.26 13.27 13.28 13.29 13.3 13.31 13.32 13.33 13.34 13.35 13.36 13.37 13.38
## 5 2 15 3 9 4 13 2 15 5 4 6 7
## 13.39 13.4 13.41 13.42 13.43 13.44 13.45 13.46 13.47 13.48 13.49 13.5 13.52
## 5 7 5 8 5 14 4 11 2 3 3 8 9
## 13.53 13.54 13.55 13.56 13.57 13.58 13.59 13.6 13.61 13.62 13.63 13.64 13.65
## 6 3 2 10 13 2 1 2 8 4 10 2 7
## 13.66 13.67 13.68 13.69 13.7 13.71 13.72 13.73 13.74 13.75 13.76 13.77 13.78
## 2 1 15 5 2 2 5 11 4 4 5 8 10
## 13.79 13.8 13.81 13.82 13.83 13.84 13.85 13.86 13.87 13.88 13.89 13.9 13.91
## 2 13 1 4 3 1 2 12 2 9 5 2 5
## 13.92 13.93 13.94 13.95 13.96 13.97 13.98 13.99 14 14.01 14.02 14.03 14.04
## 7 5 5 4 5 6 5 8 4 3 3 5 15
## 14.05 14.06 14.08 14.09 14.1 14.11 14.12 14.13 14.14 14.15 14.16 14.17 14.18
## 1 5 7 7 3 9 10 1 1 11 16 1 7
## 14.19 14.2 14.21 14.22 14.24 14.25 14.26 14.27 14.28 14.29 14.3 14.31 14.32
## 2 14 6 6 3 6 10 3 15 1 8 7 2
## 14.33 14.34 14.35 14.36 14.38 14.39 14.4 14.41 14.42 14.43 14.44 14.45 14.46
## 8 6 7 13 1 6 11 1 5 5 4 7 7
## 14.47 14.48 14.49 14.5 14.51 14.52 14.53 14.54 14.55 14.56 14.58 14.59 14.6
## 1 10 9 11 4 6 11 4 1 7 4 7 1
## 14.61 14.62 14.63 14.64 14.65 14.66 14.67 14.69 14.7 14.71 14.72 14.73 14.74
## 5 11 11 3 3 8 11 2 15 2 3 1 6
## 14.75 14.76 14.77 14.78 14.79 14.8 14.81 14.82 14.84 14.85 14.86 14.87 14.88
## 1 13 1 16 4 5 1 9 6 14 1 9 6
## 14.9 14.92 14.93 14.94 14.95 14.96 14.97 14.98 14.99 15 15.01 15.02 15.03
## 8 6 1 5 3 15 1 7 4 2 5 4 4
## 15.04 15.05 15.06 15.07 15.08 15.09 15.1 15.11 15.12 15.13 15.14 15.15 15.16
## 7 14 2 4 2 1 4 9 30 3 3 4 3
## 15.17 15.18 15.19 15.2 15.21 15.22 15.23 15.24 15.25 15.26 15.28 15.29 15.3
## 4 11 1 5 3 4 12 2 6 5 7 11 10
## 15.31 15.32 15.33 15.34 15.35 15.36 15.37 15.38 15.39 15.4 15.41 15.42 15.44
## 8 1 1 7 1 4 7 1 14 12 5 5 12
## 15.46 15.47 15.48 15.49 15.5 15.51 15.52 15.53 15.54 15.55 15.56 15.57 15.58
## 13 1 15 6 7 7 4 3 11 6 6 6 1
## 15.6 15.61 15.62 15.63 15.64 15.65 15.66 15.67 15.68 15.69 15.7 15.71 15.72
## 8 1 6 2 9 4 11 1 2 2 8 17 6
## 15.73 15.74 15.75 15.76 15.77 15.78 15.79 15.8 15.81 15.82 15.83 15.84 15.85
## 9 2 5 3 9 4 6 5 4 4 6 10 1
## 15.86 15.87 15.88 15.89 15.9 15.91 15.92 15.93 15.94 15.95 15.96 15.97 15.98
## 2 4 8 1 12 8 5 3 9 1 13 1 10
## 16 16.01 16.02 16.04 16.05 16.06 16.07 16.08 16.09 16.1 16.11 16.12 16.13
## 2 10 9 7 4 3 5 3 2 8 3 9 16
## 16.14 16.15 16.16 16.17 16.18 16.19 16.2 16.22 16.24 16.25 16.26 16.27 16.28
## 3 3 1 2 4 6 12 7 8 4 4 6 6
## 16.29 16.3 16.32 16.33 16.34 16.37 16.38 16.39 16.4 16.41 16.42 16.43 16.44
## 5 6 10 2 8 4 9 2 1 3 15 4 3
## 16.45 16.46 16.47 16.5 16.51 16.52 16.53 16.54 16.56 16.57 16.58 16.59 16.61
## 4 8 1 5 7 5 5 5 8 5 2 10 6
## 16.62 16.63 16.64 16.65 16.66 16.67 16.68 16.69 16.7 16.72 16.73 16.74 16.75
## 6 11 3 2 1 1 5 9 10 2 2 8 1
## 16.76 16.77 16.78 16.79 16.8 16.81 16.82 16.83 16.85 16.86 16.87 16.88 16.9
## 4 3 4 1 10 6 6 5 4 5 1 5 6
## 16.91 16.92 16.93 16.94 16.95 16.96 16.97 16.98 16.99 17 17.01 17.02 17.03
## 1 10 9 1 2 1 3 5 3 3 1 7 3
## 17.04 17.08 17.09 17.1 17.11 17.12 17.14 17.15 17.16 17.17 17.18 17.19 17.2
## 14 1 3 6 4 5 9 1 5 5 3 2 8
## 17.21 17.22 17.23 17.24 17.25 17.26 17.28 17.29 17.3 17.31 17.32 17.33 17.34
## 3 2 6 1 5 1 13 1 3 2 1 7 1
## 17.35 17.36 17.37 17.38 17.39 17.4 17.41 17.42 17.43 17.45 17.46 17.47 17.48
## 2 2 4 6 1 5 1 3 1 1 5 10 3
## 17.49 17.5 17.51 17.52 17.53 17.54 17.55 17.57 17.58 17.6 17.61 17.62 17.63
## 5 4 3 6 1 2 3 5 3 2 2 3 6
## 17.64 17.65 17.66 17.67 17.68 17.7 17.71 17.72 17.73 17.74 17.75 17.76 17.77
## 7 2 9 1 3 10 5 1 7 1 2 11 2
## 17.78 17.79 17.8 17.81 17.82 17.85 17.86 17.87 17.88 17.89 17.9 17.91 17.92
## 7 1 6 3 4 1 6 3 6 6 6 1 5
## 17.93 17.94 17.95 17.96 17.98 17.99 18 18.01 18.02 18.03 18.04 18.05 18.06
## 5 5 8 1 5 4 10 1 5 4 1 4 1
## 18.07 18.08 18.1 18.11 18.13 18.14 18.15 18.16 18.17 18.18 18.2 18.21 18.22
## 4 8 8 2 1 17 8 3 1 1 1 3 5
## 18.23 18.24 18.25 18.27 18.28 18.29 18.3 18.31 18.32 18.33 18.34 18.35 18.36
## 2 8 2 3 1 11 4 8 4 3 1 1 6
## 18.37 18.38 18.39 18.4 18.41 18.43 18.45 18.46 18.47 18.48 18.5 18.51 18.53
## 3 2 3 7 4 5 1 4 1 10 6 5 7
## 18.54 18.55 18.56 18.58 18.59 18.6 18.61 18.62 18.63 18.64 18.65 18.66 18.67
## 2 1 9 6 3 6 2 5 4 1 6 2 4
## 18.68 18.69 18.7 18.71 18.72 18.74 18.77 18.78 18.79 18.8 18.81 18.82 18.83
## 5 1 6 4 7 5 10 2 7 4 2 3 1
## 18.84 18.85 18.86 18.87 18.88 18.9 18.91 18.92 18.93 18.94 18.95 18.96 18.97
## 3 4 3 3 4 9 1 2 6 8 2 12 3
## 18.98 18.99 19 19.01 19.02 19.03 19.04 19.05 19.06 19.07 19.08 19.1 19.11
## 4 2 1 5 1 4 4 3 1 9 9 4 8
## 19.12 19.13 19.14 19.15 19.17 19.18 19.19 19.2 19.21 19.22 19.23 19.24 19.26
## 3 1 7 2 2 4 2 4 3 4 2 3 10
## 19.27 19.28 19.3 19.31 19.32 19.33 19.34 19.35 19.37 19.38 19.39 19.4 19.41
## 6 8 2 2 10 4 6 5 2 6 5 4 1
## 19.42 19.43 19.44 19.45 19.46 19.47 19.48 19.49 19.5 19.51 19.52 19.53 19.54
## 2 6 9 7 1 2 1 10 1 4 5 2 3
## 19.55 19.56 19.57 19.58 19.6 19.62 19.65 19.66 19.67 19.68 19.7 19.71 19.72
## 7 2 1 5 8 5 4 11 4 6 2 9 5
## 19.73 19.74 19.75 19.76 19.78 19.79 19.8 19.81 19.82 19.84 19.85 19.86 19.87
## 3 3 4 6 1 3 5 2 5 1 3 4 4
## 19.88 19.89 19.9 19.91 19.92 19.93 19.94 19.95 19.97 19.98 19.99 20 20.01
## 5 5 2 2 9 1 8 5 5 3 3 1 5
## 20.02 20.04 20.05 20.06 20.07 20.08 20.09 20.1 20.12 20.13 20.15 20.16 20.18
## 3 1 6 3 4 1 1 4 1 2 5 13 2
## 20.2 20.22 20.23 20.24 20.25 20.26 20.27 20.28 20.29 20.3 20.33 20.34 20.35
## 6 9 3 7 8 1 2 3 3 8 6 3 4
## 20.36 20.38 20.4 20.41 20.42 20.43 20.45 20.47 20.48 20.49 20.5 20.51 20.52
## 1 7 4 5 7 2 6 1 4 4 1 2 16
## 20.53 20.54 20.55 20.57 20.58 20.59 20.61 20.62 20.63 20.64 20.65 20.66 20.67
## 4 1 1 2 3 8 2 1 6 4 3 3 5
## 20.68 20.69 20.7 20.71 20.72 20.73 20.74 20.75 20.76 20.78 20.79 20.81 20.82
## 1 1 10 2 4 1 5 10 4 2 5 3 2
## 20.83 20.84 20.85 20.86 20.88 20.9 20.92 20.93 20.94 20.95 20.97 20.98 20.99
## 4 2 2 2 5 5 6 1 3 2 2 11 1
## 21 21.01 21.02 21.05 21.06 21.08 21.1 21.11 21.12 21.13 21.14 21.15 21.16
## 8 2 3 2 3 4 2 3 7 2 1 5 2
## 21.17 21.2 21.21 21.22 21.23 21.24 21.25 21.26 21.28 21.29 21.3 21.31 21.32
## 7 5 2 8 6 4 4 1 6 1 4 3 2
## 21.33 21.34 21.36 21.37 21.38 21.39 21.4 21.41 21.42 21.43 21.44 21.45 21.46
## 4 3 6 1 10 2 2 1 3 2 3 1 2
## 21.47 21.48 21.49 21.5 21.51 21.52 21.53 21.54 21.56 21.58 21.6 21.61 21.62
## 7 2 5 3 2 1 7 1 2 2 8 2 2
## 21.63 21.66 21.67 21.68 21.69 21.7 21.71 21.72 21.73 21.74 21.75 21.76 21.77
## 2 8 3 2 4 2 3 5 1 2 1 5 1
## 21.78 21.79 21.8 21.81 21.84 21.87 21.88 21.89 21.9 21.91 21.92 21.94 21.95
## 3 1 2 2 10 3 1 2 5 4 1 1 3
## 21.96 21.98 21.99 22 22.01 22.03 22.04 22.05 22.06 22.07 22.08 22.09 22.1
## 4 3 3 2 5 1 1 4 1 1 3 3 3
## 22.11 22.12 22.13 22.14 22.15 22.17 22.18 22.2 22.21 22.23 22.24 22.26 22.27
## 1 4 4 4 4 2 4 5 1 4 2 6 6
## 22.28 22.29 22.3 22.32 22.33 22.34 22.35 22.36 22.37 22.38 22.39 22.4 22.41
## 1 1 3 4 3 1 2 7 5 1 5 6 4
## 22.42 22.43 22.44 22.45 22.46 22.48 22.49 22.5 22.51 22.52 22.53 22.54 22.56
## 3 5 8 2 3 1 1 3 3 4 2 9 6
## 22.57 22.58 22.6 22.61 22.62 22.63 22.64 22.66 22.67 22.68 22.69 22.7 22.71
## 3 1 4 1 9 3 3 2 1 10 2 6 2
## 22.72 22.74 22.75 22.76 22.77 22.78 22.8 22.82 22.84 22.85 22.86 22.88 22.9
## 3 2 2 2 1 6 4 1 2 7 2 6 1
## 22.91 22.92 22.93 22.95 22.97 22.98 23 23.01 23.02 23.04 23.05 23.06 23.08
## 4 7 2 1 4 1 7 1 1 3 2 8 1
## 23.09 23.1 23.11 23.12 23.13 23.14 23.16 23.17 23.18 23.19 23.2 23.22 23.23
## 2 9 1 1 4 6 1 3 6 1 1 4 1
## 23.24 23.25 23.26 23.27 23.28 23.3 23.31 23.32 23.33 23.34 23.35 23.36 23.38
## 2 3 1 6 2 3 1 7 4 1 3 2 1
## 23.39 23.4 23.42 23.44 23.46 23.49 23.5 23.52 23.53 23.54 23.55 23.56 23.57
## 1 3 1 1 3 2 5 8 1 2 1 4 2
## 23.58 23.6 23.61 23.62 23.63 23.64 23.65 23.66 23.67 23.68 23.69 23.7 23.71
## 3 6 1 2 2 3 4 1 4 4 3 3 3
## 23.72 23.73 23.74 23.76 23.8 23.81 23.82 23.83 23.84 23.85 23.86 23.88 23.9
## 1 3 2 10 4 5 1 2 1 7 5 2 6
## 23.92 23.93 23.94 23.97 23.98 24 24.01 24.02 24.05 24.06 24.08 24.1 24.11
## 2 5 6 1 3 3 4 2 1 1 5 4 4
## 24.12 24.13 24.14 24.15 24.16 24.19 24.2 24.23 24.26 24.28 24.29 24.3 24.32
## 2 2 2 4 1 6 2 1 1 2 7 4 1
## 24.34 24.36 24.38 24.42 24.44 24.45 24.48 24.53 24.55 24.56 24.58 24.6 24.61
## 2 1 3 1 4 5 3 2 1 1 1 2 2
## 24.62 24.63 24.64 24.66 24.68 24.7 24.71 24.73 24.75 24.76 24.77 24.8 24.82
## 5 2 5 1 3 5 2 2 4 1 1 1 1
## 24.83 24.84 24.85 24.86 24.88 24.89 24.9 24.91 24.93 24.95 24.96 24.97 24.98
## 1 8 2 7 4 3 3 4 3 3 1 4 2
## 25 25.01 25.02 25.03 25.04 25.05 25.06 25.07 25.08 25.1 25.12 25.13 25.14
## 1 1 3 2 1 1 5 1 4 1 3 1 2
## 25.15 25.16 25.2 25.21 25.23 25.25 25.27 25.28 25.29 25.3 25.31 25.32 25.34
## 2 1 4 1 3 2 6 3 1 2 3 2 2
## 25.35 25.36 25.38 25.39 25.4 25.41 25.43 25.47 25.48 25.49 25.5 25.51 25.52
## 2 1 7 3 3 2 3 2 1 3 1 1 1
## 25.53 25.54 25.56 25.58 25.6 25.61 25.63 25.64 25.65 25.66 25.67 25.68 25.69
## 2 3 4 4 2 1 3 1 3 2 5 1 1
## 25.7 25.74 25.75 25.76 25.77 25.78 25.8 25.81 25.82 25.83 25.84 25.87 25.9
## 3 3 3 2 1 1 2 4 1 1 3 2 5
## 25.91 25.92 25.94 25.95 25.96 25.98 25.99 26 26.03 26.04 26.05 26.06 26.07
## 1 7 2 1 1 2 2 4 3 2 3 3 5
## 26.08 26.1 26.11 26.12 26.14 26.15 26.16 26.18 26.19 26.21 26.22 26.25 26.27
## 2 4 2 3 1 1 2 1 3 3 3 2 2
## 26.28 26.29 26.3 26.31 26.32 26.33 26.36 26.37 26.38 26.4 26.41 26.42 26.43
## 3 1 4 3 2 2 5 3 3 3 1 1 2
## 26.44 26.45 26.46 26.5 26.52 26.54 26.55 26.57 26.59 26.63 26.64 26.65 26.66
## 1 1 1 7 2 3 3 2 2 2 4 2 1
## 26.68 26.69 26.7 26.71 26.73 26.75 26.77 26.78 26.8 26.82 26.83 26.84 26.87
## 4 1 1 3 3 2 2 1 6 1 2 1 1
## 26.88 26.89 26.91 26.93 26.94 26.96 26.97 26.98 26.99 27 27.03 27.05 27.06
## 4 1 3 2 2 4 3 2 4 4 2 1 2
## 27.08 27.1 27.12 27.14 27.16 27.17 27.19 27.22 27.23 27.24 27.27 27.3 27.32
## 1 1 5 6 1 1 1 6 1 2 1 3 3
## 27.36 27.38 27.42 27.43 27.44 27.45 27.46 27.47 27.52 27.55 27.56 27.58 27.6
## 2 3 1 1 1 1 2 2 1 3 3 1 7
## 27.64 27.65 27.66 27.69 27.7 27.72 27.74 27.75 27.77 27.8 27.86 27.89 27.9
## 2 3 3 1 1 3 1 2 1 1 1 1 1
## 27.93 27.94 27.95 27.96 27.97 27.98 28 28.03 28.04 28.05 28.08 28.12 28.15
## 3 5 1 2 5 1 7 1 1 1 4 1 1
## 28.16 28.19 28.2 28.21 28.22 28.24 28.26 28.27 28.3 28.32 28.34 28.35 28.37
## 1 2 2 1 6 3 1 2 1 1 1 1 2
## 28.42 28.43 28.44 28.45 28.47 28.48 28.51 28.53 28.54 28.55 28.56 28.57 28.58
## 3 1 6 1 1 3 5 4 1 2 4 1 1
## 28.61 28.62 28.64 28.65 28.66 28.67 28.69 28.7 28.71 28.73 28.78 28.8 28.81
## 2 3 4 4 3 1 1 5 2 2 2 7 2
## 28.86 28.88 28.9 28.92 28.95 28.96 28.97 28.98 29 29.01 29.03 29.04 29.06
## 2 1 5 1 1 1 2 1 1 1 1 1 2
## 29.07 29.12 29.13 29.16 29.17 29.22 29.23 29.24 29.25 29.26 29.27 29.3 29.32
## 2 3 1 2 2 1 1 1 2 1 3 5 3
## 29.33 29.34 29.35 29.38 29.4 29.41 29.43 29.44 29.46 29.48 29.49 29.5 29.52
## 4 2 2 1 1 3 2 2 1 6 1 2 3
## 29.54 29.55 29.57 29.58 29.59 29.6 29.63 29.64 29.68 29.7 29.72 29.74 29.75
## 1 2 1 1 3 1 1 3 2 2 1 2 1
## 29.79 29.8 29.82 29.84 29.85 29.86 29.88 29.89 29.9 29.93 29.95 30.02 30.03
## 5 1 2 1 3 1 2 1 1 4 2 1 1
## 30.06 30.1 30.11 30.14 30.16 30.19 30.21 30.24 30.26 30.27 30.29 30.32 30.35
## 2 2 1 2 3 2 1 2 3 1 2 2 1
## 30.36 30.38 30.41 30.42 30.43 30.45 30.46 30.5 30.51 30.53 30.54 30.56 30.58
## 3 2 2 1 1 3 2 2 2 1 2 1 2
## 30.62 30.63 30.67 30.7 30.72 30.74 30.78 30.8 30.81 30.82 30.86 30.87 30.89
## 4 1 1 1 1 4 4 2 2 1 2 1 5
## 30.91 30.96 30.97 30.98 30.99 31 31.02 31.04 31.05 31.06 31.08 31.1 31.13
## 8 5 1 1 1 1 8 3 1 1 6 6 1
## 31.14 31.19 31.21 31.23 31.25 31.27 31.28 31.33 31.35 31.36 31.41 31.42 31.43
## 4 1 1 1 1 1 1 1 2 2 3 3 1
## 31.47 31.49 31.5 31.51 31.55 31.56 31.58 31.59 31.6 31.64 31.65 31.67 31.68
## 2 1 1 2 1 2 2 1 1 1 1 3 2
## 31.7 31.76 31.77 31.78 31.8 31.81 31.83 31.84 31.9 31.95 31.97 31.98 32
## 2 1 2 1 1 2 2 1 1 1 1 1 1
## 32.02 32.03 32.08 32.09 32.1 32.11 32.14 32.16 32.17 32.18 32.22 32.32 32.34
## 3 1 2 1 2 1 1 1 1 1 1 1 3
## 32.4 32.47 32.48 32.51 32.52 32.54 32.55 32.59 32.63 32.64 32.68 32.7 32.76
## 1 1 3 3 2 3 1 2 1 2 1 1 3
## 32.82 32.84 32.85 32.88 32.89 32.97 33 33.02 33.04 33.06 33.1 33.12 33.15
## 1 3 1 4 1 1 1 1 2 2 1 7 2
## 33.18 33.21 33.23 33.26 33.38 33.4 33.48 33.5 33.52 33.53 33.57 33.6 33.66
## 2 1 1 1 3 1 1 2 2 1 1 2 2
## 33.67 33.72 33.75 33.76 33.79 33.8 33.84 33.86 33.88 33.9 33.91 33.93 33.96
## 1 1 1 3 1 1 3 1 1 1 1 2 2
## 33.97 34.01 34.02 34.1 34.11 34.13 34.2 34.22 34.23 34.29 34.3 34.32 34.34
## 1 1 2 1 1 1 4 4 1 1 2 1 1
## 34.35 34.37 34.41 34.42 34.47 34.5 34.54 34.56 34.57 34.6 34.63 34.65 34.66
## 1 3 2 2 1 2 1 3 1 1 2 2 3
## 34.67 34.68 34.78 34.8 34.83 34.85 34.92 34.94 35.01 35.06 35.07 35.1 35.16
## 1 2 2 1 1 2 2 1 1 1 1 2 2
## 35.19 35.24 35.25 35.26 35.28 35.33 35.37 35.4 35.52 35.55 35.67 35.72 35.73
## 3 1 2 1 2 3 1 2 2 2 1 1 1
## 35.78 35.88 35.91 35.95 35.97 35.98 36.06 36.07 36.16 36.19 36.2 36.3 36.34
## 1 2 1 1 1 1 2 1 1 1 1 1 4
## 36.48 36.5 36.58 36.61 36.62 36.66 36.67 36.7 36.72 36.75 36.77 36.89 36.9
## 2 1 1 3 1 1 1 1 1 1 3 2 2
## 36.92 36.98 37 37.05 37.07 37.1 37.12 37.23 37.24 37.26 37.28 37.3 37.32
## 1 1 4 1 1 1 1 2 2 1 1 1 1
## 37.37 37.44 37.54 37.58 37.63 37.65 37.73 37.8 37.9 37.92 37.93 38.04 38.07
## 1 1 2 1 1 1 1 2 1 2 1 1 1
## 38.1 38.11 38.16 38.17 38.18 38.2 38.27 38.28 38.4 38.42 38.48 38.5 38.52
## 1 1 1 1 1 1 1 1 2 3 1 1 1
## 38.6 38.63 38.64 38.66 38.74 38.77 38.88 39.09 39.1 39.12 39.15 39.2 39.24
## 1 1 1 1 1 1 3 1 4 2 1 2 2
## 39.31 39.42 39.48 39.5 39.52 39.62 39.63 39.72 39.73 39.75 39.8 39.83 39.84
## 2 1 1 3 1 2 1 1 1 1 1 1 1
## 40.01 40.04 40.14 40.25 40.32 40.37 40.48 40.5 40.6 40.65 40.66 40.72 40.75
## 1 2 1 1 1 1 2 1 4 1 1 2 1
## 40.77 40.8 40.82 40.83 40.87 41.04 41.08 41.1 41.28 41.3 41.33 41.36 41.39
## 1 1 1 1 1 3 1 1 2 1 1 1 2
## 41.41 41.47 41.53 41.55 41.58 41.64 41.69 41.88 41.89 42.12 42.22 42.24 42.44
## 1 1 1 1 2 1 1 1 1 1 1 3 1
## 42.56 42.57 42.77 42.78 42.9 42.96 43.12 43.23 43.32 43.62 43.68 43.8 43.85
## 1 1 1 1 1 1 2 1 1 1 2 2 1
## 43.95 44.1 44.16 44.2 44.24 44.55 44.78 44.89 45.24 45.25 45.36 45.37 45.6
## 1 1 2 2 2 2 1 1 1 1 1 1 1
## 45.72 45.94 45.96 46.08 46.8 47.04 47.1 47.25 47.28 47.32 47.4 47.58 48.25
## 2 1 1 3 1 1 1 1 1 1 2 1 1
## 49 49.25 49.28 49.75 50.17 50.54 52.35 52.8 53.19 54.3 54.46 56.7
## 1 1 1 1 1 1 1 1 1 1 1 1
ggplot(data, aes(x = Revenue)) +
geom_histogram(bins = 30, fill = "blue", color = "white") +
labs(title = "Phân phối Doanh thu", x = "Revenue", y = "Frequency") +
theme_minimal()
Vẽ biểu đồ cột cho Top 10 khu vực có doanh doanh thu thấp nhất
library(ggplot2)
bottom_cities <- aggregate(Revenue ~ City, data = data, sum)
bottom_cities <- bottom_cities[order(bottom_cities$Revenue), ][1:10, ]
ggplot(bottom_cities, aes(x = reorder(City, Revenue), y = Revenue)) +
geom_bar(stat = "identity", fill = "red") +
coord_flip() +
labs(title = "Top 10 Khu Vực có Tổng Doanh Thu Thấp Nhất",
x = "Khu vực (City)",
y = "Tổng Doanh thu") +
theme_minimal() +
theme(
plot.title = element_text(hjust = 0.5, face = "bold", size = 14),
axis.title = element_text(size = 12)
)
So sánh doanh thu theo giới tính
ggplot(data, aes(x = Gender, y = Revenue)) +
geom_boxplot(fill = "coral") +
labs(title = "So sánh Doanh thu giữa Nam và Nữ") +
theme_minimal()
Qua phân tích thống kê mô tả một số biến nỗi bật, ta nhận thấy:
Các biến định lượng thể hiện sự phân tán rõ rệt giữa các nhóm khách hàng và sản phẩm, cho thấy sự khác biệt đáng kể trong hành vi tiêu dùng.
Các biến định tính phản ánh sự đa dạng phong phú trong tập khách hàng cũng như danh mục sản phẩm.
Doanh thu chủ yếu tập trung tại một số bang, thành phố và nhóm sản phẩm cụ thể, mở ra tiềm năng để tối ưu hóa và định hướng chiến lược kinh doanh hiệu quả hơn.
Thống kê mô tả đóng vai trò là bước chuẩn bị quan trọng, làm nền tảng cho các phân tích nâng cao hơn.