I. TÓM TẮT NỘI DUNG SÁCH

CHƯƠNG 1: MÔ HÌNH THỐNG KÊ

1.1 Giới thiệu và tổng quan

Chương này mở đầu bằng việc giới thiệu khái niệm mô hình thống kê, với trọng tâm là mô hình tuyến tính tổng quát. Tác giả lần lượt trình bày:

Cách mô tả dữ liệu toán học (1.2),

Tầm quan trọng của việc lập biểu đồ dữ liệu (1.3),

Cách mã hóa các biến không định lượng (1.4).

Tiếp theo, chương trình bày hai thành phần chính của mô hình thống kê: hệ thống và ngẫu nhiên (1.5), và giới thiệu lớp mô hình hồi quy – nền tảng cho toàn bộ nội dung sách (1.6).

Sau đó, tác giả hướng dẫn cách diễn giải mô hình (1.7), so sánh giữa mô hình vật lý và mô hình thống kê (1.8), và nêu rõ mục đích của mô hình thống kê (1.9).

Hai tiêu chí đánh giá mô hình – độ chính xác và tính tiết kiệm – được phân tích (1.10), cùng với việc nhấn mạnh những hạn chế của mô hình thống kê (1.11), bao gồm sự khác biệt giữa dữ liệu quan sát và dữ liệu thực nghiệm.

Cuối cùng, chương đề cập đến khả năng khái quát hóa mô hình (1.12) và đưa ra nhận xét mở đầu về việc sử dụng R trong xây dựng mô hình thống kê (1.13).

1.2 Quy ước mô tả dữ liệu

Giới thiệu các quy ước để mô tả dữ liệu một cách toán học. Đồng thời giải thích cách các biến được đại diện và ký hiệu, bao gồm việc phân biệt giữa các loại biến khác nhau.

Giới thiệu các kí hiệu biến

Biến phản hồi (response variable): Là biến mà chúng ta muốn giải thích sự thay đổi của nó. Biến này thường được ký hiệu là \(y\). \(y_{i}\) ký hiệu giá trị của biến phản hồi cho quan sát thứ \(i\).

Biến giải thích (explanatory variables): Là các biến được sử dụng để giải thích sự thay đổi của biến phản hồi. Chúng còn có thể được gọi bằng nhiều tên khác như biến độc lập, biến dự báo, hoặc yếu tố (factors) và covariate. Các biến giải thích được ký hiệu truyền thống là \(x\). \(x_{ji}\) ký hiệu giá trị của biến giải thích thứ \(j\) cho quan sát thứ \(i\). Số lượng biến giải thích được ký hiệu là \(p\).

Biến định lượng (quantitative explanatory variables) và biến định tính (qualitative explanatory variables): Các biến giải thích định lượng được gọi là covariates, còn các biến giải thích định tính được gọi là factors. LLưu ý rằng các biến không phải là số (biến định tính) cần được mã hóa thành định dạng số để sử dụng trong mô hình thống kê (chi tiết được trình bày trong Phần 1.4).

Kích thước mẫu (sample size): Thường được ký hiệu là n.

Tham số hồi quy (regression parameters): Đây là các hệ số chưa biết trong mô hình, thường được ký hiệu là \(β_{j}\) (ví dụ: \(β_{0}\), \(β_{1}\), …, \(β_{p}\)). Số lượng tham số hồi quy được ký hiệu là \(p'\). Nếu mô hình có thêm hệ số chặn \(β_{0}\) (gần như luôn luôn có), thì \(p' = p + 1\).

Giá trị kỳ vọng của biến phản hồi: Được ký hiệu là \(\mu= E[yi]\).

Giới thiệu thành phần hệ thống và thành phần ngẫu nhiên

Thành phần hệ thống (systematic component): Mô tả mối quan hệ toán học giữa giá trị trung bình \((\mu_{i})\) của biến phản hồi và các giá trị của các biến giải thích.

Thành phần ngẫu nhiên (random component): Mô tả sự biến thiên (phân phối) của các giá trị biến phản hồi xung quanh giá trị trung bình \((\mu_{i})\) cho một tập hợp các giá trị biến giải thích nhất định.

1.3 Trực quan hóa dữ liệu

Mô tả cách sử dụng biểu đồ trong R để hiểu mối quan hệ giữa dung tích phổi (FEV) và các yếu tố như tuổi (Age), chiều cao (Ht), giới tính (Gender), và tình trạng hút thuốc (Smoke). Dữ liệu được lưu trong khung dữ liệu lungcap.

Các nội dung chính:

Biểu đồ phân tán (scatter plots): plot(FEV ~ Age, …), plot(FEV ~ Ht, …): Thể hiện mối quan hệ giữa FEV và tuổi hoặc chiều cao.

Kết quả: FEV tăng theo tuổi và chiều cao, tuy nhiên biến thiên theo tuổi lớn hơn, trong khi mối quan hệ với chiều cao chặt chẽ hơn nhưng không hoàn toàn tuyến tính.

Biểu đồ hộp (boxplots): plot(FEV ~ Gender, …), plot(FEV ~ Smoke, …): So sánh FEV giữa các nhóm giới tính và tình trạng hút thuốc. Mặc định trong R, biểu đồ hộp thể hiện trung vị, tứ phân vị và các giá trị ngoại lệ.

Phân biệt người hút thuốc và không hút thuốc theo tuổi: Tạo biến AgeAdjust để tách nhẹ tuổi của người không hút thuốc, giúp dễ nhìn hơn khi phân tích.Sử dụng pch để gán ký hiệu vẽ khác nhau cho người hút và không hút thuốc.

Tạo chú giải (legend): Sử dụng legend() để phân biệt các nhóm trong biểu đồ.

Biểu đồ hộp theo nhóm kết hợp: boxplot(FEV ~ Smoke + Gender, …): Thể hiện FEV theo kết hợp giữa tình trạng hút thuốc và giới tính.

Biểu đồ tương tác (interaction plot): Dùng interaction.plot() để minh họa ảnh hưởng tương tác giữa hai yếu tố phân loại (Smoke và Gender) đến biến định lượng (FEV).

Mục tiêu và nội dung hướng đến:

Hiểu tác động của các biến giải thích (tuổi, chiều cao, giới tính, hút thuốc) đến FEV.

Trực quan hóa dữ liệu để phát hiện xu hướng, mối quan hệ và tương tác giữa các biến.

Tách biệt và làm rõ ảnh hưởng của từng biến cũng như kết hợp của chúng (ví dụ: hút thuốc và giới tính).

Mô tả thống kê và đồ họa: Dùng biểu đồ phân tán và hộp để có cái nhìn trực quan.

Xử lý biến phân loại (factor): Mã hóa và phân tích theo nhóm (giới tính, hút thuốc).

Khám phá tương tác giữa các biến: Sử dụng biểu đồ tương tác để hiểu sự ảnh hưởng đồng thời của hai biến phân loại lên FEV.

Chuẩn bị cho mô hình hóa: Sau bước khám phá dữ liệu, chuyển sang xây dựng mô hình hồi quy tuyến tính hoặc mô hình tuyến tính tổng quát để lượng hóa các ảnh hưởng đã quan sát.

1.4 Mã hóa biến phân loại (Coding for factors)

Giải thích cách các biến phân loại (chẳng hạn như giới tính, tình trạng hút thuốc hay loại điều trị) được chuyển đổi thành dạng số để có thể sử dụng trong các mô hình thống kê, đặc biệt là mô hình hồi quy tuyến tính – vốn chỉ xử lý được dữ liệu dạng số.

Mã hóa biến phân loại (Categorical Variable Encoding): Đây là bước bắt buộc trong phân tích hồi quy khi làm việc với biến không định lượng. Một kỹ thuật phổ biến để chuyển đổi là sử dụng lược đồ mã hóa (coding scheme) – và giáo trình tập trung vào phương pháp mã hóa mặc định trong R.

Phương pháp mã hóa treatment (treatment coding): Là kỹ thuật được R sử dụng theo mặc định. Trong phương pháp này, một trong các mức (categories) của biến phân loại sẽ được chọn làm mức tham chiếu (reference level). Những mức còn lại sẽ được đại diện bằng các biến giả (dummy variables), nhận giá trị 1 nếu thuộc nhóm đó và 0 nếu không. Quan sát thuộc mức tham chiếu sẽ có giá trị bằng 0 ở tất cả các biến giả liên quan.

Giải thích hệ số hồi quy: Khi dùng kiểu mã hóa treatment, mỗi hệ số hồi quy (β) đi kèm với một biến giả cho biết sự khác biệt ước lượng trong giá trị trung bình của biến phản hồi giữa mức tương ứng với biến giả đó và mức tham chiếu, sau khi đã kiểm soát các biến giải thích khác trong mô hình. Tùy theo mô hình sử dụng và hàm liên kết trong GLM, sự khác biệt này có thể diễn giải theo thang đo gốc hoặc trên thang của hàm liên kết.

Ngoài mã hóa treatment, cũng có các phương pháp mã hóa khác, và mỗi phương pháp lại dẫn đến cách hiểu khác nhau về các hệ số trong mô hình. Vì vậy, cần xác định rõ phương pháp mã hóa và định nghĩa của các biến giả được sử dụng trong bất kỳ phân tích nào.

1.5 Mô hình thống kê mô tả cả yếu tố ngẫu nhiên và hệ thống của dữ liệu

Mô hình thống kê gồm hai phần: thành phần hệ thống mô tả mối quan hệ trung bình giữa biến phản hồi (fev) và các biến giải thích (tuổi, chiều cao, giới tính, hút thuốc), và thành phần ngẫu nhiên mô tả sự biến thiên của fev quanh giá trị trung bình này. Ví dụ một thành phần hệ thống tuyến tính có thể là:

\[ \mu_i = \beta_0 + \beta_1 x_{1i} + \beta_2 x_{2i} + \beta_3 x_{3i} + \beta_4 x_{4i} \] Tuy nhiên, mối quan hệ có thể không tuyến tính, và thành phần hệ thống cần được điều chỉnh phù hợp.

Thành phần ngẫu nhiên có thể giả định phương sai không đổi, hoặc theo phân phối chuẩn

\[ y_i \sim N(\mu_i, \sigma^2) \] nhưng các giả định này có thể không phù hợp nếu dữ liệu cho thấy phương sai thay đổi (như fev tăng thì độ biến thiên cũng tăng). Do đó, mô hình cần linh hoạt để phản ánh đúng tính chất của dữ liệu.

1.6 Regression models (mô hình hồi quy)

Khái niệm

Mô hình hồi quy giả định giá trị trung bình kỳ vọng (\(E[y_i]\) hay \(μ_i\)) của biến phản hồi cho quan sát thứ \(i\) phụ thuộc vào các biến giải thích (\(x_{1i}, \dots, x_{pi}\)) thông qua một hàm \(f\) và một tập hợp các tham số hồi quy (\(β_0, β_1, \dots, β_q\)). Công thức tổng quát là: \[E[y_i] = μ_i = f(x_{1i}, \dots, x_{pi}; β_0, β_1, \dots, β_q)\].

Hàm \(f\) là tuyến tính theo tham số (linear in the parameters). Điều này là đặc điểm quan trọng, phân biệt loại mô hình này với các mô hình phi tuyến hoàn toàn. Ngay cả khi mối quan hệ với biến \(x\) không tuyến tính (ví dụ: chứa \(x^2\) hoặc \(\log(x)\)), nếu nó có thể viết dưới dạng tổng có trọng số của các hàm của \(x\) với trọng số là \(β\), thì nó vẫn tuyến tính theo tham số.

Hai dạng cấu trúc thành phần hệ thống cụ thể được giới thiệu:

Mô hình Hồi quy Tuyến tính (Linear Regression Models): Thành phần hệ thống là tổng tuyến tính trực tiếp của các biến giải thích và tham số: \[μ_i = β_0 + β_1x_{1i} + \dots + β_px_{pxi}\]. Các mô hình này giả định phương sai không đổi cho phần ngẫu nhiên.

Mô hình Tuyến tính Tổng quát (Generalized Linear Models - GLMs): Thành phần hệ thống được liên kết với giá trị trung bình \(μ_i\) thông qua một hàm liên kết \(g\), sao cho \[g(μ_i) = β_0 + β_1x_{1i} + \dots + β_px_{pxi}\]. Đây là lớp mô hình tổng quát hơn.

Các quy ước ký hiệu về số lượng biến giải thích (\(p\)) và số lượng tham số (\(p'\), thường là \(p+1\)) cũng được thiết lập.

1.7 Interpreting Regression Models (Diễn giải mô hình hồi quy)

Diễn giải mô hình hồi quyquy nhằm mục đích giúp người đọc hiểu được mối quan hệ có hệ thống (systematic relationship) mà mô hình biểu diễn giữa biến phản hồi và các biến giải thích, đặc biệt là ý nghĩa của các tham số (hệ số) hồi quy trong mô hình.

Giải thích rõ các thành phần của hệ thống: \[E[y_i] = μ_i = f(x_{1i}, \dots, x_{pi}; β_0, β_1, \dots, β_q)\] mô tả sự thay đổi của giá trị trung bình kỳ vọng (\(μ_i\)) của biến phản hồi khi các biến giải thích thay đổi.

Nhấn mạnh rằng cách diễn giải phụ thuộc vào dạng hàm \(f\) được sử dụng, tức là mối liên hệ giữa các biến giải thích (hoặc tổ hợp tuyến tính của chúng) và giá trị trung bình của biến phản hồi. Đối với các mô hình tuyến tính theo tham số (đặc biệt là Mô hình Hồi quy Tuyến tính thông thường), ý nghĩa của các hệ số \(β_j\) được diễn giải là sự thay đổi trung bình của biến phản hồi khi biến giải thích tương ứng \(x_j\) thay đổi một đơn vị, giữ nguyên các biến khác.

Đối với Mô hình Tuyến tính Tổng quát (GLMs), do sử dụng hàm liên kết \(g\) (\(g(μ_i) = \beta_0 + \beta_1x_{1i} + \dots\)), việc diễn giải các hệ số \(β_j\) không trực tiếp là sự thay đổi của \(μ_i\) mà là sự thay đổi trên thang đo của hàm liên kết. Điều này có thể dẫn đến việc diễn giải các đại lượng khác như tỷ lệ chênh (odds ratio) trong mô hình logit, hoặc liên quan đến các biến đổi (transformation) của biến phản hồi như logarit.

Tầm quan trọng của việc diễn giải mô hình trong ngữ cảnh và giới hạn của dữ liệu được nhấn mạnh, bao gồm sự phân biệt giữa mối quan hệ tương quan (association) và quan hệ nhân quả (causality), cũng như khả năng suy rộng của mô hình.

1.8 All Models Are Wrong, but Some Are Useful

Tuyên bố nổi tiếng của Box và Draper: “Tất cả các mô hình đều sai, nhưng một số mô hình thì hữu ích.” Tác giả giải thích rằng các mô hình thống kê – cũng như các mô hình vật lý như mô hình bộ xương trong giảng dạy y học – không phản ánh hoàn toàn thực tế, mà là phép xấp xỉ hữu ích, giúp biểu diễn các khía cạnh quan trọng để phục vụ mục tiêu cụ thể.

Tuy nhiên, có hai điểm khác biệt chính giữa mô hình vật lý và mô hình thống kê:

Mô hình thống kê có thêm thành phần ngẫu nhiên, phản ánh sự biến đổi trong dữ liệu thực tế, trong khi mô hình vật lý (như bộ xương nhựa) không biểu diễn sự khác biệt giữa các cá thể.

Mô hình vật lý dựa trên kiến thức thực tế đã biết, còn mô hình thống kê thường được xây dựng từ dữ liệu khi không có lý thuyết hoàn chỉnh nào tồn tại.

Mục tiêu tác giả hướng đến:

Các mô hình thống kê không bao giờ là đúng hoàn toàn, nhưng có thể rất hữu ích nếu sử dụng đúng cách.

Cần nhận thức rõ tính chất gần đúng của mô hình và không nên đánh đồng mô hình với thực tế tuyệt đối.

Đồng thời, tác giả khuyến khích người đọc phát triển mô hình một cách thận trọng dựa trên dữ liệu và hiểu rõ giới hạn diễn giải của các mô hình trong phân tích thống kê.

1.9 Mục đích của mô hình thống kê ảnh hưởng đến cách phát triển mô hình: Dự đoán so với diễn giải

Tác giả phân biệt hai mục đích chính khi xây dựng mô hình thống kê, đặc biệt trong hồi quy:

Dự đoán: Mục tiêu là tạo ra các dự đoán chính xác cho dữ liệu mới hoặc tương lai, bất kể mối quan hệ nhân quả giữa các biến có rõ ràng hay không. Mô hình có thể bao gồm nhiều yếu tố để cải thiện độ chính xác, kể cả những biến có ý nghĩa không rõ ràng về mặt nhân quả.

Diễn giải và hiểu biết: Mục tiêu là hiểu cách các biến liên quan với nhau, ví dụ như xác định tác động của hút thuốc đến dung tích phổi. Khi đó, cần các ước lượng đáng tin cậy và ý nghĩa của hệ số hồi quy để có thể đưa ra kết luận khoa học hoặc chính sách.

Ví dụ minh họa cho dự đoán là thiết lập đường cong cân nặng bình thường của trẻ theo tuổi và giới tính, nhằm đánh giá xem trẻ có nằm ngoài phạm vi bình thường hay không. Ở đây, sự chính xác trong dự đoán là quan trọng, còn ý nghĩa từng tham số trong mô hình không được chú trọng.

Do đó, việc nhận biết mục đích nghiên cứu sẽ ảnh hưởng đến cách phát triển mô hình: nếu để diễn giải thì cần mô hình rõ ràng, đáng tin cậy; nếu để dự đoán thì có thể thêm nhiều biến nhằm tăng độ chính xác.

1.10 Độ chính xác và Tính đơn giản

Tác giả trình bày về vấn đề lựa chọn mô hình thống kê phù hợp trong số rất nhiều mô hình khả thi, dựa trên hai tiêu chí chính:

Độ chính xác: Mô hình phải mô tả đúng và đủ các thành phần hệ thống (mối quan hệ có quy luật) và thành phần ngẫu nhiên (biến thiên không dự đoán trước được) trong dữ liệu.

Tính đơn giản: Mô hình cần được xây dựng càng đơn giản càng tốt, tránh phức tạp quá mức không cần thiết (theo nguyên tắc Dao cạo Occam).

Tác giả đưa ra ví dụ với dữ liệu mô phỏng, so sánh các mô hình tuyến tính, khối lập phương và đa thức bậc 10:

Mô hình tuyến tính quá đơn giản, không nắm bắt xu hướng dữ liệu.

Mô hình đa thức bậc 10 quá phức tạp, khớp gần như chính xác từng điểm nhưng lại biểu diễn sai biến thiên ngẫu nhiên, dẫn đến hiện tượng quá khớp (overfitting), khó khái quát hóa cho dữ liệu mới.

Mô hình khối lập phương vừa đủ chính xác vừa đơn giản, thể hiện tốt thành phần hệ thống và ngẫu nhiên, có khả năng khái quát hóa cao khi áp dụng trên dữ liệu mới.

Tác giả nhấn mạnh rằng trong phát triển mô hình thống kê, việc cân bằng giữa độ chính xác và sự đơn giản của mô hình là rất quan trọng để tránh hiện tượng quá khớp và đảm bảo mô hình có thể áp dụng hiệu quả cho các dữ liệu mới. Qua đó, tác giả muốn hướng người nghiên cứu đến việc lựa chọn mô hình sao cho mô hình vừa thể hiện đúng bản chất dữ liệu vừa không quá phức tạp, từ đó nâng cao giá trị thực tiễn của mô hình.

1.11 Thí nghiệm so với Nghiên cứu quan sát: Nhân quả và Tương quan

Tác giả phân biệt hai cách tiếp cận thu thập dữ liệu trong nghiên cứu thống kê:

Nghiên cứu quan sát: Nhà nghiên cứu không can thiệp, chỉ ghi nhận các hiện tượng xảy ra tự nhiên. Loại nghiên cứu này chỉ cho phép xác định mối liên hệ giữa các biến, chứ không thể khẳng định quan hệ nhân quả vì có thể tồn tại nhiều biến ngoại lai chưa được kiểm soát.

Thí nghiệm (thực nghiệm): Nhà nghiên cứu chủ động can thiệp và kiểm soát các điều kiện thử nghiệm, như phân chia ngẫu nhiên người tham gia vào các nhóm. Nhờ đó, nghiên cứu có thể đưa ra kết luận về mối quan hệ nhân quả giữa các biến.

Tuy mô hình thống kê xử lý dữ liệu từ cả hai loại nghiên cứu theo cùng một cách, nhưng sức mạnh và độ tin cậy của kết luận khoa học khác nhau đáng kể: kết luận từ thí nghiệm mạnh hơn.

Ví dụ cụ thể về dữ liệu dung tích phổi cho thấy đây là một nghiên cứu quan sát – nhà nghiên cứu không kiểm soát việc ai hút thuốc – do đó cần điều chỉnh thêm các biến ngoại lai như tuổi, chiều cao, giới tính. Tuy nhiên, vẫn có khả năng còn nhiều yếu tố chưa đo lường ảnh hưởng đến fev, vì vậy không thể kết luận chắc chắn hút thuốc là nguyên nhân làm giảm fev.

Tác giả muốn nhấn mạnh tầm quan trọng của phương pháp thu thập dữ liệu trong việc giải thích các kết luận thống kê. Cụ thể:

Đối với người làm nghiên cứu, cần nhận thức rõ giới hạn của nghiên cứu quan sát và không nên rút ra kết luận nhân quả nếu không có cơ sở thực nghiệm.

Đối với người đọc và phân tích kết quả, cần đánh giá thận trọng các mô hình thống kê, và không bị nhầm lẫn giữa mối liên hệ và quan hệ nhân quả.

1.12 Thu thập dữ liệu và khả năng khái quát hóa

Kết luận từ mô hình thống kê chỉ có thể áp dụng cho quần thể mà mẫu dữ liệu được rút ra. Nếu dữ liệu chỉ đại diện cho một nhóm cụ thể (ví dụ: phụ nữ trên 60 tuổi ở Nhật Bản), thì không nên khái quát kết luận cho các nhóm khác mà không có bằng chứng hỗ trợ.

1.13 Sử dụng R để xây dựng mô hình thống kê

Máy tính và phần mềm thống kê như R là công cụ không thể thiếu trong việc xây dựng và đánh giá mô hình thống kê.

Tác giả giới thiệu các lệnh cơ bản trong R hỗ trợ thao tác dữ liệu và phân tích mô hình trong sách, như: library(), data(), names(), summary(), factor(), relevel(), plot(), legend().

Việc sử dụng R được minh họa thông qua các ví dụ cụ thể trong sách, với phiên bản R 3.4.3. Thông tin chi tiết hơn nằm trong các phụ lục cuối sách.

1.14 Tóm tắt

Chương 1 giới thiệu các khái niệm cơ bản về mô hình thống kê, từ cách biểu diễn dữ liệu, vai trò của yếu tố định tính và định lượng, đến việc xây dựng mô hình, diễn giải, giới hạn của suy luận, và ứng dụng công cụ tính toán như R. Chương này tạo nền tảng để người đọc hiểu và áp dụng mô hình thống kê một cách hợp lý trong phân tích dữ liệu thực tế.

Biến giải thích có thể là định lượng (gọi là covariates) hoặc định tính (gọi là yếu tố). Với yếu tố định tính, cần mã hóa thành các biến giả (dummy variables) để đưa vào mô hình (Mục 1.2 và 1.4), thường sử dụng mã hóa xử lý

Biểu đồ trực quan có vai trò quan trọng trong khám phá dữ liệu ban đầu (Mục 1.3), nhưng mô hình thống kê mới là công cụ chính để phân tích sâu (Mục 1.5). Mô hình thống kê bao gồm hai thành phần:

Thành phần hệ thống: Mô tả sự thay đổi trung bình của phản hồi theo các biến giải thích.

Thành phần ngẫu nhiên: Mô hình hóa sự biến thiên xung quanh giá trị trung bình.

Các mô hình thống kê hỗ trợ dự đoán và giải thích mối quan hệ giữa các biến (Mục 1.9), với hai tiêu chí quan trọng: tính đơn giản và độ chính xác (Mục 1.10). Mô hình lý tưởng là mô hình đơn giản nhất có thể giải thích tốt dữ liệu.

Mô hình phải có ý nghĩa thực tiễn và dễ diễn giải (Mục 1.7), nhưng mọi phân tích phải giới hạn trong phạm vi dữ liệu và cách thu thập dữ liệu. Đặc biệt:

Nghiên cứu quan sát chỉ cho phép đánh giá mối liên hệ chứ không khẳng định quan hệ nhân quả.

Thí nghiệm có kiểm soát (với sự can thiệp từ nhà nghiên cứu) mới có thể cho phép kết luận nhân quả (Mục 1.11).

Kết luận từ mô hình chỉ áp dụng cho quần thể được lấy mẫu – không nên ngoại suy kết quả ra ngoài phạm vi dữ liệu ban đầu (Mục 1.12).

Cuối cùng, phần mềm thống kê như R là công cụ thiết yếu trong thực hành mô hình hóa – giúp ước lượng tham số, tạo đồ họa, và kiểm tra mô hình (Mục 1.13).

CHƯƠNG 2: MÔ HÌNH HỒI QUY TUYẾN TÍNH

2.1 Giới thiệu tổng quan

Giới thiệu tổng quan về chủ đề trọng tâm của Chương 2 là Mô hình Hồi quy Tuyến tính (Linear Regression Models). Phần giới thiệu đặt nền tảng cho việc khám phá chi tiết về cấu trúc, ước lượng, suy luận và lựa chọn mô hình hồi quy tuyến tính trong các mục tiếp theo của chương. Đây là bước khởi đầu cho một phần giới thiệu sâu sắc về hồi quy tuyến tính, phù hợp cho những người đã có kiến thức thống kê cơ bản. Chương 2 sẽ đi sâu vào định nghĩa chính thức của Mô hình Hồi quy Tuyến tính. Nội dung này báo trước rằng chương sẽ trình bày các phương pháp ước lượng tham số của mô hình, cách thực hiện suy luận thống kê (như kiểm định giả thuyết và khoảng tin cậy), và các chiến lược để so sánh và lựa chọn mô hình phù hợp. Phần này cũng có thể nhấn mạnh việc sử dụng phần mềm R làm công cụ thực hành xuyên suốt chương.

2.2 Mô hình hồi quy tuyến tính (Linear Regression Models Defined)

Mô hình Hồi quy tuyến tính được trình bày rõ ràng cấu trúc toán học và các giả định cơ bản. Mục này được đặt ra để cung cấp cho người đọc một hiểu biết vững chắc về nền tảng của mô hình tuyến tính, đặc biệt là việc xác định hai thành phần cốt lõi của nó: thành phần hệ thống (systematic component) và thành phần ngẫu nhiên (random component).

Định nghĩa Mô hình:

Mô hình Hồi quy Tuyến tính được sử dụng để mô hình hóa dữ liệu với một biến phản hồi y và p biến giải thích \(x_1\), …, \(x_p\). Mô hình này bao gồm hai thành phần quen thuộc (hệ thống và ngẫu nhiên), nhưng với các hình thức cụ thể.

Thành phần Hệ thống: Giả định rằng kỳ vọng của biến phản hồi cho mỗi quan sát \(i\), \(E[y_i] = \mu_i\), có mối quan hệ tuyến tính với các tham số \(β\) và các biến giải thích \(x\). Công thức tổng quát của thành phần hệ thống là: \[\mu_i = β_0 + β_{1}x_{1i} + ... + β_{p}x_{pi}\].

\(β_0, β_1, ..., β_p\) là các tham số hồi quy chưa biết cần được ước lượng từ dữ liệu.

\(β_0\) thường được gọi là hệ số chặn (intercept).

\(p\) biến giải thích và \(p'\) tham số hồi quy (\(p' = p + 1\) nếu có hệ số chặn \(β_0\)).

Thành phần Ngẫu nhiên: Giả định rằng các biến phản hồi \(y_i\) có phương sai không đổi \(σ²\). Hoặc, phương sai có thể tỷ lệ với các trọng số ưu tiên (prior weights) \(w_i\) đã biết và dương, tức là \(var[yi] = \frac {σ²}{w_i}\). Trọng số \(w_i\) được coi là đã biết. Phương sai \(σ²\) là một tham số chưa biết cần được ước lượng. Các biến phản hồi \(y\) được giả định là độc lập với nhau.

Công thức tổng quát: Kết hợp hai thành phần, mô hình hồi quy tuyến tính có dạng:

\[\left\{ \begin{array}{l} {μ_i = β_0 + \sum_{j = 1}^{p} β_j x_{ji}} \\ {var[y_i] = \frac {σ²}{w_i}} \end{array} \right. \]

với \(E[y_i] = μ_i\)

Các Trường hợp Đặc biệt:

  • Hồi quy tuyến tính đơn giản (Simple linear regression): Là trường hợp khi có một biến giải thích duy nhất (p = 1).

Hồi quy tuyến tính thông thường (Ordinary linear regression): Là trường hợp khi tất cả các trọng số ưu tiên \(w_ i\) đều bằng một.

Các Giả định Cốt lõi: Các giả định cần thiết để thiết lập Mô hình bao gồm:

  • Sự phù hợp (Suitability): Cùng một mô hình hồi quy phù hợp cho tất cả các quan sát.

  • Tính tuyến tính (Linearity): Mối quan hệ thực sự giữa μ và mỗi biến giải thích định lượng là tuyến tính.

  • Phương sai không đổi (Constant variance): Phần chưa biết của phương sai (σ²) là không đổi.

  • Tính độc lập (Independence): Các biến phản hồi y độc lập với nhau.

2.3 Simple Linear Regression (Hồi quy tuyến tính đơn)

Định nghĩa Mô hình Hồi quy Tuyến tính Đơn

Mô hình hồi quy tuyến tính đơn bao gồm hai thành phần đặc trưng:

Thành phần ngẫu nhiên (Random component): Giả định rằng biến phản hồi \(y_i\) có phương sai không đổi \(\sigma^2\) hoặc phương sai tỷ lệ với các trọng số dương đã biết \(w_i\), tức là \(\text{var}[y_i] = \sigma^2/w_i\) cho \(i = 1, 2, \dots, n\). \(w_i\) được gọi là trọng số trước (prior weights).

Thành phần hệ thống (Systematic component): Biểu thị mối quan hệ tuyến tính giữa kỳ vọng của biến phản hồi \(\mu_i = \text{E}[y_i]\) và biến giải thích \(x_i\). Công thức tổng quát của mô hình hồi quy tuyến tính (với \(p=1\) biến giải thích) là \(\mu_i = \beta_0 + \beta_1x_i\). Trong đó, \(\beta_0\)\(\beta_1\) là các tham số hồi quy chưa biết cần ước lượng từ dữ liệu. \(\beta_0\) thường được gọi là hệ số chặn, là giá trị của \(y\) khi \(x\) bằng 0.

Mô hình (2.2) trong tài liệu là một ví dụ về mô hình hồi quy tuyến tính có trọng số, được áp dụng cho dữ liệu về cân nặng trẻ sơ sinh theo tuổi thai (gestation data). Trọng số \(w_i = m_i\) (số lượng quan sát dựa vào đó tính cân nặng trung bình) được sử dụng để phản ánh rằng các giá trị trung bình dựa trên nhiều quan sát hơn mang lại nhiều thông tin hơn. Công thức của mô hình trong ví dụ này là: \[\mu_i = \beta_0 + \beta_1x_i\] với \[\text{var}[y_i] = \sigma^2/m_i\]

Ước lượng Bình phương Tối thiểu (Least-Squares Estimation)

Mục tiêu của phương pháp này là tìm các giá trị của tham số (\(\beta_0, \beta_1\)) sao cho tổng bình phương các sai lệch có trọng số giữa giá trị quan sát \(y_i\) và giá trị trung bình dự đoán \(\mu_i\) là nhỏ nhất. Tổng bình phương các sai lệch có trọng số được ký hiệu là \[S(\beta_0, \beta_1) = \sum_{i=1}^n w_i(y_i - \mu_i)^2 = \sum_{i=1}^n w_i(y_i - \beta_0 - \beta_1x_i)^2\].

Ví dụ 2.2:

Minh họa việc tính toán giá trị \(S\) cho ba quan sát giả định về cân nặng và tuổi, sử dụng hai bộ giá trị khác nhau cho \(\beta_0\)\(\beta_1\) (-0.9 và 0.1, sau đó -3 và 0.15). Các biểu đồ cho thấy sai lệch từ đường hồi quy dự đoán. Việc tính toán cho thấy bộ giá trị \(\beta_0 = -0.9\)\(\beta_1 = 0.1\) cho \(S = 186.1\), trong khi bộ giá trị thứ hai cho \(S = 343.4433\).

Để tìm các giá trị \(\beta_0\)\(\beta_1\) cực tiểu hóa \(S\), ta lấy đạo hàm riêng của \(S\) theo \(\beta_0\)\(\beta_1\) và đặt chúng bằng 0. Các phương trình đạo hàm riêng là:

\[\frac{\partial S(\beta_0, \beta_1)}{\partial \beta_0} = -2 \sum_{i=1}^n w_i(y_i - \mu_i)\] \[\frac{\partial S(\beta_0, \beta_1)}{\partial \beta_1} = -2 \sum_{i=1}^n w_ix_i(y_i - \mu_i)\]. Giải hệ phương trình này (được yêu cầu chứng minh trong Bài tập 2.2) cho ra các ước lượng bình phương tối thiểu \(\hat{\beta}_0\)\(\hat{\beta}_1\):

\[\hat{\beta}_0 = \bar{y}_w - \hat{\beta}_1\bar{x}_w\].

\[\hat{\beta}1 = \frac{\sum{i=1}^n w_i(x_i - \bar{x}w)y_i}{\sum{i=1}^n w_i(x_i - \bar{x}_w)^2}44\].

Trong đó:

\(\bar{x}_w\)\(\bar{y}_w\) là các trung bình có trọng số.

Các ước lượng \(\hat{\beta}_0\)\(\hat{\beta}_1\) là các ước lượng không chệch (unbiased estimators) của \(\beta_0\)\(\beta_1\).

Các giá trị phù hợp (fitted values) được ước lượng bởi \(\hat{\mu}_i = \hat{\beta}_0 + \hat{\beta}_1x_i\).

Giá trị cực tiểu của \(S(\beta_0, \beta_1)\), khi được tính tại các ước lượng bình phương tối thiểu, được gọi là tổng bình phương dư (residual sum-of-squares - rss). rss được tính bằng \(\sum_{i=1}^n w_i(y_i - \hat{\mu}_i)^2\). \(r_i = y_i - \hat{\mu}_i\) được gọi là phần dư thô (raw residuals).

2.4 Estimation for Multiple Regression

Định nghĩa Mô hình Hồi quy Tuyến tính (Đa biến):

Mô hình hồi quy tuyến tính có thể có nhiều biến giải thích. Mô hình này được định nghĩa bởi hai thành phần:

Thành phần ngẫu nhiên (Random component): Giả định phương sai của biến phản hồi \(y_i\) tỷ lệ nghịch với trọng số đã biết \(w_i\), tức là \(\text{var}[y_i] = \sigma^2/w_i\). Trọng số trước (prior weights) \(w_i\) là các giá trị dương đã biết.

Thành phần hệ thống (Systematic component): Biểu diễn kỳ vọng của biến phản hồi \(\mu_i = \text{E}[y_i]\) là một hàm tuyến tính của \(p\) biến giải thích \(x_{j}\) và một hệ số chặn \(\beta_0\). Công thức là: \[\mu_i = \beta_0 + \sum_{j=1}^p \beta_jx_{ji}\].

Các tham số \(\beta_0, \beta_1, \dots, \beta_p\) là các tham số hồi quy chưa biết cần ước lượng. Số lượng tham số hồi quy được ký hiệu là \(p'\), trong đó \(p' = p + 1\) nếu có hệ số chặn \(\beta_0\).

Biểu diễn Ma trận của Mô hình Tuyến tính:

Để xử lý hiệu quả các mô hình với nhiều biến giải thích, người ta sử dụng ký hiệu ma trận.

Vectơ phản hồi: \(\mathbf{y}\) là vectơ \(n \times 1\) chứa các giá trị quan sát \(y_i\).

Ma trận mô hình: \(\mathbf{X}\) là ma trận \(n \times p'\) chứa các giá trị của biến giải thích cho mỗi quan sát, cùng với một cột toàn số 1 cho hệ số chặn (nếu có). Các cột của \(\mathbf{X}\) thường bao gồm cột cho hệ số chặn, và các cột cho các biến giải thích.

Vectơ tham số: \(\boldsymbol{\beta}\) là vectơ \(p' \times 1\) chứa các tham số hồi quy \(\beta_0, \beta_1, \dots, \beta_p\).

Ma trận trọng số: \(\mathbf{W}\) là ma trận chéo \(n \times n\) với các trọng số \(w_i\) trên đường chéo chính. Ma trận nghịch đảo \(\mathbf{W}^{-1}\) có các giá trị \(1/w_i\) trên đường chéo chính. Nếu không có trọng số (tất cả \(w_i=1\)), \(\mathbf{W}\) là ma trận đơn vị \(\mathbf{I}_n\).

Quan hệ ma trận của mô hình: \[\text{E}[\mathbf{y}] = \boldsymbol{\mu} = \mathbf{X}\boldsymbol{\beta}\]\[\text{var}[\mathbf{y}] = \mathbf{W}^{-1}\sigma^2\].

Ước lượng Bình phương Tối thiểu bằng Ma trận:

Phương pháp bình phương tối thiểu có trọng số tìm vectơ tham số \(\boldsymbol{\beta}\) cực tiểu hóa tổng bình phương các sai lệch có trọng số \(S(\boldsymbol{\beta}) = \sum_{i=1}^n w_i(y_i - \mu_i)^2\), có thể viết trong ký hiệu ma trận là: \[S(\boldsymbol{\beta}) = (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})^T \mathbf{W} (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})\].

Ước lượng Hệ số (\(\hat{\boldsymbol{\beta}}\)):

Bằng cách cực tiểu hóa \(S(\boldsymbol{\beta})\), ước lượng bình phương tối thiểu cho vectơ tham số \(\boldsymbol{\beta}\) được tính bằng công thức ma trận: \[\hat{\boldsymbol{\beta}} = (\mathbf{X}^T \mathbf{WX})^{-1}\mathbf{X}^T \mathbf{Wy}\].

Các ước lượng \(\hat{\beta}_j\) là các ước lượng không chệch (unbiased estimators) của \(\beta_j\).

Ước lượng Phương sai Sai số (\(\sigma^2\)):

Ước lượng không chệch của phương sai sai số \(\sigma^2\) được ký hiệu là \(s^2\) hoặc mse (mean square error) và được tính từ tổng bình phương dư (residual sum-of-squares - rss). Công thức ma trận cho rss là: \[(\mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}})^T \mathbf{W} (\mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}})\],

\[s^2 = \text{rss} / (n - p')\].

Sai số Chuẩn của Hệ số (\(\text{se}(\hat{\boldsymbol{\beta}})\)):

Ma trận hiệp phương sai của các ước lượng hệ số \(\hat{\boldsymbol{\beta}}\) được cho bởi \(\text{var}[\hat{\boldsymbol{\beta}}] = (\mathbf{X}^T \mathbf{WX})^{-1}\sigma^2\). Sai số chuẩn của từng hệ số \(\hat{\beta}_j\) là căn bậc hai của phần tử thứ \(j\) trên đường chéo chính của ma trận hiệp phương sai này, sau khi thay \(\sigma^2\) bằng ước lượng \(s^2\).

Sai số Chuẩn của Giá trị Phù hợp (\(\text{se}(\hat{\boldsymbol{\mu}}_g)\)):

Đối với một vectơ giá trị biến giải thích mới \(\mathbf{x}_g\) (là một vectơ hàng \(1 \times p'\)), giá trị trung bình dự đoán là \(\hat{\mu}_g = \mathbf{x}_g\hat{\boldsymbol{\beta}}\). Phương sai của \(\hat{\mu}_g\)\(\text{var}[\hat{\mu}_g] = \mathbf{x}_g(\mathbf{X}^T \mathbf{WX})^{-1}\mathbf{x}_g^T \sigma^2\). Sai số chuẩn của \(\hat{\mu}_g\) là căn bậc hai của phương sai này với \(\sigma^2\) được thay bằng \(s^2\).

2.5 Biểu diễn mô hình hồi quy tuyến tính bằng ma trận

Ký hiệu Ma trận của Mô hình Hồi quy Tuyến tính

Mô hình hồi quy tuyến tính với \(p\) biến giải thích và hệ số chặn (tổng cộng \(p' = p+1\) tham số) được biểu diễn gọn lại bằng ma trận.

Vectơ phản hồi (\(\mathbf{y}\)): Một vectơ cột \(n \times 1\) chứa các giá trị quan sát của biến phản hồi (\(y_i\)).

Ma trận mô hình (\(\mathbf{X}\)): Một ma trận \(n \times p'\) chứa các giá trị của các biến giải thích cho mỗi quan sát. Cột đầu tiên của \(\mathbf{X}\) thường là cột chứa toàn số 1, tương ứng với hệ số chặn \(\beta_0\). Các cột tiếp theo chứa giá trị của các biến giải thích \(x_1, \dots, x_p\).

Vectơ tham số (\(\boldsymbol{\beta}\)): Một vectơ cột \(p' \times 1\) chứa các tham số hồi quy chưa biết \(\beta_0, \beta_1, \dots, \beta_p\) cần ước lượng.

Ma trận trọng số (\(\mathbf{W}\)): Một ma trận chéo \(n \times n\) với các trọng số dương đã biết \(w_i\) trên đường chéo chính. Nếu không có trọng số (tất cả \(w_i = 1\)), \(\mathbf{W}\) là ma trận đơn vị \(\mathbf{I}_n\).

Biểu diễn ma trận của mô hình:

Thành phần hệ thống: \[\text{E}[\mathbf{y}] = \boldsymbol{\mu} = \mathbf{X}\boldsymbol{\beta}\].

Thành phần ngẫu nhiên: \[\text{var}[\mathbf{y}] = \mathbf{W}^{-1}\sigma^2\].

Ước lượng Hệ số

Ước lượng bình phương tối thiểu có trọng số cho vectơ tham số \(\boldsymbol{\beta}\), ký hiệu là \(\hat{\boldsymbol{\beta}}\), được tìm bằng cách cực tiểu hóa tổng bình phương các sai lệch có trọng số trong ký hiệu ma trận \(S(\boldsymbol{\beta}) = (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})^T \mathbf{W} (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})\).

Công thức ước lượng \(\hat{\boldsymbol{\beta}}\) là:

\[\hat{\boldsymbol{\beta}} = (\mathbf{X}^T \mathbf{WX})^{-1}\mathbf{X}^T \mathbf{Wy}\]. Đây là công thức ma trận tổng quát của ước lượng bình phương tối thiểu có trọng số.

Ước lượng Phương sai Sai số (\(\sigma^2\))

Tổng bình phương dư (residual sum-of-squares - rss) trong ký hiệu ma trận là \[(\mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}})^T \mathbf{W} (\mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}})\].

Ước lượng không chệch của phương sai sai số \(\sigma^2\) được ký hiệu là \(s^2\) hoặc mse, và được tính bằng công thức: \(s^2 = \text{rss} / (n - p')\). Mẫu số \(n-p'\) là bậc tự do dư.

Ước lượng Phương sai và Sai số Chuẩn

Phương sai của Ước lượng Hệ số (\(\hat{\boldsymbol{\beta}}\)): Ma trận hiệp phương sai của vectơ ước lượng \(\hat{\boldsymbol{\beta}}\) được cho bởi công thức ma trận: \[\text{var}[\hat{\boldsymbol{\beta}}] = (\mathbf{X}^T \mathbf{WX})^{-1}\sigma^2\]. Các phần tử trên đường chéo chính của ma trận này là phương sai của từng ước lượng hệ số \(\hat{\beta}_j\).

Sai số Chuẩn của Hệ số (\(\text{se}(\hat{\boldsymbol{\beta}}_j)\)): Sai số chuẩn của từng hệ số \(\hat{\beta}_j\) là căn bậc hai của phần tử thứ \(j\) trên đường chéo chính của \(\text{var}[\hat{\boldsymbol{\beta}}]\), sau khi thay thế \(\sigma^2\) bằng ước lượng \(s^2\).

Phương sai của Giá trị Phù hợp (\(\hat{\mu}_g\)): Đối với một tập hợp giá trị biến giải thích mới được biểu diễn dưới dạng vectơ hàng \(\mathbf{x}_g\), giá trị phù hợp (dự đoán) là: \[\hat{\mu}_g = \mathbf{x}_g\hat{\boldsymbol{\beta}}\].

Phương sai của giá trị phù hợp này là: \[\text{var}[\hat{\mu}_g] = \mathbf{x}_g(\mathbf{X}^T \mathbf{WX})^{-1}\mathbf{x}_g^T \sigma^2\].

Sai số Chuẩn của Giá trị Phù hợp (\(\text{se}(\hat{\mu}_g)\)): Sai số chuẩn của \(\hat{\mu}_g\) là căn bậc hai của phương sai này, thay \(\sigma^2\) bằng \(s^2\).

2.6 Ước lượng mô hình hồi quy tuyến tính bằng phần mềm R

Hàm lm() để Khớp Mô hình Hồi quy Tuyến tính

Trong R, hàm chính được sử dụng để khớp (fit) các mô hình tuyến tính (bao gồm hồi quy tuyến tính) là lm(). Hàm này xử lý cả hồi quy tuyến tính đơn giản (một biến giải thích) và hồi quy tuyến tính đa biến (nhiều biến giải thích).

Cấu trúc cơ bản của hàm lm() sử dụng cú pháp formula để mô tả mối quan hệ giữa biến phản hồi và các biến giải thích (ví dụ: BienPhanHoi ~ BienGiaiThich1 + BienGiaiThich2).

Khớp Mô hình Hồi quy Tuyến tính Có Trọng số

Mô hình hồi quy tuyến tính có thể bao gồm trọng số đã biết \(w_i\). Hàm lm() hỗ trợ điều này thông qua đối số weights.

Khớp Mô hình Hồi quy Tuyến tính Đa biến

Để khớp mô hình với nhiều biến giải thích, các biến này được liệt kê trong phần formula của hàm lm() và được nối với nhau bằng dấu +.

Truy cập và Tóm tắt Kết quả

Hàm lm() trả về một đối tượng chứa kết quả của mô hình đã khớp.

Hàm summary() được sử dụng để xem tóm tắt chi tiết về kết quả mô hình, bao gồm ước lượng các hệ số (\(\hat{\boldsymbol{\beta}}\)), sai số chuẩn của chúng, giá trị t-statistic, p-value, ước lượng phương sai sai số (\(s^2\)), R-squared, v.v..

Các thành phần cụ thể của kết quả mô hình (ví dụ: các hệ số) có thể được trích xuất bằng các hàm khác như coef().

Các hàm đồ họa như abline() có thể sử dụng kết quả từ lm() (ví dụ: hệ số chặn và hệ số góc) để vẽ đường hồi quy lên biểu đồ.

CHƯƠNG 3: CÁC MÔ HÌNH HỒI QUY TUYẾN TÍNH- CHẨN ĐOÁN VÀ XÂY DỰNG MÔ HÌNH

Như hai chương trước đã chứng minh, quá trình xây dựng mô hình hồi quy tuyến tính hoặc bất kỳ mô hình hồi quy nào đều được hỗ trợ bởi các biểu đồ thăm dò dữ liệu, bằng cách phản ánh thiết kế thử nghiệm và xem xét các mối quan hệ khoa học giữa các biến. Quá trình này sẽ đảm bảo rằng mô hình phù hợp với dữ liệu.

Tuy nhiên, sau khi mô hình ứng viên được điều chỉnh cho phù hợp với dữ liệu, sẽ có các biện pháp và biểu đồ chuyên biệt có thể kiểm tra các giả định của mô hình và chẩn đoán các vấn đề có thể xảy ra chi tiết hơn. Chương này mô tả các công cụ này để phát hiện và làm nổi bật các vi phạm giả định trong các mô hình hồi quy tuyến tính.

Chương này tiếp tục thảo luận về một số phương án hành động có thể làm giảm các vấn đề đã xác định. Quá trình kiểm tra và xác định các vi phạm giả định của mô hình được gọi là phân tích chẩn đoán. Các giả định của mô hình hồi quy tuyến tính trước tiên được xem xét (Phần 3.2), sau đó là phần dư, các công cụ chính của phân tích chẩn đoán, được xác định (Phần 3.3). Tiếp theo, chúng tôi sẽ thảo luận về đòn bẩy, một thước đo vị trí của một quan sát so với vị trí quan sát trung bình (Phần 3.4).

Sau đó, các công cụ chẩn đoán khác nhau để kiểm tra các giả định của mô hình được giới thiệu (Phần 3.5) tiếp theo là các kỹ thuật để xác định các quan sát bất thường và có ảnh hưởng (Phần 3.6). Thuật ngữ về phần dư được tóm tắt trong Phần 3.7. Các kỹ thuật để khắc phục bất kỳ điểm yếu nào trong các mô hình được tóm tắt trong Phần 3.8 và được giải thích chi tiết hơn trong Phần 3.9 đến 3.13. Cuối cùng, vấn đề về đa cộng tuyến được thảo luận (Phần 3.14).

CHƯƠNG 4: PHƯƠNG PHÁP ƯỚC LƯỢNG HÀM HỢP LÍ CỰC ĐẠI (MLE)

4.1. Tổng quan

Chương này bắt đầu bằng việc chỉ ra giới hạn quan trọng của mô hình hồi quy tuyến tính cổ điển được giới thiệu trong Chương 2, đó là:

Giả định phương sai hằng số (homoscedasticity) và phân phối chuẩn cho phần dư.

Trong thực tế, nhiều loại dữ liệu không thỏa mãn giả định này — ví dụ: dữ liệu đếm (số lần xảy ra sự kiện), dữ liệu nhị phân (đúng/sai), dữ liệu phân loại…

==> Khi các giả định này bị vi phạm, ước lượng bình phương nhỏ nhất (OLS) không còn phù hợp, dẫn đến sai lệch trong kết quả hoặc kết luận sai lầm.

4.2. Các nội dung chính theo từng mục:

Phần 4.2

– Ba tình huống thất bại của hồi quy tuyến tính: Tác giả trình bày cụ thể ba loại dữ liệu/mô hình mà hồi quy tuyến tính không áp dụng được:

Dữ liệu nhị phân (binary outcomes),

Dữ liệu đếm (count data),

Dữ liệu có phương sai không đồng nhất.

Phần 4.3

– Mô hình hóa dữ liệu không phù hợp với hồi quy tuyến tính: Tác giả giới thiệu các mô hình thay thế, thường là mô hình tuyến tính tổng quát (GLM – Generalized Linear Models), trong đó:

Mối quan hệ giữa kỳ vọng của biến phản hồi và biến giải thích được mô hình hóa qua một hàm liên kết (link function),

Phân phối của biến phản hồi có thể thuộc họ phân phối hàm mũ (exponential family).

Phần 4.4

– Giới thiệu MLE một cách tổng quát: Trình bày ý tưởng cơ bản của MLE: tìm tập giá trị tham số làm cực đại hàm hợp lý dựa trên dữ liệu quan sát.

Phần 4.5

– MLE với một tham số: Giải thích MLE qua các ví dụ đơn giản (như phân phối nhị phân, Poisson), cách thiết lập và giải bài toán tối ưu.

Phần 4.6

– MLE với nhiều tham số: Mở rộng từ một tham số sang trường hợp nhiều tham số trong mô hình thống kê, Giới thiệu đạo hàm riêng, gradient, và điều kiện cực đại.

Phần 4.7

– Áp dụng đại số ma trận: Sử dụng đại số ma trận để biểu diễn gọn các công thức và ước lượng tham số, Giúp mô hình hóa và tính toán trong các tình huống phức tạp hiệu quả hơn.

Phần 4.8

– Lắp mô hình sử dụng MLE: Thực hành ước lượng tham số bằng MLE, Sử dụng phần mềm (như R) để thực hiện mô phỏng, lắp mô hình.

Phần 4.9

– Thuộc tính của ước lượng MLE: MLE có các thuộc tính tốt như:

Không chệch khi mẫu lớn,

Hiệu quả (có phương sai nhỏ nhất),

Tuân theo phân phối chuẩn khi cỡ mẫu lớn (theo định lý giới hạn trung tâm).

Phần 4.10

– Kiểm định giả thuyết: Trình bày cách kiểm định ý nghĩa thống kê cho các tham số mô hình thông qua:

Kiểm định Wald,

Kiểm định tỉ số hợp lý (likelihood ratio test),

Kiểm định điểm (score test).

Phần 4.11

– Khoảng tin cậy: Hướng dẫn xây dựng khoảng tin cậy cho các tham số trong mô hình MLE dựa trên phương sai ước lượng.

Phần 4.12

– So sánh các mô hình không lồng nhau: đưa ra cách so sánh giữa hai mô hình thống kê không lồng nhau (non-nested models), sử dụng tiêu chí như AIC (Akaike Information Criterion) hoặc BIC (Bayesian Information Criterion).

CHƯƠNG 5: MÔ HÌNH TUYẾN TÍNH TỔNG QUÁT: CẤU TRÚC

5.1.Tổng quan

Chương 5 được tác giả xây dựng nhằm giới thiệu một hướng tiếp cận tổng quát hơn trong mô hình hóa thống kê, đó là mô hình tuyến tính tổng quát (GLM – Generalized Linear Models). Chương này ra đời sau khi Chương 2 và 3 đã trình bày mô hình hồi quy tuyến tính và Chương 4 chỉ ra những hạn chế của mô hình này, đặc biệt là khi dữ liệu không có phương sai không đổi hoặc không tuân theo phân phối chuẩn. Do đó, mục tiêu của chương là cung cấp một khuôn khổ thống nhất để xử lý các loại dữ liệu đa dạng hơn bằng cách mở rộng mô hình hồi quy tuyến tính.

5.2.Nội dung từng phần

Phần 5.2

– Hai thành phần của GLM GLM được xây dựng từ hai thành phần chính:

Thành phần hệ thống: thể hiện mối quan hệ tuyến tính giữa các biến giải thích và một đại lượng liên quan đến kỳ vọng của biến phản hồi.

Thành phần ngẫu nhiên: mô tả sự biến thiên của dữ liệu thông qua một phân phối xác suất phù hợp, không chỉ giới hạn ở phân phối chuẩn như trong hồi quy tuyến tính.

Sự kết nối giữa hai thành phần này được thực hiện thông qua một hàm gọi là hàm liên kết.

Phần 5.3

– Họ phân phối hàm mũ (Exponential Family) GLM mở rộng khả năng phân tích bằng cách cho phép biến phản hồi đến từ nhiều loại phân phối khác nhau, không chỉ phân phối chuẩn. Các phân phối này (như nhị phân, Poisson, Gamma…) thuộc cùng một họ gọi là họ phân phối hàm mũ, có cấu trúc chung giúp dễ xử lý và tính toán trong mô hình hóa.

Việc hiểu rõ đặc điểm của họ phân phối này giúp xác định được các đặc tính quan trọng như kỳ vọng, phương sai và phù hợp mô hình.

Phần 5.4

– Mô hình phân tán hữu ích Phần này làm rõ cách biểu diễn các phân phối thuộc họ hàm mũ theo một cách chuẩn hóa. Cách viết này rất hữu ích vì:

Giúp đơn giản hóa các phép tính thống kê,

Cho phép xác định rõ các yếu tố như độ phân tán,

Hỗ trợ cho việc xây dựng mô hình và đánh giá độ phù hợp.

Phần 5.5

– Thành phần hệ thống trong GLM Tại đây, tác giả đi sâu vào cấu trúc tuyến tính của mô hình:

Thành phần hệ thống không thay đổi về mặt cấu trúc so với hồi quy tuyến tính,

Tuy nhiên, thông qua hàm liên kết, nó có thể kết nối với kỳ vọng của nhiều loại phân phối khác nhau.

Ngoài ra, phần này cũng giải thích rõ cách lựa chọn và áp dụng các hàm liên kết phù hợp với từng loại dữ liệu, chẳng hạn như logit cho dữ liệu nhị phân hay log cho dữ liệu đếm.

Phần 5.6

– Định nghĩa chính thức của GLM GLM được định nghĩa rõ ràng như một mô hình thống kê có:

Một phân phối xác định thuộc họ hàm mũ,

Một cấu trúc tuyến tính cho biến giải thích,

Một hàm liên kết kết nối kỳ vọng của biến phản hồi với cấu trúc tuyến tính đó.

Sự rõ ràng trong định nghĩa giúp người dùng dễ dàng xây dựng và áp dụng mô hình trong thực tế.

Phần 5.7

– Hàm độ lệch (Deviance) Hàm độ lệch là công cụ đánh giá mức độ phù hợp của mô hình GLM với dữ liệu quan sát.

Giá trị độ lệch càng nhỏ chứng tỏ mô hình mô tả dữ liệu càng tốt.

Hàm này còn được dùng để so sánh hai mô hình khác nhau hoặc kiểm định giả thuyết.

Phần này đặc biệt quan trọng vì nó thay thế cho các tiêu chí như tổng bình phương sai số trong hồi quy tuyến tính.

Phần 5.8

– So sánh với mô hình biến đổi phản hồi Trong phần này, tác giả so sánh giữa hai cách tiếp cận:

Sử dụng GLM với hàm liên kết thích hợp để mô hình hóa trực tiếp phản hồi,

Hoặc biến đổi phản hồi (chẳng hạn như log hoặc căn bậc hai) rồi dùng mô hình hồi quy tuyến tính.

GLM được xem là linh hoạt và chính xác hơn trong việc diễn giải kết quả, vì nó dựa trên nền tảng phân phối xác suất rõ ràng và không làm mất đi tính nguyên gốc của dữ liệu.

CHƯƠNG 6: MÔ HÌNH TUYẾN TÍNH TỔNG QUÁT: ƯỚC LƯỢNG

6.1. Tổng quan

Chương này tập trung vào kỹ thuật ước lượng các tham số trong GLM bằng phương pháp độ tin cậy tối đa, giải thích rõ các công cụ toán học cần thiết và thuật toán lặp để tìm ước lượng, đồng thời cung cấp cách đánh giá chất lượng ước lượng thông qua sai số chuẩn và độ lệch dư. Cuối cùng, chương kết nối lý thuyết với thực hành bằng phần mềm R.

6.2 Nội dung chính từng phần

Phần 6.2

– Phương trình điểm (score equations) và ma trận thông tin Fisher trong GLM Phần này tập trung vào việc thiết lập nền tảng toán học cho quá trình ước lượng tham số trong GLM. Phương trình điểm là đạo hàm của hàm log-likelihood theo tham số, biểu diễn sự thay đổi của hàm hợp lý khi tham số thay đổi. Việc giải các phương trình này giúp tìm điểm cực đại của hàm log-likelihood, tức ước lượng tối đa xác suất (MLE). Ma trận thông tin Fisher cung cấp thông tin về độ cong của hàm log-likelihood tại điểm cực đại, được sử dụng để đo lường độ chính xác và biến thiên của các ước lượng tham số. Phần này rất quan trọng vì nó định nghĩa các công cụ toán học để xây dựng thuật toán lặp tiếp theo.

Phần 6.3

– Thuật toán lặp để ước lượng tham số hồi quy trong GLM Dựa trên phương trình điểm và ma trận thông tin, phần này trình bày các thuật toán cụ thể, chủ yếu là thuật toán Newton-Raphson hoặc Fisher scoring, để tìm ước lượng tham số hồi quy tối đa xác suất. Các thuật toán này hoạt động theo vòng lặp: bắt đầu với giá trị ước lượng ban đầu, sau đó liên tục cập nhật tham số cho đến khi sự thay đổi giữa các lần lặp trở nên rất nhỏ (hội tụ). Đây là bước thực tiễn quan trọng, vì hầu hết các mô hình GLM không có nghiệm đóng nên phải dùng phương pháp số để ước lượng.

Phần 6.4

– Độ lệch dư (deviance residuals) Phần này định nghĩa độ lệch dư như một đại lượng thể hiện phần khác biệt giữa mô hình đã phù hợp và mô hình bão hòa (mô hình hoàn hảo phù hợp với dữ liệu). Nó đo lường mức độ biến thiên còn lại chưa được giải thích bởi mô hình. Độ lệch dư được tính trên từng quan sát giúp phát hiện các điểm dữ liệu có ảnh hưởng mạnh hoặc bất thường. Đây là công cụ quan trọng để đánh giá chất lượng mô hình và phát hiện sai lệch hoặc mô hình không phù hợp.

Phần 6.5

– Sai số chuẩn của các tham số hồi quy Sau khi có ước lượng tham số, cần đánh giá độ tin cậy của các ước lượng này. Phần này phát triển công thức tính sai số chuẩn (standard errors) của tham số hồi quy, dựa trên nghịch đảo của ma trận thông tin Fisher. Sai số chuẩn giúp xây dựng các khoảng tin cậy và thực hiện các kiểm định giả thuyết về tham số, là bước quan trọng trong việc kiểm định ý nghĩa thống kê của biến giải thích trong mô hình.

Phần 6.6

– Công thức ma trận trong ước lượng tham số hồi quy Ở phần này, tác giả trình bày cách biểu diễn các phép tính ước lượng tham số dưới dạng đại số ma trận. Việc này giúp tăng hiệu quả tính toán, đặc biệt khi số lượng biến giải thích lớn. Biểu diễn ma trận giúp dễ dàng cài đặt thuật toán trong phần mềm và hỗ trợ các thao tác đại số phức tạp cần thiết trong quá trình lặp ước lượng.

Phần 6.7

– Mối liên hệ giữa thuật toán ước lượng trong hồi quy tuyến tính và GLM Phần này phân tích sự tương đồng và khác biệt giữa thuật toán ước lượng trong mô hình hồi quy tuyến tính (dựa trên phương pháp bình phương tối thiểu) và GLM (dựa trên độ tin cậy tối đa). Việc hiểu rõ mối liên hệ này giúp người đọc nhận biết GLM là một mở rộng tổng quát hơn của hồi quy tuyến tính, đồng thời nắm được cơ sở toán học và nguyên tắc chung của các thuật toán ước lượng.

Phần 6.8

– Ước lượng tham số phân tán φ Phần này tập trung vào việc ước lượng tham số phân tán φ, tham số thể hiện mức độ biến thiên chưa giải thích trong dữ liệu. Trong GLM, một số phân phối như Gamma hoặc Gaussian có tham số này, khác với hồi quy tuyến tính chuẩn. Việc ước lượng φ giúp cải thiện độ chính xác của mô hình và điều chỉnh sai số chuẩn, ảnh hưởng đến các kiểm định thống kê và dự báo.

Phần 6.9

– Sử dụng phần mềm R để ước lượng GLM Phần cuối cùng này chuyển sang ứng dụng thực tế, hướng dẫn cách sử dụng R – một công cụ phổ biến trong thống kê – để xây dựng và ước lượng GLM. Tác giả cung cấp các lệnh cơ bản, cách nhập dữ liệu, chạy mô hình, và trích xuất kết quả ước lượng, giúp người đọc không chỉ hiểu lý thuyết mà còn có thể áp dụng vào thực hành phân tích dữ liệu.

6.3. Kết luận

Chương 6 nhằm trang bị cho người đọc hiểu sâu về phương pháp ước lượng tham số trong GLM, bao gồm các công cụ toán học (phương trình điểm, ma trận thông tin), thuật toán lặp, các đại lượng đánh giá mô hình (độ lệch dư, sai số chuẩn), cũng như cách áp dụng trong thực tế qua phần mềm R. Qua đó, chương hướng đến giúp người đọc vừa nắm vững lý thuyết vừa làm chủ kỹ năng phân tích dữ liệu bằng GLM một cách toàn diện.

CHƯƠNG 7: MÔ HÌNH TUYẾN TÍNH TỔNG QUÁT: SUY LUẬN

Tổng quan

Chương 7 trình bày các phương pháp suy luận thống kê trong mô hình tuyến tính tổng quát (GLM) dựa trên lý thuyết khả năng, bao gồm kiểm định Wald, điểm số và tỷ lệ khả năng. Chương thảo luận cách suy luận khi tham số phân tán biết hoặc không biết, kiểm tra độ phù hợp của mô hình, so sánh các mô hình không lồng nhau và các phương pháp tự động chọn mô hình. Nội dung giúp đánh giá và lựa chọn mô hình GLM phù hợp với dữ liệu thực tế.

7.1 Nội dung chính từng phần

Phần 7.2

– Suy luận khi tham số phân tán φ được biết Phần này tập trung vào các phương pháp suy luận thống kê (như kiểm định giả thuyết, ước lượng khoảng) trong trường hợp tham số phân tán φ đã được biết trước. Việc giả định φ biết giúp đơn giản hóa các công thức và các bước tính toán, tạo tiền đề cho việc phát triển các kỹ thuật phức tạp hơn khi φ không xác định.

Phần 7.3

– Các kết quả tiệm cận mẫu lớn Ở đây, tác giả trình bày các kết quả về tính chất phân phối của các thống kê kiểm định khi kích thước mẫu trở nên rất lớn. Những kết quả này dựa trên lý thuyết giới hạn và đảm bảo rằng các phương pháp kiểm định sẽ cho kết quả gần đúng đúng đắn khi số liệu đủ lớn. Đây là cơ sở quan trọng để đánh giá độ chính xác của các phương pháp suy luận khi áp dụng vào dữ liệu thực tế có số lượng mẫu lớn.

Phần 7.4

– Kiểm định độ phù hợp của mô hình tuyến tính Phần này giới thiệu các bài kiểm tra dùng để đánh giá xem mô hình tuyến tính (bộ dự báo tuyến tính) có mô tả đúng và đầy đủ các xu hướng hệ thống trong dữ liệu hay không. Đây là bước quan trọng để kiểm tra xem mô hình GLM đã xây dựng có phù hợp với dữ liệu hay cần điều chỉnh thêm.

Phần 7.5

– Kết quả phân phối cho kiểm định độ phù hợp trong các trường hợp phân tán nhỏ Ở phần này, tác giả bàn về các kết quả phân phối của các bài kiểm định độ phù hợp trong các trường hợp kích thước mẫu không lớn, hay còn gọi là “phân tán nhỏ”. Điều này nhằm giúp người dùng biết khi nào các kết quả tiệm cận mẫu lớn có thể không chính xác và cần sử dụng các phương pháp hoặc hiệu chỉnh khác.

Phần 7.6

– Suy luận khi tham số phân tán φ không xác định Phần này mở rộng các phương pháp suy luận cho trường hợp φ chưa biết trước và phải được ước lượng từ dữ liệu. Việc này làm phức tạp hơn quá trình phân tích nhưng phản ánh thực tế thường gặp. Phần này cũng thảo luận về các ước lượng khác nhau của φ và tác động của chúng đến kết quả suy luận.

Phần 7.7

– So sánh các bài kiểm tra Wald, điểm số và tỷ lệ khả năng Tác giả so sánh ba loại kiểm định chính dựa trên lý thuyết khả năng:

Kiểm định Wald: Dựa vào ước lượng tham số và sai số chuẩn.

Kiểm định điểm số: Dựa vào đạo hàm bậc nhất của hàm log-likelihood tại giá trị giả thuyết.

Kiểm định tỷ lệ khả năng: So sánh sự phù hợp của hai mô hình khác nhau. Phần này giúp người đọc hiểu ưu nhược điểm, cũng như điều kiện áp dụng phù hợp của từng kiểm định.

Phần 7.8

– Kỹ thuật so sánh các GLM không lồng nhau Phần này tập trung vào phương pháp để so sánh các mô hình GLM không lồng nhau (không phải là trường hợp một mô hình là trường hợp con của mô hình kia). Đây là thách thức vì các phương pháp kiểm định thông thường như tỷ lệ khả năng không áp dụng được trực tiếp, nên cần các kỹ thuật đặc biệt để chọn mô hình tốt nhất.

Phần 7.9

– Phương pháp tự động chọn mô hình GLM Phần cuối cùng trình bày các kỹ thuật tự động giúp chọn ra mô hình GLM tối ưu từ một tập các mô hình ứng viên, dựa trên các tiêu chí như AIC, BIC, hoặc các thuật toán chọn biến. Đây là phần thực tiễn, giúp đơn giản hóa quá trình xây dựng mô hình và tối ưu hóa hiệu quả phân tích.

7.2 Kết luận

Chương 7 cung cấp một cái nhìn toàn diện về các phương pháp suy luận thống kê trong GLM dựa trên lý thuyết khả năng, bao gồm cả khi tham số phân tán được biết hoặc chưa biết. Qua đó, chương không chỉ trình bày các công cụ kiểm định và ước lượng tham số mà còn đánh giá sự phù hợp của mô hình và so sánh các mô hình khác nhau. Đặc biệt, chương cũng tập trung vào các phương pháp thực tiễn giúp chọn lựa mô hình tốt nhất trong bối cảnh dữ liệu thực tế, từ đó tăng cường khả năng áp dụng GLM trong nghiên cứu và phân tích dữ liệu thực nghiệm.

CHƯƠNG 8: MÔ HÌNH TUYẾN TÍNH TỔNG QUÁT: CHUẨN ĐOÁN

8.1. Tổng quan

Chương này giới thiệu một số công cụ cần thiết để phát hiện vi phạm các giả định trong glm, sau đó thảo luận về các giải pháp khả thi. Các giả định của glm đầu tiên được xem xét (Phần 8.2), sau đó ba loại phần dư cơ bản (Pearson, độ lệch và phân vị) được định nghĩa (Phần 8.3). Sau đó, các đòn bẩy được đưa ra trong bối cảnh glm (Phần 8.4) dẫn đến việc phát triển các phần dư chuẩn hóa (Phần 8.5). Các công cụ chẩn đoán khác nhau để kiểm tra các giả định của mô hình được giới thiệu (Phần 8.7) tiếp theo là các kỹ thuật để xác định các quan sát bất thường và có ảnh hưởng (Phần 8.8). Các bình luận về việc sử dụng từng loại phần dư và danh pháp của phần dư được đưa ra trong Phần 8.6. Sau đó, chúng tôi thảo luận về các kỹ thuật để khắc phục hoặc cải thiện bất kỳ điểm yếu nào trong các mô hình (Phần 8.9), bao gồm cả việc giới thiệu về khả năng gần đúng (Phần 8.10). Cuối cùng, tính đa cộng tuyến được thảo luận (Phần 8.11).

8.2 Nội dung chính

Phần 8.2: Giả định của GLM Phần này đặt nền tảng bằng cách liệt kê và giải thích các giả định quan trọng nhất mà GLM dựa vào, chẳng hạn như:

Biến phản hồi độc lập với nhau (không tự tương quan).

Thành phần ngẫu nhiên của mô hình tuân theo phân phối thuộc họ phân phối chuẩn hóa thiên về mô hình phân tán (EDM).

Mối quan hệ giữa biến giải thích và biến phản hồi được biểu diễn thông qua hàm liên kết. Hiểu rõ các giả định này rất quan trọng vì vi phạm bất kỳ giả định nào có thể dẫn đến kết quả ước lượng sai lệch hoặc không hiệu quả.

Phần 8.3: Các loại phần dư cơ bản Ba loại phần dư được giới thiệu là công cụ đánh giá chính để kiểm tra sự phù hợp và các giả định của mô hình:

Phần dư Pearson: Đánh giá sự khác biệt giữa giá trị quan sát và giá trị kỳ vọng dự đoán, chuẩn hóa theo độ lệch chuẩn.

Phần dư độ lệch: Dựa trên hàm độ lệch, đánh giá độ phù hợp của mô hình tổng thể.

Phần dư phân vị: Đo lường độ lệch theo vị trí phần trăm, hữu ích cho các mô hình không chuẩn hóa. Mỗi loại phần dư có cách ứng dụng và nhược điểm riêng, việc hiểu rõ sự khác biệt này giúp lựa chọn phương pháp chẩn đoán phù hợp.

Phần 8.4: Đòn bẩy trong GLM

Đòn bẩy (leverage) đo mức độ ảnh hưởng của từng điểm dữ liệu lên các ước lượng mô hình.

Quan sát có đòn bẩy cao nghĩa là chúng có thể thay đổi đáng kể các tham số của mô hình nếu bị loại bỏ hoặc thay đổi giá trị.

Phần này trình bày cách tính đòn bẩy trong bối cảnh GLM, khác với hồi quy tuyến tính đơn giản do tính phi tuyến của GLM. Hiểu đòn bẩy giúp phát hiện các điểm dữ liệu ngoại lai quan trọng, tránh sai lệch trong phân tích.

Phần 8.5: Phần dư chuẩn hóa

Phần dư chuẩn hóa là phần dư được điều chỉnh theo đòn bẩy để giảm ảnh hưởng của các quan sát có độ ảnh hưởng cao.

Việc chuẩn hóa này giúp phần dư dễ so sánh giữa các quan sát và phát hiện các điểm dữ liệu có sai lệch lớn một cách chính xác hơn.

Phần này trình bày cách tính và sử dụng phần dư chuẩn hóa trong GLM.

Phần 8.6: Bình luận về phần dư và danh pháp

Để tránh nhầm lẫn trong ứng dụng thực tế, phần này làm rõ cách sử dụng các loại phần dư, tên gọi chính xác, và các tình huống thích hợp cho từng loại.

Điều này quan trọng trong việc giao tiếp và trình bày kết quả phân tích.

Cung cấp khung chuẩn để người dùng có thể áp dụng thống nhất trong các nghiên cứu.

Phần 8.7: Công cụ chẩn đoán

Trình bày các biểu đồ và phương pháp thống kê hỗ trợ kiểm tra giả định mô hình:

Biểu đồ phần dư so với giá trị dự đoán, biểu đồ QQ để kiểm tra phân phối phần dư.

Các công cụ này giúp phát hiện các mô hình bị sai lệch, không phù hợp hoặc các vấn đề khác như heteroscedasticity.

Công cụ chẩn đoán là bước quan trọng để xác định các bước tiếp theo trong xử lý mô hình.

Phần 8.8: Quan sát bất thường và có ảnh hưởng Phần này mở rộng việc phát hiện các quan sát bất thường không chỉ dựa trên phần dư mà còn dựa trên đòn bẩy và các tiêu chí khác.

Các quan sát này có thể gây ra sai lệch lớn hoặc ảnh hưởng quá mức đến các tham số mô hình.

Việc phát hiện và xử lý các quan sát này là cần thiết để đảm bảo tính ổn định và độ tin cậy của mô hình.

Phần 8.9: Kỹ thuật khắc phục và cải thiện mô hình

Sau khi phát hiện các vi phạm giả định, phần này trình bày các giải pháp xử lý:

Chuyển đổi biến (log, square root, Box-Cox) để ổn định phương sai hoặc làm tuyến tính hóa mối quan hệ.

Sử dụng các mô hình khác phù hợp hơn như GLM với phân phối khác hoặc mô hình phi tham số.

Thay đổi phương pháp ước lượng hoặc thêm các thành phần mô hình để tăng độ phù hợp. Mục tiêu là cải thiện chất lượng mô hình và giảm thiểu ảnh hưởng tiêu cực của các vi phạm giả định.

Phần 8.10: Giới thiệu về khả năng gần đúng

Phần này trình bày các phương pháp xấp xỉ để giải quyết những khó khăn khi các giả định không hoàn toàn được thỏa mãn, ví dụ như:

Sử dụng phương pháp bootstrap, các ước lượng robust để làm cho kết quả phân tích có tính bền vững hơn.

Các phương pháp này giúp mở rộng khả năng áp dụng GLM cho các trường hợp thực tế phức tạp hơn.

Phần 8.11: Tính đa cộng tuyến

Phần cuối cùng này nhấn mạnh vấn đề đa cộng tuyến giữa các biến giải thích, là nguyên nhân gây ra:

Biến động lớn trong ước lượng tham số hồi quy, khó giải thích ý nghĩa của biến.

Giảm độ ổn định của mô hình và gây nhầm lẫn trong phân tích. Phần này đề xuất các cách phát hiện (chỉ số VIF, hệ số tương quan) và cách xử lý như loại bỏ biến, kết hợp biến hoặc sử dụng các phương pháp điều chỉnh.

8.2 Kết luận

Chương 8 cung cấp một bộ công cụ toàn diện để phát hiện và xử lý các vi phạm giả định trong GLM, giúp đảm bảo mô hình được xây dựng có tính chính xác và độ tin cậy cao hơn. Việc sử dụng đúng các phần dư, đánh giá đòn bẩy và xử lý các quan sát bất thường, cùng với kiểm soát đa cộng tuyến, là các bước thiết yếu để cải thiện chất lượng phân tích thống kê và kết quả suy luận.

CHƯƠNG 9: MÔ HÌNH TUYẾN TÍNH TỔNG QUÁT (GLM) NHỊ THỨC (BINOMIAL GLM)

9.1. Tổng quan

Chương 9 tập trung vào một dạng cụ thể của mô hình tuyến tính tổng quát (GLM) — đó là GLM nhị thức (binomial GLM). Đây là loại mô hình rất phổ biến và thường dùng nhất trong các ứng dụng GLM, chủ yếu dùng để mô hình hóa các biến tỷ lệ (proportion) hoặc xác suất thành công trong một chuỗi các quan sát độc lập.

9.2 Nội dung chính

Phần 9.2: Phân phối nhị thức Trình bày các đặc điểm cơ bản của phân phối nhị thức: số lượng thành công trong tổng số các thử nghiệm độc lập, mỗi thử nghiệm có xác suất thành công cố định.

Hiểu rõ phân phối này là nền tảng để xây dựng mô hình GLM nhị thức, giúp mô tả chính xác các biến dạng tỷ lệ hoặc nhị phân.

Phần 9.3: Các hàm liên kết phổ biến cho GLM nhị thức Giới thiệu các hàm liên kết thường dùng như hàm logit (log-odds), probit, và complementary log-log.

Hàm liên kết là cầu nối giữa biến độc lập tuyến tính và xác suất thành công, quyết định cách mô hình xử lý dữ liệu.

Phần này giúp người đọc lựa chọn hàm liên kết phù hợp với bản chất dữ liệu và mục đích phân tích.

Phần 9.4: Giải thích ngưỡng của hàm liên kết Giải thích ý nghĩa của ngưỡng (threshold) trong hàm liên kết, tức điểm tại đó xác suất thành công bằng 0.5 hoặc một mức cố định khác.

Điều này giúp làm sáng tỏ cách thức mô hình phân loại hoặc dự đoán kết quả dựa trên biến độc lập.

Phần 9.5: Giải thích mô hình theo tỷ lệ cược (odds ratio) Phân tích cách mô hình GLM nhị thức thường được diễn giải qua tỷ lệ cược, một khái niệm phổ biến trong thống kê y sinh và khoa học xã hội.

Tỷ lệ cược giúp hiểu mức độ thay đổi rủi ro hoặc khả năng xảy ra sự kiện khi biến giải thích thay đổi.

Phần này rất quan trọng để người dùng hiểu ý nghĩa thực tiễn của các hệ số ước lượng.

Phần 9.6: Ước tính liều hiệu quả trung bình ED50 Giới thiệu cách sử dụng GLM nhị thức để ước lượng liều lượng cần thiết để đạt 50% hiệu quả (ED50), thường dùng trong nghiên cứu dược lý và sinh học.

Đây là ứng dụng quan trọng thể hiện tính linh hoạt và ứng dụng thực tế của GLM nhị thức trong các lĩnh vực khoa học đời sống.

Phần 9.8: Phân tán quá mức (overdispersion) Thảo luận về vấn đề phân tán quá mức khi dữ liệu có độ biến thiên lớn hơn so với giả định của phân phối nhị thức.

Phân tán quá mức có thể làm sai lệch ước lượng và làm suy yếu các kết quả suy luận.

Phần này cung cấp cái nhìn và cảnh báo quan trọng, đồng thời gợi ý các phương pháp xử lý vấn đề này.

Phần 9.9: Cảnh báo về vấn đề tiềm ẩn với ước tính tham số trong GLM nhị thức Nêu ra các vấn đề như ước tính không ổn định hoặc bias có thể xảy ra trong quá trình ước lượng tham số, đặc biệt khi mẫu nhỏ hoặc dữ liệu bị phân bố không đều.

Cảnh báo này giúp người đọc cẩn trọng và xem xét các phương pháp thay thế hoặc điều chỉnh phù hợp.

Phần 9.10: Lý do các bài kiểm tra độ phù hợp không phù hợp với dữ liệu nhị phân Giải thích vì sao các bài kiểm tra độ phù hợp truyền thống (như Pearson hoặc deviance tests) có thể không phản ánh chính xác tính phù hợp của mô hình với dữ liệu nhị phân.

Điều này giúp người đọc hiểu giới hạn của các kiểm định thông dụng và cân nhắc các phương pháp khác khi đánh giá mô hình.

9.3 Kết luận

Chương 9 cung cấp một cái nhìn chuyên sâu về GLM nhị thức, mô hình rất phổ biến và hữu ích trong thực tế, đặc biệt khi làm việc với các biến tỷ lệ hoặc nhị phân. Các nội dung từ phân phối nhị thức, lựa chọn hàm liên kết, giải thích kết quả qua tỷ lệ cược đến các vấn đề thực tế như phân tán quá mức và kiểm tra độ phù hợp được trình bày đầy đủ.

Qua đó, chương giúp người đọc:

Hiểu cách xây dựng và ứng dụng GLM nhị thức một cách chính xác.

Nhận diện và xử lý các vấn đề thực tiễn phát sinh trong phân tích.

Nắm được các khía cạnh lý thuyết và thực tiễn cần thiết để vận dụng hiệu quả mô hình trong các lĩnh vực đa dạng, đặc biệt trong khoa học đời sống và xã hội.

CHƯƠNG 10: CÁC MÔ HÌNH CHO DỮ LIỆU ĐẾM - MÔ HÌNH GLM POISSON VÀ NEGATIVE

10.1. Tổng quan

Chương 10 tập trung vào mô hình cho dữ liệu dạng số đếm, một dạng dữ liệu rất phổ biến trong nhiều lĩnh vực thực tế như vật lý, y tế, kỹ thuật,… Dữ liệu số đếm thường bao gồm các sự kiện xảy ra độc lập, với số lượng sự kiện không giới hạn hoặc giới hạn trên rất lớn so với các giá trị quan sát được. Mục tiêu của chương là giới thiệu các mô hình thống kê phù hợp để phân tích và mô hình hóa dữ liệu đếm này, đồng thời xử lý các vấn đề thực tiễn như phân tán quá mức.

10.2 Nội dung chính

Phần 10.2: Phân phối Poisson

Giới thiệu phân phối Poisson, phân phối cơ bản và phổ biến nhất cho dữ liệu đếm.

Phân phối này mô hình số sự kiện xảy ra trong khoảng thời gian hoặc không gian cố định, với giả định các sự kiện độc lập và xảy ra với tần suất trung bình cố định.

Hiểu rõ phân phối Poisson là nền tảng để xây dựng mô hình hồi quy Poisson, rất quan trọng trong phân tích số đếm.

Phần 10.3: Mô hình cho tỷ lệ

Trình bày các mô hình xử lý dữ liệu tỷ lệ liên quan đến số đếm, tức số đếm được chuẩn hóa theo kích thước hoặc thời gian (ví dụ số ca bệnh trên 1000 dân).

Mô hình này giúp phân tích các tỷ lệ sự kiện thay vì chỉ số đếm thô, phù hợp với nhiều ứng dụng thực tế.

Phần 10.4: Mô hình cho số đếm được sắp xếp theo bảng

Thảo luận mô hình hóa dữ liệu đếm được tổ chức dạng bảng (cross-tabulations), ví dụ như đếm số sự kiện theo nhóm hoặc theo các biến phân loại.

Đây là tình huống thường gặp trong thực tế khi dữ liệu đếm được thu thập theo các nhóm hoặc lớp khác nhau.

Phần 10.5: Phân tán quá mức và các mô hình thay thế

Đề cập đến vấn đề phân tán quá mức (overdispersion), tức khi phương sai dữ liệu lớn hơn giá trị kỳ vọng trong phân phối Poisson, làm cho mô hình Poisson không còn phù hợp.

Giới thiệu các mô hình thay thế như mô hình nhị thức âm (Negative Binomial) và mô hình Poisson bán phần (quasi-Poisson) để xử lý vấn đề này.

Những mô hình này cung cấp sự linh hoạt hơn và khả năng mô hình hóa dữ liệu thực tế tốt hơn khi có phân tán quá mức.

10.3 Kết luận

Chương 10 là phần quan trọng giúp người đọc hiểu và áp dụng các mô hình thống kê phù hợp cho dữ liệu dạng số đếm, một loại dữ liệu rất phổ biến và thiết yếu trong nhiều lĩnh vực nghiên cứu và ứng dụng. Qua các phần từ phân phối Poisson cơ bản đến các mô hình cho tỷ lệ và dữ liệu đếm theo bảng, cũng như các kỹ thuật xử lý phân tán quá mức, chương này cung cấp một bộ công cụ lý thuyết và thực hành toàn diện để phân tích số đếm một cách hiệu quả và chính xác.

Chương cũng nhấn mạnh tầm quan trọng của việc nhận diện các giả định phân phối và điều chỉnh mô hình khi có dấu hiệu phân tán quá mức để tránh sai sót trong suy luận và dự báo. Đây là kiến thức nền tảng giúp tiếp tục nghiên cứu và ứng dụng các mô hình GLM nâng cao khác trong các chương tiếp theo.

CHƯƠNG 11: DỮ LIỆU LIÊN TỤC DƯƠNG - MÔ HÌNH GLM VỚI PHÂN PHỐI GAMMA VÀ INVERSE GAUSSION

11.1 Tổng quan

Chương này tập trung vào việc mô hình hóa dữ liệu liên tục dương – loại dữ liệu phổ biến trong thực tế khi đo các đại lượng vật lý luôn mang giá trị dương, chẳng hạn như thời gian, khối lượng, thể tích,… Chương giới thiệu các mô hình hồi quy tổng quát (GLM) phù hợp với dạng dữ liệu này, đặc biệt là dựa trên hai phân phối thuộc họ phân phối khả nghịch (exponential family): phân phối Gamma và phân phối Gauss nghịch đảo. Qua đó, chương nhấn mạnh tầm quan trọng của việc lựa chọn hàm liên kết phù hợp để đảm bảo mô hình hóa chính xác và linh hoạt các mối quan hệ giữa biến phản hồi và biến giải thích.

11.2 Nội dung chính

Phần 11.2: Giới thiệu mô hình hóa dữ liệu liên tục dương

Phần này trình bày tổng quan về đặc điểm dữ liệu liên tục dương và lý do cần các mô hình đặc thù thay vì các mô hình hồi quy tuyến tính thông thường.

Giải thích các đặc tính thống kê của loại dữ liệu này và thách thức khi mô hình hóa như phân bố không đối xứng, biến thiên phụ thuộc giá trị trung bình,…

Đây là nền tảng để hiểu rõ hơn các phân phối được dùng trong các phần sau.

Phần 11.3: Phân phối Gamma

Trình bày chi tiết về phân phối Gamma, một phân phối phổ biến để mô hình hóa dữ liệu dương có phân bố lệch phải (right-skewed).

Thảo luận về đặc điểm phân phối, các tham số và lý do phân phối Gamma phù hợp để mô hình hóa lượng đo dương liên tục trong nhiều trường hợp thực tế.

Phần 11.4: Phân phối Gauss nghịch đảo

Giới thiệu phân phối Gauss nghịch đảo (Inverse Gaussian), một phân phối khác cũng thường được sử dụng cho dữ liệu dương liên tục.

Trình bày đặc điểm, tính chất và ứng dụng của phân phối này, đồng thời so sánh với phân phối Gamma để giúp chọn lựa mô hình phù hợp tùy vào đặc điểm dữ liệu.

Phần 11.5: Sử dụng các hàm liên kết

Thảo luận về vai trò và cách chọn các hàm liên kết trong GLM khi mô hình hóa dữ liệu liên tục dương.

Việc lựa chọn hàm liên kết phù hợp giúp mô hình hóa mối quan hệ giữa biến giải thích và biến phản hồi một cách chính xác, đồng thời đảm bảo tính ổn định và dễ giải thích của mô hình.

Phần 11.6: Ước tính tham số phân tán φ

Xem xét cách ước tính tham số phân tán φ trong các mô hình GLM cho dữ liệu liên tục dương, điều này quan trọng để đánh giá độ phù hợp mô hình và tính chính xác của các ước lượng tham số.

Đây là bước cần thiết để hoàn thiện mô hình và đảm bảo các suy luận thống kê chính xác.

11.3 Kết luận

Chương 11 cung cấp một khung lý thuyết và thực tiễn quan trọng để xử lý và mô hình hóa dữ liệu liên tục dương, giúp mở rộng ứng dụng của các GLM trong nhiều lĩnh vực như y tế, kỹ thuật, kinh tế,… Việc lựa chọn phân phối phù hợp (Gamma hoặc Gauss nghịch đảo) cùng với hàm liên kết thích hợp tạo điều kiện để mô hình hóa các mối quan hệ phức tạp trong dữ liệu một cách chính xác và hiệu quả. Chương cũng nhấn mạnh tầm quan trọng của ước tính tham số phân tán nhằm đảm bảo độ tin cậy của mô hình. Qua đó, người đọc có thể áp dụng các kiến thức này để xây dựng các mô hình GLM phù hợp với dữ liệu thực tế mang tính liên tục và dương, từ đó nâng cao chất lượng phân tích và dự báo.

CHƯƠNG 12: PHÂN PHỐI TWEEDIE (TWEEDIE GLM)

12.1. Tổng quan

Chương này tập trung vào giới thiệu một lớp rộng hơn các mô hình hồi quy tổng quát (GLMs) dựa trên Tweedie exponential dispersion models (EDMs) — một họ phân phối tổng quát hóa nhiều phân phối quen thuộc như chuẩn, Poisson, gamma và Gaussian nghịch đảo. Tweedie EDMs mở rộng khả năng mô hình hóa cho nhiều loại dữ liệu đa dạng hơn, bao gồm cả dữ liệu liên tục dương, dữ liệu có nhiều giá trị 0 và những dạng dữ liệu phức tạp khác mà các mô hình GLM truyền thống khó xử lý hiệu quả.

12.2 Nội dung chính

Phần 12.2: Giới thiệu chung về Tweedie EDMs

Trình bày tổng quan về Tweedie EDMs, làm rõ đây là họ phân phối mở rộng, bao gồm nhiều phân phối cụ thể đã biết dưới dạng trường hợp đặc biệt.

Giải thích các đặc điểm chính và tính linh hoạt của Tweedie EDMs, giúp người đọc hiểu được tầm quan trọng và lý do tại sao nên sử dụng lớp mô hình này trong các ứng dụng thực tế.

Phần 12.2.3: Tweedie EDMs cho dữ liệu liên tục dương

Nghiên cứu chi tiết một tập hợp con quan trọng của Tweedie EDMs dùng để mô hình hóa dữ liệu liên tục dương.

Chỉ ra mối liên hệ giữa Tweedie EDMs với các phân phối Gamma và Gaussian nghịch đảo, cho thấy các phân phối này là những trường hợp đặc biệt trong họ Tweedie.

Phần này giúp người đọc nhận biết và lựa chọn mô hình phù hợp cho dữ liệu liên tục dương khi các mô hình Gamma hoặc Gaussian nghịch đảo truyền thống chưa đủ hoặc cần được mở rộng.

Phần 12.2.4: Tweedie EDMs cho dữ liệu liên tục với nhiều giá trị không chính xác

Giới thiệu và phân tích một tập hợp con khác của Tweedie EDMs chuyên dùng để xử lý dữ liệu liên tục nhưng có sự xuất hiện phổ biến của các giá trị bằng 0 (không chính xác).

Đây là một vấn đề thường gặp trong nhiều lĩnh vực, ví dụ như đo đạc tiêu dùng năng lượng, lượng mưa,… khi mà dữ liệu không chỉ có giá trị dương mà còn có các số không “thật” cần được xử lý một cách hợp lý.

Phần 12.3: Ứng dụng Tweedie EDMs để phù hợp với Tweedie GLMs

Trình bày cách sử dụng các phân phối Tweedie đã giới thiệu để xây dựng và phù hợp các mô hình GLM tổng quát dựa trên Tweedie EDMs.

Giới thiệu các kỹ thuật, thuật toán cần thiết để ước tính tham số và khớp mô hình hiệu quả.

Giúp người đọc có cái nhìn tổng thể về việc áp dụng lý thuyết vào thực tiễn khi làm việc với dữ liệu phức tạp, đòi hỏi mô hình linh hoạt hơn.

12.3 Kết luận

Chương 12 mở rộng phạm vi ứng dụng của các GLM bằng cách giới thiệu họ phân phối Tweedie – một lớp phân phối mạnh mẽ và linh hoạt, bao quát nhiều phân phối phổ biến và phù hợp với nhiều loại dữ liệu đa dạng, đặc biệt là các dữ liệu liên tục dương và dữ liệu có nhiều giá trị bằng 0. Việc nghiên cứu chi tiết các tập con của Tweedie EDMs giúp người dùng dễ dàng nhận biết và lựa chọn mô hình tối ưu cho dữ liệu thực tế, đồng thời cung cấp công cụ để triển khai các mô hình GLM phù hợp với yêu cầu phân tích phức tạp hơn. Qua đó, chương này nâng cao khả năng phân tích và dự báo của các nhà thống kê và nhà khoa học dữ liệu khi đối mặt với dữ liệu đa dạng và không theo các giả định đơn giản truyền thống.

CHƯƠNG 13: BÀI TẬP BỔ SUNG

Mục đích của tác giả trong Chương 13 (Bài tập) là tạo ra một bộ bài tập tổng hợp, đa dạng, không gắn liền trực tiếp với bối cảnh cụ thể của các chương trước. Thay vì cung cấp các bài toán có hướng dẫn chi tiết hoặc bối cảnh rõ ràng, tác giả muốn thử thách người học với những bài toán thực tế phức tạp hơn, đòi hỏi người đọc phải vận dụng toàn bộ kiến thức và kỹ năng đã học một cách linh hoạt và độc lập để xây dựng mô hình phù hợp. Điều này nhằm giúp người học nâng cao khả năng áp dụng lý thuyết GLMs trong các tình huống thực tiễn đa dạng và không có kịch bản cố định, từ đó tăng cường tư duy phân tích và kỹ năng giải quyết vấn đề.


II. THỐNG KÊ MÔ TẢ

2.1. Tổng quan bộ dữ liệu

Bộ dữ liệu Supermarket Transactions (Giao dịch Siêu thị) là một tập hợp dữ liệu mô phỏng các giao dịch mua hàng được thực hiện tại một chuỗi siêu thị gồm 16 biến và 14059 quan sát . Dữ liệu này chứa nhiều thông tin phong phú liên quan đến hành vi tiêu dùng của khách hàng, đặc điểm nhân khẩu học và chi tiết sản phẩm. Cụ thể, mỗi bản ghi đại diện cho một giao dịch riêng biệt, bao gồm các trường như:

PurchaseDate — Ngày mua hàng

CustomerID — Mã khách hàng

Gender — Giới tính

MaritalStatus — Tình trạng hôn nhân

Homeowner — Sở hữu nhà

Children — Số lượng con

AnnualIncome — Thu nhập hàng năm

City — Thành phố

StateorProvince — Bang hoặc tỉnh

Country — Quốc gia

ProductFamily — Nhóm ngành hàng

ProductDepartment — Bộ phận sản phẩm

ProductCategory — Danh mục sản phẩm

UnitsSold — Số lượng bán

Revenue — Doanh thu

Các biến trong dữ liệu được phân loại thành ba nhóm chính:

Identifier / ID Variables — Biến định danh: Đây là các biến dùng để phân biệt từng đối tượng quan sát, không mang ý nghĩa thống kê, gồm:

PurchaseDate — Ngày mua hàng

CustomerID — Mã khách hàng

Categorical / Qualitative Variables — Biến định tính: Bao gồm các biến phân loại không có giá trị số học, gồm:

Gender — Giới tính

MaritalStatus — Tình trạng hôn nhân

Homeowner — Sở hữu nhà

AnnualIncome — Thu nhập hàng năm

City — Thành phố

StateorProvince — Bang hoặc tỉnh

Country — Quốc gia

ProductFamily — Nhóm ngành hàng

ProductDepartment — Bộ phận sản phẩm

ProductCategory — Danh mục sản phẩm

Numerical / Quantitative Variables — Biến định lượng: Bao gồm các biến có thể đo lường và có giá trị số học, gồm:

Children — Số lượng con

UnitsSold — Số lượng bán

Revenue — Doanh thu

2.2. Đọc file csv

## Warning: package 'DT' was built under R version 4.3.3
##     X PurchaseDate CustomerID Gender MaritalStatus Homeowner Children
## 1   1   2007-12-18       7223      F             S         Y        2
## 2   2   2007-12-20       7841      M             M         Y        5
## 3   3   2007-12-21       8374      F             M         N        2
## 4   4   2007-12-21       9619      M             M         Y        3
## 5   5   2007-12-22       1900      F             S         Y        3
## 6   6   2007-12-22       6696      F             M         Y        3
## 7   7   2007-12-23       9673      M             S         Y        2
## 8   8   2007-12-25        354      F             M         Y        2
## 9   9   2007-12-25       1293      M             M         Y        3
## 10 10   2007-12-25       7938      M             S         N        1
##     AnnualIncome          City StateorProvince Country  ProductFamily
## 1    $30K - $50K   Los Angeles              CA     USA           Food
## 2    $70K - $90K   Los Angeles              CA     USA           Food
## 3    $50K - $70K     Bremerton              WA     USA           Food
## 4    $30K - $50K      Portland              OR     USA           Food
## 5  $130K - $150K Beverly Hills              CA     USA          Drink
## 6    $10K - $30K Beverly Hills              CA     USA           Food
## 7    $30K - $50K         Salem              OR     USA           Food
## 8        $150K +        Yakima              WA     USA           Food
## 9    $10K - $30K    Bellingham              WA     USA Non-Consumable
## 10   $50K - $70K     San Diego              CA     USA Non-Consumable
##     ProductDepartment      ProductCategory UnitsSold Revenue
## 1         Snack Foods          Snack Foods         5   27.38
## 2             Produce           Vegetables         5   14.90
## 3         Snack Foods          Snack Foods         3    5.52
## 4              Snacks                Candy         4    4.44
## 5           Beverages Carbonated Beverages         4   14.00
## 6                Deli          Side Dishes         3    4.37
## 7        Frozen Foods      Breakfast Foods         4   13.78
## 8        Canned Foods          Canned Soup         6    7.34
## 9           Household    Cleaning Supplies         1    2.41
## 10 Health and Hygiene       Pain Relievers         2    8.96
## Warning in instance$preRenderHook(instance): It seems your data is too big for
## client-side DataTables. You may consider server-side processing:
## https://rstudio.github.io/DT/server.html
## 'data.frame':    14059 obs. of  16 variables:
##  $ X                : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ PurchaseDate     : chr  "2007-12-18" "2007-12-20" "2007-12-21" "2007-12-21" ...
##  $ CustomerID       : int  7223 7841 8374 9619 1900 6696 9673 354 1293 7938 ...
##  $ Gender           : chr  "F" "M" "F" "M" ...
##  $ MaritalStatus    : chr  "S" "M" "M" "M" ...
##  $ Homeowner        : chr  "Y" "Y" "N" "Y" ...
##  $ Children         : int  2 5 2 3 3 3 2 2 3 1 ...
##  $ AnnualIncome     : chr  "$30K - $50K" "$70K - $90K" "$50K - $70K" "$30K - $50K" ...
##  $ City             : chr  "Los Angeles" "Los Angeles" "Bremerton" "Portland" ...
##  $ StateorProvince  : chr  "CA" "CA" "WA" "OR" ...
##  $ Country          : chr  "USA" "USA" "USA" "USA" ...
##  $ ProductFamily    : chr  "Food" "Food" "Food" "Food" ...
##  $ ProductDepartment: chr  "Snack Foods" "Produce" "Snack Foods" "Snacks" ...
##  $ ProductCategory  : chr  "Snack Foods" "Vegetables" "Snack Foods" "Candy" ...
##  $ UnitsSold        : int  5 5 3 4 4 3 4 6 1 2 ...
##  $ Revenue          : num  27.38 14.9 5.52 4.44 14 ...

2.3. Các biến trong bộ dữ liệu

2.4. Thống kê mô tả các biến định lượng

## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
## Warning: package 'psych' was built under R version 4.3.3
## Warning: package 'kableExtra' was built under R version 4.3.3
## 
## Attaching package: 'kableExtra'
## The following object is masked from 'package:dplyr':
## 
##     group_rows
## New names:
## Rows: 14059 Columns: 16
## ── Column specification
## ──────────────────────────────────────────────────────── Delimiter: "," chr
## (10): Gender, MaritalStatus, Homeowner, AnnualIncome, City, StateorProv... dbl
## (5): ...1, CustomerID, Children, UnitsSold, Revenue date (1): PurchaseDate
## ℹ Use `spec()` to retrieve the full column specification for this data. ℹ
## Specify the column types or set `show_col_types = FALSE` to quiet this message.
## • `` -> `...1`
## Cấu trúc dữ liệu:
## spc_tbl_ [14,059 × 16] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
##  $ ...1             : num [1:14059] 1 2 3 4 5 6 7 8 9 10 ...
##  $ PurchaseDate     : Date[1:14059], format: "2007-12-18" "2007-12-20" ...
##  $ CustomerID       : num [1:14059] 7223 7841 8374 9619 1900 ...
##  $ Gender           : chr [1:14059] "F" "M" "F" "M" ...
##  $ MaritalStatus    : chr [1:14059] "S" "M" "M" "M" ...
##  $ Homeowner        : chr [1:14059] "Y" "Y" "N" "Y" ...
##  $ Children         : num [1:14059] 2 5 2 3 3 3 2 2 3 1 ...
##  $ AnnualIncome     : chr [1:14059] "$30K - $50K" "$70K - $90K" "$50K - $70K" "$30K - $50K" ...
##  $ City             : chr [1:14059] "Los Angeles" "Los Angeles" "Bremerton" "Portland" ...
##  $ StateorProvince  : chr [1:14059] "CA" "CA" "WA" "OR" ...
##  $ Country          : chr [1:14059] "USA" "USA" "USA" "USA" ...
##  $ ProductFamily    : chr [1:14059] "Food" "Food" "Food" "Food" ...
##  $ ProductDepartment: chr [1:14059] "Snack Foods" "Produce" "Snack Foods" "Snacks" ...
##  $ ProductCategory  : chr [1:14059] "Snack Foods" "Vegetables" "Snack Foods" "Candy" ...
##  $ UnitsSold        : num [1:14059] 5 5 3 4 4 3 4 6 1 2 ...
##  $ Revenue          : num [1:14059] 27.38 14.9 5.52 4.44 14 ...
##  - attr(*, "spec")=
##   .. cols(
##   ..   ...1 = col_double(),
##   ..   PurchaseDate = col_date(format = ""),
##   ..   CustomerID = col_double(),
##   ..   Gender = col_character(),
##   ..   MaritalStatus = col_character(),
##   ..   Homeowner = col_character(),
##   ..   Children = col_double(),
##   ..   AnnualIncome = col_character(),
##   ..   City = col_character(),
##   ..   StateorProvince = col_character(),
##   ..   Country = col_character(),
##   ..   ProductFamily = col_character(),
##   ..   ProductDepartment = col_character(),
##   ..   ProductCategory = col_character(),
##   ..   UnitsSold = col_double(),
##   ..   Revenue = col_double()
##   .. )
##  - attr(*, "problems")=<externalptr>
## 
## Xem 6 dòng đầu:
## # A tibble: 6 × 16
##    ...1 PurchaseDate CustomerID Gender MaritalStatus Homeowner Children
##   <dbl> <date>            <dbl> <chr>  <chr>         <chr>        <dbl>
## 1     1 2007-12-18         7223 F      S             Y                2
## 2     2 2007-12-20         7841 M      M             Y                5
## 3     3 2007-12-21         8374 F      M             N                2
## 4     4 2007-12-21         9619 M      M             Y                3
## 5     5 2007-12-22         1900 F      S             Y                3
## 6     6 2007-12-22         6696 F      M             Y                3
## # ℹ 9 more variables: AnnualIncome <chr>, City <chr>, StateorProvince <chr>,
## #   Country <chr>, ProductFamily <chr>, ProductDepartment <chr>,
## #   ProductCategory <chr>, UnitsSold <dbl>, Revenue <dbl>
## 
## Biến: PurchaseDate
## 
## 2007-12-18 2007-12-20 2007-12-21 2007-12-22 2007-12-23 2007-12-25 2007-12-26 
##          1          1          2          2          1          3          4 
## 2007-12-27 2007-12-28 2007-12-29 2007-12-30 2007-12-31 2008-01-01 2008-01-02 
##          3          3          5          4          6          6          5 
## 2008-01-03 2008-01-04 2008-01-05 2008-01-06 2008-01-07 2008-01-08 2008-01-09 
##          2          6          7          1          5          7          6 
## 2008-01-10 2008-01-11 2008-01-12 2008-01-13 2008-01-14 2008-01-15 2008-01-16 
##          6          3          8          8          9         10          8 
## 2008-01-17 2008-01-18 2008-01-19 2008-01-20 2008-01-21 2008-01-22 2008-01-23 
##         10         13         14         10          3          9         16 
## 2008-01-24 2008-01-25 2008-01-26 2008-01-27 2008-01-28 2008-01-29 2008-01-30 
##          8          5         10         18         10          9         15 
## 2008-01-31 2008-02-01 2008-02-02 2008-02-03 2008-02-04 2008-02-05 2008-02-06 
##         11         12         23         14         11         13         11 
## 2008-02-07 2008-02-08 2008-02-09 2008-02-10 2008-02-11 2008-02-12 2008-02-13 
##         13         12          9          8         13         11         11 
## 2008-02-14 2008-02-15 2008-02-16 2008-02-17 2008-02-18 2008-02-19 2008-02-20 
##         10         15         14         11         12         15          8 
## 2008-02-21 2008-02-22 2008-02-23 2008-02-24 2008-02-25 2008-02-26 2008-02-27 
##          9         12         10         16         11          7         10 
## 2008-02-28 2008-02-29 2008-03-01 2008-03-02 2008-03-03 2008-03-04 2008-03-05 
##         17         12         13         16         17         11         15 
## 2008-03-06 2008-03-07 2008-03-08 2008-03-09 2008-03-10 2008-03-11 2008-03-12 
##         14         11         17         16         13         13         17 
## 2008-03-13 2008-03-14 2008-03-15 2008-03-16 2008-03-17 2008-03-18 2008-03-19 
##         20         13         11         11         13         22         20 
## 2008-03-20 2008-03-21 2008-03-22 2008-03-23 2008-03-24 2008-03-25 2008-03-26 
##         15         11         11         12         16         15         14 
## 2008-03-27 2008-03-28 2008-03-29 2008-03-30 2008-03-31 2008-04-01 2008-04-02 
##         21         17         17         19         11         10         14 
## 2008-04-03 2008-04-04 2008-04-05 2008-04-06 2008-04-07 2008-04-08 2008-04-09 
##         22         11         16         12         14         10         15 
## 2008-04-10 2008-04-11 2008-04-12 2008-04-13 2008-04-14 2008-04-15 2008-04-16 
##         14         14         16         13         21         16         14 
## 2008-04-17 2008-04-18 2008-04-19 2008-04-20 2008-04-21 2008-04-22 2008-04-23 
##         12         17         18         14         15         14         13 
## 2008-04-24 2008-04-25 2008-04-26 2008-04-27 2008-04-28 2008-04-29 2008-04-30 
##         11         19          9         17         12          9         11 
## 2008-05-01 2008-05-02 2008-05-03 2008-05-04 2008-05-05 2008-05-06 2008-05-07 
##         11         16         13         22         21         14         15 
## 2008-05-08 2008-05-09 2008-05-10 2008-05-11 2008-05-12 2008-05-13 2008-05-14 
##          8         14         11          9         16         16          5 
## 2008-05-15 2008-05-16 2008-05-17 2008-05-18 2008-05-19 2008-05-20 2008-05-21 
##         13         11         14          7         19         14         15 
## 2008-05-22 2008-05-23 2008-05-24 2008-05-25 2008-05-26 2008-05-27 2008-05-28 
##         13         10         10          9         19         11         10 
## 2008-05-29 2008-05-30 2008-05-31 2008-06-01 2008-06-02 2008-06-03 2008-06-04 
##         13         17         11         13         14         11         17 
## 2008-06-05 2008-06-06 2008-06-07 2008-06-08 2008-06-09 2008-06-10 2008-06-11 
##         10         14          8         11         10          2         15 
## 2008-06-12 2008-06-13 2008-06-14 2008-06-15 2008-06-16 2008-06-17 2008-06-18 
##         10          7          9         11         19          4         14 
## 2008-06-19 2008-06-20 2008-06-21 2008-06-22 2008-06-23 2008-06-24 2008-06-25 
##          9         17         18         17          4         21         13 
## 2008-06-26 2008-06-27 2008-06-28 2008-06-29 2008-06-30 2008-07-01 2008-07-02 
##          7          9         16         18          8          8         14 
## 2008-07-03 2008-07-04 2008-07-05 2008-07-06 2008-07-07 2008-07-08 2008-07-09 
##         10         12          8         10          8         13          8 
## 2008-07-10 2008-07-11 2008-07-12 2008-07-13 2008-07-14 2008-07-15 2008-07-16 
##          9         21         15         10         13         13         12 
## 2008-07-17 2008-07-18 2008-07-19 2008-07-20 2008-07-21 2008-07-22 2008-07-23 
##         26         11         11          7         11         17          8 
## 2008-07-24 2008-07-25 2008-07-26 2008-07-27 2008-07-28 2008-07-29 2008-07-30 
##          9         13         16         10         11         11         13 
## 2008-07-31 2008-08-01 2008-08-02 2008-08-03 2008-08-04 2008-08-05 2008-08-06 
##         12         12         15         11         13         11         14 
## 2008-08-07 2008-08-08 2008-08-09 2008-08-10 2008-08-11 2008-08-12 2008-08-13 
##         11         16         15         12          9         19          8 
## 2008-08-14 2008-08-15 2008-08-16 2008-08-17 2008-08-18 2008-08-19 2008-08-20 
##          7         11         16         12          7         12         18 
## 2008-08-21 2008-08-22 2008-08-23 2008-08-24 2008-08-25 2008-08-26 2008-08-27 
##         13         15         11         13         14         11         10 
## 2008-08-28 2008-08-29 2008-08-30 2008-08-31 2008-09-01 2008-09-02 2008-09-03 
##          9         14          8         12         10          9         12 
## 2008-09-04 2008-09-05 2008-09-06 2008-09-07 2008-09-08 2008-09-09 2008-09-10 
##         17         12         13         12          7         13         10 
## 2008-09-11 2008-09-12 2008-09-13 2008-09-14 2008-09-15 2008-09-16 2008-09-17 
##         21          8         15          8         13         14         10 
## 2008-09-18 2008-09-19 2008-09-20 2008-09-21 2008-09-22 2008-09-23 2008-09-24 
##         15         17         13          5         10          6          6 
## 2008-09-25 2008-09-26 2008-09-27 2008-09-28 2008-09-29 2008-09-30 2008-10-01 
##         13         10         11         14          9         12         12 
## 2008-10-02 2008-10-03 2008-10-04 2008-10-05 2008-10-06 2008-10-07 2008-10-08 
##         18         21         16         18         17         10         17 
## 2008-10-09 2008-10-10 2008-10-11 2008-10-12 2008-10-13 2008-10-14 2008-10-15 
##         10         11         14          8         13          9         17 
## 2008-10-16 2008-10-17 2008-10-18 2008-10-19 2008-10-20 2008-10-21 2008-10-22 
##         11          8          7         11         12          5         13 
## 2008-10-23 2008-10-24 2008-10-25 2008-10-26 2008-10-27 2008-10-28 2008-10-29 
##         12         15         13          7         13         13         20 
## 2008-10-30 2008-10-31 2008-11-01 2008-11-02 2008-11-03 2008-11-04 2008-11-05 
##         12         13          8         14         16         20          9 
## 2008-11-06 2008-11-07 2008-11-08 2008-11-09 2008-11-10 2008-11-11 2008-11-12 
##         20          7         15          7          7         13         10 
## 2008-11-13 2008-11-14 2008-11-15 2008-11-16 2008-11-17 2008-11-18 2008-11-19 
##         12         19         15         13         18         18         11 
## 2008-11-20 2008-11-21 2008-11-22 2008-11-23 2008-11-24 2008-11-25 2008-11-26 
##         14         15         13         19         12         14         13 
## 2008-11-27 2008-11-28 2008-11-29 2008-11-30 2008-12-01 2008-12-02 2008-12-03 
##         16         10         15         11         15         18         21 
## 2008-12-04 2008-12-05 2008-12-06 2008-12-07 2008-12-08 2008-12-09 2008-12-10 
##         18         14         13         16         16          8         23 
## 2008-12-11 2008-12-12 2008-12-13 2008-12-14 2008-12-15 2008-12-16 2008-12-17 
##         19         18          9         13         22         17         18 
## 2008-12-18 2008-12-19 2008-12-20 2008-12-21 2008-12-22 2008-12-23 2008-12-24 
##         13         17         15         21         21         15         16 
## 2008-12-25 2008-12-26 2008-12-27 2008-12-28 2008-12-29 2008-12-30 2008-12-31 
##         18         22         20         19         13         32         22 
## 2009-01-01 2009-01-02 2009-01-03 2009-01-04 2009-01-05 2009-01-06 2009-01-07 
##         22         26         23         19         25         32         20 
## 2009-01-08 2009-01-09 2009-01-10 2009-01-11 2009-01-12 2009-01-13 2009-01-14 
##         27         20         20         32         20         19         27 
## 2009-01-15 2009-01-16 2009-01-17 2009-01-18 2009-01-19 2009-01-20 2009-01-21 
##         32         20         22         23         25         36         28 
## 2009-01-22 2009-01-23 2009-01-24 2009-01-25 2009-01-26 2009-01-27 2009-01-28 
##         16         24         26         28         25         25         19 
## 2009-01-29 2009-01-30 2009-01-31 2009-02-01 2009-02-02 2009-02-03 2009-02-04 
##         29         26         28         40         32         27         31 
## 2009-02-05 2009-02-06 2009-02-07 2009-02-08 2009-02-09 2009-02-10 2009-02-11 
##         32         22         26         30         26         26         27 
## 2009-02-12 2009-02-13 2009-02-14 2009-02-15 2009-02-16 2009-02-17 2009-02-18 
##         32         26         29         31         26         34         21 
## 2009-02-19 2009-02-20 2009-02-21 2009-02-22 2009-02-23 2009-02-24 2009-02-25 
##         32         36         23         30         43         26         22 
## 2009-02-26 2009-02-27 2009-02-28 2009-03-01 2009-03-02 2009-03-03 2009-03-04 
##         31         31         28         28         20         28         25 
## 2009-03-05 2009-03-06 2009-03-07 2009-03-08 2009-03-09 2009-03-10 2009-03-11 
##         30         22         26         27         29         30         25 
## 2009-03-12 2009-03-13 2009-03-14 2009-03-15 2009-03-16 2009-03-17 2009-03-18 
##         23         23         26         31         27         19         26 
## 2009-03-19 2009-03-20 2009-03-21 2009-03-22 2009-03-23 2009-03-24 2009-03-25 
##         32         12         25         22         28         20         28 
## 2009-03-26 2009-03-27 2009-03-28 2009-03-29 2009-03-30 2009-03-31 2009-04-01 
##         32         25         31         26         33         31         24 
## 2009-04-02 2009-04-03 2009-04-04 2009-04-05 2009-04-06 2009-04-07 2009-04-08 
##         24         24         28         26         20         29         34 
## 2009-04-09 2009-04-10 2009-04-11 2009-04-12 2009-04-13 2009-04-14 2009-04-15 
##         25         35         23         19         26         22         23 
## 2009-04-16 2009-04-17 2009-04-18 2009-04-19 2009-04-20 2009-04-21 2009-04-22 
##         25         26         30         28         36         24         31 
## 2009-04-23 2009-04-24 2009-04-25 2009-04-26 2009-04-27 2009-04-28 2009-04-29 
##         34         24         22         28         33         19         41 
## 2009-04-30 2009-05-01 2009-05-02 2009-05-03 2009-05-04 2009-05-05 2009-05-06 
##         25         20         26         25         28         30         31 
## 2009-05-07 2009-05-08 2009-05-09 2009-05-10 2009-05-11 2009-05-12 2009-05-13 
##         38         35         23         28         23         20         27 
## 2009-05-14 2009-05-15 2009-05-16 2009-05-17 2009-05-18 2009-05-19 2009-05-20 
##         24         28         31         20         26         25         37 
## 2009-05-21 2009-05-22 2009-05-23 2009-05-24 2009-05-25 2009-05-26 2009-05-27 
##         26         29         32         27         29         27         30 
## 2009-05-28 2009-05-29 2009-05-30 2009-05-31 2009-06-01 2009-06-02 2009-06-03 
##         30         29         24         32         26         21         26 
## 2009-06-04 2009-06-05 2009-06-06 2009-06-07 2009-06-08 2009-06-09 2009-06-10 
##         26         27         34         22         35         28         19 
## 2009-06-11 2009-06-12 2009-06-13 2009-06-14 2009-06-15 2009-06-16 2009-06-17 
##         26         25         25         31         25         26         29 
## 2009-06-18 2009-06-19 2009-06-20 2009-06-21 2009-06-22 2009-06-23 2009-06-24 
##         33         23         28         28         28         26         19 
## 2009-06-25 2009-06-26 2009-06-27 2009-06-28 2009-06-29 2009-06-30 2009-07-01 
##         33         19         24         31         27         27         25 
## 2009-07-02 2009-07-03 2009-07-04 2009-07-05 2009-07-06 2009-07-07 2009-07-08 
##         32         23         34         17         35         35         30 
## 2009-07-09 2009-07-10 2009-07-11 2009-07-12 2009-07-13 2009-07-14 2009-07-15 
##         21         33         31         24         34         26         34 
## 2009-07-16 2009-07-17 2009-07-18 2009-07-19 2009-07-20 2009-07-21 2009-07-22 
##         28         30         32         37         21         32         22 
## 2009-07-23 2009-07-24 2009-07-25 2009-07-26 2009-07-27 2009-07-28 2009-07-29 
##         13         23         25         33         26         22         31 
## 2009-07-30 2009-07-31 2009-08-01 2009-08-02 2009-08-03 2009-08-04 2009-08-05 
##         16         20         30         32         28         25         22 
## 2009-08-06 2009-08-07 2009-08-08 2009-08-09 2009-08-10 2009-08-11 2009-08-12 
##         22         27         33         31         21         34         25 
## 2009-08-13 2009-08-14 2009-08-15 2009-08-16 2009-08-17 2009-08-18 2009-08-19 
##         33         31         15         33         29         14         27 
## 2009-08-20 2009-08-21 2009-08-22 2009-08-23 2009-08-24 2009-08-25 2009-08-26 
##         28         23         22         25         30         29         25 
## 2009-08-27 2009-08-28 2009-08-29 2009-08-30 2009-08-31 2009-09-01 2009-09-02 
##         25         21         28         27         30         33         15 
## 2009-09-03 2009-09-04 2009-09-05 2009-09-06 2009-09-07 2009-09-08 2009-09-09 
##         27         23         29         20         28         23         33 
## 2009-09-10 2009-09-11 2009-09-12 2009-09-13 2009-09-14 2009-09-15 2009-09-16 
##         35         24         26         28         28         27         28 
## 2009-09-17 2009-09-18 2009-09-19 2009-09-20 2009-09-21 2009-09-22 2009-09-23 
##         23         27         28         26         29         37         36 
## 2009-09-24 2009-09-25 2009-09-26 2009-09-27 2009-09-28 2009-09-29 2009-09-30 
##         24         32         30         30         32         31         15 
## 2009-10-01 2009-10-02 2009-10-03 2009-10-04 2009-10-05 2009-10-06 2009-10-07 
##         31         23         18         28         27         26         31 
## 2009-10-08 2009-10-09 2009-10-10 2009-10-11 2009-10-12 2009-10-13 2009-10-14 
##         26         27         26         27         27         35         22 
## 2009-10-15 2009-10-16 2009-10-17 2009-10-18 2009-10-19 2009-10-20 2009-10-21 
##         23         31         23         21         36         33         28 
## 2009-10-22 2009-10-23 2009-10-24 2009-10-25 2009-10-26 2009-10-27 2009-10-28 
##         30         26         35         28         28         29         29 
## 2009-10-29 2009-10-30 2009-10-31 2009-11-01 2009-11-02 2009-11-03 2009-11-04 
##         21         30         24         43         32         25         27 
## 2009-11-05 2009-11-06 2009-11-07 2009-11-08 2009-11-09 2009-11-10 2009-11-11 
##         22         34         24         25         29         33         33 
## 2009-11-12 2009-11-13 2009-11-14 2009-11-15 2009-11-16 2009-11-17 2009-11-18 
##         26         35         30         20         31         24         22 
## 2009-11-19 2009-11-20 2009-11-21 2009-11-22 2009-11-23 2009-11-24 2009-11-25 
##         24         23         21         29         28         20         23 
## 2009-11-26 2009-11-27 2009-11-28 2009-11-29 2009-11-30 2009-12-01 2009-12-02 
##         29         21         18         33         23         17         23 
## 2009-12-03 2009-12-04 2009-12-05 2009-12-06 2009-12-07 2009-12-08 2009-12-09 
##         23         17         13         11         11         10         21 
## 2009-12-10 2009-12-11 2009-12-12 2009-12-13 2009-12-14 2009-12-15 2009-12-16 
##         19         12         12         15         10          7          5 
## 2009-12-17 2009-12-18 2009-12-19 2009-12-20 2009-12-21 2009-12-22 2009-12-23 
##          9          8         12          7          6          7          5 
## 2009-12-24 2009-12-25 2009-12-26 2009-12-27 2009-12-28 2009-12-29 2009-12-31 
##         10         10          6          4          4          3          3 
## 
## Biến: Gender
## 
##    F    M 
## 7170 6889 
## 
## Biến: MaritalStatus
## 
##    M    S 
## 6866 7193 
## 
## Biến: Homeowner
## 
##    N    Y 
## 5615 8444 
## 
## Biến: AnnualIncome
## 
##   $10K - $30K $110K - $130K $130K - $150K       $150K +   $30K - $50K 
##          3090           643           760           273          4601 
##   $50K - $70K   $70K - $90K  $90K - $110K 
##          2370          1709           613 
## 
## Biến: City
## 
##      Acapulco    Bellingham Beverly Hills     Bremerton       Camacho 
##           383           143           811           834           452 
##   Guadalajara       Hidalgo   Los Angeles        Merida   Mexico City 
##            75           845           926           654           194 
##       Orizaba      Portland         Salem    San Andres     San Diego 
##           464           876          1386           621           866 
## San Francisco       Seattle       Spokane        Tacoma     Vancouver 
##           130           922           875          1257           633 
##      Victoria   Walla Walla        Yakima 
##           176           160           376 
## 
## Biến: StateorProvince
## 
##        BC        CA        DF  Guerrero   Jalisco        OR  Veracruz        WA 
##       809      2733       815       383        75      2262       464      4567 
##   Yucatan Zacatecas 
##       654      1297 
## 
## Biến: Country
## 
## Canada Mexico    USA 
##    809   3688   9562 
## 
## Biến: ProductFamily
## 
##          Drink           Food Non-Consumable 
##           1250          10153           2656 
## 
## Biến: ProductDepartment
## 
## Alcoholic Beverages         Baked Goods        Baking Goods           Beverages 
##                 356                 425                1072                 680 
##     Breakfast Foods        Canned Foods     Canned Products            Carousel 
##                 188                 977                 109                  59 
##            Checkout               Dairy                Deli                Eggs 
##                  82                 903                 699                 198 
##        Frozen Foods  Health and Hygiene           Household                Meat 
##                1382                 893                1420                  89 
##         Periodicals             Produce             Seafood         Snack Foods 
##                 202                1994                 102                1600 
##              Snacks       Starchy Foods 
##                 352                 277 
## 
## Biến: ProductCategory
## 
##         Baking Goods    Bathroom Products        Beer and Wine 
##                  484                  365                  356 
##                Bread      Breakfast Foods              Candles 
##                  425                  417                   45 
##                Candy     Canned Anchovies         Canned Clams 
##                  352                   44                   53 
##       Canned Oysters      Canned Sardines        Canned Shrimp 
##                   35                   40                   38 
##          Canned Soup          Canned Tuna Carbonated Beverages 
##                  404                   87                  154 
##    Cleaning Supplies        Cold Remedies                Dairy 
##                  189                   93                  903 
##        Decongestants               Drinks                 Eggs 
##                   85                  135                  198 
##           Electrical      Frozen Desserts       Frozen Entrees 
##                  355                  323                  118 
##                Fruit             Hardware        Hot Beverages 
##                  765                  129                  226 
##              Hygiene     Jams and Jellies     Kitchen Products 
##                  197                  588                  217 
##            Magazines                 Meat        Miscellaneous 
##                  202                  761                   42 
##  Packaged Vegetables       Pain Relievers       Paper Products 
##                   48                  192                  345 
##                Pizza     Plastic Products Pure Juice Beverages 
##                  194                  141                  165 
##              Seafood          Side Dishes          Snack Foods 
##                  102                  153                 1600 
##            Specialty        Starchy Foods           Vegetables 
##                  289                  277                 1728
## 
## Thống kê mô tả cho các biến định lượng:
##            vars     n    mean      sd  median trimmed     mad  min     max
## ...1          1 14059 7030.00 4058.63 7030.00 7030.00 5211.34 1.00 14059.0
## CustomerID    2 14059 5116.90 2920.76 5060.00 5107.72 3780.63 3.00 10280.0
## Children      3 14059    2.53    1.49    3.00    2.53    1.48 0.00     5.0
## UnitsSold     4 14059    4.08    1.17    4.00    4.08    1.48 1.00     8.0
## Revenue       5 14059   13.00    8.22   11.25   12.05    7.40 0.53    56.7
##               range  skew kurtosis    se
## ...1       14058.00  0.00    -1.20 34.23
## CustomerID 10277.00  0.01    -1.19 24.63
## Children       5.00 -0.02    -1.03  0.01
## UnitsSold      7.00  0.01    -0.44  0.01
## Revenue       56.17  1.13     1.39  0.07
## 
## Biến: PurchaseDate
## 
## 2007-12-18 2007-12-20 2007-12-21 2007-12-22 2007-12-23 2007-12-25 2007-12-26 
##          1          1          2          2          1          3          4 
## 2007-12-27 2007-12-28 2007-12-29 2007-12-30 2007-12-31 2008-01-01 2008-01-02 
##          3          3          5          4          6          6          5 
## 2008-01-03 2008-01-04 2008-01-05 2008-01-06 2008-01-07 2008-01-08 2008-01-09 
##          2          6          7          1          5          7          6 
## 2008-01-10 2008-01-11 2008-01-12 2008-01-13 2008-01-14 2008-01-15 2008-01-16 
##          6          3          8          8          9         10          8 
## 2008-01-17 2008-01-18 2008-01-19 2008-01-20 2008-01-21 2008-01-22 2008-01-23 
##         10         13         14         10          3          9         16 
## 2008-01-24 2008-01-25 2008-01-26 2008-01-27 2008-01-28 2008-01-29 2008-01-30 
##          8          5         10         18         10          9         15 
## 2008-01-31 2008-02-01 2008-02-02 2008-02-03 2008-02-04 2008-02-05 2008-02-06 
##         11         12         23         14         11         13         11 
## 2008-02-07 2008-02-08 2008-02-09 2008-02-10 2008-02-11 2008-02-12 2008-02-13 
##         13         12          9          8         13         11         11 
## 2008-02-14 2008-02-15 2008-02-16 2008-02-17 2008-02-18 2008-02-19 2008-02-20 
##         10         15         14         11         12         15          8 
## 2008-02-21 2008-02-22 2008-02-23 2008-02-24 2008-02-25 2008-02-26 2008-02-27 
##          9         12         10         16         11          7         10 
## 2008-02-28 2008-02-29 2008-03-01 2008-03-02 2008-03-03 2008-03-04 2008-03-05 
##         17         12         13         16         17         11         15 
## 2008-03-06 2008-03-07 2008-03-08 2008-03-09 2008-03-10 2008-03-11 2008-03-12 
##         14         11         17         16         13         13         17 
## 2008-03-13 2008-03-14 2008-03-15 2008-03-16 2008-03-17 2008-03-18 2008-03-19 
##         20         13         11         11         13         22         20 
## 2008-03-20 2008-03-21 2008-03-22 2008-03-23 2008-03-24 2008-03-25 2008-03-26 
##         15         11         11         12         16         15         14 
## 2008-03-27 2008-03-28 2008-03-29 2008-03-30 2008-03-31 2008-04-01 2008-04-02 
##         21         17         17         19         11         10         14 
## 2008-04-03 2008-04-04 2008-04-05 2008-04-06 2008-04-07 2008-04-08 2008-04-09 
##         22         11         16         12         14         10         15 
## 2008-04-10 2008-04-11 2008-04-12 2008-04-13 2008-04-14 2008-04-15 2008-04-16 
##         14         14         16         13         21         16         14 
## 2008-04-17 2008-04-18 2008-04-19 2008-04-20 2008-04-21 2008-04-22 2008-04-23 
##         12         17         18         14         15         14         13 
## 2008-04-24 2008-04-25 2008-04-26 2008-04-27 2008-04-28 2008-04-29 2008-04-30 
##         11         19          9         17         12          9         11 
## 2008-05-01 2008-05-02 2008-05-03 2008-05-04 2008-05-05 2008-05-06 2008-05-07 
##         11         16         13         22         21         14         15 
## 2008-05-08 2008-05-09 2008-05-10 2008-05-11 2008-05-12 2008-05-13 2008-05-14 
##          8         14         11          9         16         16          5 
## 2008-05-15 2008-05-16 2008-05-17 2008-05-18 2008-05-19 2008-05-20 2008-05-21 
##         13         11         14          7         19         14         15 
## 2008-05-22 2008-05-23 2008-05-24 2008-05-25 2008-05-26 2008-05-27 2008-05-28 
##         13         10         10          9         19         11         10 
## 2008-05-29 2008-05-30 2008-05-31 2008-06-01 2008-06-02 2008-06-03 2008-06-04 
##         13         17         11         13         14         11         17 
## 2008-06-05 2008-06-06 2008-06-07 2008-06-08 2008-06-09 2008-06-10 2008-06-11 
##         10         14          8         11         10          2         15 
## 2008-06-12 2008-06-13 2008-06-14 2008-06-15 2008-06-16 2008-06-17 2008-06-18 
##         10          7          9         11         19          4         14 
## 2008-06-19 2008-06-20 2008-06-21 2008-06-22 2008-06-23 2008-06-24 2008-06-25 
##          9         17         18         17          4         21         13 
## 2008-06-26 2008-06-27 2008-06-28 2008-06-29 2008-06-30 2008-07-01 2008-07-02 
##          7          9         16         18          8          8         14 
## 2008-07-03 2008-07-04 2008-07-05 2008-07-06 2008-07-07 2008-07-08 2008-07-09 
##         10         12          8         10          8         13          8 
## 2008-07-10 2008-07-11 2008-07-12 2008-07-13 2008-07-14 2008-07-15 2008-07-16 
##          9         21         15         10         13         13         12 
## 2008-07-17 2008-07-18 2008-07-19 2008-07-20 2008-07-21 2008-07-22 2008-07-23 
##         26         11         11          7         11         17          8 
## 2008-07-24 2008-07-25 2008-07-26 2008-07-27 2008-07-28 2008-07-29 2008-07-30 
##          9         13         16         10         11         11         13 
## 2008-07-31 2008-08-01 2008-08-02 2008-08-03 2008-08-04 2008-08-05 2008-08-06 
##         12         12         15         11         13         11         14 
## 2008-08-07 2008-08-08 2008-08-09 2008-08-10 2008-08-11 2008-08-12 2008-08-13 
##         11         16         15         12          9         19          8 
## 2008-08-14 2008-08-15 2008-08-16 2008-08-17 2008-08-18 2008-08-19 2008-08-20 
##          7         11         16         12          7         12         18 
## 2008-08-21 2008-08-22 2008-08-23 2008-08-24 2008-08-25 2008-08-26 2008-08-27 
##         13         15         11         13         14         11         10 
## 2008-08-28 2008-08-29 2008-08-30 2008-08-31 2008-09-01 2008-09-02 2008-09-03 
##          9         14          8         12         10          9         12 
## 2008-09-04 2008-09-05 2008-09-06 2008-09-07 2008-09-08 2008-09-09 2008-09-10 
##         17         12         13         12          7         13         10 
## 2008-09-11 2008-09-12 2008-09-13 2008-09-14 2008-09-15 2008-09-16 2008-09-17 
##         21          8         15          8         13         14         10 
## 2008-09-18 2008-09-19 2008-09-20 2008-09-21 2008-09-22 2008-09-23 2008-09-24 
##         15         17         13          5         10          6          6 
## 2008-09-25 2008-09-26 2008-09-27 2008-09-28 2008-09-29 2008-09-30 2008-10-01 
##         13         10         11         14          9         12         12 
## 2008-10-02 2008-10-03 2008-10-04 2008-10-05 2008-10-06 2008-10-07 2008-10-08 
##         18         21         16         18         17         10         17 
## 2008-10-09 2008-10-10 2008-10-11 2008-10-12 2008-10-13 2008-10-14 2008-10-15 
##         10         11         14          8         13          9         17 
## 2008-10-16 2008-10-17 2008-10-18 2008-10-19 2008-10-20 2008-10-21 2008-10-22 
##         11          8          7         11         12          5         13 
## 2008-10-23 2008-10-24 2008-10-25 2008-10-26 2008-10-27 2008-10-28 2008-10-29 
##         12         15         13          7         13         13         20 
## 2008-10-30 2008-10-31 2008-11-01 2008-11-02 2008-11-03 2008-11-04 2008-11-05 
##         12         13          8         14         16         20          9 
## 2008-11-06 2008-11-07 2008-11-08 2008-11-09 2008-11-10 2008-11-11 2008-11-12 
##         20          7         15          7          7         13         10 
## 2008-11-13 2008-11-14 2008-11-15 2008-11-16 2008-11-17 2008-11-18 2008-11-19 
##         12         19         15         13         18         18         11 
## 2008-11-20 2008-11-21 2008-11-22 2008-11-23 2008-11-24 2008-11-25 2008-11-26 
##         14         15         13         19         12         14         13 
## 2008-11-27 2008-11-28 2008-11-29 2008-11-30 2008-12-01 2008-12-02 2008-12-03 
##         16         10         15         11         15         18         21 
## 2008-12-04 2008-12-05 2008-12-06 2008-12-07 2008-12-08 2008-12-09 2008-12-10 
##         18         14         13         16         16          8         23 
## 2008-12-11 2008-12-12 2008-12-13 2008-12-14 2008-12-15 2008-12-16 2008-12-17 
##         19         18          9         13         22         17         18 
## 2008-12-18 2008-12-19 2008-12-20 2008-12-21 2008-12-22 2008-12-23 2008-12-24 
##         13         17         15         21         21         15         16 
## 2008-12-25 2008-12-26 2008-12-27 2008-12-28 2008-12-29 2008-12-30 2008-12-31 
##         18         22         20         19         13         32         22 
## 2009-01-01 2009-01-02 2009-01-03 2009-01-04 2009-01-05 2009-01-06 2009-01-07 
##         22         26         23         19         25         32         20 
## 2009-01-08 2009-01-09 2009-01-10 2009-01-11 2009-01-12 2009-01-13 2009-01-14 
##         27         20         20         32         20         19         27 
## 2009-01-15 2009-01-16 2009-01-17 2009-01-18 2009-01-19 2009-01-20 2009-01-21 
##         32         20         22         23         25         36         28 
## 2009-01-22 2009-01-23 2009-01-24 2009-01-25 2009-01-26 2009-01-27 2009-01-28 
##         16         24         26         28         25         25         19 
## 2009-01-29 2009-01-30 2009-01-31 2009-02-01 2009-02-02 2009-02-03 2009-02-04 
##         29         26         28         40         32         27         31 
## 2009-02-05 2009-02-06 2009-02-07 2009-02-08 2009-02-09 2009-02-10 2009-02-11 
##         32         22         26         30         26         26         27 
## 2009-02-12 2009-02-13 2009-02-14 2009-02-15 2009-02-16 2009-02-17 2009-02-18 
##         32         26         29         31         26         34         21 
## 2009-02-19 2009-02-20 2009-02-21 2009-02-22 2009-02-23 2009-02-24 2009-02-25 
##         32         36         23         30         43         26         22 
## 2009-02-26 2009-02-27 2009-02-28 2009-03-01 2009-03-02 2009-03-03 2009-03-04 
##         31         31         28         28         20         28         25 
## 2009-03-05 2009-03-06 2009-03-07 2009-03-08 2009-03-09 2009-03-10 2009-03-11 
##         30         22         26         27         29         30         25 
## 2009-03-12 2009-03-13 2009-03-14 2009-03-15 2009-03-16 2009-03-17 2009-03-18 
##         23         23         26         31         27         19         26 
## 2009-03-19 2009-03-20 2009-03-21 2009-03-22 2009-03-23 2009-03-24 2009-03-25 
##         32         12         25         22         28         20         28 
## 2009-03-26 2009-03-27 2009-03-28 2009-03-29 2009-03-30 2009-03-31 2009-04-01 
##         32         25         31         26         33         31         24 
## 2009-04-02 2009-04-03 2009-04-04 2009-04-05 2009-04-06 2009-04-07 2009-04-08 
##         24         24         28         26         20         29         34 
## 2009-04-09 2009-04-10 2009-04-11 2009-04-12 2009-04-13 2009-04-14 2009-04-15 
##         25         35         23         19         26         22         23 
## 2009-04-16 2009-04-17 2009-04-18 2009-04-19 2009-04-20 2009-04-21 2009-04-22 
##         25         26         30         28         36         24         31 
## 2009-04-23 2009-04-24 2009-04-25 2009-04-26 2009-04-27 2009-04-28 2009-04-29 
##         34         24         22         28         33         19         41 
## 2009-04-30 2009-05-01 2009-05-02 2009-05-03 2009-05-04 2009-05-05 2009-05-06 
##         25         20         26         25         28         30         31 
## 2009-05-07 2009-05-08 2009-05-09 2009-05-10 2009-05-11 2009-05-12 2009-05-13 
##         38         35         23         28         23         20         27 
## 2009-05-14 2009-05-15 2009-05-16 2009-05-17 2009-05-18 2009-05-19 2009-05-20 
##         24         28         31         20         26         25         37 
## 2009-05-21 2009-05-22 2009-05-23 2009-05-24 2009-05-25 2009-05-26 2009-05-27 
##         26         29         32         27         29         27         30 
## 2009-05-28 2009-05-29 2009-05-30 2009-05-31 2009-06-01 2009-06-02 2009-06-03 
##         30         29         24         32         26         21         26 
## 2009-06-04 2009-06-05 2009-06-06 2009-06-07 2009-06-08 2009-06-09 2009-06-10 
##         26         27         34         22         35         28         19 
## 2009-06-11 2009-06-12 2009-06-13 2009-06-14 2009-06-15 2009-06-16 2009-06-17 
##         26         25         25         31         25         26         29 
## 2009-06-18 2009-06-19 2009-06-20 2009-06-21 2009-06-22 2009-06-23 2009-06-24 
##         33         23         28         28         28         26         19 
## 2009-06-25 2009-06-26 2009-06-27 2009-06-28 2009-06-29 2009-06-30 2009-07-01 
##         33         19         24         31         27         27         25 
## 2009-07-02 2009-07-03 2009-07-04 2009-07-05 2009-07-06 2009-07-07 2009-07-08 
##         32         23         34         17         35         35         30 
## 2009-07-09 2009-07-10 2009-07-11 2009-07-12 2009-07-13 2009-07-14 2009-07-15 
##         21         33         31         24         34         26         34 
## 2009-07-16 2009-07-17 2009-07-18 2009-07-19 2009-07-20 2009-07-21 2009-07-22 
##         28         30         32         37         21         32         22 
## 2009-07-23 2009-07-24 2009-07-25 2009-07-26 2009-07-27 2009-07-28 2009-07-29 
##         13         23         25         33         26         22         31 
## 2009-07-30 2009-07-31 2009-08-01 2009-08-02 2009-08-03 2009-08-04 2009-08-05 
##         16         20         30         32         28         25         22 
## 2009-08-06 2009-08-07 2009-08-08 2009-08-09 2009-08-10 2009-08-11 2009-08-12 
##         22         27         33         31         21         34         25 
## 2009-08-13 2009-08-14 2009-08-15 2009-08-16 2009-08-17 2009-08-18 2009-08-19 
##         33         31         15         33         29         14         27 
## 2009-08-20 2009-08-21 2009-08-22 2009-08-23 2009-08-24 2009-08-25 2009-08-26 
##         28         23         22         25         30         29         25 
## 2009-08-27 2009-08-28 2009-08-29 2009-08-30 2009-08-31 2009-09-01 2009-09-02 
##         25         21         28         27         30         33         15 
## 2009-09-03 2009-09-04 2009-09-05 2009-09-06 2009-09-07 2009-09-08 2009-09-09 
##         27         23         29         20         28         23         33 
## 2009-09-10 2009-09-11 2009-09-12 2009-09-13 2009-09-14 2009-09-15 2009-09-16 
##         35         24         26         28         28         27         28 
## 2009-09-17 2009-09-18 2009-09-19 2009-09-20 2009-09-21 2009-09-22 2009-09-23 
##         23         27         28         26         29         37         36 
## 2009-09-24 2009-09-25 2009-09-26 2009-09-27 2009-09-28 2009-09-29 2009-09-30 
##         24         32         30         30         32         31         15 
## 2009-10-01 2009-10-02 2009-10-03 2009-10-04 2009-10-05 2009-10-06 2009-10-07 
##         31         23         18         28         27         26         31 
## 2009-10-08 2009-10-09 2009-10-10 2009-10-11 2009-10-12 2009-10-13 2009-10-14 
##         26         27         26         27         27         35         22 
## 2009-10-15 2009-10-16 2009-10-17 2009-10-18 2009-10-19 2009-10-20 2009-10-21 
##         23         31         23         21         36         33         28 
## 2009-10-22 2009-10-23 2009-10-24 2009-10-25 2009-10-26 2009-10-27 2009-10-28 
##         30         26         35         28         28         29         29 
## 2009-10-29 2009-10-30 2009-10-31 2009-11-01 2009-11-02 2009-11-03 2009-11-04 
##         21         30         24         43         32         25         27 
## 2009-11-05 2009-11-06 2009-11-07 2009-11-08 2009-11-09 2009-11-10 2009-11-11 
##         22         34         24         25         29         33         33 
## 2009-11-12 2009-11-13 2009-11-14 2009-11-15 2009-11-16 2009-11-17 2009-11-18 
##         26         35         30         20         31         24         22 
## 2009-11-19 2009-11-20 2009-11-21 2009-11-22 2009-11-23 2009-11-24 2009-11-25 
##         24         23         21         29         28         20         23 
## 2009-11-26 2009-11-27 2009-11-28 2009-11-29 2009-11-30 2009-12-01 2009-12-02 
##         29         21         18         33         23         17         23 
## 2009-12-03 2009-12-04 2009-12-05 2009-12-06 2009-12-07 2009-12-08 2009-12-09 
##         23         17         13         11         11         10         21 
## 2009-12-10 2009-12-11 2009-12-12 2009-12-13 2009-12-14 2009-12-15 2009-12-16 
##         19         12         12         15         10          7          5 
## 2009-12-17 2009-12-18 2009-12-19 2009-12-20 2009-12-21 2009-12-22 2009-12-23 
##          9          8         12          7          6          7          5 
## 2009-12-24 2009-12-25 2009-12-26 2009-12-27 2009-12-28 2009-12-29 2009-12-31 
##         10         10          6          4          4          3          3 
## 
## Biến: Gender
## 
##    F    M 
## 7170 6889 
## 
## Biến: MaritalStatus
## 
##    M    S 
## 6866 7193 
## 
## Biến: Homeowner
## 
##    N    Y 
## 5615 8444 
## 
## Biến: AnnualIncome
## 
##   $10K - $30K $110K - $130K $130K - $150K       $150K +   $30K - $50K 
##          3090           643           760           273          4601 
##   $50K - $70K   $70K - $90K  $90K - $110K 
##          2370          1709           613 
## 
## Biến: City
## 
##      Acapulco    Bellingham Beverly Hills     Bremerton       Camacho 
##           383           143           811           834           452 
##   Guadalajara       Hidalgo   Los Angeles        Merida   Mexico City 
##            75           845           926           654           194 
##       Orizaba      Portland         Salem    San Andres     San Diego 
##           464           876          1386           621           866 
## San Francisco       Seattle       Spokane        Tacoma     Vancouver 
##           130           922           875          1257           633 
##      Victoria   Walla Walla        Yakima 
##           176           160           376 
## 
## Biến: StateorProvince
## 
##        BC        CA        DF  Guerrero   Jalisco        OR  Veracruz        WA 
##       809      2733       815       383        75      2262       464      4567 
##   Yucatan Zacatecas 
##       654      1297 
## 
## Biến: Country
## 
## Canada Mexico    USA 
##    809   3688   9562 
## 
## Biến: ProductFamily
## 
##          Drink           Food Non-Consumable 
##           1250          10153           2656 
## 
## Biến: ProductDepartment
## 
## Alcoholic Beverages         Baked Goods        Baking Goods           Beverages 
##                 356                 425                1072                 680 
##     Breakfast Foods        Canned Foods     Canned Products            Carousel 
##                 188                 977                 109                  59 
##            Checkout               Dairy                Deli                Eggs 
##                  82                 903                 699                 198 
##        Frozen Foods  Health and Hygiene           Household                Meat 
##                1382                 893                1420                  89 
##         Periodicals             Produce             Seafood         Snack Foods 
##                 202                1994                 102                1600 
##              Snacks       Starchy Foods 
##                 352                 277 
## 
## Biến: ProductCategory
## 
##         Baking Goods    Bathroom Products        Beer and Wine 
##                  484                  365                  356 
##                Bread      Breakfast Foods              Candles 
##                  425                  417                   45 
##                Candy     Canned Anchovies         Canned Clams 
##                  352                   44                   53 
##       Canned Oysters      Canned Sardines        Canned Shrimp 
##                   35                   40                   38 
##          Canned Soup          Canned Tuna Carbonated Beverages 
##                  404                   87                  154 
##    Cleaning Supplies        Cold Remedies                Dairy 
##                  189                   93                  903 
##        Decongestants               Drinks                 Eggs 
##                   85                  135                  198 
##           Electrical      Frozen Desserts       Frozen Entrees 
##                  355                  323                  118 
##                Fruit             Hardware        Hot Beverages 
##                  765                  129                  226 
##              Hygiene     Jams and Jellies     Kitchen Products 
##                  197                  588                  217 
##            Magazines                 Meat        Miscellaneous 
##                  202                  761                   42 
##  Packaged Vegetables       Pain Relievers       Paper Products 
##                   48                  192                  345 
##                Pizza     Plastic Products Pure Juice Beverages 
##                  194                  141                  165 
##              Seafood          Side Dishes          Snack Foods 
##                  102                  153                 1600 
##            Specialty        Starchy Foods           Vegetables 
##                  289                  277                 1728

Biến Revenue có tổng cộng 14.059 quan sát, với giá trị nhỏ nhất là 0.53 và lớn nhất lên đến 56.7, phản ánh sự chênh lệch đáng kể giữa các quan sát. Giá trị trung bình của biến này là 13.00, cao hơn trung vị là 11.25, cho thấy phân phối dữ liệu có xu hướng lệch phải. Điều này được thể hiện rõ qua hệ số lệch (Skewness) là 1.13. Độ lệch chuẩn đạt mức 8.22, chỉ ra mức độ phân tán tương đối cao. Bên cạnh đó, độ nhọn (Kurtosis) đạt 4.39, cao hơn 3, cho thấy phân phối có đỉnh nhọn hơn phân phối chuẩn, đồng thời tồn tại nhiều giá trị ngoại lệ hoặc cực trị.

Biến Children cũng bao gồm 14.059 quan sát, với giá trị dao động từ 0 đến 5. Giá trị trung bình là 2.53, thấp hơn một chút so với trung vị là 3. Phân vị thứ nhất (Q1) và phân vị thứ ba (Q3) lần lượt là 1 và 4. Hệ số lệch của biến là -0.02, gần bằng 0, chỉ ra rằng phân phối khá đối xứng. Độ lệch chuẩn ở mức 1.49 cho thấy mức độ phân tán trung bình. Độ nhọn đạt 1.97, thấp hơn 3, phản ánh phân phối có xu hướng bẹt hơn so với phân phối chuẩn và ít xuất hiện các giá trị cực trị.

Biến UnitsSold có 14.059 quan sát với giá trị từ 1 đến 8. Giá trị trung bình là 4.08, rất gần với trung vị là 4, cho thấy phân phối dữ liệu khá cân đối. Các phân vị Q1 và Q3 lần lượt là 3 và 5. Hệ số lệch ở mức 0.01, gần bằng 0, phản ánh phân phối gần như đối xứng. Độ lệch chuẩn là 1.17, cho thấy mức độ phân tán thấp. Trong khi đó, độ nhọn là 2.56, thấp hơn giá trị 3 của phân phối chuẩn, cho thấy phân phối hơi dẹt và ít có giá trị ngoại lệ.

2.5. Đồ thị minh họa

## Warning: package 'ggplot2' was built under R version 4.3.3
## 
## Attaching package: 'ggplot2'
## The following objects are masked from 'package:psych':
## 
##     %+%, alpha
## 
## Vẽ biểu đồ cho biến: ...1
## Warning: `aes_string()` was deprecated in ggplot2 3.0.0.
## ℹ Please use tidy evaluation idioms with `aes()`.
## ℹ See also `vignette("ggplot2-in-packages")` for more information.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

## 
## Vẽ biểu đồ cho biến: CustomerID

## 
## Vẽ biểu đồ cho biến: Children

## 
## Vẽ biểu đồ cho biến: UnitsSold

## 
## Vẽ biểu đồ cho biến: Revenue

Biểu đồ histogram thể hiện phân phối của biến Revenue có dạng lệch phải rõ rệt. Phần lớn các quan sát tập trung ở khoảng giá trị từ 5 đến 20, cho thấy doanh thu phổ biến nằm ở mức trung bình thấp. Số lượng quan sát giảm dần khi giá trị doanh thu tăng lên, với một số ít trường hợp có doanh thu vượt mức 40. Điều này cho thấy sự tồn tại của các giá trị lớn hiếm gặp, tạo nên phần đuôi kéo dài về bên phải của biểu đồ.

Biểu đồ boxplot cho thấy trung vị nằm gần đáy hộp, phản ánh sự phân phối không đối xứng. Khoảng giữa (IQR) trải dài cho thấy dữ liệu phân tán tương đối lớn ở phần trung tâm. Đặc biệt, có rất nhiều điểm nằm ngoài râu trên của hộp, cho thấy biến Revenue chứa nhiều giá trị ngoại lệ hoặc cực trị ở phía cao.

Tổng thể, biến Revenue có phân phối lệch phải, nhiều giá trị ngoại lệ và mức độ phân tán cao. Những đặc điểm này cần được lưu ý khi phân tích thống kê hoặc xây dựng mô hình, bởi chúng có thể ảnh hưởng đến giả định phân phối chuẩn và kết quả suy luận thống kê. Việc biến đổi dữ liệu (chẳng hạn log-transform) hoặc xử lý ngoại lệ có thể được xem xét tùy theo mục tiêu phân tích.

2.6. Thống kê mô tả biến định tính

## Loading required package: htmltools

Biến Gender: Biến này phản ánh giới tính của khách hàng với hai giá trị: nam (M) và nữ (F). Trong tổng số 14.059 quan sát, số lượng nữ là 7.170 người (chiếm 51%), còn nam là 6.889 người (49%). Tỷ lệ này cho thấy giới tính trong mẫu dữ liệu khá cân đối, không có sự chênh lệch đáng kể giữa hai nhóm.

Biến MaritalStatus: Phản ánh tình trạng hôn nhân của khách hàng. Trong dữ liệu, có 7.193 người độc thân (51.16%) và 6.866 người đã kết hôn (48.84%). Mặc dù tỷ lệ khá cân bằng, nhưng nhóm độc thân chiếm ưu thế nhẹ.

Biến Homeowner: Thể hiện việc khách hàng có sở hữu nhà ở hay không. Có 8.444 người (60.06%) có nhà và 5.615 người (39.94%) không có nhà. Điều này cho thấy phần lớn khách hàng trong tập dữ liệu có điều kiện kinh tế tương đối ổn định.

Biến City: Phản ánh nơi sinh sống của khách hàng theo thành phố. Dữ liệu ghi nhận 23 thành phố, trong đó Bremerton (5.93%), Beverly Hills (5.77%) và Camacho (3.22%) là các khu vực có lượng khách hàng cao hơn hẳn. Phân bố khách hàng giữa các thành phố cho thấy sự đa dạng về mặt địa lý.

Biến StateorProvince: Cho biết tên bang hoặc tỉnh nơi khách hàng cư trú. California (CA) có tỷ lệ cao nhất (19.44%), tiếp theo là Distrito Federal (DF) với 5.8%. Một số khu vực khác như Jalisco hay Guerrero chỉ chiếm tỷ lệ nhỏ, dưới 3%, cho thấy khách hàng tập trung ở một số bang nhất định.

Biến Country: Thể hiện quốc gia cư trú của khách hàng. Hoa Kỳ chiếm đa số với 68.01%, kế đến là Mexico (26.23%) và Canada (5.75%). Sự chênh lệch lớn giữa các quốc gia cho thấy mẫu dữ liệu nghiêng về phía khách hàng từ Mỹ, điều này cần lưu ý trong quá trình phân tích.

Biến ProductFamily: Chia sản phẩm thành ba nhóm chính: Food, Drink và Non-Consumable. Nhóm Food chiếm tỷ lệ cao nhất với 72.22%, tiếp theo là Non-Consumable (18.89%) và Drink (8.89%). Đây là dấu hiệu cho thấy sản phẩm thực phẩm đóng vai trò chủ đạo trong tiêu dùng.

Biến ProductDepartment: Phân loại sản phẩm theo bộ phận. Một số bộ phận nổi bật là Baking Goods (7.63%) và Beverages (4.84%). Các bộ phận còn lại có tỷ lệ thấp hơn, phản ánh sự đa dạng nhưng phân tán trong danh mục hàng hóa.

Biến ProductCategory: Là cấp độ phân loại chi tiết nhất trong sản phẩm. Các danh mục phổ biến gồm Baking Goods (3.44%), Bread (3.02%) và Beer and Wine (2.53%). Mặc dù tỷ lệ không cao, nhưng tổng thể các danh mục thể hiện cấu trúc sản phẩm phong phú, đáp ứng nhiều loại nhu cầu tiêu dùng.