LỜI CẢM ƠN

Em xin gửi lời cảm ơn đến ThS. Trần Mạnh Tường đã tận tình hướng dẫn trong suốt thời gian học môn Phân tích dữ liệu định tính cũng như đã nhiệt tình hỗ trợ, giải đáp những thắc mắc của em trong lúc trong quá trình học tập trên lớp.

Do kiến thức còn nhiều hạn chế cùng thời gian tìm hiểu chưa sâu nên bài báo cáo tiểu luận ắt hẳn sẽ còn nhiều thiếu sót. Rất mong nhận được những ý kiến đóng góp của thầy để em có thể nhìn nhận chỗ thiếu sót, học hỏi thêm nhiều kinh nghiệm và hoàn thành tốt hơn trong những bài báo cáo sắp tới.

Cuối cùng, em xin kính chúc thầy luôn dồi dào sức khỏe và gặt hái được nhiều thành công trong sự nghiệp.

Em xin chân thành cảm ơn!


LỜI CAM ĐOAN

Em xin cam kết rằng các số liệu và kết quả nghiên cứu được trình bày trong bài tiểu luận này là trung thực và chính xác. Mọi thông tin được trích dẫn đều có nguồn gốc rõ ràng và tuân thủ các quy định về công bố thông tin.

PHẦN MỞ ĐẦU

1. Tính cấp thiết của đề tài

Trong bối cảnh nền kinh tế toàn cầu hóa và sự phát triển mạnh mẽ của công nghệ tài chính (Fintech), ngành ngân hàng đang phải đối mặt với một môi trường cạnh tranh khốc liệt hơn bao giờ hết. Việc duy trì và mở rộng nguồn vốn huy động, đặc biệt là từ các sản phẩm tiền gửi có kỳ hạn, là một trong những hoạt động cốt lõi, không chỉ đảm bảo tính thanh khoản mà còn tạo nền tảng vững chắc cho các hoạt động tín dụng và đầu tư của ngân hàng. Để đạt được mục tiêu này, các tổ chức tài chính đã và đang triển khai nhiều chiến dịch tiếp thị đa dạng, trong đó tiếp thị trực tiếp qua điện thoại (telemarketing) vẫn là một kênh quan trọng nhờ khả năng tương tác cá nhân hóa.

Tuy nhiên, hiệu quả của các chiến dịch telemarketing thường không cao và đòi hỏi chi phí đầu tư lớn về thời gian, nhân lực và tài chính. Tỷ lệ chuyển đổi (conversion rate) thấp không chỉ gây lãng phí nguồn lực mà còn có thể tạo ra trải nghiệm tiêu cực cho khách hàng. Do đó, bài toán đặt ra cho các nhà quản lý ngân hàng là làm thế nào để tối ưu hóa hiệu quả của các chiến dịch này. Lời giải nằm ở việc khai thác sức mạnh của phân tích dữ liệu: bằng cách xác định chính xác các đặc điểm và phân khúc khách hàng có tiềm năng phản hồi tích cực nhất, ngân hàng có thể tập trung nguồn lực một cách thông minh, từ đó mang lại lợi ích kinh tế và lợi thế cạnh tranh đáng kể.

Bộ dữ liệu “Bank Marketing” từ kho lưu trữ của UCI (University of California, Irvine) cung cấp một nguồn thông tin thực tế, phong phú về các chiến dịch marketing qua điện thoại và phản hồi của hàng chục nghìn khách hàng tại một ngân hàng Bồ Đào Nha. Việc khai thác bộ dữ liệu này bằng các phương pháp phân tích dữ liệu định tính hiện đại như hồi quy logistic, hồi quy Poisson, và các mô hình tuyến tính tổng quát (GLM) cho phép chúng ta vượt qua các phân tích mô tả đơn thuần để lượng hóa tác động của các yếu tố nhân khẩu học, xã hội và hành vi lên quyết định của khách hàng.

Nghiên cứu này không chỉ dừng lại ở việc dự đoán một hành vi duy nhất. Chúng tôi nhận thấy rằng hành vi tài chính của một khách hàng là một hệ thống phức tạp và có liên quan đến nhau. Quyết định gửi tiền tiết kiệm (deposit) có thể bị ảnh hưởng bởi việc họ có đang gánh một khoản nợ mua nhà (housing), độ tuổi (age) hay tình trạng hôn nhân(marital) hay không. Tương tự, số lần một khách hàng được liên lạc trong một chiến dịch (campaign) có thể phản ánh chiến lược của ngân hàng dựa trên các đặc điểm của họ. Vì vậy, việc thực hiện một nghiên cứu ứng dụng các mô hình định tính để phân tích đồng thời các mối quan hệ này là vô cùng cần thiết, mang lại ý nghĩa sâu sắc cả về mặt học thuật và thực tiễn quản trị.

2. Mục tiêu nghiên cứu

2.1. Mục tiêu tổng quát

Phân tích và lượng hóa mối quan hệ giữa các đặc điểm của khách hàng (cụ thể là tuổi, tình trạng hôn nhân, và tình trạng vay mua nhà) và các yếu tố tương tác trong chiến dịch (số lần liên lạc) đến quyết định cuối cùng của khách hàng về việc đăng ký tiền gửi có kỳ hạn.

2.2. Mục tiêu cụ thể

  1. Mô tả và trực quan hóa đặc điểm phân bố của các biến nhân khẩu học-xã hội và các biến hành vi trong mẫu dữ liệu, qua đó phác họa chân dung khách hàng điển hình.

  2. Lượng hóa và kiểm định mối quan hệ song biến giữa từng yếu tố độc lập (age, marital, housing) và biến phụ thuộc chính (deposit).

  3. Đánh giá và so sánh hiệu quả của các mô hình hồi quy nhị phân (Logistic, Probit, Cloglog) trong việc giải thích và dự đoán quyết định gửi tiền của khách hàng.

  4. Xây dựng và diễn giải mô hình hồi quy Poisson để phân tích các yếu tố ảnh hưởng đến biến đếm campaign (số lần liên lạc), qua đó hiểu rõ hơn về chiến lược tiếp cận khách hàng của ngân hàng.

  5. Phân khúc khách hàng dựa trên tổ hợp hành vi (gửi tiền theo trình độ học vấn) bằng mô hình hồi quy Multinomial Logistic.

  6. Từ các kết quả phân tích, đề xuất các hàm ý quản trị cho việc tối ưu hóa chiến dịch tiếp thị và xây dựng chiến lược kinh doanh trong lĩnh vực ngân hàng.

3. Câu hỏi nghiên cứu

  1. Các yếu tố nhân khẩu học-xã hội như độ tuổi, tình trạng hôn nhân và việc có khoản vay mua nhà ảnh hưởng đến quyết định gửi tiền tiết kiệm của khách hàng theo chiều hướng và mức độ nào?

  2. Việc gia tăng số lần liên lạc trong một chiến dịch (campaign) có thực sự cải thiện tỷ lệ khách hàng đăng ký hay không, và các yếu tố nào ảnh hưởng đến số lần một khách hàng được liên lạc?

  3. Trong số các mô hình hồi quy nhị phân (Logit, Probit, Cloglog), mô hình nào mô tả tốt nhất mối quan hệ giữa các biến độc lập và quyết định gửi tiền?

  4. Làm thế nào để phân khúc các khách hàng đã đồng ý gửi tiền dựa trên trình độ học vấn của họ, và các yếu tố nào dự báo một khách hàng thuộc về một phân khúc cụ thể?

4. Đối tượng và phạm vi nghiên

  • Đối tượng nghiên cứu: Các yếu tố ảnh hưởng đến quyết định gửi tiền tiết kiệm có kỳ hạn của khách hàng trong các chiến dịch tiếp thị qua điện thoại.

  • Phạm vi nghiên cứu:

    • Về không gian: Bộ dữ liệu được thu thập từ một tổ chức ngân hàng tại Bồ Đào Nha.

    • Về thời gian: Dữ liệu được thu thập trong giai đoạn từ tháng 5 năm 2008 đến tháng 11 năm 2010.

    • Nội dung: Nghiên cứu tập trung vào các phân khúc khách hàng theo độ tuổi, tình trạng hôn nhân và tình trạng vay mua nhà.

5. Phương pháp nghiên cứu

Đề tài sử dụng phương pháp nghiên cứu định lượng, áp dụng các kỹ thuật thống kê mô tả và suy luận trên phần mềm R:

  • Thống kê mô tả: Lập bảng tần số, tính toán các chỉ số thống kê (trung bình, độ lệch chuẩn, tứ phân vị) và trực quan hóa dữ liệu bằng biểu đồ cột, biểu đồ tròn.

  • Thống kê suy luận:

    • Kiểm định Chi-bình phương (Chi-squared Test) để xác định sự độc lập giữa các biến phân loại.

    • Ước lượng khoảng tin cậy và kiểm định giả thuyết cho tỷ lệ.

  • Mô hình hóa thống kê:

    • Xây dựng và so sánh các mô hình hồi quy cho biến nhị phân (Logistic, Probit, Cloglog).

    • Xây dựng mô hình hồi quy cho biến đếm (Poisson và kiểm tra giả định).

    • Xây dựng mô hình hồi quy đa kết quả (Multinomial Logistic).

    • Sử dụng các tiêu chí như AIC, BIC và Deviance để đánh giá và lựa chọn mô hình phù hợp.

6. Đóng góp của đề tài

  • Về mặt lý luận: Đề tài góp phần hệ thống hóa và so sánh việc ứng dụng các mô hình định tính khác nhau trên cùng một bộ dữ liệu thực tế, làm rõ ưu nhược điểm và khả năng diễn giải của từng phương pháp trong bối cảnh phân tích hành vi khách hàng.

  • Về mặt thực tiễn: Cung cấp những bằng chứng định lượng cụ thể, có thể hành động được (actionable insights) cho các nhà quản lý ngân hàng. Kết quả nghiên cứu giúp nhận diện các phân khúc khách hàng tiềm năng, đánh giá hiệu quả của chiến lược tiếp cận, và đưa ra các gợi ý để tối ưu hóa chi phí và hiệu quả của các chiến dịch tiếp thị trong tương lai.

Chương 1: TỔNG QUAN CƠ SỞ LÝ THUYẾT

1.1. Khái niệm cơ bản

1.1.1. Gửi tiền có kỳ hạn (Term Deposit)

Định nghĩa: Gửi tiền có kỳ hạn là một sản phẩm tài chính cơ bản do các tổ chức ngân hàng cung cấp, trong đó khách hàng gửi một khoản tiền vào ngân hàng trong một khoảng thời gian được xác định trước (ví dụ: 1 tháng, 3 tháng, 6 tháng, 12 tháng hoặc lâu hơn). Đổi lại, ngân hàng cam kết trả một mức lãi suất cố định, thường cao hơn so với các tài khoản thanh toán hoặc tiết kiệm không kỳ hạn. Người gửi chỉ có thể rút toàn bộ số tiền gốc và lãi sau khi kỳ hạn kết thúc (ngày đáo hạn).

Đặc điểm:

  • Lãi suất hấp dẫn: Lợi ích chính của tiền gửi có kỳ hạn là mức lãi suất cao hơn so với các hình thức gửi tiền khác. Lãi suất này thường được cố định trong suốt kỳ hạn, giúp người gửi dự đoán chính xác được khoản lợi nhuận của mình.

  • Tính ổn định và an toàn cao: Tiền gửi có kỳ hạn được xem là một trong những kênh đầu tư an toàn nhất, ít chịu ảnh hưởng bởi biến động của thị trường tài chính và thường được bảo hiểm bởi các tổ chức bảo hiểm tiền gửi của chính phủ.

  • Tính thanh khoản bị giới hạn: Đây là nhược điểm chính. Khách hàng không thể linh hoạt rút tiền trước ngày đáo hạn. Nếu rút trước hạn, họ thường sẽ nhận được một mức lãi suất rất thấp (thường bằng lãi suất không kỳ hạn) và có thể phải chịu một khoản phí phạt.

1.1.2. Hành vi tài chính cá nhân (Personal Financial Behavior)

Định nghĩa: Hành vi tài chính cá nhân là một lĩnh vực nghiên cứu rộng lớn, bao hàm toàn bộ các quá trình ra quyết định và hành động của một cá nhân liên quan đến việc quản lý các nguồn lực tài chính của mình. Nó bao gồm các hoạt động như lập ngân sách, chi tiêu, tiết kiệm, đầu tư, vay nợ và lập kế hoạch cho tương lai (như nghỉ hưu).

Quyết định gửi tiền có kỳ hạn trong hành vi tài chính: Quyết định đăng ký một khoản tiền gửi có kỳ hạn là một biểu hiện cụ thể của hành vi tiết kiệm và đầu tư. Nó không chỉ đơn thuần là một giao dịch tài chính, mà còn phản ánh các mục tiêu dài hạn, mức độ chấp nhận rủi ro, và các yếu tố tâm lý của cá nhân. Việc lựa chọn sản phẩm này thường bị ảnh hưởng bởi một tổ hợp phức tạp các yếu tố bao gồm tình hình tài chính cá nhân, kiến thức tài chính, các yếu tố kinh tế - xã hội, và các đặc điểm tâm lý.

1.2. Các lý thuyết liên quan

Để hiểu sâu hơn các động lực đằng sau quyết định gửi tiền, chúng ta có thể tham chiếu đến các lý thuyết kinh tế và tâm lý học nền tảng sau:

1.2.1. Lý thuyết hành vi người tiêu dùng (Consumer Behavior Theory)

Lý thuyết này, bắt nguồn từ kinh tế học vi mô, cho rằng người tiêu dùng là những cá nhân hợp lý, luôn hành động nhằm tối đa hóa lợi ích (utility) của mình trong giới hạn về ngân sách. Khi áp dụng vào quyết định gửi tiền, khách hàng sẽ đánh giá các sản phẩm tài chính khác nhau và chọn gửi tiền có kỳ hạn nếu họ tin rằng lựa chọn này mang lại lợi ích ròng lớn nhất. Lợi ích ở đây được cân đo giữa lợi nhuận kỳ vọng (lãi suất cao) và các yếu tố khác như rủi ro (mức độ an toàn của ngân hàng)chi phí cơ hội (mất đi tính thanh khoản so với các lựa chọn khác).

1.2.2. Lý thuyết lựa chọn hợp lý (Rational Choice Theory)

Là một nhánh của lý thuyết hành vi người tiêu dùng, lý thuyết này giả định rằng cá nhân đưa ra quyết định sau khi đã tính toán và so sánh một cách có hệ thống chi phí và lợi ích của tất cả các phương án có sẵn để chọn ra phương án tối ưu nhất. Theo đó, một khách hàng sẽ cân nhắc kỹ lưỡng các yếu tố như: kỳ hạn gửi, biểu lãi suất của các ngân hàng khác nhau, uy tín thương hiệu của ngân hàng, và tính linh hoạt của sản phẩm trước khi đưa ra quyết định cuối cùng.

1.2.3. Lý thuyết tài chính hành vi (Behavioral Finance Theory)

Trái ngược với các lý thuyết trên, tài chính hành vi cho rằng các quyết định tài chính của con người không phải lúc nào cũng hoàn toàn hợp lý. Thay vào đó, chúng thường bị chi phối bởi các lệch lạc nhận thức (cognitive biases)yếu tố cảm xúc. Ví dụ, nỗi sợ thua lỗ (loss aversion) có thể khiến một khách hàng chọn kênh gửi tiết kiệm an toàn thay vì đầu tư vào chứng khoán có tiềm năng lợi nhuận cao hơn nhưng cũng rủi ro hơn. Tương tự, các yếu tố như ảnh hưởng từ đám đông (herding behavior) hoặc sự tin tưởng vào một thương hiệu ngân hàng quen thuộc cũng có thể đóng vai trò quan trọng.

1.3. Các nhóm yếu tố ảnh hưởng đến quyết định gửi tiền có kỳ hạn

Dựa trên các lý thuyết trên và các nghiên cứu thực nghiệm, các yếu tố ảnh h*ưởng đến quyết định gửi tiền của khách hàng có thể được hệ thống hóa thành các nhóm chính sau:

Nhóm yếu tố Nội dung cụ thể
Yếu tố cá nhân Tuổi, tình trạng hôn nhân, trình độ học vấn, nghề nghiệp. Các yếu tố này phản ánh giai đoạn vòng đời, kiến thức tài chính và sự ổn định trong cuộc sống của khách hàng.
Yếu tố tài chính Thu nhập, số dư tài khoản hiện tại, các khoản nợ hiện hữu (vay mua nhà, vay cá nhân). Các yếu tố này quyết định khả năng tài chính và nguồn tiền nhàn rỗi của khách hàng để có thể tiết kiệm.
Yếu tố từ ngân hàng Lãi suất tiền gửi, các chương trình khuyến mãi, uy tín thương hiệu, chất lượng dịch vụ, sự tiện lợi của kênh giao dịch. Đây là các yếu tố cạnh tranh trực tiếp giữa các ngân hàng.
Yếu tố tâm lý – xã hội Thói quen tiết kiệm, mức độ chấp nhận rủi ro, mục tiêu tài chính cá nhân (mua nhà, nghỉ hưu), ảnh hưởng từ gia đình và bạn bè.
Yếu tố bên ngoài Môi trường kinh tế vĩ mô (lạm phát, lãi suất thị trường), các chính sách của chính phủ, các xu hướng và thông tin trên truyền thông.

Nghiên cứu này sẽ tập trung vào việc phân tích định lượng một số yếu tố thuộc nhóm Cá nhân (age, marital, education) và Tài chính (housing) để làm rõ tác động của chúng lên quyết định gửi tiền.

Chương 2: PHƯƠNG PHÁP NGHIÊN CỨU

2.1. Phân tích bảng ngẫu nhiên

Khi nghiên cứu mối quan hệ giữa hai hay nhiều biến định tính, công cụ cơ sở và quan trọng nhất là bảng ngẫu nhiên, hay còn gọi là bảng tần số chéo (contingency table). Bảng này trình bày một cách hệ thống tần suất đồng thời xuất hiện của các hạng mục (phạm trù) của các biến, qua đó cho phép chúng ta khám phá cấu trúc của mối liên hệ giữa chúng.

2.1.1. Cấu trúc và các loại tần suất

Một bảng ngẫu nhiên hai chiều được tạo ra bằng cách phân loại các đối tượng trong mẫu theo hai biến định tính: biến dòng (row variable) và biến cột (column variable). Giả sử biến dòng XI phạm trù và biến cột YJ phạm trù, bảng ngẫu nhiên \(I \times J\) sẽ có dạng:

Phạm trù 1 của Y (\(y_1\)) Phạm trù J của Y (\(y_J\)) Tổng dòng
Phạm trù 1 của X (\(x_1\)) \(n_{11}\) \(n_{1J}\) \(n_{1.}\)
Phạm trù I của X (\(x_I\)) \(n_{I1}\) \(n_{IJ}\) \(n_{I.}\)
Tổng cột \(n_{.1}\) \(n_{.J}\) \(n\)

Trong đó:

  • \(n_{ij}\)tần số quan sát (observed frequency) trong ô (i, j), tức là số lượng đối tượng đồng thời thuộc phạm trù \(i\) của biến X và phạm trù \(j\) của biến Y.

  • \(n_{i.} = \sum_{j=1}^{J} n_{ij}\)tổng tần số của dòng thứ i (row marginal frequency).

  • \(n_{.j} = \sum_{i=1}^{I} n_{ij}\)tổng tần số của cột thứ j (column marginal frequency).

  • \(n\)tổng cỡ mẫu.

Từ các tần số quan sát, chúng ta có thể tính toán các loại tỷ lệ khác nhau để hiểu rõ hơn về cấu trúc dữ liệu:

  1. Tỷ lệ chung (Joint Proportions): \(p_{ij} = n_{ij}/n\). Đây là tỷ lệ của các quan sát rơi vào ô (i, j) so với toàn bộ mẫu.
  2. Phân phối biên (Marginal Distributions):
    • Tỷ lệ tổng biên của dòng: \(p_{i.} = n_{i.}/n\). Đây chính là phân phối xác suất của biến X.
    • Tỷ lệ tổng biên của cột: \(p_{.j} = n_{.j}/n\). Đây chính là phân phối xác suất của biến Y.
  3. Phân phối có điều kiện (Conditional Distributions): Đây là các phân phối quan trọng nhất để nghiên cứu mối liên hệ giữa hai biến.
    • Phân phối có điều kiện của Y theo X: \(p_{j|i} = P(Y=y_j | X=x_i) = n_{ij}/n_{i.}\). Tỷ lệ này cho biết, trong số những đối tượng thuộc nhóm \(x_i\), có bao nhiêu phần trăm thuộc nhóm \(y_j\).
    • Phân phối có điều kiện của X theo Y: \(p_{i|j} = P(X=x_i | Y=y_j) = n_{ij}/n_{.j}\).

Nếu hai biến X và Y là độc lập thống kê (statistically independent), thì phân phối có điều kiện của Y theo X sẽ giống nhau với mọi phạm trù của X (tức là \(p_{j|i} = p_{.j}\) cho mọi i), và ngược lại. Sự khác biệt giữa các phân phối có điều kiện này chính là dấu hiệu của một mối liên hệ giữa hai biến.

2.1.2. Các phân phối xác suất liên quan đến bảng ngẫu nhiên

Việc lựa chọn mô hình xác suất phù hợp cho các tần số ô \(n_{ij}\) phụ thuộc vào cách dữ liệu được thu thập. Trong phân tích bảng ngẫu nhiên, ba mô hình xác suất chính thường được sử dụng:

  1. Phân phối Poisson: Giả định rằng tổng hàng và cột không được xác định trước. Các tần số ô \(n_{ij}\) được xem là các biến ngẫu nhiên Poisson độc lập với tham số (kỳ vọng) \(\mu_{ij}\). Tổng cỡ mẫu \(n = \sum \sum n_{ij}\) cũng tuân theo phân phối Poisson. Đây là cơ sở để xây dựng các mô hình Log-linear.

  2. Phân phối Multinomial (Đa thức): Giả định rằng tổng cỡ mẫu \(n\) được cố định trước. Vector các tần số ô \((n_{11}, ..., n_{IJ})\) sẽ tuân theo một phân phối Multinomial với \(I \times J\) hạng mục và vector xác suất tương ứng \((p_{11}, ..., p_{IJ})\).

  3. Phân phối Product Multinomial: Giả định rằng tổng của các dòng (hoặc các cột) được cố định trước. Ví dụ, nếu chúng ta chọn ra một số lượng khách hàng nhất định từ mỗi nhóm education (tổng dòng cố định) rồi mới xem họ có deposit hay không, thì mỗi dòng của bảng sẽ tuân theo một phân phối Multinomial độc lập.

May mắn thay, các phương pháp suy diễn thống kê chính cho bảng ngẫu nhiên (như kiểm định Chi-bình phương) thường cho ra cùng một kết quả bất kể mô hình lấy mẫu nào được giả định, miễn là cỡ mẫu đủ lớn.

2.1.3. Thước đo mối liên hệ cho bảng 2x2

Bảng 2x2 là trường hợp đơn giản nhưng quan trọng nhất trong phân tích bảng ngẫu nhiên, thường được dùng để so sánh tỷ lệ “thành công” giữa hai nhóm. Có ba cách phổ biến để so sánh hai tỷ lệ \(\hat{p}_1 = n_{11}/n_1\)\(\hat{p}_2 = n_{21}/n_2\):

  1. Hiệu số hai tỷ lệ (Difference in Proportions): \(D = p_1 - p_2\). Thước đo này đo lường sự khác biệt tuyệt đối, dễ hiểu nhưng giá trị của nó phụ thuộc vào mức cơ sở của tỷ lệ.

  2. Tỷ số nguy cơ (Relative Risk - RR): \(RR = p_1 / p_2\). Thước đo này cho biết nguy cơ “thành công” ở nhóm 1 cao gấp bao nhiêu lần so với nhóm 2. Nó rất trực quan và thường được sử dụng trong các nghiên cứu thuần tập.

  3. Tỷ số chênh (Odds Ratio - OR): \(OR = \frac{p_1/(1-p_1)}{p_2/(1-p_2)}\). Đây là thước đo có các thuộc tính toán học ưu việt, đặc biệt là tính đối xứng và là nền tảng cho việc diễn giải các mô hình hồi quy logistic, một trong những công cụ chính của nghiên cứu này.

2.2. Mô hình tuyến tính tổng quát (GLMs)

GLM là một sự mở rộng linh hoạt của hồi quy tuyến tính, cho phép biến phụ thuộc có phân phối lỗi không phải là phân phối chuẩn. Một GLM có 3 thành phần:

  1. Thành phần ngẫu nhiên (Random Component): Xác định phân phối xác suất của biến phụ thuộc Y (ví dụ: Bernoulli cho dữ liệu nhị phân, Poisson cho dữ liệu đếm).
  2. Thành phần hệ thống (Systematic Component): Là một tổ hợp tuyến tính của các biến độc lập: \(\eta = \beta_0 + \beta_1X_1 + \dots + \beta_kX_k\).
  3. Hàm liên kết (Link Function): Một hàm \(g(.)\) liên kết kỳ vọng của biến phụ thuộc \(E(Y) = \mu\) với thành phần hệ thống: \(g(\mu) = \eta\).

Phương pháp ước lượng và suy diễn: Các tham số \(\beta\) trong GLM thường được ước lượng bằng phương pháp Hợp lý Tối đa (Maximum Likelihood Estimation - MLE). Suy diễn thống kê cho các tham số (kiểm định xem \(\beta_j\) có bằng 0 hay không) được thực hiện qua các kiểm định như Wald test, Likelihood Ratio Test (LRT).

Đánh giá độ phù hợp và lựa chọn mô hình:

  • Các chỉ số như DeviancePearson Chi-squared statistic được dùng để đánh giá độ phù hợp tổng thể của mô hình.

  • Các tiêu chí như AIC (Akaike Information Criterion)BIC (Bayesian Information Criterion) được dùng để so sánh và lựa chọn giữa các mô hình cạnh tranh.

2.3. Mô hình hồi quy nhị phân (Binary Regression)

Khi biến phụ thuộc Y là nhị phân, chúng ta mô hình hóa xác suất \(p = P(Y=1)\).

2.3.1. Mô hình hồi quy Logistic (Logit Model)

Mô hình hồi quy logistic (Logistic Regression) là một công cụ thống kê được sử dụng phổ biến để phân tích mối quan hệ giữa một biến phụ thuộc dạng nhị phân (nhận giá trị 0 hoặc 1) và một hoặc nhiều biến độc lập có thể là định lượng hoặc định tính. Không giống như hồi quy tuyến tính cổ điển, mô hình logistic không dự đoán trực tiếp giá trị của biến phụ thuộc mà ước lượng xác suất xảy ra của một sự kiện, thông qua việc sử dụng một hàm liên kết phi tuyến gọi là hàm logit.

Cụ thể, mô hình logistic xây dựng mối quan hệ giữa xác suất xảy ra sự kiện \(p = \text{P(Y = 1 | X)}\) và các biến giải thích \(X_1, X_2,\ldots, X_k\) bằng công thức:

\[ \log\left(\frac{p}{1 - p}\right) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k \]

Trong đó:

  • \(\beta\) là hệ số ước lượng,

  • \(X\) là biến độc lập,

  • \(p\) là xác suất để sự kiện xảy ra, với

\[ p = \frac{1}{1 + e^{-(\beta_0 + \beta_1X_1 + \dots + \beta_kX_k)}} \]

Biểu thức bên trái gọi là hàm logit, đại diện cho logarit tự nhiên của odds – tỷ lệ xảy ra sự kiện so với không xảy ra. Phương trình này cho phép mô hình hóa xác suất xảy ra của biến phụ thuộc trong khoảng từ 0 đến 1, một cách phù hợp về mặt toán học và thực tiễn.

Phương pháp ước lượng các tham số \(\beta\) trong mô hình logistic thường được thực hiện thông qua phương pháp ước lượng hợp lý tối đa (Maximum Likelihood Estimation – MLE), nhằm tìm ra bộ tham số tốt nhất để tối đa hóa khả năng xảy ra của mẫu quan sát đã cho. Một ưu điểm đáng chú ý của mô hình logistic là khả năng diễn giải hệ số hồi quy dưới dạng Tỷ số chênh (Odds Ratio – OR), cho phép người phân tích hiểu được mức độ ảnh hưởng của từng biến độc lập đối với xác suất xảy ra sự kiện. Bên cạnh đó, mô hình logistic còn là nền tảng của nhiều phương pháp phân loại phức tạp hơn trong học máy như hồi quy logistic đa thức, hồi quy logistic có điều chuẩn (regularization), hoặc mô hình hồi quy tổng quát (Generalized Linear Model – GLM).

2.3.2. Mô hình hồi quy Probit

Mô hình hồi quy Probit là một trong những phương pháp kinh điển được sử dụng trong các phân tích định lượng khi biến phụ thuộc là biến định tính. Mô hình này đặc biệt phù hợp khi mục tiêu là ước lượng xác suất xảy ra của một hiện tượng nhất định, đồng thời đảm bảo xác suất thu được luôn nằm trong khoảng từ 0 đến 1. Điểm khác biệt cơ bản giữa Probit và các mô hình hồi quy tuyến tính là Probit không dự đoán trực tiếp biến phụ thuộc, mà dựa vào một biến tiềm ẩn (latent variable) và sử dụng hàm phân phối tích lũy chuẩn để mô hình hóa mối quan hệ giữa xác suất và các biến giải thích.

Trong mô hình Probit nhị phân – dạng phổ biến nhất – giả định rằng tồn tại một biến liên tục tiềm ẩn \(Y^*\) được xác định bởi: \[ \Phi^{-1}(p) = \beta_0 + \beta_1 X_1+ \dots + \beta_k X_k + \varepsilon,\ \varepsilon \sim \mathcal{N}(0,1) \]

\(Y\) chỉ nhận giá trị 1 nếu \(\Phi^{-1}(p) > 0\) và bằng 0 nếu ngược lại. Từ đó, xác suất để \(Y\) nhận giá trị 1 là: \[ \text{P(Y = 1 | X)} = \Phi(\beta_0 + \beta_1 X_1 + \cdots + \beta_k X_k) \]

Trong đó:

  • \(\Phi(\cdot)\) là hàm phân phối tích lũy của phân phối chuẩn tắc,

  • \(\beta_1, \beta_2, \dots + \beta_k\) là các hệ số hồi quy,

  • \(X_1, X_2, \dots , \beta_k\) là các biến độc lập.

Ngoài mô hình Probit nhị phân, Probit còn được mở rộng cho các trường hợp biến phụ thuộc có nhiều hơn hai mức độ. Trong mô hình Probit có thứ tự (Ordered Probit), biến phụ thuộc là phân loại có thứ tự (ví dụ: mức độ hài lòng), và mô hình sử dụng các ngưỡng cắt (thresholds) để phân chia giá trị của biến tiềm ẩn thành các nhóm thứ tự cụ thể. Trong khi đó, mô hình Probit đa thức (Multinomial Probit – MNP) được áp dụng khi biến phụ thuộc là phân loại không có thứ tự, với nhiều lựa chọn (ví dụ: chọn loại phương tiện di chuyển). MNP cho phép sự tồn tại của mối tương quan giữa các sai số của các lựa chọn khác nhau – điểm mạnh mà các mô hình Logit đa thức không có được do giả định IIA.

Tóm lại, mô hình Probit là một công cụ kinh tế lượng linh hoạt và có nền tảng lý thuyết vững chắc để xử lý các vấn đề phân loại. Dù hệ số trong Probit khó diễn giải trực tiếp, nhưng mô hình này lại được đánh giá cao khi các giả định về phân phối chuẩn của sai số là hợp lý, và nó đặc biệt hữu ích trong các nghiên cứu định tính trong kinh tế học, xã hội học, y tế và nhiều lĩnh vực khác.

2.3.3. Mô hình hồi quy Clog-log

Mô hình hồi quy Cloglog (Complementary Log-Log) là một phương pháp hồi quy tổng quát khác được sử dụng cho biến phụ thuộc nhị phân. Nó là một sự thay thế cho mô hình Logit và Probit, đặc biệt hữu ích trong các tình huống mà xác suất của sự kiện xảy ra hoặc không xảy ra tiệm cận một cách không đối xứng về 0 hoặc 1.

Điểm khác biệt cốt lõi của mô hình Cloglog nằm ở hàm liên kết (link function) của nó, được định nghĩa là: \[ \text{cloglog}(p) = \ln(-\ln(1-p)) \] Trong đó p là xác suất của sự kiện xảy ra (Y=1).

  • Tính bất đối xứng (Asymmetry): Đây là đặc điểm quan trọng nhất. Trong khi Logit và Probit đối xứng (xác suất tiến về 0 và 1 với tốc độ như nhau), hàm Cloglog lại bất đối xứng. Nó tiến về 1 chậm hơn so với việc nó tiến về 0.
  • Nguồn gốc từ phân phối giá trị cực đoan: Nếu Logit dựa trên phân phối Logistic và Probit dựa trên phân phối Chuẩn, thì Cloglog có liên quan đến phân phối Gumbel (hay còn gọi là phân phối giá trị cực đoan loại I).
  • Ứng dụng: Do tính chất bất đối xứng, mô hình Cloglog đặc biệt phù hợp cho các bài toán trong phân tích thời gian sống (survival analysis), nơi nó được dùng để mô hình hóa xác suất một đối tượng “sống sót” qua một khoảng thời gian, hoặc trong độc chất học (toxicology) để mô hình hóa tỷ lệ phản ứng với các liều lượng khác nhau.

Tương tự như Probit, các hệ số β trong mô hình Cloglog khó diễn giải trực tiếp. Chúng không thể được chuyển đổi thành Tỷ số chênh (Odds Ratio) một cách đơn giản. Dấu của hệ số vẫn cho biết hướng tác động, nhưng độ lớn của ảnh hưởng thường được đánh giá thông qua các tác động biên (marginal effects) hoặc các chỉ số khác tùy thuộc vào lĩnh vực ứng dụng.

2.3.4. Mô hình xác suất tuyến tính (LMP)

Mô hình xác suất tuyến tính (Linear Probability Model - LPM) là một trường hợp đặc biệt của Mô hình Tuyến tính Tổng quát (GLM), trong đó hàm liên kết là hàm đồng nhất (identity link function). Điều này có nghĩa là mô hình giả định một mối quan hệ tuyến tính trực tiếp giữa các biến độc lập và chính xác suất xảy ra sự kiện. Công thức mô hình được biểu diễn như sau:

\[ P(Y=1 | \mathbf{X}) = \mathbf{X}\beta \]

Trong đó:

  • \(Y\) là biến phản hồi nhị phân (nhận giá trị 0 hoặc 1).

  • \(\mathbf{X}\) là ma trận các biến độc lập.

  • \(\beta\) là vector các hệ số hồi quy.

Mô hình này cho phép diễn giải trực tiếp xác suất xảy ra sự kiện \(Y=1\) như một hàm tuyến tính của các biến giải thích \(\mathbf{X}\).

Ưu điểm và Nhược điểm: Ưu điểm chính của LPM là sự đơn giản: nó dễ dàng được ước lượng bằng phương pháp OLS thông thường và các hệ số của nó có thể được diễn giải một cách trực tiếp (ví dụ: “khi X tăng 1 đơn vị, xác suất Y=1 tăng \(\beta\) đơn vị”).

Tuy nhiên, mô hình này có một nhược điểm nghiêm trọng: giá trị dự báo của xác suất (\(\hat{p}\)) có thể nằm ngoài khoảng hợp lý [0, 1]. Điều này không chỉ vi phạm ý nghĩa cơ bản của xác suất mà còn dẫn đến các vấn đề về phương sai thay đổi của phần dư. Do đó, LPM thường không phải là lựa chọn tối ưu để dự đoán hành vi nhị phân và thường chỉ được sử dụng như một bước tham chiếu ban đầu để so sánh với các mô hình phức tạp hơn như logit, probit, hoặc cloglog.

2.3.5. Phương pháp ước lượng: Hợp lý Tối đa (Maximum Likelihood Estimation - MLE)

Các mô hình nhị phân như logit, probit, và cloglog đều được ước lượng bằng phương pháp ước lượng hợp lý tối đa (Maximum Likelihood Estimation - MLE). Đây là phương pháp nền tảng trong thống kê suy luận, có mục tiêu tìm ra bộ tham số \(\beta\) sao cho xác suất tạo ra bộ dữ liệu quan sát được là cao nhất.

Trong các mô hình hồi quy nhị phân thuộc họ GLM, các tham số \(\beta\) không được ước lượng bằng phương pháp bình phương tối thiểu như trong OLS, mà thay vào đó sử dụng MLE.

Phương pháp MLE tìm tập giá trị của \(\beta\) sao cho hàm hợp lý (likelihood function) đạt cực đại – nghĩa là, khả năng tạo ra bộ dữ liệu quan sát từ mô hình là cao nhất. Hàm hợp lý trong trường hợp nhị phân được xây dựng dựa trên phân phối Bernoulli:

\[ L(\beta) = \prod_{i=1}^{n} [P_i]^{y_i} [1-P_i]^{1-y_i}, \quad \text{trong đó } P_i = G(\mathbf{X}_i\beta) \]

Ở đây, \(y_i\) là giá trị quan sát của biến phụ thuộc (0 hoặc 1) cho quan sát thứ \(i\), và \(G\) là hàm liên kết nghịch đảo (ví dụ: hàm logistic hoặc CDF của phân phối chuẩn).

Để đơn giản hóa việc tính toán, thay vì tối đa hóa \(L(\beta)\), người ta thường tối đa hóa logarit của nó, được gọi là hàm log-likelihood:

\[ \log L(\beta) = \sum_{i=1}^{n} [y_i \log(P_i) + (1-y_i)\log(1-P_i)] \]

Bài toán tối đa hóa hàm log-likelihood này được giải bằng các thuật toán tối ưu hóa số học lặp đi lặp lại như Newton-Raphson hoặc Fisher Scoring để thu được các ước lượng \(\hat{\beta}\).

2.4. Mô hình hồi quy Multinomial Logistic

Multinomial Logistic Regression (MLR) là một mô hình hồi quy mở rộng từ hồi quy logistic nhị phân, được sử dụng trong trường hợp biến phụ thuộc là biến định tính có từ ba phạm trù trở lên và không có thứ tự (nominal outcome). Mục tiêu của mô hình là ước lượng xác suất để một quan sát rơi vào một trong các phạm trù đó, dựa trên các biến độc lập định lượng hoặc định tính.

Trong mô hình này, một phạm trù sẽ được chọn làm phạm trù tham chiếu (reference category), và mô hình sẽ xây dựng các phương trình logit cho từng phạm trù còn lại so với phạm trù tham chiếu. Cụ thể, nếu biến phụ thuộc Y có k phạm trù, thì với mỗi phạm trù j (khác với phạm trù tham chiếu), mô hình có dạng: \[ \log\left(\frac{P(Y = j \mid X)}{P(Y = k \mid X)}\right) = \beta_{j0} + \beta_{j1}X_1 + \cdots + \beta_{jp}X_p \]

Hệ số \(\beta_{jk}\) phản ánh mức thay đổi log-odds của việc chọn mức j so với mức tham chiếu khi biến \(X_k\) tăng một đơn vị. Hàm liên kết sử dụng trong mô hình là logit tổng quát. Việc ước lượng các tham số được thực hiện thông qua phương pháp tối đa hóa hàm hợp lý (MLE).

Mô hình này giả định rằng các quan sát là độc lập với nhau và không có đa cộng tuyến nghiêm trọng giữa các biến độc lập. Ngoài ra, một giả định quan trọng khác là tính độc lập của các lựa chọn không liên quan (Independence of Irrelevant Alternatives – IIA), nghĩa là xác suất lựa chọn một mức không bị ảnh hưởng bởi sự có mặt hay vắng mặt của các mức còn lại.

Mô hình hồi quy logistic đa thức được ứng dụng phổ biến trong các nghiên cứu hành vi lựa chọn như lựa chọn phương tiện giao thông, nghề nghiệp, hoặc thương hiệu sản phẩm.

2.5. Mô hình hồi quy Poisson

Poisson Regression là một mô hình thống kê được thiết kế để phân tích các hiện tượng có bản chất là dữ liệu đếm (count data), trong đó biến phụ thuộc là số lần xảy ra của một sự kiện trong một khoảng thời gian, không gian, hoặc đơn vị quan sát nhất định. Mô hình này đặc biệt phù hợp khi các giá trị của biến phụ thuộc là các số nguyên không âm: 0, 1, 2,…

Về mặt phân phối xác suất, mô hình giả định rằng biến phụ thuộc Y tuân theo phân phối Poisson với kỳ vọng \(\lambda\), đồng thời phương sai của biến này cũng bằng \(\lambda\). Mối quan hệ giữa kỳ vọng \(\lambda\) và các biến độc lập được mô hình hóa thông qua hàm log: \[ \log(\lambda_i) = \beta_0 + \beta_1 X_{i1} + \cdots + \beta_p X_{ip} \]

Từ đó, ta có thể viết lại dạng hàm mũ như sau:

\[ \lambda_i = \exp\left(\beta_0 + \sum_{j=1}^p \beta_j X_{ij} \right) \]

Mô hình sử dụng hàm liên kết log (log-link) và các hệ số được ước lượng thông qua phương pháp tối đa hóa hàm hợp lý (Maximum Likelihood Estimation - MLE), tương tự như trong mô hình hồi quy logistic.

Một giả định quan trọng của mô hình là phương sai bằng trung bình (equidispersion). Tuy nhiên, trong thực tế, dữ liệu đếm thường xuất hiện hiện tượng quá phân tán (overdispersion) – tức là phương sai lớn hơn kỳ vọng. Trong trường hợp này, mô hình Poisson có thể đưa ra ước lượng sai lệch và không hiệu quả, do đó cần cân nhắc sử dụng các mô hình khác như Negative Binomial Regression hoặc Zero-Inflated Models.

Về mặt diễn giải, khi một biến độc lập \(X_j\) tăng một đơn vị (giữ các biến khác không đổi), thì giá trị kỳ vọng \(\lambda\) sẽ thay đổi theo một hệ số tỷ lệ là \(e^{\beta_j}\). Điều này làm cho mô hình Poisson trở nên rất hữu ích trong việc phân tích và dự báo số sự kiện xảy ra, chẳng hạn như: số lượt truy cập website, số vụ tai nạn, số ca bệnh, số lần mua hàng,…

2.6. Các thước đo đánh giá hiệu suất mô hình phân loại

Sau khi xây dựng một mô hình phân loại (như Logistic, Probit), việc đánh giá hiệu suất của nó là một bước bắt buộc. Không chỉ đơn thuần nhìn vào tỷ lệ dự đoán đúng tổng thể, chúng ta cần một công cụ chi tiết hơn để hiểu rõ mô hình hoạt động tốt và chưa tốt ở điểm nào, đặc biệt là trong bối cảnh dữ liệu mất cân bằng. Ma trận nhầm lẫn (Confusion Matrix) chính là công cụ nền tảng cho mục đích này.

2.6.1. Cấu trúc ma trận nhầm lẫn

Ma trận nhầm lẫn là một bảng trình bày kết quả dự đoán của mô hình so với giá trị thực tế của dữ liệu. Đối với một bài toán phân loại nhị phân (với hai lớp là “Positive” và “Negative”), ma trận có cấu trúc 2x2 như sau:

Dự đoán: Positive Dự đoán: Negative
Thực tế: Positive True Positive (TP) False Negative (FN)
Thực tế: Negative False Positive (FP) True Negative (TN)

Trong đó:

  • True Positive (TP): Số trường hợp thực tế là “Positive” và mô hình cũng dự đoán là “Positive”. (Dự đoán đúng)

  • True Negative (TN): Số trường hợp thực tế là “Negative” và mô hình cũng dự đoán là “Negative”. (Dự đoán đúng)

  • False Positive (FP): Số trường hợp thực tế là “Negative” nhưng mô hình lại dự đoán sai là “Positive”. (Lỗi Loại I - Type I Error)

  • False Negative (FN): Số trường hợp thực tế là “Positive” nhưng mô hình lại dự đoán sai là “Negative”. (Lỗi Loại II - Type II Error)

Trong bối cảnh bài toán deposit, chúng ta thường định nghĩa:

  • Positive: Khách hàng đồng ý gửi tiền (deposit = 'yes').

  • Negative: Khách hàng từ chối gửi tiền (deposit = 'no').

2.6.2. Các chỉ số hiệu suất chính

Từ bốn giá trị trong ma trận nhầm lẫn, chúng ta có thể tính toán nhiều chỉ số hiệu suất quan trọng:

  • Độ chính xác (Accuracy):

Công thức: \(\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}\)

Ý nghĩa: Tỷ lệ tổng số các dự đoán đúng trên toàn bộ tập dữ liệu. Đây là chỉ số tổng quan nhất nhưng có thể gây hiểu lầm khi dữ liệu bị mất cân bằng. Một mô hình luôn dự đoán “Negative” có thể đạt độ chính xác cao nhưng hoàn toàn vô dụng.

  • Độ chính xác dự báo Positive (Precision):

Công thức: \(\text{Precision}= \frac{TP}{TP + FP}\)

Ý nghĩa: Trong số tất cả các trường hợp mà mô hình dự đoán là “Positive”, có bao nhiêu trường hợp thực sự là “Positive”? Chỉ số này đo lường mức độ tin cậy của các dự đoán “Positive”.

  • Độ nhạy / Tỷ lệ phát hiện Positive (Recall / Sensitivity / True Positive Rate):

Công thức: \(\text{Recall} = \frac{TP}{TP + FN}\)

Ý nghĩa: Trong số tất cả các trường hợp thực tế là “Positive”, mô hình đã xác định (phát hiện) đúng được bao nhiêu trường hợp? Chỉ số này đo lường khả năng của mô hình trong việc “bắt” được các trường hợp “Positive”.

  • Độ đặc hiệu (Specificity / True Negative Rate):

Công thức: \(\text{Specificity} = \frac{TN}{TN + FP}\)

Ý nghĩa: Trong số tất cả các trường hợp thực tế là “Negative”, mô hình đã xác định đúng được bao nhiêu trường hợp?

  • F1-Score:

Công thức: \(\text{F1-Score} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}\)

Ý nghĩa: Là trung bình điều hòa (harmonic mean) của Precision và Recall. F1-Score là một chỉ số rất hữu ích khi dữ liệu mất cân bằng, vì nó đòi hỏi cả Precision và Recall đều phải cao để đạt được giá trị cao. Một mô hình có Precision cao nhưng Recall thấp (hoặc ngược lại) sẽ có F1-Score thấp.

Việc lựa chọn chỉ số nào là quan trọng nhất phụ thuộc vào bài toán kinh doanh. Ví dụ, trong việc phát hiện gian lận (sự kiện hiếm), Recall (khả năng phát hiện được gian lận) thường quan trọng hơn Precision. Trong bối cảnh tiếp thị, có thể chúng ta muốn một sự cân bằng giữa việc không bỏ lỡ khách hàng tiềm năng (Recall cao) và không lãng phí chi phí cho những người không tiềm năng (Precision cao), do đó F1-Score là một thước đo tốt.

Chương 3: KẾT QUẢ NGHIÊN CỨU THỰC NGHIỆM

3.1. Tổng quan và xử lý bộ dữ liệu

Trong bối cảnh cạnh tranh khốc liệt của ngành ngân hàng hiện đại, việc hiểu rõ các yếu tố thúc đẩy hành vi của khách hàng là tối quan trọng. Các chiến dịch tiếp thị, đặc biệt là tiếp thị qua điện thoại, đòi hỏi chi phí lớn về thời gian và nhân lực. Do đó, việc tối ưu hóa các chiến dịch này bằng cách xác định các phân khúc khách hàng tiềm năng nhất sẽ mang lại lợi ích kinh tế đáng kể.

Báo cáo này sử dụng bộ dữ liệu “Bank Marketing” từ kho lưu trữ UCI, ghi lại kết quả của các chiến dịch tiếp thị qua điện thoại của một ngân hàng Bồ Đào Nha. Nghiên cứu này tập trung vào việc phân tích tác động của ba yếu tố: nhóm tuổi (age), tình trạng hôn nhân (marital) và tình trạng vay mua nhà (housing) lên quyết định gửi tiền tiết kiệm có kỳ hạn (deposit) của khách hàng.

bank_data <- read.csv("D:/PTDLDT/bank.csv", header = TRUE)
datatable(bank_data)

3.1.1. Danh sách các biến và ý nghĩa

Các biến trong bộ dữ liệu được mô tả trong bảng dưới đây:

Bảng mô tả chi tiết các biến trong bộ dữ liệu Bank Marketing
STT Tên biến Mô tả
1 age Tuổi của khách hàng
2 job Nghề nghiệp
3 marital Tình trạng hôn nhân
4 education Trình độ học vấn
5 default Có vỡ nợ tín dụng không
6 balance Số dư tài khoản trung bình (euro)
7 housing Có khoản vay mua nhà không
8 loan Có khoản vay cá nhân không
9 contact Hình thức liên lạc
10 day Ngày cuối cùng liên lạc
11 month Tháng cuối cùng liên lạc
12 duration Thời lượng cuộc gọi cuối cùng (giây)
13 campaign Số lần liên lạc trong chiến dịch này
14 pdays Số ngày kể từ lần liên lạc cuối ở chiến dịch trước (-1: chưa từng)
15 previous Số lần liên lạc trước chiến dịch này
16 poutcome Kết quả của chiến dịch trước
17 deposit Khách hàng có gửi tiền tiết kiệm không

3.1.2. Cấu trúc bộ dữ liệu

Để có được cái nhìn tổng quan và bước đầu đánh giá tính phù hợp của tập dữ liệu với mục tiêu nghiên cứu, ta tiến hành kiểm tra cấu trúc của bộ dữ liệu bằng cách sử dụng hai hàm cơ bản trong R là dim()str().

  • Hàm dim() cho biết kích thước của bảng dữ liệu, cụ thể là số hàng (quan sát) và số cột (biến).
dim(bank_data)
## [1] 11162    17

Bộ dữ liệu có 11.162 quan sát và 17 biến.

  • Hàm str() cung cấp thông tin về cấu trúc dữ liệu, bao gồm tên các biến, kiểu dữ liệu của từng biến (ví dụ: số, chuỗi ký tự, biến phân loại), cũng như một số giá trị minh họa cho mỗi biến.
str(bank_data)
## 'data.frame':    11162 obs. of  17 variables:
##  $ age      : int  59 56 41 55 54 42 56 60 37 28 ...
##  $ job      : chr  "admin." "admin." "technician" "services" ...
##  $ marital  : chr  "married" "married" "married" "married" ...
##  $ education: chr  "secondary" "secondary" "secondary" "secondary" ...
##  $ default  : chr  "no" "no" "no" "no" ...
##  $ balance  : int  2343 45 1270 2476 184 0 830 545 1 5090 ...
##  $ housing  : chr  "yes" "no" "yes" "yes" ...
##  $ loan     : chr  "no" "no" "no" "no" ...
##  $ contact  : chr  "unknown" "unknown" "unknown" "unknown" ...
##  $ day      : int  5 5 5 5 5 5 6 6 6 6 ...
##  $ month    : chr  "may" "may" "may" "may" ...
##  $ duration : int  1042 1467 1389 579 673 562 1201 1030 608 1297 ...
##  $ campaign : int  1 1 1 1 2 2 1 1 1 3 ...
##  $ pdays    : int  -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 ...
##  $ previous : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ poutcome : chr  "unknown" "unknown" "unknown" "unknown" ...
##  $ deposit  : chr  "yes" "yes" "yes" "yes" ...

Nhận xét: Dữ liệu bao gồm 7 biến định lượng (int) và 10 biến định tính (chr). Các biến ký tự cần được xử lý và chuyển đổi sang dạng factor để phục vụ cho các phân tích thống kê.

3.1.3. Chuyển đổi dữ liệu sang factor

Để R hiểu đúng các biến là biến định tính, chúng ta chuyển đổi tất cả các cột đã chọn sang kiểu factor.

Bộ dữ liệu gốc bao gồm nhiều biến, tuy nhiên, nghiên cứu này sẽ chỉ tập trung vào các biến liên quan trực tiếp đến câu hỏi nghiên cứu.

Bảng mô tả các biến được sử dụng trong phân tích
Tên biến Mô tả
age Nhóm tuổi (Từ 18 đến 40 tuổi, trên 40 tuổi
marital Tình trạng hôn nhân (married, single, divorced)
housing Có khoản vay mua nhà không (yes, no)
deposit Khách hàng có gửi tiền tiết kiệm không (yes, no)
campaign Số lần liên lạc với khách hàng trong chiến dịch
# Tạo các biến mới
analysis_df <- bank_data %>%
  mutate(
    # Biến phụ thuộc mới deposit2
    deposit2 = case_when(
      deposit == "yes" & education == "primary"   ~ "A",
      deposit == "yes" & education == "secondary" ~ "B",
      deposit == "yes" & education == "tertiary"  ~ "C",
      deposit == "yes" & education == "unknown"  ~ "D",
      TRUE                                      ~ "E" 
    ),
    # Biến độc lập mới age_group
    age_group = ifelse(age < 40, "Dưới 40 tuổi", "Trên 40 tuổi")
  ) %>%
  # Chuyển đổi sang factor
  mutate(across(c(marital, housing, deposit, age_group, deposit2), as.factor))

# Giữ lại các cột cần thiết cho báo cáo
analysis_df_final <- analysis_df %>%
  select(age_group, deposit2, marital, housing, deposit, campaign)

str(analysis_df_final)
## 'data.frame':    11162 obs. of  6 variables:
##  $ age_group: Factor w/ 2 levels "Dưới 40 tuổi",..: 2 2 2 2 2 2 2 2 1 1 ...
##  $ deposit2 : Factor w/ 5 levels "A","B","C","D",..: 2 2 2 2 3 3 3 2 2 2 ...
##  $ marital  : Factor w/ 3 levels "divorced","married",..: 2 2 2 2 2 3 2 1 2 3 ...
##  $ housing  : Factor w/ 2 levels "no","yes": 2 1 2 2 1 2 2 2 2 2 ...
##  $ deposit  : Factor w/ 2 levels "no","yes": 2 2 2 2 2 2 2 2 2 2 ...
##  $ campaign : int  1 1 1 1 2 2 1 1 1 3 ...

Kết luận: Sau các bước trên, dữ liệu đã được chuẩn hóa, sẵn sàng cho việc phân tích.

3.2. Thống kê mô tả

Trước khi đi sâu vào phân tích mối quan hệ phức tạp giữa các biến, bước tiên và quan trọng nhất là hiểu rõ đặc điểm của từng biến một cách riêng lẻ. Thống kê suy diễn cho phép chúng ta khám phá sự phân bố, các xu hướng trung tâm và các đặc điểm cơ bản của dữ liệu. Việc này cung cấp một nền tảng vững chắc, giúp phát hiện các vấn đề tiềm ẩn như dữ liệu mất cân bằng và định hình các giả thuyết ban đầu cho các bước phân tích sâu hơn.

Trong phần này, chúng ta sẽ lần lượt xem xét sự phân bố của các biến phụ thuộc và các biến độc lập đã được lựa chọn cho nghiên cứu.

3.2.1. Biến phụ thuộc

Biến phụ thuộc là các biến kết quả mà chúng ta muốn tìm hiểu hoặc dự đoán. Trong nghiên cứu này, có hai biến phụ thuộc chính là deposit (quyết định gửi tiền tiết kiệm của khách hàng).

Biến deposit là biến mục tiêu cốt lõi của chiến dịch tiếp thị. Nó cho biết liệu một khách hàng có đồng ý gửi tiền tiết kiệm có kỳ hạn hay không sau cuộc gọi. Việc hiểu rõ sự phân bố của biến này là cực kỳ quan trọng để đánh giá mức độ thành công tổng thể của chiến dịch và xác định mức độ mất cân bằng của dữ liệu.

Bảng thống kê tần số và tần suất

analysis_df <- analysis_df_final %>%
  mutate(deposit_full = case_when(
    deposit == "yes" ~ "Đồng ý",
    deposit == "no" ~ "Không đồng ý"
  ))
deposit_summary <- analysis_df %>%
  count(deposit_full) %>%
  mutate(percentage = n / sum(n)) %>%
  arrange(desc(n))

kable(deposit_summary, col.names = c("Quyết định gửi tiền", "Tần số", "Tần suất"), digits = 2, caption = "Thống kê tần suất cho biến Deposit") %>%
  kable_styling(bootstrap_options = "striped", full_width = FALSE, position = "center")
Thống kê tần suất cho biến Deposit
Quyết định gửi tiền Tần số Tần suất
Không đồng ý 5873 0.53
Đồng ý 5289 0.47
deposit_df <- analysis_df %>%
  count(deposit) %>%
  mutate(perc = n / sum(n),
         label = scales::percent(perc, accuracy = 0.1))

# Vẽ biểu đồ tròn
 ggplot(deposit_df, aes(x = "", y = perc, fill = deposit)) +
  geom_bar(stat = "identity", width = 1, color = "white") +
  coord_polar("y") +
  geom_text(aes(label = label), position = position_stack(vjust = 0.5)) +
  labs(title = "Phân bố quyết định gửi tiền tiết kiệm của khách hàng", fill = "Quyết định gửi tiền") +
  theme_void()

Nhận xét: Kết quả phân tích cho thấy có 5.873 khách hàng (52.6%) từ chối gửi tiền tiết kiệm và có 5,289 khách hàng (47.4%) đồng ý. Mặc dù chênh lệch không quá lớn, nhưng nhóm từ chối gửi tiền vẫn chiếm tỷ lệ cao hơn. Điều này cho thấy việc thuyết phục khách hàng gửi tiền vẫn còn là một thách thức, và cần được xem xét kỹ lưỡng khi phân tích hành vi khách hàng hoặc xây dựng các mô hình dự đoán hành vi trong tương lai.

3.2.2. Biến độc lập

3.2.2.1. Nhóm tuổi - age

Bảng thống kê tần số và tần suất

age_summary <- analysis_df %>%
  count(age_group) %>%
  mutate(percentage = n / sum(n)) %>%
  arrange(desc(n))

kable(age_summary, col.names = c("Độ tuổi", "Tần số", "Tần suất"), digits = 2, caption = "Thống kê tần suất cho biến age") %>%
  kable_styling(bootstrap_options = "striped", full_width = FALSE, position = "center")
Thống kê tần suất cho biến age
Độ tuổi Tần số Tần suất
Dưới 40 tuổi 5869 0.53
Trên 40 tuổi 5293 0.47
p1 <- ggplot(analysis_df, aes(x = age_group, fill = age_group)) +
  geom_bar() + 
  labs(title = "Phân bố độ tuổi của khách hàng", x = "Độ tuổi", y = "Số lượng", fill = "Độ tuổi") +
  geom_text(stat='count', aes(label=..count..), vjust=-0.5, size = 2.5)+ 
  theme_minimal(base_size = 8)


age_df <- analysis_df %>%
  count(age_group) %>%
  mutate(perc = n / sum(n),
         label = scales::percent(perc, accuracy = 0.1))

# Vẽ biểu đồ tròn
p2 <- ggplot(age_df, aes(x = "", y = perc, fill = age_group)) +
  geom_bar(stat = "identity", width = 1, color = "white") +
  coord_polar("y") +
  geom_text(aes(label = label), position = position_stack(vjust = 0.5)) +
  theme_void()
 
p1 + p2

Nhận xét: Bảng thống kế tần số tần suất và 2 biểu đồ cho thấy tỷ lệ khách hàng dưới 40 tuổi chiếm 53% (5869 người), nhỉnh hơn so với nhóm trên 40 tuổi (47%, 5293 người). Sự phân bố tương đối đồng đều giữa hai nhóm độ tuổi cho thấy khảo sát có tính đại diện cho cả hai thế hệ khách hàng – bao gồm cả người trẻ có xu hướng linh hoạt và nhóm lớn tuổi có xu hướng tiết kiệm ổn định hơn. Điều này là cơ sở quan trọng khi phân tích mối liên hệ giữa độ tuổi và quyết định gửi tiền có kỳ hạn.

3.2.2.2. Tình trạng hôn nhân - marital

Bảng thống kê tần số và tần suất

analysis_df <- analysis_df %>%
  mutate(marital_full = dplyr::recode(marital,
                               "married" = "Đã kết hôn",
                               "single" = "Độc thân",
                               "divorced" = "Đã ly hôn"))

marital_summary <- analysis_df %>%
  count(marital_full) %>%
  mutate(percentage = n / sum(n)) %>%
  arrange(desc(n))

kable(marital_summary, col.names = c("Tình trạng hôn nhân", "Tần số", "Tần suất"), digits = 2, caption = "Phân bố tình trạng hôn nhân") %>%
  kable_styling(bootstrap_options = "striped", full_width = FALSE, position = "center")
Phân bố tình trạng hôn nhân
Tình trạng hôn nhân Tần số Tần suất
Đã kết hôn 6351 0.57
Độc thân 3518 0.32
Đã ly hôn 1293 0.12
p_marital <- ggplot(analysis_df, aes(x = marital, fill = marital)) +
  geom_bar() + 
  labs(title = "Phân bố tình trạng hôn nhân", x = "Tình trạng", y = "Số lượng", fill = "Tình trạng") +
  geom_text(stat='count', aes(label=..count..), vjust=-0.5, size = 2.5)+ 
  theme_minimal(base_size = 8)

marital_df <- analysis_df %>%
  count(marital) %>%
  mutate(perc = n / sum(n),
         label = scales::percent(perc, accuracy = 0.1))

p_marital_pie <- ggplot(marital_df, aes(x = "", y = perc, fill = marital)) +
  geom_bar(stat = "identity", width = 1, color = "white") +
  coord_polar("y") +
  geom_text(aes(label = label), position = position_stack(vjust = 0.6), size = 2.5) +
  theme_minimal(base_size = 8)+theme_void()

p_marital + p_marital_pie

Nhận xét: Đa số khách hàng trong bộ dữ liệu đã kết hôn, chiếm 56.9% tổng số (6351 người). Nhóm khách hàng độc thân chiếm khoảng 31.5% (3518 người) và nhóm khách hàng đã ly hôn chiếm tỷ lệ ít nhất là 11.6% (1293 người). Cấu trúc nhân khẩu học này cho thấy đối tượng khách hàng chủ yếu của ngân hàng là những người đã có gia đình ổn định.

3.2.2.3. Tình trang vay mua nhà - housing

Bảng thống kê tần số và tần suất

analysis_df <- analysis_df %>%
  mutate(house_full = dplyr::recode(housing, "yes" = "Có","no" = "Không"))

housing_summary <- analysis_df %>%
  count(house_full) %>%
  mutate(percentage = n / sum(n)) %>%
  arrange(desc(n))

kable(housing_summary, col.names = c("Vay mua nhà", "Tần số", "Tần suất"), digits = 2, caption = "Phân bố tình trạng vay mua nhà") %>%
  kable_styling(bootstrap_options = "striped", full_width = FALSE, position = "center")
Phân bố tình trạng vay mua nhà
Vay mua nhà Tần số Tần suất
Không 5881 0.53
5281 0.47
p3 <- ggplot(analysis_df, aes(x = housing, fill = housing)) +
  geom_bar() + 
  labs(title = "Phân bố tình trạng vay mua nhà của khách hàng", x = "Tình trạng", y = "Số lượng", fill = "Tình trạng") +
  geom_text(stat='count', aes(label=..count..), vjust=-0.5, size = 2.5)+ 
  theme_minimal(base_size = 8)


house_df <- analysis_df %>%
  count(housing) %>%
  mutate(
    perc = n / sum(n),
    label = scales::percent(perc, accuracy = 0.1)
  )

# Vẽ biểu đồ tròn
p4 <- ggplot(house_df, aes(x = "", y = perc, fill = housing)) +
  geom_bar(stat = "identity", width = 1, color = "white") +
  coord_polar("y") +
  geom_text(aes(label = label), position = position_stack(vjust = 0.5)) +
  theme_void()

p3 + p4

Nhận xét:

  • Kết quả thống kê cho thấy 5.881 khách hàng (52.7%) không vay mua nhà, trong khi 5.281 khách hàng (47.3%) có khoản vay mua nhà. Biểu đồ cột và tròn đều thể hiện sự phân bổ tương đối đồng đều giữa hai nhóm, với chênh lệch không quá lớn.

  • Tỷ lệ khách hàng có khoản vay mua nhà gần bằng một nửa cho thấy nhiều người đang trong quá trình trả nợ dài hạn. Điều này có thể ảnh hưởng đến khả năng gửi tiền có kỳ hạn do họ phải ưu tiên dòng tiền cho trả nợ. Ngược lại, nhóm không vay có thể linh hoạt tài chính hơn và sẵn sàng gửi tiết kiệm nếu điều kiện phù hợp.

3.3. Thống kê suy diễn

3.3.1. Ước lượng khoảng và kiểm định giả thuyết cho tỷ lệ

Phần này sử dụng các phương pháp thống kê suy luận để ước lượng khoảng tin cậy và kiểm định các giả thuyết về tỷ lệ trong tổng thể dựa trên dữ liệu mẫu.

3.3.1.1. Ước lượng cho biến deposit và hạng mục quan tâm: yes

Chúng ta kiểm định giả thuyết liệu tỷ lệ khách hàng đồng ý gửi tiền tiết kiệm trong tổng thể có bằng 45% hay không. Bài toán kiểm định:

\[ \begin{cases} H_0 : p = 0.45 \quad (\text{Tỷ lệ khách hàng đồng ý gửi tiền bằng 45%}) \\ H_1: p \neq 0.45 \quad (\text{Tỷ lệ khách hàng đồng ý gửi tiền khác 45%}) \end{cases} \]

deposit_yes_count <- sum(analysis_df_final$deposit == "yes")
total_count <- nrow(analysis_df_final)
prop.test(deposit_yes_count, total_count, p = 0.45)
## 
##  1-sample proportions test with continuity correction
## 
## data:  deposit_yes_count out of total_count, null probability 0.45
## X-squared = 25.535, df = 1, p-value = 0.0000004344
## alternative hypothesis: true p is not equal to 0.45
## 95 percent confidence interval:
##  0.4645427 0.4831551
## sample estimates:
##         p 
## 0.4738398

Nhận xét: Với p-value < 4.344e-07 (nhỏ hơn mức ý nghĩa α = 0.05), bác bỏ giả thuyết H₀. Tỷ lệ thực tế của việc gửi tiền khác 45%. Khoảng tin cậy 95% cho tỷ lệ này là từ 46.45% đến 48.32%.

3.3.1.2. Ước lượng cho biến age và hạng mục quan tâm: “Nhóm khách hàng dưới 40 tuổi”

Bài toán kiểm định:

\[ \begin{cases} H_0 : p = 0.52 \quad (\text{Tỷ lệ khách hàng dưới 40 tuổi trong khảo sát bằng 52%}) \\ H_1: p \neq 0.52 \quad (\text{Tỷ lệ khách hàng dưới 40 tuổi trong khảo sát khác 52%}) \end{cases} \]

age_40 <- sum(analysis_df_final$age_group == "Dưới 40 tuổi")
total_count <- nrow(analysis_df_final)
prop.test(age_40, total_count, p = 0.52)
## 
##  1-sample proportions test with continuity correction
## 
## data:  age_40 out of total_count, null probability 0.52
## X-squared = 1.4822, df = 1, p-value = 0.2234
## alternative hypothesis: true p is not equal to 0.52
## 95 percent confidence interval:
##  0.5164864 0.5350994
## sample estimates:
##         p 
## 0.5258018

Nhận xét: Với p-value = 0.2234 (lớn hơn mức ý nghĩa α = 0.05), chưa đủ cơ sở để bác bỏ giả thuyết H₀. Tỷ lệ thực tế của nhóm khách hàng có độ tuổi dưới 40 trong khảo sát bằng 52%. Khoảng tin cậy 95% cho tỷ lệ này là từ 51.65% đến 53.51%.

3.3.1.3. Ước lượng cho biến marital và hạng mục quan tâm: single

Bài toán kiểm định:

\[ \begin{cases} H_0 : p = 0.31 \quad (\text{Tỷ lệ khách hàng chưa kết hôn trong khảo sát bằng 31%}) \\ H_1: p \neq 0.31 \quad (\text{Tỷ lệ khách hàng chưa két hôn trong khảo sát khác 31%}) \end{cases} \]

marital_single_count <- sum(analysis_df_final$marital == "single")
total_count <- nrow(analysis_df_final)
prop.test(marital_single_count, total_count, p = 0.31)
## 
##  1-sample proportions test with continuity correction
## 
## data:  marital_single_count out of total_count, null probability 0.31
## X-squared = 1.3742, df = 1, p-value = 0.2411
## alternative hypothesis: true p is not equal to 0.31
## 95 percent confidence interval:
##  0.3065781 0.3239027
## sample estimates:
##         p 
## 0.3151765

Nhận xét: Với p-value = 0.2411 (lớn hơn mức ý nghĩa α = 0.05), chưa đủ cơ sở để bác bỏ giả thuyết H₀. Tỷ lệ thực tế của nhóm khách hàng chưa kết hôm trong khoả sát bằng 31%. Khoảng tin cậy 95% cho tỷ lệ này là từ 30.66% đến 32.39%.

3.3.1.4. Ước lượng cho biến housing và hạng mục quan tâm: yes

Bài toán kiểm định:

\[ \begin{cases} H_0 : p = 0.45 \quad (\text{Tỷ lệ khách hàng có khoản vay mua nhà trong khảo sát bằng 45%}) \\ H_1: p \neq 0.45 \quad (\text{Tỷ lệ khách hàng có khoản vay mua nhà trong khảo sát khác 45%}) \end{cases} \]

housing_yes_count <- sum(analysis_df_final$housing == "yes")
total_count <- nrow(analysis_df_final)
prop.test(housing_yes_count, total_count, p = 0.45)
## 
##  1-sample proportions test with continuity correction
## 
## data:  housing_yes_count out of total_count, null probability 0.45
## X-squared = 24.02, df = 1, p-value = 0.0000009534
## alternative hypothesis: true p is not equal to 0.45
## 95 percent confidence interval:
##  0.4638269 0.4824379
## sample estimates:
##         p 
## 0.4731231

Nhận xét: Với p-value = 0.0000 (nhỏ hơn mức ý nghĩa α = 0.05), bác bỏ giả thuyết H₀. Tỷ lệ thực tế của nhóm khách hàng có khoản vay mua nhà khác 45%. Khoảng tin cậy 95% cho tỷ lệ này là từ 46.38% đến 48.24%. Tỷ lệ thực tế của nhóm khách hàng có khoản vay mua nhà trong khảo sát bằng 47.31%.

3.3.2. Phân tích mối quan hệ giữa các biến (Bivariate Analysis)

3.3.2.1. Mối quan hệ giữa quyết định gửi tiền tiết kiệm (deposit) và nhóm tuổi (age)

Câu hỏi nghiên cứu: Độ tuổi của khách hàng (dưới 40 tuổi và trên 40 tuổi) có ảnh hưởng đến quyết định gửi tiền tiết kiệm có kỳ hạn (deposit) hay không?

Bảng tần số chéo và trực quan hoá

# Bảng tần số
tbl_age_deposit <- table(analysis_df$age_group, analysis_df$deposit_full)
kable(tbl_age_deposit, caption = "Bảng tần số chéo giữa age và deposit") %>% kable_styling(full_width = F)
Bảng tần số chéo giữa age và deposit
Đồng ý Không đồng ý
Dưới 40 tuổi 2841 3028
Trên 40 tuổi 2448 2845
# Trực quan hóa
ggplot(analysis_df, aes(x = age_group, fill = deposit)) +
  geom_bar(position = "dodge") +
  geom_text(stat = "count",
            aes(label = ..count..),
            position = position_dodge(width = 1),
            vjust = -0.3) +  # đẩy số lên trên đầu cột
  labs(y = "Số lượng", title = "Quyết định gửi tiền theo độ tuổi của khách hàng") +
  theme_minimal()

Nhận xét:

  • Bảng thông kê cho thấy trong cả hai nhóm tuổi (dưới 40 và trên 40), số lượng khách hàng không đồng ý gửi tiền tiết kiệm đều nhỉnh hơn so với nhóm đồng ý. Cụ thể, nhóm dưới 40 tuổi có 3.028 người không gửi và 2.841 người gửi; nhóm trên 40 tuổi có 2.845 người không gửi và 2.448 người gửi.

  • Tỷ lệ từ chối gửi tiền tiết kiệm cao hơn ở cả hai nhóm, tuy nhiên mức độ chênh lệch giữa “đồng ý” và “không đồng ý” là không quá lớn. Điều này cho thấy độ tuổi không phải là yếu tố chi phối hoàn toàn quyết định gửi tiền, mà có thể còn phụ thuộc vào các yếu tố khác như thu nhập, nghề nghiệp, hay tình trạng tài chính. Điều này gợi ý rằng các chính sách khuyến khích gửi tiết kiệm cần được thiết kế phù hợp với nhiều độ tuổi, thay vì chỉ tập trung vào một nhóm cụ thể.

Kiểm định Chi-bình phương (Chi-squared Test)

Bài toán kiểm định: \[ \begin{cases} H_0: \text{Độ tuổi và quyết định gửi tiền tiết kiệm là độc lập với nhau.}\\ H_1: \text{Độ tuổi và quyết định gửi tiền tiết kiệm có mối quan hệ với nhau.} \end{cases} \]

# Kiểm định và tính toán
chisq.test(tbl_age_deposit)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  tbl_age_deposit
## X-squared = 5.1081, df = 1, p-value = 0.02381

Diễn giải kết quả

  • Kết quả kiểm định Chi-squared cho thấy:

  • Giá trị thống kê Chi-squared = 5.1081

  • Bậc tự do (df) = 1

  • Giá trị p-value = 0.02381 < 0.05

⇒ Do p-value nhỏ hơn 0.05, bác bỏ giả thuyết \(H_0\).

Kết luận: Kết quả khẳng định rằng có mối quan hệ có ý nghĩa thống kê giữa độ tuổi và quyết định gửi tiền tiết kiệm. Bảng thống kê tần suất cho thấy người trẻ tuổi có xu hướng gửi tiết kiệm nhiều hơn, có thể vì họ quan tâm hơn đến việc tích lũy tài chính sớm hoặc chịu ảnh hưởng bởi các chiến dịch tiếp thị ngân hàng hiện đại hơn.

Hiệu số hai tỷ lệ

Câu hỏi nghiên cứu: Tỷ lệ khách hàng đồng ý gửi tiền ở nhóm “Dưới 40 tuổi” có khác biệt so với nhóm “Từ 40 trở lên” hay không?

Bài toán kiểm định:

\[ \begin{cases} H_0: \text{Tỷ lệ khách hàng đồng ý gửi tiền tiết kiệm ở cả hai nhóm tuổi là như nhau }(p_1=p_2).\\ H_1: \text{Tỷ lệ hàng hàng đồng ý gửi tiền tiết kiệm ở cả hai nhóm tuổi khác nhau }(p_1 \neq p_2). \end{cases} \]

# Chuẩn bị dữ liệu cho prop.test
tbl_age_deposit <- table(analysis_df_final$age_group, analysis_df_final$deposit)
success_counts_age <- tbl_age_deposit[, "yes"]
total_counts_age <- rowSums(tbl_age_deposit)

# Thực hiện kiểm định
prop.test(x = success_counts_age, n = total_counts_age)
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  success_counts_age out of total_counts_age
## X-squared = 5.1081, df = 1, p-value = 0.02381
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  0.002847346 0.040295049
## sample estimates:
##    prop 1    prop 2 
## 0.4840688 0.4624976

Diễn giải kết quả:

  • Ước lượng tỷ lệ: Tỷ lệ khách hàng đồng ý gửi tiền ở nhóm “Dưới 40 tuổi” (prop 1) là 48.4%, trong khi ở nhóm “Từ 40 trở lên” (prop 2) là 46.3%.

  • Hiệu số tỷ lệ: Sự chênh lệch tuyệt đối là khoảng 2.16% (48.41% - 46.25%).

  • Kiểm định và Khoảng tin cậy: P-value là 0.02381, nhỏ hơn 0.05, cho thấy sự khác biệt này là có ý nghĩa thống kê. Khoảng tin cậy 95% cho hiệu số tỷ lệ là [0.0028, 0.0403]. Vì khoảng này không chứa giá trị 0, chúng ta có thể kết luận rằng nhóm khách hàng trẻ tuổi có tỷ lệ gửi tiền cao hơn một cách có ý nghĩa thống kê.

Kết luận: Tỷ lệ khách hàng ‘Dưới 40 tuổi’ đồng ý gửi tiền cao hơn nhóm ‘Trên 40 tuổi’ khoảng 2.16%.

Rủi ro tương đối - Relative Risk

riskratio.wald(tbl_age_deposit)
## $data
##               
##                  no  yes Total
##   Dưới 40 tuổi 3028 2841  5869
##   Trên 40 tuổi 2845 2448  5293
##   Total        5873 5289 11162
## 
## $measure
##               risk ratio with 95% C.I.
##                 estimate     lower     upper
##   Dưới 40 tuổi 1.0000000        NA        NA
##   Trên 40 tuổi 0.9554377 0.9186572 0.9936909
## 
## $p.value
##               two-sided
##                midp.exact fisher.exact chi.square
##   Dưới 40 tuổi         NA           NA         NA
##   Trên 40 tuổi 0.02267752   0.02275565 0.02266171
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"

Nhận xét bảng tần số: Tỷ lệ từ chối gửi tiền ở nhóm khách hàng “Trên 40 tuổi” (53.7%) cao hơn một chút so với nhóm “Dưới 40 tuổi” (51.6%). Sự khác biệt này không quá lớn, nhưng cho thấy một xu hướng nhẹ.

  • Trong 5869 khách hàng Dưới 40 tuổi, có 2841 khách hàng đồng ý (tỷ lệ: 2841/5869 ≈ 48.41%).

  • Trong 5293 khách hàng Trên 40 tuổi, có 2448 khách hàng đồng ý (tỷ lệ: 2448/5293 ≈ 46.25%).

Diễn giải kết quả Relative Risk:

Nhóm tham chiếu: Nhóm Dưới 40 tuổi được chọn làm mốc so sánh, với RR bằng 1.

  • So sánh “Trên 40 tuổi” vs. “Dưới 40 tuổi” (RR = 0.9554):

  • Diễn giải: Xác suất một khách hàng trên 40 tuổi sẽ đồng ý gửi tiền chỉ bằng 95.54% so với xác suất để một khách hàng dưới 40 tuổi đồng ý gửi tiền.

  • Ý nghĩa thống kê: Khoảng tin cậy 95% [0.9167;0.9967] với giá trị p-value = 0.0227, nhỏ hơn mức ý nghĩa 0.05. Điều này khẳng định sụt giảm nhỏ về khả năng đồng ý gửi tiền ở nhóm tuổi lớn hơn là có ý nghĩa thống kê, chứ không phải do ngẫu nhiên.

Kết luận:

  • Nhóm tuổi trẻ có xu hướng gửi tiền cao hơn: Kết quả phân tích cho thấy khách hàng dưới 40 tuổi có tỷ lệ đồng ý gửi tiền tiết kiệm cao hơn một cách có ý nghĩa thống kê so với nhóm khách hàng từ 40 tuổi trở lên.

  • Mức độ tác động không lớn (RR = 0.9554): Mặc dù có ý nghĩa thống kê, mức độ ảnh hưởng của nhóm tuổi không quá mạnh. Cụ thể, khả năng gửi tiền của nhóm lớn tuổi chỉ thấp hơn khoảng 4.5% so với nhóm trẻ tuổi hơn.

  • Kết quả đáng tin cậy: Với p-value là 0.0227 (< 0.05) và khoảng tin cậy 95% không chứa 1, chúng ta có thể tin tưởng rằng xu hướng này thực sự tồn tại trong tổng thể, mặc dù tác động của nó không mạnh mẽ bằng các yếu tố khác như tình trạng vay mua nhà.

Tỷ số chênh - Odds Ratio

or <- oddsratio.wald(tbl_age_deposit)
or$measure
##               odds ratio with 95% C.I.
##                 estimate     lower     upper
##   Dưới 40 tuổi 1.0000000        NA        NA
##   Trên 40 tuổi 0.9170938 0.8513104 0.9879606

Trong đó:

  • Nhóm tham chiếu: Nhóm “Dưới 40 tuổi” được dùng làm mốc so sánh, với Odds Ratio bằng 1.

  • Giá trị estimate (1.090401): Đây là Odds Ratio (OR) của nhóm “Trên 40 tuổi” so với nhóm “Dưới 40 tuổi”.

Diễn giải kết quả OR:

  • Tỷ lệ chênh (odds) của việc một khách hàng đồng ý gửi tiền tiết kiệm khi họ thuộc nhóm “Trên 40 tuổi” chỉ bằng 0.917 lần (tức 91.7%) so với tỷ lệ chênh của một khách hàng thuộc nhóm “Dưới 40 tuổi”.

  • Khoảng tin cậy 95% [0.851, 0.988]: Chúng ta có thể tin tưởng 95% rằng OR thực sự trong tổng thể nằm trong khoảng này. Vì khoảng tin cậy này hoàn toàn nằm dưới 1, chúng ta có thể khẳng định tác động làm giảm odds đồng ý này là có ý nghĩa thống kê.

Kết luận: Phân tích Odds Ratio củng cố kết quả từ Relative Risk. Mặc dù không mạnh mẽ bằng các yếu tố khác, nhóm tuổi vẫn cho thấy một mối liên hệ có ý nghĩa thống kê với quyết định gửi tiền. Cụ thể, những khách hàng lớn tuổi (từ 40 trở lên) có odds đồng ý gửi tiền thấp hơn một chút so với nhóm khách hàng trẻ tuổi hơn.

3.3.2.2. Mối quan hệ giữa quyết định gửi tiền tiết kiệm (deposit) và tình trạng hôn nhân của khác hàng (marital)

Câu hỏi nghiên cứu: Tình trạng hôn nhân ảnh hưởng như thế nào đến khả năng khách hàng gửi tiền tiết kiệm?

Bảng tần số chéo và trực quan hoá

# Bảng tần số
tbl_marital_deposit <- table(analysis_df$marital_full, analysis_df$deposit_full)
kable(tbl_marital_deposit, caption = "Bảng tần số chéo giữa marital và deposit") %>% kable_styling(full_width = F)
Bảng tần số chéo giữa marital và deposit
Đồng ý Không đồng ý
Đã ly hôn 622 671
Đã kết hôn 2755 3596
Độc thân 1912 1606
# Trực quan hóa
ggplot(analysis_df, aes(x = marital, fill = deposit)) +
  geom_bar(position = "dodge") +
  geom_text(stat = "count",
            aes(label = ..count..),
            position = position_dodge(width = 1),
            vjust = -0.3) +  # đẩy số lên trên đầu cột
  labs(y = "Số lượng", title = "Quyết định gửi tiền theo tình trạng hôn nhân") +
  theme_minimal()

Nhận xét:

  • Nhóm khách hàng đã kết hôn chiếm tỷ lệ không đồng ý gửi tiền cao nhất (3596 người) trong tổng số, cho thấy họ có xu hướng thận trọng hơn trong việc tham gia gửi tiền so với nhóm còn lại.

  • Ở nhóm độc thân, số lượng khách hàng đồng ý gửi tiền (1912) vượt qua số khách không đồng ý (1606), cho thấy tình trạng độc thân có thể liên quan đến mức độ sẵn sàng chấp nhận rủi ro cao hơn hoặc linh hoạt hơn trong quyết định tài chính.

  • Với 671 khách không đồng ý và 622 khách đồng ý, nhóm khách hàng đã ly hôn có sự phân bố khá đồng đều giữa hai lựa chọn, phản ánh thái độ trung lập hoặc phân hóa rõ rệt trong quyết định gửi tiền của nhóm này.

Kiểm định Chi-bình phương (Chi-squared Test)

Bài toán kiểm định: \[ \begin{cases} H_0: \text{Tình trạng hôn nhân và quyết định gửi tiền tiết kiệm là độc lập với nhau.}\\ H_1: \text{Tình trạng hôn nhân và quyết định gửi tiền tiết kiệm có mối quan hệ với nhau.} \end{cases} \]

# Kiểm định và tính toán
chisq.test(tbl_marital_deposit)
## 
##  Pearson's Chi-squared test
## 
## data:  tbl_marital_deposit
## X-squared = 109.58, df = 2, p-value < 0.00000000000000022

Nhận xét: Giá trị p-value rất nhỏ (< 2.2e-16), bác bỏ H₀ và kết luận rằng có mối liên hệ có ý nghĩa thống kê giữa tình trạng hôn nhân và quyết định gửi tiền.

Hiệu số hai tỷ lệ

Câu hỏi nghiên cứu: Tỷ lệ khách hàng gửi tiền có khác biệt giữa nhóm “Độc thân” và nhóm “Đã kết hôn” không?

# Chuẩn bị dữ liệu cho prop.test (so sánh single vs married)
tbl_marital_deposit <- table(analysis_df_final$marital, analysis_df_final$deposit)
success_counts_marital <- tbl_marital_deposit[c("single", "married"), "yes"]
total_counts_marital <- rowSums(tbl_marital_deposit[c("single", "married"),])

# Thực hiện kiểm định
prop.test(x = success_counts_marital, n = total_counts_marital)
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  success_counts_marital out of total_counts_marital
## X-squared = 108.86, df = 1, p-value < 0.00000000000000022
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  0.08899851 0.13040282
## sample estimates:
##    prop 1    prop 2 
## 0.5434906 0.4337900

Diễn giải kết quả:

  • Ước lượng tỷ lệ: Tỷ lệ khách hàng đồng ý gửi tiền ở nhóm “Độc thân” (prop 1) là 54.3%, cao hơn so với nhóm “Đã kết hôn” (prop 2) là 43.4%.

  • Hiệu số tỷ lệ: Sự chênh lệch tuyệt đối là 10.9%. Đây là một sự khác biệt lớn.

  • Kiểm định và Khoảng tin cậy: P-value cực kỳ nhỏ (< 2.2e-16), cho thấy sự khác biệt này rất có ý nghĩa thống kê. Khoảng tin cậy 95% cho hiệu số tỷ lệ là [0.091, 0.128]. Khoảng này hoàn toàn nằm trên 0, khẳng định chắc chắn rằng khách hàng độc thân có tỷ lệ gửi tiền cao hơn so với khách hàng đã kết hôn.

Kết luận: Tỷ lệ khách hàng ‘Độc thân’ đồng ý gửi tiền cao hơn nhóm ‘Đã kết hôn’ khoảng 10.9 điểm phần trăm. Chúng ta tin tưởng 95% rằng sự khác biệt thực sự nằm trong khoảng (8.9%, 13.04%).

Rủi ro tương đối - Relative Risk

riskratio.wald(tbl_marital_deposit)
## $data
##           
##              no  yes Total
##   divorced  671  622  1293
##   married  3596 2755  6351
##   single   1606 1912  3518
##   Total    5873 5289 11162
## 
## $measure
##           risk ratio with 95% C.I.
##             estimate    lower     upper
##   divorced 1.0000000       NA        NA
##   married  0.9017531 0.846524 0.9605854
##   single   1.1297964 1.059538 1.2047135
## 
## $p.value
##           two-sided
##              midp.exact fisher.exact  chi.square
##   divorced           NA           NA          NA
##   married  0.0018565365 0.0019140289 0.001812481
##   single   0.0001222673 0.0001376594 0.000120386
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"

Nhận xét bảng tần suất: Chỉ cần nhìn vào tỷ lệ, ta thấy nhóm Đã kết hôn có nguy cơ từ chối gửi tiền cao nhất, trong khi nhóm Độc thân có nguy cơ từ chối thấp nhất.

  • Tỷ lệ khách hàng đồng ý gửi tiền (yes) trong nhóm divorced: 622 / 1293 ≈ 48.1%

  • Tỷ lệ khách hàng đồng ý gửi tiền (yes) trong nhóm married: 2755 / 6351 ≈ 43.4%

  • Tỷ lệ khách hàng đồng ý gửi tiền (yes) trong nhóm single: 1912 / 3518 ≈ 54.3%

Diễn giải kết quả Relative Risk:

  • Nhóm tham chiếu: Nhóm Đã ly hôn được chọn làm mốc so sánh, với RR bằng 1.

  • So sánh nhóm khách hàng “Đã kết hôn” với “Đã ly hôn” (RR = 0.9018):

  • Diễn giải: Xác suất một khách hàng đã kết hôn sẽ đồng ý gửi tiền chỉ bằng 0.902 lần (tức 90.2%) so với xác suất của một khách hàng đã ly hôn. Nói cách khác, việc khách hàng đã kết hôn làm giảm 9.8% (1 - 0.902) khả năng khách hàng đó sẽ đồng ý gửi tiền so với nhóm đã ly hôn.

  • Khoảng tin cậy 95% [0.8465; 0.9606] với giá trị p-value = 0.0019, nhỏ hơn 0.05. Điều này khẳng định rằng khách hàng đã kết hôn thực sự có xu hướng đồng ý gửi tiền thấp hơn một cách có ý nghĩa thống kê so với nhóm đã ly hôn.

  • So sánh nhóm khách hàng “Độc thân” với “Đã ly hôn” (RR = 1.1298):

  • Diễn giải: Xác suất một khách hàng độc thân sẽ đồng ý gửi tiền cao hơn 1.13 lần so với xác suất của một khách hàng đã ly hôn. Nói cách khác, việc khách hàng là người độc thân làm tăng 13% (1.13 - 1) khả năng khách hàng đó sẽ đồng ý gửi tiền so với nhóm đã ly hôn.

  • Khoảng tin cậy 95% [1.060, 1.205] và giá trị p-value = 0.00012 rất nhỏ. Điều này cho thấy khách hàng độc thân thực sự có xu hướng đồng ý gửi tiền cao hơn một cách có ý nghĩa thống kê so với nhóm đã ly hôn.

Kết luận:

  • Tình trạng hôn nhân là một yếu tố dự báo có ý nghĩa: Kết quả phân tích khẳng định một cách mạnh mẽ rằng tình trạng hôn nhân có mối liên hệ thống kê chặt chẽ với quyết định gửi tiền của khách hàng. Sự khác biệt giữa các nhóm không phải là do ngẫu nhiên.

  • Nhóm “Độc thân” là phân khúc tiềm năng nhất: So với nhóm đã ly hôn, khách hàng độc thân có khả năng đồng ý gửi tiền cao hơn 13%. Họ là nhóm có tỷ lệ chuyển đổi cao nhất, là đối tượng mục tiêu hàng đầu cho các chiến dịch.

  • Nhóm “Đã kết hôn” có xu hướng tiết kiệm thấp hơn: So với nhóm đã ly hôn, khách hàng đã kết hôn có khả năng đồng ý gửi tiền thấp hơn 9.8%. Điều này có thể phản ánh các gánh nặng hoặc ưu tiên tài chính khác trong gia đình, khiến họ trở thành nhóm ít tiềm năng hơn.

Tỷ số chênh - Odds Ratio

or1 <- oddsratio.wald(tbl_marital_deposit)
or1$measure
##           odds ratio with 95% C.I.
##             estimate     lower     upper
##   divorced 1.0000000        NA        NA
##   married  0.8264832 0.7331362 0.9317157
##   single   1.2843237 1.1303789 1.4592340

Diễn giải kết quả OR:

  • Nhóm tham chiếu: Nhóm divorced (Đã ly hôn)” được dùng làm mốc so sánh, với Odds Ratio bằng 1.

  • So sánh nhóm khách hàng “Đã kết hôn” với “Đã ly hôn” (OR ≈ 0.826):

  • Giá trị estimate (0.8264832): Đây là Odds Ratio (OR) của nhóm “married” so với nhóm “divorced” cho sự kiện “đồng ý” gửi tiền.

  • Diễn giải: Tỷ lệ chênh (odds) của việc một khách hàng đã kết hôn sẽ đồng ý gửi tiền chỉ bằng 0.826 lần (tức 82.6%) so với tỷ lệ chênh của một khách hàng đã ly hôn. Nói cách khác, việc đã kết hôn làm giảm 17.4% (1 - 0.826) tỷ lệ chênh của việc đồng ý gửi tiền so với nhóm đã ly hôn.

  • So sánh khách hàng “Độc thân” với “Đã ly hôn” (OR ≈ 1.284):

  • Giá trị estimate (1.2843237): Đây là Odds Ratio (OR) của nhóm “single” so với nhóm “divorced” cho sự kiện “đồng ý”.

  • Diễn giải: Tỷ lệ chênh (odds) của việc một khách hàng độc thân sẽ đồng ý gửi tiền cao hơn 1.284 lần so với tỷ lệ chênh của một khách hàng đã ly hôn. Nói cách khác, việc là người độc thân làm tăng 28.4% (1.284 - 1) tỷ lệ chênh của việc đồng ý gửi tiền so với nhóm đã ly hôn.

Kết luận: Kết quả phân tích Odds Ratio củng cố mạnh mẽ các phát hiện trước đó. Tình trạng hôn nhân là một yếu tố quan trọng ảnh hưởng đến quyết định gửi tiền. Nhóm khách hàng độc thân thể hiện tiềm năng cao nhất, với odds đồng ý gửi tiền cao hơn 28.4% so với nhóm đã ly hôn. Ngược lại, nhóm khách hàng đã kết hôn có odds đồng ý gửi tiền thấp hơn 17.4% so với nhóm đã ly hôn, cho thấy họ là phân khúc ít có khả năng chuyển đổi hơn.

3.3.2.3. Mối quan hệ giữa quyết định gửi tiền tiết kiệm (deposit) và tình trạng vay mua nhà của khách hàng (housing)

Câu hỏi nghiên cứu: Việc có khoản vay mua nhà ảnh hưởng thế nào đến khả năng gửi tiền?

Bảng tần số chéo và trực quan hoá

tbl_housing_deposit <- table(analysis_df$house_full, analysis_df$deposit_full)
kable(tbl_housing_deposit, caption = "Bảng tần số chéo giữa Housing và Deposit") %>% kable_styling(full_width = F)
Bảng tần số chéo giữa Housing và Deposit
Đồng ý Không đồng ý
Không 3354 2527
1935 3346
ggplot(analysis_df, aes(x = housing, fill = deposit)) +
  geom_bar(position = "dodge") +
  geom_text(stat = "count",
            aes(label = ..count..),
            position = position_dodge(width = 1),
            vjust = -0.3) +  # đẩy số lên trên đầu cột
  labs(y = "Số lượng", title = "Quyết định gửi tiền dựa trên tình trạng vay mua nhà") + theme_minimal()

Nhận xét:

  • Trong nhóm không vay mua nhà, số lượng khách hàng đồng ý gửi tiền (3354 người) vượt khá xa số không đồng ý (2527 người). Điều này cho thấy rằng khách hàng không có gánh nặng tài chính thường có khả năng tài chính dư dả hơn để tham gia các sản phẩm gửi tiền.

  • Ở nhóm có khoản vay mua nhà, số lượng khách hàng từ chối gửi tiền (3346 người) cao hơn nhiều so với người đồng ý gửi tiền (1935 người). Điều này phản ánh rằng những khách hàng đang gánh khoản nợ vay có thể ưu tiên trả nợ hơn là gửi tiết kiệm, dẫn đến tỷ lệ gửi tiền thấp.

  • Sự khác biệt rõ rệt về hành vi gửi tiền giữa hai nhóm cho thấy tình trạng tài chính cá nhân (cụ thể là khoản vay mua nhà) có ảnh hưởng đáng kể đến quyết định tài chính của khách hàng. Khách hàng vay mua nhà có xu hướng thận trọng hơn và ít tham gia gửi tiền.

Kiểm định Chi-bình phương (Chi-squared Test)

Bài toán kiểm định: \[ \begin{cases} H_0: \text{Vay mua nhà và quyết định gửi tiền là độc lập với nhua.}\\ H_1: \text{Vay mua nhà và quyết định gửi tiền có mối quan hệ với nhau.} \end{cases} \]

chisq.test(tbl_housing_deposit)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  tbl_housing_deposit
## X-squared = 463.19, df = 1, p-value < 0.00000000000000022

Nhận xét: Giá trị p-value < 2.2e-16, tình trạng vay mua nhà và quyết định gửi tiền của khách hàng có mối quan hệ với nhau.

Hiệu số hai tỷ lệ

Câu hỏi nghiên cứu: Tỷ lệ khách hàng gửi tiền có khác biệt giữa nhóm có và không có khoản vay mua nhà không?

# Chuẩn bị dữ liệu cho prop.test
tbl_housing_deposit <- table(analysis_df_final$housing, analysis_df_final$deposit)
success_counts_housing <- tbl_housing_deposit[, "yes"]
total_counts_housing <- rowSums(tbl_housing_deposit)

# Thực hiện kiểm định (đảo thứ tự để so sánh "no" vs "yes")
prop.test(x = rev(success_counts_housing), n = rev(total_counts_housing))
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  rev(success_counts_housing) out of rev(total_counts_housing)
## X-squared = 463.19, df = 1, p-value < 0.00000000000000022
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.2222197 -0.1855869
## sample estimates:
##    prop 1    prop 2 
## 0.3664079 0.5703112

Diễn giải kết quả:

  • Ước lượng tỷ lệ: Tỷ lệ khách hàng đồng ý gửi tiền ở nhóm không có vay mua nhà (prop 1) là 57.0%, cao hơn rất nhiều so với nhóm vay mua nhà (prop 2) là 36.6%.

  • Hiệu số tỷ lệ: Sự chênh lệch tuyệt đối lên tới 20.4%, là sự khác biệt lớn nhất trong các phân tích cặp biến.

  • Kiểm định và Khoảng tin cậy: P-value cực kỳ nhỏ (< 2.2e-16), cho thấy mối liên hệ này rất mạnh mẽ và có ý nghĩa thống kê. Khoảng tin cậy 95% cho hiệu số tỷ lệ là [-0.222;-0.186]. Việc khoảng tin cậy này hoàn toàn dương và cách xa 0 khẳng định rằng việc không có khoản vay mua nhà là một yếu tố dự báo rất mạnh cho khả năng gửi tiền của khách hàng.

Kết luận: Tỷ lệ khách hàng không có vay mua nhà đồng ý gửi tiền (57.0%) cao hơn rất nhiều so với tỷ lệ của nhóm có vay mua nhà (36.6%), với chênh lệch tuyệt đối khoảng 20.4 điểm phần trăm. Sự khác biệt này không chỉ lớn về mặt thực tế mà còn rất có ý nghĩa thống kê (p < 0.001), được củng cố bởi khoảng tin cậy 95% hoàn toàn nằm dưới 0. Điều này khẳng định rằng việc không có khoản vay mua nhà là một yếu tố dự báo rất mạnh cho khả năng gửi tiền của khách hàng.

Rủi ro tương đối - Relative Risk

riskratio.wald(tbl_housing_deposit)
## $data
##        
##           no  yes Total
##   no    2527 3354  5881
##   yes   3346 1935  5281
##   Total 5873 5289 11162
## 
## $measure
##      risk ratio with 95% C.I.
##        estimate     lower     upper
##   no  1.0000000        NA        NA
##   yes 0.6424701 0.6161482 0.6699165
## 
## $p.value
##      two-sided
##       midp.exact
##   no          NA
##   yes          0
##      two-sided
##                                                                                                         fisher.exact
##   no                                                                                                              NA
##   yes 0.000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000113602
##      two-sided
##                                                                                                            chi.square
##   no                                                                                                               NA
##   yes 0.0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000006456025
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"

Nhận xét bảng tần suất:

  • Trong 5881 người không vay nhà, có 3354 người đồng ý gửi tiền (tỷ lệ: 3354/5881 ≈ 57.0%).

  • Trong 5281 người có vay nhà, chỉ có 1935 người đồng ý gửi tiền (tỷ lệ: 1935/5281 ≈ 36.6%).

Diễn giải kết quả Relative Risk:

  • Nhóm tham chiếu: Nhóm no (Không vay mua nhà) được chọn làm mốc so sánh, với Rủi ro tương đối (RR) bằng 1.

  • RR = 0.642: Điều này có nghĩa là xác suất một khách hàng đồng ý gửi tiền khi họ có khoản vay mua nhà chỉ bằng 64.2% so với khi họ không có khoản vay mua nhà. Nói cách khác, việc có khoản vay mua nhà làm giảm khoảng 35.8% (1 - 0.642) khả năng khách hàng đó tham gia gửi tiền tiết kiệm.

  • Mối liên hệ này rất đáng tin cậy về mặt thống kê. Khoảng tin cậy 95% cho RR nằm hoàn toàn dưới 1 (từ 0.616 đến 0.670), và giá trị p-value cực kỳ nhỏ (gần bằng 0). Điều này khẳng định rằng sự khác biệt quan sát được không phải do ngẫu nhiên, mà phản ánh một mối liên hệ thực sự giữa tình trạng nợ mua nhà và hành vi gửi tiết kiệm.

Tỷ số chênh - Odds Ratio

or2 <- oddsratio.wald(tbl_housing_deposit)
or2$measure
##      odds ratio with 95% C.I.
##        estimate     lower    upper
##   no  1.0000000        NA       NA
##   yes 0.4357097 0.4037622 0.470185

Trong đó:

  • Nhóm tham chiếu: Nhóm “Không” có khoản vay mua nhà được dùng làm mốc so sánh, với OR bằng 1.

  • Giá trị estimate (0.4357): Đây là Odds Ratio (OR) của nhóm “Có” khoản vay mua nhà so với nhóm “Không”.

Diễn giải kết quả OR:

  • Tỷ lệ chênh (odds) của việc một khách hàng đồng ý gửi tiền tiết kiệm khi họ có khoản vay mua nhà chỉ bằng 0.436 lần (tức 43.6%) so với tỷ lệ chênh của một khách hàng không có khoản vay mua nhà.

  • Nói cách khác: Việc có một khoản vay mua nhà làm giảm 56.4% (tính bằng 1 - 0.436) tỷ lệ chênh của việc gửi tiền. Đây là một tác động tiêu cực rất lớn.

Kết luận: Tất cả các biến marital, housing, và age_group đều có mối liên hệ có ý nghĩa thống kê với deposit (p-values < 0.05). Mối quan hệ với housing là mạnh nhất.

3.4. Kết quả mô hình hồi quy

3.4.1. Các mô hình hồi quy nhị phân

library(jtools)

logit_deposit <- glm(deposit ~ age_group + marital + housing, data = analysis_df_final, family = binomial(link="logit"))

probit_deposit <- glm(deposit ~ age_group + marital + housing, data = analysis_df_final, family = binomial(link="probit"))

cloglog_deposit <- glm(deposit ~ age_group + marital + housing, data = analysis_df_final, family = binomial(link="cloglog"))

# show and compare

jtools::export_summs(list("Logistic" = logit_deposit,
       "Probit" = probit_deposit,
       "Cloglog" = cloglog_deposit),scale = TRUE)
LogisticProbitCloglog
(Intercept)0.35 ***0.22 ***-0.12 *  
(0.07)   (0.04)   (0.05)   
age_groupTrên 40 tuổi-0.05    -0.03    -0.03    
(0.04)   (0.03)   (0.03)   
maritalmarried-0.20 ** -0.12 ** -0.14 ** 
(0.06)   (0.04)   (0.05)   
maritalsingle0.20 ** 0.12 ** 0.14 ** 
(0.07)   (0.04)   (0.05)   
housingyes-0.83 ***-0.52 ***-0.61 ***
(0.04)   (0.02)   (0.03)   
N11162       11162       11162       
AIC14889.20    14889.02    14892.07    
BIC14925.80    14925.62    14928.67    
Pseudo R20.07    0.07    0.07    
All continuous predictors are mean-centered and scaled by 1 standard deviation. The outcome variable is in its original units. *** p < 0.001; ** p < 0.01; * p < 0.05.

Diễn giải và so sánh kết quả các mô hình hồi quy nhị phân

1. Phân tích các Hệ số hồi quy (Coefficients)

  • Tính nhất quán: Một điểm đáng chú ý đầu tiên là sự nhất quán cao về dấu (chiều hướng tác động) và ý nghĩa thống kê của các hệ số hồi quy trên cả ba mô hình. Điều này cho thấy các kết quả nghiên cứu rất vững chắc và không phụ thuộc vào việc lựa chọn một hàm liên kết cụ thể.

  • Tác động của housingyes: Đây là biến có tác động mạnh mẽ và rõ rệt nhất. Hệ số của housingyes luôn âm và có ý nghĩa thống kê ở mức cao nhất (p < 0.001) trong cả ba mô hình (-0.83 cho Logit, -0.52 cho Probit, -0.61 cho Cloglog). Điều này khẳng định một cách chắc chắn rằng việc có một khoản vay mua nhà làm giảm mạnh khả năng khách hàng đồng ý gửi tiền.

  • Tác động của marital: So với nhóm tham chiếu “Đã ly hôn”, việc “Đã kết hôn” (maritalmarried) có tác động tiêu cực (hệ số âm), trong khi việc “Độc thân” (maritalsingle) có tác động tích cực (hệ số dương). Cả hai tác động này đều có ý nghĩa thống kê ở mức p < 0.01 trên cả ba mô hình, cho thấy tình trạng hôn nhân là một yếu tố dự báo quan trọng.

  • Tác động của age_group: Hệ số của biến age_groupTrên 40 tuổi là âm trong cả ba mô hình nhưng đều không có ý nghĩa thống kê (p-value > 0.05). Điều này có nghĩa là, sau khi đã kiểm soát ảnh hưởng của tình trạng hôn nhân và nhà ở, sự khác biệt về nhóm tuổi không còn là một yếu tố dự báo đáng tin cậy cho quyết định gửi tiền.

2. Đánh giá và lựa chọn mô hình

  • Độ phù hợp tổng thể: Cả ba mô hình đều cho thấy sự cải thiện đáng kể so với mô hình rỗng (so sánh Residual Deviance với Null Deviance từ các kết quả summary() trước đó). Giá trị Pseudo R² (có thể là McFadden’s R-squared) ở mức 0.07 cho cả ba mô hình, cho thấy chúng giải thích được khoảng 7% sự biến thiên trong biến phụ thuộc.

  • So sánh qua AIC và BIC:

    • AIC (Akaike Information Criterion): Mô hình Probit (14889.02) có chỉ số AIC thấp nhất, theo sau rất sát là mô hình Logistic (14889.20). Mô hình Cloglog có AIC cao hơn một chút (14892.07).

    • BIC (Bayesian Information Criterion): Tương tự, mô hình Probit (14925.62) và Logistic (14925.80) có chỉ số BIC gần như tương đương và thấp hơn so với mô hình Cloglog (14928.67).

  • Kết luận lựa chọn mô hình: Dựa trên cả AIC và BIC, mô hình Probit và Logistic đều là những lựa chọn rất tốt và gần như tương đương nhau về độ phù hợp với dữ liệu. Mô hình Probit có ưu thế hơn một chút về mặt lý thuyết thống kê, trong khi mô hình Logistic lại có lợi thế về việc diễn giải trực tiếp thông qua Tỷ suất chênh (Odds Ratio). Vì sự khác biệt là không đáng kể, việc lựa chọn mô hình nào để báo cáo chi tiết có thể dựa trên sự ưu tiên của người nghiên cứu. Trong báo cáo này, chúng ta đã tập trung diễn giải mô hình Logistic vì tính trực quan của nó.

Kết luận: Phân tích so sánh cho thấy các kết luận về tác động của các biến độc lập là rất vững chắc và không thay đổi giữa các mô hình. Cả ba mô hình đều xác định housing là yếu tố quan trọng nhất, theo sau là marital. Mô hình Logit và Probit cho thấy độ phù hợp với dữ liệu tốt nhất.

Ma trận nhầm lẫn

Chúng ta sẽ tạo ma trận nhầm lẫn cho mô hình Logit với ngưỡng quyết định là 0.5.

# Lấy xác suất dự báo từ mô hình
predicted_probs <- fitted(logit_deposit)

# Phân loại dựa trên ngưỡng 0.5
predicted_class <- ifelse(predicted_probs > 0.5, "yes", "no")
predicted_class <- factor(predicted_class, levels = levels(analysis_df_final$deposit))

# Tạo ma trận nhầm lẫn
conf_matrix <- table(Predicted = predicted_class, Actual = analysis_df_final$deposit)

# In ma trận nhầm lẫn
cat("Ma trận nhầm lẫn (Threshold = 0.5):\n")
## Ma trận nhầm lẫn (Threshold = 0.5):
print(conf_matrix)
##          Actual
## Predicted   no  yes
##       no  3346 1935
##       yes 2527 3354
# Tính toán các chỉ số hiệu suất
TP <- conf_matrix["yes", "yes"]
TN <- conf_matrix["no", "no"]
FP <- conf_matrix["yes", "no"]
FN <- conf_matrix["no", "yes"]

accuracy <- (TP + TN) / sum(conf_matrix)
precision <- TP / (TP + FP)
recall <- TP / (TP + FN) # Còn gọi là Sensitivity
specificity <- TN / (TN + FP)
f1_score <- 2 * (precision * recall) / (precision + recall)

# Tạo bảng kết quả
metrics_df <- data.frame(
  Metric = c("Accuracy", "Precision (Độ chính xác)", "Recall (Độ nhạy)", "Specificity (Độ đặc hiệu)", "F1-Score"),
  Value = c(accuracy, precision, recall, specificity, f1_score)
)

kable(metrics_df, digits = 4, caption = "Các chỉ số hiệu suất từ Ma trận nhầm lẫn") %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed"), full_width = FALSE)
Các chỉ số hiệu suất từ Ma trận nhầm lẫn
Metric Value
Accuracy 0.6003
Precision (Độ chính xác) 0.5703
Recall (Độ nhạy) 0.6341
Specificity (Độ đặc hiệu) 0.5697
F1-Score 0.6005

Diễn giải kết quả:

  • Accuracy (Độ chính xác tổng thể) = 0.6003: Mô hình dự đoán đúng khoảng 60.0% tổng số khách hàng. Con số này chỉ cao hơn một chút so với mức ngẫu nhiên (50%) và cho thấy mô hình có khả năng phân loại ở mức trung bình.

  • Precision (Độ chính xác dự báo “Yes”) = 0.5703: Khi mô hình dự đoán một khách hàng sẽ gửi tiền (Predicted = yes), thì dự đoán đó có xác suất đúng là 57.0%. Điều này có nghĩa là trong số những người được mô hình xác định là tiềm năng, vẫn có một tỷ lệ đáng kể (khoảng 43%) là dự đoán sai (False Positive).

  • Recall (Độ nhạy) = 0.6341: Mô hình đã xác định đúng được 63.4% trong tổng số những khách hàng thực sự đã gửi tiền. Điều này cũng có nghĩa là mô hình đã bỏ lỡ khoảng 36.6% khách hàng tiềm năng thực sự (False Negative).

  • Specificity (Độ đặc hiệu) = 0.5697: Mô hình đã xác định đúng được 57.0% trong tổng số những khách hàng thực sự không gửi tiền. Tỷ lệ dự đoán sai ở nhóm này (False Positive Rate) là 1 - 0.5697 = 43.0%.

  • F1-Score = 0.6005: Là trung bình điều hòa của Precision và Recall, F1-Score ở mức 0.60 cho thấy một sự cân bằng tương đối giữa hai chỉ số này. Không có chỉ số nào quá vượt trội hay quá yếu so với chỉ số kia.

Kết luận: Phân tích ma trận nhầm lẫn với ngưỡng 0.5 cho thấy mô hình hiện tại, mặc dù có độ chính xác tổng thể cao, nhưng lại hoạt động kém trong việc xác định các khách hàng tiềm năng (Recall thấp). Mô hình có xu hướng “an toàn” và dự đoán thiên về nhóm đa số (‘no’). Trong thực tế, ngân hàng có thể muốn chấp nhận một Precision thấp hơn (gọi nhầm một số người không tiềm năng) để đổi lấy một Recall cao hơn (không bỏ lỡ khách hàng tiềm năng). Điều này có thể đạt được bằng cách điều chỉnh ngưỡng quyết định xuống một mức thấp hơn 0.5.

3.4.2. Mô hình Multinomial Logistic

Mô hình này được xây dựng để phân tích các yếu tố ảnh hưởng đến khả năng một khách hàng thuộc vào các nhóm gửi tiền khác nhau, được phân loại dựa trên trình độ học vấn của họ. Biến phụ thuộc deposit2 có các hạng mục:

  • A: Gửi tiền - Tiểu học

  • B: Gửi tiền - Trung học

  • C: Gửi tiền - Đại học

  • D: Gửi tiền - Trình độ học vấn không xác định

  • E: Không gửi tiền (đây là nhóm tham chiếu - reference group)

\[ \ln(-\ln(1-P(\text{deposit2 = 'E'}))) = \beta_0 + \beta_1\text{ age} + \beta_2\text{ marital} + \beta_3\text{ housing} \]

# Đặt nhóm E (không gửi tiền hoặc các nhóm khác) làm tham chiếu
analysis_df_final$deposit2 <- relevel(analysis_df_final$deposit2, ref = "E")
multinom_model <- multinom(deposit2 ~ age_group + marital + housing, data = analysis_df_final, trace = FALSE)
summary(multinom_model)
## Call:
## multinom(formula = deposit2 ~ age_group + marital + housing, 
##     data = analysis_df_final, trace = FALSE)
## 
## Coefficients:
##   (Intercept) age_groupTrên 40 tuổi maritalmarried maritalsingle housingyes
## A  -2.3148977             0.9573441     -0.2588116    -0.4886370 -0.6473859
## B  -0.4460664            -0.1232471     -0.1942727     0.1238742 -0.5999087
## C  -0.4620767            -0.3390561     -0.2177040     0.3778865 -1.1167898
## D  -3.2670399             0.6234860      0.1553691     0.7434589 -1.3902427
## 
## Std. Errors:
##   (Intercept) age_groupTrên 40 tuổi maritalmarried maritalsingle housingyes
## A  0.14880561            0.10819130     0.11924778    0.16207537 0.08999219
## B  0.08517268            0.05443066     0.07805067    0.08766385 0.04931363
## C  0.09552269            0.06132778     0.09010307    0.09804828 0.05625181
## D  0.25092815            0.15361103     0.22619467    0.25289561 0.15192631
## 
## Residual Deviance: 26238.46 
## AIC: 26278.46

Diễn giải kết quả mô hình Multinomial Logistic:

So sánh nhóm “A: Gửi tiền - Tiểu học” với nhóm tham chiếu:

  • Hệ số của age_groupTrên 40 tuổi là dương (0.9573), cho thấy ở nhóm học vấn tiểu học, những người lớn tuổi có khả năng gửi tiền cao hơn so với những người trẻ tuổi.

  • Việc có vay mua nhà (housingyes) làm giảm đáng kể khả năng rơi vào nhóm này (hệ số -0.6474).

So sánh nhóm “B: Gửi tiền - Trung học” với nhóm tham chiếu:

  • Tác động của age_groupTrên 40 tuổi là âm (-0.1232), cho thấy người lớn tuổi có xu hướng gửi tiền thấp hơn ở nhóm học vấn này.

  • Tình trạng độc thân (maritalsingle) có tác động tích cực (0.1239) trong khi tình trạng kết hôn (maritalmarried) có tác động tiêu cực (-0.1943).

  • Tác động tiêu cực của housingyes vẫn rất rõ rệt (-0.5999).

So sánh nhóm “C: Gửi tiền - Đại học” với nhóm tham chiếu:

  • Tác động tiêu cực của việc lớn tuổi (age_groupTrên 40 tuổi = -0.3391) và việc vay mua nhà (housingyes = -1.1168) là mạnh nhất ở nhóm có trình độ học vấn cao.

  • Ngược lại, tác động tích cực của việc độc thân (maritalsingle = 0.3779) cũng là rõ rệt nhất ở nhóm này.

So sánh nhóm “D: Gửi tiền - Không xác định” với nhóm tham chiếu:

Đây là nhóm có số lượng quan sát ít nhất. Các hệ số cho thấy nhóm này có những đặc điểm khá khác biệt. Ví dụ, tác động tích cực của việc độc thân (maritalsingle = 0.7435) và tác động tiêu cực của việc vay mua nhà (housingyes = -1.3902) là lớn nhất trong tất cả các nhóm. Tuy nhiên, do cỡ mẫu nhỏ, các kết quả này cần được diễn giải một cách thận trọng.

Kết luận:

  • Mô hình cung cấp cái nhìn chi tiết về phân khúc: Mô hình Multinomial Logistic đã thành công trong việc phân tách và chỉ ra rằng các yếu tố xã hội có tác động khác nhau lên các phân khúc khách hàng gửi tiền. Nó không chỉ trả lời câu hỏi “ai gửi tiền?” mà còn “khách hàng gửi tiền thuộc nhóm học vấn nào?”.

  • Tác động của housing là nhất quán và mạnh mẽ: Yếu tố có tác động rõ ràng và nhất quán nhất trên tất cả các phân khúc là việc vay mua nhà (housing=yes). Nó luôn làm giảm đáng kể khả năng khách hàng gửi tiền, và tác động này là mạnh nhất đối với nhóm khách hàng có trình độ học vấn không xác định và nhóm có trình độ đại học.

  • Tác động của age và marital có sự khác biệt giữa các nhóm:

    • Tuổi tác: Việc lớn tuổi hơn có vẻ là một yếu tố tích cực cho việc gửi tiền ở nhóm học vấn thấp, nhưng lại là yếu tố tiêu cực ở các nhóm học vấn cao hơn. Điều này cho thấy chiến lược tiếp cận theo độ tuổi cần được điều chỉnh tùy theo trình độ học vấn của khách hàng.

    • Tình trạng hôn nhân: Việc độc thân là một yếu tố thúc đẩy việc gửi tiền, đặc biệt là ở nhóm có trình độ học vấn cao và không xác định.

Điều này cho thấy các chiến lược tiếp thị cần được cá nhân hóa sâu sắc hơn. Ví dụ, để thu hút tiền gửi từ nhóm khách hàng có trình độ học vấn cao, ngân hàng nên tập trung vào những người trẻ tuổi, độc thân và chưa có khoản vay mua nhà.


KẾT LUẬN VÀ KHUYẾN NGHỊ

Sau quá trình phân tích dữ liệu chi tiết và xây dựng các mô hình thống kê, chương cuối cùng này sẽ tóm tắt lại những phát hiện chính của nghiên cứu, từ đó đưa ra các kết luận quan trọng và đề xuất các kiến nghị mang tính ứng dụng cho các tổ chức ngân hàng. Đồng thời, chương cũng sẽ nhìn nhận một cách khách quan những hạn chế của đề tài và gợi mở các hướng nghiên cứu tiếp theo trong tương lai.

1. Kết luận

Nghiên cứu này được thực hiện nhằm phân tích tác động của các yếu tố nhân khẩu học và xã hội—cụ thể là nhóm tuổi, tình trạng hôn nhân, trình độ học vấn và tình trạng vay mua nhà—lên quyết định gửi tiền tiết kiệm có kỳ hạn của khách hàng. Dựa trên kết quả phân tích từ các mô hình hồi quy nhị phân (Logistic, Probit, Cloglog) và mô hình phân loại đa kết quả (Multinomial Logistic), đề tài rút ra các kết luận cốt lõi sau:

Thứ nhất, trình độ học vấn và tình trạng sở hữu nhà ở là hai yếu tố có ảnh hưởng mạnh mẽ và nhất quán nhất đến quyết định gửi tiền. Cụ thể, khách hàng có trình độ học vấn càng cao (đặc biệt là bậc đại học) thì khả năng đồng ý gửi tiền càng tăng. Ngược lại, việc đang có một khoản vay mua nhà là rào cản tiêu cực lớn nhất, làm giảm đáng kể xác suất gửi tiền. Điều này khẳng định giả thuyết rằng kiến thức tài chính và tình trạng gánh nặng nợ là những động lực chi phối hành vi tiết kiệm của khách hàng.

Thứ hai, tình trạng hôn nhân có tác động có ý nghĩa thống kê nhưng ở mức độ vừa phải. Nhóm khách hàng độc thân có xu hướng gửi tiền cao hơn so với nhóm đã kết hôn và đã ly hôn. Điều này cho thấy các ràng buộc về tài chính và trách nhiệm gia đình có thể ảnh hưởng đến khả năng tích lũy của khách hàng.

Thứ ba, tác động của độ tuổi không rõ ràng khi kiểm soát các yếu tố khác. Mặc dù phân tích song biến ban đầu cho thấy có sự khác biệt giữa các nhóm tuổi, nhưng khi đưa vào mô hình hồi quy đa biến, tác động của biến nhóm tuổi (age_group) không còn có ý nghĩa thống kê. Điều này cho thấy ảnh hưởng của tuổi tác có thể đã được phản ánh gián tiếp qua các biến khác như tình trạng hôn nhân hoặc nhà ở.

Cuối cùng, việc phân tích biến đếm campaign bằng mô hình Poisson đã cho thấy sự tồn tại của hiện tượng quá phân tán (overdispersion). Điều này chứng tỏ mô hình Poisson cơ bản không đủ linh hoạt để mô tả chính xác sự biến thiên của số lần liên lạc trong thực tế, và cần đến các phương pháp nâng cao hơn như Hồi quy Negative Binomial để có được những suy diễn thống kê đáng tin cậy.

2. Khuyến nghị

Từ những kết luận trên, đề tài đề xuất một số hàm ý quản trị và kiến nghị cho các ngân hàng nhằm tối ưu hóa các chiến dịch tiếp thị tiền gửi:

  1. Xây dựng chân dung khách hàng tiềm năng và nhắm mục tiêu chính xác: Ngân hàng nên ưu tiên tập trung các nỗ lực tiếp thị vào phân khúc khách hàng “vàng”, đó là những người không có khoản vay mua nhà, có trình độ học vấn từ đại học trở lên, và đang trong tình trạng độc thân. Việc xây dựng các gói sản phẩm tiết kiệm với lợi ích hấp dẫn dành riêng cho nhóm này có thể mang lại tỷ lệ chuyển đổi cao hơn.

  2. Phát triển chiến lược tiếp cận đa dạng hóa:

    • Đối với nhóm khách hàng đã kết hôn hoặc có vay mua nhà, thay vì tập trung vào các sản phẩm tiết kiệm kỳ hạn dài, ngân hàng có thể giới thiệu các sản phẩm tài chính linh hoạt hơn như chứng chỉ tiền gửi ngắn hạn hoặc các gói tiết kiệm tích lũy với số tiền nhỏ.

    • Đối với nhóm khách hàng lớn tuổi có trình độ học vấn thấp, mặc dù mô hình Multinomial cho thấy họ có xu hướng gửi tiền, nhưng cách tiếp cận cần đơn giản, dễ hiểu và nhấn mạnh vào tính an toàn, ổn định.

  3. Cải thiện chất lượng phân tích dữ liệu: Các ngân hàng cần nhận thức được sự phức tạp của dữ liệu đếm trong marketing. Thay vì chỉ dựa vào các phân tích đơn giản, việc áp dụng các mô hình thống kê phù hợp như Negative Binomial để phân tích số lần tiếp cận (campaign) sẽ giúp đánh giá chính xác hơn hiệu quả của chiến dịch và tránh đưa ra các quyết định sai lầm dựa trên các mô hình không phù hợp.

3. Hạn chế của đề tài

Mặc dù đã đạt được các mục tiêu đề ra, nghiên cứu này vẫn còn một số hạn chế nhất định:

  • Phạm vi biến: Nghiên cứu chỉ tập trung vào một số biến xã hội cơ bản. Các yếu tố kinh tế có tác động mạnh như balance (số dư tài khoản), job (nghề nghiệp) hay các yếu tố từ chiến dịch trước (poutcome) đã không được đưa vào mô hình cuối cùng để giữ cho phân tích tập trung.

  • Thiếu các biến tâm lý và thu nhập: Bộ dữ liệu không phản ánh trực tiếp các yếu tố quan trọng như mức thu nhập, thói quen chi tiêu, mức độ chấp nhận rủi ro hay các yếu tố tâm lý khác của khách hàng, vốn có ảnh hưởng lớn đến quyết định tài chính.

  • Vấn đề biến duration: Biến duration (thời lượng cuộc gọi) được biết là có sức mạnh dự báo rất lớn, nhưng nó chỉ được ghi nhận sau khi cuộc gọi kết thúc. Do đó, nó không thể được sử dụng trong một mô hình dự báo nhằm mục đích nhắm mục tiêu trước khi thực hiện cuộc gọi.

4. Hướng phát triển của đề tài

Dựa trên những hạn chế đã nêu, các hướng nghiên cứu trong tương lai có thể được phát triển như sau:

  • Xây dựng mô hình dự báo toàn diện: Tích hợp đầy đủ các biến kinh tế, nhân khẩu học và hành vi trong quá khứ để xây dựng một mô hình có khả năng dự báo chính xác cao nhất, phục vụ cho việc xếp hạng và lựa chọn khách hàng tiềm năng.

  • Áp dụng các thuật toán Học máy (Machine Learning): Sử dụng các phương pháp nâng cao như Cây quyết định (Decision Trees), Rừng ngẫu nhiên (Random Forest), hoặc Gradient Boosting (XGBoost). Các thuật toán này có khả năng tự động phát hiện các mối quan hệ phi tuyến tính và tương tác phức tạp giữa các biến, có thể mang lại độ chính xác vượt trội.

  • Phân tích nhân quả (Causal Inference): Sử dụng các kỹ thuật kinh tế lượng nâng cao hơn để cố gắng phân tách mối tương quan và mối quan hệ nhân quả, ví dụ như tìm hiểu liệu việc cung cấp một khoản vay mua nhà có thực sự gây ra sự sụt giảm trong hành vi tiết kiệm hay không.

  • Nghiên cứu so sánh: Thực hiện một nghiên cứu tương tự trên dữ liệu của các ngân hàng tại Việt Nam để kiểm chứng và so sánh các yếu tố ảnh hưởng, từ đó đưa ra các đề xuất phù hợp hơn với bối cảnh thị trường trong nước.

TÀI LIỆU THAM KHẢO

  1. Trần Mạnh Tường (2025), Giáo trình Phân tích dữ liệu định tính.

  2. HƯƠNG, N. T. M., DUYÊN, N. T., & MAI, N. T. T. (2023). YẾU TỐ TÁC ĐỘNG ĐẾN QUYẾT ĐỊNH GỬI TIỀN TIẾT KIỆM CỦA KHÁCH HÀNG CÁ NHÂN TẠI NGÂN HÀNG SHINHAN VIỆT NAM. Tạp chí Khoa học xã hội Thành phố Hồ Chí Minh, (6 (298)), 17-29.

  3. Agresti, A. (1996). An introduction to categorical data analysis, JohnWiley & Sons. Inc., Publication.

  4. Cameron, A. C., & Trivedi, P. K. (2013). Regression analysis of count data (No. 53). Cambridge university press.

  5. Elsalamony, H. A. (2014). Bank direct marketing analysis of data mining techniques. International Journal of Computer Applications, 85(7).

  6. James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An introduction to statistical learning: with applications in R (Vol. 103). New York: springer.

  7. Moro, S., Cortez, P., & Rita, P. (2014). A data-driven approach to predict the success of bank telemarketing. Decision Support Systems, 62, 22-31.