Link tiểu luận: https://drive.google.com/file/d/1xKzedxUc5AG3qW3FTtaWSCaKIbHsv6mB/view?usp=drive_link
Đầu tiên, tôi xin cảm ơn trường Đại học Tài chính – Marketing đã đưa bộ môn “Phân tích dữ liệu định tính” vào chương trình đào tạo. Đặc biệt, tôi bày tỏ lòng biết ơn và tri ân sâu sắc đến giảng viên hướng dẫn Th.S Trần Mạnh Tường. Để có thể hoàn thiện đề tài tiểu luận kết thúc học phần cả về nội dung lẫn hình thức trình bày, bên cạnh sự nổ lực của bản thân, tôi luôn nhận được sự quan tâm, hướng dẫn tận tình từ thầy Tường. Nhờ có sự đóng góp, chia sẻ từ thầy mà tôi có thể hoàn thiện bài tiếu luận một cách tốt nhất. Những kiến thức được thầy truyền đạt trong học kì này đã giúp tôi trưởng thành hơn về mặt kiến thức cũng như vững hành trang bước vào chuyên nghành của mình sau này. Tuy nhiên, dù đã cố gắng hết sức để có thể hoàn thiện đề tài nghiên cứu nhưng chắc chắn bài tiểu luận này sẽ khó tránh khỏi những sai sót và luôn tồn đọng nhiều hạn chế. Chính vì vậy, nhóm luôn mong nhận được ý kiến đóng góp từ thầy để đề tài có thể hoàn thiện hơn. Lời cuối cùng, chúng tôi kính chúc thầy sẽ có thật nhiều sức khỏe, hạnh phúc và thành công trên con đường giảng dạy.
Trong thời đại phát triển của nền kinh tế và tài chính, việc vay tín dụng đã trở thành một phương tiện quan trọng để hỗ trợ cá nhân và doanh nghiệp thực hiện các dự án và mục tiêu tài chính. Tuy nhiên, việc sử dụng tín dụng cũng mang đến nhiều rủi ro và tác động đến tình hình tài chính của người vay. Mặt khác, việc sử dụng Internet ngày càng tăng ở Việt Nam đã tạo động lực và triển vọng phát triển cho thương mại điện tử, làm phong phú thêm nhận thức của khách hàng về thanh toán không tiền mặt và các khoản vay tiêu dùng (Huỳnh và Trần, 2021). Điều này đặt ra một câu hỏi quan trọng là: Các yếu tố nào ảnh hưởng đến hành vi vay tín dụng của khách hàng và làm thế nào chúng có thể được quản lý để tối ưu hóa hiệu quả tài chính cá nhân?
Đề tài “Phân tích các yếu tố ảnh hưởng đến hành vi vay tín dụng của khách hàng” được chọn với mục tiêu nghiên cứu, phân tích và đưa ra những thông tin quan trọng về các yếu tố có ảnh hưởng đến hành vi vay tín dụng của khách hàng. Nghiên cứu này không chỉ tập trung vào phân tích các yếu tố ảnh hưởng đến hành vi vay tín dụng của khách hàng mà còn giúp cải thiện quy trình đánh giá tín dụng và tạo ra cơ hội để phát triển các chính sách và sản phẩm tài chính linh hoạt, phù hợp hơn với nhu cầu và thái độ của từng khách hàng. Theo Tài và cộng sự (2017), khi khách hàng (cá nhân, doanh nghiệp…) đến vay vốn, cán bộ tín dụng phải có khả năng đánh giá đúng khách hàng và ra quyết định về việc cho hay không cho khách hàng vay. Nhờ vào việc hiểu rõ hơn về các yếu tố tác động đến quyết định vay tín dụng của khách hàng, các tổ chức tài chính có thể tối ưu hóa quy trình cung cấp tín dụng và tùy chỉnh các sản phẩm và dịch vụ tài chính sao cho phù hợp và thu hút hơn với từng đối tượng khách hàng khác nhau. Điều này sẽ giúp cải thiện mức độ đáp ứng nhu cầu vay tín dụng của khách hàng và tăng cường sự hài lòng và lòng tin của họ đối với tổ chức tín dụng.
Mục tiêu của đề tài không chỉ nằm ở việc đưa ra cái nhìn toàn diện về yếu tố ảnh hưởng đến hành vi vay tín dụng của khách hàng, mà còn tập trung vào việc đề xuất những giải pháp cụ thể và gợi ý cho các tổ chức tín dụng. Những kết quả nghiên cứu được áp dụng có thể giúp cải thiện quy trình xét duyệt tín dụng, giảm thiểu rủi ro tín dụng, và tối ưu hóa lợi nhuận. Tóm lại, đề tài mang lại cho lĩnh vực tài chính và ngân hàng những đóng góp quan trọng cũng như tạo tiền đề cho sự thúc đẩy bền vững của nền kinh tế và điều kiện thuận lợi cho cả người cho vay và người vay trong các giao dịch tài chính.
Dựa trên các thông tin đã thu thập được từ cuộc khảo sát, mục tiêu chính của đề tài này là phân tích các yếu tố ảnh hưởng đến hành vi vay tín dụng của khách hàng. Đề tài sẽ tập trung vào việc xem xét và đánh giá sự ảnh hưởng của các yếu tố như thu nhập khách hàng, số tiền vay, thu nhập, trình độ học vấn, tình trạng hôn nhân và một số yếu tố khác có thể liên quan. Từ đó, có thể giúp cải thiện quy trình xét duyệt tín dụng, giảm thiểu rủi ro tín dụng, và tối ưu hóa lợi nhuận.
Đối tượng nghiên cứu bao gồm những khách hàng đến từ khách hàng đã vay vốn đến từ Vương quốc Anh. Sự đa dạng về độ tuổi, giới tính, nghề nghiệp, trình độ học vấn và tình hình tài chính cá nhân sẽ được xem xét để tạo ra kết quả nghiên cứu mang tính đại diện và có thể áp dụng rộng rãi. Dữ liệu này cho phép phân tích về các yếu tố có thể ảnh hưởng đến hành vi vay tín dụng của từng khách hàng và dự báo nguy cơ vỡ nợ của ngân hàng.
Phương pháp nghiên cứu tập trung vào phân tích các yếu tố có liên quan đến khả năng ra quyết định hình thức vay vốn của khách hàng. Bằng cách thống kê mô tả, xem xét mối quan hệ tương quan giữa các cặp biến, từ đó xây dựng mô hình hồi quy tuyến tính tổng quát. Thông qua các chỉ số đánh giá để lựa chọn mô hình phù hợp nhất và tiến hành phân tích yếu tố tác động đến quyết định hình thức vay vốn.
Nghiên cứu được chia thành năm phần chính để đảm bảo tính logic và hiệu quả trong việc truyền tải thông tin. Chương 1 giới thiệu. Chương 2 tổng quan lý thuyết. Chương 3 tổng quan nghiên cứu. Chương 4 kết quả nghiên cứu. Chương 5 kết luận và khuyến nghị.
Tổ chức tín dụng là doanh nghiệp thực hiện một, một số hoặc tất cả các hoạt động ngân hàng. Tổ chức tín dụng bao gồm ngân hàng, tổ chức tín dụng phi ngân hàng, tổ chức tài chính vi mô và quỹ tín dụng nhân dân (Quốc hội, 2010). Cấp tín dụng là việc thỏa thuận để tổ chức, cá nhân sử dụng một khoản tiền hoặc cam kết cho phép sử dụng một khoản tiền theo nguyên tắc có hoàn trả bằng nghiệp vụ cho vay, chiết khấu, cho thuê tài chính, bao thanh toán, bảo lãnh ngân hàng và các nghiệp vụ cấp tín dụng khác (Quốc hội, 2010).
Một trong những hình thức phổ biến của tín dụng là thẻ tín dụng. Thẻ tín dụng cho phép người sử dụng mượn tiền từ tổ chức tín dụng hoặc ngân hàng để mua sắm và thanh toán vào cuối kỳ thanh toán. Điều này mang lại sự tiện lợi và linh hoạt cho người dùng, nhưng cũng đòi hỏi sự quản lý tài chính thông minh để tránh nợ nần không kiểm soát.
Ngoài ra, tín dụng cũng thể hiện trong hình thức vay vốn. Người có nhu cầu tiền mặt có thể vay một khoản tiền từ ngân hàng hoặc tổ chức tín dụng và cam kết trả lại theo một kế hoạch trả nợ cụ thể với lãi suất. Tuy cung cấp nguồn tài chính cần thiết cho những dự án và nhu cầu cá nhân, nhưng việc vay tiền cũng đòi hỏi sự đánh giá và tính toán kỹ lưỡng để tránh rơi vào cảnh nợ nần.
Đối với doanh nghiệp, tín dụng thương mại đóng vai trò quan trọng trong quá trình mua hàng hoặc dịch vụ. Tín dụng thương mại cho phép doanh nghiệp mua hàng hoặc dịch vụ và trả tiền sau khi đã nhận được chúng. Điều này giúp doanh nghiệp duy trì hoạt động một cách linh hoạt và đáp ứng nhu cầu kinh doanh một cách hiệu quả.
Tuy tín dụng mang lại nhiều lợi ích cho kinh tế và cá nhân, việc quản lý tín dụng cần được thực hiện cẩn thận. Người sử dụng tín dụng nên có ý thức trách nhiệm trong việc vay tiền và trả nợ đúng hạn để tránh những vấn đề tài chính khó khăn và tác động tiêu cực đến đời sống cá nhân cũng như hoạt động kinh doanh.
Hình thức vay tiền có thể được chia thành hai loại chính: vay tiền mặt và vay tín dụng.
Vay tiền mặt:
Vay tiền mặt là hình thức vay mà người vay nhận được số tiền yêu cầu dưới dạng tiền mặt hoặc chuyển khoản vào tài khoản của họ. Điều này có nghĩa là người vay có quyền sử dụng số tiền này như một khoản tiền mặt và có thể sử dụng nó cho bất kỳ mục đích gì, không bị ràng buộc bởi các giới hạn cụ thể. Thông thường, vay tiền mặt thường áp dụng cho các tình huống cấp thiết hoặc khi người vay cần tiền mặt nhanh chóng.
Vay tín dụng: Vay tín dụng là hình thức vay mà người vay được cấp một hạn mức tín dụng từ một tổ chức tài chính, ngân hàng hoặc công ty tín dụng. Người vay có thể sử dụng số tiền trong hạn mức tín dụng này theo nhu cầu và thỏa thuận trước đó. Tùy thuộc vào điều kiện của hợp đồng, người vay có thể thanh toán số tiền vay trong một khoảng thời gian nhất định hoặc trả tiền theo các kỳ hạn thỏa thuận. Ví dụ về hình thức vay tín dụng bao gồm thẻ tín dụng và vay theo hạn mức trong tài khoản ngân hàng.
Cả hai hình thức vay đều có ưu điểm và hạn chế riêng, và sẽ phù hợp với các tình huống và nhu cầu tài chính cụ thể của người vay.
Ưu điểm vay tín dụng:
Việc lựa chọn vay tín dụng thay vì vay tiền mặt đem lại nhiều lợi ích và sự linh hoạt cho người vay. Với hình thức vay tín dụng, người vay có sẵn một hạn mức tín dụng để sử dụng linh hoạt theo nhu cầu cá nhân. Không cần phải chỉ định rõ ràng mục đích sử dụng, người vay có thể sử dụng số tiền này cho bất kỳ mục đích gì, từ thanh toán hóa đơn hàng tháng cho đến mua sắm hoặc đi du lịch.
Ngoài ra, tính linh hoạt trong việc trả nợ cũng là một điểm mạnh của vay tín dụng. Người vay có thể chọn trả nợ trong một khoảng thời gian dài hơn, giảm bớt áp lực tài chính và giúp duy trì sự ổn định trong cuộc sống hàng ngày. Hơn nữa, lãi suất chỉ áp dụng cho số tiền đã sử dụng trong hạn mức tín dụng, giúp giảm chi phí lãi suất so với việc vay tiền mặt.
Vay tín dụng cũng hỗ trợ tài chính cho những dự án lớn và dài hạn như mua nhà hoặc đầu tư kinh doanh, nhờ hạn mức lớn hơn so với vay tiền mặt. Ngoài ra, các chương trình ưu đãi và điểm thưởng của các thẻ tín dụng còn là một điểm thu hút, giúp người vay nhận được những lợi ích hấp dẫn khi sử dụng thẻ.
Tuy nhiên, để tận dụng hết các ưu điểm của vay tín dụng, người vay cần thận trọng và quản lý tài chính cẩn thận. Nếu không quản lý tốt việc sử dụng hạn mức tín dụng, người vay có thể dễ dàng rơi vào tình trạng nợ nần và gặp khó khăn trong việc thanh toán. Do đó, việc lựa chọn vay tín dụng nên được thực hiện một cách tỉnh táo và có kế hoạch tài chính cụ thể.
Mô hình hồi quy tuyến tính tổng quát là một phương pháp thống kê được sử dụng để mô hình hóa mối quan hệ tuyến tính giữa một biến phụ thuộc (còn gọi là biến mục tiêu) và một hoặc nhiều biến độc lập (còn gọi là biến giải thích). Mô hình hồi quy tuyến tính tổng quát dự đoán giá trị của biến phụ thuộc dựa trên các giá trị của các biến giải thích. Trong mô hình hồi quy tuyến tính tổng quát, giả định rằng mối quan hệ giữa biến phụ thuộc và các biến giải thích có thể được biểu diễn bằng một hàm tuyến tính. Điều này có nghĩa là khi giá trị của biến giải thích thay đổi, giá trị của biến phụ thuộc cũng sẽ thay đổi theo một tỷ lệ cụ thể.
Công thức tổng quát của mô hình hồi quy tuyến tính có thể được viết như sau:
\(Y=\beta_0+\beta_1X_1+\beta_2X_2+...+\beta_nX_n + \epsilon\)
Trong đó:
\(Y\) là giá trị của biến phụ thuộc (biến mục tiêu) cần dự đoán.
\(X_1, X_2,...,X_n\) là các biến giải thích (biến độc lập).
\(\beta_0,\beta_1,...,\beta_n\) là các hệ số hồi quy, biểu thị độ lớn và hướng của mối quan hệ tuyến tính giữa biến phụ thuộc và các biến giải thích.
\(\epsilon\) là sai số ngẫu nhiên, biểu thị sự sai khác giữa giá trị dự đoán và giá trị thực tế của biến phụ thuộc.
Mô hình tuyến tính tổng quát cho dữ liệu nhị phân là một công cụ phân loại dùng để dự đoán hoặc phân biệt giữa hai tùy chọn. Các tùy chọn này có thể là có hoặc không có, đúng hoặc sai, 0 hoặc 1. Mô hình này sử dụng mối quan hệ tuyến tính giữa các biến độc lập (những thông tin cung cấp) và biến phụ thuộc (kết quả dự đoán) để đưa ra quyết định.
Đối với mỗi điểm dữ liệu, mô hình sẽ tính toán một giá trị dự đoán (thường là xác suất) dựa trên các thông tin được cung cấp. Giá trị dự đoán này sau đó được so sánh với một ngưỡng quyết định (thường là 0.5). Nếu giá trị dự đoán lớn hơn ngưỡng, mô hình sẽ dự đoán kết quả là một tùy chọn, và ngược lại nếu giá trị dự đoán nhỏ hơn ngưỡng, mô hình sẽ dự đoán kết quả là tùy chọn còn lại.
Mô hình này được xây dựng bằng cách tìm các hệ số (trọng số) tốt nhất sao cho hàm tuyến tính mô tả mối quan hệ giữa các biến độc lập và biến phụ thuộc càng tốt. Quá trình này có thể được thực hiện bằng cách sử dụng dữ liệu đã biết (dữ liệu huấn luyện) để tìm ra các hệ số phù hợp nhất sao cho mô hình có thể dự đoán chính xác kết quả cho các điểm dữ liệu mới chưa biết trước.
Bảng tần số - Bảng tần suất còn được gọi là bảng ngẫu nhiên. Khi lập bảng ngẫu nhiên cho 2 biến thì bảng đó được gọi là bảng ngẫu nhiên 2 chiều, nếu lập cho 3 biến thì gọi là bảng ngẫu nhiên 3 chiều và cứ thế tăng lên.
Đối với bảng tần số chúng ta quy ước biến phụ thuộc (dependent/outcome/response variable) được xắp xếp theo cột, biến độc lập (independent/explanatory/predictor variable) được xắp xếp theo hàng.
Rủi ro tương đối là một chỉ số được sử dụng để đánh giá mối quan hệ giữa một yếu tố nguy cơ và một kết quả. Được tính bằng cách chia tỷ lệ mắc bệnh ở những người có yếu tố nguy cơ cho tỷ lệ mắc bệnh ở những người không có yếu tố nguy cơ. RR được biểu thị dưới dạng số. Nếu RR lớn hơn 1, điều đó có nghĩa là yếu tố nguy cơ làm tăng nguy cơ mắc bệnh. Nếu rủi ro bằng 1, điều đó có nghĩa là yếu tố nguy cơ không có tác động đến nguy cơ mắc bệnh. Nếu RR nhỏ hơn 1, điều đó có nghĩa là yếu tố nguy cơ làm giảm nguy cơ mắc bệnh. rủi ro là một chỉ số quan trọng để đánh giá mối quan hệ giữa một yếu tố nguy cơ và một kết quả. Tuy nhiên, cần lưu ý rằng rủi ro không phải lúc nào cũng là chỉ số duy nhất cần xem xét. Trong một số trường hợp, các chỉ số khác, chẳng hạn như nguy cơ tuyệt đối (AR), có thể quan trọng hơn.
Ký hiệu \(π_i\) là tỷ lệ “thành công” của biến phụ thuộc (response variable) tương ứng với từng biểu hiện của biến độc lập. Từ bảng tần xuất, chúng ta tính \(\frac{\pi_1}{\pi_2}\), phân số này gọi là Rủi ro tương đối (Relative risk) giữa 2 biểu hiện khác nhau của biến phụ thuộc.
Tỷ lệ chênh (Odd) là một chỉ số được sử dụng để đo cường độ của mối quan hệ giữa hai biến phân loại. Odd được tính bằng cách chia tỷ lệ chênh dương cho tỷ lệ chênh âm. Odd thường được sử dụng trong các nghiên cứu quan sát, trong đó các nhà nghiên cứu quan sát các biến số mà không cố gắng kiểm soát chúng. Odd không phải là một ước lượng chính xác của nguy cơ tuyệt đối, nhưng nó có thể được sử dụng để đánh giá nguy cơ tương đối của các kết quả khác nhau.Odd được biểu thị dưới dạng số. Nếu Odd lớn hơn 1, điều đó có nghĩa là biến phân loại đầu tiên có liên quan đến kết quả. Nếu OR bằng 1, điều đó có nghĩa là biến phân loại đầu tiên không liên quan đến kết quả. Nếu OR nhỏ hơn 1, điều đó có nghĩa là biến phân loại đầu tiên không liên quan đến kết quả.
Nếu gọi xác suất “thành công” của biểu hiện thứ i của biến độc lập là \(π_i\) thì chúng ta kí hiệu Tỷ lệ cược (odd) của biểu hiện này là \(odd_i\) và được định nghĩa như sau:
\(odd_i=\frac{\pi_i}{1-\pi_i}\)
Nghĩa là chúng ta tính tỷ lệ thành công theo từng hàng trong bảng ngẫu nhiên.
Tỷ lệ chênh của biểu hiện thứ i và biểu hiện thứ j được kí hiệu là \(θ_ij\) và được định nghĩa:
\(θ = \frac{odd_i}{odd_j} = \frac{π_i(1-π_j)}{π_j(1-π_i)}\)
Phân phối Poisson với tham số \(\lambda (\lambda > 0\) có hàm phân phối xác suất như sau:
\(p_k = P(Y = k) = \frac{\lambda^k.e^{-\lambda}}{k!}, k = 0,1,2,...\)
Khi đó ta viết: \(Y\) ~ \(P(\lambda)\) để chỉ rằng: \(Y\) có phân phối xác suất Poisson với tham số \(\lambda\). Giá trị trung bình khi đó của nó là \(EY = \lambda\) và phương sai là \(VarY = \lambda\).
Nếu \(Y_1, Y_2,..., Y_m\) là các biến ngẫu nhiên độc lập có cùng phân phối Poisson \(P(\lambda)\) thì \(Y = Y_1 + Y_2 + ... + Y_m\) là biến ngẫu nhiên có phân phối Poisson \(P(m\lambda)\).
Sự khác biệt giữa hai tỷ lệ \(\pi_1\) và \(\pi_2\) được đánh giá qua sai số tuyệt đối (\(\pi_1 - \pi_2\)) chỉ dựa vào khoảng cách giữa hai tỷ lệ này và bỏ qua độ lớn và ý nghĩa của chúng, nghĩa là khoảng cách như nhau thì đánh giá sai lệch như nhau. Giả sử \(\pi_1\) và \(\pi_2\) là xác suất thành công của hai nhóm thì rủi ro tương đối giữa hai nhím này là tỷ lệ xác suất thành công của hai nhóm: \(\frac{\pi_1}{\pi_2}\)
Các tỷ lệ tổng thể \(\pi_1\) và \(\pi_2\) là chưa biết, ta nhận được các tỷ lệ mẫu tương ứng là \(f_1\) và \(f_2\). Khi đó, ta dùng rủi ro tương đối mẫu \(\frac{f_1}{f_2}\) để xấp xỉ cho rủi ro tương đối \(\frac{\pi_1}{\pi_2}\) trên tổng thể.
Tỷ lệ cược (Odds) là tỷ lệ giữa khả năng thành công và khả năng không thành công trong cùng một điều kiện tác động của biến giải thích, ký hiệu \(odds_i\):
\(odds_i = \frac{\pi_i}{1 - \pi_i}\)
Tỷ lệ chênh (Odds Ratio) của hàng 1 và hàng 2, được ký hiệu là \(\theta\), là tỷ số giữa tỷ lệ cược của thành công ở hàng 1 và tỷ lệ cược của thành công ở hàng 2:
\(\theta = \frac{odds_1}{odds_2} = \frac{\pi_1(1 - \pi_2)}{\pi_2(1 - \pi_1)}\)
GLM (General Linear Model) là một mô hình tuyến tính tổng quát giải thích mối quan hệ giữa một hàm kỳ vọng có điều kiện với các biến giải thích thông qua một phương trình dự đoán có dạng tuyến tính.
GLM phổ biến vì nó có thể xử lý nhiều loại dữ liệu với các kiểu biến phản ứng khác nhua như nhị thức, Poisson hay đa thức.
Để mô hình hóa ảnh hưởng của X là sử dụng dạng hồi quy tuyến tính cổ điển, theo đó giá trị kỳ vọng có điều kiện của Y là một hàm tuyến tính của X.
\(\pi(x) = \beta_0 + \beta_1.x\)
Đây là GLM với thành phần ngẫu nhiên nhị thức và hàm liên kết đồng nhất. Mô hình này được gọi là mô hình xác suất tuyến tính hay LPM (Linear Probability Model). \(\beta_1\) biểu thị cho sự thay đổi xác suất cho mỗi đơn vị thay đổi của x.
Để khắc phục một số hạn chế của LPM, người ta đề xuất một hàm liên kết mà nó đồng biến với xác suất \(\pi\) và giá trị biến thiên của nó là tùy ý đó là \(log(\frac{\pi(x)}{1 - \pi(x)})\), được gọi là hàm logistic hay logit(\(\pi\)).
Mô hình hồi quy logit:
\(log(\frac{\pi(x)}{1 - \pi(x)}) = \beta_0 + \beta_1.x_1 + \beta_2.x_2 + ... +\beta_m.x_m\)
Trong đó \(\beta_0, \beta_1,..., \beta_m\) là hệ số hồi quy.
Mô hình Probit được sử dung để ước lượng mô hình có biến phụ thuộc dạng nhị phân. Mô hình Probit là một GLM với thành phần ngẫu nhiên nhị phân và liên kết Probit. Hàm hôi quy Probit có dạng:
\(\pi(x) = \phi(\alpha + \beta x)\) Trong đó, \(\phi(x) = \frac{1}{\sqrt{2\pi}}\int_{-\infty}^{x}e^{-\frac{1}{2}t^2}dt\) là hàm phân phối chuẩn chính tắc. Với \(Probit(\pi(x)) = \phi^{-1}(\pi(x))\), ta có mô hình Probit:
\(Probit(\pi(x)) = \alpha + \beta x\)
Công thức được sử dụng cho AIC trong R là:
\(AIC = Deviance + 2.k\) (với k là tham số của mô hình)
AIC càng bé thì mô hình càng chính xác.
Chỉ số Brier là trung bình của tổng bình phương các độ chênh lệch giữa giá trị của biến phụ thuộc Y và giá trị ước lượng của nó.
\(B = \frac{1}{n}\sum_{i = 1}^n(Y_i - \hat\pi_i)^2 = \frac{sum square resid}{n}\)
Deviance cũng là một tiêu chí rất phổ biến được sử dụng để đánh giá một mô hình hồi quy được ước lượng bởi phương pháp Hợp lý cực đại (ML). Một cách tổng quá, cũng giống như chỉ tiêu AIC, giá trị của Deviance càng nhỏ thì mô hình càng tốt.
Ma trận nhầm lẫn là yếu tố giúp so sánh giá trị thực tế và giá trị dự báo. Trong ma trận nhầm lẫn người ta xét các chỉ số: Độ chính xác toàn thể, độ nhạy, độ đặc hiệu,…
Trong ma trận nhầm lẫn, các chỉ số quan trọng được chú ý là độ nhạy và độ đặc hiệu. Các chỉ số này càng lớn càng tốt.
Độ nhạy (sensitivity) của một thí nghiệm: Là tỷ lệ (%) của số ca bị bệnh thực sự khi xét nghiệm và cho kết quả dương tính với tổng số ca bị bệnh. Công thức để tính độ nhạy:
Độ nhạy = số dương tính thật/(số đương tính thật + số âm tính giả)
Độ đặc hiệu (specificity) của một thí nghiệm: Là tỷ lệ (%) của số ca không bị bệnh và kết quả xét nghiệm không bị bệnh với tổng số người không bị bệnh. Công thức tính độ đặc hiệu:
Độ đặc hiệu = Số trường hợp âm tính thật/ (số trường hợp âm tính thật + số trường hợp dương tính giả)
Bộ dữ liệu sử dụng trong phân tích được lấy từ trang kaggle.com, được chia sẻ bởi MISHRA5001 (2019) bao gồm 14 biến và 700 quan sát để phục vụ phân tích. Trong đó, có 09 biến định tính và 05 biến định lượng.
SK_ID_CURR: Mã định danh cho mỗi khách hàng
NAME_CONTRACT_TYPE: Loại hợp đồng vay
CODE_GENDER: Giới tính của khách hàng
FLAG_OWN_CAR: Có sở hữu xe hơi hay không
FLAG_OWN_REALTY: Có sở hữu bất động sản hay không
CNT_CHILDREN: Số lượng con cái của khách hàng
AMT_INCOME_TOTAL: Tổng thu nhập hàng năm của khách hàng
AMT_CREDIT: Hạn mức vay
AMT_ANNUITY: Số tiền trả hàng tháng
NAME_TYPE_SUITE: Loại người thụ hưởng hợp đồng vay
NAME_INCOME_TYPE: Loại thu nhập của khách hàng
NAME_EDUCATION_TYPE: Trình độ học vấn của khách hàng
NAME_FAMILY_STATUS: Tình trạng hôn nhân/gia đình của khách hàng
NAME_HOUSING_TYPE: Loại hình nhà ở của khách hàng
## Installing package into 'C:/Users/HP/AppData/Local/R/win-library/4.3'
## (as 'lib' is unspecified)
## package 'readxl' successfully unpacked and MD5 sums checked
## Warning: cannot remove prior installation of package 'readxl'
## Warning in file.copy(savedcopy, lib, recursive = TRUE): problem copying
## C:\Users\HP\AppData\Local\R\win-library\4.3\00LOCK\readxl\libs\x64\readxl.dll
## to C:\Users\HP\AppData\Local\R\win-library\4.3\readxl\libs\x64\readxl.dll:
## Permission denied
## Warning: restored 'readxl'
##
## The downloaded binary packages are in
## C:\Users\HP\AppData\Local\Temp\Rtmp2zjHJe\downloaded_packages
## Warning: package 'readxl' was built under R version 4.3.1
## tibble [10,000 × 14] (S3: tbl_df/tbl/data.frame)
## $ SK_ID_CURR : num [1:10000] 1e+05 1e+05 1e+05 1e+05 1e+05 ...
## $ NAME_CONTRACT_TYPE : chr [1:10000] "Cash" "Cash" "Credit" "Credit" ...
## $ CODE_GENDER : chr [1:10000] "M" "F" "M" "F" ...
## $ FLAG_OWN_CAR : chr [1:10000] "N" "N" "Y" "N" ...
## $ FLAG_OWN_REALTY : chr [1:10000] "Y" "N" "Y" "Y" ...
## $ CNT_CHILDREN : num [1:10000] 0 0 0 0 0 0 1 0 0 0 ...
## $ AMT_INCOME_TOTAL : num [1:10000] 202500 270000 67500 135000 121500 ...
## $ AMT_CREDIT : num [1:10000] 406598 1293503 135000 312683 513000 ...
## $ AMT_ANNUITY : num [1:10000] 24701 35699 6750 29687 21866 ...
## $ NAME_TYPE_SUITE : chr [1:10000] "Unaccompanied" "Family" "Unaccompanied" "Unaccompanied" ...
## $ NAME_INCOME_TYPE : chr [1:10000] "Working" "State servant" "Working" "Working" ...
## $ NAME_EDUCATION_TYPE: chr [1:10000] "Secondary / secondary special" "Higher education" "Secondary / secondary special" "Secondary / secondary special" ...
## $ NAME_FAMILY_STATUS : chr [1:10000] "Single / not married" "Married" "Single / not married" "Civil marriage" ...
## $ NAME_HOUSING_TYPE : chr [1:10000] "House / apartment" "House / apartment" "House / apartment" "House / apartment" ...
Phân tích các yếu tố ảnh hưởng đến hành vi vay tín dụng của khách hàng
Chọn biến NAME_CONTRACT_TYPE làm biến phụ thuộc
Quyết định hình thức vay vốn của khách hàng là một quyết định mang tính chiến lược và ảnh hưởng đáng kể đến tình hình tài chính và phát triển của cá nhân và doanh nghiệp. Tầm quan trọng của việc lựa chọn hình thức vay vốn đáng được nhấn mạnh, vì nó liên quan trực tiếp đến khả năng thanh toán và nợ nần của khách hàng. Một lựa chọn hợp lý và phù hợp với khả năng tài chính sẽ giúp tránh tình trạng vỡ nợ và giảm thiểu rủi ro tài chính.
Hơn nữa, quyết định hình thức vay vốn cũng ảnh hưởng đến cách khách hàng quản lý chi tiêu và đầu tư. Ví dụ, vay tiền mặt mang lại sự linh hoạt và tiện lợi trong sử dụng số tiền vay, trong khi vay tín dụng hạn chế việc sử dụng số tiền vay chỉ cho các giao dịch nhất định. Điều này đòi hỏi khách hàng phải cân nhắc kỹ lưỡng và xem xét mục tiêu tài chính để đưa ra quyết định đúng đắn.
Tuy nhiên, tầm quan trọng của việc ra quyết định hình thức vay vốn không chỉ dừng lại ở khía cạnh cá nhân mà còn tác động lên sự phát triển kinh tế tổng thể. Khi khách hàng và doanh nghiệp có khả năng tiếp cận tín dụng và vay vốn phù hợp, họ có thể thúc đẩy sự tăng trưởng kinh tế, tạo việc làm và đóng góp vào sự phát triển các ngành công nghiệp.
Điều này càng đáng chú ý khi các tổ chức tài chính và ngân hàng đóng vai trò quan trọng trong việc cung cấp các sản phẩm và dịch vụ tài chính phù hợp với nhu cầu của khách hàng. Quyết định hình thức vay vốn đòi hỏi sự tư vấn chuyên nghiệp từ các chuyên gia tài chính và sự đồng thuận của khách hàng trong việc đưa ra lựa chọn hợp lý.
Tóm lại, việc ra quyết định hình thức vay vốn là một quá trình quan trọng và phức tạp. Tầm quan trọng của nó không chỉ liên quan đến khả năng tài chính cá nhân và doanh nghiệp mà còn đóng góp vào sự phát triển kinh tế tổng thể. Việc đưa ra quyết định hợp lý và cân nhắc kỹ lưỡng giúp đảm bảo tính khả thi và an toàn trong việc vay vốn, góp phần tạo nên tương lai tài chính ổn định và bền vững.
Phân tích các yếu tố ảnh hưởng đến hạn mức vay của khách hàng
Chọn biến AMT_CREDIT làm biến phụ thuộc
Hạn mức vay vốn là một khía cạnh quan trọng không thể bị coi nhẹ trong lĩnh vực tài chính và ngân hàng. Điều này đáng chú ý bởi vì hạn mức vay có tác động lớn đến nhiều khía cạnh của cuộc sống tài chính của cá nhân và doanh nghiệp. Sự quan trọng của hạn mức vay vốn thể hiện qua việc nó giúp đáp ứng nhu cầu tài chính của khách hàng, từ việc mua sắm hàng hóa đến thanh toán các khoản chi phí hàng ngày, đồng thời hỗ trợ các doanh nghiệp trong việc đầu tư và mở rộng kinh doanh.
Tuy nhiên, việc quản lý hạn mức vay vốn cần được thực hiện cẩn thận để tránh những tác động tiêu cực. Các tổ chức tín dụng thường xem xét các yếu tố như khả năng trả nợ, lịch sử tín dụng, tài sản bảo đảm,… để xác định hạn mức vay vốn phù hợp. Điều này giúp giảm thiểu rủi ro cho cả người vay và tổ chức tín dụng, đồng thời ưu tiên sử dụng tài nguyên tài chính cho các mục tiêu quan trọng và cần thiết nhất.
Tóm lại, hạn mức vay mang lại sự linh hoạt và tiện lợi trong việc sử dụng tiền vay, cho phép khách hàng tái sử dụng số tiền đã trả nợ khi cần thiết. Điều này giúp quản lý tài chính một cách hiệu quả hơn và giảm thiểu rủi ro tài chính. Đối với các doanh nghiệp, hạn mức vay vốn quyết định khả năng tiếp cận tín dụng để đầu tư và phát triển. Việc có hạn mức vay vốn hợp lý giúp doanh nghiệp tận dụng cơ hội đầu tư và thúc đẩy tăng trưởng kinh tế.
Các biến sử dụng trong phân tích:
Biến định tính: NAME_CONTRACT_TYPE, CODE_GENDER, FLAG_OWN_CAR, FLAG_OWN_REALTY, NAME_TYPE_SUITE, NAME_INCOME_TYPE, NAME_EDUCATION_TYPE, NAME_HOUSING_TYPE.
Biến định lượng: CNT_CHILDREN, AMT_INCOME_TOTAL, AMT_CREDIT, AMT_ANNUITY
Bảng tần số
##
## Cash Credit
## 6499 3501
Theo kết quả thống kê:
Có 6499 khách hàng vay theo hình thức vay tiền mặt
Có 3501 khách hàng vay theo hình thức tín dụng
Bảng tần suất
##
## Cash Credit
## 0.6499 0.3501
Biểu đồ
## Installing package into 'C:/Users/HP/AppData/Local/R/win-library/4.3'
## (as 'lib' is unspecified)
## package 'ggplot2' successfully unpacked and MD5 sums checked
##
## The downloaded binary packages are in
## C:\Users\HP\AppData\Local\Temp\Rtmp2zjHJe\downloaded_packages
## Warning: package 'ggplot2' was built under R version 4.3.1
ggplot(data,aes(NAME_CONTRACT_TYPE))+
geom_bar(color = "lightblue", fill = "lavender")+
geom_text(aes(label = scales :: percent(after_stat(count/sum(count)))), stat= 'count', color = 'black', vjust = -.5)+
ylab("Number of Customer")+ xlab("Name Contract Type")Theo như biểu đồ, có 65% khách hàng vay theo hình thức lấy tiền mặt và 35% còn lại vay theo hình thức tín dụng.
Bảng tần số
##
## F M
## 6589 3411
Theo kết quả thống kê, khách hàng vay vốn được phân theo giới tính như sau:
Có 6589 khách hàng giới tính nữ
Có 3411 khách hàng giới tính nam
Bảng tần suất
##
## F M
## 0.6589 0.3411
Biểu đồ
ggplot(data,aes(CODE_GENDER))+
geom_bar(color = "lightblue", fill = "lavender")+
geom_text(aes(label = scales :: percent(after_stat(count/sum(count)))), stat= 'count', color = 'black', vjust = -.5)+
ylab("Number of Customer")+ xlab("Gender")Theo như biểu đồ, có 66% khách hàng là nữ và 34% còn lại là nam.
Bảng tần số
##
## N Y
## 6662 3338
Theo kết quả thống kê:
Có 6662 khách hàng không có ô tô
Có 3338 khách hàng có tài sản là ô tô
Bảng tần suất
##
## N Y
## 0.6662 0.3338
Biểu đồ
ggplot(data,aes(FLAG_OWN_CAR))+
geom_bar(color = "lightblue", fill = "lavender")+
geom_text(aes(label = scales :: percent(after_stat(count/sum(count)))), stat= 'count', color = 'black', vjust = -.5)+
ylab("Number of Customer")+ xlab("Flag Own Car")Theo như biểu đồ, có 67% khách hàng không có ô tô và 33% khách hàng còn lại có ô tô.
Bảng tần số
##
## N Y
## 3025 6975
Theo kết quả thống kê:
Có 3025 khách hàng không sở hữu bất động sản
Có 6975 khách hàng sở hữu bất động sản
Bảng tần suất
##
## N Y
## 0.3025 0.6975
Biểu đồ
ggplot(data,aes(FLAG_OWN_REALTY))+
geom_bar(color = "lightblue", fill = "lavender")+
geom_text(aes(label = scales :: percent(after_stat(count/sum(count)))), stat= 'count', color = 'black', vjust = -.5)+
ylab("Number of Customer")+ xlab("Flag Own Realty")Theo như biểu đồ, có 70% khách hàng vay sở hữu bất động sản và 30% còn lại là không sở hữu bất động sản.
Bảng tần số
##
## Commercial associate Pensioner State servant
## 2304 1772 650
## Unemployed Working
## 2 5272
Theo kết quả thống kê, bảng tần số cho biết thu nhập của khách hàng đến từ các nguồn sau:
Có 2304 khách hàng thu nhập từ lương cộng tác viên thương mại
Có 1772 khách hàng thu nhập từ lương hưu
Có 650 khách hàng hưởng lương công chức Nhà nước
Có 2 khách hàng không có việc làm
Có 5272 khách hàng có việc làm
Bảng tần suất
##
## Commercial associate Pensioner State servant
## 0.2304 0.1772 0.0650
## Unemployed Working
## 0.0002 0.5272
Biểu đồ
ggplot(data, aes(x = "", fill = NAME_INCOME_TYPE)) +
geom_bar(color = "lightblue", width = 1, stat = "count") +
scale_fill_manual(values = c("#F2B5D4", "#B5EAD7", "#F7DD91", "#A9D8E5", "#D1A2FF", "#FFC8A2")) +
coord_polar("y", start = 0) +
ylab("Number of Customers") +
xlab("Name Income Type")Bảng tần số
##
## Children Family Group of people Spouse, partner Unaccompanied
## 107 1438 7 353 8095
Theo kết quả thống kê:
Có 107 loại người thụ hưởng là trẻ nhỏ
Có 1438 loại người thụ hưởng là gia đình
Có 7 loại người thụ hưởng theo nhóm
Có 8095 không có người thụ hưởng
Có 353 loại người thụ hưởng là vợ/chồng hoặc đối tác
Bảng tần suất
##
## Children Family Group of people Spouse, partner Unaccompanied
## 0.0107 0.1438 0.0007 0.0353 0.8095
Biểu đồ
ggplot(data,aes(NAME_TYPE_SUITE))+
geom_bar(color = "lightblue", fill = "lavender")+
geom_text(aes(label = scales :: percent(after_stat(count/sum(count)))), stat= 'count', color = 'black', vjust = -.5)+
ylab("Number of Customer")+ xlab("Name Type Suite")Theo như biểu đồ, khách hàng không có người thụ hưởng chiếm tỷ lệ cao nhất (80,95%) và thấp nhất là người thụ hưởng thuộc nhóm trẻ nhỏ, chiếm tỷ lệ 1,07%.
Bảng tần số
##
## Co-op apartment House / apartment Municipal apartment Office apartment
## 46 8851 375 76
## Rented apartment With parents
## 162 490
Theo kết quả thống kê:
Có 46 khách hàng ở căn hộ hợp tác xã
Có 8851 khách hàng có nhà riêng/ căn hộ
Có 375 khách hàng ở căn hộ cơ quan công cộng
Có 76 khách hàng ở căn hộ văn phòng
Có 162 khách hàng ở căn hộ cho thuê
Có 490 khách hàng sống cùng cha mẹ
Bảng tần suất
##
## Co-op apartment House / apartment Municipal apartment Office apartment
## 0.0046 0.8851 0.0375 0.0076
## Rented apartment With parents
## 0.0162 0.0490
Biểu đồ
ggplot(data,aes(NAME_HOUSING_TYPE))+
geom_bar(color = "lightblue", fill = "lavender")+geom_text(aes(label = scales :: percent(after_stat(count/sum(count)))), stat= 'count', color = 'black', vjust = -.5)+
ylab("Number of Customer")+ xlab("Housing")Theo như biểu đồ, khách hàng có nhà riêng/căn hộ chiếm tỷ lệ cao nhất (88,51%) và thấp nhất là khách hàng ở căn hộ hợp tác xã, chiếm tỷ lệ 1,07%.
Bảng tần số
##
## Academic degree Higher education
## 8 2415
## Incomplete higher Lower secondary
## 315 135
## Secondary / secondary special
## 7127
Theo kết quả thống kê:
Có 8 khách hàng có bằng cấp học thuật
Có 2415 khách hàng đã hoàn thành Đại học
Có 315 khách hàng chưa hoàn thành Đại học
Có 135 khách hàng dưới trình độ trung học cơ sở
Có 7127 khách hàng trình độ Trung học/Trung cấp
Có 31 khách hàng sống cùng cha mẹ
Bảng tần suất
##
## Academic degree Higher education
## 0.0008 0.2415
## Incomplete higher Lower secondary
## 0.0315 0.0135
## Secondary / secondary special
## 0.7127
Biểu đồ
ggplot(data,aes(NAME_EDUCATION_TYPE))+
geom_bar(color = "lightblue", fill = "lavender")+geom_text(aes(label = scales :: percent(after_stat(count/sum(count)))), stat= 'count', color = 'black', vjust = -.5)+
ylab("Number of Customer")+ xlab("Education")Theo đồ thị, khách hàng thuộc trình độ Trung học/Trung cấp chiếm tỷ lệ cao nhất (71,3%) và thấp nhất là nhóm khách hàng có các bằng cấp học vị (0,1%).
data1<-data.frame(data$AMT_ANNUITY, data$AMT_CREDIT, data$AMT_INCOME_TOTAL, data$CNT_CHILDREN)
summary(data1)## data.AMT_ANNUITY data.AMT_CREDIT data.AMT_INCOME_TOTAL data.CNT_CHILDREN
## Min. : 2596 Min. : 45000 Min. : 25650 Min. :0.0000
## 1st Qu.: 16434 1st Qu.: 270000 1st Qu.: 112500 1st Qu.:0.0000
## Median : 24971 Median : 513000 Median : 144000 Median :0.0000
## Mean : 27088 Mean : 600753 Mean : 167449 Mean :0.4163
## 3rd Qu.: 34637 3rd Qu.: 810000 3rd Qu.: 202500 3rd Qu.:1.0000
## Max. :135936 Max. :2961000 Max. :1935000 Max. :7.0000
Từ bảng thống kê mô tả cho thấy:
Cột AMT_ANNUITY cho thấy thông tin về các khoản trả hàng tháng. Trung vị (Median) là 24971, tức là khoảng 50% số khoản trả hàng tháng nhỏ hơn giá trị này và 50% số khoản trả hàng tháng lớn hơn. Giá trị trung bình (Mean) là 27088, là tổng của tất cả các khoản trả hàng tháng chia cho số lượng khách hàng. Khoản trả hàng tháng nhỏ nhất là 2596 và lớn nhất là 2961000.
Cột AMT_CREDIT chứa thông tin về hạn mức tín dụng của khách hàng. Trung vị (Median) là 513000, tức là khoảng 50% số tiền tín dụng yêu cầu nhỏ hơn giá trị này và 50% số tiền tín dụng yêu cầu cao hơn. Giá trị trung bình (Mean) là 600753, là tổng của tất cả các khoản tín dụng yêu cầu chia cho số lượng khách hàng. Số tiền tín dụng nhỏ nhất là 25650 và lớn nhất là 2286212.
Cột AMT_INCOME_TOTAL thể hiện tổng thu nhập hàng năm của khách hàng. Trung vị (Median) là 144000, tức là khoảng 50% số thu nhập hàng năm nhỏ hơn giá trị này và 50% số thu nhập hàng năm cao hơn. Giá trị trung bình (Mean) là 167449, là tổng của tất cả thu nhập hàng năm chia cho số lượng khách hàng. Thu nhập hàng năm nhỏ nhất là 31500 và lớn nhất là 1935000.
Cột CNT_CHILDREN thể hiện số lượng con nhỏ của khách hàng. Trung vị (Median) là 0, tức là khoảng 50% số lượng con nhỏ nhỏ hơn giá trị này và 50% số lượng con nhỏ cao hơn. Giá trị trung bình (Mean) là 0.4163, là tổng của tất cả số lượng con nhỏ chia cho số lượng khách hàng. Số lượng con nhỏ nhỏ nhất là 0 và lớn nhất là 7.
Các giá trị “Trung vị 1” và “Trung vị 3” thể hiện phạm vi giữa giá trị nhỏ nhất và trung vị, cũng như giữa trung vị và giá trị lớn nhất. Nó giúp ta hiểu rõ hơn về phân bố của dữ liệu trong từng cột và xác định các vùng dữ liệu chứa phần lớn các giá trị.
Bảng tần số
##
## Cash Credit
## F 4336 2253
## M 2163 1248
Có 4336 khách hàng nữ vay tiền mặt và 2253 vay tín dụng.
Có 2163 khách hàng nam vay tiền mặt và 1248 vay tín dụng.
Bảng tần suất
##
## Cash Credit
## F 0.4336 0.2253
## M 0.2163 0.1248
Phân phối biến
##
## Cash Credit Sum
## F 4336 2253 6589
## M 2163 1248 3411
## Sum 6499 3501 10000
Biểu đồ cột kết hợp 2 biến
k <- data.frame(data$NAME_CONTRACT_TYPE, data$FLAG_OWN_CAR, data$CODE_GENDER, data$FLAG_OWN_REALTY, data$CNT_CHILDREN, data$AMT_INCOME_TOTAL, data$AMT_CREDIT, data$AMT_ANNUITY, data$NAME_TYPE_SUITE, data$NAME_INCOME_TYPE, data$NAME_EDUCATION_TYPE, data$NAME_FAMILY_STATUS, data$NAME_HOUSING_TYPE)
k |> ggplot(aes(x=data$CODE_GENDER,y=after_stat(count))) + geom_bar(fill="lavender") + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat = "count", color = "navy", vjust = - .5) + facet_grid(. ~data$NAME_CONTRACT_TYPE) + labs(x = "CODE_GENDER",y = "client")Rủi ro tương đối (Risk ratio)
## $data
##
## Cash Credit Total
## F 4336 2253 6589
## M 2163 1248 3411
## Total 6499 3501 10000
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## F 1.000000 NA NA
## M 1.070018 1.012308 1.131019
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## F NA NA NA
## M 0.01750983 0.01798724 0.01733654
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Tỷ lệ người vay tín dụng là nam gấp 1.07 lần so với tỷ lệ người vay tín dụng là nữ.
## $data
##
## Credit Cash Total
## F 2253 4336 6589
## M 1248 2163 3411
## Total 3501 6499 10000
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## F 1.0000000 NA NA
## M 0.9636183 0.9343294 0.9938253
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## F NA NA NA
## M 0.01750983 0.01798724 0.01733654
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Tỷ lệ người vay tiền mặt là nam gấp 0.96 so với tỷ lệ người vay tiền mặt là nữ.
Tỷ lệ chênh lệch (odd ratio)
## $data
##
## Cash Credit Total
## F 4336 2253 6589
## M 2163 1248 3411
## Total 6499 3501 10000
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## F 1.00000 NA NA
## M 1.11045 1.018536 1.210406
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## F NA NA NA
## M 0.01750983 0.01798724 0.01733654
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Tỷ lệ chênh giữa 2 nhóm giới tính không bằng nhau. Tỷ lệ chênh lệch của giới tính nam so với giới tính nữ là 1.11 lần.
## $data
##
## Cash Credit Total
## M 2163 1248 3411
## F 4336 2253 6589
## Total 6499 3501 10000
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## M 1.000000 NA NA
## F 0.900563 0.8261693 0.9818014
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## M NA NA NA
## F 0.01750983 0.01798724 0.01733654
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Tỷ lệ chênh giữa 2 nhóm giới tính không bằng nhau. Tỷ lệ chênh lệch của giới tính nữ so với giới tính nam là 0.9 lần.
Bảng tần số
##
## Cash Credit
## N 4352 2310
## Y 2147 1191
Có 4352 khách hàng không sở hữu ô tô vay tiền mặt và 2310 vay tín dụng.
Có 2147 khách hàng có ô tô vay tiền mặt và 1191 vay tín dụng.
Bảng tần suất
##
## Cash Credit
## N 0.4352 0.2310
## Y 0.2147 0.1191
Phân phối biến
##
## Cash Credit Sum
## N 4352 2310 6662
## Y 2147 1191 3338
## Sum 6499 3501 10000
Biểu đồ cột kết hợp 2 biến
k1 <- data.frame(data$NAME_CONTRACT_TYPE, data$FLAG_OWN_CAR, data$CODE_GENDER, data$FLAG_OWN_REALTY, data$CNT_CHILDREN, data$AMT_INCOME_TOTAL, data$AMT_CREDIT, data$AMT_ANNUITY, data$NAME_TYPE_SUITE, data$NAME_INCOME_TYPE, data$NAME_EDUCATION_TYPE, data$NAME_FAMILY_STATUS, data$NAME_HOUSING_TYPE)
k1 |> ggplot(aes(x=data$FLAG_OWN_CAR,y=after_stat(count))) + geom_bar(fill="lavender") + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat = "count", color = "navy", vjust = - .5) + facet_grid(. ~data$NAME_CONTRACT_TYPE) + labs(x = "FLAG_OWN_CAR",y = "client")Rủi ro tương đối (Risk ratio)
## $data
##
## Cash Credit Total
## N 4352 2310 6662
## Y 2147 1191 3338
## Total 6499 3501 10000
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## N 1.000000 NA NA
## Y 1.029006 0.9727497 1.088517
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## N NA NA NA
## Y 0.3201807 0.3280573 0.3200657
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Tỷ lệ người vay tín dụng có ô tô gấp 1.03 lần so với tỷ lệ người vay tín không có ô tô.
## $data
##
## Credit Cash Total
## N 2310 4352 6662
## Y 1191 2147 3338
## Total 3501 6499 10000
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## N 1.0000000 NA NA
## Y 0.9846037 0.954805 1.015332
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## N NA NA NA
## Y 0.3201807 0.3280573 0.3200657
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Tỷ lệ người vay tiền mặt có ô tô gấp 0.98 so với tỷ lệ người vay tiền mặt không ô tô.
Tỷ lệ chênh lệch (odd ratio)
## $data
##
## Cash Credit Total
## N 4352 2310 6662
## Y 2147 1191 3338
## Total 6499 3501 10000
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## N 1.000000 NA NA
## Y 1.045124 0.9579878 1.139985
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## N NA NA NA
## Y 0.3201807 0.3280573 0.3200657
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Tỷ lệ chênh lệch của khách hàng có ô tô so với khách hàng không ô tô là 1.05 lần.
## $data
##
## Cash Credit Total
## Y 2147 1191 3338
## N 4352 2310 6662
## Total 6499 3501 10000
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## Y 1.0000000 NA NA
## N 0.9568241 0.8772049 1.043855
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## Y NA NA NA
## N 0.3201807 0.3280573 0.3200657
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Tỷ lệ chênh lệch của khách hàng không ô tô so với khách hàng có ô tô là 0.96 lần.
Bảng tần số
##
## Cash Credit
## N 1990 1035
## Y 4509 2466
Có 1990 khách hàng không sở hữu bất động sản vay tiền mặt và 1305 vay tín dụng.
Có 4509 khách hàng có bất động sản vay tiền mặt và 2466 vay tín dụng.
Bảng tần suất
##
## Cash Credit
## N 0.1990 0.1035
## Y 0.4509 0.2466
Phân phối biến
##
## Cash Credit Sum
## N 1990 1035 3025
## Y 4509 2466 6975
## Sum 6499 3501 10000
Biểu đồ cột kết hợp 2 biến
k <- data.frame(data$NAME_CONTRACT_TYPE, data$FLAG_OWN_CAR, data$CODE_GENDER, data$FLAG_OWN_REALTY, data$CNT_CHILDREN, data$AMT_INCOME_TOTAL, data$AMT_CREDIT, data$AMT_ANNUITY, data$NAME_TYPE_SUITE, data$NAME_INCOME_TYPE, data$NAME_EDUCATION_TYPE, data$NAME_FAMILY_STATUS, data$NAME_HOUSING_TYPE)
k |> ggplot(aes(x=data$FLAG_OWN_REALTY,y=after_stat(count))) + geom_bar(fill="lavender") + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat = "count", color = "navy", vjust = - .5) + facet_grid(. ~data$NAME_CONTRACT_TYPE) + labs(x = "FLAG_OWN_REALTY",y = "client")Rủi ro tương đối (Risk ratio)
## $data
##
## Cash Credit Total
## N 1990 1035 3025
## Y 4509 2466 6975
## Total 6499 3501 10000
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## N 1.000000 NA NA
## Y 1.033318 0.9743832 1.095817
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## N NA NA NA
## Y 0.2723527 0.2734721 0.2723107
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Tỷ lệ người vay tín dụng có bất động sản gấp 1.03 lần so với tỷ lệ người vay tín dụng không có bất động sản.
## $data
##
## Credit Cash Total
## N 1035 1990 3025
## Y 2466 4509 6975
## Total 3501 6499 10000
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## N 1.0000000 NA NA
## Y 0.9826714 0.9526654 1.013623
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## N NA NA NA
## Y 0.2723527 0.2734721 0.2723107
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Tỷ lệ người vay tiền mặt có bất động sản gấp 0.98 so với tỷ lệ người vay tiền mặt không có bất động sản.
Tỷ lệ chênh lệch (odd ratio)
## $data
##
## Cash Credit Total
## N 1990 1035 3025
## Y 4509 2466 6975
## Total 6499 3501 10000
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## N 1.000000 NA NA
## Y 1.051487 0.9614235 1.150446
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## N NA NA NA
## Y 0.2723527 0.2734721 0.2723107
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Tỷ lệ chênh lệch của khách hàng có bất động sản so với khách hàng không có bất động sản là 1.051 lần.
## $data
##
## Cash Credit Total
## Y 4509 2466 6975
## N 1990 1035 3025
## Total 6499 3501 10000
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## Y 1.0000000 NA NA
## N 0.9510228 0.8692282 1.040124
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## Y NA NA NA
## N 0.2723527 0.2734721 0.2723107
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Tỷ lệ chênh lệch của khách hàng không có bất động sản so với khách hàng có bất động sản là 0.95 lần
## Installing package into 'C:/Users/HP/AppData/Local/R/win-library/4.3'
## (as 'lib' is unspecified)
## package 'dplyr' successfully unpacked and MD5 sums checked
## Warning: cannot remove prior installation of package 'dplyr'
## Warning in file.copy(savedcopy, lib, recursive = TRUE): problem copying
## C:\Users\HP\AppData\Local\R\win-library\4.3\00LOCK\dplyr\libs\x64\dplyr.dll to
## C:\Users\HP\AppData\Local\R\win-library\4.3\dplyr\libs\x64\dplyr.dll:
## Permission denied
## Warning: restored 'dplyr'
##
## The downloaded binary packages are in
## C:\Users\HP\AppData\Local\Temp\Rtmp2zjHJe\downloaded_packages
## Warning: package 'dplyr' was built under R version 4.3.1
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
NAME_INCOME_TYPE1 <- data %>% mutate(NAME_INCOME_TYPE = case_when(NAME_INCOME_TYPE == "Commercial associate" ~ 3, NAME_INCOME_TYPE == "State servant" ~ 3, NAME_INCOME_TYPE == "Working" ~ 3, NAME_INCOME_TYPE == "Unemployed" ~ 4, NAME_INCOME_TYPE == "Pensioner" ~ 4))
NAME_INCOME_TYPE2 <-cut(NAME_INCOME_TYPE1$NAME_INCOME_TYPE, breaks=c(0,3,4), labels=c('Yes', 'No'))
table(NAME_INCOME_TYPE2)## NAME_INCOME_TYPE2
## Yes No
## 8226 1774
Bảng tần số
##
## NAME_INCOME_TYPE2 Cash Credit
## Yes 5280 2946
## No 1219 555
Có 5280 khách hàng có việc làm vay tiền mặt và 2946 vay tín dụng.
Có 1219 khách hàng chưa/đã từng có việc làm vay tiền mặt và 555 vay tín dụng.
Bảng tần suất
##
## NAME_INCOME_TYPE2 Cash Credit
## Yes 0.5280 0.2946
## No 0.1219 0.0555
Phân phối biến
##
## NAME_INCOME_TYPE2 Cash Credit Sum
## Yes 5280 2946 8226
## No 1219 555 1774
## Sum 6499 3501 10000
Biểu đồ cột kết hợp 2 biến
## Warning: package 'ggplot2' is in use and will not be installed
library(ggplot2)
k3 <- data.frame(data$NAME_CONTRACT_TYPE, data$FLAG_OWN_CAR, data$CODE_GENDER, data$FLAG_OWN_REALTY, data$CNT_CHILDREN, data$AMT_INCOME_TOTAL, data$AMT_CREDIT, data$AMT_ANNUITY, data$NAME_TYPE_SUITE, data$NAME_INCOME_TYPE, data$NAME_EDUCATION_TYPE, data$NAME_FAMILY_STATUS, data$NAME_HOUSING_TYPE, NAME_INCOME_TYPE2)
k3 |> ggplot(aes(x=NAME_INCOME_TYPE2,y=after_stat(count))) + geom_bar(fill="lavender") + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat = "count", color = "navy", vjust = - .5) + facet_grid(. ~data$NAME_CONTRACT_TYPE) + labs(x = "NAME_INCOME_TYPE",y = "client")Rủi ro tương đối (Risk ratio)
## $data
##
## NAME_INCOME_TYPE2 Cash Credit Total
## Yes 5280 2946 8226
## No 1219 555 1774
## Total 6499 3501 10000
##
## $measure
## risk ratio with 95% C.I.
## NAME_INCOME_TYPE2 estimate lower upper
## Yes 1.0000000 NA NA
## No 0.8735652 0.8106171 0.9414015
##
## $p.value
## two-sided
## NAME_INCOME_TYPE2 midp.exact fisher.exact chi.square
## Yes NA NA NA
## No 0.0002638858 0.0002904651 0.0002875231
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Tỷ lệ người đã từng/chưa có việc làm vay tín dụng gấp 0.87 lần tỷ lệ người có việc làm vay tín dụng.
## $data
##
## NAME_INCOME_TYPE2 Credit Cash Total
## Yes 2946 5280 8226
## No 555 1219 1774
## Total 3501 6499 10000
##
## $measure
## risk ratio with 95% C.I.
## NAME_INCOME_TYPE2 estimate lower upper
## Yes 1.000000 NA NA
## No 1.070545 1.033408 1.109016
##
## $p.value
## two-sided
## NAME_INCOME_TYPE2 midp.exact fisher.exact chi.square
## Yes NA NA NA
## No 0.0002638858 0.0002904651 0.0002875231
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Tỷ lệ người đã từng/chưa có việc làm vay tiền mặt gấp 1.07 lần tỷ lệ người có việc làm vay tiền mặt.
Tỷ lệ chênh lệch (odd ratio)
## $data
##
## NAME_INCOME_TYPE2 Cash Credit Total
## Yes 5280 2946 8226
## No 1219 555 1774
## Total 6499 3501 10000
##
## $measure
## odds ratio with 95% C.I.
## NAME_INCOME_TYPE2 estimate lower upper
## Yes 1.0000000 NA NA
## No 0.8161241 0.7307217 0.9106008
##
## $p.value
## two-sided
## NAME_INCOME_TYPE2 midp.exact fisher.exact chi.square
## Yes NA NA NA
## No 0.0002638858 0.0002904651 0.0002875231
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Tỷ lệ chênh lệch giữa khách hàng đã từng/chưa có việc so với khách hàng có việc làm vay tín dụng là 0.82 lần.
## $data
##
## NAME_INCOME_TYPE2 Cash Credit Total
## No 1219 555 1774
## Yes 5280 2946 8226
## Total 6499 3501 10000
##
## $measure
## odds ratio with 95% C.I.
## NAME_INCOME_TYPE2 estimate lower upper
## No 1.000000 NA NA
## Yes 1.225322 1.098176 1.36851
##
## $p.value
## two-sided
## NAME_INCOME_TYPE2 midp.exact fisher.exact chi.square
## No NA NA NA
## Yes 0.0002638858 0.0002904651 0.0002875231
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Tỷ lệ chênh giữa khách hàng có việc làm so với khách hàng đã từng/chưa có việc vay tín dụng là 1.23 lần.
Bảng tần số
NAME_TYPE_SUITE1 <- data %>% mutate(NAME_TYPE_SUITE = case_when(NAME_TYPE_SUITE == "Children" ~ 3, NAME_TYPE_SUITE == "Family" ~ 3, NAME_TYPE_SUITE == "Group of people" ~ 3, NAME_TYPE_SUITE == "Spouse, partner" ~ 3, NAME_TYPE_SUITE == "Unaccompanied" ~ 4))
NAME_TYPE_SUITE3 <-cut(NAME_TYPE_SUITE1$NAME_TYPE_SUITE, breaks=c(0,3,4), labels=c('Yes', 'No'))
table(NAME_TYPE_SUITE3)## NAME_TYPE_SUITE3
## Yes No
## 1905 8095
##
## NAME_TYPE_SUITE3 Cash Credit
## Yes 1228 677
## No 5271 2824
Có 1228 khách hàng có người thụ hưởng vay tiền mặt và 677 vay tín dụng.
Có 5271 khách hàng không có người thụ hưởng vay tiền mặt và 2824 vay tín dụng. Bảng tần suất
##
## NAME_TYPE_SUITE3 Cash Credit
## Yes 0.1228 0.0677
## No 0.5271 0.2824
Phân phối biến
##
## NAME_TYPE_SUITE3 Cash Credit Sum
## Yes 1228 677 1905
## No 5271 2824 8095
## Sum 6499 3501 10000
Biểu đồ cột kết hợp 2 biến
k <- data.frame(data$NAME_CONTRACT_TYPE, data$FLAG_OWN_CAR, data$CODE_GENDER, data$FLAG_OWN_REALTY, data$CNT_CHILDREN, data$AMT_INCOME_TOTAL, data$AMT_CREDIT, data$AMT_ANNUITY, data$NAME_TYPE_SUITE, data$NAME_INCOME_TYPE, data$NAME_EDUCATION_TYPE, data$NAME_FAMILY_STATUS, data$NAME_HOUSING_TYPE, NAME_TYPE_SUITE3)
k |> ggplot(aes(x=NAME_TYPE_SUITE3,y=after_stat(count))) + geom_bar(fill="lavender") + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat = "count", color = "navy", vjust = - .5) + facet_grid(. ~data$NAME_CONTRACT_TYPE) + labs(x = "NAME_TYPE_SUITE",y = "client")Rủi ro tương đối (Risk ratio)
## $data
##
## NAME_TYPE_SUITE3 Cash Credit Total
## Yes 1228 677 1905
## No 5271 2824 8095
## Total 6499 3501 10000
##
## $measure
## risk ratio with 95% C.I.
## NAME_TYPE_SUITE3 estimate lower upper
## Yes 1.0000000 NA NA
## No 0.9816443 0.9176571 1.050093
##
## $p.value
## two-sided
## NAME_TYPE_SUITE3 midp.exact fisher.exact chi.square
## Yes NA NA NA
## No 0.5905744 0.5935129 0.5912447
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Tỷ lệ người vay tín dụng không có người thụ hưởng gấp 0.98 lần so với tỷ lệ người vay tín dụng có người thụ hưởng.
## $data
##
## NAME_TYPE_SUITE3 Credit Cash Total
## Yes 677 1228 1905
## No 2824 5271 8095
## Total 3501 6499 10000
##
## $measure
## risk ratio with 95% C.I.
## NAME_TYPE_SUITE3 estimate lower upper
## Yes 1.00000 NA NA
## No 1.01012 0.9734682 1.048151
##
## $p.value
## two-sided
## NAME_TYPE_SUITE3 midp.exact fisher.exact chi.square
## Yes NA NA NA
## No 0.5905744 0.5935129 0.5912447
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Tỷ lệ người vay tiền mặt không có người thụ hưởng gấp 1.01 lần so với tỷ lệ người vay tiền mặt có người thụ hưởng.
Tỷ lệ chênh lệch (odd ratio)
## $data
##
## NAME_TYPE_SUITE3 Cash Credit Total
## Yes 1228 677 1905
## No 5271 2824 8095
## Total 6499 3501 10000
##
## $measure
## odds ratio with 95% C.I.
## NAME_TYPE_SUITE3 estimate lower upper
## Yes 1.0000000 NA NA
## No 0.9717355 0.875706 1.079004
##
## $p.value
## two-sided
## NAME_TYPE_SUITE3 midp.exact fisher.exact chi.square
## Yes NA NA NA
## No 0.5905744 0.5935129 0.5912447
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Tỷ lệ chênh lệch giữa khách hàng không có người thụ hưởng so với khách hàng có người thụ hưởng vay tín dụng là 0.97 lần.
## $data
##
## NAME_TYPE_SUITE3 Cash Credit Total
## No 5271 2824 8095
## Yes 1228 677 1905
## Total 6499 3501 10000
##
## $measure
## odds ratio with 95% C.I.
## NAME_TYPE_SUITE3 estimate lower upper
## No 1.000000 NA NA
## Yes 1.029111 0.9267808 1.141936
##
## $p.value
## two-sided
## NAME_TYPE_SUITE3 midp.exact fisher.exact chi.square
## No NA NA NA
## Yes 0.5905744 0.5935129 0.5912447
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Tỷ lệ chênh lệch giữa khách hàng có người thụ hưởng so với khách hàng không có người thụ hưởng vay tín dụng là 1.03 lần.
Bảng tần số
NAME_HOUSING_TYPE1 <- data %>% mutate(NAME_HOUSING_TYPE = case_when(NAME_HOUSING_TYPE == "House / apartment" ~ 3, NAME_HOUSING_TYPE == "Co-op apartment" ~ 4, NAME_HOUSING_TYPE == "Municipal apartment" ~ 4, NAME_HOUSING_TYPE == "Office apartment" ~ 4, NAME_HOUSING_TYPE == "Rented apartment" ~ 4, NAME_HOUSING_TYPE == "With parents" ~ 4))
NAME_HOUSING_TYPE3 <-cut(NAME_HOUSING_TYPE1$NAME_HOUSING_TYPE, breaks=c(0,3,4), labels=c('Yes', 'No'))
table(NAME_HOUSING_TYPE3)## NAME_HOUSING_TYPE3
## Yes No
## 8851 1149
##
## NAME_HOUSING_TYPE3 Cash Credit
## Yes 5744 3107
## No 755 394
Có 5744 khách hàng có căn hộ riêng vay tiền mặt và 3107 vay tín dụng.
Có 755 khách hàng không có căn hộ riêng vay tiền mặt và 394 vay tín dụng.
Bảng tần suất
##
## NAME_HOUSING_TYPE3 Cash Credit
## Yes 0.5744 0.3107
## No 0.0755 0.0394
Phân phối biến
##
## NAME_HOUSING_TYPE3 Cash Credit Sum
## Yes 5744 3107 8851
## No 755 394 1149
## Sum 6499 3501 10000
Biểu đồ cột kết hợp 2 biến
k <- data.frame(data$NAME_CONTRACT_TYPE, data$FLAG_OWN_CAR, data$CODE_GENDER, data$FLAG_OWN_REALTY, data$CNT_CHILDREN, data$AMT_INCOME_TOTAL, data$AMT_CREDIT, data$AMT_ANNUITY, data$NAME_TYPE_SUITE, data$NAME_INCOME_TYPE, data$NAME_EDUCATION_TYPE, data$NAME_FAMILY_STATUS, data$NAME_HOUSING_TYPE, NAME_HOUSING_TYPE3)
k |> ggplot(aes(x=NAME_HOUSING_TYPE3,y=after_stat(count))) + geom_bar(fill="lavender") + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat = "count", color = "navy", vjust = - .5) + facet_grid(. ~data$NAME_CONTRACT_TYPE) + labs(x = "NAME_HOUSING_TYPE",y = "client")Rủi ro tương đối (Risk ratio)
## $data
##
## NAME_HOUSING_TYPE3 Cash Credit Total
## Yes 5744 3107 8851
## No 755 394 1149
## Total 6499 3501 10000
##
## $measure
## risk ratio with 95% C.I.
## NAME_HOUSING_TYPE3 estimate lower upper
## Yes 1.0000000 NA NA
## No 0.9768486 0.8973322 1.063411
##
## $p.value
## two-sided
## NAME_HOUSING_TYPE3 midp.exact fisher.exact chi.square
## Yes NA NA NA
## No 0.5883502 0.599048 0.586904
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Tỷ lệ người vay tín dụng không có căn hộ riêng gấp 0.98 lần so với tỷ lệ người vay tín dụng có căn hộ riêng.
## $data
##
## NAME_HOUSING_TYPE3 Credit Cash Total
## Yes 3107 5744 8851
## No 394 755 1149
## Total 3501 6499 10000
##
## $measure
## risk ratio with 95% C.I.
## NAME_HOUSING_TYPE3 estimate lower upper
## Yes 1.000000 NA NA
## No 1.012523 0.9684618 1.058589
##
## $p.value
## two-sided
## NAME_HOUSING_TYPE3 midp.exact fisher.exact chi.square
## Yes NA NA NA
## No 0.5883502 0.599048 0.586904
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Tỷ lệ người vay tiền mặt không có căn hộ riêng gấp 1.01 lần so với tỷ lệ người vay tiền mặt có căn hộ riêng.
Tỷ lệ chênh lệch (odd ratio)
## $data
##
## NAME_HOUSING_TYPE3 Cash Credit Total
## Yes 5744 3107 8851
## No 755 394 1149
## Total 6499 3501 10000
##
## $measure
## odds ratio with 95% C.I.
## NAME_HOUSING_TYPE3 estimate lower upper
## Yes 1.0000000 NA NA
## No 0.9649328 0.8471736 1.097577
##
## $p.value
## two-sided
## NAME_HOUSING_TYPE3 midp.exact fisher.exact chi.square
## Yes NA NA NA
## No 0.5883502 0.599048 0.586904
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Tỷ lệ chênh lệch giữa khách hàng không có căn hộ riêng so với khách hàng có căn hộ riêng vay tín dụng là 0.96 lần.
## $data
##
## NAME_HOUSING_TYPE3 Cash Credit Total
## No 755 394 1149
## Yes 5744 3107 8851
## Total 6499 3501 10000
##
## $measure
## odds ratio with 95% C.I.
## NAME_HOUSING_TYPE3 estimate lower upper
## No 1.000000 NA NA
## Yes 1.036336 0.9110977 1.180396
##
## $p.value
## two-sided
## NAME_HOUSING_TYPE3 midp.exact fisher.exact chi.square
## No NA NA NA
## Yes 0.5883502 0.599048 0.586904
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Tỷ lệ chênh lệch giữa khách hàng có căn hộ riêng so với khách hàng không có căn hộ riêng vay tín dụng là 1.037 lần.
Bảng tần số
NAME_EDUCATION_TYPE1 <- data %>% mutate(NAME_EDUCATION_TYPE = case_when(NAME_EDUCATION_TYPE == "Academic degree" ~ 3, NAME_EDUCATION_TYPE == "Higher education" ~ 3, NAME_EDUCATION_TYPE == "Incomplete higher" ~ 4, NAME_EDUCATION_TYPE == "Lower secondary" ~ 4, NAME_EDUCATION_TYPE == "Secondary / secondary special" ~ 4))
NAME_EDUCATION_TYPE3 <-cut(NAME_EDUCATION_TYPE1$NAME_EDUCATION_TYPE, breaks=c(0,3,4), labels=c('Yes', 'No'))
table(NAME_EDUCATION_TYPE3)## NAME_EDUCATION_TYPE3
## Yes No
## 2423 7577
##
## NAME_EDUCATION_TYPE3 Cash Credit
## Yes 1514 909
## No 4985 2592
Có 1514 khách hàng có bằng Cử nhân trở lên vay tiền mặt và 909 vay tín dụng.
Có 4985 khách hàng dưới trình độ Cử nhân vay tiền mặt và 2592 vay tín dụng.
Bảng tần suất
##
## NAME_EDUCATION_TYPE3 Cash Credit
## Yes 0.1514 0.0909
## No 0.4985 0.2592
Phân phối biến
##
## NAME_EDUCATION_TYPE3 Cash Credit Sum
## Yes 1514 909 2423
## No 4985 2592 7577
## Sum 6499 3501 10000
Biểu đồ cột kết hợp 2 biến
k <- data.frame(data$NAME_CONTRACT_TYPE, data$FLAG_OWN_CAR, data$CODE_GENDER, data$FLAG_OWN_REALTY, data$CNT_CHILDREN, data$AMT_INCOME_TOTAL, data$AMT_CREDIT, data$AMT_ANNUITY, data$NAME_TYPE_SUITE, data$NAME_INCOME_TYPE, data$NAME_EDUCATION_TYPE, data$NAME_FAMILY_STATUS, data$NAME_HOUSING_TYPE, NAME_EDUCATION_TYPE3)
k |> ggplot(aes(x=NAME_EDUCATION_TYPE3,y=after_stat(count))) + geom_bar(fill="lavender") + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat = "count", color = "navy", vjust = - .5) + facet_grid(. ~data$NAME_CONTRACT_TYPE) + labs(x = "NAME_EDUCATION_TYPE",y = "client")Rủi ro tương đối (Risk ratio)
## $data
##
## NAME_EDUCATION_TYPE3 Cash Credit Total
## Yes 1514 909 2423
## No 4985 2592 7577
## Total 6499 3501 10000
##
## $measure
## risk ratio with 95% C.I.
## NAME_EDUCATION_TYPE3 estimate lower upper
## Yes 1.0000000 NA NA
## No 0.9118581 0.8586436 0.9683705
##
## $p.value
## two-sided
## NAME_EDUCATION_TYPE3 midp.exact fisher.exact chi.square
## Yes NA NA NA
## No 0.003074473 0.00307619 0.002975171
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Tỷ lệ người vay tín dụng dưới trình độ Cử nhân gấp 0.91 lần so với tỷ lệ người vay tín dụng trình độ Cử nhân trở lên.
## $data
##
## NAME_EDUCATION_TYPE3 Credit Cash Total
## Yes 909 1514 2423
## No 2592 4985 7577
## Total 3501 6499 10000
##
## $measure
## risk ratio with 95% C.I.
## NAME_EDUCATION_TYPE3 estimate lower upper
## Yes 1.00000 NA NA
## No 1.05292 1.016844 1.090276
##
## $p.value
## two-sided
## NAME_EDUCATION_TYPE3 midp.exact fisher.exact chi.square
## Yes NA NA NA
## No 0.003074473 0.00307619 0.002975171
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Tỷ lệ người vay tiền mặt dưới trình độ Cử nhân gấp 1.05 lần so với tỷ lệ người vay tín dụng trình độ Cử nhân trở lên.
Tỷ lệ chênh lệch (odd ratio)
## $data
##
## NAME_EDUCATION_TYPE3 Cash Credit Total
## Yes 1514 909 2423
## No 4985 2592 7577
## Total 6499 3501 10000
##
## $measure
## odds ratio with 95% C.I.
## NAME_EDUCATION_TYPE3 estimate lower upper
## Yes 1.0000000 NA NA
## No 0.8659883 0.7876992 0.9524506
##
## $p.value
## two-sided
## NAME_EDUCATION_TYPE3 midp.exact fisher.exact chi.square
## Yes NA NA NA
## No 0.003074473 0.00307619 0.002975171
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Tỷ lệ chênh lệch giữa khách hàng dưới trình độ Cử nhân so với khách hàng từ trình độ Cử nhân trở lên vay tín dụng là 0.87 lần.
## $data
##
## NAME_EDUCATION_TYPE3 Cash Credit Total
## No 4985 2592 7577
## Yes 1514 909 2423
## Total 6499 3501 10000
##
## $measure
## odds ratio with 95% C.I.
## NAME_EDUCATION_TYPE3 estimate lower upper
## No 1.000000 NA NA
## Yes 1.154736 1.049923 1.26952
##
## $p.value
## two-sided
## NAME_EDUCATION_TYPE3 midp.exact fisher.exact chi.square
## No NA NA NA
## Yes 0.003074473 0.00307619 0.002975171
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Tỷ lệ chênh lệch giữa khách hàng từ trình độ Cử nhân trở lên so với khách hàng dưới Cử nhân vay tín dụng là 1.54 lần.
AMT_ANNUITY1 <- cut(data$AMT_ANNUITY, breaks = c(-Inf,30000,135936), labels = c('2596 - 30000', '>30000'))
table(AMT_ANNUITY1)## AMT_ANNUITY1
## 2596 - 30000 >30000
## 6450 3550
Bảng tần số
##
## AMT_ANNUITY1 Cash Credit
## 2596 - 30000 3985 2465
## >30000 2514 1036
Có 3985 khách hàng có khoản trả hàng tháng từ 2596 đến 30000 vay tiền mặt và 2465 vay tín dụng.
Có 2514 khách hàng có khoản trả hàng tháng >30000 vay tiền mặt và 1036 vay tín dụng. Bảng tần suất
##
## AMT_ANNUITY1 Cash Credit
## 2596 - 30000 0.3985 0.2465
## >30000 0.2514 0.1036
Phân phối biến
##
## AMT_ANNUITY1 Cash Credit Sum
## 2596 - 30000 3985 2465 6450
## >30000 2514 1036 3550
## Sum 6499 3501 10000
Biểu đồ cột kết hợp 2 biến
k <- data.frame(data$NAME_CONTRACT_TYPE, data$FLAG_OWN_CAR, data$CODE_GENDER, data$FLAG_OWN_REALTY, data$CNT_CHILDREN, data$AMT_INCOME_TOTAL, data$AMT_CREDIT, data$AMT_ANNUITY, data$NAME_TYPE_SUITE, data$NAME_INCOME_TYPE, data$NAME_EDUCATION_TYPE, data$NAME_FAMILY_STATUS, data$NAME_HOUSING_TYPE, AMT_ANNUITY1)
k |> ggplot(aes(x=AMT_ANNUITY1,y=after_stat(count))) + geom_bar(fill="lavender") + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat = "count", color = "navy", vjust = - .5) + facet_grid(. ~data$NAME_CONTRACT_TYPE) + labs(x = "AMT_ANNUITY",y = "client")Rủi ro tương đối (Risk ratio)
## $data
##
## AMT_ANNUITY1 Cash Credit Total
## 2596 - 30000 3985 2465 6450
## >30000 2514 1036 3550
## Total 6499 3501 10000
##
## $measure
## risk ratio with 95% C.I.
## AMT_ANNUITY1 estimate lower upper
## 2596 - 30000 1.0000000 NA NA
## >30000 0.7636145 0.7192129 0.8107574
##
## $p.value
## two-sided
## AMT_ANNUITY1 midp.exact fisher.exact chi.square
## 2596 - 30000 NA NA NA
## >30000 0 7.374791e-20 1.27381e-19
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Tỷ lệ người vay tín dụng có khoản trả hàng tháng từ 30000 trở xuống gấp 0.76 lần so với tỷ lệ người vay tín dụng có khoản trả hàng tháng dưới 30000.
## $data
##
## AMT_ANNUITY1 Credit Cash Total
## 2596 - 30000 2465 3985 6450
## >30000 1036 2514 3550
## Total 3501 6499 10000
##
## $measure
## risk ratio with 95% C.I.
## AMT_ANNUITY1 estimate lower upper
## 2596 - 30000 1.000000 NA NA
## >30000 1.146221 1.113974 1.179401
##
## $p.value
## two-sided
## AMT_ANNUITY1 midp.exact fisher.exact chi.square
## 2596 - 30000 NA NA NA
## >30000 0 7.374791e-20 1.27381e-19
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Tỷ lệ người vay tiền mặt có khoản trả hàng tháng từ 30000 trở xuống gấp 1.15 lần so với tỷ lệ người vay tiền mặt có khoản trả hàng tháng dưới 30000.
Tỷ lệ chênh lệch (odd ratio)
## $data
##
## AMT_ANNUITY1 Cash Credit Total
## 2596 - 30000 3985 2465 6450
## >30000 2514 1036 3550
## Total 6499 3501 10000
##
## $measure
## odds ratio with 95% C.I.
## AMT_ANNUITY1 estimate lower upper
## 2596 - 30000 1.0000000 NA NA
## >30000 0.6662815 0.6099605 0.7274763
##
## $p.value
## two-sided
## AMT_ANNUITY1 midp.exact fisher.exact chi.square
## 2596 - 30000 NA NA NA
## >30000 0 7.374791e-20 1.27381e-19
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Tỷ lệ chênh lệch giữa khách hàng có khoản trả hàng tháng trên 30000 so với khách hàng có khoản trả hàng tháng từ 30000 trở xuống vay tín dụng là 0.67 lần.
## $data
##
## AMT_ANNUITY1 Cash Credit Total
## >30000 2514 1036 3550
## 2596 - 30000 3985 2465 6450
## Total 6499 3501 10000
##
## $measure
## odds ratio with 95% C.I.
## AMT_ANNUITY1 estimate lower upper
## >30000 1.000000 NA NA
## 2596 - 30000 1.500905 1.374615 1.63945
##
## $p.value
## two-sided
## AMT_ANNUITY1 midp.exact fisher.exact chi.square
## >30000 NA NA NA
## 2596 - 30000 0 7.374791e-20 1.27381e-19
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Tỷ lệ chênh lệch giữa khách hàng có khoản trả hàng tháng từ 30000 trở xuống so với khách hàng có khoản trả hàng tháng trên 30000 vay tín dụng là 1.5 lần.
AMT_CREDIT1 <- cut(data$AMT_CREDIT, breaks = c(-Inf,400000,2961000), labels = c('45000 - 400000', '>400000'))
table(AMT_CREDIT1)## AMT_CREDIT1
## 45000 - 400000 >400000
## 3814 6186
Bảng tần số
##
## AMT_CREDIT1 Cash Credit
## 45000 - 400000 2207 1607
## >400000 4292 1894
Có 2207 khách hàng có hạn mức vay trong khoản 45000 - 400000 vay tiền mặt và 1607 vay tín dụng.
Có 4292 khách hàng có hạn mức vay trên 400000 vay tiền mặt và 1894 vay tín dụng.
Bảng tần suất
##
## AMT_CREDIT1 Cash Credit
## 45000 - 400000 0.2207 0.1607
## >400000 0.4292 0.1894
Phân phối biến
##
## AMT_CREDIT1 Cash Credit Sum
## 45000 - 400000 2207 1607 3814
## >400000 4292 1894 6186
## Sum 6499 3501 10000
Biểu đồ cột kết hợp 2 biến
k <- data.frame(data$NAME_CONTRACT_TYPE, data$FLAG_OWN_CAR, data$CODE_GENDER, data$FLAG_OWN_REALTY, data$CNT_CHILDREN, data$AMT_INCOME_TOTAL, data$AMT_CREDIT, data$AMT_ANNUITY, data$NAME_TYPE_SUITE, data$NAME_INCOME_TYPE, data$NAME_EDUCATION_TYPE, data$NAME_FAMILY_STATUS, data$NAME_HOUSING_TYPE, AMT_CREDIT1)
k |> ggplot(aes(x=AMT_CREDIT1,y=after_stat(count))) + geom_bar(fill="lavender") + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat = "count", color = "navy", vjust = - .5) + facet_grid(. ~data$NAME_CONTRACT_TYPE) + labs(x = "AMT_CREDIT",y = "client")Rủi ro tương đối (Risk ratio)
## $data
##
## AMT_CREDIT1 Cash Credit Total
## 45000 - 400000 2207 1607 3814
## >400000 4292 1894 6186
## Total 6499 3501 10000
##
## $measure
## risk ratio with 95% C.I.
## AMT_CREDIT1 estimate lower upper
## 45000 - 400000 1.0000000 NA NA
## >400000 0.7266661 0.6892761 0.7660842
##
## $p.value
## two-sided
## AMT_CREDIT1 midp.exact fisher.exact chi.square
## 45000 - 400000 NA NA NA
## >400000 0 1.739582e-31 9.216053e-32
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Tỷ lệ khách hàng có hạn mức vay trên 400000 vay tín dụng gấp 0.73 lần so với khách hàng có hạn mức vay từ 400000 trở xuống vay tín dụng.
## $data
##
## AMT_CREDIT1 Credit Cash Total
## 45000 - 400000 1607 2207 3814
## >400000 1894 4292 6186
## Total 3501 6499 10000
##
## $measure
## risk ratio with 95% C.I.
## AMT_CREDIT1 estimate lower upper
## 45000 - 400000 1.000000 NA NA
## >400000 1.199025 1.161566 1.237692
##
## $p.value
## two-sided
## AMT_CREDIT1 midp.exact fisher.exact chi.square
## 45000 - 400000 NA NA NA
## >400000 0 1.739582e-31 9.216053e-32
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Tỷ lệ khách hàng có hạn mức vay trên 400000 vay tiền mặt gấp 1.2 lần so với khách hàng có hạn mức vay từ 400000 trở xuống vay tiền mặt.
Tỷ lệ chênh lệch (odd ratio)
## $data
##
## AMT_CREDIT1 Cash Credit Total
## 45000 - 400000 2207 1607 3814
## >400000 4292 1894 6186
## Total 6499 3501 10000
##
## $measure
## odds ratio with 95% C.I.
## AMT_CREDIT1 estimate lower upper
## 45000 - 400000 1.0000000 NA NA
## >400000 0.6060874 0.5572516 0.6591944
##
## $p.value
## two-sided
## AMT_CREDIT1 midp.exact fisher.exact chi.square
## 45000 - 400000 NA NA NA
## >400000 0 1.739582e-31 9.216053e-32
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Tỷ lệ chênh lệch giữa khách hàng có hạn mức vay trên 400000 so với khách hàng có hạn mức vay từ 400000 trở xuống vay tín dụng là 0.6 lần.
## $data
##
## AMT_CREDIT1 Cash Credit Total
## >400000 4292 1894 6186
## 45000 - 400000 2207 1607 3814
## Total 6499 3501 10000
##
## $measure
## odds ratio with 95% C.I.
## AMT_CREDIT1 estimate lower upper
## >400000 1.000000 NA NA
## 45000 - 400000 1.649961 1.517003 1.794522
##
## $p.value
## two-sided
## AMT_CREDIT1 midp.exact fisher.exact chi.square
## >400000 NA NA NA
## 45000 - 400000 0 1.739582e-31 9.216053e-32
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Tỷ lệ chênh lệch giữa khách hàng có hạn mức vay từ 400000 trở xuống so với khách hàng có hạn mức vay trên 400000 vay tín dụng là 1.65 lần.
AMT_INCOME_TOTAL1 <- cut(data$AMT_INCOME_TOTAL, breaks = c(-Inf,100000,1935000), labels = c('25650 - 100000', '>100000'))
table(AMT_INCOME_TOTAL1)## AMT_INCOME_TOTAL1
## 25650 - 100000 >100000
## 2139 7861
Bảng tần số
##
## AMT_INCOME_TOTAL1 Cash Credit
## 25650 - 100000 1381 758
## >100000 5118 2743
Có 1381 khách hàng có tổng thu nhập trong khoản 25650 - 100000 vay tiền mặt và 758 vay tín dụng.
Có 5118 khách hàng có tổng thu nhập cao hơn 100000 vay tiền mặt và 2743 vay tín dụng.
Bảng tần suất
##
## AMT_INCOME_TOTAL1 Cash Credit
## 25650 - 100000 0.1381 0.0758
## >100000 0.5118 0.2743
Phân phối biến
##
## AMT_INCOME_TOTAL1 Cash Credit Sum
## 25650 - 100000 1381 758 2139
## >100000 5118 2743 7861
## Sum 6499 3501 10000
Biểu đồ cột kết hợp 2 biến
k <- data.frame(data$NAME_CONTRACT_TYPE, data$FLAG_OWN_CAR, data$CODE_GENDER, data$FLAG_OWN_REALTY, data$CNT_CHILDREN, data$AMT_INCOME_TOTAL, data$AMT_CREDIT, data$AMT_ANNUITY, data$NAME_TYPE_SUITE, data$NAME_INCOME_TYPE, data$NAME_EDUCATION_TYPE, data$NAME_FAMILY_STATUS, data$NAME_HOUSING_TYPE, AMT_INCOME_TOTAL1)
k |> ggplot(aes(x=AMT_INCOME_TOTAL1,y=after_stat(count))) + geom_bar(fill="lavender") + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat = "count", color = "navy", vjust = - .5) + facet_grid(. ~data$NAME_CONTRACT_TYPE) + labs(x = "AMT_INCOME_TOTAL",y = "client")Rủi ro tương đối (Risk ratio)
## $data
##
## AMT_INCOME_TOTAL1 Cash Credit Total
## 25650 - 100000 1381 758 2139
## >100000 5118 2743 7861
## Total 6499 3501 10000
##
## $measure
## risk ratio with 95% C.I.
## AMT_INCOME_TOTAL1 estimate lower upper
## 25650 - 100000 1.0000000 NA NA
## >100000 0.9846675 0.9229933 1.050463
##
## $p.value
## two-sided
## AMT_INCOME_TOTAL1 midp.exact fisher.exact chi.square
## 25650 - 100000 NA NA NA
## >100000 0.6397377 0.6454641 0.6404381
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Tỷ lệ khách hàng vay tín dụng thu nhập trên 100000 gấp 0.98 lần so với tỷ lệ khách hàng vay tín dụng thu nhập trong khoản 25650 - 100000.
## $data
##
## AMT_INCOME_TOTAL1 Credit Cash Total
## 25650 - 100000 758 1381 2139
## >100000 2743 5118 7861
## Total 3501 6499 10000
##
## $measure
## risk ratio with 95% C.I.
## AMT_INCOME_TOTAL1 estimate lower upper
## 25650 - 100000 1.000000 NA NA
## >100000 1.008416 0.9734182 1.044671
##
## $p.value
## two-sided
## AMT_INCOME_TOTAL1 midp.exact fisher.exact chi.square
## 25650 - 100000 NA NA NA
## >100000 0.6397377 0.6454641 0.6404381
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Tỷ lệ khách hàng vay tiền mạt thu nhập trên 100000 gấp 1.008 lần so với tỷ lệ khách hàng vay tiền mặt thu nhập trong khoản 25650 - 100000.
Tỷ lệ chênh lệch (odd ratio)
## $data
##
## AMT_INCOME_TOTAL1 Cash Credit Total
## 25650 - 100000 1381 758 2139
## >100000 5118 2743 7861
## Total 6499 3501 10000
##
## $measure
## odds ratio with 95% C.I.
## AMT_INCOME_TOTAL1 estimate lower upper
## 25650 - 100000 1.0000000 NA NA
## >100000 0.9763824 0.8836834 1.079415
##
## $p.value
## two-sided
## AMT_INCOME_TOTAL1 midp.exact fisher.exact chi.square
## 25650 - 100000 NA NA NA
## >100000 0.6397377 0.6454641 0.6404381
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Tỷ lệ chênh lệch khách hàng có tổng thu nhập trên 100000 so với khách hàng có thu nhập trong khoản 25650 - 100000 vay tín dụng là 0.98 lần.
## $data
##
## AMT_INCOME_TOTAL1 Cash Credit Total
## >100000 5118 2743 7861
## 25650 - 100000 1381 758 2139
## Total 6499 3501 10000
##
## $measure
## odds ratio with 95% C.I.
## AMT_INCOME_TOTAL1 estimate lower upper
## >100000 1.000000 NA NA
## 25650 - 100000 1.024208 0.9264277 1.131627
##
## $p.value
## two-sided
## AMT_INCOME_TOTAL1 midp.exact fisher.exact chi.square
## >100000 NA NA NA
## 25650 - 100000 0.6397377 0.6454641 0.6404381
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Tỷ lệ chênh lệch khách hàng có tổng thu nhập trong khoản 25650 - 100000 so với khách hàng có thu nhập trên 100000 vay tín dụng là 1.02 lần.
CNT_CHILDREN1 <- cut(data$CNT_CHILDREN, breaks = c(-Inf,0,7), labels = c('no', 'yes'))
table(CNT_CHILDREN1)## CNT_CHILDREN1
## no yes
## 7006 2994
Bảng tần số
##
## CNT_CHILDREN1 Cash Credit
## no 4596 2410
## yes 1903 1091
Có 4596 khách hàng không có con vay tiền mặt và 2410 vay tín dụng.
Có 1903 khách hàng có con vay tiền mặt và 1091 vay tín dụng.
Bảng tần suất
##
## CNT_CHILDREN1 Cash Credit
## no 0.4596 0.2410
## yes 0.1903 0.1091
Phân phối biến
##
## CNT_CHILDREN1 Cash Credit Sum
## no 4596 2410 7006
## yes 1903 1091 2994
## Sum 6499 3501 10000
Biểu đồ cột kết hợp 2 biến
k <- data.frame(data$NAME_CONTRACT_TYPE, data$FLAG_OWN_CAR, data$CODE_GENDER, data$FLAG_OWN_REALTY, data$CNT_CHILDREN, data$AMT_INCOME_TOTAL, data$AMT_CREDIT, data$AMT_ANNUITY, data$NAME_TYPE_SUITE, data$NAME_INCOME_TYPE, data$NAME_EDUCATION_TYPE, data$NAME_FAMILY_STATUS, data$NAME_HOUSING_TYPE, CNT_CHILDREN1)
k |> ggplot(aes(x=CNT_CHILDREN1,y=after_stat(count))) + geom_bar(fill="lavender") + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat = "count", color = "navy", vjust = - .5) + facet_grid(. ~data$NAME_CONTRACT_TYPE) + labs(x = "CNT_CHILDREN",y = "client")Rủi ro tương đối (Risk ratio)
## $data
##
## CNT_CHILDREN1 Cash Credit Total
## no 4596 2410 7006
## yes 1903 1091 2994
## Total 6499 3501 10000
##
## $measure
## risk ratio with 95% C.I.
## CNT_CHILDREN1 estimate lower upper
## no 1.000000 NA NA
## yes 1.059317 1.000322 1.121792
##
## $p.value
## two-sided
## CNT_CHILDREN1 midp.exact fisher.exact chi.square
## no NA NA NA
## yes 0.05044661 0.05172564 0.05009423
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Tỷ lệ khách hàng có con vay tín dụng gấp 0.05 lần tỷ lệ khách hàng không con vay tín dụng.
## $data
##
## CNT_CHILDREN1 Credit Cash Total
## no 2410 4596 7006
## yes 1091 1903 2994
## Total 3501 6499 10000
##
## $measure
## risk ratio with 95% C.I.
## CNT_CHILDREN1 estimate lower upper
## no 1.0000000 NA NA
## yes 0.9688959 0.9383953 1.000388
##
## $p.value
## two-sided
## CNT_CHILDREN1 midp.exact fisher.exact chi.square
## no NA NA NA
## yes 0.05044661 0.05172564 0.05009423
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Tỷ lệ khách hàng có con vay tiền mặt gấp 0.97 lần tỷ lệ khách hàng không con vay tiền mặt.
Tỷ lệ chênh lệch (odd ratio)
## $data
##
## CNT_CHILDREN1 Cash Credit Total
## no 4596 2410 7006
## yes 1903 1091 2994
## Total 6499 3501 10000
##
## $measure
## odds ratio with 95% C.I.
## CNT_CHILDREN1 estimate lower upper
## no 1.00000 NA NA
## yes 1.09336 0.9998332 1.195341
##
## $p.value
## two-sided
## CNT_CHILDREN1 midp.exact fisher.exact chi.square
## no NA NA NA
## yes 0.05044661 0.05172564 0.05009423
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Tỷ lệ chênh lệch giữa khách hàng có con và khách hàng không con vay tín dụng là 1.09 lần.
## $data
##
## CNT_CHILDREN1 Cash Credit Total
## yes 1903 1091 2994
## no 4596 2410 7006
## Total 6499 3501 10000
##
## $measure
## odds ratio with 95% C.I.
## CNT_CHILDREN1 estimate lower upper
## yes 1.0000000 NA NA
## no 0.9146208 0.8365813 1.000167
##
## $p.value
## two-sided
## CNT_CHILDREN1 midp.exact fisher.exact chi.square
## yes NA NA NA
## no 0.05044661 0.05172564 0.05009423
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Tỷ lệ chênh lệch giữa khách hàng không con và khách hàng có con vay tín dụng là 0.91 lần.
NAME_CONTRACT_TYPE1 <- ifelse(data$NAME_CONTRACT_TYPE == "Credit", 1, 0)
data <- mutate(data, NAME_CONTRACT_TYPE1)
table(data$NAME_CONTRACT_TYPE1)##
## 0 1
## 6499 3501
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: table(NAME_CONTRACT_TYPE1, data$CODE_GENDER)
## X-squared = 5.5572, df = 1, p-value = 0.0184
Giả thuyết:
\(H_0:\) NAME_CONTRACT_TYPE và CODE_GENDER độc lập
\(H_1:\) NAME_CONTRACT_TYPE và CODE_GENDER không độc lập
Tại mức ý nghĩa \(\alpha=0.05\)
Ta có p_value = 0.0184 < \(\alpha,\) bác bỏ giả thuyết \(H_0\)
Với mức ý nghĩa 5%, NAME_CONTRACT_TYPE và CODE_GENDER không độc lập nhau.
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: table(NAME_CONTRACT_TYPE1, data$FLAG_OWN_CAR)
## X-squared = 0.94497, df = 1, p-value = 0.331
Giả thuyết:
\(H_0:\) NAME_CONTRACT_TYPE và FLAG_OWN_CAR độc lập
\(H_1:\) NAME_CONTRACT_TYPE và FLAG_OWN_CAR không độc lập
Tại mức ý nghĩa \(\alpha=0.05\)
Ta có p_value = 0.331 > \(\alpha,\) chấp nhận giả thuyết \(H_0\)
Với mức ý nghĩa 5%, NAME_CONTRACT_TYPE và FLAG_OWN_CAR độc lập nhau.
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: table(NAME_CONTRACT_TYPE1, data$FLAG_OWN_REALTY)
## X-squared = 1.1555, df = 1, p-value = 0.2824
Giả thuyết:
\(H_0:\) NAME_CONTRACT_TYPE và FLAG_OWN_REALTY độc lập
\(H_1:\) NAME_CONTRACT_TYPE và FLAG_OWN_REALTY không độc lập
Tại mức ý nghĩa \(\alpha=0.05\)
Ta có p_value = 0.2824 > \(\alpha,\) chấp nhận giả thuyết \(H_0\)
Với mức ý nghĩa 5%, NAME_CONTRACT_TYPE và FLAG_OWN_REALTY độc lập nhau.
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: table(NAME_CONTRACT_TYPE1, NAME_INCOME_TYPE2)
## X-squared = 12.952, df = 1, p-value = 0.0003196
Giả thuyết:
\(H_0:\) NAME_CONTRACT_TYPE và NAME_INCOME_TYPE2 độc lập
\(H_1:\) NAME_CONTRACT_TYPE và NAME_INCOME_TYPE2 không độc lập
Tại mức ý nghĩa \(\alpha=0.05\)
Ta có p_value = 0.0003485 < \(\alpha,\) bác bỏ giả thuyết \(H_0\)
Với mức ý nghĩa 5%, NAME_CONTRACT_TYPE và NAME_INCOME_TYPE2 không độc lập nhau.
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: table(NAME_CONTRACT_TYPE1, NAME_TYPE_SUITE3)
## X-squared = 0.26045, df = 1, p-value = 0.6098
Giả thuyết:
\(H_0:\) NAME_CONTRACT_TYPE và NAME_TYPE_SUITE3 độc lập
\(H_1:\) NAME_CONTRACT_TYPE và NAME_TYPE_SUITE3 không độc lập
Tại mức ý nghĩa \(\alpha=0.05\)
Ta có p_value = 0.6098 > \(\alpha,\) chấp nhận giả thuyết \(H_0\)
Với mức ý nghĩa 5%, NAME_CONTRACT_TYPE và NAME_TYPE_SUITE3 độc lập nhau.
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: table(NAME_CONTRACT_TYPE1, NAME_HOUSING_TYPE3)
## X-squared = 0.26057, df = 1, p-value = 0.6097
Giả thuyết:
\(H_0:\) NAME_CONTRACT_TYPE và NAME_HOUSING_TYPE3 độc lập
\(H_1:\) NAME_CONTRACT_TYPE và NAME_HOUSING_TYPE3 không độc lập
Tại mức ý nghĩa \(\alpha=0.05\)
Ta có p_value = 0.6097 > \(\alpha,\) chấp nhận giả thuyết \(H_0\)
Với mức ý nghĩa 5%, NAME_CONTRACT_TYPE và NAME_HOUSING_TYPE3 độc lập nhau.
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: table(NAME_CONTRACT_TYPE1, NAME_EDUCATION_TYPE3)
## X-squared = 8.6779, df = 1, p-value = 0.003221
Giả thuyết:
\(H_0:\) NAME_CONTRACT_TYPE và NAME_EDUCATION_TYPE3 độc lập
\(H_1:\) NAME_CONTRACT_TYPE và NAME_EDUCATION_TYPE3 không độc lập
Tại mức ý nghĩa \(\alpha=0.05\)
Ta có p_value = 0.003221 < \(\alpha,\) bác bỏ giả thuyết \(H_0\)
Với mức ý nghĩa 5%, NAME_CONTRACT_TYPE và NAME_EDUCATION_TYPE3 không độc lập nhau.
Ước lượng tỷ lệ khách hàng nữ vay tín dụng đồng thời kiểm định tỷ lệ vay tín dụng của khách hàng nữ có phải là 35% hay không?
Giả thuyết:
n <- data[data$CODE_GENDER == 'F',]
prop.test(length(n$CODE_GENDER),length(data$CODE_GENDER),p= 0.35)##
## 1-sample proportions test with continuity correction
##
## data: length(n$CODE_GENDER) out of length(data$CODE_GENDER), null probability 0.35
## X-squared = 4192.9, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.35
## 95 percent confidence interval:
## 0.6494985 0.6681788
## sample estimates:
## p
## 0.6589
Tại mức ý nghĩa \(\alpha=0.05\)
Ta có p_value = 2.2e-16 < \(\alpha,\) bác bỏ giả thuyết \(H_0\)
Với mức ý nghĩa 5%, tỷ lệ khách hàng nữ vay tín dụng không bằng 35%.
Khoảng ước lượng tỷ lệ khách hàng nữ vay tín dụng tại mức ý nghĩa 5% là (0,6494985; 0,6681788)
Ước lượng tỷ lệ khách hàng nam vay tín dụng đồng thời kiểm định tỷ lệ vay tín dụng của khách hàng nam có phải là 35% hay không?
Giả thuyết:
m <- data[data$CODE_GENDER == 'M',]
prop.test(length(m$CODE_GENDER),length(data$CODE_GENDER),p= 0.35)##
## 1-sample proportions test with continuity correction
##
## data: length(m$CODE_GENDER) out of length(data$CODE_GENDER), null probability 0.35
## X-squared = 3.4427, df = 1, p-value = 0.06353
## alternative hypothesis: true p is not equal to 0.35
## 95 percent confidence interval:
## 0.3318212 0.3505015
## sample estimates:
## p
## 0.3411
Tại mức ý nghĩa \(\alpha=0.05\)
Ta có p_value = 0.06353 > \(\alpha,\) chấp nhận giả thuyết \(H_0\)
Với mức ý nghĩa 5%, tỷ lệ khách hàng nam vay tín dụng bằng 35%.
Khoảng ước lượng tỷ lệ khách hàng nam vay tín dụng tại mức ý nghĩa 5% là (0,3318212; 0,3505015)
mh1 <- glm(NAME_CONTRACT_TYPE1 ~ CODE_GENDER + NAME_INCOME_TYPE2 + NAME_EDUCATION_TYPE3 + AMT_ANNUITY1 + AMT_CREDIT1, family = binomial(link = 'logit'), data = data)
summary(mh1)##
## Call:
## glm(formula = NAME_CONTRACT_TYPE1 ~ CODE_GENDER + NAME_INCOME_TYPE2 +
## NAME_EDUCATION_TYPE3 + AMT_ANNUITY1 + AMT_CREDIT1, family = binomial(link = "logit"),
## data = data)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -0.14072 0.05415 -2.599 0.009362 **
## CODE_GENDERM 0.09958 0.04499 2.213 0.026880 *
## NAME_INCOME_TYPE2No -0.22405 0.05764 -3.887 0.000102 ***
## NAME_EDUCATION_TYPE3No -0.19943 0.04956 -4.024 5.73e-05 ***
## AMT_ANNUITY1>30000 -0.22098 0.05417 -4.079 4.52e-05 ***
## AMT_CREDIT1>400000 -0.41190 0.05123 -8.041 8.94e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 12950 on 9999 degrees of freedom
## Residual deviance: 12761 on 9994 degrees of freedom
## AIC: 12773
##
## Number of Fisher Scoring iterations: 4
Mô hình:
\(Logit(\pi)=log(\frac{\pi}{1-\pi})= - 0.14072 + 0.09958CODEGENDER - 0.22405NAMEINCOMETYPE2 - 0.19943NAMEEDUCATIONTYPE3 - 0.22098AMTANNUITY - 0.41190AMTCREDIT\)
mh2 <- glm(NAME_CONTRACT_TYPE1 ~ CODE_GENDER + NAME_INCOME_TYPE2 + NAME_EDUCATION_TYPE3 + AMT_ANNUITY1 + AMT_CREDIT1, family = binomial(link = 'probit'), data = data)
summary(mh2)##
## Call:
## glm(formula = NAME_CONTRACT_TYPE1 ~ CODE_GENDER + NAME_INCOME_TYPE2 +
## NAME_EDUCATION_TYPE3 + AMT_ANNUITY1 + AMT_CREDIT1, family = binomial(link = "probit"),
## data = data)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -0.09077 0.03347 -2.712 0.006687 **
## CODE_GENDERM 0.06157 0.02759 2.231 0.025665 *
## NAME_INCOME_TYPE2No -0.13550 0.03499 -3.873 0.000107 ***
## NAME_EDUCATION_TYPE3No -0.12212 0.03045 -4.011 6.05e-05 ***
## AMT_ANNUITY1>30000 -0.13333 0.03285 -4.058 4.95e-05 ***
## AMT_CREDIT1>400000 -0.25424 0.03151 -8.069 7.07e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 12950 on 9999 degrees of freedom
## Residual deviance: 12761 on 9994 degrees of freedom
## AIC: 12773
##
## Number of Fisher Scoring iterations: 4
Mô hình:
\(Probit(\pi)=\Phi-1(\pi)= - 0.09077 + 0.06157 CODEGENDER - 0.13550 NAMEINCOMETYPE2 - 0.12212 NAMEEDUCATIONTYPE3 - 0.13333 AMTANNUITY - 0.25424 AMTCREDIT\)
mh3 <- glm(NAME_CONTRACT_TYPE1 ~ CODE_GENDER + NAME_INCOME_TYPE2 + NAME_EDUCATION_TYPE3 + AMT_ANNUITY1 + AMT_CREDIT1, family = binomial(link = 'cloglog'), data = data)
summary(mh3)##
## Call:
## glm(formula = NAME_CONTRACT_TYPE1 ~ CODE_GENDER + NAME_INCOME_TYPE2 +
## NAME_EDUCATION_TYPE3 + AMT_ANNUITY1 + AMT_CREDIT1, family = binomial(link = "cloglog"),
## data = data)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -0.46095 0.04220 -10.924 < 2e-16 ***
## CODE_GENDERM 0.07724 0.03606 2.142 0.0322 *
## NAME_INCOME_TYPE2No -0.18552 0.04744 -3.910 9.22e-05 ***
## NAME_EDUCATION_TYPE3No -0.16001 0.03945 -4.056 4.99e-05 ***
## AMT_ANNUITY1>30000 -0.18516 0.04498 -4.116 3.85e-05 ***
## AMT_CREDIT1>400000 -0.32773 0.04106 -7.982 1.44e-15 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 12950 on 9999 degrees of freedom
## Residual deviance: 12761 on 9994 degrees of freedom
## AIC: 12773
##
## Number of Fisher Scoring iterations: 5
Mô hình:
\(Cloglog(\pi)=log(-log({1-\pi}))= - 0.46095 + 0.07724 CODEGENDER - 0.18552 NAMEINCOMETYPE2 - 0.16001 NAMEEDUCATIONTYPE3 - 0.18516 AMTANNUITY - 0.32773 AMTCREDIT\)
## [1] 12773.11
## [1] 12773.34
## [1] 12772.79
Thông qua chỉ số AIC của 3 mô hình trên ta thấy mô hình cloglog có chỉ số AIC thấp nhất (12772.79). Vì thế đối với tiêu chí đánh giá AIC thì mô hình cloglog là phù hợp để xem xét sự tác động của các yếu tố đến biến phụ thuộc NAME_CONTRACT_TYPE hơn mô hình probit và logit.
## [1] 12761.11
## [1] 12761.34
## [1] 12760.79
Thông qua chỉ số deviance của 3 mô hình trên ta thấy mô hình cloglog có chỉ số deviance thấp nhất (12760.79). Vì thế đối với tiêu chí đánh giá devience thì mô hình cloglog là phù hợp để xem xét sự tác động của các yếu tố đến biến phụ thuộc NAME_CONTRACT_TYPE hơn mô hình logit và probit.
## Installing package into 'C:/Users/HP/AppData/Local/R/win-library/4.3'
## (as 'lib' is unspecified)
## package 'DescTools' successfully unpacked and MD5 sums checked
## Warning: cannot remove prior installation of package 'DescTools'
## Warning in file.copy(savedcopy, lib, recursive = TRUE): problem copying
## C:\Users\HP\AppData\Local\R\win-library\4.3\00LOCK\DescTools\libs\x64\DescTools.dll
## to
## C:\Users\HP\AppData\Local\R\win-library\4.3\DescTools\libs\x64\DescTools.dll:
## Permission denied
## Warning: restored 'DescTools'
##
## The downloaded binary packages are in
## C:\Users\HP\AppData\Local\Temp\Rtmp2zjHJe\downloaded_packages
## Warning: package 'DescTools' was built under R version 4.3.1
## [1] 0.2232074
## [1] 0.2232123
## [1] 0.2232004
Thông qua chỉ số BrierScore của 3 mô hình trên ta thấy mô hình cloglog có chỉ số BrierScore thấp nhất (0.2232004). Vì thế đối với tiêu chí đánh giá BrierScore thì mô hình cloglog là phù hợp để xem xét sự tác động của các yếu tố đến biến phụ thuộc NAME_CONTRACT_TYPE hơn mô hình logit và probit.
AIC <- c(12773.11, 12773.34, 12772.79)
Deviance <- c( 12761.11, 12761.34, 12760.79)
Brierscore <- c(0.2232074,0.2232123,0.2232004)
MH <- c('logit','probit','cloglog')
KetQua <- data.frame(MH, Deviance, Brierscore, AIC)
KetQua## MH Deviance Brierscore AIC
## 1 logit 12761.11 0.2232074 12773.11
## 2 probit 12761.34 0.2232123 12773.34
## 3 cloglog 12760.79 0.2232004 12772.79
Từ kết quả các chỉ số đánh giá mô hình ta có kết luận: chỉ số AIC = 12772.79; Deviance = 12760.79; chỉ số Brier = 0.2232004 của mô hình cloglog là nhỏ nhất trong ba mô hình. Điều này cho thấy trong ba mô hình hồi quy logistic trên, mô hình cloglog là tối ưu nhất.
Sau khi thực hiện hồi quy và lựa chọn mô hình phù hợp nhất trong 3 mô hình (logit, probit, cloglog), kết quả cho thấy cloglog là mô hình phù hợp và tối ưu nhất để phân tích “Các yếu tố tác động đến hành vi vay tín dụng của khách hàng.”
Kết quả mô hình hồi quy cloglog cho thấy các biến sau đều có ý nghĩa thống kê:
CODE_GENDER
NAME_INCOME_TYPE2
NAME_EDUCATION_TYPE3
AMT_ANNUITY1
AMT_CREDIT1
Giới tính có thể tạo ra một sự phân chia trong quá trình xác định khả năng trả nợ.
Loại thu nhập của khách hàng có thể phản ánh khả năng trả nợ và ổn định tài chính. Người có thu nhập ổn định như lương cố định có thể dễ dàng hơn trong việc trả nợ hơn so với những người có thu nhập không định kỳ, như người làm công việc tự do.
Trình độ học vấn có thể liên quan đến hiểu biết về tài chính và khả năng quản lý tiền bạc. Người có trình độ học vấn cao có thể có kiến thức tốt hơn về cách quản lý tài chính cá nhân và cân nhắc kỹ hơn khi vay tín dụng.
Số tiền trả hàng tháng so với thu nhập hàng tháng ảnh hưởng trực tiếp đến khả năng trả nợ của khách hàng. Nếu số tiền trả hàng tháng quá lớn so với thu nhập, khả năng vay tín dụng có thể bị hạn chế hoặc tạo ra áp lực tài chính lớn cho khách hàng.
Hạn mức vay liên quan đến mức độ rủi ro của khoản vay. Mức số tiền vay lớn hơn có thể đòi hỏi khách hàng có thu nhập và khả năng tài chính cao hơn để đảm bảo trả nợ đúng hạn.
Dựa trên các biến độc lập và tình hình vay tín dụng của khách hàng, dưới đây là một số khuyến nghị để cân nhắc trong quá trình đánh giá khả năng vay tín dụng:
Hãy xem xét toàn bộ tình hình tài chính của khách hàng, bao gồm thu nhập, trình độ học vấn, lịch sử tín dụng, tình hình công việc, và tình hình gia đình. Điều này sẽ giúp bạn có cái nhìn tổng quan về khả năng tài chính và trách nhiệm của khách hàng.
Thiết lập một ngưỡng hoặc tỷ lệ thu nhập so với số tiền trả hàng tháng để đảm bảo rằng khách hàng có khả năng trả nợ một cách dễ dàng và không tạo áp lực tài chính.
Đối với những khách hàng có trình độ học vấn thấp hoặc thiếu kiến thức về tài chính, hãy cân nhắc cung cấp chương trình đào tạo hoặc tư vấn tài chính để giúp họ hiểu rõ hơn về quản lý tiền bạc và trách nhiệm trong việc trả nợ.
Xem xét mức rủi ro liên quan đến số tiền vay so với lợi ích mà khách hàng có thể đạt được từ việc vay. Đảm bảo rằng khoản vay là hợp lý và có khả năng tạo ra giá trị thực sự cho khách hàng.
Sử dụng công nghệ và phân tích dữ liệu để xác định xu hướng từ lịch sử tín dụng và hành vi vay tín dụng của khách hàng. Điều này có thể giúp dự đoán khả năng trả nợ và đưa ra quyết định một cách chính xác hơn.
Mỗi nhu cầu và vị thế của khách hàng là khác nhau, hãy xem xét tùy chỉnh quyết định vay tín dụng dựa trên từng tình huống cụ thể. Đừng dựa quá nhiều vào một biến cụ thể mà hãy xem xét mối tương quan giữa nhiều yếu tố.
Tóm lại, quyết định vay tín dụng cần phải dựa trên sự cân nhắc kỹ lưỡng và sử dụng nhiều thông tin khác nhau để đảm bảo tính công bằng và đáng tin cậy trong quá trình xét duyệt.
[1]. Tài, V. V., Thường, N. Q., & Dân, N. T. H. (2017). Đánh giá khả năng trả nợ vay của khách hàng bằng các phương pháp phân loại. Tạp chí Khoa học Đại học cần Thơ, (49), 110-117.
[2]. Huỳnh, N. A. H., & Trần, T. N. (2021). Các yếu tố ảnh hưởng đến hành vi vay tín dụng tiêu dùng: nghiên cứu thực nghiệm tại thành phố Hồ Chí Minh.
[3]. Quốc hội (2010). Luật số 47/2010/QH12: Luật các tổ chức tín dụng. Hà Nội, Việt Nam.
[4]. Trần Kim Thanh, Trần Mạnh Tường, Vũ Anh Linh Duy: “Giáo trình Phân tích dữ liệu định tính”, trường Đại học Tài chính – Marketing, Thành phố Hồ Chí Minh.