Gói dữ liệu

library(tidyverse)

## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.2     ✔ readr     2.1.4
## ✔ forcats   1.0.0     ✔ stringr   1.5.0
## ✔ ggplot2   3.4.2     ✔ tibble    3.2.1
## ✔ lubridate 1.9.2     ✔ tidyr     1.3.0
## ✔ purrr     1.0.1     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors

library (readxl)
library (DescTools)
library (ggplot2)
library(caret)

## Loading required package: lattice
## 
## Attaching package: 'caret'
## 
## The following objects are masked from 'package:DescTools':
## 
##     MAE, RMSE
## 
## The following object is masked from 'package:purrr':
## 
##     lift

library(epitools)
library(DT)

1 Lời cảm ơn

Trong quá trình học tập và tiếp thu môn Phân tích dữ liệu định tính cũng như trong quá trình hoàn thiện bài tiểu luận Trầm cảm và các yếu tố liên quan đến quyết định cho vay của ngân hàng, tôi xin chân thành cảm ơn đến thầy Trần Mạnh Tường giảng viên bộ môn Phân tích dữ liệu định tính đã dạy dỗ, truyền đạt những kiến thức quý báu cho chúng tôi trong suốt thời gian học tập vừa qua, đồng thời thầy cũng đã gợi ý, hỗ trợ và hướng dẫn chúng tôi trong quá trình làm bài để có được một bài tiểu luận tốt nhất. Do vốn kiến thức còn nhiều hạn chế nên trong bài tiểu luận chắc chắn sẽ không tránh khỏi những thiếu sót. Rất mong nhận được sự nhận xét, ý kiến đóng góp, phê bình từ phía thầy để bài tiểu luận được hoàn thiện hơn.

2 Phần mở đầu

2.1 Lý do chọn đề tài

Hoạt động cho vay luôn đóng góp phần lớn trong tổng lợi nhuận của các ngân hàng. Giai đoạn trước, các ngân hàng tập trung vào việc cho vay đối tượng khách hàng doanh nghiệp để cung ứng vốn cho nền kinh tế. Hoạt động cho vay này tiềm ẩn rủi ro cao do đa số các khách hàng doanh nghiệp không có đầy đủ tài sản thế chấp, một số doanh nghiệp hoạt động không hiệu quả, đặc biệt là các doanh nghiệp thuộc khối nhà nước không thích nghi kịp thời với xu hướng của thị trường, dẫn đến hiệu quả hoạt động kém, nguy cơ phá sản, giải thể, nguy cơ mất vốn của các ngân hàng khi đầu tư cho vay.

Thời gian gần đây, các ngân hàng quan tâm hơn hoạt động cho vay khách hàng cá nhân. Việc cho vay đối tượng này thường giảm thiểu rủi ro cho các ngân hàng, do đa dạng hóa được danh mục cho vay, đa số các khách hàng đều có tài sản thế chấp đầy đủ. Hơn nữa, lợi nhuận thu về của đối tượng khách hàng cá nhân thường là cao hơn khách hàng doanh nghiệp, do lãi suất cho vay cao. Bên cạnh đó, các khách hàng cá nhân đa số sử dụng hầu hết các sản phẩm dịch vụ do ngân hàng cung cấp như: thẻ, tài khoản thanh toán, bảo hiểm,…

Qua khảo sát các nghiên cứu trước đây về các nhân tố ảnh hưởng đến quyết định phê duyệt khoản vay vốn của khách hàng cá nhân, tác giả nhận thấy, các nhân tố ảnh hưởng chủ yếu bao gồm: tình trạng hôn nhân, tình trạng học vấn, thu nhập cá nhân, lịch sử tín dụng,… Từ đó, quyết định tìm hiểu đề tài “các yếu tố ảnh hưởng đến quyết định phê duyệt khoản vay của ngân hàng cho khách hàng cá nhân”. Tôi hy vọng nghiên cứu này sẽ giúp đánh giá tiêu chí đủ điều kiện cho vay, xác định các mẫu trong quyết định phê duyệt khoản vay và phát triển các mô hình dự đoán để tự động hóa quy trình phê duyệt khoản vay.

2.2 Mục tiêu nghiên cứu

Mục tiêu chính của đề tài là các yếu tố ảnh hưởng đến quyết định phê duyệt khoản vay của ngân hàng cho khách hàng cá nhân. Từ đó đề xuất các xây dựng mô hình rủi ro tín dụng, đánh giá tiêu chí đủ điều kiện cho vay, xác định các mẫu trong quyết định phê duyệt khoản vay và phát triển các mô hình dự đoán để tự động hóa quy trình phê duyệt khoản vay.

2.3 Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu: những người đăng ký khoản vay, bao gồm thông tin nhân khẩu học của họ, tuổi, giới tính, tình trạng hôn nhân và chi tiết việc làm như nghề nghiệp, thu nhập và lịch sử việc làm.

Phạm vi nghiên cứu: 600 khách hàng.

Bộ dữ liệu thường được thu thập bởi các tổ chức tài chính, chẳng hạn như ngân hàng hoặc cơ quan cho vay, như một phần của quy trình đăng ký khoản vay của họ. Điều quan trọng cần lưu ý là các trường và dữ liệu cụ thể có trong bộ dữ liệu có thể khác nhau tùy thuộc vào tổ chức và bản chất của các khoản vay được cung cấp.

2.4 Ý nghĩa đề tài

Nghiên cứu được thực hiện với mục tiêu nhằm xác định các yếu tố ảnh hưởng đến quyết định vay vốn của khách hàng cá nhân tại Ngân hàng . Dựa trên các lý thuyết nền tảng và kế thừa kết quả các nghiên cứu trước đây, nghiên cứu thiết lập mô hình nghiên cứu và thang đo các yếu tố.

2.5 Kết cấu đề tài

Chương 1: Tổng quan lý thuyết
Chương 2: Phương pháp nghiên cứu
Chương 3: Kết quả nghiên cứu
Chương 4: Kết luận và khuyến nghị

3 Chương 1: TỔNG QUAN LÝ THUYẾT

3.1 Lý thuyết về vay vốn

3.1.1 Khách hàng cá nhân

Khách hàng cá nhân phải là những cá nhân có năng lực pháp luật dân sự, năng lực hành vi nhân sự, chịu trách nhiệm theo pháp luật. Thông thường, các nhu cầu vay vốn chủ yếu là mua nhà, mua xe, vay vốn kinh doanh,…

3.1.2 Cho vay khách hàng cá nhân

Cho vay khách hàng cá nhân là một hình thức hỗ trợ tài chính của ngân hàng, công ty tài chính tới các cá nhân. Cá nhân gửi yêu cầu vay vốn, nếu được phê duyệt đủ điều kiện vay, ngân hàng sẽ giải ngân một khoản tiền tới khách hàng. Khách hàng phải cam kết trả gốc và lãi trong thời gian đã cam kết khi vay.

3.1.3 Cho vay cá nhân gồm những hình thức nào?

Các hình thức cho vay khách hàng cá nhân tại các ngân hàng phục vụ những nhu cầu vay vốn khác nhau của các cá nhân, hộ gia đình:

Cho vay sản xuất kinh doanh: Khoản vốn này phục vụ nhu cầu mua sắm trang thiết bị vật chất, cơ sở hạ tầng cho việc kinh doanh
Cho vay tiêu dùng: Hình thức này giúp các cá nhân có tài chính để mua nhà, mua xe, mua máy tính, điện thoại,….
Cho vay thấu chi: Đây là hình thức cho phép khách hàng có thể chi tiêu vượt hạn mức cho phép tiền gửi thanh toán của mình
Cho vay từng lần: Đây là hình thức cho những khách hàng không có nhu cầu vay thường xuyên, cũng không đủ điều kiện để cấp hạn mức thấu chi
Cho vay hạn mức: Khách hàng và ngân hàng thỏa thuận mức tín dụng cho vay với nhau
Cho vay trả góp: Khách hàng có thể trả gốc làm nhiều lần trong thời hạn đã cam kết
Cho vay gián tiếp: Hình thức cho vay thông qua các tổ chức trung gian như Hội phụ nữ, hội cựu chiến binh,….

3.2 Các yếu tố ảnh hưởng tới quyết định vay

Nhiều nghiên cứu cho thấy có nhiều nhân tố ảnh hưởng đến quyết định phê duyệt tín dụng ngân hàng đối với khách hàng cá nhân như: Trình độ học vấn, Năng lực, Giới tính và Tình trạng hôn nhân,…

Bên cạnh đó, vấn đề lãi suất cho vay; mối quan hệ giữa ngân hàng và khách hàng; tài sản đảm bảo cho khoản vay cũng là các nhân tố được các ngân hàng quan tâm khi xét duyệt tín dụng. Thậm chí, nhân tố kinh nghiệm và tuổi của người vay cũng có tác động đến quyết định phê duyệt tín dụng của các ngân hàng.

Nhìn chung, việc cấp tín dụng từ ngân hàng dành cho khách hàng cá nhân hiện nay phụ thuộc vào chính sách cấp tín dụng và sự linh hoạt trong việc ra quyết định cấp tín dụng của ban lãnh đạo từng ngân hàng. Đã có rất nhiều nghiên cứu về đề tài này và kết quả cũng đã chỉ ra rằng có rất nhiều nhân tố tác động, các nhân tố được cho là có ý nghĩa tập trung nhiều nhất là: Trình độ học vấn, Tài sản đảm bảo, tình trạng hôn nhân, lịch sử tín dụng… có ảnh hưởng đến quyết định phê duyệt tín dụng của ngân hàng.

4 Chương 2: PHƯƠNG PHÁP NGHIÊN CỨU

4.1 Đối tượng nghiên cứu

Bộ dữ liệu Phê duyệt Số tiền Khoản vay chứa thông tin về các đơn xin vay và liệu chúng có được phê duyệt hay không. Nó cung cấp cái nhìn sâu sắc về các yếu tố ảnh hưởng đến việc phê duyệt hoặc từ chối các đơn xin vay. Bộ dữ liệu với 600 quan sát với 11 biến (trong đó có 8 biến định tính và 3 biến định lượng):

Gender: giới tính
Married: tính trạng hôn nhân
Dependents: số người phụ thuộc
Education: tình trạng học vấn
SelfEmployed: tự làm chủ
Applicantlncome: thu nhập người vay
LoanAmount: số tiền vay
LoanTerm: thời hạn cho vay
CreditHistory: lịch sử tín dụng
PropertyArea: khu vực sinh sống
LoanStatus: quyết định khoản vay

Dữ liệu lấy từ https://www.kaggle.com/datasets/ashishkumarjayswal/loanamount-approval?resource=download

4.2 Các chỉ số phân tích bảng ngẫu nhiên

4.2.1 Rủi ro tương đối (Relative Risk/Risk Ratio)

Với biến đáp ứng nhị phân Y, chúng ta sử dụng thuật ngữ chung “thành công” cho một đáp ứng và “thất bại” đối với đáp ứng còn lại. Đối với các đối tượng trong hàng i, ký hiệu \(\pi_i\) là xác suất “thành công” thì 1-\(\pi_i\) là xác suất của “thất bại”. Cặp xác suất (\(\pi_i\),1−\(\pi_i\)) là phân phối xác suất có điều kiện của Y trong hàng i. Từ bảng tần xuất, chúng ta tính \(\frac{\pi_1}{\pi_2}\), phân số này gọi là Rủi ro tương đối (Relative risk) giữa 2 biểu hiện khác nhau của biến phụ thuộc.

4.2.2 Tỷ lệ chênh (Odd Ratio)

Nếu gọi xác suất “thành công” của biểu hiện thứ i của biến độc lập là \(\pi_i\) thì chúng ta kí hiệu Tỷ lệ cược (odd) của biểu hiện này là \(odd_i\) và được định nghĩa như sau: \(odd_i\) = \(\frac{\pi_i}{1-\pi_i}\) Nghĩa là chúng ta tính tỷ lệ thành công theo từng hàng trong bảng ngẫu nhiên.

Tỷ lệ chênh của biểu hiện thứ i và biểu hiện thứ j được kí hiệu là θ và được định nghĩa: \(\theta\) = \(\frac{odd_i}{odd_j}\)

4.3 Mô hình nghiên cứu

4.3.1 Mô hình hồi quy với hàm logit

Mô hình logit (Logistic Regression) là một trong những phương pháp phân loại phổ biến trong thống kê. Dựa vào đặc trưng của các mẫu, mô hình logit được sử dụng để dự đoán xác suất xảy ra một sự kiện hoặc thuộc tính (biến phụ thuộc) nhị phân (có hai lớp, thường được ký hiệu là 0 và 1). Trong mô hình logit, chúng ta sử dụng hàm logistic để biểu diễn xác suất. Hàm logistic chuyển đổi giá trị liên tục thành giá trị xác suất nằm trong khoảng từ 0 đến 1.

Mô hình logit rất hữu ích trong các bài toán phân loại nhị phân, ví dụ như phân loại email là spam hay không spam, dự đoán khách hàng có mua sản phẩm hay không, xác định bệnh nhân mắc bệnh hay không mắc bệnh dựa trên các biến đo lường y tế,…

4.3.2 Mô hình hồi quy với hàm probit

Mô hình Probit cũng là một phương pháp phân loại trong thống kê tương tự như mô hình logit. Mô hình Probit dùng để dự đoán xác suất xảy ra một sự kiện hoặc thuộc tính nhị phân (có hai lớp, thường được ký hiệu là 0 và 1), dựa vào đặc trưng (biến độc lập) của các mẫu.

Trong mô hình Probit, chúng ta sử dụng hàm Phân phối chuẩn để biểu diễn xác suất. Hàm Phân phối chuẩn dùng để tính xác suất của biến ngẫu nhiên thuộc về một khoảng cụ thể trong phân phối chuẩn.

Mô hình Probit cũng được sử dụng rộng rãi trong các bài toán phân loại nhị phân, tương tự như mô hình logit. Cả hai mô hình này thường được sử dụng trong các lĩnh vực như kinh tế, y học, marketing, và nhiều lĩnh vực khác để dự đoán và phân loại các sự kiện hoặc thuộc tính nhị phân.

4.3.3 Mô hình hồi quy với hàm cloglog

Mô hình Complementary Log-Log (cloglog) là một phương pháp phân loại khác trong thống kê. Mô hình cloglog dùng để dự đoán xác suất xảy ra một sự kiện hoặc thuộc tính nhị phân (có hai lớp, thường được ký hiệu là 0 và 1), dựa vào đặc trưng (biến độc lập) của các mẫu.

Trong mô hình cloglog, chúng ta sử dụng hàm Cloglog để biểu diễn xác suất. Hàm Cloglog là một hàm chuẩn bậc cao (complementary log-log link function) thường được sử dụng trong mô hình phân loại nhị phân để đảm bảo xác suất dự đoán luôn nằm trong khoảng từ 0 đến 1.

Mô hình cloglog cũng được sử dụng trong các bài toán phân loại nhị phân, tương tự như mô hình logit và mô hình Probit. Nó được áp dụng trong nhiều lĩnh vực như kinh tế, y học, xử lý ngôn ngữ tự nhiên, và nhiều lĩnh vực khác để dự đoán và phân loại các sự kiện hoặc thuộc tính nhị phân.

4.4 Các tiêu chí đánh giá mô hình

4.4.1 Chỉ số Pseudo – \(R_2\)

Ta biết rằng, trong các mô hình hồi quy theo phương pháp OLS (phương pháp bình phương bé nhất thông thường), hệ số xác định \(R_2\) cho thấy tỷ lệ những biến thiên của biến đáp ứng được giải thích bởi các biến dự báo và thường được dùng để đánh giá mức độ phủ hợp của mô hình. Tuy nhiên, đối với mô hình logistic nói riêng và các mô hình sử dụng phương pháp ML nói chung, việc khảo sát hệ số xác định \(R_2\) để đánh giá mức độ phù hợp của mô hình là không còn có ý nghĩa. Trong trường hợp này, thay cho vai trò của hệ số xác định \(R_2\), người ta dựa vào một chỉ số gọi là “giả \(R_2\)” (Pseudo – \(R_2\))

Chỉ số này được đề xuất bởi McFadden nên còn có tên là hay McFadden’s R-squared. Khi chạy hồi quy, các phần mềm ứng dụng đều cung cấp chỉ số này.

Có thể dùng Pseudo – \(R_2\) để đánh giá mức độ phủ hợp của mô hình logistic đối với dữ liệu thực tế: Pseudo – R càng lớn, mô hình càng phù hợp. Pseudo – \(R_2\) càng bé, mô hình càng ít phù hợp. Tuy nhiên với mô hình Logistic, chi tiêu Pseudo – \(R_2\) do MacFadden đưa ra rất khó sử dụng để diễn giải mức độ giải thích của mô hình logistic nói riêng và các mô hình phân tích định tính nói chung, do vậy người ta cần phải kết hợp với các chỉ số khác.

4.4.2 Chỉ số Brier

Chỉ số Brier, còn được gọi là Brier Score, là một chỉ tiêu được sử dụng để đánh giá hiệu quả của mô hình dự đoán trong các bài toán phân loại. Chỉ số này được đặt tên theo Glenn W. Brier, người đã giới thiệu nó vào năm 1950.

Chỉ số Brier đo lường mức độ khác biệt giữa các dự đoán của mô hình và các giá trị thực tế. Nó được tính bằng cách lấy tổng bình phương của sai số (hay lỗi) giữa dự đoán của mô hình và các giá trị thực tế, sau đó chia cho số lượng mẫu.

Giá trị của chỉ số Brier nằm trong khoảng từ 0 đến 1. Khi chỉ số Brier càng gần 0, tức là mô hình có dự đoán chính xác và gần giống với kết quả thực tế. Ngược lại, khi chỉ số Brier càng gần 1, tức là mô hình có dự đoán không chính xác và khác biệt lớn so với kết quả thực tế.

Chỉ số Brier được sử dụng phổ biến trong các bài toán dự đoán xác suất như dự đoán xác suất mắc bệnh, xác suất dự đoán sự kiện, hoặc xác suất dự đoán xảy ra một sự kiện quan trọng. Nó cho phép đánh giá độ tin cậy của mô hình dự đoán và so sánh hiệu quả giữa các mô hình khác nhau.

4.4.3 AIC - Akaike Information Criterion

Chỉ số AIC (Akaike’s Information Criterion) là một chỉ tiêu được sử dụng trong việc đánh giá và so sánh hiệu quả giữa các mô hình thống kê, đặc biệt là trong bối cảnh mô hình tuyến tính và mô hình tuyến tính tổng quát (GLM - Generalized Linear Models). Chỉ số AIC được phát triển bởi nhà thống kê Akaike Hirotugu.

Ý tưởng của chỉ số AIC là cân nhắc giữa độ phù hợp của mô hình với dữ liệu và độ phức tạp của mô hình. Mô hình có giá trị AIC thấp hơn được coi là mô hình tốt hơn. Khi so sánh nhiều mô hình, mô hình có AIC nhỏ nhất thường được ưa chuộng hơn.

4.4.4 Ma trận nhầm lẫn - Confusion Matrix

Ma trận nhầm lẫn (Confusion Matrix) là một công cụ quan trọng trong bài toán phân loại để đánh giá hiệu suất của mô hình dự đoán. Nó giúp xác định số lượng các dự đoán đúng và sai lệch của mô hình dự đoán so với kết quả thực tế.

Các thành phần trong ma trận nhầm lẫn có ý nghĩa như sau:

• True Positive (TP): Số lượng các trường hợp được dự đoán đúng là positive (dự đoán đúng một mẫu positive).

• True Negative (TN): Số lượng các trường hợp được dự đoán đúng là negative (dự đoán đúng một mẫu negative).

• False Positive (FP): Số lượng các trường hợp được dự đoán là positive nhưng thực tế là negative (dự đoán sai một mẫu negative).

• False Negative (FN): Số lượng các trường hợp được dự đoán là negative nhưng thực tế là positive (dự đoán sai một mẫu positive).

4.5 Dữ liệu nghiên cứu

Bộ dữ liệu Phê duyệt Số tiền Khoản vay chứa thông tin về các đơn xin vay và liệu chúng có được phê duyệt hay không. Nó cung cấp cái nhìn sâu sắc về các yếu tố ảnh hưởng đến việc phê duyệt hoặc từ chối các đơn xin vay. Dưới đây là mô tả về các trường điển hình mà bạn có thể tìm thấy trong tập dữ liệu đó:

loan <- read_excel("C:/Users/sylev/Documents/PTDL.xlsx")
str(loan)

## tibble [600 × 11] (S3: tbl_df/tbl/data.frame)
##  $ Gender         : chr [1:600] "Male" "Male" "Male" "Male" ...
##  $ Married        : chr [1:600] "No" "Yes" "Yes" "Yes" ...
##  $ Dependents     : num [1:600] 1 2 1 1 1 3 1 4 3 2 ...
##  $ Education      : chr [1:600] "Graduate" "Graduate" "Graduate" "Not Graduate" ...
##  $ SelfEmployed   : chr [1:600] "No" "No" "Yes" "No" ...
##  $ ApplicantIncome: chr [1:600] "5001 to 6000" "4001 to 5000" "2001 to 3000" "2001 to 3000" ...
##  $ LoanAmount     : chr [1:600] "1 to 100" "101 to 200" "1 to 100" "101 to 200" ...
##  $ LoanTerm       : num [1:600] 360 360 360 360 360 360 360 360 360 360 ...
##  $ CreditHistory  : num [1:600] 1 1 1 1 1 1 1 0 1 1 ...
##  $ PropertyArea   : chr [1:600] "Urban" "Rural" "Urban" "Urban" ...
##  $ LoanStatus     : chr [1:600] "Y" "N" "Y" "Y" ...

datatable(loan)

Gender: giới tính
Married: tính trạng hôn nhân
Dependents: số người phụ thuộc
Education: tình trạng học vấn
SelfEmployed: tự làm chủ
Applicantlncome: thu nhập người vay
LoanAmount: số tiền vay
LoanTerm: thời hạn cho vay
CreditHistory: lịch sử tín dụng
PropertyArea: khu vực sinh sống
LoanStatus: quyết định khoản vay

Dữ liệu lấy từ https://www.kaggle.com/datasets/ashishkumarjayswal/loanamount-approval?resource=download

5 Chương 3:KẾT QUẢ NGHIÊN CỨU

5.1 Thống kế mô tả

5.1.1 Thống kế mô tả cho một biến

5.1.1.1 Thống kê mô tả biến định tính

5.1.1.1.1 Giới tính (gender)

loan <- read_excel("C:/Users/sylev/Documents/PTDL.xlsx")
table(loan$Gender)

## 
## Female   Male 
##    114    486

loan |> ggplot(aes(Gender)) +
  geom_bar()

nhận xét: trong 600 khách hàng thì có 19% là giới tính nữ và 81% là giới tính nam

5.1.1.1.2 Tình trạng hôn nhân (married)

table(loan$Married)

## 
##  No Yes 
## 210 390

loan |> ggplot(aes(Married)) +
  geom_bar()

nhận xét: số khách hàng đã kết hôn chiếm 65% tức là 390 khách hàng và chiếm 35% khách hàng chưa kết hôn

5.1.1.1.3 Tình trạng học vấn (education)

table(loan$Education)

## 
##     Graduate Not Graduate 
##          469          131

loan |> ggplot(aes(Education)) +
  geom_bar()

nhận xét: có 78,167% số khách hàng đã tốt nghiệm và 21,833% khách hàng chưa tốt nghiệp

5.1.1.1.4 Tự kinh doanh làm chủ (self Employed)

table(loan$SelfEmployed)

## 
##  No Yes 
## 506  94

loan |> ggplot(aes(SelfEmployed)) +
  geom_bar()

nhận xét: có khoảng 15,667% khách hàng tự kinh doanh làm chủ và 84,333% khách hàng làm công

5.1.1.1.5 Khu vực sinh sống (Property area)

table(loan$PropertyArea)

## 
##     Rural Semiurban     Urban 
##       173       230       197

loan |> ggplot(aes(PropertyArea)) +
  geom_bar()

nhận xét: khách hàng sống ở khu vực nông thôn chiếm 28,833%, khách hàng sống ở khu vực bán thành thị chiếm 38,334%, còn lại là khách hàng sống ở khu vực thành thị chiếm 32,833%. Khách hàng sống ở bán thành thị chiếm số đông.

5.1.1.1.6 Trạng thái phê duyệt (Loan Status)

table(loan$LoanStatus)

## 
##   N   Y 
## 189 411

loan |> ggplot(aes(LoanStatus)) +
  geom_bar()

nhận xét: có 31,5% số đơn xin vay bị từ chối và 68,5% số đơn được phê duyệt.

5.1.1.1.7 Thu nhập của người vay (applicantlncome)

table(loan$ApplicantIncome)

## 
##        1 to  1000      1001 to 2000      2001 to 3000      3001 to 4000 
##                 5                35               133               153 
##      4001 to 5000      5001 to 6000 greater than 6000 
##                87                53               134

loan |> ggplot(aes(ApplicantIncome)) +
  geom_bar()

Nhận xét: những người có mức thu nhập từ 3001 đến 4000 có tỷ lệ đi vay cao nhất và những người có mức thu nhập từ 1 đến 1000 là thấp nhất

5.1.1.1.8 Số tiền vay (Loan Amount)

table(loan$LoanAmount)

## 
##   1 to 100 101 to 200 201 to 300 301 to 400 401 to 500 501 to 600 601 to 700 
##        164        357         52         14          8          3          2

loan |> ggplot(aes(LoanAmount)) +
  geom_bar()

nhận xét: số tiền từ 101 đến 200 là mức cho vay nhiều người mong muốn nhất và từ 601 đến 700 là mức thấp nhất

5.1.1.2 Thống kê mô tả cho dữ liệu định lượng

5.1.1.2.1 Số người phụ thuộc (dependents)

table(loan$Dependents)

## 
##   1   2   3   4   5   6 
## 342 101 104  33  15   5

loan |> ggplot(aes(Dependents)) +
  geom_bar()

nhận xét: 1 người phụ thuộc chiếm 57% và giảm dần theo số người phụ thuộc.

5.1.1.2.2 Thời hạn cho vay (Loan term)

table(loan$LoanTerm)

## 
##  12  36  48  60  84 120 180 240 300 360 480 
##   1   2   1   2   4  12  43   4  13 503  15

loan |> ggplot(aes(LoanTerm)) +
  geom_bar()

nhận xét: thời hạn cho vay được nhiều khách hàng chọn là 360 ngày chiếm 83,83% trong số 600 khách hàng.

5.1.1.2.3 Lịch sử tín dụng (Credit History)

table(loan$CreditHistory)

## 
##   0   1 
## 107 493

loan |> ggplot(aes(CreditHistory)) +
  geom_bar()

nhận xét: số người có lịch sử tín dụng là 1 chiếm 82,167% trong tổng 600 người

5.1.2 Rủi ro tương đối (Relative Risk/Risk Ratio)

5.1.2.1 Rủi ro tương đối giữa biến quyết định cho vay và giới tính

rủi ro tương đối là một tỷ lệ 2 xác suất: xác suất của quyết định cho vay và xác suất để người vay là nam hoặc nữ

loan1 <- table(loan$LoanStatus, loan$Gender)

addmargins(loan1)

##      
##       Female Male Sum
##   N       36  153 189
##   Y       78  333 411
##   Sum    114  486 600

nhận xét: tỷ lệ quyết định không cho vay của nữ cao hơn tỷ lệ quyết định cho vay của nữ là 0.3663%

RelRisk(loan1)

## [1] 1.003663

5.1.2.2 Rủi ro tương đối giữa biến quyết định cho vay và tính trạng hôn nhân

loan2 <- table(loan$LoanStatus, loan$Married)

addmargins(loan2)

##      
##        No Yes Sum
##   N    77 112 189
##   Y   133 278 411
##   Sum 210 390 600

nhận xét: tỷ lệ quyết định không cho vay của nữ chưa kết hôn cao hơn tỷ lệ quyết định không cho vay của nữ đã kết hôn 25.8981%

RelRisk(loan2)

## [1] 1.258981

5.1.3 Tỷ lệ chênh lệch (Odd Ratio)

5.1.3.1 Tỷ lệ chênh lệch giữa biến quyết định cho vay và giới tính

loan1 <- table(loan$LoanStatus, loan$Gender)

loan1

##    
##     Female Male
##   N     36  153
##   Y     78  333

OddsRatio(loan1)

## [1] 1.004525

nhận xét: Tỷ lệ giới tính là nữ và quyết định không cho vay bằng 0.4525% Tỷ lệ giới tính là nữ và có quyết định cho vay. Điều này có nghĩa là xác xuất xảy ra sự kiện “giới tính nữ quyết định không cho vay” ít hơn xác xuất xảy ra sự kiện “giới tính nữ quyết định cho vay”.

5.1.3.2 Tỷ lệ chênh lệch giữa biến quyết định cho vay và tình trạng hôn nhân

loan2 <- table(loan$LoanStatus, loan$Married)

loan2

##    
##      No Yes
##   N  77 112
##   Y 133 278

OddsRatio(loan2)

## [1] 1.43703

nhận xét: tỷ lệ chênh lệch so với tỷ lệ khách hàng chưa kết hôn không được quyết định cho vay cao hơn tỷ lệ khách hàng đã kết hôn được quyết định cho vay 43.703%

5.1.4 Thống kê suy diễn cho dữ liệu định tính

5.1.4.1 Kiểm định tính độc lập cho hai biến định tính

5.1.4.1.1 Kiểm định tính độc lập giữa hai biến giới tính và tình trạng hôn nhân

\(H_0\):giới tính và tình trạng hôn nhân độc lập với nhau

\(H_1\):giới tính và tình trạng hôn nhân không độc lập với nhau

chisq.test(loan$Gender, loan$Married)

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  loan$Gender and loan$Married
## X-squared = 63.766, df = 1, p-value = 1.401e-15

Nhận xét: kết quả kiểm định cho ta p-value < 1.401e-15 < 0.05, nên bác bỏ H0, nghĩa là giữa giới tính và tình trạng hôn nhân là có liên quan với nhau.

5.1.4.1.2 Kiểm định tính độc lập giữa hai biến giới tính và tình trạng học vấn

\(H_0\):giới tính và tình trạng học vấn độc lập với nhau

\(H_1\):giới tính và tình trạng học vấn không độc lập với nhau

chisq.test(loan$Gender, loan$Education)

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  loan$Gender and loan$Education
## X-squared = 0.72924, df = 1, p-value = 0.3931

Nhận xét: Kết quả p−value = 0.3931 nên chưa đủ chứng cứ/thông tin/cơ sở để nói rằng tình trạng học vấn độc lập với giới tính.

5.1.4.2 Khoảng ước lượng cho tỉ lệ

5.1.4.2.1 Ước lượng tỷ lệ người phụ thuộc

Ước lượng tỷ lệ người phụ thuộc nhiều hơn 3 người (UnitsSold) đồng thời kiểm định xem tỷ lệ (%) người phụ thuộc nhiều hơn 3 người có phải là 20% không (nghĩa là chúng ta kiểm định giả thuyết:

\(H_0\): tỷ lệ người phụ thuộc nhiều hơn 3 người là 20%

\(H_1\): tỷ lệ người phụ thuộc nhiều hơn 3 người không phải là 20%

loan5 <- loan[loan$Dependents > 3,]

prop.test(length(loan5$Dependents), length(loan5$Dependents), p = 0.2)

## 
##  1-sample proportions test with continuity correction
## 
## data:  length(loan5$Dependents) out of length(loan5$Dependents), null probability 0.2
## X-squared = 207.03, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.2
## 95 percent confidence interval:
##  0.9158109 1.0000000
## sample estimates:
## p 
## 1

Vì p_value = 2.2e-16 < 0.05 nên ta bác bỏ giả thuyết \(H_0\). Nghĩa là tỷ lệ người phụ thuộc nhiều hơn 3 người không phải là 20%.

Với độ tin cậy 95%, ước lượng tỷ lệ người phụ thuộc nhiều hơn 3 người nằm trong khoảng từ 91.58% đến 100%.

5.1.4.2.2 Ước lượng sự chênh lệch về tỷ lệ người phụ thuộc lớn hơn 3 giữa giới tính nam và nữ

\(H_0\): không có sự chênh lệch tỷ lệ người phụ thuộc nhiều hơn 3 người giữa giới tính nam và nữ

\(H_1\): có sự chênh lệch tỷ lệ người phụ thuộc nhiều hơn 3 người giữa giới tính nam và nữ

loanm <- loan[loan$Gender == 'Male',]
loanf <- loan[loan$Gender == 'Female',]

loanm3 <- loanm[loanm$Dependents > 3,]
loanf3 <- loanf[loanf$Dependents > 3,]

a <- c(nrow(loanm), nrow(loanf))
b <- c(nrow(loanm3), nrow(loanf3))

prop.test(b,a)

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  b out of a
## X-squared = 2.8085, df = 1, p-value = 0.09376
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  0.003483625 0.106327941
## sample estimates:
##     prop 1     prop 2 
## 0.09876543 0.04385965

nhận xét: Vì p_value = 0.09376 < 0.05 nên ta thừa nhận giả thuyết \(H_0\). Nghĩa là không có sự chênh lệch tỷ lệ người phụ thuộc nhiều hơn 3 người giữa giới tính nam và nữ.

5.2 Kết quả mô hình hồi quy

5.2.1 Hồi quy với hàm logit

logit <- glm(factor (LoanStatus) ~ loan$Gender + loan$Dependents + loan$ApplicantIncome + loan$Education + loan$SelfEmployed + loan$LoanAmount + loan$LoanTerm + loan$CreditHistory + loan$PropertyArea , family = binomial(link = "logit"), data = loan)
summary(logit)

## 
## Call:
## glm(formula = factor(LoanStatus) ~ loan$Gender + loan$Dependents + 
##     loan$ApplicantIncome + loan$Education + loan$SelfEmployed + 
##     loan$LoanAmount + loan$LoanTerm + loan$CreditHistory + loan$PropertyArea, 
##     family = binomial(link = "logit"), data = loan)
## 
## Coefficients:
##                                         Estimate Std. Error z value Pr(>|z|)
## (Intercept)                            -2.462364   1.187448  -2.074 0.038111
## loan$GenderMale                        -0.070114   0.274736  -0.255 0.798566
## loan$Dependents                         0.069326   0.094501   0.734 0.463191
## loan$ApplicantIncome1001 to 2000        0.647508   1.025041   0.632 0.527590
## loan$ApplicantIncome2001 to 3000        1.220282   0.968408   1.260 0.207637
## loan$ApplicantIncome3001 to 4000        0.851812   0.960977   0.886 0.375401
## loan$ApplicantIncome4001 to 5000        0.419253   0.967658   0.433 0.664821
## loan$ApplicantIncome5001 to 6000        1.292948   1.014700   1.274 0.202586
## loan$ApplicantIncomegreater than 6000   0.684260   0.967355   0.707 0.479348
## loan$EducationNot Graduate             -0.351230   0.254473  -1.380 0.167518
## loan$SelfEmployedYes                    0.058841   0.299938   0.196 0.844471
## loan$LoanAmount101 to 200               0.311269   0.254840   1.221 0.221924
## loan$LoanAmount201 to 300              -0.277769   0.430031  -0.646 0.518326
## loan$LoanAmount301 to 400              -0.685770   0.669904  -1.024 0.305984
## loan$LoanAmount401 to 500              -0.348360   0.830482  -0.419 0.674875
## loan$LoanAmount501 to 600               0.414984   1.428309   0.291 0.771401
## loan$LoanAmount601 to 700              15.422153 483.566810   0.032 0.974558
## loan$LoanTerm                          -0.001413   0.001575  -0.897 0.369587
## loan$CreditHistory                      2.875287   0.283595  10.139  < 2e-16
## loan$PropertyAreaSemiurban              0.907031   0.264127   3.434 0.000595
## loan$PropertyAreaUrban                  0.373188   0.260188   1.434 0.151486
##                                          
## (Intercept)                           *  
## loan$GenderMale                          
## loan$Dependents                          
## loan$ApplicantIncome1001 to 2000         
## loan$ApplicantIncome2001 to 3000         
## loan$ApplicantIncome3001 to 4000         
## loan$ApplicantIncome4001 to 5000         
## loan$ApplicantIncome5001 to 6000         
## loan$ApplicantIncomegreater than 6000    
## loan$EducationNot Graduate               
## loan$SelfEmployedYes                     
## loan$LoanAmount101 to 200                
## loan$LoanAmount201 to 300                
## loan$LoanAmount301 to 400                
## loan$LoanAmount401 to 500                
## loan$LoanAmount501 to 600                
## loan$LoanAmount601 to 700                
## loan$LoanTerm                            
## loan$CreditHistory                    ***
## loan$PropertyAreaSemiurban            ***
## loan$PropertyAreaUrban                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 747.65  on 599  degrees of freedom
## Residual deviance: 583.59  on 579  degrees of freedom
## AIC: 625.59
## 
## Number of Fisher Scoring iterations: 13

# Giá trị BrierScore
BrierScore(logit)

## [1] 0.1561148

# Ma trận nhầm lẫn
a <- predict(logit, type = "response")
b <- ifelse(a > 0.5, "1", "0")
c <-factor(b, levels = c("0","1"))
d <- factor(loan$LoanStatus, labels = c("0","1"))
confusionMatrix(table(c, d))

## Confusion Matrix and Statistics
## 
##    d
## c     0   1
##   0  87  22
##   1 102 389
##                                           
##                Accuracy : 0.7933          
##                  95% CI : (0.7587, 0.8251)
##     No Information Rate : 0.685           
##     P-Value [Acc > NIR] : 2.013e-09       
##                                           
##                   Kappa : 0.4593          
##                                           
##  Mcnemar's Test P-Value : 1.299e-12       
##                                           
##             Sensitivity : 0.4603          
##             Specificity : 0.9465          
##          Pos Pred Value : 0.7982          
##          Neg Pred Value : 0.7923          
##              Prevalence : 0.3150          
##          Detection Rate : 0.1450          
##    Detection Prevalence : 0.1817          
##       Balanced Accuracy : 0.7034          
##                                           
##        'Positive' Class : 0               
##

5.2.2 Hồi quy với hàm probit

probit <- glm(factor (LoanStatus) ~ loan$Gender + loan$Dependents + loan$ApplicantIncome + loan$Education + loan$SelfEmployed + loan$LoanAmount + loan$LoanTerm + loan$CreditHistory + loan$PropertyArea, family = binomial(link = "probit"), data = loan)

summary(probit)

## 
## Call:
## glm(formula = factor(LoanStatus) ~ loan$Gender + loan$Dependents + 
##     loan$ApplicantIncome + loan$Education + loan$SelfEmployed + 
##     loan$LoanAmount + loan$LoanTerm + loan$CreditHistory + loan$PropertyArea, 
##     family = binomial(link = "probit"), data = loan)
## 
## Coefficients:
##                                         Estimate Std. Error z value Pr(>|z|)
## (Intercept)                           -1.502e+00  7.090e-01  -2.118  0.03414
## loan$GenderMale                       -2.373e-02  1.571e-01  -0.151  0.87995
## loan$Dependents                        3.570e-02  5.415e-02   0.659  0.50974
## loan$ApplicantIncome1001 to 2000       3.922e-01  6.274e-01   0.625  0.53193
## loan$ApplicantIncome2001 to 3000       7.195e-01  5.938e-01   1.212  0.22562
## loan$ApplicantIncome3001 to 4000       5.111e-01  5.906e-01   0.865  0.38685
## loan$ApplicantIncome4001 to 5000       2.827e-01  5.958e-01   0.475  0.63509
## loan$ApplicantIncome5001 to 6000       7.626e-01  6.169e-01   1.236  0.21635
## loan$ApplicantIncomegreater than 6000  4.194e-01  5.946e-01   0.705  0.48066
## loan$EducationNot Graduate            -2.045e-01  1.470e-01  -1.391  0.16412
## loan$SelfEmployedYes                   3.112e-02  1.715e-01   0.181  0.85600
## loan$LoanAmount101 to 200              1.750e-01  1.453e-01   1.205  0.22834
## loan$LoanAmount201 to 300             -1.905e-01  2.482e-01  -0.767  0.44290
## loan$LoanAmount301 to 400             -4.340e-01  4.044e-01  -1.073  0.28324
## loan$LoanAmount401 to 500             -2.074e-01  4.997e-01  -0.415  0.67807
## loan$LoanAmount501 to 600              2.336e-01  8.387e-01   0.278  0.78063
## loan$LoanAmount601 to 700              5.938e+00  1.325e+02   0.045  0.96425
## loan$LoanTerm                         -6.947e-04  8.799e-04  -0.790  0.42982
## loan$CreditHistory                     1.716e+00  1.592e-01  10.780  < 2e-16
## loan$PropertyAreaSemiurban             5.133e-01  1.505e-01   3.410  0.00065
## loan$PropertyAreaUrban                 2.094e-01  1.513e-01   1.383  0.16652
##                                          
## (Intercept)                           *  
## loan$GenderMale                          
## loan$Dependents                          
## loan$ApplicantIncome1001 to 2000         
## loan$ApplicantIncome2001 to 3000         
## loan$ApplicantIncome3001 to 4000         
## loan$ApplicantIncome4001 to 5000         
## loan$ApplicantIncome5001 to 6000         
## loan$ApplicantIncomegreater than 6000    
## loan$EducationNot Graduate               
## loan$SelfEmployedYes                     
## loan$LoanAmount101 to 200                
## loan$LoanAmount201 to 300                
## loan$LoanAmount301 to 400                
## loan$LoanAmount401 to 500                
## loan$LoanAmount501 to 600                
## loan$LoanAmount601 to 700                
## loan$LoanTerm                            
## loan$CreditHistory                    ***
## loan$PropertyAreaSemiurban            ***
## loan$PropertyAreaUrban                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 747.65  on 599  degrees of freedom
## Residual deviance: 583.83  on 579  degrees of freedom
## AIC: 625.83
## 
## Number of Fisher Scoring iterations: 13

# Giá trị BrierScore
BrierScore(probit)

## [1] 0.1563521

# Ma trận nhầm lẫn
a <- predict(probit, type = "response")
b <- ifelse(a > 0.5, "1", "0")
c <-factor(b, levels = c("0","1"))
d <- factor(loan$LoanStatus, labels = c("0","1"))
confusionMatrix(table(c, d))

## Confusion Matrix and Statistics
## 
##    d
## c     0   1
##   0  87  21
##   1 102 390
##                                           
##                Accuracy : 0.795           
##                  95% CI : (0.7604, 0.8266)
##     No Information Rate : 0.685           
##     P-Value [Acc > NIR] : 1.124e-09       
##                                           
##                   Kappa : 0.4628          
##                                           
##  Mcnemar's Test P-Value : 5.459e-13       
##                                           
##             Sensitivity : 0.4603          
##             Specificity : 0.9489          
##          Pos Pred Value : 0.8056          
##          Neg Pred Value : 0.7927          
##              Prevalence : 0.3150          
##          Detection Rate : 0.1450          
##    Detection Prevalence : 0.1800          
##       Balanced Accuracy : 0.7046          
##                                           
##        'Positive' Class : 0               
##

5.2.3 Hồi quy với hàm cloglog

cloglog <- glm(factor (LoanStatus) ~ loan$Gender + loan$Dependents + loan$ApplicantIncome + loan$Education + loan$SelfEmployed + loan$LoanAmount + loan$LoanTerm + loan$PropertyArea, family = binomial(link = "cloglog"), data = loan)

summary(cloglog)

## 
## Call:
## glm(formula = factor(LoanStatus) ~ loan$Gender + loan$Dependents + 
##     loan$ApplicantIncome + loan$Education + loan$SelfEmployed + 
##     loan$LoanAmount + loan$LoanTerm + loan$PropertyArea, family = binomial(link = "cloglog"), 
##     data = loan)
## 
## Coefficients:
##                                         Estimate Std. Error z value Pr(>|z|)
## (Intercept)                           -0.1736623  0.6943473  -0.250 0.802503
## loan$GenderMale                        0.0698168  0.1403617   0.497 0.618902
## loan$Dependents                       -0.0126074  0.0489009  -0.258 0.796550
## loan$ApplicantIncome1001 to 2000       0.1438402  0.6531467   0.220 0.825695
## loan$ApplicantIncome2001 to 3000       0.2927415  0.6206783   0.472 0.637178
## loan$ApplicantIncome3001 to 4000       0.2044730  0.6198684   0.330 0.741502
## loan$ApplicantIncome4001 to 5000       0.0345898  0.6265407   0.055 0.955973
## loan$ApplicantIncome5001 to 6000       0.4057749  0.6354559   0.639 0.523111
## loan$ApplicantIncomegreater than 6000  0.1677874  0.6237978   0.269 0.787947
## loan$EducationNot Graduate            -0.2646984  0.1356680  -1.951 0.051048
## loan$SelfEmployedYes                   0.0827525  0.1517370   0.545 0.585500
## loan$LoanAmount101 to 200              0.0950504  0.1285861   0.739 0.459788
## loan$LoanAmount201 to 300             -0.2235818  0.2292408  -0.975 0.329404
## loan$LoanAmount301 to 400             -0.4035383  0.4233363  -0.953 0.340472
## loan$LoanAmount401 to 500             -0.2446626  0.4984787  -0.491 0.623555
## loan$LoanAmount501 to 600             -0.0378312  0.7597694  -0.050 0.960287
## loan$LoanAmount601 to 700              2.6749786 48.1809635   0.056 0.955725
## loan$LoanTerm                         -0.0003593  0.0007565  -0.475 0.634848
## loan$PropertyAreaSemiurban             0.4714042  0.1354558   3.480 0.000501
## loan$PropertyAreaUrban                 0.1360877  0.1420140   0.958 0.337927
##                                          
## (Intercept)                              
## loan$GenderMale                          
## loan$Dependents                          
## loan$ApplicantIncome1001 to 2000         
## loan$ApplicantIncome2001 to 3000         
## loan$ApplicantIncome3001 to 4000         
## loan$ApplicantIncome4001 to 5000         
## loan$ApplicantIncome5001 to 6000         
## loan$ApplicantIncomegreater than 6000    
## loan$EducationNot Graduate            .  
## loan$SelfEmployedYes                     
## loan$LoanAmount101 to 200                
## loan$LoanAmount201 to 300                
## loan$LoanAmount301 to 400                
## loan$LoanAmount401 to 500                
## loan$LoanAmount501 to 600                
## loan$LoanAmount601 to 700                
## loan$LoanTerm                            
## loan$PropertyAreaSemiurban            ***
## loan$PropertyAreaUrban                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 747.65  on 599  degrees of freedom
## Residual deviance: 719.74  on 580  degrees of freedom
## AIC: 759.74
## 
## Number of Fisher Scoring iterations: 12

# Giá trị BrierScore
BrierScore(cloglog)

## [1] 0.2061747

# Ma trận nhầm lẫn
a <- predict(cloglog, type = "response")
b <- ifelse(a > 0.5, "1", "0")
c <-factor(b, levels = c("0","1"))
d <- factor(loan$LoanStatus, labels = c("0","1"))
confusionMatrix(table(c, d))

## Confusion Matrix and Statistics
## 
##    d
## c     0   1
##   0  12  10
##   1 177 401
##                                           
##                Accuracy : 0.6883          
##                  95% CI : (0.6496, 0.7252)
##     No Information Rate : 0.685           
##     P-Value [Acc > NIR] : 0.4497          
##                                           
##                   Kappa : 0.0514          
##                                           
##  Mcnemar's Test P-Value : <2e-16          
##                                           
##             Sensitivity : 0.06349         
##             Specificity : 0.97567         
##          Pos Pred Value : 0.54545         
##          Neg Pred Value : 0.69377         
##              Prevalence : 0.31500         
##          Detection Rate : 0.02000         
##    Detection Prevalence : 0.03667         
##       Balanced Accuracy : 0.51958         
##                                           
##        'Positive' Class : 0               
##

5.3 Lựa chọn mô hình phù hợp

Để đánh giá các mô hình hồi quy trên, ta sử dụng các tiêu chí sau:

# Tiêu chí AIC - Akaike Information Criterion
aic1 <- AIC(logit)
aic2 <- AIC(probit)
aic3 <- AIC(cloglog)
AIC <-cbind(logit,probit,cloglog)
AIC

##                   logit         probit        cloglog     
## coefficients      numeric,21    numeric,21    numeric,20  
## residuals         numeric,600   numeric,600   numeric,600 
## fitted.values     numeric,600   numeric,600   numeric,600 
## effects           numeric,600   numeric,600   numeric,600 
## R                 numeric,441   numeric,441   numeric,400 
## rank              21            21            20          
## qr                qr,5          qr,5          qr,5        
## family            family,13     family,13     family,13   
## linear.predictors numeric,600   numeric,600   numeric,600 
## deviance          583.5925      583.8273      719.737     
## aic               625.5925      625.8273      759.737     
## null.deviance     747.6516      747.6516      747.6516    
## iter              13            13            12          
## weights           numeric,600   numeric,600   numeric,600 
## prior.weights     numeric,600   numeric,600   numeric,600 
## df.residual       579           579           580         
## df.null           599           599           599         
## y                 numeric,600   numeric,600   numeric,600 
## converged         TRUE          TRUE          TRUE        
## boundary          FALSE         FALSE         FALSE       
## model             data.frame,10 data.frame,10 data.frame,9
## call              expression    expression    expression  
## formula           formula,3     formula,3     formula,3   
## terms             terms,3       terms,3       terms,3     
## data              tbl_df,11     tbl_df,11     tbl_df,11   
## offset            NULL          NULL          NULL        
## control           list,3        list,3        list,3      
## method            "glm.fit"     "glm.fit"     "glm.fit"   
## contrasts         list,6        list,6        list,6      
## xlevels           list,6        list,6        list,6

# Tiêu chí Deviance
de1 <- deviance(logit)
de2 <- deviance(probit)
de3 <- deviance(cloglog)
deviance <- cbind(de1,de2,de3)
deviance

##           de1      de2     de3
## [1,] 583.5925 583.8273 719.737

# Tiêu chí Brier Score
bs1 <- BrierScore(logit)
bs2 <- BrierScore(probit)
bs3 <- BrierScore(cloglog)
BrierScore <- cbind(bs1,bs2,bs3)
BrierScore

##            bs1       bs2       bs3
## [1,] 0.1561148 0.1563521 0.2061747

Kết luận: Dựa vào các tiêu chí trên, ta thấy các giá trị AIC, deviance và Brier Score của mô hình logit là nhỏ nhất, tức là mô hình logit là mô hình tốt nhất trong 3 mô hình.

6 Chương 4: KẾT LUẬN VÀ KIẾN NGHỊ

6.1 kết luận

Kết quả nghiên cứu cho thấy thông qua việc phân tích định tính kết hợp định lượng, sử dụng bộ dữ liệu Phê duyệt Số tiền Khoản vay chứa thông tin về các đơn xin vay và liệu chúng có được phê duyệt hay không. Nó cung cấp cái nhìn sâu sắc về các yếu tố ảnh hưởng đến việc phê duyệt hoặc từ chối các đơn xin vay. Từ đó đưa ra phương án và giải pháp chiến lược phù hợp cụ thể để gia tăng mức độ hài lòng, thu hút khách hàng.

Nghiên cứu đã chỉ ra các yếu tố đầu vào đều có tác động đến quyết định phê duyệt khoản vay và mức độ tác động của mỗi biến là khác nhau. Nghiên cứu đã chỉ ra rằng các yếu tố gồm tỷ lệ cho vay trên giá trị, tỷ lệ nợ trên thu nhập, ổn định việc làm, thông tin về tài sản thế chấp và bất kỳ yêu cầu hoặc tiêu chí cụ thể nào do bên cho vay đặt ra.

6.2 Kiến nghị

Do việc sử dụng khoản vay nào phụ thuộc nhiều vào nhiều yếu tố như số tiền bạn vay là bao nhiêu, bạn có tài sản đảm bảo hay không, bạn đã từng vay vốn tại ngân hàng/ tổ chức tín dụng nào hay chưa và lịch sử tín dụng của bạn như thế nào, v.v…

Hình thức vay tiền ngân hàng và các tổ chức tín dụng được bảo đảm bằng sự tín nhiệm, không cần có tài sản thế chấp. Hình thức vay này có lãi suất cao hơn vay thế chấp (gấp 2 đến 3 lần) do rủi ro cao. Số tiền phê duyệt khoản vay thấp.

Giới hạn của vay tín chấp là số tiền giải ngân thấp và lãi suất cao nên thường khách hàng chọn hình thức vay thế chấp cho việc vay vốn. Tuy nhiên, những khách hàng không có tài sản đảm bảo, thì hình thức vay tín chấp lại phù hợp hơn.

Trong bối cảnh nền kinh tế phát triển, nhu cầu vay cao khiến cho các ngân hàng tranh nhau về giá cả, dịch vụ, chất lượng để chiếm lĩnh thị trường. Chính vì thế cách để có thể thu hút khách hàng là nâng cao chất lượng dịch vụ ngày một tốt hơn. Các ngân hàng nên chú ý và tập trung vào các yếu tố ảnh hưởng đến chất lượng dịch vụ để khách hàng hài lòng và chọn ngân hàng của mình để vay vốn.

7 TÀI LIỆU THAM KHẢO

T.K.Thanh, T.M.Tường, V.A.L.Duy, Bài giảng Phân tích dữ liệu định tính.

TIỂU LUẬN

PHUONGTHAO

2023-8-3