Đề tài: Phân tích các yếu tố ảnh hưởng đến khả năng trả nợ vay tín dụng của khách hàng.

1 Chương 1: Giới thiệu

1.1 Tính cấp thiết của đề tài

Trong bối cảnh kinh tế hiện đại, tín dụng đóng vai trò quan trọng trong việc thúc đẩy phát triển của cá nhân và doanh nghiệp. Nhưng để cung cấp tín dụng một cách hiệu quả và đảm bảo an toàn tài chính, các tổ chức tín dụng cần có khả năng đánh giá khách hàng và dự đoán khả năng trả nợ của họ. Điều này là một trong những thách thức quan trọng đối với các chuyên gia tài chính và ngân hàng.

Đề tài “Phân tích các yếu tố ảnh hưởng đến khả năng trả nợ vay tín dụng của khách hàng” được chọn với mục tiêu nghiên cứu, phân tích và đưa ra những thông tin quan trọng về các yếu tố có ảnh hưởng đến khả năng trả nợ của khách hàng. Nghiên cứu này không chỉ giúp cải thiện quy trình đánh giá tín dụng mà còn tạo ra cơ hội để phát triển các chính sách và sản phẩm tài chính linh hoạt, phù hợp hơn với nhu cầu của từng khách hàng.

Đối với các tổ chức tín dụng, việc đánh giá khả năng trả nợ của khách hàng là một trong những yếu tố quyết định quan trọng nhằm giảm thiểu rủi ro tín dụng. Nếu không đánh giá chính xác khả năng trả nợ, tổ chức tín dụng có thể đối mặt với các rủi ro như nợ xấu, khách hàng không thể thanh toán các khoản vay và sụp đổ tài chính.

Trong phạm vi đề tài, tôi sẽ tập trung vào việc thu thập và phân tích các dữ liệu liên quan đến khách hàng và hoạt động tài chính của họ. Điều này bao gồm thông tin về lịch sử tín dụng, thu nhập, công việc, tình hình gia đình, tài sản đang sở hữu,… Nhờ vào việc phân tích dữ liệu, chúng ta sẽ có cái nhìn tổng quan về khả năng trả nợ của từng khách hàng.

Mục tiêu của đề tài không chỉ dừng lại ở việc cung cấp cái nhìn toàn diện về khả năng trả nợ của khách hàng, mà còn đặt ra các giải pháp và gợi ý cụ thể cho các tổ chức tín dụng. Các tổ chức này có thể áp dụng những kết quả nghiên cứu để cải thiện quy trình xét duyệt, đảm bảo rủi ro tín dụng ít hơn và tối ưu hóa lợi nhuận.

Nhìn chung, nghiên cứu này hứa hẹn mang lại những đóng góp to lớn cho lĩnh vực tài chính và ngân hàng. Việc hiểu rõ hơn về các yếu tố ảnh hưởng đến khả năng trả nợ vay tín dụng của khách hàng sẽ giúp thúc đẩy sự phát triển bền vững của nền kinh tế và tạo điều kiện thuận lợi hơn cho cả người cho vay và người vay trong quá trình giao dịch tài chính.

1.2 Mục tiêu nghiên cứu

Dựa trên các thông tin đã thu thập được từ cuộc khảo sát, mục tiêu chính của đề tài này là phân tích các yếu tố ảnh hưởng đến khả năng trả nợ vay tín dụng của khách hàng. Đề tài sẽ tập trung vào việc xem xét và đánh giá sự ảnh hưởng của các yếu tố như thu nhập khách hàng, số tiền vay, loại hợp đồng vay, trình độ học vấn, tình trạng hôn nhân và một số yếu tố khác có thể liên quan. Từ đó, giúp định hình các biện pháp phòng ngừa và quản lý rủi ro hiệu quả.

1.3 Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu trong đề tài “Phân tích các yếu tố ảnh hưởng đến khả năng trả nợ vay tín dụng của khách hàng” là các khách hàng đã từng vay tín dụng trong một khoảng thời gian nhất định. Các khách hàng trong đối tượng nghiên cứu sẽ có các thông tin về thu nhập, số tiền vay, loại hợp đồng vay, trình độ học vấn, tình trạng hôn nhân và một số thông tin cá nhân khác liên quan đến việc vay tiền. Dữ liệu này cho phép phân tích về các yếu tố có thể ảnh hưởng đến khả năng trả nợ của từng khách hàng và dự báo nguy cơ vỡ nợ của ngân hàng.

1.4 Phương pháp nghiên cứu

1.5 Bố cục nghiên cứu

Nghiên cứu được chia thành năm phần chính để đảm bảo tính logic và hiệu quả trong việc truyền tải thông tin. Chương 1 giới thiệu. Chương 2 tổng quan lý thuyết. Chương 3 tổng quan nghiên cứu. Chương 4 kết quả nghiên cứu. Chương 5 kết luận và khuyến nghị.

2 Chương 2: Tổng quan lý thuyết

2.1 Lý thuyết về tín dụng

2.2 Các loại hợp đồng vay vốn

Cash loans (hợp đồng vay tiền mặt): Đây là loại hợp đồng vay cụ thể, người vay sẽ nhận một số tiền cụ thể từ ngân hàng hoặc tổ chức tín dụng và sau đó phải trả lại số tiền đó trong khoảng thời gian xác định. Thông thường, số tiền và thời gian trả nợ được định rõ từ đầu trong hợp đồng. Hợp đồng vay tiền mặt thường áp dụng cho các nhu cầu tài chính cá nhân hoặc doanh nghiệp cụ thể.

Revolving loans (hợp đồng tín dụng quay vòng): Đây là loại hợp đồng vay linh hoạt hơn. Người vay sẽ được cấp một hạn mức tín dụng tối đa mà khách hàng có thể vay theo nhu cầu của họ. Khi khách hàng vay một phần hoặc toàn bộ số tiền trong hạn mức, họ phải trả lại số tiền đó theo điều khoản hợp đồng. Tuy nhiên, điểm đặc biệt là người vay có thể tiếp tục vay lại số tiền đã trả về trước đó, giống như việc “quay vòng” số tiền vay. Hạn mức tín dụng này có thể duy trì trong một khoảng thời gian nhất định và tiếp tục được sử dụng một cách linh hoạt cho đến khi hạn mức bị hủy bỏ hoặc kết thúc.

Tóm lại, hợp đồng vay tiền mặt cung cấp một khoản tiền cụ thể mà bạn phải trả trong một khoảng thời gian xác định, trong khi hợp đồng vay có luân phiên cung cấp một hạn mức tín dụng mà bạn có thể tái sử dụng khi cần thiết.

3 Chương 3: Thiết kế nghiên cứu

4 Chương 4: Kết quả nghiên cứu

4.1 Tổng quan về dữ liệu

Bộ dữ liệu sử dụng trong phân tích được lấy từ trang kaggle.com, được chia sẻ bởi MISHRA5001 (2019) bao gồm 14 biến và 15,000 quan sát để phục vụ phân tích. Trong đó, có 09 biến định tính và 05 biến định lượng.

  • SK_ID_CURR: Mã định danh cho mỗi khách hàng

  • NAME_CONTRACT_TYPE: Loại hợp đồng vay

  • CODE_GENDER: Giới tính của khách hàng

  • FLAG_OWN_CAR: Có sở hữu xe hơi hay không

  • FLAG_OWN_REALTY: Có sở hữu bất động sản hay không

  • CNT_CHILDREN: Số lượng con cái của khách hàng

  • AMT_INCOME_TOTAL: Tổng thu nhập hàng năm của khách hàng

  • AMT_CREDIT: Số tiền được vay

  • AMT_ANNUITY: Số tiền trả hàng tháng

  • NAME_TYPE_SUITE: Loại người thụ hưởng hợp đồng vay

  • NAME_INCOME_TYPE: Loại thu nhập của khách hàng

  • NAME_EDUCATION_TYPE: Trình độ học vấn của khách hàng

  • NAME_FAMILY_STATUS: Tình trạng hôn nhân/gia đình của khách hàng

  • NAME_HOUSING_TYPE: Loại hình nhà ở của khách hàng

data <- read_excel("D:/tieuluanpt.xlsx")
View(data)
str(data)
## tibble [15,000 × 14] (S3: tbl_df/tbl/data.frame)
##  $ SK_ID_CURR         : num [1:15000] 1e+05 1e+05 1e+05 1e+05 1e+05 ...
##  $ NAME_CONTRACT_TYPE : chr [1:15000] "Cash loans" "Cash loans" "Revolving loans" "Cash loans" ...
##  $ CODE_GENDER        : chr [1:15000] "M" "F" "M" "F" ...
##  $ FLAG_OWN_CAR       : chr [1:15000] "N" "N" "Y" "N" ...
##  $ FLAG_OWN_REALTY    : chr [1:15000] "Y" "N" "Y" "Y" ...
##  $ CNT_CHILDREN       : num [1:15000] 0 0 0 0 0 0 1 0 0 0 ...
##  $ AMT_INCOME_TOTAL   : num [1:15000] 202500 270000 67500 135000 121500 ...
##  $ AMT_CREDIT         : num [1:15000] 406598 1293503 135000 312683 513000 ...
##  $ AMT_ANNUITY        : num [1:15000] 24701 35699 6750 29687 21866 ...
##  $ NAME_TYPE_SUITE    : chr [1:15000] "Unaccompanied" "Family" "Unaccompanied" "Unaccompanied" ...
##  $ NAME_INCOME_TYPE   : chr [1:15000] "Working" "State servant" "Working" "Working" ...
##  $ NAME_EDUCATION_TYPE: chr [1:15000] "Secondary / secondary special" "Higher education" "Secondary / secondary special" "Secondary / secondary special" ...
##  $ NAME_FAMILY_STATUS : chr [1:15000] "Single / not married" "Married" "Single / not married" "Civil marriage" ...
##  $ NAME_HOUSING_TYPE  : chr [1:15000] "House / apartment" "House / apartment" "House / apartment" "House / apartment" ...

4.2 Chọn biến định tính và biến định lượng làm biến phụ thuộc

4.2.1 Chọn biến định tính làm biến phụ thuộc

4.2.2 Chọn biến định lượng làm biến phụ thuộc

4.3 Thống kê mô tả

4.3.1 Biến NAME_CONTRACT_TYPE (Loại hợp đồng cho vay)

Bảng tần số

table(data$NAME_CONTRACT_TYPE)
## 
##      Cash loans Revolving loans 
##           13543            1457

Theo kết quả thống kê, bảng tần số cho biết số lượng hợp đồng theo 2 loại:

  • Có 13543 khách hàng vay theo hình thức vay tiền mặt

  • Có 1457 khách hàng vay theo hình thức tín dụng quay vòng

Bảng tần suất

table(data$NAME_CONTRACT_TYPE)/sum(table(data$NAME_CONTRACT_TYPE))
## 
##      Cash loans Revolving loans 
##      0.90286667      0.09713333

Biểu đồ

ggplot(data,aes(NAME_CONTRACT_TYPE))+
  geom_bar(color = "lightblue", fill = "lavender")+
   geom_text(aes(label = scales :: percent(after_stat(count/sum(count)))), stat=  'count', color = 'black', vjust = -.5)+
  ylab("Number of Customer")+ xlab("Name Contract Type")

Theo như biểu đồ, có 90% khách hàng vay theo hình thức lấy tiền mặt và 10% còn lại vay theo hình thức tín dụng quay vòng.

4.3.2 Biến CODE_GENDER (Giới tính)

Bảng tần số

table(data$CODE_GENDER)
## 
##    F    M 
## 9855 5145

Theo kết quả thống kê, khách hàng vay vốn được phân theo giới tính như sau:

  • Có 9855 khách hàng giới tính nữ

  • Có 1457 khách hàng giới tính nam

Bảng tần suất

table(data$CODE_GENDER)/sum(table(data$CODE_GENDER))
## 
##     F     M 
## 0.657 0.343

Biểu đồ

ggplot(data,aes(CODE_GENDER))+
  geom_bar(color = "lightblue", fill = "lavender")+
   geom_text(aes(label = scales :: percent(after_stat(count/sum(count)))), stat=  'count', color = 'black', vjust = -.5)+
  ylab("Number of Customer")+ xlab("Gender")

Theo như biểu đồ, có 66% khách hàng vay giới tính nữa và 34% còn lại là khách hàng nam.

4.3.3 Biến FLAG_OWN_CAR (Khách hàng có sở hữu tài sản là ô tô hay không)

Bảng tần số

table(data$FLAG_OWN_CAR)
## 
##    N    Y 
## 9933 5067

Theo kết quả thống kê:

  • Có 9933 khách hàng không có ô tô

  • Có 5067 khách hàng có tài sản là ô tô

Bảng tần suất

table(data$FLAG_OWN_CAR)/sum(table(data$FLAG_OWN_CAR))
## 
##      N      Y 
## 0.6622 0.3378

Biểu đồ

ggplot(data,aes(FLAG_OWN_CAR))+
  geom_bar(color = "lightblue", fill = "lavender")+
   geom_text(aes(label = scales :: percent(after_stat(count/sum(count)))), stat=  'count', color = 'black', vjust = -.5)+
  ylab("Number of Customer")+ xlab("Flag Own Car")

Theo như biểu đồ, có 66% khách hàng không có ô tô và 34% khách hàng còn lại có ô tô.

4.3.4 Biến FLAG_OWN_REALTY (Khách hàng có sở hữu tài sản là bất động sản hay không)

Bảng tần số

table(data$FLAG_OWN_REALTY)
## 
##     N     Y 
##  4562 10438

Theo kết quả thống kê:

  • Có 4562 khách hàng không sở hữu bất động sản

  • Có 10438 khách hàng sở hữu bất động sản

Bảng tần suất

table(data$FLAG_OWN_REALTY)/sum(table(data$FLAG_OWN_REALTY))
## 
##         N         Y 
## 0.3041333 0.6958667

Biểu đồ

ggplot(data,aes(FLAG_OWN_REALTY))+
  geom_bar(color = "lightblue", fill = "lavender")+
   geom_text(aes(label = scales :: percent(after_stat(count/sum(count)))), stat=  'count', color = 'black', vjust = -.5)+
  ylab("Number of Customer")+ xlab("Flag Own Realty")

Theo như biểu đồ, có 70% khách hàng vay sở hữu bất động sản và 30% còn lại là không sở hữu bất động sản.

4.3.5 Biến NAME_INCOME_TYPE (Loại thu nhập của khách hàng)

Bảng tần số

table(data$NAME_INCOME_TYPE)
## 
## Commercial associate            Pensioner        State servant 
##                 3474                 2670                 1005 
##              Student           Unemployed              Working 
##                    1                    2                 7848

Theo kết quả thống kê, bảng tần số cho biết thu nhập của khách hàng đến từ các nguồn sau:

  • Có 3474 khách hàng thu nhập từ lương cộng tác viên thương mại

  • Có 2670 khách hàng thu nhập từ lương hưu

  • Có 1005 khách hàng hưởng lương công chức Nhà nước

  • Có 1 khách hàng là sinh viên

  • Có 2 khách hàng không có việc làm

  • Có 7848 khách hàng có việc làm

Bảng tần suất

table(data$NAME_INCOME_TYPE)/sum(table(data$NAME_INCOME_TYPE))
## 
## Commercial associate            Pensioner        State servant 
##         2.316000e-01         1.780000e-01         6.700000e-02 
##              Student           Unemployed              Working 
##         6.666667e-05         1.333333e-04         5.232000e-01

Biểu đồ

ggplot(data, aes(x = "", fill = NAME_INCOME_TYPE)) +
  geom_bar(color = "lightblue", width = 1, stat = "count") +
  scale_fill_manual(values = c("#F2B5D4", "#B5EAD7", "#F7DD91", "#A9D8E5", "#D1A2FF", "#FFC8A2")) +
  coord_polar("y", start = 0) +
  ylab("Number of Customers") +
  xlab("Name Income Type")

Theo như biểu đồ, khách hàng có việc làm chiếm tỷ lệ nhiều nhất, tiếp đến lần lượt là khách hàng có thu nhập đến từ việc làm cộng tác viên thương mại, khách hàng hưởng lương hưu, khách hàng hưởng lương công chức Nhà nước, chiếm tỷ lệ thấp nhất lần lượt là khách hàng là sinh viên và khách hàng chưa có việc làm.

4.3.6 Biến NAME_FAMILY_STATUS (Tình trạng hôn nhân/gia đình của khách hàng)

Bảng tần số

table(data$NAME_FAMILY_STATUS)
## 
##       Civil marriage              Married            Separated 
##                 1434                 9741                  916 
## Single / not married                Widow 
##                 2147                  762

Theo kết quả thống kê, tình trạng hôn nhân/gia đình của khách hàng được thể hiện như sau:

  • Có 1434 khách hàng trong mối quan hệ hôn nhân dân sự

  • Có 9741 khách hàng đã kết hôn

  • Có 916 khách hàng đã ly hôn

  • Có 2147 khách hàng độc thân/chưa kết hôn

  • Có 762 khách hàng là góa phụ

Bảng tần suất

table(data$NAME_FAMILY_STATUS)/sum(table(data$NAME_FAMILY_STATUS))
## 
##       Civil marriage              Married            Separated 
##           0.09560000           0.64940000           0.06106667 
## Single / not married                Widow 
##           0.14313333           0.05080000

Biểu đồ

ggplot(data,aes(NAME_FAMILY_STATUS))+
  geom_bar(color = "lightblue", fill = "lavender")+
   geom_text(aes(label = scales :: percent(after_stat(count/sum(count)))), stat=  'count', color = 'black', vjust = -.5)+
  ylab("Number of Customer")+ xlab("Name Family Status")

Theo như biểu đồ, 9.6% khách hàng trong mối quan hệ hôn nhân dân sự, 64.9% khách hàng đã kết hôn, 6.1% khách hàng đã ly hôn, 14.3 khách hàng độc thân/chưa kết hôn và 5.1% khách hàng là góa phụ

4.3.7 Một số biến định lượng còn lại

data1<-data.frame(data$AMT_ANNUITY, data$AMT_CREDIT, data$AMT_INCOME_TOTAL)
summary(data1)
##  data.AMT_ANNUITY data.AMT_CREDIT   data.AMT_INCOME_TOTAL
##  Min.   :  2596   Min.   :  45000   Min.   :    25650    
##  1st Qu.: 16457   1st Qu.: 270000   1st Qu.:   112500    
##  Median : 24998   Median : 513531   Median :   144000    
##  Mean   : 27103   Mean   : 601372   Mean   :   175605    
##  3rd Qu.: 34684   3rd Qu.: 810000   3rd Qu.:   202500    
##  Max.   :225000   Max.   :4050000   Max.   :117000000

Từ bảng thống kê mô tả cho thấy:

  • Cột “data.AMT_ANNUITY” cho thấy thông tin về các khoản trả hàng tháng. Trung vị (Median) là 24,998, tức là khoảng 50% số khoản trả hàng tháng nhỏ hơn giá trị này và 50% số khoản trả hàng tháng lớn hơn. Giá trị trung bình (Mean) là 27,103, là tổng của tất cả các khoản trả hàng tháng chia cho số lượng khách hàng. Khoản trả hàng tháng nhỏ nhất là 2,596 và lớn nhất là 225,000.

  • Cột “data.AMT_CREDIT” chứa thông tin về số tiền tín dụng được yêu cầu. Trung vị (Median) là 513,531, tức là khoảng 50% số tiền tín dụng yêu cầu nhỏ hơn giá trị này và 50% số tiền tín dụng yêu cầu cao hơn. Giá trị trung bình (Mean) là 601,372, là tổng của tất cả các khoản tín dụng yêu cầu chia cho số lượng khách hàng. Số tiền tín dụng nhỏ nhất là 45,000 và lớn nhất là 4,050,000.

  • Cột “data.AMT_INCOME_TOTAL” thể hiện tổng thu nhập hàng năm của khách hàng. Trung vị (Median) là 144,000, tức là khoảng 50% số thu nhập hàng năm nhỏ hơn giá trị này và 50% số thu nhập hàng năm cao hơn. Giá trị trung bình (Mean) là 175,605, là tổng của tất cả thu nhập hàng năm chia cho số lượng khách hàng. Thu nhập hàng năm nhỏ nhất là 25,650 và lớn nhất là 117,000,000.

  • Các giá trị “Trung vị 1” và “Trung vị 3” thể hiện phạm vi giữa giá trị nhỏ nhất và trung vị, cũng như giữa trung vị và giá trị lớn nhất. Nó giúp ta hiểu rõ hơn về phân bố của dữ liệu trong từng cột và xác định các vùng dữ liệu chứa phần lớn các giá trị. # Chương 5: Kết luận và khuyến nghị

hist(data$AMT_ANNUITY, main = "Biểu đồ tần số khoản trả hàng tháng của khách hàng",xlab = "Khoản trả hàng tháng", ylab = "Count", col = "lavender")

Dựa vào đồ thị, phân phối của khoản trả hàng tháng có một số khoản trả khá nhỏ. Số lượng khoản trả hàng tháng tăng dần khi giá trị gia tăng đến khoảng 25,000 và giảm sau đó. Có một số khoản trả hàng tháng lớn, nhưng rất hiếm.

hist(data$AMT_CREDIT, main = "Biểu đồ tần số hạn mức tín dụng của khách hàng",xlab = "Hạn mức tín dụng", ylab = "Count", col = "lavender")

hist(data$AMT_INCOME_TOTAL, main = "Biểu đồ tần số tổng thu nhập hàng năm của khách hàng",xlab = "Tổng thu nhập hàng năm", ylab = "Count", col = "lavender")

4.4 Thống kê mô tả 2 biến