1 Giới thiệu & Mục tiêu Phân tích

Báo cáo này thực hiện phân tích khám phá (EDA) trên bộ dữ liệu cho vay nhằm mục đích:

[1] Hiểu rõ chân dung khách hàng: Xác định các đặc điểm nhân khẩu học và tài chính chính của người vay.

[2] Phân tích danh mục cho vay: Xem xét sự phân bổ của các khoản vay theo mục đích, số tiền, và vị trí địa lý.

[3] Tìm kiếm các mối quan hệ tiềm ẩn: Khám phá mối liên hệ giữa các yếu tố như thu nhập, điểm tín dụng, và số tiền vay để rút ra các insight ban đầu.

1.1 Tải & Khảo sát chất lượng dữ liệu

1.2 Chuẩn hoá

2 Phân tổ cho các biến chính

2.1 Phân tổ theo Tỷ lệ Nợ trên Thu nhập (dti_band)

Chỉ số DTI (Debt-to-Income) là một thước đo về gánh nặng tài chính của người vay. Nó cho biết bao nhiêu phần trăm thu nhập hàng tháng của một người được dùng để trả nợ.

Chúng tôi chia DTI thành các khoảng có ý nghĩa kinh doanh, với các điểm chia tập trung vào các ngưỡng tâm lý và ngưỡng rủi ro phổ biến (5%, 10%, 20%, 30%, 40%).

Giả thuyết: Chúng tôi giả thuyết rằng có một mối tương quan dương mạnh mẽ giữa dti_band và tỷ lệ vỡ nợ. Khi gánh nặng nợ của khách hàng tăng lên (di chuyển sang các nhóm DTI cao hơn), khả năng họ không trả được nợ sẽ tăng lên một cách rõ rệt.

2.2 Phân tổ theo Thâm niên làm việc (emp_band)

Thâm niên làm việc (emp_years) là một chỉ báo quan trọng về sự ổn định trong sự nghiệp và thu nhập của người vay. Một người có kinh nghiệm làm việc lâu năm, đặc biệt là tại cùng một nơi, thường có nguồn thu nhập ổn định và dễ dự đoán hơn so với người mới đi làm hoặc thường xuyên thay đổi công việc.

Việc phân tổ thâm niên thành các nhóm như <1 năm, 1–3 năm, 3–5 năm… giúp chúng ta so sánh rủi ro giữa các giai đoạn khác nhau trong sự nghiệp của một người.

Giả thuyết: Chúng tôi giả thuyết rằng có một mối tương quan nghịch giữa emp_band và tỷ lệ vỡ nợ. Khách hàng có thâm niên làm việc càng lâu (10y+) thì càng có sự ổn định tài chính, do đó tỷ lệ vỡ nợ của họ sẽ thấp hơn so với các nhóm có thâm niên ngắn hơn, đặc biệt là nhóm mới đi làm (<1y).

2.3 Phân tổ theo Thu nhập (rev_band)

Thu nhập (revenue) là yếu tố cơ bản nhất quyết định khả năng trả nợ. Người có thu nhập cao hơn rõ ràng có một vùng đệm tài chính lớn hơn để đối phó với các cú sốc bất ngờ và có khả năng chi trả các khoản nợ dễ dàng hơn.

Chúng tôi chia thu nhập thành các khoảng (ví dụ: <40k, 40-60k…) để phân loại khách hàng vào các nhóm thu nhập khác nhau (thấp, trung bình, khá, cao) và so sánh hành vi của họ.

Giả thuyết: Chúng tôi giả thuyết rằng có một mối tương quan nghịch rõ rệt giữa rev_band và tỷ lệ vỡ nợ. Nhóm khách hàng có thu nhập cao nhất (>200k) sẽ có tỷ lệ vỡ nợ thấp nhất, và ngược lại, nhóm có thu nhập thấp nhất (<40k) sẽ có tỷ lệ vỡ nợ cao nhất.

2.4 Phân tổ theo Tỷ lệ Vay trên Thu nhập (lti_band)

Chỉ số LTI (Loan-to-Income) là một chỉ số rủi ro do chúng ta tự tạo ra (lti = loan_amnt / revenue). Nó đo lường quy mô của khoản vay so với thu nhập hàng năm của người vay, trực tiếp thể hiện mức độ gánh nặng mà khoản vay này tạo ra.

Việc phân tổ LTI giúp định lượng hóa mức độ rủi ro này thành các nhóm cụ thể.

Giả thuyết: Chúng tôi giả thuyết rằng có một mối tương quan dương rất mạnh giữa lti_band và tỷ lệ vỡ nợ. Khi quy mô khoản vay càng lớn so với thu nhập của khách hàng, áp lực trả nợ càng cao và khả năng vỡ nợ sẽ tăng theo cấp số nhân. Chúng tôi kỳ vọng nhóm >30% sẽ là nhóm có rủi ro cao vượt trội so với các nhóm còn lại.

3 EDA mô tả

3.1 Phân bổ Thu nhập năm

Khối lượng lớn nằm quanh dải ~40k–100k USD/năm. ⇒ core segment của danh mục.

Đuôi phải dài (có người >200k) nhưng rất ít so với toàn bộ.

3.2 Phân bổ thâm niên làm việc

Nhóm 10+ years chiếm tỷ trọng vô cùng cao.

Nhiều khách ở nhóm <3 năm.

Khoảng 3–8 năm thưa dần.

3.3 Phân bổ điểm FICO

Phân phối lệch phải (nhiều ở ~660–710, thưa dần đến ~840).

Phần lớn khách thuộc prime/near-prime (không có nhiều subprime <650).

3.4 Phân bổ số tiền vay

Phân bố chủ yếu quanh vùng $5k, $10k, $15k, $20k, $25k, $30k, $35k, tuy nhiên còn có sự phân hóa tương đối lớnlớn.

Khối lượng lớn quanh mốc $5k - $10k.

3.5 Mục đích vay

[1] Debt consolidation chiếm tỷ trọng lớn với vị thế tuyệt đối [2] credit_card, home_improvement chiếm tỷ trọng tương đối lớn khi so với tổng quy mô. [3] Các mục đích còn lại rất nhỏ.

3.6 Top 10 bang có nhiều khoản vay nhất

CA, TX, NY, FL chiếm phần lớn danh mục → rủi ro tập trung địa lý.

3.7 Biểu đồ phân tán Số tiền vay ~ Thu nhập

[1] Tương quan dương: Có một xu hướng rõ ràng là thu nhập càng cao, số tiền vay càng lớn. Các điểm dữ liệu tạo thành một đám mây có xu hướng đi lên từ trái sang phải. Điều này hoàn toàn hợp lý: người có thu nhập cao hơn có khả năng trả những khoản nợ lớn hơn.

[2] Mật độ tập trung ở vùng thu nhập thấp và trung bình: Khu vực bên trái của biểu đồ (thu nhập dưới $100,000) có mật độ điểm dày đặc nhất. Điều này củng cố lại insight từ biểu đồ histogram trước đó: phần lớn khách hàng tập trung ở nhóm thu nhập này.

[3] Hạn mức cho vay (Có thể có): Có một “đường biên” gần như nằm ngang ở mức vay $35,000 - $40,000. Dù thu nhập tăng lên rất cao (phía bên phải biểu đồ), số tiền vay dường như không vượt quá ngưỡng này.

Giả thuyết 1: Đây có thể là hạn mức cho vay tối đa cho sản phẩm này.

Giả thuyết 2: Các khoản vay trên $40,000 có thể thuộc một sản phẩm khác không có trong bộ dữ liệu này.

Hình dạng tam giác: Biểu đồ có hình dạng rộng hơn ở phía thu nhập thấp và hẹp dần khi thu nhập tăng.

Ý nghĩa: Ở mức thu nhập thấp (ví dụ: $50,000), khách hàng vay nhiều mức tiền khác nhau (từ rất nhỏ đến khá lớn). Nhưng ở mức thu nhập rất cao (ví dụ: $200,000), dường như họ chỉ vay những khoản tiền lớn.

4 Bảng rủi ro (Default) theo các biến

4.1 DTI bands

[1] Rủi ro thấp ở DTI thấp: Những khách hàng có gánh nặng nợ thấp (DTI dưới 15%) có tỷ lệ vỡ nợ tương đối ổn định và thấp nhất, khoảng 14-16%.

[2] Điểm uốn (Inflection Point): Khi DTI vượt qua ngưỡng 20%, tỷ lệ vỡ nợ bắt đầu tăng vọt. Từ 18.93% ở nhóm “15-20”, nó nhảy lên gần 23% ở nhóm “20-30”.

[3] Vùng rủi ro cao: Các nhóm khách hàng có DTI trên 30% là những nhóm rủi ro nhất. Đặc biệt, nhóm có DTI trên 40% có tỷ lệ vỡ nợ lên tới 30.55% – nghĩa là cứ 10 người trong nhóm này, có tới 3 người không trả được nợ. Tỷ lệ này cao hơn gấp đôi so với nhóm an toàn nhất.

4.2 FICO groups

Nhóm khách hàng Exceptional có tỷ lệ vỡ nợ chỉ 6.2%. Đây là nhóm khách hàng an toàn nhất trong khi nhóm Fair có tỷ lệ vỡ nợ lên tới 26.1%.

=> Rủi ro vỡ nợ của một khách hàng Fair cao hơn gấp 4 lần so với một khách hàng Exceptional.

Khi đi từ nhóm Fair lên Good, rủi ro giảm mạnh từ 26.1% xuống 19.9%. Khi đi từ Good lên “Very Good”, rủi ro giảm mạnh một lần nữa xuống chỉ còn 9.8%.

=> FICO không chỉ là một con số, thực sự phản ánh rất chính xác hành vi tài chính và khả năng trả nợ của khách hàng.

4.3 Purpose

5 Ma trận tương quan các biến số