Το dataset περιλαμβάνει πληροφορίες για 45.000 πελάτες που έχουν αιτηθεί για προσωπικά δάνεια. Περιλαμβάνει χαρακτηριστικά όπως ηλικία, εισόδημα, σκοπός δανείου, εμπειρία, ιστορικό πίστωσης, και αν ο πελάτης αποπλήρωσε ή όχι το δάνειό του.
Πηγή: Το dataset διατίθεται από το Kaggle.
Η πρόβλεψη πιθανής καθυστέρησης πληρωμής ενός δανείου είναι κρίσιμη για τα χρηματοπιστωτικά ιδρύματα. Μέσω αυτής της ανάλυσης, μπορούμε να εντοπίσουμε προφίλ πελατών με αυξημένο ρίσκο, να διαμορφώσουμε καλύτερες πολιτικές αξιολόγησης και να βελτιώσουμε τις διαδικασίες έγκρισης δανείων.
Πιθανά Επιχειρηματικά Ερωτήματα
| Μεταβλητή | Τύπος |
|---|---|
| person_age | Αριθμητικό |
| person_gender | Κατηγορική |
| person_education | Κατηγορική |
| person_income | Αριθμητικό |
| person_emp_exp | Αριθμητικό |
| person_home_ownership | Κατηγορική |
| loan_amnt | Αριθμητικό |
| loan_intent | Κατηγορική |
| loan_int_rate | Αριθμητικό |
| loan_percent_income | Αριθμητικό |
| cb_person_cred_hist_length | Αριθμητικό |
| credit_score | Αριθμητικό |
| previous_loan_defaults_on_file | Κατηγορική |
| loan_status | Δυαδικό |
## person_age person_gender person_education person_income
## Min. : 20.00 Length:45000 Length:45000 Min. : 8000
## 1st Qu.: 24.00 Class :character Class :character 1st Qu.: 47204
## Median : 26.00 Mode :character Mode :character Median : 67048
## Mean : 27.76 Mean : 80319
## 3rd Qu.: 30.00 3rd Qu.: 95789
## Max. :144.00 Max. :7200766
## person_emp_exp person_home_ownership loan_amnt loan_intent
## Min. : 0.00 Length:45000 Min. : 500 Length:45000
## 1st Qu.: 1.00 Class :character 1st Qu.: 5000 Class :character
## Median : 4.00 Mode :character Median : 8000 Mode :character
## Mean : 5.41 Mean : 9583
## 3rd Qu.: 8.00 3rd Qu.:12237
## Max. :125.00 Max. :35000
## loan_int_rate loan_percent_income cb_person_cred_hist_length credit_score
## Min. : 5.42 Min. :0.0000 Min. : 2.000 Min. :390.0
## 1st Qu.: 8.59 1st Qu.:0.0700 1st Qu.: 3.000 1st Qu.:601.0
## Median :11.01 Median :0.1200 Median : 4.000 Median :640.0
## Mean :11.01 Mean :0.1397 Mean : 5.867 Mean :632.6
## 3rd Qu.:12.99 3rd Qu.:0.1900 3rd Qu.: 8.000 3rd Qu.:670.0
## Max. :20.00 Max. :0.6600 Max. :30.000 Max. :850.0
## previous_loan_defaults_on_file loan_status
## Length:45000 Min. :0.0000
## Class :character 1st Qu.:0.0000
## Mode :character Median :0.0000
## Mean :0.2222
## 3rd Qu.:0.0000
## Max. :1.0000
ggplot(loan_data_clean, aes(x = person_age, y = person_emp_exp, color = factor(loan_status))) +
geom_jitter(alpha = 0.5, width = 0.3, height = 0.3) +
labs(title = "Years of Experience vs. Age (Colored by Loan Status)",
x = "Age", y = "Employment Experience",
color = "Loan Status\n(0 = No Default, 1 = Defaulted)") +
scale_color_manual(values = c("red", "blue"),
labels = c("No Default", "Defaulted")) +
theme_minimal()Διάγραμμα 1. Σχέση Ηλικίας και Εμπειρίας ανά Κατάσταση Δανείου.
Σχόλιο: Οι περισσότερες καθυστερήσεις συμβαίνουν σε άτομα με χαμηλή εμπειρία και ηλικία.
ggplot(loan_data_clean, aes(x = person_home_ownership, y = loan_amnt, fill = factor(loan_status))) +
geom_boxplot() +
labs(title = "Loan Amount by Home Ownership",
x = "Home Ownership", y = "Loan Amount ($)",
fill = "Loan Status") +
theme_minimal()Διάγραμμα 2. Ποσό Δανείου ανά Κατοχή Κατοικίας.
Σχόλιο: Οι ιδιοκτήτες κατοικίας φαίνεται να λαμβάνουν μικρότερα δάνεια με λιγότερες καθυστερήσεις, ενώ οι ενοικιαστές εμφανίζουν μεγαλύτερη διακύμανση και υψηλότερο ρίσκο καθυστέρησης.
ggplot(loan_data_clean, aes(x = person_income, fill = factor(loan_status))) +
geom_histogram(position = "identity", alpha = 0.6, bins = 50) +
labs(title = "Income Distribution by Loan Status",
x = "Income", y = "Count", fill = "Loan Status") +
theme_minimal()Διάγραμμα 3. Κατανομή Εισοδήματος με βάση την Κατάσταση Δανείου.
Σχόλιο: Οι χαμηλότεροι μισθοί σχετίζονται με υψηλότερο ποσοστό καθυστέρησης.
ggplot(loan_data_clean, aes(x = person_education, fill = factor(loan_status))) +
geom_bar(position = "dodge", color = "black") +
labs(title = "Loan Status by Person Education",
x = "Education Level", y = "Count",
fill = "Loan Status\n(0 = No Default, 1 = Defaulted)") +
theme_light()Διάγραμμα 4. Κατάσταση Δανείου ως προς την Εκπαίδευση.
Σχόλιο: Οι δανειολήπτες με υψηλότερη εκπαίδευση φαίνεται να έχουν μικρότερα ποσοστά καθυστέρησης.