##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
Το dataset περιέχει δημογραφικά, οικονομικά και πιστωτικά στοιχεία για άτομα που έχουν αιτηθεί δάνειο. https://www.kaggle.com/datasets/udaymalviya/bank-loan-data.
Το συγκεκριμένο dataset είναι εξαιρετικά χρήσιμο για την επιχειρηματική αναλυτική καθώς επιτρέπει:
Αξιολόγηση πιστοληπτικής ικανότητας (credit scoring)
Πρόβλεψη πιθανότητας χρεοκοπίας ενός πελάτη
Βελτιστοποίηση επιτοκίων και όρων δανειοδότησης με βάση το ρίσκο
Διαχείριση ρίσκου και βελτίωση στρατηγικών ανάκτησης οφειλών
Ποιοι παράγοντες επηρεάζουν περισσότερο την έγκριση ενός δανείου;
Υπάρχει συσχέτιση μεταξύ του επιτοκίου και του κινδύνου αθέτησης πληρωμών;
Ποιο δημογραφικό προφίλ δανειοληπτών έχει τη μεγαλύτερη πιθανότητα αποπληρωμής;
Υπάρχει διαφορά στη χορήγηση δανείων μεταξύ ατόμων με διαφορετικά επίπεδα εκπαίδευσης ή επαγγελματικής εμπειρίας;
person_age: Ηλικία του ατόμου που αιτείται το δάνειο. Τύπος δεδομένων: αριθμητική (int/float). Εύρος τιμών: 18+ έτη.
person_gender: Φύλο του ατόμου. Τύπος δεδομένων: κατηγορική (string). Δυνατές τιμές: “Male”, “Female”.
person_education: Επίπεδο εκπαίδευσης του ατόμου. Τύπος δεδομένων: κατηγορική (string). Δυνατές τιμές: “High School”, “Bachelor”, “Master”, κ.ά.
person_income: Ετήσιο εισόδημα του ατόμου σε δολάρια. Τύπος δεδομένων: αριθμητική (float).
person_emp_exp: Χρόνια επαγγελματικής εμπειρίας του ατόμου. Τύπος δεδομένων: αριθμητική (float). Εύρος τιμών: 0+ έτη.
person_home_ownership: Κατάσταση ιδιοκτησίας κατοικίας. Τύπος δεδομένων: κατηγορική (string). Δυνατές τιμές: “RENT”, “OWN”, “MORTGAGE”, κ.ά.
loan_amnt: Ποσό του δανείου που αιτήθηκε το άτομο, σε δολάρια. Τύπος δεδομένων: αριθμητική (float).
loan_intent: Σκοπός για τον οποίο λαμβάνεται το δάνειο. Τύπος δεδομένων: κατηγορική (string). Δυνατές τιμές: “PERSONAL”, “EDUCATION”, “MEDICAL”, κ.ά.
loan_int_rate: Επιτόκιο του δανείου σε ποσοστό (%). Τύπος δεδομένων: αριθμητική (float). Εύρος τιμών: 0-100%.
loan_percent_income: Ποσοστό του ετήσιου εισοδήματος που διατίθεται για την αποπληρωμή του δανείου. Τύπος δεδομένων: αριθμητική (float). Εύρος τιμών: 0-1.
cb_person_cred_hist_length: Μήκος του πιστωτικού ιστορικού του ατόμου, σε έτη. Τύπος δεδομένων: αριθμητική (int). Εύρος τιμών: 0+ έτη.
credit_score: Πιστωτική βαθμολογία του ατόμου. Τύπος δεδομένων: αριθμητική (int). Τυπικό εύρος τιμών: 300-850.
previous_loan_defaults_on_file: Υπάρχουν προηγούμενες αθετήσεις πληρωμών; Τύπος δεδομένων: κατηγορική (string). Δυνατές τιμές: “Yes”, “No”.
loan_status: Κατάσταση αποπληρωμής του δανείου. Τύπος δεδομένων:
δυαδική (0: Αθέτηση πληρωμής, 1: Κανονική αποπληρωμή).
summary(loandata)
## person_age person_gender person_education person_income
## Min. : 20.00 Length:45000 Length:45000 Min. : 8000
## 1st Qu.: 24.00 Class :character Class :character 1st Qu.: 47204
## Median : 26.00 Mode :character Mode :character Median : 67048
## Mean : 27.76 Mean : 80319
## 3rd Qu.: 30.00 3rd Qu.: 95789
## Max. :144.00 Max. :7200766
## person_emp_exp person_home_ownership loan_amnt loan_intent
## Min. : 0.00 Length:45000 Min. : 500 Length:45000
## 1st Qu.: 1.00 Class :character 1st Qu.: 5000 Class :character
## Median : 4.00 Mode :character Median : 8000 Mode :character
## Mean : 5.41 Mean : 9583
## 3rd Qu.: 8.00 3rd Qu.:12237
## Max. :125.00 Max. :35000
## loan_int_rate loan_percent_income cb_person_cred_hist_length credit_score
## Min. : 5.42 Min. :0.0000 Min. : 2.000 Min. :390.0
## 1st Qu.: 8.59 1st Qu.:0.0700 1st Qu.: 3.000 1st Qu.:601.0
## Median :11.01 Median :0.1200 Median : 4.000 Median :640.0
## Mean :11.01 Mean :0.1397 Mean : 5.867 Mean :632.6
## 3rd Qu.:12.99 3rd Qu.:0.1900 3rd Qu.: 8.000 3rd Qu.:670.0
## Max. :20.00 Max. :0.6600 Max. :30.000 Max. :850.0
## previous_loan_defaults_on_file loan_status
## Length:45000 Min. :0.0000
## Class :character 1st Qu.:0.0000
## Mode :character Median :0.0000
## Mean :0.2222
## 3rd Qu.:0.0000
## Max. :1.0000
library(ggplot2)
ggplot(loandata, aes(x = person_age, y = person_income)) + geom_point()
Παρατηρείται ότι το μεγαλύτερο μέρος των δεδομένων συγκεντρώνεται σε χαμηλές τιμές εισοδήματος.
Υπάρχουν ορισμένες ακραίες τιμές (outliers) ιδιαίτερα σε άτομα με εξαιρετικά υψηλό εισόδημα και μεγάλη ηλικία (>100 έτη), που ενδεχομένως να είναι σφάλματα ή εξαιρετικά σπάνιες περιπτώσεις.
library(ggplot2)
ggplot(loandata, aes(x = loan_amnt, y = person_education)) + geom_point()
Το ποσό δανείου κατανέμεται ομοιόμορφα μεταξύ των επιπέδων εκπαίδευσης.
Δεν φαίνεται ξεκάθαρη σχέση μεταξύ επιπέδου εκπαίδευσης και ποσού δανείου.
Πιθανώς απαιτείται διαφορετική απεικόνιση (π.χ. boxplot) για να διερευνηθεί καλύτερα η κατανομή των ποσών ανά κατηγορία.
ggplot(loandata, aes(x = loan_amnt, y = person_age, fill = "blue")) +
geom_boxplot() +
theme_minimal() +
scale_fill_brewer(palette = "Set3")
Τα περισσότερα δεδομένα βρίσκονται κοντά στον πυθμένα του boxplot, υποδηλώνοντας ότι το μεγαλύτερο μέρος των δανείων αφορά άτομα σε χαμηλότερες ηλικίες.
Υπάρχουν σημαντικά outliers σε υψηλές ηλικίες, που ίσως χρειάζονται περαιτέρω ανάλυση.
Η διανομή του ποσού δανείου φαίνεται συγκεντρωμένη σε μια συγκεκριμένη περιοχή με λίγες εξαιρέσεις.
ggplot(loandata, aes(loan_amnt)) +
geom_histogram()
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
Τα περισσότερα δάνεια φαίνεται να είναι συγκεντρωμένα σε χαμηλότερα ποσά (κάτω από 15.000). Υπάρχουν επίσης μερικές κορυφές (spikes), πιθανότατα λόγω συγκεκριμένων σταθερών ποσών δανείου που επιλέγονται συχνά. Διασπορά και Συμμετρία Το διάγραμμα δείχνει μια ασύμμετρη κατανομή, με ουρά προς τα δεξιά (δεξιά λοξότητα). Αυτό σημαίνει ότι υπάρχουν μερικά δάνεια με πολύ υψηλά ποσά, αλλά είναι λιγότερο συχνά. Ρυθμίσεις του Histogram Η προεπιλεγμένη τιμή bins = 30 έχει χρησιμοποιηθεί για την ομαδοποίηση των δεδομένων. Ενδέχεται να χρειαστεί προσαρμογή της παραμέτρου binwidth για πιο ομαλή παρουσίαση.
ggplot(loandata, aes(loan_intent)) +
geom_bar()
Εκπαίδευση (EDUCATION) και Ιατρικά Έξοδα (MEDICAL) είναι από τους πιο συχνούς σκοπούς δανείων. Η κατηγορία HOMEIMPROVEMENT έχει το μικρότερο αριθμό δανείων, δηλώνοντας ότι λιγότεροι δανειολήπτες παίρνουν δάνειο για ανακαίνιση σπιτιού. Οι υπόλοιπες κατηγορίες έχουν σχετικά ισοκατανεμημένο αριθμό δανείων, χωρίς μεγάλες διαφορές μεταξύ τους. Συμπέρασμα Το διάγραμμα μας βοηθά να κατανοήσουμε τις προτεραιότητες των δανειοληπτών. Παρατηρούμε ότι οι πιο συχνοί λόγοι λήψης δανείων σχετίζονται με εκπαίδευση και ιατρικά έξοδα, ενώ οι λιγότεροι δανειολήπτες επιλέγουν δάνεια για βελτίωση κατοικίας