## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

Περιγραφή του Dataset:

Το dataset περιέχει δημογραφικά, οικονομικά και πιστωτικά στοιχεία για άτομα που έχουν αιτηθεί δάνειο. https://www.kaggle.com/datasets/udaymalviya/bank-loan-data.



Αιτιολόγηση της Επιλογής για Επιχειρηματική Αναλυτική:

Το συγκεκριμένο dataset είναι εξαιρετικά χρήσιμο για την επιχειρηματική αναλυτική καθώς επιτρέπει:

  1. Αξιολόγηση πιστοληπτικής ικανότητας (credit scoring)

  2. Πρόβλεψη πιθανότητας χρεοκοπίας ενός πελάτη

  3. Βελτιστοποίηση επιτοκίων και όρων δανειοδότησης με βάση το ρίσκο

  4. Διαχείριση ρίσκου και βελτίωση στρατηγικών ανάκτησης οφειλών


Πιθανά Επιχειρηματικά Ερωτήματα:

Ποιοι παράγοντες επηρεάζουν περισσότερο την έγκριση ενός δανείου;

Υπάρχει συσχέτιση μεταξύ του επιτοκίου και του κινδύνου αθέτησης πληρωμών;

Ποιο δημογραφικό προφίλ δανειοληπτών έχει τη μεγαλύτερη πιθανότητα αποπληρωμής;

Υπάρχει διαφορά στη χορήγηση δανείων μεταξύ ατόμων με διαφορετικά επίπεδα εκπαίδευσης ή επαγγελματικής εμπειρίας;


Περιγραφή Μεταβλητών:

  • person_age: Ηλικία του ατόμου που αιτείται το δάνειο. Τύπος δεδομένων: αριθμητική (int/float). Εύρος τιμών: 18+ έτη.

  • person_gender: Φύλο του ατόμου. Τύπος δεδομένων: κατηγορική (string). Δυνατές τιμές: “Male”, “Female”.

  • person_education: Επίπεδο εκπαίδευσης του ατόμου. Τύπος δεδομένων: κατηγορική (string). Δυνατές τιμές: “High School”, “Bachelor”, “Master”, κ.ά.

  • person_income: Ετήσιο εισόδημα του ατόμου σε δολάρια. Τύπος δεδομένων: αριθμητική (float).

  • person_emp_exp: Χρόνια επαγγελματικής εμπειρίας του ατόμου. Τύπος δεδομένων: αριθμητική (float). Εύρος τιμών: 0+ έτη.

  • person_home_ownership: Κατάσταση ιδιοκτησίας κατοικίας. Τύπος δεδομένων: κατηγορική (string). Δυνατές τιμές: “RENT”, “OWN”, “MORTGAGE”, κ.ά.

  • loan_amnt: Ποσό του δανείου που αιτήθηκε το άτομο, σε δολάρια. Τύπος δεδομένων: αριθμητική (float).

  • loan_intent: Σκοπός για τον οποίο λαμβάνεται το δάνειο. Τύπος δεδομένων: κατηγορική (string). Δυνατές τιμές: “PERSONAL”, “EDUCATION”, “MEDICAL”, κ.ά.

  • loan_int_rate: Επιτόκιο του δανείου σε ποσοστό (%). Τύπος δεδομένων: αριθμητική (float). Εύρος τιμών: 0-100%.

  • loan_percent_income: Ποσοστό του ετήσιου εισοδήματος που διατίθεται για την αποπληρωμή του δανείου. Τύπος δεδομένων: αριθμητική (float). Εύρος τιμών: 0-1.

  • cb_person_cred_hist_length: Μήκος του πιστωτικού ιστορικού του ατόμου, σε έτη. Τύπος δεδομένων: αριθμητική (int). Εύρος τιμών: 0+ έτη.

  • credit_score: Πιστωτική βαθμολογία του ατόμου. Τύπος δεδομένων: αριθμητική (int). Τυπικό εύρος τιμών: 300-850.

  • previous_loan_defaults_on_file: Υπάρχουν προηγούμενες αθετήσεις πληρωμών; Τύπος δεδομένων: κατηγορική (string). Δυνατές τιμές: “Yes”, “No”.

  • loan_status: Κατάσταση αποπληρωμής του δανείου. Τύπος δεδομένων: δυαδική (0: Αθέτηση πληρωμής, 1: Κανονική αποπληρωμή).

Περιγραφικά Στατιστικά

summary(loandata)
##    person_age     person_gender      person_education   person_income    
##  Min.   : 20.00   Length:45000       Length:45000       Min.   :   8000  
##  1st Qu.: 24.00   Class :character   Class :character   1st Qu.:  47204  
##  Median : 26.00   Mode  :character   Mode  :character   Median :  67048  
##  Mean   : 27.76                                         Mean   :  80319  
##  3rd Qu.: 30.00                                         3rd Qu.:  95789  
##  Max.   :144.00                                         Max.   :7200766  
##  person_emp_exp   person_home_ownership   loan_amnt     loan_intent       
##  Min.   :  0.00   Length:45000          Min.   :  500   Length:45000      
##  1st Qu.:  1.00   Class :character      1st Qu.: 5000   Class :character  
##  Median :  4.00   Mode  :character      Median : 8000   Mode  :character  
##  Mean   :  5.41                         Mean   : 9583                     
##  3rd Qu.:  8.00                         3rd Qu.:12237                     
##  Max.   :125.00                         Max.   :35000                     
##  loan_int_rate   loan_percent_income cb_person_cred_hist_length  credit_score  
##  Min.   : 5.42   Min.   :0.0000      Min.   : 2.000             Min.   :390.0  
##  1st Qu.: 8.59   1st Qu.:0.0700      1st Qu.: 3.000             1st Qu.:601.0  
##  Median :11.01   Median :0.1200      Median : 4.000             Median :640.0  
##  Mean   :11.01   Mean   :0.1397      Mean   : 5.867             Mean   :632.6  
##  3rd Qu.:12.99   3rd Qu.:0.1900      3rd Qu.: 8.000             3rd Qu.:670.0  
##  Max.   :20.00   Max.   :0.6600      Max.   :30.000             Max.   :850.0  
##  previous_loan_defaults_on_file  loan_status    
##  Length:45000                   Min.   :0.0000  
##  Class :character               1st Qu.:0.0000  
##  Mode  :character               Median :0.0000  
##                                 Mean   :0.2222  
##                                 3rd Qu.:0.0000  
##                                 Max.   :1.0000


Scatter Plot

library(ggplot2)
ggplot(loandata, aes(x = person_age, y = person_income)) + geom_point()



Παρατηρείται ότι το μεγαλύτερο μέρος των δεδομένων συγκεντρώνεται σε χαμηλές τιμές εισοδήματος.

Υπάρχουν ορισμένες ακραίες τιμές (outliers) ιδιαίτερα σε άτομα με εξαιρετικά υψηλό εισόδημα και μεγάλη ηλικία (>100 έτη), που ενδεχομένως να είναι σφάλματα ή εξαιρετικά σπάνιες περιπτώσεις.



Scatter Plot 2

library(ggplot2)
ggplot(loandata, aes(x = loan_amnt, y = person_education)) + geom_point()



Το ποσό δανείου κατανέμεται ομοιόμορφα μεταξύ των επιπέδων εκπαίδευσης.

Δεν φαίνεται ξεκάθαρη σχέση μεταξύ επιπέδου εκπαίδευσης και ποσού δανείου.

Πιθανώς απαιτείται διαφορετική απεικόνιση (π.χ. boxplot) για να διερευνηθεί καλύτερα η κατανομή των ποσών ανά κατηγορία.



Box Plot

ggplot(loandata, aes(x = loan_amnt, y = person_age, fill = "blue")) +
  geom_boxplot() +
  theme_minimal() +
  scale_fill_brewer(palette = "Set3")



Τα περισσότερα δεδομένα βρίσκονται κοντά στον πυθμένα του boxplot, υποδηλώνοντας ότι το μεγαλύτερο μέρος των δανείων αφορά άτομα σε χαμηλότερες ηλικίες.

Υπάρχουν σημαντικά outliers σε υψηλές ηλικίες, που ίσως χρειάζονται περαιτέρω ανάλυση.

Η διανομή του ποσού δανείου φαίνεται συγκεντρωμένη σε μια συγκεκριμένη περιοχή με λίγες εξαιρέσεις.



Histogram

ggplot(loandata, aes(loan_amnt)) +
      geom_histogram()
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.



Τα περισσότερα δάνεια φαίνεται να είναι συγκεντρωμένα σε χαμηλότερα ποσά (κάτω από 15.000). Υπάρχουν επίσης μερικές κορυφές (spikes), πιθανότατα λόγω συγκεκριμένων σταθερών ποσών δανείου που επιλέγονται συχνά. Διασπορά και Συμμετρία Το διάγραμμα δείχνει μια ασύμμετρη κατανομή, με ουρά προς τα δεξιά (δεξιά λοξότητα). Αυτό σημαίνει ότι υπάρχουν μερικά δάνεια με πολύ υψηλά ποσά, αλλά είναι λιγότερο συχνά. Ρυθμίσεις του Histogram Η προεπιλεγμένη τιμή bins = 30 έχει χρησιμοποιηθεί για την ομαδοποίηση των δεδομένων. Ενδέχεται να χρειαστεί προσαρμογή της παραμέτρου binwidth για πιο ομαλή παρουσίαση.



Barchart

ggplot(loandata, aes(loan_intent)) +
      geom_bar()



Εκπαίδευση (EDUCATION) και Ιατρικά Έξοδα (MEDICAL) είναι από τους πιο συχνούς σκοπούς δανείων. Η κατηγορία HOMEIMPROVEMENT έχει το μικρότερο αριθμό δανείων, δηλώνοντας ότι λιγότεροι δανειολήπτες παίρνουν δάνειο για ανακαίνιση σπιτιού. Οι υπόλοιπες κατηγορίες έχουν σχετικά ισοκατανεμημένο αριθμό δανείων, χωρίς μεγάλες διαφορές μεταξύ τους. Συμπέρασμα Το διάγραμμα μας βοηθά να κατανοήσουμε τις προτεραιότητες των δανειοληπτών. Παρατηρούμε ότι οι πιο συχνοί λόγοι λήψης δανείων σχετίζονται με εκπαίδευση και ιατρικά έξοδα, ενώ οι λιγότεροι δανειολήπτες επιλέγουν δάνεια για βελτίωση κατοικίας