Περιγραφή του Dataset και Πηγή

Το dataset περιλαμβάνει πληροφορίες για 45.000 πελάτες που έχουν αιτηθεί για προσωπικά δάνεια. Περιλαμβάνει χαρακτηριστικά όπως ηλικία, εισόδημα, σκοπός δανείου, εμπειρία, ιστορικό πίστωσης, και αν ο πελάτης αποπλήρωσε ή όχι το δάνειό του.

Πηγή: Το dataset διατίθεται από το Kaggle.

Επιχειρηματική Αναλυτική – Αιτιολόγηση Επιλογής

Η πρόβλεψη πιθανής καθυστέρησης πληρωμής ενός δανείου είναι κρίσιμη για τα χρηματοπιστωτικά ιδρύματα. Μέσω αυτής της ανάλυσης, μπορούμε να εντοπίσουμε προφίλ πελατών με αυξημένο ρίσκο, να διαμορφώσουμε καλύτερες πολιτικές αξιολόγησης και να βελτιώσουμε τις διαδικασίες έγκρισης δανείων.

Πιθανά Επιχειρηματικά Ερωτήματα

  • Ποιοι παράγοντες αυξάνουν τον κίνδυνο αθέτησης πληρωμής;
  • Ποιοι πελάτες είναι περισσότερο αξιόπιστοι;
  • Υπάρχουν δημογραφικά πρότυπα που επηρεάζουν το ρίσκο;

Διάβασμα δεδομένων

loan_data <- read.csv("C:/Users/User/Downloads/loan_data.csv")

Περιγραφή Μεταβλητών

Πίνακας Περιγραφής Μεταβλητών
Μεταβλητή Τύπος
person_age Αριθμητικό
person_gender Κατηγορική
person_education Κατηγορική
person_income Αριθμητικό
person_emp_exp Αριθμητικό
person_home_ownership Κατηγορική
loan_amnt Αριθμητικό
loan_intent Κατηγορική
loan_int_rate Αριθμητικό
loan_percent_income Αριθμητικό
cb_person_cred_hist_length Αριθμητικό
credit_score Αριθμητικό
previous_loan_defaults_on_file Κατηγορική
loan_status Δυαδικό

Περιγραφικά Στατιστικά

summary(loan_data)
##    person_age     person_gender      person_education   person_income    
##  Min.   : 20.00   Length:45000       Length:45000       Min.   :   8000  
##  1st Qu.: 24.00   Class :character   Class :character   1st Qu.:  47204  
##  Median : 26.00   Mode  :character   Mode  :character   Median :  67048  
##  Mean   : 27.76                                         Mean   :  80319  
##  3rd Qu.: 30.00                                         3rd Qu.:  95789  
##  Max.   :144.00                                         Max.   :7200766  
##  person_emp_exp   person_home_ownership   loan_amnt     loan_intent       
##  Min.   :  0.00   Length:45000          Min.   :  500   Length:45000      
##  1st Qu.:  1.00   Class :character      1st Qu.: 5000   Class :character  
##  Median :  4.00   Mode  :character      Median : 8000   Mode  :character  
##  Mean   :  5.41                         Mean   : 9583                     
##  3rd Qu.:  8.00                         3rd Qu.:12237                     
##  Max.   :125.00                         Max.   :35000                     
##  loan_int_rate   loan_percent_income cb_person_cred_hist_length  credit_score  
##  Min.   : 5.42   Min.   :0.0000      Min.   : 2.000             Min.   :390.0  
##  1st Qu.: 8.59   1st Qu.:0.0700      1st Qu.: 3.000             1st Qu.:601.0  
##  Median :11.01   Median :0.1200      Median : 4.000             Median :640.0  
##  Mean   :11.01   Mean   :0.1397      Mean   : 5.867             Mean   :632.6  
##  3rd Qu.:12.99   3rd Qu.:0.1900      3rd Qu.: 8.000             3rd Qu.:670.0  
##  Max.   :20.00   Max.   :0.6600      Max.   :30.000             Max.   :850.0  
##  previous_loan_defaults_on_file  loan_status    
##  Length:45000                   Min.   :0.0000  
##  Class :character               1st Qu.:0.0000  
##  Mode  :character               Median :0.0000  
##                                 Mean   :0.2222  
##                                 3rd Qu.:0.0000  
##                                 Max.   :1.0000

Δημιουργία του καθαρισμένου dataset (αφαίρεση outliers)

loan_data_clean <- loan_data %>%
  filter(person_age <= 90, person_emp_exp <= 70, person_income <= 5000000)

Διαγράμματα

1. Scatterplot – Ηλικία και Χρόνια Εργασιακής Εμπειρίας

ggplot(loan_data_clean, aes(x = person_age, y = person_emp_exp, color = factor(loan_status))) +
  geom_jitter(alpha = 0.5, width = 0.3, height = 0.3) +
  labs(title = "Years of Experience vs. Age (Colored by Loan Status)",
       x = "Age", y = "Employment Experience",
       color = "Loan Status\n(0 = No Default, 1 = Defaulted)") +
  scale_color_manual(values = c("red", "blue"),
                     labels = c("No Default", "Defaulted")) +
  theme_minimal()

Διάγραμμα 1. Σχέση Ηλικίας και Εμπειρίας ανά Κατάσταση Δανείου.

Σχόλιο: Οι περισσότερες καθυστερήσεις συμβαίνουν σε άτομα με χαμηλή εμπειρία και ηλικία.

2. Boxplot – Ποσό Δανείου ανά Κατοχή Κατοικίας

ggplot(loan_data_clean, aes(x = person_home_ownership, y = loan_amnt, fill = factor(loan_status))) +
  geom_boxplot() +
  labs(title = "Loan Amount by Home Ownership",
       x = "Home Ownership", y = "Loan Amount ($)",
       fill = "Loan Status") +
  theme_minimal()

Διάγραμμα 2. Ποσό Δανείου ανά Κατοχή Κατοικίας.

Σχόλιο: Οι ιδιοκτήτες κατοικίας φαίνεται να λαμβάνουν μικρότερα δάνεια με λιγότερες καθυστερήσεις, ενώ οι ενοικιαστές εμφανίζουν μεγαλύτερη διακύμανση και υψηλότερο ρίσκο καθυστέρησης.

3. Ιστόγραμμα – Εισόδημα και Κατάσταση Δανείου

ggplot(loan_data_clean, aes(x = person_income, fill = factor(loan_status))) +
  geom_histogram(position = "identity", alpha = 0.6, bins = 50) +
  labs(title = "Income Distribution by Loan Status",
       x = "Income", y = "Count", fill = "Loan Status") +
  theme_minimal()

Διάγραμμα 3. Κατανομή Εισοδήματος με βάση την Κατάσταση Δανείου.

Σχόλιο: Οι χαμηλότεροι μισθοί σχετίζονται με υψηλότερο ποσοστό καθυστέρησης.

4. Bar Chart – Εκπαίδευση και Κατάσταση Δανείου

ggplot(loan_data_clean, aes(x = person_education, fill = factor(loan_status))) +
  geom_bar(position = "dodge", color = "black") +
  labs(title = "Loan Status by Person Education",
       x = "Education Level", y = "Count",
       fill = "Loan Status\n(0 = No Default, 1 = Defaulted)") +
  theme_light()

Διάγραμμα 4. Κατάσταση Δανείου ως προς την Εκπαίδευση.

Σχόλιο: Οι δανειολήπτες με υψηλότερη εκπαίδευση φαίνεται να έχουν μικρότερα ποσοστά καθυστέρησης.