• Grupa D: Alicja Kuban, MichaƂ Gross
  • 2024-01-23


ZATWIERDZENIE KREDYTU MIESZKANIOWEGO


Projekt zespoƂowy z przedmiotu Analiza Danych



Wprowadzenie

Kim jesteƛmy?

Jesteƛmy firma, zajmującą się udzielaniem kredytów mieszkaniowych.DziaƂamy na obszarach miejskich, póƂmiejskich oraz wiejskich. Nasz klient najpierw ubiega się o kredyt mieszkaniowy, a następnie weryfikujemy, czy kwalifikuje się do jego otrzymania.


Nasze zadanie

Chcemy zautomatyzować proces przyznawania kredytów (w czasie rzeczywistym) w oparciu o dane klienta. W pierwszym etapie starania się o kredyt, klient wypeƂnia wniosek online, jeƛli speƂni wstępne wymagania, umawiamy się z nim na spotkanie, w celu weryfikacji danych i rozmowy o kredycie. Zadaniem naszego dziaƂu (Automatyzacji Procesów i UsprawnieƄ) jest zbudowanie modelu, który w oparciu o dane ankietowe, zbada czy nasz klient ma zdolnoƛci kredytową.


Dane jakimi dysponujemy

Posiadamy następujące dane na temat naszych klientów:

  • pƂeć,

  • stan cywilny,

  • wyksztaƂcenie,

  • liczbę osĂłb na utrzymaniu,

  • dochĂłd,

  • kwotę poĆŒyczki,

  • historię kredytową

  • czy kredyt zostaƂ udzielony (zmienna objaƛniana)


Cel

Zbadanie jakie warunki muszą być speƂnione, aby kredyt zostaƂ udzielony


Zakres analizy

  1. Okreƛlenie problemu

  2. Postawienie hipotez

  3. Przygotowanie systemu i zaƂadowanie danych

  4. Zrozumienie danych

  5. EDA

    • Przeprowadzanie analizy jednowymiarowej,

    • Przeprowadzenie analizy dwuwymiarowej


1. Okreƛlenie problemu

W oparciu o zebrane dane, chcemy usprawnić proces udzielania kredytĂłw, ktĂłry obecnie jest nieefektywny i pochƂania większoƛć czasu pracy naszych konsultantĂłw, ze względu na indywidualne rozpatrywanie sprawy kaĆŒdego potencjalnego klienta z osobna. Dzięki wprowadzeniu Modeleu Trustworthy AI w skoringu kredytowym, usprawnimy proces weryfikacji, W ciągu 3 minut potencalny klient, będzie wiedziaƂ czy ma zdolnoƛć kredytową, aby zaciągnąć kredyt w naszym banku.

Dzięki tym dziaƂaniom uporamy się z problemami firmy.

  • SkrĂłcimy czas potrzebny na wstępne stwierdzenie czy dany klient speƂnia wszelkie niezbędne wymagania, aby dostać kredyt.

  • Nasze decyzje będą poparte o wczeƛniejsze decyzje, tym samym będzie istniaƂo mniejsze ryzyko bƂędnej oceny kielnta.

  • Staniemy się bardziej efektywni, rzetelni i konkurencyjni.

  • Usprawnimy system przepƂywu informacji i dziaƂanie firmy.

  • Osiągniemy lepsze wyniki oraz będziemy mogli zredukować liczbę etatĂłw.


2. Postawienie hipotezy

GƂównym czynnikiem decydującym o tym, czy kredyt zostanie przyznany jest wysokoƛć dochodów aplikanta.


3. Przygotowanie systemu i zaƂadowanie danych

Przygotowanie systemu do pracy z danymi

ZaƂadownanie bibliotek, z których będziemy korzystać w dalej częƛci projektu. Dostosowanie globalnych ustawieƄ.

knitr::opts_chunk$set(echo = TRUE)
options(scipen = 999, digits=6) 
if(!require('DMwR')) install.packages("https://cran.r-project.org/src/contrib/Archive/DMwR/DMwR_0.4.1.tar.gz", repos=NULL, type="source", dependencies=TRUE)
library(tidyverse)
library(ggplot2)
library(rmdformats)
library(validate)
library(validatetools)
library(dcmodify)
library(errorlocate)
library(deductive)
library(VIM)
library(simputation)
library(lumberjack)
library(ISLR) 
library(dlookr)
library(xts)
library(quantmod)
library(ROCR)
library(DMwR)
library(Information)
library(scorecard)
library(naniar)
library(visdat)
library(shapeR)
library(arsenal)
library(e1071)
library(haven)
library(papeR)
library(dplyr)
library(tidyverse)
library(ggplot2)
library(kableExtra)
library(classInt)
library(pastecs)
library(desctable)
library(frequency)
library(corrplot)
library(ggpubr)
library(RColorBrewer)
library(wesanderson)
library(cowplot)
library(hrbrthemes)
library(scales)
library(formattable)
library('MASS')
library(rcompanion)
library(lsr)
library(vcd)
library(DescTools)
library(waffle)
library(cleanrmd)
library(thematic)
library(shiny)
library(showtext)
library(ragg)
library(distill)
library(rmdformats)
library(prettydoc)
library(hrbrthemes)
library(tint)
library(gapminder)
library(yaml)
library(rpart)
library(tidyverse)
library(pander)
library(modelr)
library(broom) 
library(caret)
library(ggplot2)
library(ROCR)
library(psych)
library(qwraps2)
library(ggpubr)
library(rstatix)
library(kableExtra)
library(datarium)
library("correlation")
library(polycor)
library(corrgram)
library(knitr)
library(flextable)







library(ggstatsplot)
library(dplyr)

ZaƂadowanie danych, na podstawie których zostanie przeprowadzona analiza. Są to następujące pliki: Hipoteczny1.csv, Hipoteczny2.csv, które zawierają dane klientów, ubiegających się o kredyt.

dane1 <- read.csv("Hipoteczny1.csv")
dane2 <- read.csv("Hipoteczny2.csv")


Organizacja pracy z danymi (wstępne czyszczenie i przegląd danych)

W celu usprawnienia pracy, dane będą przechowywane w formie tabeli “tabble”.

dane1 <- as.tibble(dane1)
dane2 <- as.tibble(dane2)

Dane1 z pliku Hipoteczny1.csv, w przeciwieƄstwie do danych2 z pliku Hipoteczny2.csv nie zawierają informacji, czy kredyt zostaƂ przyznany (Loan_Status). W związku z tym dane2 wykorzystamy do przeprowadzenia analizy, sprawdzimy co decyduje o zdolnoƛci kredytowej klientĂłw. Zaƛ dane1 potraktujemy jako wnioski naszych klientĂłw czekających na odpowiedĆș i w oparciu o przeprowadzoną analizę stwierdziemy, ktĂłrzy z nich dostaną pozytywną odpowiedĆș na wniosek kredytowy.

dane

dane1

formattable(head(dane1,7), align ="c")
Loan_ID Gender Married Dependents Education Self_Employed ApplicantIncome CoapplicantIncome LoanAmount Loan_Amount_Term Credit_History Property_Area
LP001015 Male Yes 0 Graduate No 5720 0 110 360 1 Urban
LP001022 Male Yes 1 Graduate No 3076 1500 126 360 1 Urban
LP001031 Male Yes 2 Graduate No 5000 1800 208 360 1 Urban
LP001035 Male Yes 2 Graduate No 2340 2546 100 360 NA Urban
LP001051 Male No 0 Not Graduate No 3276 0 78 360 1 Urban
LP001054 Male Yes 0 Not Graduate Yes 2165 3422 152 360 1 Urban
LP001055 Female No 1 Not Graduate No 2226 0 59 360 1 Semiurban

dane2


formattable(head(dane2,7), align ="c")
Loan_ID Gender Married Dependents Education Self_Employed ApplicantIncome CoapplicantIncome LoanAmount Loan_Amount_Term Credit_History Property_Area Loan_Status
LP001002 Male No 0 Graduate No 5849 0 NA 360 1 Urban Y
LP001003 Male Yes 1 Graduate No 4583 1508 128 360 1 Rural N
LP001005 Male Yes 0 Graduate Yes 3000 0 66 360 1 Urban Y
LP001006 Male Yes 0 Not Graduate No 2583 2358 120 360 1 Urban Y
LP001008 Male No 0 Graduate No 6000 0 141 360 1 Urban Y
LP001011 Male Yes 2 Graduate Yes 5417 4196 267 360 1 Urban Y
LP001013 Male Yes 0 Not Graduate No 2333 1516 95 360 1 Urban Y

Na samym początku porządkujemy dane rosnąco wedƂug “Loan_ID”

#dane2
dane2$Loan_ID <- str_replace(dane2$Loan_ID,"LP","LP ")
  
dane2 <- separate(dane2, col = "Loan_ID", c("Loan","ID"),sep = " ")

dane2$ID <- as.numeric(dane2$ID)
dane2 <- dane2 %>% 
  arrange(desc("Loan_ID"))

dane2 <- unite(dane2,"Loan_ID", "Loan", "ID", sep=" ")
dane2$Loan_ID <- str_replace(dane2$Loan_ID,"LP ","LP")



#dane1
dane1$Loan_ID <- str_replace(dane1$Loan_ID,"LP","LP ")
  
dane1 <- separate(dane1, col = "Loan_ID", c("Loan","ID"),sep = " ")

dane1$ID <- as.numeric(dane1$ID)
dane1 <- dane1 %>% 
  arrange(desc("Loan_ID"))


dane1 <- unite(dane1,"Loan_ID", "Loan", "ID", sep=" ")
dane1$Loan_ID <- str_replace(dane1$Loan_ID,"LP ","LP")

Następnie zamieniamy puste miejsca na NA

#dane2
dane2[dane2 == ''] <- NA

#dane1
dane1[dane1 == ''] <- NA

Kolejno zmieniamy klasę danych, aby Ƃatwiej się z nimi pracowaƂo.

#dane1
dane1$ApplicantIncome <- as.numeric(dane1$ApplicantIncome)
dane1$CoapplicantIncome <- as.numeric(dane1$CoapplicantIncome)
dane1$Dependents <- as.factor(dane1$Dependents)
dane1$Property_Area <- as.factor(dane1$Property_Area)
dane1$Gender <- as.factor(dane1$Gender)

#dane2
dane2$ApplicantIncome <- as.numeric(dane2$ApplicantIncome)
dane2$CoapplicantIncome <- as.numeric(dane2$CoapplicantIncome)
dane2$Dependents <- as.factor(dane2$Dependents)
dane2$Property_Area <- as.factor(dane2$Property_Area)
dane2$Gender <- as.factor(dane2$Gender)
dane2$Loan_Status <- as.factor(dane2$Loan_Status)

Widzimy, ĆŒe w niektĂłrych nazach zmiennych brakuje ” “, w celu lepszego wyglądu danych i efektywniejsze pracy, poprawiamy nazwy tych zmiennych

#dane1
dane1 <- dane1 %>%
  rename(Applicant_Income=ApplicantIncome) 

dane1 <- dane1 %>%
  rename(Coapplicant_Income=CoapplicantIncome) 

dane1 <- dane1 %>%
  rename(Loan_Amount=LoanAmount) 

dane1 <- dane1 %>%
  rename(Loan_ID=Loan_ID) 

#dane2
dane2 <- dane2 %>%
  rename(Applicant_Income=ApplicantIncome) 

dane2 <- dane2 %>%
  rename(Coapplicant_Income=CoapplicantIncome) 

dane2 <- dane2 %>%
  rename(Loan_Amount=LoanAmount) 

dane2 <- dane2 %>%
  rename(Loan_ID=Loan_ID) 

Dane zostaƂy zorganizowane.


Walidacja danych

NaleĆŒy sprawdzić poprawnoƛć danych2, do tego celu przeprowadzimy walidację danych. Nasze dane powinny speƂniać następujące warunki:

  • Jeƛli wnioskodawca jest w związku maĆ‚ĆŒeƄskim, to wĂłwczas tylko wtedy wspóƂwnioskodaca moĆŒe wykazywać dochody. (“Coapplicant Income” >=0, gdy “Married”= TRUE)

  • Status maĆ‚ĆŒeƄstwa moĆŒe przyjmować jedynie wartoƛci “tak” lub “nie”

  • PƂeć powinna przyjmować wartoƛć “kobieta” lub “mÄ™ĆŒczyzna”

  • Liczba osĂłb na utrzymaniu przyjmuje wartoƛci “0”, “1”, “2”, “3+”

  • Edukacja wartoƛć “po studiach”, “nie ukuoƄczyƂ studiĂłw”.

  • PrzychĂłd aplikanta musi być większy od 0, poniewaĆŒ w przeciwnym razie nie powinien on ubiegać się o kredy (nie będzie miaƂ jak go spƂacić).

  • PrzychĂłd wspóƂwnioskodacy moĆŒe przymować wartoƛć 0 w przypadku, gdy wspóƂwnioskodawca nie wykazuje ĆŒadnych dochodĂłw lub aplikant jest sam. Większe w przypadku gdy wspóƂwnioskodaca wykazuje jakieƛ dochody.

  • Kwota kredytu oraz termin muszą być większe od 0, ĆŒeby zaistniaƂo zdarzenie.

  • Historia kredytowa powinna przyjmować wartoƛć “1” jeƛli aplikant braƂ juĆŒ wczeƛniej kredyt, a “0” jeƛli jeszcze nie.

  • Aplikant moĆŒe pochodzić z miasta, ze wsi lub z terenĂłw podmiejskich.

rules <- validator(if(Married=="Yes") Coapplicant_Income >= 0, 
                   Married %in% c("Yes", "No"),
                   Gender %in% c("Female", "Male"), 
                   Dependents %in% c("0","1","2","3+"),
                   Education %in% c("Graduate","Not Graduate"),
                   Self_Employed %in% c("Yes","No"), 
                   Applicant_Income > 0,
                   Coapplicant_Income >= 0,
                   Loan_Amount>0, 
                   Loan_Amount_Term>0, 
                   Credit_History %in% c("1", "0"), 
                   Property_Area %in% c("Urban", "Semiurban", "Rural"))

#dane2
summary(confront(dane2, rules)) %>%
  formattable(align ="c")
name items passes fails nNA error warning expression
V01 614 614 0 0 FALSE FALSE Married != “Yes” | (Coapplicant_Income - 0 >= -0.00000001)
V02 614 611 0 3 FALSE FALSE Married %vin% c(“Yes”, “No”)
V03 614 601 0 13 FALSE FALSE Gender %vin% c(“Female”, “Male”)
V04 614 599 0 15 FALSE FALSE Dependents %vin% c(“0”, “1”, “2”, “3+”)
V05 614 614 0 0 FALSE FALSE Education %vin% c(“Graduate”, “Not Graduate”)
V06 614 582 0 32 FALSE FALSE Self_Employed %vin% c(“Yes”, “No”)
V07 614 614 0 0 FALSE FALSE Applicant_Income > 0
V08 614 614 0 0 FALSE FALSE Coapplicant_Income - 0 >= -0.00000001
V09 614 592 0 22 FALSE FALSE Loan_Amount > 0
V10 614 600 0 14 FALSE FALSE Loan_Amount_Term > 0
V11 614 564 0 50 FALSE FALSE Credit_History %vin% c(“1”, “0”)
V12 614 614 0 0 FALSE FALSE Property_Area %vin% c(“Urban”, “Semiurban”, “Rural”)

Analiza walidacji: Nasze dane nie zawierają bƂędów logicznych.


Identyfikacja rozkƂadu danych, eliminacja danych odstających

W tym podrozdziale przyjrzymy się zmiennym ekstremalnym, odstającym i wyeliminujemy obserwacje wpƂywowe, ĆŒeby nie zakƂócaƂy pĂłĆșniejszej analizy. Identyfikacja będzie miaƂa zastosowanie w przypadku zmiennych iloƛciowych: Applicant_Income, Coapplicant_Income, Loan_Amount


Dane odstające

Przyglądamy się rozkƂadowi danych, pod względem obserwacji odstających i widzimy, ĆŒe dane mają one duĆŒy rozstęp. Dla wszystkich zmiennych istnieją obserwacje ekstremalne, ktĂłre znieksztaƂcają rozkƂad prawostronnie.

box1.1 <- dane2 %>%
  ggplot(aes(x = Applicant_Income)) +
  geom_boxplot(fill='#A3b5c0', color="gray20", notch = TRUE, alpha=0.7) +
  ggtitle("Aplicant Income")+
  xlab("") +
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

box1.2 <- dane2 %>%
  filter(Coapplicant_Income>0)%>% #częƛć wspóƂwnioskodacĂłw nie wykazuje ĆŒadnych dochodĂłw, co zaburzaƂoby rozkƂad zmiennych
  ggplot(aes(x = Coapplicant_Income)) +
  geom_boxplot(fill='#A3b5c0', color="gray20", notch = TRUE, alpha=0.7) +
  ggtitle("Coapplicant Income")+
  xlab("") +
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

box1.3 <- dane2 %>%
  ggplot(aes(x = Loan_Amount)) +
  geom_boxplot(fill='#A3b5c0', color="gray20", notch = TRUE, alpha=0.7) +
  ggtitle("Loan Amount")+
  xlab("") +
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

plot_grid(box1.1,box1.2,box1.3, nrow = 3)


Dlatego najpierw usuwamy obserwacje, które są ekstremalne.

  • Dla zmiennej Applicant Income powyĆŒej 20100

  • Dla zmiennej Coapplicant Income powyĆŒej 10000

  • Dla zmiennnej Loan Amount powyĆŒej 370

dane2 <-  dane2 %>%
         filter(Applicant_Income<20100)

dane2 <-  dane2 %>%
         filter(Coapplicant_Income<10000)

dane2 <-  dane2 %>%
         filter(Loan_Amount<370)

Następnie pozostaƂe obserwacje wyeliminujemy metodą kwartyli. W tym celu stworzymy funkcję, króra usunie obserwacje, które przekraczają dwukrotnoƛć rozstępu w odniesieniu do dolnej i górnej granicy.

detect_outlier <- function(x) {
  na.omit(x)
  lower_bound <- quantile(x, 0.25)
  upper_bound <- quantile(x, 0.75)
  na.rm = TRUE
  I = upper_bound - lower_bound
  which(x < lower_bound-I*2 | x > upper_bound+I*2)
}

Zastosowanie funkcji.

#dane2
d2.1 <- detect_outlier(dane2$Applicant_Income)
d2.2 <- detect_outlier(dane2$Coapplicant_Income)
d2.3 <- detect_outlier(na.omit(dane2$Loan_Amount))
d2 <- c(d2.1, d2.2, d2.3)
d2

dane2 <- dane2[-c(33,  52,  64,  99, 107, 127, 133, 135, 175, 183, 237, 241, 254, 302, 344, 393, 432, 440, 443, 447, 456, 471, 492, 493, 528, 549,  11,  36, 114, 124, 166, 236, 409,  20,  33,  52,  64, 124, 241, 243, 302, 326, 354, 476, 495, 547),]

RozkƂad po usunięciu obserwacji zakƂócających, zostaƂ przedstawiony poniĆŒej. Dzięki wyeliminowaniu danych odstających, uporaliƛmy się z problemem obserwacji znieksztaƂcających rozkƂad. Ponadto dzięki temu, pĂłĆșniejsza analiza będzie bardziej rzetelna.

box3.1 <- dane2 %>%
  ggplot(aes(x = Applicant_Income)) +
  geom_boxplot(fill='#A3b5c0', color="gray20", notch = TRUE, alpha=0.7) +
  ggtitle("Aplicant Income")+
  xlab("") +
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

box3.2 <- dane2 %>%
  filter(Coapplicant_Income>0)%>% 
  ggplot(aes(x = Coapplicant_Income)) +
  geom_boxplot(fill='#A3b5c0', color="gray20", notch = TRUE, alpha=0.7) +
  ggtitle("Coapplicant Income")+
  xlab("") +
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

box3.3 <- dane2 %>%
  ggplot(aes(x = Loan_Amount)) +
  geom_boxplot(fill='#A3b5c0', color="gray20", notch = TRUE, alpha=0.7) +
  ggtitle("Loan Amount")+
  xlab("") +
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

plot_grid(box3.1,box3.2,box3.3, nrow = 3)


Braki w danych

Mamy 109 brakujących obserwacji. Braki występują w 6/13 zmiennych.

  • Najwięcej brakujących obserwacji zawiera zmienna Credit_History. Następnie Self_Employed.

  • Reszta obserwacji, w ktĂłrych są braki: Gender, Dependents, Loan_Amount_Term

  • Jest ich za duĆŒo, aby usunąć, dlatego naleĆŒy uzupeƂnić je w jak najbardziej rzetelny sposĂłb, zbliĆŒony do rzeczywistoƛci i usunąć tylko te obserwacji, w ktĂłrych występuje więcej niĆŒ jedno NA


Wizualizacja

gg_miss_var(dane2) +theme_minimal()

Tabela przedstawiająca braki

`Iloƛć obserwacji` <- c(sum(is.na(dane2$Married)),sum(is.na(dane2$Gender)), sum(is.na(dane2$Dependents)), sum(is.na(dane2$Loan_Amount_Term)), sum(is.na(dane2$Self_Employed)), sum(is.na(dane2$Credit_History)))
`Miejsce wystąpienia` <- c("Married","Gender","Dependents","Loan_Amount_Term","Self_Employed", "Credit_History")
braki1 <-data.frame(`Miejsce wystąpienia`,`Iloƛć obserwacji`)
braki1 %>% formattable(align="c")
Miejsce.wystąpienia Iloƛć.obserwacji
Married 2
Gender 9
Dependents 13
Loan_Amount_Term 14
Self_Employed 28
Credit_History 43

SzczegóƂowe przedstawienie braków

dane2[!complete.cases(dane2),] %>% 
  head(20) %>%
  formattable(align="c")
Loan_ID Gender Married Dependents Education Self_Employed Applicant_Income Coapplicant_Income Loan_Amount Loan_Amount_Term Credit_History Property_Area Loan_Status
LP1027 Male Yes 2 Graduate NA 2500 1840 109 360 1 Urban Y
LP1034 Male No 1 Not Graduate No 3596 0 100 240 NA Urban Y
LP1041 Male Yes 0 Graduate NA 2600 3500 115 NA 1 Urban Y
LP1050 NA Yes 2 Not Graduate No 3365 1917 112 360 0 Rural N
LP1052 Male Yes 1 Graduate NA 3717 2925 151 360 NA Semiurban N
LP1087 Female No 2 Graduate NA 3750 2083 120 360 1 Semiurban Y
LP1091 Male Yes 1 Graduate NA 4166 3369 201 360 NA Urban N
LP1109 Male Yes 0 Graduate No 1828 1330 100 NA 0 Urban N
LP1123 Male Yes 0 Graduate No 2400 0 75 360 NA Urban Y
LP1136 Male Yes 0 Not Graduate Yes 4695 0 96 NA 1 Urban Y
LP1137 Female No 0 Graduate No 3410 0 88 NA 1 Urban Y
LP1250 Male Yes 3+ Not Graduate No 4755 0 95 NA 0 Semiurban N
LP1264 Male Yes 3+ Not Graduate Yes 3333 2166 130 360 NA Semiurban Y
LP1273 Male Yes 0 Graduate No 6000 2250 265 360 NA Semiurban N
LP1280 Male Yes 2 Not Graduate No 3333 2000 99 360 NA Semiurban Y
LP1357 Male NA NA Graduate No 3816 754 160 360 1 Urban Y
LP1370 Male No 0 Not Graduate NA 7333 0 120 360 1 Rural N
LP1387 Female Yes 0 Graduate NA 2929 2333 139 360 1 Semiurban Y
LP1391 Male Yes 0 Not Graduate No 3572 4114 152 NA 0 Rural N
LP1398 Male No 0 Graduate NA 5050 0 118 360 1 Semiurban Y

Imputacja brakujących danych

Zmienna “Gender”

Daną “Gender” zostawimy z brakami, poniewaĆŒ w pĂłĆșniejszej analizje, ta zmienna nie będzie miaƂa istotnego wpƂywu na wynik analizy.


Zmienna “Married”

Podczas przeprowadzania walidacji, ustaliliƛmy, ĆŒe tylko dla osobĂłw, w związkach maĆ‚ĆŒeƄskich, moĆŒe być wykazany przychĂłd wspóƂwnioskodawcy. Zatem naleĆŒy sprawdzić, czy dla brakujących obserwacji, wartoƛć “Coapplicant_Income” >0, jeƛli tak osoba jest w związku maĆ‚ĆŒeƄskim. Jeƛli “Coapplicant_Income”=0, nie wiemy, czy dana osoba jest w związku maĆ‚ĆŒeƄskim, pozostawimy te pola puste.

which(is.na(dane2$Married))
dane2[is.na(dane2$Married),] %>% formattable(align="c")

Jest jeden brak, ktĂłry moĆŒemy uzupeƂnić, Drugą obserwację zdecydowaliƛmy się usunąć, poniewaĆŒ, te obserwacje mają więcej niĆŒ jedno “NA”

dane2[is.na(dane2$Married)& dane2$Coapplicant_Income > 0,"Married"] <- "Yes"
dane2[is.na(dane2$Married),] %>% formattable(align="c")
dane2 <- dane2[-195,]
which(is.na(dane2$Married))


Usuwanie brakĂłw, gdzie występuje więcej niĆŒ jedno NA

Usuwamy, te obserwacje, dla ktĂłrych mamy więcej niĆŒ brak w jednej zmiennej

#Credit History
which(is.na(dane2$Credit_History) & (is.na(dane2$Dependents) | is.na(dane2$Gender) | is.na(dane2$Education) | is.na(dane2$Self_Employed)| is.na(dane2$Coapplicant_Income)|is.na(dane2$Loan_Amount)|is.na(dane2$Applicant_Income)|is.na(dane2$Loan_Amount_Term)))

dane2 <- dane2[-c(21,  27, 202, 355, 397),]

#Dependends
which(is.na(dane2$Dependents) & (is.na(dane2$Gender) | is.na(dane2$Education) | is.na(dane2$Self_Employed)| is.na(dane2$Coapplicant_Income)|is.na(dane2$Loan_Amount)|is.na(dane2$Applicant_Income)|is.na(dane2$Loan_Amount_Term)))
dane2 <- dane2[-c(285),]


Podgląd brakujących obserwacji po dokonaniu czyszczenia danych

Dzięki czyszczeniu pozbyliƛmy się braków w zmiennej “Married” oraz zredukowaliƛmy licznę poozostaƂych braków

Wykres z obserwacjami brakującymi

gg_miss_var(dane2) +theme_minimal()

Tabela z podsumowaniem brakĂłw

`Iloƛć obserwacji` <- c(sum(is.na(dane2$Married)),sum(is.na(dane2$Gender)), sum(is.na(dane2$Dependents)), sum(is.na(dane2$Loan_Amount_Term)), sum(is.na(dane2$Self_Employed)), sum(is.na(dane2$Credit_History)))
`Miejsce wystąpienia` <- c("Married","Gender","Dependents","Loan_Amount_Term","Self_Employed", "Credit_History")
braki1 <-data.frame(`Miejsce wystąpienia`,`Iloƛć obserwacji`)
braki1 %>% formattable(align="c")
Miejsce.wystąpienia Iloƛć.obserwacji
Married 0
Gender 8
Dependents 11
Loan_Amount_Term 13
Self_Employed 24
Credit_History 38



4. Zrozumienie danych

Zmienne jakoƛciowe

Loan Status

Loan Status jest naszą zmienną objaƛnianą. Widzimy, ĆŒe 66% wnioskĂłw zostaƂo rozpatrzonych pozytwynie.

dane2 %>%
  dplyr::select(Loan_Status) %>%
  drop_na() %>%
  group_by(Loan_Status)%>%
  count() %>%
  mutate(`udziaƂ procentowy`=percent(n/(155+393))) %>%
  ggplot(aes(x = "", y = n, fill = Loan_Status))+
  geom_col(colour = "gray20", alpha=0.7, width = .3) +
  scale_fill_manual(values = c("#A3b5c0", "#e5e0d8", "#b4bdba","thistle3"), labels=c("Yes","No")) + 
  ggtitle("Loan Status")+
  xlab("") +
  labs(fill="Loan Status")+
  coord_flip() +
  geom_text(aes(label=`udziaƂ procentowy`), position=position_stack(vjust = 0.49), vjust=1, size=4, color="gray20")+
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

Gender

Klientami naszego banku są najczęƛciej mÄ™ĆŒczyĆșni. Stanowią oni ponad 80% wszystkich klientĂłw

dane2 %>%
  dplyr::select(Gender) %>%
  drop_na() %>%
  group_by(Gender)%>%
  count() %>%
  mutate(`udziaƂ procentowy`=percent(n/(99+411))) %>%
  ggplot(aes(x = "", y = n, fill = Gender))+
  geom_col(colour = "gray20", alpha=0.7, width = .3) +
  scale_fill_manual(values = c("#A3b5c0", "#e5e0d8", "gray20")) + 
  ggtitle("Gender")+
  xlab("") +
  coord_flip() +
  geom_text(aes(label=`udziaƂ procentowy`), position=position_stack(vjust = 0.49), vjust=1, size=4, color="gray20")+
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

Married

Najczęƛciej osoby, ktĂłre ubiegają się o kredyt są w związkach maĆ‚ĆŒeƄskich. Są to osoby ustabilizowane, Stanowią oni ponad 64% wszystkich klientĂłw

dane2 %>%
  dplyr::select(Married) %>%
  drop_na() %>%
  group_by(Married)%>%
  count() %>%
  mutate(`udziaƂ procentowy`=percent(n/(183+335))) %>%
  ggplot(aes(x = "", y = n, fill = Married))+
  geom_col(colour = "gray20", alpha=0.7, width = .3) +
  scale_fill_manual(values = c("#A3b5c0", "#e5e0d8", "gray20")) + 
  ggtitle("Married")+
  xlab("") +
  coord_flip() +
  geom_text(aes(label=`udziaƂ procentowy`), position=position_stack(vjust = 0.49), vjust=1, size=4, color="gray20")+
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

Dependents

Prawie 60% klientów nie miaƂa nikogo na utrzymaniu. 15.58% wnioskujących miaƂo tylko jedną osobę, 17.36% dwie osoby. Najmniej liczną grupę stanowili klienci, którzy miali 3. lub więcej osób, które musieli utrzymywać.

dane2 %>%
  dplyr::select(Dependents) %>%
  drop_na() %>%
  group_by(Dependents)%>%
  count() %>%
  mutate(`udziaƂ procentowy`=percent(n/(301+79+88+39))) %>%
  ggplot(aes(x = "", y = n, fill = Dependents))+
  geom_col(colour = "gray20", alpha=0.7, width = .3) +
  scale_fill_manual(values = c("#A3b5c0", "#e5e0d8", "#b4bdba","mistyrose3")) + 
  ggtitle("Dependents")+
  xlab("") +
  coord_flip() +
  geom_text(aes(label=`udziaƂ procentowy`), position=position_stack(vjust = 0.49), vjust=1, size=4, color="gray20")+
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

Education

WyraĆșną większoƛć wƛrĂłd aplikantĂłw stanowiƂy osoby, ktĂłre ukoƄczyƂy studia, stanowili oni 76% wszystkich klientĂłw.

dane2 %>%
  dplyr::select(Education) %>%
  drop_na() %>%
  group_by(Education)%>%
  count() %>%
  mutate(`udziaƂ procentowy`=percent(n/(394+124))) %>%
  ggplot(aes(x = "", y = n, fill = Education))+
  geom_col(colour = "gray20", alpha=0.7, width = .3) +
  scale_fill_manual(values = c("#A3b5c0", "#e5e0d8", "#b4bdba","mistyrose3")) + 
  ggtitle("Education")+
  xlab("") +
  coord_flip() +
  geom_text(aes(label=`udziaƂ procentowy`), position=position_stack(vjust = 0.49), vjust=1, size=4, color="gray20")+
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

Self Employed

Większoƛć osób wnioskujących o kredyt w naszym banku, nie prowadzi wƂasnego biznesu. Osoby samozatrudnione stanowią zaledwie 11,94% wszystkich klientów.

dane2$Credit_History <- as.factor(dane2$Credit_History)

dane2 %>%
  dplyr::select(Self_Employed) %>%
  drop_na() %>%
  group_by(Self_Employed)%>%
  count() %>%
  mutate(`udziaƂ procentowy`=percent(n/(435+59))) %>%
  ggplot(aes(x = "", y = n, fill = Self_Employed))+
  geom_col(colour = "gray20", alpha=0.7, width = .3) +
  scale_fill_manual(values = c("#A3b5c0", "#e5e0d8", "#b4bdba","mistyrose3")) + 
  ggtitle("Self Employed")+
  xlab("") +
  labs(fill="Self Employed")+
  coord_flip() +
  geom_text(aes(label=`udziaƂ procentowy`), position=position_stack(vjust = 0.49), vjust=1, size=4, color="gray20")+
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

Loan Amount Term

Najczęƛciej wybieranym okresem, na ktĂłry klienci chcą zaciągnąć kredyt jest okres 360, ktĂłry stanowi ponad 85% wszystkich okresĂłw na jakie zawierana jest poĆŒyczka. Drugą najczęƛciej wybieraną opcją jest 180 dni, ponad 7% klientĂłw, wybiera tę opcję.

Tabela

dane2 %>%
  dplyr::select(Loan_Amount_Term) %>%
  drop_na() %>%
  group_by(Loan_Amount_Term)%>%
  count() %>%
  mutate(`UdziaƂ procentowy`= percent(n/505))%>% 
  formattable()
Loan_Amount_Term n UdziaƂ procentowy
12 1 0.20%
36 2 0.40%
60 2 0.40%
84 4 0.79%
120 3 0.59%
180 36 7.13%
240 3 0.59%
300 10 1.98%
360 431 85.35%
480 13 2.57%

Prezentacja rozkƂadu

wafel <- dane2 %>%
  dplyr::select(Loan_Amount_Term) %>%
  drop_na() %>%
  group_by(Loan_Amount_Term)%>%
  count() 
wafel <- c(`term 12-120`= 12, `term 80`=    36, `term 240`=3, `term 300`=   10, `term 360`= 431, `term 480`= 13)
  waffle(wafel, rows=15,colors = c("#eee2d4", "mistyrose3", "lightsteelblue2","#959595","#ced0ce","pink3"))

Credit History

Ponad 84% klientów ma historię kredytową.

dane2 %>%
  dplyr::select(Credit_History) %>%
  drop_na() %>%
  group_by(Credit_History)%>%
  count() %>%
  mutate(`udziaƂ procentowy`=percent(n/(404+76))) %>%
  ggplot(aes(x = "", y = n, fill = Credit_History))+
  geom_col(colour = "gray20", alpha=0.7, width = .3) +
  scale_fill_manual(values = c("#A3b5c0", "#e5e0d8", "#b4bdba","thistle3"), labels=c("No","Yes")) + 
  ggtitle("Credit History")+
  xlab("") +
  labs(fill = "Credit History")+
  coord_flip() +
  geom_text(aes(label=`udziaƂ procentowy`), position=position_stack(vjust = 0.49), vjust=1, size=4, color="gray20")+
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

Property Area

Proporcję pomiędzy miejscem zamieszkania aplikantĂłw są w miarę zbliĆŒonę. Największy udziaƂ stanowią klienci z obszarĂłw podmiejskich (41,46%). Następnie 33,75% stanowią wnioskodawcy z obszarĂłw miejskich, i zaledwie 1% mniejszy od nich udziaƂ mają klienci z obszarĂłw wiejskich.

dane2 %>%
  dplyr::select(Property_Area) %>%
  drop_na() %>%
  group_by(Property_Area)%>%
  count() %>%
  mutate(`udziaƂ procentowy`=percent(n/(404+76))) %>%
  ggplot(aes(x = "", y = n, fill = Property_Area))+
  geom_col(colour = "gray20", alpha=0.7, width = .3) +
  scale_fill_manual(values = c("#A3b5c0", "#e5e0d8","thistle3")) + 
  ggtitle("Property Area")+
  xlab("") +
  coord_flip() +
  labs(fill="Property Area")+
  geom_text(aes(label=`udziaƂ procentowy`), position=position_stack(vjust = 0.49), vjust=1, size=4, color="gray20")+
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

Zmienne iloƛciowe

Applicant Income

dane2 %>%
  dplyr::select(Applicant_Income) %>%
  ggplot(aes(x = Applicant_Income)) +
  geom_density(fill="#A3b5c0", alpha=0.4) +
  geom_vline(aes(xintercept = mean(Applicant_Income, na.rm = T)), 
               colour = "pink3", linetype ="longdash", size = .7)+
  geom_vline(aes(xintercept = median(Applicant_Income, na.rm = T)), 
               colour = "royalblue3", linetype ="longdash", size = .7)+
  geom_vline(aes(xintercept = quantile(Applicant_Income, probs = 0.25, na.rm = T)), 
               colour = "darkseagreen4", linetype ="longdash", size = .7)+
  geom_vline(aes(xintercept = quantile(Applicant_Income, probs = 0.75, na.rm = T)), 
               colour = "gold3", linetype ="longdash", size = .7)+
  ggtitle("Applicant Income")+
  xlab("") +
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

Oznaczenia na wykresie: ƛrednia- rĂłĆŒowy, mediana- niebieski, Q1-zielony, Q3-ĆŒĂłĆ‚ty

statystyka <- c("Min", "Max", "Q1","Mediana","Q3" ,"ƚrednia", "Odch. std.", "Skoƛnoƛć","Kurtoza")
wartosc <- c(min(dane2$Applicant_Income),max(dane2$Applicant_Income), quantile(dane2$Applicant_Income, 0.25), round(median(dane2$Applicant_Income,0.5),2), quantile(dane2$Applicant_Income, 0.75), round(mean(dane2$Applicant_Income),2), round(sd(dane2$Applicant_Income),2), round(skew(dane2$Applicant_Income),2), round(kurtosi(dane2$Applicant_Income),2))

raport <- data.frame(statystyka,wartosc) 
raport %>% formattable()
statystyka wartosc
Min 150.00
Max 10513.00
Q1 2765.00
Mediana 3597.50
Q3 4929.00
Úrednia 4103.83
Odch. std. 1928.70
Skoƛnoƛć 1.18
Kurtoza 1.24

Obserwacja:

  • Úrednio aplikanci zarabiają 4104.

  • Aplikant, ktĂłry zarabiaƂ najmniej, wykazywaƂ dochĂłd w wysokoƛci 150,

  • NajwyĆŒszy dochĂłd klienta wyniĂłsƂ 10513

  • 25% aplikantĂłw miaƂa mniejszy dochĂłd niĆŒ 2764

  • 75% klientĂłw miaƂa dochĂłd wyĆŒszy niĆŒ 4931

  • 50% klientĂłw miaƂa niĆŒszy niĆŒ dochĂłd niĆŒ 3597 (tym samym druga poƂowa aplikantĂłw miaƂa dochĂłd wyĆŒszy niĆŒ 3597)

  • Úrednio o 1928.7 dochody klientĂłw odchylają się od ƛredniego dochodu. To oznacza, ĆŒe bardzo rozbieĆŒne są dochody naszych aplikantĂłw.




Coapplicant Income

dane2 %>%
  dplyr::select(Coapplicant_Income) %>%
    filter(Coapplicant_Income>0) %>%
  ggplot(aes(x = Coapplicant_Income)) +
  geom_density(fill="#A3b5c0", alpha=0.4) +
  geom_vline(aes(xintercept = mean(Coapplicant_Income, na.rm = T)), 
               colour = "pink3", linetype ="longdash", size = .7)+
  geom_vline(aes(xintercept = median(Coapplicant_Income, na.rm = T)), 
               colour = "royalblue3", linetype ="longdash", size = .7)+
  geom_vline(aes(xintercept = quantile(Coapplicant_Income, probs = 0.25, na.rm = T)), 
               colour = "darkseagreen4", linetype ="longdash", size = .7)+
    geom_vline(aes(xintercept = quantile(Coapplicant_Income, probs = 0.75, na.rm = T)), 
               colour = "gold3", linetype ="longdash", size = .7)+
  ggtitle("Coapplicant Income")+
  xlab("") +
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

Oznaczenia na wykresie: ƛrednia- rĂłĆŒowy, mediana- niebieski, Q1-zielony, Q3-ĆŒĂłĆ‚ty

statystyka <- c("Min", "Max", "Q1","Mediana","Q3" ,"ƚrednia", "Odch. std.", "Skoƛnoƛć","Kurtoza")
wartosci <- dane2 %>%
  transmute(Coapplicant_Income) %>%
  filter(Coapplicant_Income>0)

wartosci <- c(min(wartosci$Coapplicant_Income),max(wartosci$Coapplicant_Income), quantile(wartosci$Coapplicant_Income, 0.25), round(median(wartosci$Coapplicant_Income,0.5),2), quantile(wartosci$Coapplicant_Income, 0.75), round(mean(wartosci$Coapplicant_Income),2), round(sd(wartosci$Coapplicant_Income),2), round(skew(wartosci$Coapplicant_Income),2), round(kurtosi(wartosci$Coapplicant_Income),2))

raport <- data.frame(statystyka,wartosci) 
raport %>% formattable()
statystyka wartosci
Min 16.12
Max 6666.00
Q1 1625.00
Mediana 2079.00
Q3 2857.00
Úrednia 2333.43
Odch. std. 1164.50
Skoƛnoƛć 1.09
Kurtoza 1.23

Obserwacja: Pod uwagę są brani jedynie wspóƂwnioskodawcy, którzy wykazują przychody.

  • Úrednio aplikanci zarabiają 4104.

  • DochĂłd wspóƂwnioskodawcy, o najmniejszej wartoƛci byƂ rĂłwny 16.12,

  • NajwyĆŒszy dochĂłd wspóƂwnioskodawcy wyniĂłsƂ 6666,

  • 25% wspóƂwnioskodawcĂłw miaƂa mniejszy dochĂłd niĆŒ 1625

  • 75% wspóƂwnioskodawcĂłw miaƂa dochĂłd wyĆŒszy niĆŒ 2857

  • 50% wspóƂwnioskodawcĂłw miaƂa niĆŒszy niĆŒ dochĂłd niĆŒ 2079 (tym samym druga poƂowa miaƂa dochĂłd wyĆŒszy niĆŒ 3597)

  • Úrednio o 1164.5 dochody wspóƂwnioskodawcĂłw odchylaƂ się od ich ƛredniego dochodu.




Loan Amount

dane2 %>%
  dplyr::select(Loan_Amount) %>%
  ggplot(aes(x = Loan_Amount)) +
  geom_density(fill="#A3b5c0", alpha=0.4) +
  geom_vline(aes(xintercept = mean(Loan_Amount, na.rm = T)), 
               colour = "pink3", linetype ="longdash", size = .7)+
  geom_vline(aes(xintercept = median(Loan_Amount, na.rm = T)), 
               colour = "royalblue3", linetype ="longdash", size = .7)+
  geom_vline(aes(xintercept = quantile(Loan_Amount, probs = 0.25, na.rm = T)), 
               colour = "darkseagreen4", linetype ="longdash", size = .7)+
    geom_vline(aes(xintercept = quantile(Loan_Amount, probs = 0.75, na.rm = T)), 
               colour = "gold3", linetype ="longdash", size = .7)+
  ggtitle("Loan Amount")+
  xlab("") +
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

Oznaczenia na wykresie: ƛrednia- rĂłĆŒowy, mediana- niebieski, Q1-zielony, Q3-ĆŒĂłĆ‚ty

statystyka <- c("Min", "Max", "Q1","Mediana","Q3" ,"ƚrednia", "Odch. std.", "Skoƛnoƛć","Kurtoza")
wartosc <- c(min(dane2$Loan_Amount),max(dane2$Loan_Amount), quantile(dane2$Loan_Amount, 0.25), round(median(dane2$Loan_Amount,0.5),2), quantile(dane2$Loan_Amount, 0.75), round(mean(dane2$Loan_Amount),2), round(sd(dane2$Loan_Amount),2), round(skew(dane2$Loan_Amount),2), round(kurtosi(dane2$Loan_Amount),2))

raport <- data.frame(statystyka,wartosc) 
raport %>% formattable()
statystyka wartosc
Min 9.00
Max 280.00
Q1 99.00
Mediana 122.00
Q3 155.00
Úrednia 127.63
Odch. std. 47.40
Skoƛnoƛć 0.59
Kurtoza 0.66

Obserwacja:

  • Úrednio aplikanci wnioskują o kredyt w wysokoƛci 127.63,

  • NajniĆŒszy wniosek o kredyt byƂ rĂłwny 9,

  • NajwyĆŒszy dochĂłd klienta wyniĂłsƂ 280,

  • 25% wnioskĂłw byƂa na kwotę niĆŒszą niĆŒ 99,

  • 75% wnioskĂłw byƂa na kwotę wyĆŒszą niĆŒ 155,

  • 50% wnioskĂłw byƂa na kwotę niĆŒszą niĆŒ 122 (tym samym druga poƂowa na kwotę wyĆŒszy niĆŒ 122),

  • Úrednio o 47.4 kwoty na wniioskach poĆŒyczkowych odchylają się od ƛredniej kwoty, na ktĂłrą zaciągane są zobowiązania.




Korelacja

Korelacja to miara kierunku i siƂy związku między dwiema zmiennymi. Jej wartoƛć zawiera się w przedziale od -1 do 1. Korelacja bliska zeru sugeruje brak istotnej zaleĆŒnoƛci liniowej między zmiennymi - ale nie oznacza, ĆŒe nie ma między nimi innych związkĂłw. Gdy wartoƛć korelacji jest bliska 1, to obydwie zmienne rosną lub maleją razem, a gdy jest bliska -1, to wzrostom wartoƛci jednej ze zmiennych towarzyszą spadki wartoƛci drugiej.


Gdy badamy więcej niz dwie zmienne, moĆŒemy przedstawić ich wspóƂczynniki korelacji w postaci jednej macierzy. W naszym przypadku uĆŒyliƛmy funkcji hetcor, aby zbadać wspóƂczynniki korelacji liniowej Pearsona między zmiennymi numerycznymi (“Loan Amount”, “Applicant Income”, “Coapplicant Income”, i “Loan Amount Term”), wspóƂczynniki korelacji polichorycznej między zmiennymi czynnikowymi (“Loan Status”, “Gender”, “Credit History”, “Property Area” i “Dependents”) oraz wspóƂczynniki korelacji wieloseryjnej między zmiennymi czynnikowymi a numerycznymi.



Korelacje między decyzją o przyznaniu kredytu a innymi zmiennymi

  • Z macierzy korelacji dowiadujemy się, ĆŒe zmienna najsilniej skorelowaną z decyzją o przyznaniu kredytu jest posiadanie historii kredytowej - wspóƂczynnik korelacji wynosi w tym przypadku aĆŒ 0,87.

  • SƂabszą, ale wciÄ…ĆŒ istotną korelację pozytywną wykazują pƂeć męska, dochĂłd wspóƂmaĆ‚ĆŒonka i iloƛc posiadanych dzieci - tu wspóƂczynniki wynoszą odpowiednio 0,16, 0,09 oraz 0,06.

  • W przypadku poƂoĆŒenia nieruchomoƛci moĆŒna zwrĂłcic uwagę na delikatną korelację pozytywną decyzji o przyznaniu kredytu z terenami miejskimi raczej niĆŒ wiejskimi - wspóƂczynnik korelacji polichorycznej wyniĂłsƂ dla tej pary zmiennych 0,04.

  • Co ciekawe, wspóƂczynniki korelacji pomiędzy decyzją o przyznaniu kredytu a dochodem klienta, okresem kredytowania i wysokoƛcią poĆŒyczki są bliskie zeru, co sugeruje brak bezpoƛredniego związku między zmiennymi.

Korelacje między pozostaƂymi zmiennymi

Interesujące są rĂłwnieĆŒ zaleĆŒnoƛci między zmiennymi wpƂywającymi na zdolnoƛć kredytową:

  • Występuje wyraĆșna, pozytywna korelacja między wysokoƛcia poĆŒyczki o ktĂłra wnioskuje klient a jego dochodem - wspóƂczynnik wynosi aĆŒ 0,53. moĆŒe to wyjaƛnić brak wyraĆșnej korelacji między tymi zmiennymi a decyzją banku - klienci o niĆŒszym dochodzie wydają się rezygnowac z ubiegania się o wyĆŒszą poĆŒyczkę juĆŒ na etapie skƂadania wniosku, więc decyzja banku pozornie nie jest skorelowana z ich dochodem i wysokoƛcia poĆŒyczki o jaką wnioskują - choć moĆŒna przypuszczać, ĆŒe taka korelacja by wystąpiƂa gdyby nie tego typu “samoograniczanie się” klientĂłw.

  • Doƛć znacząca jest tez korelacja między męską pƂcią klientĂłw a iloƛcią dzieci i dochodem wspóƂmaĆ‚ĆŒonka (wspóƂczynniki na poziomie odpowiednio 0,4 i 0,32) - sugeruje to, ĆŒe w przypadku maĆ‚ĆŒeƄstw korzystających z kredytu hipotecznego maĆ‚ĆŒonkiem, ktĂłry bierze kredyt jest częƛciej mÄ…ĆŒ niĆŒ ĆŒona.

  • MÄ™ĆŒczyĆșni wydaja się teĆŒ skƂonni do zaciągania większych kredytĂłw oraz akceptowania krĂłtszego okresu kredytowania - wspóƂczynniki korelacji między pƂcią męską a wysokoƛcia poĆŒyczki i okresem jej spƂaty wynoszą odpowiednio 0,16 i -0,15.

  • Mozna zaobserwowac ujemna korelacje na poziomie -0,26 pomiędzy dochodem klienta a dochodem jego wspóƂmaĆ‚ĆŒonka. MoĆŒna wiec przypuszczać, ĆŒe wƛrĂłd maĆ‚ĆŒeƄstw występujących z wnioskiem o kredyt hipoteczny występują rĂłĆŒnice w dochodzie obydwu maĆ‚ĆŒonkĂłw.

  • DochĂłd wspóƂmaĆ‚ĆŒonka jest dodatnio skorelowany z wysokoƛcia poĆŒyczki o jaka klient wnioskuje. WspóƂczynnik tej korelacji wynosi jednak 0,26, jest więc okoƂo dwukrotnie niĆŒszy niĆŒ w przypadku dochodu samego klienta.

  • Klienci starający sie o kredyt hipoteczny na nieruchomoƛc poƂozona na terenie wiejskim charakteryzują się niĆŒszym dochodem - zarĂłwno wƂasnym jak i wspóƂmaĆ‚ĆŒonka wspóƂczynniki wynoszą odpowiednio -0,05 i -0,07) - oraz wnioskują o niĆŒsze kredyty z krĂłtszym terminem zapadalnoƛci (wspóƂczynniki korelacji na poziomie -0,1 i -0,08). Sugeruje to, ĆŒe wƛrĂłd klientĂłw występują nierĂłwnoƛci dochodowe i majątkowe uzaleĆŒnione od miejsca zamieszkania.

  • Wraz z liczbą posiadanych dzieci roƛnie dochĂłd klienta, ale spada dochĂłd jego wspóƂmaĆ‚ĆŒonka - wspóƂczynniki korelacji wynoszą tu odpowiednio 0,14 i -0,05. MoĆŒe to sugerować, ĆŒe niekiedy w tej sytuacji jedno z maĆ‚ĆŒonkĂłw w większym stopniu skupia sie na wychowaniu dzieci i jego dochĂłd spada.

  • Co więcej, liczba posiadanych dzieci jest dodatnio skorelowane z wysokoƛcią kredytu o jaki wnioskuje klient i negatywnie skorelowana z terminem kredytowania - wspóƂczynniki korelacji wynoszą odpowiednio 0,15 oraz -0,1. MoĆŒe to sugerować, ĆŒe klienci mogący sobie pozwolić na wyĆŒsze kredyty i krĂłtsze okresy kredytowania mogą rĂłwnieĆŒ utrzymać więcej dzieci.

dane_do_macierzy <- data.frame(dane2$Loan_Status, dane2$Loan_Amount, dane2$Applicant_Income, dane2$Coapplicant_Income, dane2$Loan_Amount_Term, dane2$Dependents,  dane2$Gender, dane2$Credit_History, dane2$Property_Area)
as.tibble(dane_do_macierzy)
etykiety <- c("Loan Status", "Loan Amount", "Applicant Income", "Coapplicant Income", "Loan Amount Term", "Dependents", "Gender", "Credit History", "Property Area")
macierz_korelacji <- polycor::hetcor(dane_do_macierzy)
print(macierz_korelacji)
wspolczynniki_korelacji <- macierz_korelacji$correlations
korelogram <- corrgram(wspolczynniki_korelacji, 
                       order = FALSE, 
                       labels = etykiety,
                       
                       diag.panel = panel.histogram, 
                       upper.panel=panel.pie, 
                       col.regions = colorRampPalette(c("#A3b5c0","#eee2d4", "yellow4", "gray92","#959595","blue4","pink3"))
                       )

5. EDA, czyli Eksploracyjna Analiza Danych

EDA to zestaw interaktywnych i wizualnych technik analizy zbioru danych bez bardziej precyzyjnego wskazania celu eksploracji.

EDA pozwala na:

  • zgƂębienie zbioru danych,

  • sprawdzenie zaleĆŒnoƛci między atrybutami,

  • opracowanie wstępnych wnioskĂłw dotyczących prawidƂowoƛci w zbiorze przykƂadĂłw.


Analiza jednowymiarowa

Celem tej częƛci projektu jest prezentacja w postaci wykresĂłw zaleĆŒnoƛci między decyzją kredytową a poszczegĂłlnymi zmiennymi jakoƛciowymi i iloƛciowymi. Sprawdzimy jak poszczegĂłlne zmienne objaƛniające wpƂywaja na zmienna objaƛnianą.

Zmienne jakoƛciowe

Sprawdzimy jak dane cechy wpƂywają na podejmowanie decyzji kredytowej.

Gender

Zmienna “Gender” nie ma znaczącego wpƂywu na ksztaƂtowanie się zdolnoƛci kredytowej. ZauwaĆŒalna jest nieznaczna rĂłĆŒnica pomiędzy liczbą udzielanych kredytĂłw na korzyƛć mÄ™ĆŒczyzn.

dane2 %>%
  dplyr::select(Gender,Loan_Status) %>%
  filter(Gender==c("Female", "Male")) %>%
  group_by(Gender) %>%
  count(Loan_Status) %>%
  ggplot(aes(x = Gender, y = n, fill = Loan_Status)) +
  geom_col(position = "fill",colour = "gray20", alpha=0.7, width = .7) +
  scale_fill_manual(values=c("#A3b5c0","#e5e0d8"), labels=c("No", "Yes"))+
  labs(fill="Loan Status")+
  ggtitle("Gender")+
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

Dependents

Co ciekawe, najczęƛciej odmawiane są kredyty osobom, które mają tylko 1 osobę na utzymaniu. Dla braku osób na utrzymanej, 2 osób oraz 3 i więcej zdolnoƛć kredytowa jest podobna.

dane2 %>%
 dplyr:: select(Dependents,Loan_Status) %>%
  filter(Dependents==c("0", "1", "2","3+")) %>%
  group_by(Dependents) %>%
  count(Loan_Status) %>%
  ggplot(aes(x = Dependents, y = n, fill = Loan_Status)) +
  geom_col(position = "fill",colour = "gray20", alpha=0.7, width = .7) +
  scale_fill_manual(values=c("#A3b5c0","#e5e0d8"), labels=c("No", "Yes"))+
  labs(fill="Loan Status")+
  ggtitle("Dependents")+
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

Education

Osobom, ktĂłre ukoƄczyƂy szkoƂę częƛciej są udzielane poĆŒyczki, niĆŒ osobom, ktĂłre jej nie ukoƄczyƂy. MoĆŒe to wynikać z faktu, ĆŒe zazwyczaj osoby po szkole mają lepiej pƂatną pracę.

dane2 %>%
  dplyr::select(Education,Loan_Status) %>%
  filter(Education==c("Graduate", "Not Graduate")) %>%
  group_by(Education) %>%
  count(Loan_Status) %>%
  ggplot(aes(x = Education, y = n, fill = Loan_Status)) +
  geom_col(position = "fill",colour = "gray20", alpha=0.7, width = .7) +
  scale_fill_manual(values=c("#A3b5c0","#e5e0d8"), labels=c("No", "Yes"))+
  labs(fill="Loan Status")+
  ggtitle("Education")+
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

Self Employed

WskaĆșnik dla obu grup ksztaƂtuje się na podobnym poziomie.

dane2 %>%
  dplyr::select(Self_Employed,Loan_Status) %>%
  filter(Self_Employed==c("Yes", "No")) %>%
  group_by(Self_Employed) %>%
  count(Loan_Status) %>%
  ggplot(aes(x = Self_Employed, y = n, fill = Loan_Status)) +
  geom_col(position = "fill",colour = "gray20", alpha=0.7, width = .7) +
  scale_fill_manual(values=c("#A3b5c0","#e5e0d8"), labels=c("No", "Yes"))+
  labs(fill="Loan Status")+
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

Credit Hisory

Widoczna jest znacząca rĂłĆŒniaca. Tylko niecaƂe 10% osĂłb bez zdolnoƛci kredytowej, dostaje pozytywną odpowiedĆș w sprawie kredytu. Jeƛli ktoƛ ma historię kredytową jego szansa na pozytywne rozpatrzenie winosku wynosi ok 80%.

dane2 %>%
  dplyr::select(Credit_History,Loan_Status) %>%
  filter(Credit_History==c("1", "0")) %>%
  group_by(Credit_History) %>%
  count(Loan_Status) %>%
  ggplot(aes(x = Credit_History, y = n, fill = Loan_Status)) +
  geom_col(position = "fill",colour = "gray20", alpha=0.7, width = .7) +
  scale_fill_manual(values=c("#A3b5c0","#e5e0d8"), labels=c("No", "Yes"))+
  labs(fill="Loan Status")+
  ggtitle("Credit History")+
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

Proparty Area

RĂłĆŒnice są niewielkie. Najwięcekszy odsetek osĂłb, ktĂłrym zostaje udzielony kredyt, pochodzą z obszarĂłw póƂmiejskich, zaƛ najmniejszy osoby z obszarĂłw wiejskich.

dane2 %>%
  dplyr::select(Property_Area,Loan_Status) %>%
  group_by(Property_Area) %>%
  count(Loan_Status) %>%
  ggplot(aes(x = Property_Area, y = n, fill = Loan_Status)) +
  geom_col(position = "fill",colour = "gray20", alpha=0.7, width = .7) +
  scale_fill_manual(values=c("#A3b5c0","#e5e0d8"), labels=c("No", "Yes"))+
  labs(fill="Loan Status")+
  ggtitle("Property Area")+
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

Zmienna Iloƛciowe

Aplicant Income

Wysokoƛć dochodu nie wpƂywa w istotnym stopniu na decyzję o tym czy kredyt zostanie przyznany. Dochód osoby aplikującej ksztaƂtuje się podobnie zarówno dla decyzji pozytywnych jak i negatywnych.

ggplot(dane2, aes(x=Applicant_Income, fill=Loan_Status)) +
    geom_histogram( color="gray20",alpha=.5, position = 'identity') +
  scale_fill_manual(values=c("#A3b5c0","#e5e0d8"), labels=c("No", "Yes"))+
  labs(fill="Loan Status")+
    theme_minimal()+
    theme(text=element_text(size = 12), plot.title = element_text(hjust = 0.5))

Coaplicant Income

Sytuacja prezentuje się w ten sam sposób dla zmiennej Coapplicant Income.

ggplot(dane2, aes(x=Coapplicant_Income, fill=Loan_Status)) +
    geom_histogram( color="gray20", alpha=0.5, position = 'identity') +
  scale_fill_manual(values=c("#A3b5c0","#e5e0d8"), labels=c("No", "Yes"))+
  labs(fill="Loan Status")+
    theme_minimal()+
    theme(text=element_text(size = 12), plot.title = element_text(hjust = 0.5))

Loan Amount Term

Najwięcej kredytów jest branych na okres roku. Czas nie wpƂywa w stopniu istotnym na decyzję o udzieleniu kredytu.

ggplot(dane2, aes(x=Loan_Amount_Term, fill=Loan_Status)) +
    geom_histogram( color="gray20", alpha=0.5, position = 'identity') +
  scale_fill_manual(values=c("#A3b5c0","#e5e0d8"), labels=c("No", "Yes"))+
  labs(fill="Loan Status")+
    theme_minimal()+
    theme(text=element_text(size = 12), plot.title = element_text(hjust = 0.5))

Loan_Amount

Wysokoƛć poĆŒyczki nie jest czynnikiem decydującym o tym czy kredyt zostanie przyznany. Proporcje rozkƂadają się w podobny sposĂłb.

ggplot(dane2, aes(x=Loan_Amount, fill=Loan_Status)) +
    geom_histogram( color="gray20", alpha=0.5, position = 'identity') +
  scale_fill_manual(values=c("#A3b5c0","#e5e0d8"), labels=c("No", "Yes"))+
  labs(fill="Loan Status")+
  xlab("Loan Status")+
    theme_minimal()+
    theme(text=element_text(size = 12), plot.title = element_text(hjust = 0.5))

Analiza wielowymiarowa

Widzimy, ĆŒe osoby bez historii kredytowej praktycznie nie mają szansy aby dostaną kredytu w naszym banku (wyk1). Jeƛli, klient ma historię kredytową (wyk2) i kwota na jaką chce zaciągnąć kredyt nie przekracza 0,04 ze stosunku Loan_Amount/(Applicant_Income+Coapplicant_Income) to ma duĆŒe szansę na pozytyną odpowiedĆș. Jeƛli stosunek wykracza ponad 0.04, jest zdyskwalifikowany z moĆŒliwoƛci zaciągnięcia kredytu, nawet jeƛli posiada historię kredytową.

dane2 %>%
  drop_na(Credit_History) %>%
  ggplot( aes(x=Loan_Amount/(Applicant_Income+Coapplicant_Income), fill=Loan_Status)) +
    geom_histogram(color="gray20", alpha=0.5, position = 'identity') +
  scale_fill_manual(values=c("#A3b5c0","#e5e0d8"), labels=c("No", "Yes"))+
  labs(fill="Loan Status")+
    facet_grid(~Credit_History)+
    theme_minimal()+
    theme(text=element_text(size = 12), plot.title = element_text(hjust = 0.5))

Weryfikacja zdolnoƛci kredytowej klientów oczekujących

Sprawdzamy powiązanie pomiędzy zmienną objaƛnianą, a zmiennymi objaƛniającymi. Tak naprawdę istotna statystycznie jest jedynie zmienna Credit_History. Model logitowy w tym przypadku byƂby nieefetywny. NaleĆŒy więc znaleĆșć inne rozwiązanie, w oparciu o ktĂłre będą podejmowane decyzje kredytowe.

summary(glm(Loan_Status ~ Gender + Applicant_Income + Married + Dependents + Education + Self_Employed + Coapplicant_Income + Loan_Amount + Loan_Amount_Term + Credit_History + Property_Area , data = dane2, family = "binomial")) 
## 
## Call:
## glm(formula = Loan_Status ~ Gender + Applicant_Income + Married + 
##     Dependents + Education + Self_Employed + Coapplicant_Income + 
##     Loan_Amount + Loan_Amount_Term + Credit_History + Property_Area, 
##     family = "binomial", data = dane2)
## 
## Coefficients:
##                          Estimate Std. Error z value           Pr(>|z|)    
## (Intercept)            -3.5586101  1.0396236   -3.42            0.00062 ***
## GenderMale              0.6389214  0.3555258    1.80            0.07232 .  
## Applicant_Income        0.0000830  0.0000964    0.86            0.38928    
## MarriedYes              0.3037559  0.3282168    0.93            0.35472    
## Dependents1            -0.2707238  0.3802473   -0.71            0.47648    
## Dependents2             0.1662815  0.4096429    0.41            0.68480    
## Dependents3+            0.4637033  0.5539328    0.84            0.40253    
## EducationNot Graduate  -0.4626491  0.3203789   -1.44            0.14872    
## Self_EmployedYes       -0.4417265  0.4054680   -1.09            0.27597    
## Coapplicant_Income      0.0001620  0.0001238    1.31            0.19089    
## Loan_Amount            -0.0049203  0.0038161   -1.29            0.19728    
## Loan_Amount_Term        0.0005754  0.0020558    0.28            0.77957    
## Credit_History1         3.9666548  0.5058218    7.84 0.0000000000000044 ***
## Property_AreaSemiurban  0.9594574  0.3341797    2.87            0.00409 ** 
## Property_AreaUrban      0.0666799  0.3306927    0.20            0.84020    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 518.38  on 424  degrees of freedom
## Residual deviance: 368.35  on 410  degrees of freedom
##   (93 obserwacje zostaƂy skasowane z uwagi na braki w nich zawarte)
## AIC: 398.3
## 
## Number of Fisher Scoring iterations: 5

Jako dziaƂ usprawnieƄ procesĂłw decyzyjnych, w oparciu o przeprowadzoną analizę danych postanowiliƛmy, ĆŒe kredyty będą przyznawane jeƛli klient zdąbędzie okreƛloną iloƛć punktĂłw. MoĆŒemy jednoznacznie stwierdzić, ĆŒe dotychczasowe decyzje o przyznawaniu kredytĂłw byƂy randomowe, co negatywnie wpƂywaƂo na reputację i ekektywnoƛć dziaƂania naszego banku. Pozbędziemy się przypadkowowych decyzji. Dzięki opracowaniu modelu, wykluczymy przypadkowe decyzje kredytowe. Klientami naszego banku, będą klienci, ktĂłrzy będą w stanie regulować zobowiązanie.

prĂłba <- dane2 

Uzasadnienie punktacji:

  • Z wczeƛniejszej analizy wywnioskowaliƛmy, ĆŒe w oparciu o Credit_History, w gƂównej mierze wczeƛniej zostaƂy podejmowane decyzje o udzieleniu kredytu. Podejmując przyszƂe decyzje kredytowe historia kredytowa rĂłwnieĆŒ będzie znaczącym czynnikiem.

  • Najczęƛciej osoby z obszarĂłw podmiejskich otrzymywaƂy kredyty, rĂłwnieĆŒ tę zmienną postanowiliƛmy uwzględnić

  • Osoby w związku maĆ‚ĆŒeƄskim otrzymają dodatkowe 0.35 pkt. Są to osoby ustabilizowane.

  • Jako najwaĆŒniejszy skƂadnik w ocenie punktowej potraktujemy stosunek poĆŒyczki do caƂkowitych dochodĂłw.

  • Punkty za przychĂłd aplikanta, będą przyznawane zgodnie z wczeƛniej poznym rozkƂadem, tzn. 0 pkt jeƛli dochody są mniejsze niĆŒ Q1, 0.8 jeƛli dochody są mniejsze niĆŒ mediana, 1.6 jeƛli są większe niĆŒ mediana i mniejsze niĆŒ Q3, i 1.6 pkt jeƛli są większe niĆŒ Q3

  • Liczba osĂłb na utrzymaniu jest obciÄ…ĆŒenieniem dla osoby spƂacającej kredyt, dlatego jeƛli nie ma nikogo na utrzymaniu otrzyma 1 pkt, jeƛli zaƛ ma 3+ osĂłb otrzyma 0 pkt.

  • Punkty za przychĂłd wspóƂwnioskodawcy, będą przyznawane na podstawie wczeƛniejszego pozanego rozkƂadu tzn. 0 pkt jeƛli dochody coapplicanta są mniejsze niĆŒ Q1, 068 jeƛli dochody są mniejsze niĆŒ mediana, 0.8 jeƛli są większe niĆŒ mediana i mniejsze niĆŒ Q3, i 1.6 pkt jeƛli są większe niĆŒ Q3.

Maksymalna liczba punktĂłw do zdobycia to 11.05.

prĂłba <- prĂłba %>%
  dplyr::  mutate(pktCH = case_when(
      Credit_History =="1" ~ 3.5,
      Credit_History != "1" ~ 0 ))


prĂłba <- prĂłba %>%
  dplyr::  mutate(pktSemi = case_when(
      Property_Area =="Semiurban" ~ 0.3,
      Property_Area != "Semiurban" ~ 0 ))

prĂłba <- prĂłba %>%
  dplyr::  mutate(pktGen = case_when(
      Gender =="Male" ~ 0.2,
      Gender != "Male" ~ 0 ))

prĂłba <- prĂłba %>%
  dplyr::  mutate(pktMar = case_when(
      Married =="Yes" ~ 0.35,
      Married != "Yes" ~ 0 ))

prĂłba <- prĂłba %>%
  mutate("SKZ"=Loan_Amount/(Applicant_Income+Coapplicant_Income)) %>%
  mutate(pktSKZ= case_when( SKZ > 0.00 & SKZ <0.03 ~ 3,
                            SKZ > 0.03 & SKZ <0.035 ~ 2.5,
                            SKZ > 0.35 ~ -8 ))

prĂłba <- prĂłba %>%
  dplyr:: mutate(pktINC= case_when( Applicant_Income >=  0   & Applicant_Income < 2764 ~ 0,
                                    Applicant_Income >= 2764 & Applicant_Income < 4104 ~ 0.8,
                                    Applicant_Income >= 4104 & Applicant_Income < 4931 ~ 1.6,
                                    Applicant_Income >= 4931 ~ 2))

prĂłba <- prĂłba %>%
  mutate(pktDEP= case_when( Dependents =="0" ~ 0.7,
                            Dependents =="1" ~ 0.4,
                            Dependents =="2" ~ 0.2,
                            Dependents =="3+" ~ 0))


prĂłba <- prĂłba %>%
  mutate(pktCOAPP= case_when( Coapplicant_Income == 0 ~ 0,
                              Coapplicant_Income > 0    & Coapplicant_Income < 1625 ~ 0.2,
                              Coapplicant_Income >= 1625 & Coapplicant_Income < 2079 ~ 0.4,
                              Coapplicant_Income >= 2079 & Coapplicant_Income < 2857 ~ 0.6,
                              Coapplicant_Income >= 2857 ~ 1))


prĂłba <- prĂłba %>%
 mutate(wynik = pktCH + pktSemi + pktGen + pktSKZ+ pktMar+ pktINC+ pktDEP+ pktCOAPP)

prĂłba  %>%
  dplyr:: select(wynik, Loan_Status) %>%
  group_by(Loan_Status) %>%
  drop_na() %>%
  dplyr::summarise(mean(wynik), min(wynik), max(wynik))  %>%
  formattable(align ="c")
Loan_Status mean(wynik) min(wynik) max(wynik)
N 7.15833 3.45 11.05
Y 8.78349 4.80 11.05
prĂłba <- prĂłba %>%
  transmute(Loan_ID, Gender, Applicant_Income , Married , Dependents , Education , Self_Employed , Coapplicant_Income , Loan_Amount , Loan_Amount_Term , Credit_History , Property_Area, Loan_Status, wynik)

prĂłba  %>%
  dplyr:: select(wynik, Loan_Status) %>%
  group_by(Loan_Status) %>%
  drop_na() %>%
  ggplot(aes(wynik, colour=Loan_Status, group=Loan_Status, fill=Loan_Status)) +
    geom_density(color="gray20", alpha=0.5, position = 'identity') +
    scale_fill_manual(values = c("#A3b5c0", "#e5e0d8")) +
    theme_minimal()+
    theme(text=element_text(size = 12), plot.title = element_text(hjust = 0.5))

Wyniki są bardzo ciekawe, poniewaĆŒ jedna częƛć decyzji o negatywnych, zostaƂa sƂusznie odrzucona (od 0 do 7 pkt), ale pĂłĆșniej widzimy, ĆŒe z jakiegoƛ powodu spora częƛć osĂłb, ktĂłra zdobyƂa znaczącą iloƛć punktĂłw, miaƂa niesƂusznie odrzucone wnioski (lub z nieznanych nam powodĂłw, wykraczających poza zakres dostępnych danych- np. te osoby mogƂy być karane, co na starcie skreƛla je z moĆŒliwoƛci otrzymania kredytu, jednak nie zostaƂy nam dostarczone tego typu informacje, przez co obniĆŒona jest efektywnoƛć naszej analizy). Jeƛli nasz dziaƂ uzyska informacje na ten temat, zaktualizuje obecnie przyjęty model podejmowania decyzji. Co do wnioskĂłw rozpatrzonych pozytywnie, nie ma nieƛcisƂoƛci. Widzimy, ĆŒe w tej grupie są tylko aplikanci, ktĂłrzy zdobyli powyĆŒej 7 pkt, i tym samym dostawali kredyt.



Decyzje o przyznaniu kredytu klientów oczekujących

ETAP 1

Weryfikacja, czy dane zostaƂy uzupeƂnione poprawnie, czy podstawowe zaƂoĆŒnienia są speƂnione. DwĂłch klientĂłw nie wykazuje ĆŒadnych dochodĂłw, co teĆŒ na wstępnie dyskwalifikuje ich z dalszej weryfikacji zdolnoƛci kredytowej

summary(confront(dane1, rules)) %>%
  formattable(align ="c")
name items passes fails nNA error warning expression
V01 367 367 0 0 FALSE FALSE Married != “Yes” | (Coapplicant_Income - 0 >= -0.00000001)
V02 367 367 0 0 FALSE FALSE Married %vin% c(“Yes”, “No”)
V03 367 356 0 11 FALSE FALSE Gender %vin% c(“Female”, “Male”)
V04 367 357 0 10 FALSE FALSE Dependents %vin% c(“0”, “1”, “2”, “3+”)
V05 367 367 0 0 FALSE FALSE Education %vin% c(“Graduate”, “Not Graduate”)
V06 367 344 0 23 FALSE FALSE Self_Employed %vin% c(“Yes”, “No”)
V07 367 365 2 0 FALSE FALSE Applicant_Income > 0
V08 367 367 0 0 FALSE FALSE Coapplicant_Income - 0 >= -0.00000001
V09 367 362 0 5 FALSE FALSE Loan_Amount > 0
V10 367 361 0 6 FALSE FALSE Loan_Amount_Term > 0
V11 367 338 0 29 FALSE FALSE Credit_History %vin% c(“1”, “0”)
V12 367 367 0 0 FALSE FALSE Property_Area %vin% c(“Urban”, “Semiurban”, “Rural”)

ETAP 2

Zastosowanie punktacji do weryfikacji czy klient ma zdolnoƛć kredytową

dane1 <- dane1 %>%
  dplyr::  mutate(pktCH = case_when(
      Credit_History =="1" ~ 3.5,
      Credit_History != "1" ~ 0 ))

dane1 <- dane1 %>%
  dplyr::  mutate(pktSemi = case_when(
      Property_Area =="Semiurban" ~ 0.3,
      Property_Area != "Semiurban" ~ 0 ))

dane1 <- dane1 %>%
  dplyr::  mutate(pktGen = case_when(
      Gender =="Male" ~ 0.2,
      Gender != "Male" ~ 0 ))

dane1 <- dane1 %>%
  dplyr::  mutate(pktMar = case_when(
      Married =="Yes" ~ 0.35,
      Married != "Yes" ~ 0 ))


dane1 <- dane1 %>%
  mutate("SKZ"=Loan_Amount/(Applicant_Income+Coapplicant_Income)) %>%
  mutate(pktSKZ= case_when( SKZ > 0.00 & SKZ <0.03 ~ 3,
                            SKZ > 0.03 & SKZ <0.035 ~ 2.5,
                            SKZ > 0.35 ~ -8 ))

dane1 <- dane1 %>%
  dplyr:: mutate(pktINC= case_when( Applicant_Income >=  0   & Applicant_Income < 2764 ~ 0,
                                    Applicant_Income >= 2764 & Applicant_Income < 4104 ~ 0.8,
                                    Applicant_Income >= 4104 & Applicant_Income < 4931 ~ 1.6,
                                    Applicant_Income >= 4931 ~ 2))

dane1 <- dane1 %>%
  mutate(pktDEP= case_when( Dependents =="0" ~ 0.7,
                            Dependents =="1" ~ 0.4,
                            Dependents =="2" ~ 0.2,
                            Dependents =="3+" ~ 0))

dane1 <- dane1 %>%
  mutate(pktCOAPP= case_when( Coapplicant_Income == 0 ~ 0,
                              Coapplicant_Income > 0    & Coapplicant_Income < 1625 ~ 0.2,
                              Coapplicant_Income >= 1625 & Coapplicant_Income < 2079 ~ 0.4,
                              Coapplicant_Income >= 2079 & Coapplicant_Income < 2857 ~ 0.6,
                              Coapplicant_Income >= 2857 ~ 1))


dane1 <- dane1 %>%
 mutate(wynik = pktCH + pktSemi + pktGen + pktSKZ+ pktMar+ pktINC+ pktDEP+ pktCOAPP)


dane1 <- dane1 %>%
  mutate(Loan_Status=case_when(wynik >=7.51 ~ "Y",
                               wynik < 7.51 ~ "N"))

dane1  %>%
  dplyr:: select(wynik, Loan_Status) %>%
  group_by(Loan_Status) %>%
  drop_na() %>%
  dplyr::summarise(mean(wynik), min(wynik), max(wynik)) %>%
  formattable(align ="c") 
Loan_Status mean(wynik) min(wynik) max(wynik)
N 5.83525 3.45 7.50
Y 9.03392 7.55 10.75
dane1 <- dane1 %>%
  transmute(Loan_ID, Gender, Applicant_Income , Married , Dependents , Education , Self_Employed , Coapplicant_Income , Loan_Amount , Loan_Amount_Term , Credit_History , Property_Area, Loan_Status, wynik)

dane1  %>%
  dplyr:: select(Loan_Status) %>%
  group_by(Loan_Status) %>%
  drop_na() %>%
  count(Loan_Status) %>%
  formattable(align ="c") 
Loan_Status n
N 61
Y 227

W oparciu o opracowaną punktację 61 wniosków zostaƂo odrzuconych, 227 zaakceptowanych. Dzięki opracowanej punktacji, decyzje o udzielaniu kredytów będą miaƂy uzasadnienie, skrócimy czas potrzebny do podjęcia decyzji oraz uporamy się z problemem przypadkowoƛci.


Wiskowanie statystyczne

PYTANIA BADAWCZE:
- Czy wysokoƛć kredytu zaleĆŒy od caƂkowitego dochodu (aplikanta i wspóƂaplikanta)? Sprawdzanie za pomocą ANOVA – testowanie istotnoƛci wspóƂczynnikĂłw regresji liniowej

mod <- stats::aov(Loan_Amount~ Applicant_Income + Coapplicant_Income, dane2)
ggcoefstats(mod)

Bardzo niski wspóƂczynnik pvalue ƛwiadczy o istotnoƛci parametrów. Im mniejsze wartoƛci Kryterium Informacyjnego Akaike’a (AIC) i Kryterium Informacyjnego Bayesa (BIC), tym „lepszy” jest model. Poziome proste pokazują przedziaƂy 95% obserwacji odpowiednio dla zmiennej Coapplicant Income i Applicant Income. Ponadto pokazana jest statystyka testu F i Chi dla wybranych ziennych.

Wnioski koƄcowe

W procesie analizy EDA okazaƂo się, ĆŒe wysokoƛć dochodĂłw praktycznie nie decyduje o zdolnoƛci kredytowej klientĂłw, toteĆŒ nasza hitpoteza zostaƂa odrzucona. W oparciu o przeprowadzoną analizę oraz uzasadnione przesƂanki opracowaliƛmy model, ktĂłry przyznaje punkty w oparciu o okreƛlone kryteria i na tej podstawie zostaje podjęta decyzja o udzieleniu kredytu. (Nasz model wymaga jednak dopracowania, szczegĂłlnie w konkekƛcie osĂłb, ktĂłre otrzymaƂy wysoką liczbę punktĂłw, a z nieznanych nam powodĂłw ich wnioski zostaƂy odrzucone. Po uwazględnieniu takich dodatkowych danych, wykraczających poza zakres dostępnych obecnie danych, model naleĆŒaƂoby uaktualnić, ĆŒeby staƂ się bardziej efektywny).

