• Grupa D: Alicja Kuban, MichaƂ Gross
  • 2024-01-23


ZATWIERDZENIE KREDYTU MIESZKANIOWEGO


Projekt zespoƂowy z przedmiotu Analiza Danych



Wprowadzenie

Kim jesteƛmy?

Jesteƛmy firma, zajmującą się udzielaniem kredytów mieszkaniowych.DziaƂamy na obszarach miejskich, póƂmiejskich oraz wiejskich. Nasz klient najpierw ubiega się o kredyt mieszkaniowy, a następnie weryfikujemy, czy kwalifikuje się do jego otrzymania.


Nasze zadanie

Chcemy zautomatyzować proces przyznawania kredytów (w czasie rzeczywistym) w oparciu o dane klienta. W pierwszym etapie starania się o kredyt, klient wypeƂnia wniosek online, jeƛli speƂni wstępne wymagania, umawiamy się z nim na spotkanie, w celu weryfikacji danych i rozmowy o kredycie. Zadaniem naszego dziaƂu (Automatyzacji Procesów i UsprawnieƄ) jest zbudowanie modelu, który w oparciu o dane ankietowe, zbada czy nasz klient ma zdolnoƛci kredytową.


Dane jakimi dysponujemy

Posiadamy następujące dane na temat naszych klientów:

  • pƂeć,

  • stan cywilny,

  • wyksztaƂcenie,

  • liczbę osĂłb na utrzymaniu,

  • dochĂłd,

  • kwotę poĆŒyczki,

  • historię kredytową

  • czy kredyt zostaƂ udzielony (zmienna objaƛniana)


Cel

Zbadanie jakie warunki muszą być speƂnione, aby kredyt zostaƂ udzielony


Zakres analizy

  1. Okreƛlenie problemu

  2. Postawienie hipotez

  3. Przygotowanie systemu i zaƂadowanie danych

  4. Zrozumienie danych

  5. EDA

    • Przeprowadzanie analizy jednowymiarowej,

    • Przeprowadzenie analizy dwuwymiarowej


1. Okreƛlenie problemu

W oparciu o zebrane dane, chcemy usprawnić proces udzielania kredytĂłw, ktĂłry obecnie jest nieefektywny i pochƂania większoƛć czasu pracy naszych konsultantĂłw, ze względu na indywidualne rozpatrywanie sprawy kaĆŒdego potencjalnego klienta z osobna. Dzięki wprowadzeniu Modeleu Trustworthy AI w skoringu kredytowym, usprawnimy proces weryfikacji, W ciągu 3 minut potencalny klient, będzie wiedziaƂ czy ma zdolnoƛć kredytową, aby zaciągnąć kredyt w naszym banku.

Dzięki tym dziaƂaniom uporamy się z problemami firmy.

  • SkrĂłcimy czas potrzebny na wstępne stwierdzenie czy dany klient speƂnia wszelkie niezbędne wymagania, aby dostać kredyt.

  • Nasze decyzje będą poparte o wczeƛniejsze decyzje, tym samym będzie istniaƂo mniejsze ryzyko bƂędnej oceny kielnta.

  • Staniemy się bardziej efektywni, rzetelni i konkurencyjni.

  • Usprawnimy system przepƂywu informacji i dziaƂanie firmy.

  • Osiągniemy lepsze wyniki oraz będziemy mogli zredukować liczbę etatĂłw.


2. Postawienie hipotezy

GƂównym czynnikiem decydującym o tym, czy kredyt zostanie przyznany jest wysokoƛć dochodów aplikanta.


3. Przygotowanie systemu i zaƂadowanie danych

Przygotowanie systemu do pracy z danymi

ZaƂadownanie bibliotek, z których będziemy korzystać w dalej częƛci projektu. Dostosowanie globalnych ustawieƄ.

knitr::opts_chunk$set(echo = TRUE)
options(scipen = 999, digits=6) 
if(!require('DMwR')) install.packages("https://cran.r-project.org/src/contrib/Archive/DMwR/DMwR_0.4.1.tar.gz", repos=NULL, type="source", dependencies=TRUE)
library(tidyverse)
library(ggplot2)
library(rmdformats)
library(validate)
library(validatetools)
library(dcmodify)
library(errorlocate)
library(deductive)
library(VIM)
library(simputation)
library(lumberjack)
library(ISLR) 
library(dlookr)
library(xts)
library(quantmod)
library(ROCR)
library(DMwR)
library(Information)
library(scorecard)
library(naniar)
library(visdat)
library(shapeR)
library(arsenal)
library(e1071)
library(haven)
library(papeR)
library(dplyr)
library(tidyverse)
library(ggplot2)
library(kableExtra)
library(classInt)
library(pastecs)
library(desctable)
library(frequency)
library(corrplot)
library(ggpubr)
library(RColorBrewer)
library(wesanderson)
library(cowplot)
library(hrbrthemes)
library(scales)
library(formattable)
library('MASS')
library(rcompanion)
library(lsr)
library(vcd)
library(DescTools)
library(waffle)
library(cleanrmd)
library(thematic)
library(shiny)
library(showtext)
library(ragg)
library(distill)
library(rmdformats)
library(prettydoc)
library(hrbrthemes)
library(tint)
library(gapminder)
library(yaml)
library(rpart)
library(tidyverse)
library(pander)
library(modelr)
library(broom) 
library(caret)
library(ggplot2)
library(ROCR)
library(psych)
library(qwraps2)
library(ggpubr)
library(rstatix)
library(kableExtra)
library(datarium)
library("correlation")
library(polycor)
library(corrgram)
library(knitr)
library(flextable)







library(ggstatsplot)
library(dplyr)

ZaƂadowanie danych, na podstawie których zostanie przeprowadzona analiza. Są to następujące pliki: Hipoteczny1.csv, Hipoteczny2.csv, które zawierają dane klientów, ubiegających się o kredyt.

dane1 <- read.csv("Hipoteczny1.csv")
dane2 <- read.csv("Hipoteczny2.csv")


Organizacja pracy z danymi (wstępne czyszczenie i przegląd danych)

W celu usprawnienia pracy, dane będą przechowywane w formie tabeli “tabble”.

dane1 <- as.tibble(dane1)
dane2 <- as.tibble(dane2)

Dane1 z pliku Hipoteczny1.csv, w przeciwieƄstwie do danych2 z pliku Hipoteczny2.csv nie zawierają informacji, czy kredyt zostaƂ przyznany (Loan_Status). W związku z tym dane2 wykorzystamy do przeprowadzenia analizy, sprawdzimy co decyduje o zdolnoƛci kredytowej klientĂłw. Zaƛ dane1 potraktujemy jako wnioski naszych klientĂłw czekających na odpowiedĆș i w oparciu o przeprowadzoną analizę stwierdziemy, ktĂłrzy z nich dostaną pozytywną odpowiedĆș na wniosek kredytowy.

dane

dane1

formattable(head(dane1,7), align ="c")
Loan_ID Gender Married Dependents Education Self_Employed ApplicantIncome CoapplicantIncome LoanAmount Loan_Amount_Term Credit_History Property_Area
LP001015 Male Yes 0 Graduate No 5720 0 110 360 1 Urban
LP001022 Male Yes 1 Graduate No 3076 1500 126 360 1 Urban
LP001031 Male Yes 2 Graduate No 5000 1800 208 360 1 Urban
LP001035 Male Yes 2 Graduate No 2340 2546 100 360 NA Urban
LP001051 Male No 0 Not Graduate No 3276 0 78 360 1 Urban
LP001054 Male Yes 0 Not Graduate Yes 2165 3422 152 360 1 Urban
LP001055 Female No 1 Not Graduate No 2226 0 59 360 1 Semiurban

dane2


formattable(head(dane2,7), align ="c")
Loan_ID Gender Married Dependents Education Self_Employed ApplicantIncome CoapplicantIncome LoanAmount Loan_Amount_Term Credit_History Property_Area Loan_Status
LP001002 Male No 0 Graduate No 5849 0 NA 360 1 Urban Y
LP001003 Male Yes 1 Graduate No 4583 1508 128 360 1 Rural N
LP001005 Male Yes 0 Graduate Yes 3000 0 66 360 1 Urban Y
LP001006 Male Yes 0 Not Graduate No 2583 2358 120 360 1 Urban Y
LP001008 Male No 0 Graduate No 6000 0 141 360 1 Urban Y
LP001011 Male Yes 2 Graduate Yes 5417 4196 267 360 1 Urban Y
LP001013 Male Yes 0 Not Graduate No 2333 1516 95 360 1 Urban Y

Na samym początku porządkujemy dane rosnąco wedƂug “Loan_ID”

#dane2
dane2$Loan_ID <- str_replace(dane2$Loan_ID,"LP","LP ")
  
dane2 <- separate(dane2, col = "Loan_ID", c("Loan","ID"),sep = " ")

dane2$ID <- as.numeric(dane2$ID)
dane2 <- dane2 %>% 
  arrange(desc("Loan_ID"))

dane2 <- unite(dane2,"Loan_ID", "Loan", "ID", sep=" ")
dane2$Loan_ID <- str_replace(dane2$Loan_ID,"LP ","LP")



#dane1
dane1$Loan_ID <- str_replace(dane1$Loan_ID,"LP","LP ")
  
dane1 <- separate(dane1, col = "Loan_ID", c("Loan","ID"),sep = " ")

dane1$ID <- as.numeric(dane1$ID)
dane1 <- dane1 %>% 
  arrange(desc("Loan_ID"))


dane1 <- unite(dane1,"Loan_ID", "Loan", "ID", sep=" ")
dane1$Loan_ID <- str_replace(dane1$Loan_ID,"LP ","LP")

Następnie zamieniamy puste miejsca na NA

#dane2
dane2[dane2 == ''] <- NA

#dane1
dane1[dane1 == ''] <- NA

Kolejno zmieniamy klasę danych, aby Ƃatwiej się z nimi pracowaƂo.

#dane1
dane1$ApplicantIncome <- as.numeric(dane1$ApplicantIncome)
dane1$CoapplicantIncome <- as.numeric(dane1$CoapplicantIncome)
dane1$Dependents <- as.factor(dane1$Dependents)
dane1$Property_Area <- as.factor(dane1$Property_Area)
dane1$Gender <- as.factor(dane1$Gender)

#dane2
dane2$ApplicantIncome <- as.numeric(dane2$ApplicantIncome)
dane2$CoapplicantIncome <- as.numeric(dane2$CoapplicantIncome)
dane2$Dependents <- as.factor(dane2$Dependents)
dane2$Property_Area <- as.factor(dane2$Property_Area)
dane2$Gender <- as.factor(dane2$Gender)
dane2$Loan_Status <- as.factor(dane2$Loan_Status)

Widzimy, ĆŒe w niektĂłrych nazach zmiennych brakuje ” “, w celu lepszego wyglądu danych i efektywniejsze pracy, poprawiamy nazwy tych zmiennych

#dane1
dane1 <- dane1 %>%
  rename(Applicant_Income=ApplicantIncome) 

dane1 <- dane1 %>%
  rename(Coapplicant_Income=CoapplicantIncome) 

dane1 <- dane1 %>%
  rename(Loan_Amount=LoanAmount) 

dane1 <- dane1 %>%
  rename(Loan_ID=Loan_ID) 

#dane2
dane2 <- dane2 %>%
  rename(Applicant_Income=ApplicantIncome) 

dane2 <- dane2 %>%
  rename(Coapplicant_Income=CoapplicantIncome) 

dane2 <- dane2 %>%
  rename(Loan_Amount=LoanAmount) 

dane2 <- dane2 %>%
  rename(Loan_ID=Loan_ID) 

Dane zostaƂy zorganizowane.


Walidacja danych

NaleĆŒy sprawdzić poprawnoƛć danych2, do tego celu przeprowadzimy walidację danych. Nasze dane powinny speƂniać następujące warunki:

  • Jeƛli wnioskodawca jest w związku maĆ‚ĆŒeƄskim, to wĂłwczas tylko wtedy wspóƂwnioskodaca moĆŒe wykazywać dochody. (“Coapplicant Income” >=0, gdy “Married”= TRUE)

  • Status maĆ‚ĆŒeƄstwa moĆŒe przyjmować jedynie wartoƛci “tak” lub “nie”

  • PƂeć powinna przyjmować wartoƛć “kobieta” lub “mÄ™ĆŒczyzna”

  • Liczba osĂłb na utrzymaniu przyjmuje wartoƛci “0”, “1”, “2”, “3+”

  • Edukacja wartoƛć “po studiach”, “nie ukuoƄczyƂ studiĂłw”.

  • PrzychĂłd aplikanta musi być większy od 0, poniewaĆŒ w przeciwnym razie nie powinien on ubiegać się o kredy (nie będzie miaƂ jak go spƂacić).

  • PrzychĂłd wspóƂwnioskodacy moĆŒe przymować wartoƛć 0 w przypadku, gdy wspóƂwnioskodawca nie wykazuje ĆŒadnych dochodĂłw lub aplikant jest sam. Większe w przypadku gdy wspóƂwnioskodaca wykazuje jakieƛ dochody.

  • Kwota kredytu oraz termin muszą być większe od 0, ĆŒeby zaistniaƂo zdarzenie.

  • Historia kredytowa powinna przyjmować wartoƛć “1” jeƛli aplikant braƂ juĆŒ wczeƛniej kredyt, a “0” jeƛli jeszcze nie.

  • Aplikant moĆŒe pochodzić z miasta, ze wsi lub z terenĂłw podmiejskich.

rules <- validator(if(Married=="Yes") Coapplicant_Income >= 0, 
                   Married %in% c("Yes", "No"),
                   Gender %in% c("Female", "Male"), 
                   Dependents %in% c("0","1","2","3+"),
                   Education %in% c("Graduate","Not Graduate"),
                   Self_Employed %in% c("Yes","No"), 
                   Applicant_Income > 0,
                   Coapplicant_Income >= 0,
                   Loan_Amount>0, 
                   Loan_Amount_Term>0, 
                   Credit_History %in% c("1", "0"), 
                   Property_Area %in% c("Urban", "Semiurban", "Rural"))

#dane2
summary(confront(dane2, rules)) %>%
  formattable(align ="c")
name items passes fails nNA error warning expression
V01 614 614 0 0 FALSE FALSE Married != “Yes” | (Coapplicant_Income - 0 >= -0.00000001)
V02 614 611 0 3 FALSE FALSE Married %vin% c(“Yes”, “No”)
V03 614 601 0 13 FALSE FALSE Gender %vin% c(“Female”, “Male”)
V04 614 599 0 15 FALSE FALSE Dependents %vin% c(“0”, “1”, “2”, “3+”)
V05 614 614 0 0 FALSE FALSE Education %vin% c(“Graduate”, “Not Graduate”)
V06 614 582 0 32 FALSE FALSE Self_Employed %vin% c(“Yes”, “No”)
V07 614 614 0 0 FALSE FALSE Applicant_Income > 0
V08 614 614 0 0 FALSE FALSE Coapplicant_Income - 0 >= -0.00000001
V09 614 592 0 22 FALSE FALSE Loan_Amount > 0
V10 614 600 0 14 FALSE FALSE Loan_Amount_Term > 0
V11 614 564 0 50 FALSE FALSE Credit_History %vin% c(“1”, “0”)
V12 614 614 0 0 FALSE FALSE Property_Area %vin% c(“Urban”, “Semiurban”, “Rural”)

Analiza walidacji: Nasze dane nie zawierają bƂędów logicznych.


Identyfikacja rozkƂadu danych, eliminacja danych odstających

W tym podrozdziale przyjrzymy się zmiennym ekstremalnym, odstającym i wyeliminujemy obserwacje wpƂywowe, ĆŒeby nie zakƂócaƂy pĂłĆșniejszej analizy. Identyfikacja będzie miaƂa zastosowanie w przypadku zmiennych iloƛciowych: Applicant_Income, Coapplicant_Income, Loan_Amount


Dane odstające

Przyglądamy się rozkƂadowi danych, pod względem obserwacji odstających i widzimy, ĆŒe dane mają one duĆŒy rozstęp. Dla wszystkich zmiennych istnieją obserwacje ekstremalne, ktĂłre znieksztaƂcają rozkƂad prawostronnie.

box1.1 <- dane2 %>%
  ggplot(aes(x = Applicant_Income)) +
  geom_boxplot(fill='#A3b5c0', color="gray20", notch = TRUE, alpha=0.7) +
  ggtitle("Aplicant Income")+
  xlab("") +
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

box1.2 <- dane2 %>%
  filter(Coapplicant_Income>0)%>% #częƛć wspóƂwnioskodacĂłw nie wykazuje ĆŒadnych dochodĂłw, co zaburzaƂoby rozkƂad zmiennych
  ggplot(aes(x = Coapplicant_Income)) +
  geom_boxplot(fill='#A3b5c0', color="gray20", notch = TRUE, alpha=0.7) +
  ggtitle("Coapplicant Income")+
  xlab("") +
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

box1.3 <- dane2 %>%
  ggplot(aes(x = Loan_Amount)) +
  geom_boxplot(fill='#A3b5c0', color="gray20", notch = TRUE, alpha=0.7) +
  ggtitle("Loan Amount")+
  xlab("") +
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

plot_grid(box1.1,box1.2,box1.3, nrow = 3)


Dlatego najpierw usuwamy obserwacje, które są ekstremalne.

  • Dla zmiennej Applicant Income powyĆŒej 20100

  • Dla zmiennej Coapplicant Income powyĆŒej 10000

  • Dla zmiennnej Loan Amount powyĆŒej 370

dane2 <-  dane2 %>%
         filter(Applicant_Income<20100)

dane2 <-  dane2 %>%
         filter(Coapplicant_Income<10000)

dane2 <-  dane2 %>%
         filter(Loan_Amount<370)

Następnie pozostaƂe obserwacje wyeliminujemy metodą kwartyli. W tym celu stworzymy funkcję, króra usunie obserwacje, które przekraczają dwukrotnoƛć rozstępu w odniesieniu do dolnej i górnej granicy.

detect_outlier <- function(x) {
  na.omit(x)
  lower_bound <- quantile(x, 0.25)
  upper_bound <- quantile(x, 0.75)
  na.rm = TRUE
  I = upper_bound - lower_bound
  which(x < lower_bound-I*2 | x > upper_bound+I*2)
}

Zastosowanie funkcji.

#dane2
d2.1 <- detect_outlier(dane2$Applicant_Income)
d2.2 <- detect_outlier(dane2$Coapplicant_Income)
d2.3 <- detect_outlier(na.omit(dane2$Loan_Amount))
d2 <- c(d2.1, d2.2, d2.3)
d2

dane2 <- dane2[-c(33,  52,  64,  99, 107, 127, 133, 135, 175, 183, 237, 241, 254, 302, 344, 393, 432, 440, 443, 447, 456, 471, 492, 493, 528, 549,  11,  36, 114, 124, 166, 236, 409,  20,  33,  52,  64, 124, 241, 243, 302, 326, 354, 476, 495, 547),]

RozkƂad po usunięciu obserwacji zakƂócających, zostaƂ przedstawiony poniĆŒej. Dzięki wyeliminowaniu danych odstających, uporaliƛmy się z problemem obserwacji znieksztaƂcających rozkƂad. Ponadto dzięki temu, pĂłĆșniejsza analiza będzie bardziej rzetelna.

box3.1 <- dane2 %>%
  ggplot(aes(x = Applicant_Income)) +
  geom_boxplot(fill='#A3b5c0', color="gray20", notch = TRUE, alpha=0.7) +
  ggtitle("Aplicant Income")+
  xlab("") +
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

box3.2 <- dane2 %>%
  filter(Coapplicant_Income>0)%>% 
  ggplot(aes(x = Coapplicant_Income)) +
  geom_boxplot(fill='#A3b5c0', color="gray20", notch = TRUE, alpha=0.7) +
  ggtitle("Coapplicant Income")+
  xlab("") +
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

box3.3 <- dane2 %>%
  ggplot(aes(x = Loan_Amount)) +
  geom_boxplot(fill='#A3b5c0', color="gray20", notch = TRUE, alpha=0.7) +
  ggtitle("Loan Amount")+
  xlab("") +
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

plot_grid(box3.1,box3.2,box3.3, nrow = 3)


Braki w danych

Mamy 109 brakujących obserwacji. Braki występują w 6/13 zmiennych.

  • Najwięcej brakujących obserwacji zawiera zmienna Credit_History. Następnie Self_Employed.

  • Reszta obserwacji, w ktĂłrych są braki: Gender, Dependents, Loan_Amount_Term

  • Jest ich za duĆŒo, aby usunąć, dlatego naleĆŒy uzupeƂnić je w jak najbardziej rzetelny sposĂłb, zbliĆŒony do rzeczywistoƛci i usunąć tylko te obserwacji, w ktĂłrych występuje więcej niĆŒ jedno NA


Wizualizacja

gg_miss_var(dane2) +theme_minimal()

Tabela przedstawiająca braki

`Iloƛć obserwacji` <- c(sum(is.na(dane2$Married)),sum(is.na(dane2$Gender)), sum(is.na(dane2$Dependents)), sum(is.na(dane2$Loan_Amount_Term)), sum(is.na(dane2$Self_Employed)), sum(is.na(dane2$Credit_History)))
`Miejsce wystąpienia` <- c("Married","Gender","Dependents","Loan_Amount_Term","Self_Employed", "Credit_History")
braki1 <-data.frame(`Miejsce wystąpienia`,`Iloƛć obserwacji`)
braki1 %>% formattable(align="c")
Miejsce.wystąpienia Iloƛć.obserwacji
Married 2
Gender 9
Dependents 13
Loan_Amount_Term 14
Self_Employed 28
Credit_History 43

SzczegóƂowe przedstawienie braków

dane2[!complete.cases(dane2),] %>% 
  head(20) %>%
  formattable(align="c")
Loan_ID Gender Married Dependents Education Self_Employed Applicant_Income Coapplicant_Income Loan_Amount Loan_Amount_Term Credit_History Property_Area Loan_Status
LP1027 Male Yes 2 Graduate NA 2500 1840 109 360 1 Urban Y
LP1034 Male No 1 Not Graduate No 3596 0 100 240 NA Urban Y
LP1041 Male Yes 0 Graduate NA 2600 3500 115 NA 1 Urban Y
LP1050 NA Yes 2 Not Graduate No 3365 1917 112 360 0 Rural N
LP1052 Male Yes 1 Graduate NA 3717 2925 151 360 NA Semiurban N
LP1087 Female No 2 Graduate NA 3750 2083 120 360 1 Semiurban Y
LP1091 Male Yes 1 Graduate NA 4166 3369 201 360 NA Urban N
LP1109 Male Yes 0 Graduate No 1828 1330 100 NA 0 Urban N
LP1123 Male Yes 0 Graduate No 2400 0 75 360 NA Urban Y
LP1136 Male Yes 0 Not Graduate Yes 4695 0 96 NA 1 Urban Y
LP1137 Female No 0 Graduate No 3410 0 88 NA 1 Urban Y
LP1250 Male Yes 3+ Not Graduate No 4755 0 95 NA 0 Semiurban N
LP1264 Male Yes 3+ Not Graduate Yes 3333 2166 130 360 NA Semiurban Y
LP1273 Male Yes 0 Graduate No 6000 2250 265 360 NA Semiurban N
LP1280 Male Yes 2 Not Graduate No 3333 2000 99 360 NA Semiurban Y
LP1357 Male NA NA Graduate No 3816 754 160 360 1 Urban Y
LP1370 Male No 0 Not Graduate NA 7333 0 120 360 1 Rural N
LP1387 Female Yes 0 Graduate NA 2929 2333 139 360 1 Semiurban Y
LP1391 Male Yes 0 Not Graduate No 3572 4114 152 NA 0 Rural N
LP1398 Male No 0 Graduate NA 5050 0 118 360 1 Semiurban Y

Imputacja brakujących danych

Zmienna “Gender”

Daną “Gender” zostawimy z brakami, poniewaĆŒ w pĂłĆșniejszej analizje, ta zmienna nie będzie miaƂa istotnego wpƂywu na wynik analizy.


Zmienna “Married”

Podczas przeprowadzania walidacji, ustaliliƛmy, ĆŒe tylko dla osobĂłw, w związkach maĆ‚ĆŒeƄskich, moĆŒe być wykazany przychĂłd wspóƂwnioskodawcy. Zatem naleĆŒy sprawdzić, czy dla brakujących obserwacji, wartoƛć “Coapplicant_Income” >0, jeƛli tak osoba jest w związku maĆ‚ĆŒeƄskim. Jeƛli “Coapplicant_Income”=0, nie wiemy, czy dana osoba jest w związku maĆ‚ĆŒeƄskim, pozostawimy te pola puste.

which(is.na(dane2$Married))
dane2[is.na(dane2$Married),] %>% formattable(align="c")

Jest jeden brak, ktĂłry moĆŒemy uzupeƂnić, Drugą obserwację zdecydowaliƛmy się usunąć, poniewaĆŒ, te obserwacje mają więcej niĆŒ jedno “NA”

dane2[is.na(dane2$Married)& dane2$Coapplicant_Income > 0,"Married"] <- "Yes"
dane2[is.na(dane2$Married),] %>% formattable(align="c")
dane2 <- dane2[-195,]
which(is.na(dane2$Married))


Usuwanie brakĂłw, gdzie występuje więcej niĆŒ jedno NA

Usuwamy, te obserwacje, dla ktĂłrych mamy więcej niĆŒ brak w jednej zmiennej

#Credit History
which(is.na(dane2$Credit_History) & (is.na(dane2$Dependents) | is.na(dane2$Gender) | is.na(dane2$Education) | is.na(dane2$Self_Employed)| is.na(dane2$Coapplicant_Income)|is.na(dane2$Loan_Amount)|is.na(dane2$Applicant_Income)|is.na(dane2$Loan_Amount_Term)))

dane2 <- dane2[-c(21,  27, 202, 355, 397),]

#Dependends
which(is.na(dane2$Dependents) & (is.na(dane2$Gender) | is.na(dane2$Education) | is.na(dane2$Self_Employed)| is.na(dane2$Coapplicant_Income)|is.na(dane2$Loan_Amount)|is.na(dane2$Applicant_Income)|is.na(dane2$Loan_Amount_Term)))
dane2 <- dane2[-c(285),]


Podgląd brakujących obserwacji po dokonaniu czyszczenia danych

Dzięki czyszczeniu pozbyliƛmy się braków w zmiennej “Married” oraz zredukowaliƛmy licznę poozostaƂych braków

Wykres z obserwacjami brakującymi

gg_miss_var(dane2) +theme_minimal()

Tabela z podsumowaniem brakĂłw

`Iloƛć obserwacji` <- c(sum(is.na(dane2$Married)),sum(is.na(dane2$Gender)), sum(is.na(dane2$Dependents)), sum(is.na(dane2$Loan_Amount_Term)), sum(is.na(dane2$Self_Employed)), sum(is.na(dane2$Credit_History)))
`Miejsce wystąpienia` <- c("Married","Gender","Dependents","Loan_Amount_Term","Self_Employed", "Credit_History")
braki1 <-data.frame(`Miejsce wystąpienia`,`Iloƛć obserwacji`)
braki1 %>% formattable(align="c")
Miejsce.wystąpienia Iloƛć.obserwacji
Married 0
Gender 8
Dependents 11
Loan_Amount_Term 13
Self_Employed 24
Credit_History 38



4. Zrozumienie danych

Zmienne jakoƛciowe

Loan Status

Loan Status jest naszą zmienną objaƛnianą. Widzimy, ĆŒe 66% wnioskĂłw zostaƂo rozpatrzonych pozytwynie.

dane2 %>%
  dplyr::select(Loan_Status) %>%
  drop_na() %>%
  group_by(Loan_Status)%>%
  count() %>%
  mutate(`udziaƂ procentowy`=percent(n/(155+393))) %>%
  ggplot(aes(x = "", y = n, fill = Loan_Status))+
  geom_col(colour = "gray20", alpha=0.7, width = .3) +
  scale_fill_manual(values = c("#A3b5c0", "#e5e0d8", "#b4bdba","thistle3"), labels=c("Yes","No")) + 
  ggtitle("Loan Status")+
  xlab("") +
  labs(fill="Loan Status")+
  coord_flip() +
  geom_text(aes(label=`udziaƂ procentowy`), position=position_stack(vjust = 0.49), vjust=1, size=4, color="gray20")+
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

Gender

Klientami naszego banku są najczęƛciej mÄ™ĆŒczyĆșni. Stanowią oni ponad 80% wszystkich klientĂłw

dane2 %>%
  dplyr::select(Gender) %>%
  drop_na() %>%
  group_by(Gender)%>%
  count() %>%
  mutate(`udziaƂ procentowy`=percent(n/(99+411))) %>%
  ggplot(aes(x = "", y = n, fill = Gender))+
  geom_col(colour = "gray20", alpha=0.7, width = .3) +
  scale_fill_manual(values = c("#A3b5c0", "#e5e0d8", "gray20")) + 
  ggtitle("Gender")+
  xlab("") +
  coord_flip() +
  geom_text(aes(label=`udziaƂ procentowy`), position=position_stack(vjust = 0.49), vjust=1, size=4, color="gray20")+
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

Married

Najczęƛciej osoby, ktĂłre ubiegają się o kredyt są w związkach maĆ‚ĆŒeƄskich. Są to osoby ustabilizowane, Stanowią oni ponad 64% wszystkich klientĂłw

dane2 %>%
  dplyr::select(Married) %>%
  drop_na() %>%
  group_by(Married)%>%
  count() %>%
  mutate(`udziaƂ procentowy`=percent(n/(183+335))) %>%
  ggplot(aes(x = "", y = n, fill = Married))+
  geom_col(colour = "gray20", alpha=0.7, width = .3) +
  scale_fill_manual(values = c("#A3b5c0", "#e5e0d8", "gray20")) + 
  ggtitle("Married")+
  xlab("") +
  coord_flip() +
  geom_text(aes(label=`udziaƂ procentowy`), position=position_stack(vjust = 0.49), vjust=1, size=4, color="gray20")+
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

Dependents

Prawie 60% klientów nie miaƂa nikogo na utrzymaniu. 15.58% wnioskujących miaƂo tylko jedną osobę, 17.36% dwie osoby. Najmniej liczną grupę stanowili klienci, którzy miali 3. lub więcej osób, które musieli utrzymywać.

dane2 %>%
  dplyr::select(Dependents) %>%
  drop_na() %>%
  group_by(Dependents)%>%
  count() %>%
  mutate(`udziaƂ procentowy`=percent(n/(301+79+88+39))) %>%
  ggplot(aes(x = "", y = n, fill = Dependents))+
  geom_col(colour = "gray20", alpha=0.7, width = .3) +
  scale_fill_manual(values = c("#A3b5c0", "#e5e0d8", "#b4bdba","mistyrose3")) + 
  ggtitle("Dependents")+
  xlab("") +
  coord_flip() +
  geom_text(aes(label=`udziaƂ procentowy`), position=position_stack(vjust = 0.49), vjust=1, size=4, color="gray20")+
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

Education

WyraĆșną większoƛć wƛrĂłd aplikantĂłw stanowiƂy osoby, ktĂłre ukoƄczyƂy studia, stanowili oni 76% wszystkich klientĂłw.

dane2 %>%
  dplyr::select(Education) %>%
  drop_na() %>%
  group_by(Education)%>%
  count() %>%
  mutate(`udziaƂ procentowy`=percent(n/(394+124))) %>%
  ggplot(aes(x = "", y = n, fill = Education))+
  geom_col(colour = "gray20", alpha=0.7, width = .3) +
  scale_fill_manual(values = c("#A3b5c0", "#e5e0d8", "#b4bdba","mistyrose3")) + 
  ggtitle("Education")+
  xlab("") +
  coord_flip() +
  geom_text(aes(label=`udziaƂ procentowy`), position=position_stack(vjust = 0.49), vjust=1, size=4, color="gray20")+
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

Self Employed

Większoƛć osób wnioskujących o kredyt w naszym banku, nie prowadzi wƂasnego biznesu. Osoby samozatrudnione stanowią zaledwie 11,94% wszystkich klientów.

dane2$Credit_History <- as.factor(dane2$Credit_History)

dane2 %>%
  dplyr::select(Self_Employed) %>%
  drop_na() %>%
  group_by(Self_Employed)%>%
  count() %>%
  mutate(`udziaƂ procentowy`=percent(n/(435+59))) %>%
  ggplot(aes(x = "", y = n, fill = Self_Employed))+
  geom_col(colour = "gray20", alpha=0.7, width = .3) +
  scale_fill_manual(values = c("#A3b5c0", "#e5e0d8", "#b4bdba","mistyrose3")) + 
  ggtitle("Self Employed")+
  xlab("") +
  labs(fill="Self Employed")+
  coord_flip() +
  geom_text(aes(label=`udziaƂ procentowy`), position=position_stack(vjust = 0.49), vjust=1, size=4, color="gray20")+
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

Loan Amount Term

Najczęƛciej wybieranym okresem, na ktĂłry klienci chcą zaciągnąć kredyt jest okres 360, ktĂłry stanowi ponad 85% wszystkich okresĂłw na jakie zawierana jest poĆŒyczka. Drugą najczęƛciej wybieraną opcją jest 180 dni, ponad 7% klientĂłw, wybiera tę opcję.

Tabela

dane2 %>%
  dplyr::select(Loan_Amount_Term) %>%
  drop_na() %>%
  group_by(Loan_Amount_Term)%>%
  count() %>%
  mutate(`UdziaƂ procentowy`= percent(n/505))%>% 
  formattable()
Loan_Amount_Term n UdziaƂ procentowy
12 1 0.20%
36 2 0.40%
60 2 0.40%
84 4 0.79%
120 3 0.59%
180 36 7.13%
240 3 0.59%
300 10 1.98%
360 431 85.35%
480 13 2.57%

Prezentacja rozkƂadu

wafel <- dane2 %>%
  dplyr::select(Loan_Amount_Term) %>%
  drop_na() %>%
  group_by(Loan_Amount_Term)%>%
  count() 
wafel <- c(`term 12-120`= 12, `term 80`=    36, `term 240`=3, `term 300`=   10, `term 360`= 431, `term 480`= 13)
  waffle(wafel, rows=15,colors = c("#eee2d4", "mistyrose3", "lightsteelblue2","#959595","#ced0ce","pink3"))

Credit History

Ponad 84% klientów ma historię kredytową.

dane2 %>%
  dplyr::select(Credit_History) %>%
  drop_na() %>%
  group_by(Credit_History)%>%
  count() %>%
  mutate(`udziaƂ procentowy`=percent(n/(404+76))) %>%
  ggplot(aes(x = "", y = n, fill = Credit_History))+
  geom_col(colour = "gray20", alpha=0.7, width = .3) +
  scale_fill_manual(values = c("#A3b5c0", "#e5e0d8", "#b4bdba","thistle3"), labels=c("No","Yes")) + 
  ggtitle("Credit History")+
  xlab("") +
  labs(fill = "Credit History")+
  coord_flip() +
  geom_text(aes(label=`udziaƂ procentowy`), position=position_stack(vjust = 0.49), vjust=1, size=4, color="gray20")+
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

Property Area

Proporcję pomiędzy miejscem zamieszkania aplikantĂłw są w miarę zbliĆŒonę. Największy udziaƂ stanowią klienci z obszarĂłw podmiejskich (41,46%). Następnie 33,75% stanowią wnioskodawcy z obszarĂłw miejskich, i zaledwie 1% mniejszy od nich udziaƂ mają klienci z obszarĂłw wiejskich.

dane2 %>%
  dplyr::select(Property_Area) %>%
  drop_na() %>%
  group_by(Property_Area)%>%
  count() %>%
  mutate(`udziaƂ procentowy`=percent(n/(404+76))) %>%
  ggplot(aes(x = "", y = n, fill = Property_Area))+
  geom_col(colour = "gray20", alpha=0.7, width = .3) +
  scale_fill_manual(values = c("#A3b5c0", "#e5e0d8","thistle3")) + 
  ggtitle("Property Area")+
  xlab("") +
  coord_flip() +
  labs(fill="Property Area")+
  geom_text(aes(label=`udziaƂ procentowy`), position=position_stack(vjust = 0.49), vjust=1, size=4, color="gray20")+
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

Zmienne iloƛciowe

Applicant Income

dane2 %>%
  dplyr::select(Applicant_Income) %>%
  ggplot(aes(x = Applicant_Income)) +
  geom_density(fill="#A3b5c0", alpha=0.4) +
  geom_vline(aes(xintercept = mean(Applicant_Income, na.rm = T)), 
               colour = "pink3", linetype ="longdash", size = .7)+
  geom_vline(aes(xintercept = median(Applicant_Income, na.rm = T)), 
               colour = "royalblue3", linetype ="longdash", size = .7)+
  geom_vline(aes(xintercept = quantile(Applicant_Income, probs = 0.25, na.rm = T)), 
               colour = "darkseagreen4", linetype ="longdash", size = .7)+
  geom_vline(aes(xintercept = quantile(Applicant_Income, probs = 0.75, na.rm = T)), 
               colour = "gold3", linetype ="longdash", size = .7)+
  ggtitle("Applicant Income")+
  xlab("") +
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

Oznaczenia na wykresie: ƛrednia- rĂłĆŒowy, mediana- niebieski, Q1-zielony, Q3-ĆŒĂłĆ‚ty

statystyka <- c("Min", "Max", "Q1","Mediana","Q3" ,"ƚrednia", "Odch. std.", "Skoƛnoƛć","Kurtoza")
wartosc <- c(min(dane2$Applicant_Income),max(dane2$Applicant_Income), quantile(dane2$Applicant_Income, 0.25), round(median(dane2$Applicant_Income,0.5),2), quantile(dane2$Applicant_Income, 0.75), round(mean(dane2$Applicant_Income),2), round(sd(dane2$Applicant_Income),2), round(skew(dane2$Applicant_Income),2), round(kurtosi(dane2$Applicant_Income),2))

raport <- data.frame(statystyka,wartosc) 
raport %>% formattable()
statystyka wartosc
Min 150.00
Max 10513.00
Q1 2765.00
Mediana 3597.50
Q3 4929.00
Úrednia 4103.83
Odch. std. 1928.70
Skoƛnoƛć 1.18
Kurtoza 1.24

Obserwacja:

  • Úrednio aplikanci zarabiają 4104.

  • Aplikant, ktĂłry zarabiaƂ najmniej, wykazywaƂ dochĂłd w wysokoƛci 150,

  • NajwyĆŒszy dochĂłd klienta wyniĂłsƂ 10513

  • 25% aplikantĂłw miaƂa mniejszy dochĂłd niĆŒ 2764

  • 75% klientĂłw miaƂa dochĂłd wyĆŒszy niĆŒ 4931

  • 50% klientĂłw miaƂa niĆŒszy niĆŒ dochĂłd niĆŒ 3597 (tym samym druga poƂowa aplikantĂłw miaƂa dochĂłd wyĆŒszy niĆŒ 3597)

  • Úrednio o 1928.7 dochody klientĂłw odchylają się od ƛredniego dochodu. To oznacza, ĆŒe bardzo rozbieĆŒne są dochody naszych aplikantĂłw.




Coapplicant Income

dane2 %>%
  dplyr::select(Coapplicant_Income) %>%
    filter(Coapplicant_Income>0) %>%
  ggplot(aes(x = Coapplicant_Income)) +
  geom_density(fill="#A3b5c0", alpha=0.4) +
  geom_vline(aes(xintercept = mean(Coapplicant_Income, na.rm = T)), 
               colour = "pink3", linetype ="longdash", size = .7)+
  geom_vline(aes(xintercept = median(Coapplicant_Income, na.rm = T)), 
               colour = "royalblue3", linetype ="longdash", size = .7)+
  geom_vline(aes(xintercept = quantile(Coapplicant_Income, probs = 0.25, na.rm = T)), 
               colour = "darkseagreen4", linetype ="longdash", size = .7)+
    geom_vline(aes(xintercept = quantile(Coapplicant_Income, probs = 0.75, na.rm = T)), 
               colour = "gold3", linetype ="longdash", size = .7)+
  ggtitle("Coapplicant Income")+
  xlab("") +
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

Oznaczenia na wykresie: ƛrednia- rĂłĆŒowy, mediana- niebieski, Q1-zielony, Q3-ĆŒĂłĆ‚ty

statystyka <- c("Min", "Max", "Q1","Mediana","Q3" ,"ƚrednia", "Odch. std.", "Skoƛnoƛć","Kurtoza")
wartosci <- dane2 %>%
  transmute(Coapplicant_Income) %>%
  filter(Coapplicant_Income>0)

wartosci <- c(min(wartosci$Coapplicant_Income),max(wartosci$Coapplicant_Income), quantile(wartosci$Coapplicant_Income, 0.25), round(median(wartosci$Coapplicant_Income,0.5),2), quantile(wartosci$Coapplicant_Income, 0.75), round(mean(wartosci$Coapplicant_Income),2), round(sd(wartosci$Coapplicant_Income),2), round(skew(wartosci$Coapplicant_Income),2), round(kurtosi(wartosci$Coapplicant_Income),2))

raport <- data.frame(statystyka,wartosci) 
raport %>% formattable()
statystyka wartosci
Min 16.12
Max 6666.00
Q1 1625.00
Mediana 2079.00
Q3 2857.00
Úrednia 2333.43
Odch. std. 1164.50
Skoƛnoƛć 1.09
Kurtoza 1.23

Obserwacja: Pod uwagę są brani jedynie wspóƂwnioskodawcy, którzy wykazują przychody.

  • Úrednio aplikanci zarabiają 4104.

  • DochĂłd wspóƂwnioskodawcy, o najmniejszej wartoƛci byƂ rĂłwny 16.12,

  • NajwyĆŒszy dochĂłd wspóƂwnioskodawcy wyniĂłsƂ 6666,

  • 25% wspóƂwnioskodawcĂłw miaƂa mniejszy dochĂłd niĆŒ 1625

  • 75% wspóƂwnioskodawcĂłw miaƂa dochĂłd wyĆŒszy niĆŒ 2857

  • 50% wspóƂwnioskodawcĂłw miaƂa niĆŒszy niĆŒ dochĂłd niĆŒ 2079 (tym samym druga poƂowa miaƂa dochĂłd wyĆŒszy niĆŒ 3597)

  • Úrednio o 1164.5 dochody wspóƂwnioskodawcĂłw odchylaƂ się od ich ƛredniego dochodu.




Loan Amount

dane2 %>%
  dplyr::select(Loan_Amount) %>%
  ggplot(aes(x = Loan_Amount)) +
  geom_density(fill="#A3b5c0", alpha=0.4) +
  geom_vline(aes(xintercept = mean(Loan_Amount, na.rm = T)), 
               colour = "pink3", linetype ="longdash", size = .7)+
  geom_vline(aes(xintercept = median(Loan_Amount, na.rm = T)), 
               colour = "royalblue3", linetype ="longdash", size = .7)+
  geom_vline(aes(xintercept = quantile(Loan_Amount, probs = 0.25, na.rm = T)), 
               colour = "darkseagreen4", linetype ="longdash", size = .7)+
    geom_vline(aes(xintercept = quantile(Loan_Amount, probs = 0.75, na.rm = T)), 
               colour = "gold3", linetype ="longdash", size = .7)+
  ggtitle("Loan Amount")+
  xlab("") +
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

Oznaczenia na wykresie: ƛrednia- rĂłĆŒowy, mediana- niebieski, Q1-zielony, Q3-ĆŒĂłĆ‚ty

statystyka <- c("Min", "Max", "Q1","Mediana","Q3" ,"ƚrednia", "Odch. std.", "Skoƛnoƛć","Kurtoza")
wartosc <- c(min(dane2$Loan_Amount),max(dane2$Loan_Amount), quantile(dane2$Loan_Amount, 0.25), round(median(dane2$Loan_Amount,0.5),2), quantile(dane2$Loan_Amount, 0.75), round(mean(dane2$Loan_Amount),2), round(sd(dane2$Loan_Amount),2), round(skew(dane2$Loan_Amount),2), round(kurtosi(dane2$Loan_Amount),2))

raport <- data.frame(statystyka,wartosc) 
raport %>% formattable()
statystyka wartosc
Min 9.00
Max 280.00
Q1 99.00
Mediana 122.00
Q3 155.00
Úrednia 127.63
Odch. std. 47.40
Skoƛnoƛć 0.59
Kurtoza 0.66

Obserwacja:

  • Úrednio aplikanci wnioskują o kredyt w wysokoƛci 127.63,

  • NajniĆŒszy wniosek o kredyt byƂ rĂłwny 9,

  • NajwyĆŒszy dochĂłd klienta wyniĂłsƂ 280,

  • 25% wnioskĂłw byƂa na kwotę niĆŒszą niĆŒ 99,

  • 75% wnioskĂłw byƂa na kwotę wyĆŒszą niĆŒ 155,

  • 50% wnioskĂłw byƂa na kwotę niĆŒszą niĆŒ 122 (tym samym druga poƂowa na kwotę wyĆŒszy niĆŒ 122),

  • Úrednio o 47.4 kwoty na wniioskach poĆŒyczkowych odchylają się od ƛredniej kwoty, na ktĂłrą zaciągane są zobowiązania.




Korelacja

Korelacja to miara kierunku i siƂy związku między dwiema zmiennymi. Jej wartoƛć zawiera się w przedziale od -1 do 1. Korelacja bliska zeru sugeruje brak istotnej zaleĆŒnoƛci liniowej między zmiennymi - ale nie oznacza, ĆŒe nie ma między nimi innych związkĂłw. Gdy wartoƛć korelacji jest bliska 1, to obydwie zmienne rosną lub maleją razem, a gdy jest bliska -1, to wzrostom wartoƛci jednej ze zmiennych towarzyszą spadki wartoƛci drugiej.


Gdy badamy więcej niz dwie zmienne, moĆŒemy przedstawić ich wspóƂczynniki korelacji w postaci jednej macierzy. W naszym przypadku uĆŒyliƛmy funkcji hetcor, aby zbadać wspóƂczynniki korelacji liniowej Pearsona między zmiennymi numerycznymi (“Loan Amount”, “Applicant Income”, “Coapplicant Income”, i “Loan Amount Term”), wspóƂczynniki korelacji polichorycznej między zmiennymi czynnikowymi (“Loan Status”, “Gender”, “Credit History”, “Property Area” i “Dependents”) oraz wspóƂczynniki korelacji wieloseryjnej między zmiennymi czynnikowymi a numerycznymi.



Korelacje między decyzją o przyznaniu kredytu a innymi zmiennymi

  • Z macierzy korelacji dowiadujemy się, ĆŒe zmienna najsilniej skorelowaną z decyzją o przyznaniu kredytu jest posiadanie historii kredytowej - wspóƂczynnik korelacji wynosi w tym przypadku aĆŒ 0,87.

  • SƂabszą, ale wciÄ…ĆŒ istotną korelację pozytywną wykazują pƂeć męska, dochĂłd wspóƂmaĆ‚ĆŒonka i iloƛc posiadanych dzieci - tu wspóƂczynniki wynoszą odpowiednio 0,16, 0,09 oraz 0,06.

  • W przypadku poƂoĆŒenia nieruchomoƛci moĆŒna zwrĂłcic uwagę na delikatną korelację pozytywną decyzji o przyznaniu kredytu z terenami miejskimi raczej niĆŒ wiejskimi - wspóƂczynnik korelacji polichorycznej wyniĂłsƂ dla tej pary zmiennych 0,04.

  • Co ciekawe, wspóƂczynniki korelacji pomiędzy decyzją o przyznaniu kredytu a dochodem klienta, okresem kredytowania i wysokoƛcią poĆŒyczki są bliskie zeru, co sugeruje brak bezpoƛredniego związku między zmiennymi.

Korelacje między pozostaƂymi zmiennymi

Interesujące są rĂłwnieĆŒ zaleĆŒnoƛci między zmiennymi wpƂywającymi na zdolnoƛć kredytową:

  • Występuje wyraĆșna, pozytywna korelacja między wysokoƛcia poĆŒyczki o ktĂłra wnioskuje klient a jego dochodem - wspóƂczynnik wynosi aĆŒ 0,53. moĆŒe to wyjaƛnić brak wyraĆșnej korelacji między tymi zmiennymi a decyzją banku - klienci o niĆŒszym dochodzie wydają się rezygnowac z ubiegania się o wyĆŒszą poĆŒyczkę juĆŒ na etapie skƂadania wniosku, więc decyzja banku pozornie nie jest skorelowana z ich dochodem i wysokoƛcia poĆŒyczki o jaką wnioskują - choć moĆŒna przypuszczać, ĆŒe taka korelacja by wystąpiƂa gdyby nie tego typu “samoograniczanie się” klientĂłw.

  • Doƛć znacząca jest tez korelacja między męską pƂcią klientĂłw a iloƛcią dzieci i dochodem wspóƂmaĆ‚ĆŒonka (wspóƂczynniki na poziomie odpowiednio 0,4 i 0,32) - sugeruje to, ĆŒe w przypadku maĆ‚ĆŒeƄstw korzystających z kredytu hipotecznego maĆ‚ĆŒonkiem, ktĂłry bierze kredyt jest częƛciej mÄ…ĆŒ niĆŒ ĆŒona.

  • MÄ™ĆŒczyĆșni wydaja się teĆŒ skƂonni do zaciągania większych kredytĂłw oraz akceptowania krĂłtszego okresu kredytowania - wspóƂczynniki korelacji między pƂcią męską a wysokoƛcia poĆŒyczki i okresem jej spƂaty wynoszą odpowiednio 0,16 i -0,15.

  • Mozna zaobserwowac ujemna korelacje na poziomie -0,26 pomiędzy dochodem klienta a dochodem jego wspóƂmaĆ‚ĆŒonka. MoĆŒna wiec przypuszczać, ĆŒe wƛrĂłd maĆ‚ĆŒeƄstw występujących z wnioskiem o kredyt hipoteczny występują rĂłĆŒnice w dochodzie obydwu maĆ‚ĆŒonkĂłw.

  • DochĂłd wspóƂmaĆ‚ĆŒonka jest dodatnio skorelowany z wysokoƛcia poĆŒyczki o jaka klient wnioskuje. WspóƂczynnik tej korelacji wynosi jednak 0,26, jest więc okoƂo dwukrotnie niĆŒszy niĆŒ w przypadku dochodu samego klienta.

  • Klienci starający sie o kredyt hipoteczny na nieruchomoƛc poƂozona na terenie wiejskim charakteryzują się niĆŒszym dochodem - zarĂłwno wƂasnym jak i wspóƂmaĆ‚ĆŒonka wspóƂczynniki wynoszą odpowiednio -0,05 i -0,07) - oraz wnioskują o niĆŒsze kredyty z krĂłtszym terminem zapadalnoƛci (wspóƂczynniki korelacji na poziomie -0,1 i -0,08). Sugeruje to, ĆŒe wƛrĂłd klientĂłw występują nierĂłwnoƛci dochodowe i majątkowe uzaleĆŒnione od miejsca zamieszkania.

  • Wraz z liczbą posiadanych dzieci roƛnie dochĂłd klienta, ale spada dochĂłd jego wspóƂmaĆ‚ĆŒonka - wspóƂczynniki korelacji wynoszą tu odpowiednio 0,14 i -0,05. MoĆŒe to sugerować, ĆŒe niekiedy w tej sytuacji jedno z maĆ‚ĆŒonkĂłw w większym stopniu skupia sie na wychowaniu dzieci i jego dochĂłd spada.

  • Co więcej, liczba posiadanych dzieci jest dodatnio skorelowane z wysokoƛcią kredytu o jaki wnioskuje klient i negatywnie skorelowana z terminem kredytowania - wspóƂczynniki korelacji wynoszą odpowiednio 0,15 oraz -0,1. MoĆŒe to sugerować, ĆŒe klienci mogący sobie pozwolić na wyĆŒsze kredyty i krĂłtsze okresy kredytowania mogą rĂłwnieĆŒ utrzymać więcej dzieci.

dane_do_macierzy <- data.frame(dane2$Loan_Status, dane2$Loan_Amount, dane2$Applicant_Income, dane2$Coapplicant_Income, dane2$Loan_Amount_Term, dane2$Dependents,  dane2$Gender, dane2$Credit_History, dane2$Property_Area)
as.tibble(dane_do_macierzy)
etykiety <- c("Loan Status", "Loan Amount", "Applicant Income", "Coapplicant Income", "Loan Amount Term", "Dependents", "Gender", "Credit History", "Property Area")
macierz_korelacji <- polycor::hetcor(dane_do_macierzy)
print(macierz_korelacji)
wspolczynniki_korelacji <- macierz_korelacji$correlations
korelogram <- corrgram(wspolczynniki_korelacji, 
                       order = FALSE, 
                       labels = etykiety,
                       
                       diag.panel = panel.histogram, 
                       upper.panel=panel.pie, 
                       col.regions = colorRampPalette(c("#A3b5c0","#eee2d4", "yellow4", "gray92","#959595","blue4","pink3"))
                       )

5. EDA, czyli Eksploracyjna Analiza Danych

EDA to zestaw interaktywnych i wizualnych technik analizy zbioru danych bez bardziej precyzyjnego wskazania celu eksploracji.

EDA pozwala na:

  • zgƂębienie zbioru danych,

  • sprawdzenie zaleĆŒnoƛci między atrybutami,

  • opracowanie wstępnych wnioskĂłw dotyczących prawidƂowoƛci w zbiorze przykƂadĂłw.


Analiza jednowymiarowa

Celem tej częƛci projektu jest prezentacja w postaci wykresĂłw zaleĆŒnoƛci między decyzją kredytową a poszczegĂłlnymi zmiennymi jakoƛciowymi i iloƛciowymi. Sprawdzimy jak poszczegĂłlne zmienne objaƛniające wpƂywaja na zmienna objaƛnianą.

Zmienne jakoƛciowe

Sprawdzimy jak dane cechy wpƂywają na podejmowanie decyzji kredytowej.

Gender

Zmienna “Gender” nie ma znaczącego wpƂywu na ksztaƂtowanie się zdolnoƛci kredytowej. ZauwaĆŒalna jest nieznaczna rĂłĆŒnica pomiędzy liczbą udzielanych kredytĂłw na korzyƛć mÄ™ĆŒczyzn.

dane2 %>%
  dplyr::select(Gender,Loan_Status) %>%
  filter(Gender==c("Female", "Male")) %>%
  group_by(Gender) %>%
  count(Loan_Status) %>%
  ggplot(aes(x = Gender, y = n, fill = Loan_Status)) +
  geom_col(position = "fill",colour = "gray20", alpha=0.7, width = .7) +
  scale_fill_manual(values=c("#A3b5c0","#e5e0d8"), labels=c("No", "Yes"))+
  labs(fill="Loan Status")+
  ggtitle("Gender")+
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

Dependents

Co ciekawe, najczęƛciej odmawiane są kredyty osobom, które mają tylko 1 osobę na utzymaniu. Dla braku osób na utrzymanej, 2 osób oraz 3 i więcej zdolnoƛć kredytowa jest podobna.

dane2 %>%
 dplyr:: select(Dependents,Loan_Status) %>%
  filter(Dependents==c("0", "1", "2","3+")) %>%
  group_by(Dependents) %>%
  count(Loan_Status) %>%
  ggplot(aes(x = Dependents, y = n, fill = Loan_Status)) +
  geom_col(position = "fill",colour = "gray20", alpha=0.7, width = .7) +
  scale_fill_manual(values=c("#A3b5c0","#e5e0d8"), labels=c("No", "Yes"))+
  labs(fill="Loan Status")+
  ggtitle("Dependents")+
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

Education

Osobom, ktĂłre ukoƄczyƂy szkoƂę częƛciej są udzielane poĆŒyczki, niĆŒ osobom, ktĂłre jej nie ukoƄczyƂy. MoĆŒe to wynikać z faktu, ĆŒe zazwyczaj osoby po szkole mają lepiej pƂatną pracę.

dane2 %>%
  dplyr::select(Education,Loan_Status) %>%
  filter(Education==c("Graduate", "Not Graduate")) %>%
  group_by(Education) %>%
  count(Loan_Status) %>%
  ggplot(aes(x = Education, y = n, fill = Loan_Status)) +
  geom_col(position = "fill",colour = "gray20", alpha=0.7, width = .7) +
  scale_fill_manual(values=c("#A3b5c0","#e5e0d8"), labels=c("No", "Yes"))+
  labs(fill="Loan Status")+
  ggtitle("Education")+
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

Self Employed

WskaĆșnik dla obu grup ksztaƂtuje się na podobnym poziomie.

dane2 %>%
  dplyr::select(Self_Employed,Loan_Status) %>%
  filter(Self_Employed==c("Yes", "No")) %>%
  group_by(Self_Employed) %>%
  count(Loan_Status) %>%
  ggplot(aes(x = Self_Employed, y = n, fill = Loan_Status)) +
  geom_col(position = "fill",colour = "gray20", alpha=0.7, width = .7) +
  scale_fill_manual(values=c("#A3b5c0","#e5e0d8"), labels=c("No", "Yes"))+
  labs(fill="Loan Status")+
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

Credit Hisory

Widoczna jest znacząca rĂłĆŒniaca. Tylko niecaƂe 10% osĂłb bez zdolnoƛci kredytowej, dostaje pozytywną odpowiedĆș w sprawie kredytu. Jeƛli ktoƛ ma historię kredytową jego szansa na pozytywne rozpatrzenie winosku wynosi ok 80%.

dane2 %>%
  dplyr::select(Credit_History,Loan_Status) %>%
  filter(Credit_History==c("1", "0")) %>%
  group_by(Credit_History) %>%
  count(Loan_Status) %>%
  ggplot(aes(x = Credit_History, y = n, fill = Loan_Status)) +
  geom_col(position = "fill",colour = "gray20", alpha=0.7, width = .7) +
  scale_fill_manual(values=c("#A3b5c0","#e5e0d8"), labels=c("No", "Yes"))+
  labs(fill="Loan Status")+
  ggtitle("Credit History")+
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

Proparty Area

RĂłĆŒnice są niewielkie. Najwięcekszy odsetek osĂłb, ktĂłrym zostaje udzielony kredyt, pochodzą z obszarĂłw póƂmiejskich, zaƛ najmniejszy osoby z obszarĂłw wiejskich.

dane2 %>%
  dplyr::select(Property_Area,Loan_Status) %>%
  group_by(Property_Area) %>%
  count(Loan_Status) %>%
  ggplot(aes(x = Property_Area, y = n, fill = Loan_Status)) +
  geom_col(position = "fill",colour = "gray20", alpha=0.7, width = .7) +
  scale_fill_manual(values=c("#A3b5c0","#e5e0d8"), labels=c("No", "Yes"))+
  labs(fill="Loan Status")+
  ggtitle("Property Area")+
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

Zmienna Iloƛciowe

Aplicant Income

Wysokoƛć dochodu nie wpƂywa w istotnym stopniu na decyzję o tym czy kredyt zostanie przyznany. Dochód osoby aplikującej ksztaƂtuje się podobnie zarówno dla decyzji pozytywnych jak i negatywnych.

ggplot(dane2, aes(x=Applicant_Income, fill=Loan_Status)) +
    geom_histogram( color="gray20",alpha=.5, position = 'identity') +
  scale_fill_manual(values=c("#A3b5c0","#e5e0d8"), labels=c("No", "Yes"))+
  labs(fill="Loan Status")+
    theme_minimal()+
    theme(text=element_text(size = 12), plot.title = element_text(hjust = 0.5))

Coaplicant Income

Sytuacja prezentuje się w ten sam sposób dla zmiennej Coapplicant Income.

ggplot(dane2, aes(x=Coapplicant_Income, fill=Loan_Status)) +
    geom_histogram( color="gray20", alpha=0.5, position = 'identity') +
  scale_fill_manual(values=c("#A3b5c0","#e5e0d8"), labels=c("No", "Yes"))+
  labs(fill="Loan Status")+
    theme_minimal()+
    theme(text=element_text(size = 12), plot.title = element_text(hjust = 0.5))

Loan Amount Term

Najwięcej kredytów jest branych na okres roku. Czas nie wpƂywa w stopniu istotnym na decyzję o udzieleniu kredytu.

ggplot(dane2, aes(x=Loan_Amount_Term, fill=Loan_Status)) +
    geom_histogram( color="gray20", alpha=0.5, position = 'identity') +
  scale_fill_manual(values=c("#A3b5c0","#e5e0d8"), labels=c("No", "Yes"))+
  labs(fill="Loan Status")+
    theme_minimal()+
    theme(text=element_text(size = 12), plot.title = element_text(hjust = 0.5))

Loan_Amount

Wysokoƛć poĆŒyczki nie jest czynnikiem decydującym o tym czy kredyt zostanie przyznany. Proporcje rozkƂadają się w podobny sposĂłb.

ggplot(dane2, aes(x=Loan_Amount, fill=Loan_Status)) +
    geom_histogram( color="gray20", alpha=0.5, position = 'identity') +
  scale_fill_manual(values=c("#A3b5c0","#e5e0d8"), labels=c("No", "Yes"))+
  labs(fill="Loan Status")+
  xlab("Loan Status")+
    theme_minimal()+
    theme(text=element_text(size = 12), plot.title = element_text(hjust = 0.5))

Analiza wielowymiarowa

Widzimy, ĆŒe osoby bez historii kredytowej praktycznie nie mają szansy aby dostaną kredytu w naszym banku (wyk1). Jeƛli, klient ma historię kredytową (wyk2) i kwota na jaką chce zaciągnąć kredyt nie przekracza 0,04 ze stosunku Loan_Amount/(Applicant_Income+Coapplicant_Income) to ma duĆŒe szansę na pozytyną odpowiedĆș. Jeƛli stosunek wykracza ponad 0.04, jest zdyskwalifikowany z moĆŒliwoƛci zaciągnięcia kredytu, nawet jeƛli posiada historię kredytową.

dane2 %>%
  drop_na(Credit_History) %>%
  ggplot( aes(x=Loan_Amount/(Applicant_Income+Coapplicant_Income), fill=Loan_Status)) +
    geom_histogram(color="gray20", alpha=0.5, position = 'identity') +
  scale_fill_manual(values=c("#A3b5c0","#e5e0d8"), labels=c("No", "Yes"))+
  labs(fill="Loan Status")+
    facet_grid(~Credit_History)+
    theme_minimal()+
    theme(text=element_text(size = 12), plot.title = element_text(hjust = 0.5))

Weryfikacja zdolnoƛci kredytowej klientów oczekujących

Sprawdzamy powiązanie pomiędzy zmienną objaƛnianą, a zmiennymi objaƛniającymi. Tak naprawdę istotna statystycznie jest jedynie zmienna Credit_History. Model logitowy w tym przypadku byƂby nieefetywny. NaleĆŒy więc znaleĆșć inne rozwiązanie, w oparciu o ktĂłre będą podejmowane decyzje kredytowe.

summary(glm(Loan_Status ~ Gender + Applicant_Income + Married + Dependents + Education + Self_Employed + Coapplicant_Income + Loan_Amount + Loan_Amount_Term + Credit_History + Property_Area , data = dane2, family = "binomial")) 
## 
## Call:
## glm(formula = Loan_Status ~ Gender + Applicant_Income + Married + 
##     Dependents + Education + Self_Employed + Coapplicant_Income + 
##     Loan_Amount + Loan_Amount_Term + Credit_History + Property_Area, 
##     family = "binomial", data = dane2)
## 
## Coefficients:
##                          Estimate Std. Error z value           Pr(>|z|)    
## (Intercept)            -3.5586101  1.0396236   -3.42            0.00062 ***
## GenderMale              0.6389214  0.3555258    1.80            0.07232 .  
## Applicant_Income        0.0000830  0.0000964    0.86            0.38928    
## MarriedYes              0.3037559  0.3282168    0.93            0.35472    
## Dependents1            -0.2707238  0.3802473   -0.71            0.47648    
## Dependents2             0.1662815  0.4096429    0.41            0.68480    
## Dependents3+            0.4637033  0.5539328    0.84            0.40253    
## EducationNot Graduate  -0.4626491  0.3203789   -1.44            0.14872    
## Self_EmployedYes       -0.4417265  0.4054680   -1.09            0.27597    
## Coapplicant_Income      0.0001620  0.0001238    1.31            0.19089    
## Loan_Amount            -0.0049203  0.0038161   -1.29            0.19728    
## Loan_Amount_Term        0.0005754  0.0020558    0.28            0.77957    
## Credit_History1         3.9666548  0.5058218    7.84 0.0000000000000044 ***
## Property_AreaSemiurban  0.9594574  0.3341797    2.87            0.00409 ** 
## Property_AreaUrban      0.0666799  0.3306927    0.20            0.84020    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 518.38  on 424  degrees of freedom
## Residual deviance: 368.35  on 410  degrees of freedom
##   (93 obserwacje zostaƂy skasowane z uwagi na braki w nich zawarte)
## AIC: 398.3
## 
## Number of Fisher Scoring iterations: 5

Jako dziaƂ usprawnieƄ procesĂłw decyzyjnych, w oparciu o przeprowadzoną analizę danych postanowiliƛmy, ĆŒe kredyty będą przyznawane jeƛli klient zdąbędzie okreƛloną iloƛć punktĂłw. MoĆŒemy jednoznacznie stwierdzić, ĆŒe dotychczasowe decyzje o przyznawaniu kredytĂłw byƂy randomowe, co negatywnie wpƂywaƂo na reputację i ekektywnoƛć dziaƂania naszego banku. Pozbędziemy się przypadkowowych decyzji. Dzięki opracowaniu modelu, wykluczymy przypadkowe decyzje kredytowe. Klientami naszego banku, będą klienci, ktĂłrzy będą w stanie regulować zobowiązanie.

prĂłba <- dane2 

Uzasadnienie punktacji:

  • Z wczeƛniejszej analizy wywnioskowaliƛmy, ĆŒe w oparciu o Credit_History, w gƂównej mierze wczeƛniej zostaƂy podejmowane decyzje o udzieleniu kredytu. Podejmując przyszƂe decyzje kredytowe historia kredytowa rĂłwnieĆŒ będzie znaczącym czynnikiem.

  • Najczęƛciej osoby z obszarĂłw podmiejskich otrzymywaƂy kredyty, rĂłwnieĆŒ tę zmienną postanowiliƛmy uwzględnić

  • Osoby w związku maĆ‚ĆŒeƄskim otrzymają dodatkowe 0.35 pkt. Są to osoby ustabilizowane.

  • Jako najwaĆŒniejszy skƂadnik w ocenie punktowej potraktujemy stosunek poĆŒyczki do caƂkowitych dochodĂłw.

  • Punkty za przychĂłd aplikanta, będą przyznawane zgodnie z wczeƛniej poznym rozkƂadem, tzn. 0 pkt jeƛli dochody są mniejsze niĆŒ Q1, 0.8 jeƛli dochody są mniejsze niĆŒ mediana, 1.6 jeƛli są większe niĆŒ mediana i mniejsze niĆŒ Q3, i 1.6 pkt jeƛli są większe niĆŒ Q3

  • Liczba osĂłb na utrzymaniu jest obciÄ…ĆŒenieniem dla osoby spƂacającej kredyt, dlatego jeƛli nie ma nikogo na utrzymaniu otrzyma 1 pkt, jeƛli zaƛ ma 3+ osĂłb otrzyma 0 pkt.

  • Punkty za przychĂłd wspóƂwnioskodawcy, będą przyznawane na podstawie wczeƛniejszego pozanego rozkƂadu tzn. 0 pkt jeƛli dochody coapplicanta są mniejsze niĆŒ Q1, 068 jeƛli dochody są mniejsze niĆŒ mediana, 0.8 jeƛli są większe niĆŒ mediana i mniejsze niĆŒ Q3, i 1.6 pkt jeƛli są większe niĆŒ Q3.

Maksymalna liczba punktĂłw do zdobycia to 11.05.

prĂłba <- prĂłba %>%
  dplyr::  mutate(pktCH = case_when(
      Credit_History =="1" ~ 3.5,
      Credit_History != "1" ~ 0 ))


prĂłba <- prĂłba %>%
  dplyr::  mutate(pktSemi = case_when(
      Property_Area =="Semiurban" ~ 0.3,
      Property_Area != "Semiurban" ~ 0 ))

prĂłba <- prĂłba %>%
  dplyr::  mutate(pktGen = case_when(
      Gender =="Male" ~ 0.2,
      Gender != "Male" ~ 0 ))

prĂłba <- prĂłba %>%
  dplyr::  mutate(pktMar = case_when(
      Married =="Yes" ~ 0.35,
      Married != "Yes" ~ 0 ))

prĂłba <- prĂłba %>%
  mutate("SKZ"=Loan_Amount/(Applicant_Income+Coapplicant_Income)) %>%
  mutate(pktSKZ= case_when( SKZ > 0.00 & SKZ <0.03 ~ 3,
                            SKZ > 0.03 & SKZ <0.035 ~ 2.5,
                            SKZ > 0.35 ~ -8 ))

prĂłba <- prĂłba %>%
  dplyr:: mutate(pktINC= case_when( Applicant_Income >=  0   & Applicant_Income < 2764 ~ 0,
                                    Applicant_Income >= 2764 & Applicant_Income < 4104 ~ 0.8,
                                    Applicant_Income >= 4104 & Applicant_Income < 4931 ~ 1.6,
                                    Applicant_Income >= 4931 ~ 2))

prĂłba <- prĂłba %>%
  mutate(pktDEP= case_when( Dependents =="0" ~ 0.7,
                            Dependents =="1" ~ 0.4,
                            Dependents =="2" ~ 0.2,
                            Dependents =="3+" ~ 0))


prĂłba <- prĂłba %>%
  mutate(pktCOAPP= case_when( Coapplicant_Income == 0 ~ 0,
                              Coapplicant_Income > 0    & Coapplicant_Income < 1625 ~ 0.2,
                              Coapplicant_Income >= 1625 & Coapplicant_Income < 2079 ~ 0.4,
                              Coapplicant_Income >= 2079 & Coapplicant_Income < 2857 ~ 0.6,
                              Coapplicant_Income >= 2857 ~ 1))


prĂłba <- prĂłba %>%
 mutate(wynik = pktCH + pktSemi + pktGen + pktSKZ+ pktMar+ pktINC+ pktDEP+ pktCOAPP)

prĂłba  %>%
  dplyr:: select(wynik, Loan_Status) %>%
  group_by(Loan_Status) %>%
  drop_na() %>%
  dplyr::summarise(mean(wynik), min(wynik), max(wynik))  %>%
  formattable(align ="c")
Loan_Status mean(wynik) min(wynik) max(wynik)
N 7.15833 3.45 11.05
Y 8.78349 4.80 11.05
prĂłba <- prĂłba %>%
  transmute(Loan_ID, Gender, Applicant_Income , Married , Dependents , Education , Self_Employed , Coapplicant_Income , Loan_Amount , Loan_Amount_Term , Credit_History , Property_Area, Loan_Status, wynik)

prĂłba  %>%
  dplyr:: select(wynik, Loan_Status) %>%
  group_by(Loan_Status) %>%
  drop_na() %>%
  ggplot(aes(wynik, colour=Loan_Status, group=Loan_Status, fill=Loan_Status)) +
    geom_density(color="gray20", alpha=0.5, position = 'identity') +
    scale_fill_manual(values = c("#A3b5c0", "#e5e0d8")) +
    theme_minimal()+
    theme(text=element_text(size = 12), plot.title = element_text(hjust = 0.5))

Wyniki są bardzo ciekawe, poniewaĆŒ jedna częƛć decyzji o negatywnych, zostaƂa sƂusznie odrzucona (od 0 do 7 pkt), ale pĂłĆșniej widzimy, ĆŒe z jakiegoƛ powodu spora częƛć osĂłb, ktĂłra zdobyƂa znaczącą iloƛć punktĂłw, miaƂa niesƂusznie odrzucone wnioski (lub z nieznanych nam powodĂłw, wykraczających poza zakres dostępnych danych- np. te osoby mogƂy być karane, co na starcie skreƛla je z moĆŒliwoƛci otrzymania kredytu, jednak nie zostaƂy nam dostarczone tego typu informacje, przez co obniĆŒona jest efektywnoƛć naszej analizy). Jeƛli nasz dziaƂ uzyska informacje na ten temat, zaktualizuje obecnie przyjęty model podejmowania decyzji. Co do wnioskĂłw rozpatrzonych pozytywnie, nie ma nieƛcisƂoƛci. Widzimy, ĆŒe w tej grupie są tylko aplikanci, ktĂłrzy zdobyli powyĆŒej 7 pkt, i tym samym dostawali kredyt.



Decyzje o przyznaniu kredytu klientów oczekujących

ETAP 1

Weryfikacja, czy dane zostaƂy uzupeƂnione poprawnie, czy podstawowe zaƂoĆŒnienia są speƂnione. DwĂłch klientĂłw nie wykazuje ĆŒadnych dochodĂłw, co teĆŒ na wstępnie dyskwalifikuje ich z dalszej weryfikacji zdolnoƛci kredytowej

summary(confront(dane1, rules)) %>%
  formattable(align ="c")
name items passes fails nNA error warning expression
V01 367 367 0 0 FALSE FALSE Married != “Yes” | (Coapplicant_Income - 0 >= -0.00000001)
V02 367 367 0 0 FALSE FALSE Married %vin% c(“Yes”, “No”)
V03 367 356 0 11 FALSE FALSE Gender %vin% c(“Female”, “Male”)
V04 367 357 0 10 FALSE FALSE Dependents %vin% c(“0”, “1”, “2”, “3+”)
V05 367 367 0 0 FALSE FALSE Education %vin% c(“Graduate”, “Not Graduate”)
V06 367 344 0 23 FALSE FALSE Self_Employed %vin% c(“Yes”, “No”)
V07 367 365 2 0 FALSE FALSE Applicant_Income > 0
V08 367 367 0 0 FALSE FALSE Coapplicant_Income - 0 >= -0.00000001
V09 367 362 0 5 FALSE FALSE Loan_Amount > 0
V10 367 361 0 6 FALSE FALSE Loan_Amount_Term > 0
V11 367 338 0 29 FALSE FALSE Credit_History %vin% c(“1”, “0”)
V12 367 367 0 0 FALSE FALSE Property_Area %vin% c(“Urban”, “Semiurban”, “Rural”)

ETAP 2

Zastosowanie punktacji do weryfikacji czy klient ma zdolnoƛć kredytową

dane1 <- dane1 %>%
  dplyr::  mutate(pktCH = case_when(
      Credit_History =="1" ~ 3.5,
      Credit_History != "1" ~ 0 ))

dane1 <- dane1 %>%
  dplyr::  mutate(pktSemi = case_when(
      Property_Area =="Semiurban" ~ 0.3,
      Property_Area != "Semiurban" ~ 0 ))

dane1 <- dane1 %>%
  dplyr::  mutate(pktGen = case_when(
      Gender =="Male" ~ 0.2,
      Gender != "Male" ~ 0 ))

dane1 <- dane1 %>%
  dplyr::  mutate(pktMar = case_when(
      Married =="Yes" ~ 0.35,
      Married != "Yes" ~ 0 ))


dane1 <- dane1 %>%
  mutate("SKZ"=Loan_Amount/(Applicant_Income+Coapplicant_Income)) %>%
  mutate(pktSKZ= case_when( SKZ > 0.00 & SKZ <0.03 ~ 3,
                            SKZ > 0.03 & SKZ <0.035 ~ 2.5,
                            SKZ > 0.35 ~ -8 ))

dane1 <- dane1 %>%
  dplyr:: mutate(pktINC= case_when( Applicant_Income >=  0   & Applicant_Income < 2764 ~ 0,
                                    Applicant_Income >= 2764 & Applicant_Income < 4104 ~ 0.8,
                                    Applicant_Income >= 4104 & Applicant_Income < 4931 ~ 1.6,
                                    Applicant_Income >= 4931 ~ 2))

dane1 <- dane1 %>%
  mutate(pktDEP= case_when( Dependents =="0" ~ 0.7,
                            Dependents =="1" ~ 0.4,
                            Dependents =="2" ~ 0.2,
                            Dependents =="3+" ~ 0))

dane1 <- dane1 %>%
  mutate(pktCOAPP= case_when( Coapplicant_Income == 0 ~ 0,
                              Coapplicant_Income > 0    & Coapplicant_Income < 1625 ~ 0.2,
                              Coapplicant_Income >= 1625 & Coapplicant_Income < 2079 ~ 0.4,
                              Coapplicant_Income >= 2079 & Coapplicant_Income < 2857 ~ 0.6,
                              Coapplicant_Income >= 2857 ~ 1))


dane1 <- dane1 %>%
 mutate(wynik = pktCH + pktSemi + pktGen + pktSKZ+ pktMar+ pktINC+ pktDEP+ pktCOAPP)


dane1 <- dane1 %>%
  mutate(Loan_Status=case_when(wynik >=7.51 ~ "Y",
                               wynik < 7.51 ~ "N"))

dane1  %>%
  dplyr:: select(wynik, Loan_Status) %>%
  group_by(Loan_Status) %>%
  drop_na() %>%
  dplyr::summarise(mean(wynik), min(wynik), max(wynik)) %>%
  formattable(align ="c") 
Loan_Status mean(wynik) min(wynik) max(wynik)
N 5.83525 3.45 7.50
Y 9.03392 7.55 10.75
dane1 <- dane1 %>%
  transmute(Loan_ID, Gender, Applicant_Income , Married , Dependents , Education , Self_Employed , Coapplicant_Income , Loan_Amount , Loan_Amount_Term , Credit_History , Property_Area, Loan_Status, wynik)

dane1  %>%
  dplyr:: select(Loan_Status) %>%
  group_by(Loan_Status) %>%
  drop_na() %>%
  count(Loan_Status) %>%
  formattable(align ="c") 
Loan_Status n
N 61
Y 227

W oparciu o opracowaną punktację 61 wniosków zostaƂo odrzuconych, 227 zaakceptowanych. Dzięki opracowanej punktacji, decyzje o udzielaniu kredytów będą miaƂy uzasadnienie, skrócimy czas potrzebny do podjęcia decyzji oraz uporamy się z problemem przypadkowoƛci.


Wiskowanie statystyczne

PYTANIA BADAWCZE:
- Czy wysokoƛć kredytu zaleĆŒy od caƂkowitego dochodu (aplikanta i wspóƂaplikanta)? Sprawdzanie za pomocą ANOVA – testowanie istotnoƛci wspóƂczynnikĂłw regresji liniowej

mod <- stats::aov(Loan_Amount~ Applicant_Income + Coapplicant_Income, dane2)
ggcoefstats(mod)

Bardzo niski wspóƂczynnik pvalue ƛwiadczy o istotnoƛci parametrów. Im mniejsze wartoƛci Kryterium Informacyjnego Akaike’a (AIC) i Kryterium Informacyjnego Bayesa (BIC), tym „lepszy” jest model. Poziome proste pokazują przedziaƂy 95% obserwacji odpowiednio dla zmiennej Coapplicant Income i Applicant Income. Ponadto pokazana jest statystyka testu F i Chi dla wybranych ziennych.

Wnioski koƄcowe

W procesie analizy EDA okazaƂo się, ĆŒe wysokoƛć dochodĂłw praktycznie nie decyduje o zdolnoƛci kredytowej klientĂłw, toteĆŒ nasza hitpoteza zostaƂa odrzucona. W oparciu o przeprowadzoną analizę oraz uzasadnione przesƂanki opracowaliƛmy model, ktĂłry przyznaje punkty w oparciu o okreƛlone kryteria i na tej podstawie zostaje podjęta decyzja o udzieleniu kredytu. (Nasz model wymaga jednak dopracowania, szczegĂłlnie w konkekƛcie osĂłb, ktĂłre otrzymaƂy wysoką liczbę punktĂłw, a z nieznanych nam powodĂłw ich wnioski zostaƂy odrzucone. Po uwazględnieniu takich dodatkowych danych, wykraczających poza zakres dostępnych obecnie danych, model naleĆŒaƂoby uaktualnić, ĆŒeby staƂ się bardziej efektywny).

---
title: <center> <font color="#080808"> ZATWIERDZENIE KREDYTU MIESZKANIOWEGO </front> </center>
subtitle: <center> Projekt zespołowy z przedmiotu Analiza Danych </center>
date: "`r Sys.Date()`"
author: "Grupa D:  Alicja Kuban,  Michał Gross"
output: 
   rmdformats::robobook:
    primary: "#FFDBDA"
    secondary: "#FFDBDA"
    highlight: kate
    code_folding: hide
    code_download: true
    geometry: margin=0.2in
editor_options: 
  markdown: 
    wrap: 72
---

<br> <br>

# Wprowadzenie

### **Kim jesteśmy?**

<p style="text-align: justify">

Jesteśmy firma, zajmującą się udzielaniem kredytów mieszkaniowych.Działamy na obszarach miejskich, półmiejskich oraz wiejskich. Nasz klient najpierw ubiega się o kredyt mieszkaniowy, a następnie weryfikujemy, czy kwalifikuje się do jego otrzymania.

</p>

<br>

### **Nasze zadanie**

<p style="text-align: justify">
Chcemy zautomatyzować proces przyznawania kredytów (w czasie rzeczywistym) w oparciu o dane klienta. W pierwszym etapie starania się o kredyt, klient wypełnia wniosek online, jeśli spełni wstępne wymagania, umawiamy się z nim na spotkanie, w celu weryfikacji danych i rozmowy o kredycie. Zadaniem naszego działu (Automatyzacji Procesów i Usprawnień) jest zbudowanie modelu, który w oparciu o dane ankietowe, zbada czy nasz klient ma zdolności kredytową. </p>

<br>

### **Dane jakimi dysponujemy**

Posiadamy następujące dane na temat naszych klientów:

-   płeć,

-   stan cywilny,

-   wykształcenie,

-   liczbę osób na utrzymaniu,

-   dochód,

-   kwotę pożyczki,

-   historię kredytową

-   czy kredyt został udzielony (zmienna objaśniana)

<br>

### **Cel**

**Zbadanie jakie warunki muszą być spełnione, aby kredyt został udzielony**

<br>

# Zakres analizy

1.  Określenie problemu

2.  Postawienie hipotez

3.  Przygotowanie systemu i załadowanie danych

4.  Zrozumienie danych

5.  EDA

    -   Przeprowadzanie analizy jednowymiarowej,

    -   Przeprowadzenie analizy dwuwymiarowej

<br>

# 1. Określenie problemu

<p style="text-align: justify">
W oparciu o zebrane dane, chcemy usprawnić proces udzielania kredytów, który obecnie jest nieefektywny i pochłania większość czasu pracy naszych konsultantów, ze względu na indywidualne rozpatrywanie sprawy każdego potencjalnego klienta z osobna. Dzięki wprowadzeniu Modeleu Trustworthy AI w skoringu kredytowym, usprawnimy proces weryfikacji, W
ciągu 3 minut potencalny klient, będzie wiedział czy ma zdolność kredytową, aby zaciągnąć kredyt w naszym banku.
</p>

Dzięki tym działaniom uporamy się z problemami firmy.

-   Skrócimy czas potrzebny na wstępne stwierdzenie czy dany klient spełnia wszelkie niezbędne wymagania, aby dostać kredyt.

-   Nasze decyzje będą poparte o wcześniejsze decyzje, tym samym będzie istniało mniejsze ryzyko błędnej oceny kielnta.

-   Staniemy się bardziej efektywni, rzetelni i konkurencyjni.

-   Usprawnimy system przepływu informacji i działanie firmy.

-   Osiągniemy lepsze wyniki oraz będziemy mogli zredukować liczbę etatów.

<br>

# 2. Postawienie hipotezy

**Głównym czynnikiem decydującym o tym, czy kredyt zostanie przyznany jest wysokość dochodów aplikanta.**

<br>

# 3. Przygotowanie systemu i załadowanie danych

## Przygotowanie systemu do pracy z danymi

Załadownanie bibliotek, z których będziemy korzystać w dalej części projektu. Dostosowanie globalnych ustawień.

```{r setup, message=FALSE, warning=FALSE}
knitr::opts_chunk$set(echo = TRUE)
options(scipen = 999, digits=6) 
if(!require('DMwR')) install.packages("https://cran.r-project.org/src/contrib/Archive/DMwR/DMwR_0.4.1.tar.gz", repos=NULL, type="source", dependencies=TRUE)
library(tidyverse)
library(ggplot2)
library(rmdformats)
library(validate)
library(validatetools)
library(dcmodify)
library(errorlocate)
library(deductive)
library(VIM)
library(simputation)
library(lumberjack)
library(ISLR) 
library(dlookr)
library(xts)
library(quantmod)
library(ROCR)
library(DMwR)
library(Information)
library(scorecard)
library(naniar)
library(visdat)
library(shapeR)
library(arsenal)
library(e1071)
library(haven)
library(papeR)
library(dplyr)
library(tidyverse)
library(ggplot2)
library(kableExtra)
library(classInt)
library(pastecs)
library(desctable)
library(frequency)
library(corrplot)
library(ggpubr)
library(RColorBrewer)
library(wesanderson)
library(cowplot)
library(hrbrthemes)
library(scales)
library(formattable)
library('MASS')
library(rcompanion)
library(lsr)
library(vcd)
library(DescTools)
library(waffle)
library(cleanrmd)
library(thematic)
library(shiny)
library(showtext)
library(ragg)
library(distill)
library(rmdformats)
library(prettydoc)
library(hrbrthemes)
library(tint)
library(gapminder)
library(yaml)
library(rpart)
library(tidyverse)
library(pander)
library(modelr)
library(broom) 
library(caret)
library(ggplot2)
library(ROCR)
library(psych)
library(qwraps2)
library(ggpubr)
library(rstatix)
library(kableExtra)
library(datarium)
library("correlation")
library(polycor)
library(corrgram)
library(knitr)
library(flextable)







library(ggstatsplot)
library(dplyr)
```

Załadowanie danych, na podstawie których zostanie przeprowadzona analiza. Są to następujące pliki: Hipoteczny1.csv, Hipoteczny2.csv, które zawierają dane klientów, ubiegających się o kredyt.

```{r, message=FALSE, warning=FALSE}
dane1 <- read.csv("Hipoteczny1.csv")
dane2 <- read.csv("Hipoteczny2.csv")
```

<br>

## Organizacja pracy z danymi (wstępne czyszczenie i przegląd danych)

W celu usprawnienia pracy, dane będą przechowywane w formie tabeli
"tabble".

```{r, message=FALSE, warning=FALSE}
dane1 <- as.tibble(dane1)
dane2 <- as.tibble(dane2)
```

<p style="text-align: justify">  Dane1 z pliku Hipoteczny1.csv, w przeciwieństwie do danych2 z pliku Hipoteczny2.csv nie zawierają informacji, czy kredyt został przyznany (Loan_Status). W związku z tym dane2 wykorzystamy do przeprowadzenia analizy, sprawdzimy co decyduje o zdolności kredytowej klientów. Zaś dane1 potraktujemy jako wnioski naszych klientów czekających na odpowiedź i w oparciu o przeprowadzoną analizę stwierdziemy, którzy z nich dostaną pozytywną odpowiedź na wniosek kredytowy. </p>

## dane {.tabset}

### dane1

```{r, results="asis",fig.align="center", fig.width=6, fig.height=6}
formattable(head(dane1,7), align ="c")
```

### dane2

```{r, message=FALSE, warning=FALSE, collapse = TRUE}

formattable(head(dane2,7), align ="c")
```

Na samym początku porządkujemy dane rosnąco według "Loan_ID"

```{r, message=FALSE, warning=FALSE}
#dane2
dane2$Loan_ID <- str_replace(dane2$Loan_ID,"LP","LP ")
  
dane2 <- separate(dane2, col = "Loan_ID", c("Loan","ID"),sep = " ")

dane2$ID <- as.numeric(dane2$ID)
dane2 <- dane2 %>% 
  arrange(desc("Loan_ID"))

dane2 <- unite(dane2,"Loan_ID", "Loan", "ID", sep=" ")
dane2$Loan_ID <- str_replace(dane2$Loan_ID,"LP ","LP")



#dane1
dane1$Loan_ID <- str_replace(dane1$Loan_ID,"LP","LP ")
  
dane1 <- separate(dane1, col = "Loan_ID", c("Loan","ID"),sep = " ")

dane1$ID <- as.numeric(dane1$ID)
dane1 <- dane1 %>% 
  arrange(desc("Loan_ID"))


dane1 <- unite(dane1,"Loan_ID", "Loan", "ID", sep=" ")
dane1$Loan_ID <- str_replace(dane1$Loan_ID,"LP ","LP")

```

Następnie zamieniamy puste miejsca na NA

```{r, message=FALSE, warning=FALSE}
#dane2
dane2[dane2 == ''] <- NA

#dane1
dane1[dane1 == ''] <- NA

```

Kolejno zmieniamy klasę danych, aby łatwiej się z nimi pracowało.

```{r, message=FALSE, warning=FALSE}
#dane1
dane1$ApplicantIncome <- as.numeric(dane1$ApplicantIncome)
dane1$CoapplicantIncome <- as.numeric(dane1$CoapplicantIncome)
dane1$Dependents <- as.factor(dane1$Dependents)
dane1$Property_Area <- as.factor(dane1$Property_Area)
dane1$Gender <- as.factor(dane1$Gender)

#dane2
dane2$ApplicantIncome <- as.numeric(dane2$ApplicantIncome)
dane2$CoapplicantIncome <- as.numeric(dane2$CoapplicantIncome)
dane2$Dependents <- as.factor(dane2$Dependents)
dane2$Property_Area <- as.factor(dane2$Property_Area)
dane2$Gender <- as.factor(dane2$Gender)
dane2$Loan_Status <- as.factor(dane2$Loan_Status)

```

Widzimy, że w niektórych nazach zmiennych brakuje " ", w celu lepszego wyglądu danych i efektywniejsze pracy, poprawiamy nazwy tych zmiennych

```{r, message=FALSE, warning=FALSE}
#dane1
dane1 <- dane1 %>%
  rename(Applicant_Income=ApplicantIncome) 

dane1 <- dane1 %>%
  rename(Coapplicant_Income=CoapplicantIncome) 

dane1 <- dane1 %>%
  rename(Loan_Amount=LoanAmount) 

dane1 <- dane1 %>%
  rename(Loan_ID=Loan_ID) 

#dane2
dane2 <- dane2 %>%
  rename(Applicant_Income=ApplicantIncome) 

dane2 <- dane2 %>%
  rename(Coapplicant_Income=CoapplicantIncome) 

dane2 <- dane2 %>%
  rename(Loan_Amount=LoanAmount) 

dane2 <- dane2 %>%
  rename(Loan_ID=Loan_ID) 

```

Dane zostały zorganizowane.

<br>

## Walidacja danych

Należy sprawdzić poprawność danych2, do tego celu przeprowadzimy walidację danych. Nasze dane powinny spełniać następujące warunki:

-   Jeśli wnioskodawca jest w związku małżeńskim, to wówczas tylko wtedy współwnioskodaca może wykazywać dochody. ("Coapplicant Income" >=0, gdy "Married"= TRUE)

-   Status małżeństwa może przyjmować jedynie wartości "tak" lub "nie"

-   Płeć powinna przyjmować wartość "kobieta" lub "mężczyzna"

-   Liczba osób na utrzymaniu przyjmuje wartości "0", "1", "2", "3+"

-   Edukacja wartość "po studiach", "nie ukuończył studiów".

-   Przychód aplikanta musi być większy od 0, ponieważ w przeciwnym razie nie powinien on ubiegać się o kredy (nie będzie miał jak go spłacić).

-   Przychód współwnioskodacy może przymować wartość 0 w przypadku, gdy współwnioskodawca nie wykazuje żadnych dochodów lub aplikant jest sam. Większe w przypadku gdy współwnioskodaca wykazuje jakieś dochody.

-   Kwota kredytu oraz termin muszą być większe od 0, żeby zaistniało zdarzenie.

-   Historia kredytowa powinna przyjmować wartość "1" jeśli aplikant brał już wcześniej kredyt, a "0" jeśli jeszcze nie.

-   Aplikant może pochodzić z miasta, ze wsi lub z terenów podmiejskich.

```{r, message=FALSE, warning=FALSE}
rules <- validator(if(Married=="Yes") Coapplicant_Income >= 0, 
                   Married %in% c("Yes", "No"),
                   Gender %in% c("Female", "Male"), 
                   Dependents %in% c("0","1","2","3+"),
                   Education %in% c("Graduate","Not Graduate"),
                   Self_Employed %in% c("Yes","No"), 
                   Applicant_Income > 0,
                   Coapplicant_Income >= 0,
                   Loan_Amount>0, 
                   Loan_Amount_Term>0, 
                   Credit_History %in% c("1", "0"), 
                   Property_Area %in% c("Urban", "Semiurban", "Rural"))

#dane2
summary(confront(dane2, rules)) %>%
  formattable(align ="c")
```

**Analiza walidacji:** Nasze dane nie zawierają błędów logicznych.

<br>

## Identyfikacja rozkładu danych, eliminacja danych odstających

<p style="text-align: justify"> W tym podrozdziale przyjrzymy się zmiennym ekstremalnym, odstającym i wyeliminujemy obserwacje wpływowe, żeby nie zakłócały późniejszej analizy. Identyfikacja będzie miała zastosowanie w przypadku zmiennych ilościowych: Applicant_Income, Coapplicant_Income, Loan_Amount </p>

<br>

### Dane odstające

<p style="text-align: justify"> Przyglądamy się rozkładowi danych, pod względem obserwacji odstających i widzimy, że dane mają one duży rozstęp. Dla wszystkich zmiennych istnieją obserwacje ekstremalne, które zniekształcają rozkład prawostronnie. </p>

```{r, message=FALSE, warning=FALSE}

box1.1 <- dane2 %>%
  ggplot(aes(x = Applicant_Income)) +
  geom_boxplot(fill='#A3b5c0', color="gray20", notch = TRUE, alpha=0.7) +
  ggtitle("Aplicant Income")+
  xlab("") +
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

box1.2 <- dane2 %>%
  filter(Coapplicant_Income>0)%>% #część współwnioskodaców nie wykazuje żadnych dochodów, co zaburzałoby rozkład zmiennych
  ggplot(aes(x = Coapplicant_Income)) +
  geom_boxplot(fill='#A3b5c0', color="gray20", notch = TRUE, alpha=0.7) +
  ggtitle("Coapplicant Income")+
  xlab("") +
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

box1.3 <- dane2 %>%
  ggplot(aes(x = Loan_Amount)) +
  geom_boxplot(fill='#A3b5c0', color="gray20", notch = TRUE, alpha=0.7) +
  ggtitle("Loan Amount")+
  xlab("") +
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

plot_grid(box1.1,box1.2,box1.3, nrow = 3)

```

<br>

Dlatego najpierw usuwamy obserwacje, które są ekstremalne.

-   Dla zmiennej Applicant Income powyżej 20100

-   Dla zmiennej Coapplicant Income powyżej 10000

-   Dla zmiennnej Loan Amount powyżej 370

```{r, message=FALSE, warning=FALSE}
dane2 <-  dane2 %>%
         filter(Applicant_Income<20100)

dane2 <-  dane2 %>%
         filter(Coapplicant_Income<10000)

dane2 <-  dane2 %>%
         filter(Loan_Amount<370)
```

<p style="text-align: justify"> Następnie pozostałe obserwacje wyeliminujemy metodą kwartyli. W tym celu stworzymy funkcję, króra usunie obserwacje, które przekraczają dwukrotność rozstępu w odniesieniu do dolnej i górnej granicy. </p>

```{r, message=FALSE, warning=FALSE}
detect_outlier <- function(x) {
  na.omit(x)
  lower_bound <- quantile(x, 0.25)
  upper_bound <- quantile(x, 0.75)
  na.rm = TRUE
  I = upper_bound - lower_bound
  which(x < lower_bound-I*2 | x > upper_bound+I*2)
}

```

Zastosowanie funkcji.

```{r, message=FALSE, warning=FALSE, results='hide'}
#dane2
d2.1 <- detect_outlier(dane2$Applicant_Income)
d2.2 <- detect_outlier(dane2$Coapplicant_Income)
d2.3 <- detect_outlier(na.omit(dane2$Loan_Amount))
d2 <- c(d2.1, d2.2, d2.3)
d2

dane2 <- dane2[-c(33,  52,  64,  99, 107, 127, 133, 135, 175, 183, 237, 241, 254, 302, 344, 393, 432, 440, 443, 447, 456, 471, 492, 493, 528, 549,  11,  36, 114, 124, 166, 236, 409,  20,  33,  52,  64, 124, 241, 243, 302, 326, 354, 476, 495, 547),]

```

<p style="text-align: justify"> Rozkład po usunięciu obserwacji zakłócających, został przedstawiony poniżej. Dzięki wyeliminowaniu danych odstających, uporaliśmy się z problemem obserwacji zniekształcających rozkład. Ponadto dzięki temu, późniejsza analiza będzie bardziej rzetelna. </p>

```{r, message=FALSE, warning=FALSE}
box3.1 <- dane2 %>%
  ggplot(aes(x = Applicant_Income)) +
  geom_boxplot(fill='#A3b5c0', color="gray20", notch = TRUE, alpha=0.7) +
  ggtitle("Aplicant Income")+
  xlab("") +
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

box3.2 <- dane2 %>%
  filter(Coapplicant_Income>0)%>% 
  ggplot(aes(x = Coapplicant_Income)) +
  geom_boxplot(fill='#A3b5c0', color="gray20", notch = TRUE, alpha=0.7) +
  ggtitle("Coapplicant Income")+
  xlab("") +
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

box3.3 <- dane2 %>%
  ggplot(aes(x = Loan_Amount)) +
  geom_boxplot(fill='#A3b5c0', color="gray20", notch = TRUE, alpha=0.7) +
  ggtitle("Loan Amount")+
  xlab("") +
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

plot_grid(box3.1,box3.2,box3.3, nrow = 3)

```

<br>

## Braki w danych {.tabset}

Mamy 109 brakujących obserwacji. Braki występują w 6/13 zmiennych.

-   Najwięcej brakujących obserwacji zawiera zmienna Credit_History. Następnie Self_Employed.

-   Reszta obserwacji, w których są braki: Gender, Dependents, Loan_Amount_Term

-   Jest ich za dużo, aby usunąć, dlatego należy uzupełnić je w jak najbardziej rzetelny sposób, zbliżony do rzeczywistości i usunąć tylko te obserwacji, w których występuje więcej niż jedno NA

<br>

### Wizualizacja

```{r, message=FALSE, warning=FALSE}
gg_miss_var(dane2) +theme_minimal()
```

### Tabela przedstawiająca braki

```{r, message=FALSE, warning=FALSE}
`Ilość obserwacji` <- c(sum(is.na(dane2$Married)),sum(is.na(dane2$Gender)), sum(is.na(dane2$Dependents)), sum(is.na(dane2$Loan_Amount_Term)), sum(is.na(dane2$Self_Employed)), sum(is.na(dane2$Credit_History)))
`Miejsce wystąpienia` <- c("Married","Gender","Dependents","Loan_Amount_Term","Self_Employed", "Credit_History")
braki1 <-data.frame(`Miejsce wystąpienia`,`Ilość obserwacji`)
braki1 %>% formattable(align="c")
```

### Szczegółowe przedstawienie braków

```{r, message=FALSE, warning=FALSE}
dane2[!complete.cases(dane2),] %>% 
  head(20) %>%
  formattable(align="c")

```

##  {.unnumbered}

### Imputacja brakujących danych

**Zmienna "Gender"**

Daną "Gender" zostawimy z brakami, ponieważ w późniejszej analizje, ta zmienna nie będzie miała istotnego wpływu na wynik analizy.

<br>

**Zmienna "Married"**

<p style="text-align: justify"> Podczas przeprowadzania walidacji, ustaliliśmy, że tylko dla osobów, w związkach małżeńskich, może być wykazany przychód współwnioskodawcy. Zatem należy sprawdzić, czy dla brakujących obserwacji, wartość "Coapplicant_Income" >0, jeśli tak osoba jest w związku małżeńskim. Jeśli "Coapplicant_Income"=0, nie wiemy, czy dana osoba jest w związku małżeńskim, pozostawimy te pola puste. </p>

```{r, message=FALSE, warning=FALSE, results='hide'}
which(is.na(dane2$Married))
dane2[is.na(dane2$Married),] %>% formattable(align="c")
```

Jest jeden brak, który możemy uzupełnić, Drugą obserwację zdecydowaliśmy się usunąć, ponieważ, te obserwacje mają więcej niż jedno "NA"

```{r, message=FALSE, warning=FALSE, results='hide'}
dane2[is.na(dane2$Married)& dane2$Coapplicant_Income > 0,"Married"] <- "Yes"
dane2[is.na(dane2$Married),] %>% formattable(align="c")
dane2 <- dane2[-195,]
which(is.na(dane2$Married))
```

<br>

**Usuwanie braków, gdzie występuje więcej niż jedno NA**

Usuwamy, te obserwacje, dla których mamy więcej niż brak w jednej zmiennej

```{r, message=FALSE, warning=FALSE, results='hide'}
#Credit History
which(is.na(dane2$Credit_History) & (is.na(dane2$Dependents) | is.na(dane2$Gender) | is.na(dane2$Education) | is.na(dane2$Self_Employed)| is.na(dane2$Coapplicant_Income)|is.na(dane2$Loan_Amount)|is.na(dane2$Applicant_Income)|is.na(dane2$Loan_Amount_Term)))

dane2 <- dane2[-c(21,  27, 202, 355, 397),]

#Dependends
which(is.na(dane2$Dependents) & (is.na(dane2$Gender) | is.na(dane2$Education) | is.na(dane2$Self_Employed)| is.na(dane2$Coapplicant_Income)|is.na(dane2$Loan_Amount)|is.na(dane2$Applicant_Income)|is.na(dane2$Loan_Amount_Term)))
dane2 <- dane2[-c(285),]

```

<br>

## Podgląd brakujących obserwacji po dokonaniu czyszczenia danych {.tabset}

Dzięki czyszczeniu pozbyliśmy się braków w zmiennej "Married" oraz zredukowaliśmy licznę poozostałych braków

### Wykres z obserwacjami brakującymi

```{r, message=FALSE, warning=FALSE}
gg_miss_var(dane2) +theme_minimal()
```

### Tabela z podsumowaniem braków

```{r, message=FALSE, warning=FALSE}
`Ilość obserwacji` <- c(sum(is.na(dane2$Married)),sum(is.na(dane2$Gender)), sum(is.na(dane2$Dependents)), sum(is.na(dane2$Loan_Amount_Term)), sum(is.na(dane2$Self_Employed)), sum(is.na(dane2$Credit_History)))
`Miejsce wystąpienia` <- c("Married","Gender","Dependents","Loan_Amount_Term","Self_Employed", "Credit_History")
braki1 <-data.frame(`Miejsce wystąpienia`,`Ilość obserwacji`)
braki1 %>% formattable(align="c")
```

<br> <br>

# 4. Zrozumienie danych

## Zmienne jakościowe {.tabset .tabset-fade}

### Loan Status

Loan Status jest naszą zmienną objaśnianą. Widzimy, że 66% wniosków zostało rozpatrzonych pozytwynie.

```{r, message=FALSE, warning=FALSE}
dane2 %>%
  dplyr::select(Loan_Status) %>%
  drop_na() %>%
  group_by(Loan_Status)%>%
  count() %>%
  mutate(`udział procentowy`=percent(n/(155+393))) %>%
  ggplot(aes(x = "", y = n, fill = Loan_Status))+
  geom_col(colour = "gray20", alpha=0.7, width = .3) +
  scale_fill_manual(values = c("#A3b5c0", "#e5e0d8", "#b4bdba","thistle3"), labels=c("Yes","No")) + 
  ggtitle("Loan Status")+
  xlab("") +
  labs(fill="Loan Status")+
  coord_flip() +
  geom_text(aes(label=`udział procentowy`), position=position_stack(vjust = 0.49), vjust=1, size=4, color="gray20")+
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))
```

### Gender

Klientami naszego banku są najczęściej mężczyźni. Stanowią oni ponad 80% wszystkich klientów

```{r, message=FALSE, warning=FALSE}

dane2 %>%
  dplyr::select(Gender) %>%
  drop_na() %>%
  group_by(Gender)%>%
  count() %>%
  mutate(`udział procentowy`=percent(n/(99+411))) %>%
  ggplot(aes(x = "", y = n, fill = Gender))+
  geom_col(colour = "gray20", alpha=0.7, width = .3) +
  scale_fill_manual(values = c("#A3b5c0", "#e5e0d8", "gray20")) + 
  ggtitle("Gender")+
  xlab("") +
  coord_flip() +
  geom_text(aes(label=`udział procentowy`), position=position_stack(vjust = 0.49), vjust=1, size=4, color="gray20")+
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))


```

### Married

Najczęściej osoby, które ubiegają się o kredyt są w związkach małżeńskich. Są to osoby ustabilizowane, Stanowią oni ponad 64% wszystkich klientów

```{r, message=FALSE, warning=FALSE}
dane2 %>%
  dplyr::select(Married) %>%
  drop_na() %>%
  group_by(Married)%>%
  count() %>%
  mutate(`udział procentowy`=percent(n/(183+335))) %>%
  ggplot(aes(x = "", y = n, fill = Married))+
  geom_col(colour = "gray20", alpha=0.7, width = .3) +
  scale_fill_manual(values = c("#A3b5c0", "#e5e0d8", "gray20")) + 
  ggtitle("Married")+
  xlab("") +
  coord_flip() +
  geom_text(aes(label=`udział procentowy`), position=position_stack(vjust = 0.49), vjust=1, size=4, color="gray20")+
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))
  
```

### Dependents

Prawie 60% klientów nie miała nikogo na utrzymaniu. 15.58% wnioskujących miało tylko jedną osobę, 17.36% dwie osoby. Najmniej liczną grupę stanowili klienci, którzy miali 3. lub więcej osób, które musieli utrzymywać.

```{r, message=FALSE, warning=FALSE}
dane2 %>%
  dplyr::select(Dependents) %>%
  drop_na() %>%
  group_by(Dependents)%>%
  count() %>%
  mutate(`udział procentowy`=percent(n/(301+79+88+39))) %>%
  ggplot(aes(x = "", y = n, fill = Dependents))+
  geom_col(colour = "gray20", alpha=0.7, width = .3) +
  scale_fill_manual(values = c("#A3b5c0", "#e5e0d8", "#b4bdba","mistyrose3")) + 
  ggtitle("Dependents")+
  xlab("") +
  coord_flip() +
  geom_text(aes(label=`udział procentowy`), position=position_stack(vjust = 0.49), vjust=1, size=4, color="gray20")+
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))
```

### Education

Wyraźną większość wśród aplikantów stanowiły osoby, które ukończyły studia, stanowili oni 76% wszystkich klientów.

```{r, message=FALSE, warning=FALSE}
dane2 %>%
  dplyr::select(Education) %>%
  drop_na() %>%
  group_by(Education)%>%
  count() %>%
  mutate(`udział procentowy`=percent(n/(394+124))) %>%
  ggplot(aes(x = "", y = n, fill = Education))+
  geom_col(colour = "gray20", alpha=0.7, width = .3) +
  scale_fill_manual(values = c("#A3b5c0", "#e5e0d8", "#b4bdba","mistyrose3")) + 
  ggtitle("Education")+
  xlab("") +
  coord_flip() +
  geom_text(aes(label=`udział procentowy`), position=position_stack(vjust = 0.49), vjust=1, size=4, color="gray20")+
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))
```

### Self Employed

Większość osób wnioskujących o kredyt w naszym banku, nie prowadzi własnego biznesu. Osoby samozatrudnione stanowią zaledwie 11,94% wszystkich klientów.

```{r, message=FALSE, warning=FALSE}
dane2$Credit_History <- as.factor(dane2$Credit_History)

dane2 %>%
  dplyr::select(Self_Employed) %>%
  drop_na() %>%
  group_by(Self_Employed)%>%
  count() %>%
  mutate(`udział procentowy`=percent(n/(435+59))) %>%
  ggplot(aes(x = "", y = n, fill = Self_Employed))+
  geom_col(colour = "gray20", alpha=0.7, width = .3) +
  scale_fill_manual(values = c("#A3b5c0", "#e5e0d8", "#b4bdba","mistyrose3")) + 
  ggtitle("Self Employed")+
  xlab("") +
  labs(fill="Self Employed")+
  coord_flip() +
  geom_text(aes(label=`udział procentowy`), position=position_stack(vjust = 0.49), vjust=1, size=4, color="gray20")+
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))
```

### Loan Amount Term {.tabset .tabset-fade .tabset-pills}

Najczęściej wybieranym okresem, na który klienci chcą zaciągnąć kredyt jest okres 360, który stanowi ponad 85% wszystkich okresów na jakie zawierana jest pożyczka. Drugą najczęściej wybieraną opcją jest 180 dni, ponad 7% klientów, wybiera tę opcję.

#### Tabela

```{r, message=FALSE, warning=FALSE}
dane2 %>%
  dplyr::select(Loan_Amount_Term) %>%
  drop_na() %>%
  group_by(Loan_Amount_Term)%>%
  count() %>%
  mutate(`Udział procentowy`= percent(n/505))%>% 
  formattable()
```

#### Prezentacja rozkładu

```{r, message=FALSE, warning=FALSE}
wafel <- dane2 %>%
  dplyr::select(Loan_Amount_Term) %>%
  drop_na() %>%
  group_by(Loan_Amount_Term)%>%
  count() 
wafel <- c(`term 12-120`= 12, `term 80`=	36, `term 240`=3, `term 300`=	10, `term 360`=	431, `term 480`= 13)
  waffle(wafel, rows=15,colors = c("#eee2d4", "mistyrose3", "lightsteelblue2","#959595","#ced0ce","pink3"))
  
```

### Credit History

Ponad 84% klientów ma historię kredytową.

```{r, message=FALSE, warning=FALSE}

dane2 %>%
  dplyr::select(Credit_History) %>%
  drop_na() %>%
  group_by(Credit_History)%>%
  count() %>%
  mutate(`udział procentowy`=percent(n/(404+76))) %>%
  ggplot(aes(x = "", y = n, fill = Credit_History))+
  geom_col(colour = "gray20", alpha=0.7, width = .3) +
  scale_fill_manual(values = c("#A3b5c0", "#e5e0d8", "#b4bdba","thistle3"), labels=c("No","Yes")) + 
  ggtitle("Credit History")+
  xlab("") +
  labs(fill = "Credit History")+
  coord_flip() +
  geom_text(aes(label=`udział procentowy`), position=position_stack(vjust = 0.49), vjust=1, size=4, color="gray20")+
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))
```

### Property Area

Proporcję pomiędzy miejscem zamieszkania aplikantów są w miarę zbliżonę. Największy udział stanowią klienci z obszarów podmiejskich (41,46%). Następnie 33,75% stanowią wnioskodawcy z obszarów miejskich, i zaledwie 1% mniejszy od nich udział mają klienci z obszarów wiejskich.

```{r, message=FALSE, warning=FALSE}

dane2 %>%
  dplyr::select(Property_Area) %>%
  drop_na() %>%
  group_by(Property_Area)%>%
  count() %>%
  mutate(`udział procentowy`=percent(n/(404+76))) %>%
  ggplot(aes(x = "", y = n, fill = Property_Area))+
  geom_col(colour = "gray20", alpha=0.7, width = .3) +
  scale_fill_manual(values = c("#A3b5c0", "#e5e0d8","thistle3")) + 
  ggtitle("Property Area")+
  xlab("") +
  coord_flip() +
  labs(fill="Property Area")+
  geom_text(aes(label=`udział procentowy`), position=position_stack(vjust = 0.49), vjust=1, size=4, color="gray20")+
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))
```

## Zmienne ilościowe

### Applicant Income

```{r, message=FALSE, warning=FALSE}
dane2 %>%
  dplyr::select(Applicant_Income) %>%
  ggplot(aes(x = Applicant_Income)) +
  geom_density(fill="#A3b5c0", alpha=0.4) +
  geom_vline(aes(xintercept = mean(Applicant_Income, na.rm = T)), 
               colour = "pink3", linetype ="longdash", size = .7)+
  geom_vline(aes(xintercept = median(Applicant_Income, na.rm = T)), 
               colour = "royalblue3", linetype ="longdash", size = .7)+
  geom_vline(aes(xintercept = quantile(Applicant_Income, probs = 0.25, na.rm = T)), 
               colour = "darkseagreen4", linetype ="longdash", size = .7)+
  geom_vline(aes(xintercept = quantile(Applicant_Income, probs = 0.75, na.rm = T)), 
               colour = "gold3", linetype ="longdash", size = .7)+
  ggtitle("Applicant Income")+
  xlab("") +
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))
```

**Oznaczenia na wykresie:** średnia- różowy, mediana- niebieski, Q1-zielony, Q3-żółty

```{r, message=FALSE, warning=FALSE}

statystyka <- c("Min", "Max", "Q1","Mediana","Q3" ,"Średnia", "Odch. std.", "Skośność","Kurtoza")
wartosc <- c(min(dane2$Applicant_Income),max(dane2$Applicant_Income), quantile(dane2$Applicant_Income, 0.25), round(median(dane2$Applicant_Income,0.5),2), quantile(dane2$Applicant_Income, 0.75), round(mean(dane2$Applicant_Income),2), round(sd(dane2$Applicant_Income),2), round(skew(dane2$Applicant_Income),2), round(kurtosi(dane2$Applicant_Income),2))

raport <- data.frame(statystyka,wartosc) 
raport %>% formattable()

```

**Obserwacja:**

-   Średnio aplikanci zarabiają 4104.

-   Aplikant, który zarabiał najmniej, wykazywał dochód w wysokości 150,

-   Najwyższy dochód klienta wyniósł 10513

-   25% aplikantów miała mniejszy dochód niż 2764

-   75% klientów miała dochód wyższy niż 4931

-   50% klientów miała niższy niż dochód niż 3597 (tym samym druga połowa aplikantów miała dochód wyższy niż 3597)

-   Średnio o 1928.7 dochody klientów odchylają się od średniego dochodu. To oznacza, że bardzo rozbieżne są dochody naszych aplikantów.

<br> <br> <br>

### Coapplicant Income

```{r, message=FALSE, warning=FALSE}
dane2 %>%
  dplyr::select(Coapplicant_Income) %>%
    filter(Coapplicant_Income>0) %>%
  ggplot(aes(x = Coapplicant_Income)) +
  geom_density(fill="#A3b5c0", alpha=0.4) +
  geom_vline(aes(xintercept = mean(Coapplicant_Income, na.rm = T)), 
               colour = "pink3", linetype ="longdash", size = .7)+
  geom_vline(aes(xintercept = median(Coapplicant_Income, na.rm = T)), 
               colour = "royalblue3", linetype ="longdash", size = .7)+
  geom_vline(aes(xintercept = quantile(Coapplicant_Income, probs = 0.25, na.rm = T)), 
               colour = "darkseagreen4", linetype ="longdash", size = .7)+
    geom_vline(aes(xintercept = quantile(Coapplicant_Income, probs = 0.75, na.rm = T)), 
               colour = "gold3", linetype ="longdash", size = .7)+
  ggtitle("Coapplicant Income")+
  xlab("") +
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))
```

**Oznaczenia na wykresie:** średnia- różowy, mediana- niebieski, Q1-zielony, Q3-żółty

```{r, message=FALSE, warning=FALSE}

statystyka <- c("Min", "Max", "Q1","Mediana","Q3" ,"Średnia", "Odch. std.", "Skośność","Kurtoza")
wartosci <- dane2 %>%
  transmute(Coapplicant_Income) %>%
  filter(Coapplicant_Income>0)

wartosci <- c(min(wartosci$Coapplicant_Income),max(wartosci$Coapplicant_Income), quantile(wartosci$Coapplicant_Income, 0.25), round(median(wartosci$Coapplicant_Income,0.5),2), quantile(wartosci$Coapplicant_Income, 0.75), round(mean(wartosci$Coapplicant_Income),2), round(sd(wartosci$Coapplicant_Income),2), round(skew(wartosci$Coapplicant_Income),2), round(kurtosi(wartosci$Coapplicant_Income),2))

raport <- data.frame(statystyka,wartosci) 
raport %>% formattable()

```

**Obserwacja:** Pod uwagę są brani jedynie współwnioskodawcy, którzy wykazują przychody. 

-   Średnio aplikanci zarabiają 4104.

-   Dochód współwnioskodawcy, o najmniejszej wartości był równy 16.12,

-   Najwyższy dochód współwnioskodawcy wyniósł 6666,

-   25% współwnioskodawców miała mniejszy dochód niż 1625

-   75% współwnioskodawców miała dochód wyższy niż 2857

-   50% współwnioskodawców miała niższy niż dochód niż 2079 (tym samym     druga połowa miała dochód wyższy niż 3597)

-   Średnio o 1164.5 dochody współwnioskodawców odchylał się od ich średniego dochodu.

<br> <br> <br>

### Loan Amount

```{r, message=FALSE, warning=FALSE}
dane2 %>%
  dplyr::select(Loan_Amount) %>%
  ggplot(aes(x = Loan_Amount)) +
  geom_density(fill="#A3b5c0", alpha=0.4) +
  geom_vline(aes(xintercept = mean(Loan_Amount, na.rm = T)), 
               colour = "pink3", linetype ="longdash", size = .7)+
  geom_vline(aes(xintercept = median(Loan_Amount, na.rm = T)), 
               colour = "royalblue3", linetype ="longdash", size = .7)+
  geom_vline(aes(xintercept = quantile(Loan_Amount, probs = 0.25, na.rm = T)), 
               colour = "darkseagreen4", linetype ="longdash", size = .7)+
    geom_vline(aes(xintercept = quantile(Loan_Amount, probs = 0.75, na.rm = T)), 
               colour = "gold3", linetype ="longdash", size = .7)+
  ggtitle("Loan Amount")+
  xlab("") +
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))
```

**Oznaczenia na wykresie:** średnia- różowy, mediana- niebieski, Q1-zielony, Q3-żółty

```{r, message=FALSE, warning=FALSE}
statystyka <- c("Min", "Max", "Q1","Mediana","Q3" ,"Średnia", "Odch. std.", "Skośność","Kurtoza")
wartosc <- c(min(dane2$Loan_Amount),max(dane2$Loan_Amount), quantile(dane2$Loan_Amount, 0.25), round(median(dane2$Loan_Amount,0.5),2), quantile(dane2$Loan_Amount, 0.75), round(mean(dane2$Loan_Amount),2), round(sd(dane2$Loan_Amount),2), round(skew(dane2$Loan_Amount),2), round(kurtosi(dane2$Loan_Amount),2))

raport <- data.frame(statystyka,wartosc) 
raport %>% formattable()
```

**Obserwacja:**

-   Średnio aplikanci wnioskują o kredyt w wysokości 127.63,

-   Najniższy wniosek o kredyt był równy 9,

-   Najwyższy dochód klienta wyniósł 280,

-   25% wniosków była na kwotę niższą niż 99,

-   75% wniosków była na kwotę wyższą niż 155,

-   50% wniosków była na kwotę niższą niż 122 (tym samym druga połowa na kwotę wyższy niż 122),

-   Średnio o 47.4 kwoty na wniioskach pożyczkowych odchylają się od średniej kwoty, na którą zaciągane są zobowiązania.

<br> <br> <br>

## Korelacja

<p style="text-align: justify"> Korelacja to miara kierunku i siły związku między dwiema zmiennymi. Jej wartość zawiera się w przedziale od -1 do 1. Korelacja bliska zeru sugeruje brak istotnej zależności liniowej między zmiennymi - ale nie oznacza, że nie ma między nimi innych związków. Gdy wartość korelacji jest bliska 1, to obydwie zmienne rosną lub maleją razem, a gdy jest bliska -1, to wzrostom wartości jednej ze zmiennych towarzyszą spadki wartości drugiej. </p>
<br>
<p style="text-align: justify"> Gdy badamy więcej niz dwie zmienne, możemy przedstawić ich współczynniki korelacji w postaci jednej macierzy. W naszym przypadku użyliśmy funkcji hetcor, aby zbadać współczynniki korelacji liniowej Pearsona między zmiennymi numerycznymi ("Loan Amount", "Applicant Income", "Coapplicant Income", i "Loan Amount Term"), współczynniki korelacji polichorycznej między zmiennymi czynnikowymi ("Loan Status", "Gender", "Credit History", "Property Area" i "Dependents") oraz współczynniki korelacji wieloseryjnej między zmiennymi czynnikowymi a numerycznymi. </p>
<br> <br>

### Korelacje między decyzją o przyznaniu kredytu a innymi zmiennymi

-   <p style="text-align: justify"> Z macierzy korelacji dowiadujemy się, że zmienna najsilniej skorelowaną z decyzją o przyznaniu kredytu jest posiadanie historii   kredytowej - współczynnik korelacji wynosi w tym przypadku aż 0,87.</p>

-   <p style="text-align: justify"> Słabszą, ale wciąż istotną korelację pozytywną wykazują płeć męska, dochód współmałżonka i ilośc posiadanych dzieci - tu współczynniki wynoszą odpowiednio 0,16, 0,09 oraz 0,06. </p>

-   <p style="text-align: justify"> W przypadku położenia nieruchomości można zwrócic uwagę na delikatną korelację pozytywną decyzji o przyznaniu kredytu z terenami miejskimi raczej niż wiejskimi - współczynnik korelacji polichorycznej wyniósł dla tej pary zmiennych 0,04. </p>

-   <p style="text-align: justify"> Co ciekawe, współczynniki korelacji pomiędzy decyzją o przyznaniu kredytu a dochodem klienta, okresem kredytowania i wysokością pożyczki są bliskie zeru, co sugeruje brak bezpośredniego związku między zmiennymi. </p>

### Korelacje między pozostałymi zmiennymi

Interesujące są również zależności między zmiennymi wpływającymi na zdolność kredytową:

-   <p style="text-align: justify"> Występuje wyraźna, pozytywna korelacja między wysokościa pożyczki o która wnioskuje klient a jego dochodem - współczynnik wynosi aż 0,53. może to wyjaśnić brak wyraźnej korelacji między tymi zmiennymi a decyzją banku - klienci o niższym dochodzie wydają się rezygnowac z ubiegania się o wyższą pożyczkę już na etapie składania wniosku, więc decyzja banku pozornie nie jest skorelowana z ich dochodem i wysokościa pożyczki o jaką wnioskują - choć można przypuszczać, że taka korelacja by wystąpiła gdyby nie tego typu "samoograniczanie się" klientów. </p>

-   <p style="text-align: justify"> Dość znacząca jest tez korelacja między męską płcią klientów a ilością dzieci i dochodem współmałżonka (współczynniki na poziomie odpowiednio 0,4 i 0,32) - sugeruje to, że w przypadku małżeństw korzystających z kredytu hipotecznego małżonkiem, który bierze kredyt jest częściej mąż niż żona. </p>

-   <p style="text-align: justify"> Mężczyźni wydaja się też skłonni do zaciągania większych kredytów oraz akceptowania krótszego okresu kredytowania - współczynniki korelacji między płcią męską a wysokościa pożyczki i okresem jej spłaty wynoszą odpowiednio 0,16 i -0,15. </p>

-   <p style="text-align: justify"> Mozna zaobserwowac ujemna korelacje na poziomie -0,26 pomiędzy dochodem klienta a dochodem jego współmałżonka. Można wiec przypuszczać, że wśród małżeństw występujących z wnioskiem o kredyt hipoteczny występują różnice w dochodzie obydwu małżonków. </p>

-   <p style="text-align: justify"> Dochód współmałżonka jest dodatnio skorelowany z wysokościa pożyczki o jaka klient wnioskuje. Współczynnik tej korelacji wynosi jednak 0,26, jest więc około dwukrotnie niższy niż w przypadku dochodu samego klienta. </p>

-   <p style="text-align: justify"> Klienci starający sie o kredyt hipoteczny na nieruchomośc połozona na terenie wiejskim charakteryzują się niższym dochodem - zarówno własnym jak i współmałżonka współczynniki wynoszą odpowiednio -0,05 i -0,07) - oraz wnioskują o niższe kredyty z krótszym terminem zapadalności (współczynniki korelacji na poziomie -0,1 i -0,08). Sugeruje to, że wśród klientów występują nierówności dochodowe i majątkowe uzależnione od miejsca zamieszkania.</p>
    
-   <p style="text-align: justify"> Wraz z liczbą posiadanych dzieci rośnie dochód klienta, ale spada dochód jego współmałżonka - współczynniki korelacji wynoszą tu odpowiednio 0,14 i -0,05. Może to sugerować, że niekiedy w tej sytuacji jedno z małżonków w większym stopniu skupia sie na wychowaniu dzieci i jego dochód spada. </p>

-   <p style="text-align: justify"> Co więcej, liczba posiadanych dzieci jest dodatnio skorelowane z wysokością kredytu o jaki wnioskuje klient i negatywnie skorelowana z terminem kredytowania - współczynniki korelacji wynoszą odpowiednio 0,15 oraz -0,1. Może to sugerować, że klienci mogący sobie pozwolić na wyższe kredyty i krótsze okresy kredytowania mogą również utrzymać więcej dzieci. </p>

```{r, message=FALSE, warning=FALSE, results='hide'}
dane_do_macierzy <- data.frame(dane2$Loan_Status, dane2$Loan_Amount, dane2$Applicant_Income, dane2$Coapplicant_Income, dane2$Loan_Amount_Term, dane2$Dependents,  dane2$Gender, dane2$Credit_History, dane2$Property_Area)
as.tibble(dane_do_macierzy)
etykiety <- c("Loan Status", "Loan Amount", "Applicant Income", "Coapplicant Income", "Loan Amount Term", "Dependents", "Gender", "Credit History", "Property Area")
macierz_korelacji <- polycor::hetcor(dane_do_macierzy)
print(macierz_korelacji)
wspolczynniki_korelacji <- macierz_korelacji$correlations
korelogram <- corrgram(wspolczynniki_korelacji, 
                       order = FALSE, 
                       labels = etykiety,
                       
                       diag.panel = panel.histogram, 
                       upper.panel=panel.pie, 
                       col.regions = colorRampPalette(c("#A3b5c0","#eee2d4", "yellow4", "gray92","#959595","blue4","pink3"))
                       )

```

# 5. EDA, czyli Eksploracyjna Analiza Danych

EDA to zestaw interaktywnych i wizualnych technik analizy zbioru danych bez bardziej precyzyjnego wskazania celu eksploracji.

EDA pozwala na:

-   zgłębienie zbioru danych,

-   sprawdzenie zależności między atrybutami,

-   opracowanie wstępnych wniosków dotyczących prawidłowości w zbiorze przykładów.

<br>

## Analiza jednowymiarowa

<p style="text-align: justify"> Celem tej części projektu jest prezentacja w postaci wykresów zależności między decyzją kredytową a poszczególnymi zmiennymi jakościowymi i ilościowymi. Sprawdzimy jak poszczególne zmienne objaśniające wpływaja na zmienna objaśnianą. </p>

### Zmienne jakościowe {.tabset}

Sprawdzimy jak dane cechy wpływają na podejmowanie decyzji kredytowej.

#### Gender

Zmienna "Gender" nie ma znaczącego wpływu na kształtowanie się zdolności kredytowej. Zauważalna jest nieznaczna różnica pomiędzy liczbą udzielanych kredytów na korzyść mężczyzn.

```{r, message=FALSE, warning=FALSE}
dane2 %>%
  dplyr::select(Gender,Loan_Status) %>%
  filter(Gender==c("Female", "Male")) %>%
  group_by(Gender) %>%
  count(Loan_Status) %>%
  ggplot(aes(x = Gender, y = n, fill = Loan_Status)) +
  geom_col(position = "fill",colour = "gray20", alpha=0.7, width = .7) +
  scale_fill_manual(values=c("#A3b5c0","#e5e0d8"), labels=c("No", "Yes"))+
  labs(fill="Loan Status")+
  ggtitle("Gender")+
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))
```

#### Dependents

Co ciekawe, najczęściej odmawiane są kredyty osobom, które mają tylko 1 osobę na utzymaniu. Dla braku osób na utrzymanej, 2 osób oraz 3 i więcej zdolność kredytowa jest podobna.

```{r, message=FALSE, warning=FALSE}
dane2 %>%
 dplyr:: select(Dependents,Loan_Status) %>%
  filter(Dependents==c("0", "1", "2","3+")) %>%
  group_by(Dependents) %>%
  count(Loan_Status) %>%
  ggplot(aes(x = Dependents, y = n, fill = Loan_Status)) +
  geom_col(position = "fill",colour = "gray20", alpha=0.7, width = .7) +
  scale_fill_manual(values=c("#A3b5c0","#e5e0d8"), labels=c("No", "Yes"))+
  labs(fill="Loan Status")+
  ggtitle("Dependents")+
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))
```

#### Education

Osobom, które ukończyły szkołę częściej są udzielane pożyczki, niż osobom, które jej nie ukończyły. Może to wynikać z faktu, że zazwyczaj osoby po szkole mają lepiej płatną pracę.

```{r, message=FALSE, warning=FALSE}
dane2 %>%
  dplyr::select(Education,Loan_Status) %>%
  filter(Education==c("Graduate", "Not Graduate")) %>%
  group_by(Education) %>%
  count(Loan_Status) %>%
  ggplot(aes(x = Education, y = n, fill = Loan_Status)) +
  geom_col(position = "fill",colour = "gray20", alpha=0.7, width = .7) +
  scale_fill_manual(values=c("#A3b5c0","#e5e0d8"), labels=c("No", "Yes"))+
  labs(fill="Loan Status")+
  ggtitle("Education")+
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))
```

#### Self Employed

Wskaźnik dla obu grup kształtuje się na podobnym poziomie.

```{r, message=FALSE, warning=FALSE}
dane2 %>%
  dplyr::select(Self_Employed,Loan_Status) %>%
  filter(Self_Employed==c("Yes", "No")) %>%
  group_by(Self_Employed) %>%
  count(Loan_Status) %>%
  ggplot(aes(x = Self_Employed, y = n, fill = Loan_Status)) +
  geom_col(position = "fill",colour = "gray20", alpha=0.7, width = .7) +
  scale_fill_manual(values=c("#A3b5c0","#e5e0d8"), labels=c("No", "Yes"))+
  labs(fill="Loan Status")+
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))
```

#### Credit Hisory

Widoczna jest znacząca różniaca. Tylko niecałe 10% osób bez zdolności kredytowej, dostaje pozytywną odpowiedź w sprawie kredytu. Jeśli ktoś ma historię kredytową jego szansa na pozytywne rozpatrzenie winosku wynosi ok 80%.

```{r, message=FALSE, warning=FALSE}
dane2 %>%
  dplyr::select(Credit_History,Loan_Status) %>%
  filter(Credit_History==c("1", "0")) %>%
  group_by(Credit_History) %>%
  count(Loan_Status) %>%
  ggplot(aes(x = Credit_History, y = n, fill = Loan_Status)) +
  geom_col(position = "fill",colour = "gray20", alpha=0.7, width = .7) +
  scale_fill_manual(values=c("#A3b5c0","#e5e0d8"), labels=c("No", "Yes"))+
  labs(fill="Loan Status")+
  ggtitle("Credit History")+
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))
```

#### Proparty Area

Różnice są niewielkie. Najwięcekszy odsetek osób, którym zostaje udzielony kredyt, pochodzą z obszarów półmiejskich, zaś najmniejszy osoby z obszarów wiejskich.

```{r, message=FALSE, warning=FALSE}
dane2 %>%
  dplyr::select(Property_Area,Loan_Status) %>%
  group_by(Property_Area) %>%
  count(Loan_Status) %>%
  ggplot(aes(x = Property_Area, y = n, fill = Loan_Status)) +
  geom_col(position = "fill",colour = "gray20", alpha=0.7, width = .7) +
  scale_fill_manual(values=c("#A3b5c0","#e5e0d8"), labels=c("No", "Yes"))+
  labs(fill="Loan Status")+
  ggtitle("Property Area")+
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

```

### Zmienna Ilościowe {.tabset}

#### Aplicant Income
<p style="text-align: justify"> Wysokość dochodu nie wpływa w istotnym stopniu na decyzję o tym czy kredyt zostanie przyznany. Dochód osoby aplikującej kształtuje się podobnie zarówno dla decyzji pozytywnych jak i negatywnych.</p>

```{r, message=FALSE, warning=FALSE}
ggplot(dane2, aes(x=Applicant_Income, fill=Loan_Status)) +
    geom_histogram( color="gray20",alpha=.5, position = 'identity') +
  scale_fill_manual(values=c("#A3b5c0","#e5e0d8"), labels=c("No", "Yes"))+
  labs(fill="Loan Status")+
    theme_minimal()+
    theme(text=element_text(size = 12), plot.title = element_text(hjust = 0.5))

```

#### Coaplicant Income

Sytuacja prezentuje się w ten sam sposób dla zmiennej Coapplicant Income.

```{r, message=FALSE, warning=FALSE}
ggplot(dane2, aes(x=Coapplicant_Income, fill=Loan_Status)) +
    geom_histogram( color="gray20", alpha=0.5, position = 'identity') +
  scale_fill_manual(values=c("#A3b5c0","#e5e0d8"), labels=c("No", "Yes"))+
  labs(fill="Loan Status")+
    theme_minimal()+
    theme(text=element_text(size = 12), plot.title = element_text(hjust = 0.5))
```

```{r}

```

#### Loan Amount Term

Najwięcej kredytów jest branych na okres roku. Czas nie wpływa w stopniu istotnym na decyzję o udzieleniu kredytu.

```{r, message=FALSE, warning=FALSE}
ggplot(dane2, aes(x=Loan_Amount_Term, fill=Loan_Status)) +
    geom_histogram( color="gray20", alpha=0.5, position = 'identity') +
  scale_fill_manual(values=c("#A3b5c0","#e5e0d8"), labels=c("No", "Yes"))+
  labs(fill="Loan Status")+
    theme_minimal()+
    theme(text=element_text(size = 12), plot.title = element_text(hjust = 0.5))
```

#### Loan_Amount

Wysokość pożyczki nie jest czynnikiem decydującym o tym czy kredyt zostanie przyznany. Proporcje rozkładają się w podobny sposób.

```{r, message=FALSE, warning=FALSE}
ggplot(dane2, aes(x=Loan_Amount, fill=Loan_Status)) +
    geom_histogram( color="gray20", alpha=0.5, position = 'identity') +
  scale_fill_manual(values=c("#A3b5c0","#e5e0d8"), labels=c("No", "Yes"))+
  labs(fill="Loan Status")+
  xlab("Loan Status")+
    theme_minimal()+
    theme(text=element_text(size = 12), plot.title = element_text(hjust = 0.5))
  
```

## Analiza wielowymiarowa

<p style="text-align: justify"> Widzimy, że osoby bez historii kredytowej praktycznie nie mają szansy aby dostaną kredytu w naszym banku (wyk1). Jeśli, klient ma historię kredytową (wyk2) i kwota na jaką chce zaciągnąć kredyt nie przekracza 0,04 ze stosunku Loan_Amount/(Applicant_Income+Coapplicant_Income) to ma duże szansę na pozytyną odpowiedź. Jeśli stosunek wykracza ponad 0.04, jest zdyskwalifikowany z możliwości zaciągnięcia kredytu, nawet jeśli posiada historię kredytową. </p>

```{r, message=FALSE, warning=FALSE}
dane2 %>%
  drop_na(Credit_History) %>%
  ggplot( aes(x=Loan_Amount/(Applicant_Income+Coapplicant_Income), fill=Loan_Status)) +
    geom_histogram(color="gray20", alpha=0.5, position = 'identity') +
  scale_fill_manual(values=c("#A3b5c0","#e5e0d8"), labels=c("No", "Yes"))+
  labs(fill="Loan Status")+
    facet_grid(~Credit_History)+
    theme_minimal()+
    theme(text=element_text(size = 12), plot.title = element_text(hjust = 0.5))
```

# Weryfikacja zdolności kredytowej klientów oczekujących
<p style="text-align: justify"> Sprawdzamy powiązanie pomiędzy zmienną objaśnianą, a zmiennymi objaśniającymi.
Tak naprawdę istotna statystycznie jest jedynie zmienna Credit_History. Model logitowy w tym przypadku byłby nieefetywny. Należy więc znaleźć inne rozwiązanie, w oparciu o które będą podejmowane decyzje kredytowe. </p>

```{r}
summary(glm(Loan_Status ~ Gender + Applicant_Income + Married + Dependents + Education + Self_Employed + Coapplicant_Income + Loan_Amount + Loan_Amount_Term + Credit_History + Property_Area , data = dane2, family = "binomial")) 


```

<p style="text-align: justify"> Jako dział usprawnień procesów decyzyjnych, w oparciu o przeprowadzoną analizę danych postanowiliśmy, że kredyty będą przyznawane jeśli klient zdąbędzie określoną ilość punktów. Możemy jednoznacznie stwierdzić, że dotychczasowe decyzje o przyznawaniu kredytów były randomowe, co negatywnie wpływało na reputację i ekektywność działania naszego banku. Pozbędziemy się przypadkowowych decyzji. Dzięki opracowaniu modelu, wykluczymy przypadkowe decyzje kredytowe. Klientami naszego banku, będą klienci, którzy będą w stanie regulować zobowiązanie. </p>

```{r}
próba <- dane2 

```

**Uzasadnienie punktacji:**

-   <p style="text-align: justify">  Z wcześniejszej analizy wywnioskowaliśmy, że w oparciu o Credit_History, w głównej mierze wcześniej zostały podejmowane decyzje o udzieleniu kredytu. Podejmując przyszłe decyzje kredytowe historia kredytowa również będzie znaczącym czynnikiem.</p>

-   <p style="text-align: justify">  Najczęściej osoby z obszarów podmiejskich otrzymywały kredyty, również tę zmienną postanowiliśmy uwzględnić </p>

-   <p style="text-align: justify">  Osoby w związku małżeńskim otrzymają dodatkowe 0.35 pkt. Są to osoby ustabilizowane.</p>

-   <p style="text-align: justify">  Jako najważniejszy składnik w ocenie punktowej potraktujemy stosunek pożyczki do całkowitych dochodów.</p>

-   <p style="text-align: justify">  Punkty za przychód aplikanta, będą przyznawane zgodnie z wcześniej poznym rozkładem, tzn. 0 pkt jeśli dochody są mniejsze niż Q1, 0.8 jeśli dochody są mniejsze niż mediana, 1.6 jeśli są większe niż mediana i mniejsze niż Q3, i 1.6 pkt jeśli są większe niż Q3 </p>

-   <p style="text-align: justify">  Liczba osób na utrzymaniu jest obciążenieniem dla osoby spłacającej kredyt, dlatego jeśli nie ma nikogo na utrzymaniu otrzyma 1 pkt, jeśli zaś ma 3+ osób otrzyma 0 pkt.</p>

-   <p style="text-align: justify">  Punkty za przychód współwnioskodawcy, będą przyznawane na podstawie wcześniejszego pozanego rozkładu tzn. 0 pkt jeśli dochody coapplicanta są mniejsze niż Q1, 068 jeśli dochody są mniejsze niż mediana, 0.8 jeśli są większe niż mediana i mniejsze niż Q3, i 1.6 pkt jeśli są większe niż Q3.</p>

Maksymalna liczba punktów do zdobycia to 11.05.

```{r}
próba <- próba %>%
  dplyr::  mutate(pktCH = case_when(
      Credit_History =="1" ~ 3.5,
      Credit_History != "1" ~ 0 ))


próba <- próba %>%
  dplyr::  mutate(pktSemi = case_when(
      Property_Area =="Semiurban" ~ 0.3,
      Property_Area != "Semiurban" ~ 0 ))

próba <- próba %>%
  dplyr::  mutate(pktGen = case_when(
      Gender =="Male" ~ 0.2,
      Gender != "Male" ~ 0 ))

próba <- próba %>%
  dplyr::  mutate(pktMar = case_when(
      Married =="Yes" ~ 0.35,
      Married != "Yes" ~ 0 ))

próba <- próba %>%
  mutate("SKZ"=Loan_Amount/(Applicant_Income+Coapplicant_Income)) %>%
  mutate(pktSKZ= case_when( SKZ > 0.00 & SKZ <0.03 ~ 3,
                            SKZ > 0.03 & SKZ <0.035 ~ 2.5,
                            SKZ > 0.35 ~ -8 ))

próba <- próba %>%
  dplyr:: mutate(pktINC= case_when( Applicant_Income >=  0   & Applicant_Income < 2764 ~ 0,
                                    Applicant_Income >= 2764 & Applicant_Income < 4104 ~ 0.8,
                                    Applicant_Income >= 4104 & Applicant_Income < 4931 ~ 1.6,
                                    Applicant_Income >= 4931 ~ 2))

próba <- próba %>%
  mutate(pktDEP= case_when( Dependents =="0" ~ 0.7,
                            Dependents =="1" ~ 0.4,
                            Dependents =="2" ~ 0.2,
                            Dependents =="3+" ~ 0))


próba <- próba %>%
  mutate(pktCOAPP= case_when( Coapplicant_Income == 0 ~ 0,
                              Coapplicant_Income > 0    & Coapplicant_Income < 1625 ~ 0.2,
                              Coapplicant_Income >= 1625 & Coapplicant_Income < 2079 ~ 0.4,
                              Coapplicant_Income >= 2079 & Coapplicant_Income < 2857 ~ 0.6,
                              Coapplicant_Income >= 2857 ~ 1))


próba <- próba %>%
 mutate(wynik = pktCH + pktSemi + pktGen + pktSKZ+ pktMar+ pktINC+ pktDEP+ pktCOAPP)

próba  %>%
  dplyr:: select(wynik, Loan_Status) %>%
  group_by(Loan_Status) %>%
  drop_na() %>%
  dplyr::summarise(mean(wynik), min(wynik), max(wynik))  %>%
  formattable(align ="c")


próba <- próba %>%
  transmute(Loan_ID, Gender, Applicant_Income , Married , Dependents , Education , Self_Employed , Coapplicant_Income , Loan_Amount , Loan_Amount_Term , Credit_History , Property_Area, Loan_Status, wynik)

próba  %>%
  dplyr:: select(wynik, Loan_Status) %>%
  group_by(Loan_Status) %>%
  drop_na() %>%
  ggplot(aes(wynik, colour=Loan_Status, group=Loan_Status, fill=Loan_Status)) +
    geom_density(color="gray20", alpha=0.5, position = 'identity') +
    scale_fill_manual(values = c("#A3b5c0", "#e5e0d8")) +
    theme_minimal()+
    theme(text=element_text(size = 12), plot.title = element_text(hjust = 0.5))

```

<p style="text-align: justify">  Wyniki są bardzo ciekawe, ponieważ jedna część decyzji o negatywnych, została słusznie odrzucona (od 0 do 7 pkt), ale później widzimy, że z jakiegoś powodu spora część osób, która zdobyła znaczącą ilość punktów, miała niesłusznie odrzucone wnioski (lub z nieznanych nam powodów, wykraczających poza zakres dostępnych danych- np. te osoby mogły być karane, co na starcie skreśla je z możliwości otrzymania kredytu, jednak nie zostały nam dostarczone tego typu informacje, przez co obniżona jest efektywność naszej analizy). Jeśli nasz dział uzyska informacje na ten temat, zaktualizuje obecnie przyjęty model podejmowania decyzji. Co do wniosków rozpatrzonych pozytywnie, nie ma nieścisłości. Widzimy, że w tej grupie są tylko aplikanci, którzy zdobyli powyżej 7 pkt, i tym samym dostawali kredyt. </p>

<br> <br>

## Decyzje o przyznaniu kredytu klientów oczekujących

**ETAP 1**

Weryfikacja, czy dane zostały uzupełnione poprawnie, czy podstawowe założnienia są spełnione. Dwóch klientów nie wykazuje żadnych dochodów, co też na wstępnie dyskwalifikuje ich z dalszej weryfikacji zdolności
kredytowej

```{r}
summary(confront(dane1, rules)) %>%
  formattable(align ="c")

```

**ETAP 2**

Zastosowanie punktacji do weryfikacji czy klient ma zdolność kredytową

```{r}

dane1 <- dane1 %>%
  dplyr::  mutate(pktCH = case_when(
      Credit_History =="1" ~ 3.5,
      Credit_History != "1" ~ 0 ))

dane1 <- dane1 %>%
  dplyr::  mutate(pktSemi = case_when(
      Property_Area =="Semiurban" ~ 0.3,
      Property_Area != "Semiurban" ~ 0 ))

dane1 <- dane1 %>%
  dplyr::  mutate(pktGen = case_when(
      Gender =="Male" ~ 0.2,
      Gender != "Male" ~ 0 ))

dane1 <- dane1 %>%
  dplyr::  mutate(pktMar = case_when(
      Married =="Yes" ~ 0.35,
      Married != "Yes" ~ 0 ))


dane1 <- dane1 %>%
  mutate("SKZ"=Loan_Amount/(Applicant_Income+Coapplicant_Income)) %>%
  mutate(pktSKZ= case_when( SKZ > 0.00 & SKZ <0.03 ~ 3,
                            SKZ > 0.03 & SKZ <0.035 ~ 2.5,
                            SKZ > 0.35 ~ -8 ))

dane1 <- dane1 %>%
  dplyr:: mutate(pktINC= case_when( Applicant_Income >=  0   & Applicant_Income < 2764 ~ 0,
                                    Applicant_Income >= 2764 & Applicant_Income < 4104 ~ 0.8,
                                    Applicant_Income >= 4104 & Applicant_Income < 4931 ~ 1.6,
                                    Applicant_Income >= 4931 ~ 2))

dane1 <- dane1 %>%
  mutate(pktDEP= case_when( Dependents =="0" ~ 0.7,
                            Dependents =="1" ~ 0.4,
                            Dependents =="2" ~ 0.2,
                            Dependents =="3+" ~ 0))

dane1 <- dane1 %>%
  mutate(pktCOAPP= case_when( Coapplicant_Income == 0 ~ 0,
                              Coapplicant_Income > 0    & Coapplicant_Income < 1625 ~ 0.2,
                              Coapplicant_Income >= 1625 & Coapplicant_Income < 2079 ~ 0.4,
                              Coapplicant_Income >= 2079 & Coapplicant_Income < 2857 ~ 0.6,
                              Coapplicant_Income >= 2857 ~ 1))


dane1 <- dane1 %>%
 mutate(wynik = pktCH + pktSemi + pktGen + pktSKZ+ pktMar+ pktINC+ pktDEP+ pktCOAPP)


dane1 <- dane1 %>%
  mutate(Loan_Status=case_when(wynik >=7.51 ~ "Y",
                               wynik < 7.51 ~ "N"))

dane1  %>%
  dplyr:: select(wynik, Loan_Status) %>%
  group_by(Loan_Status) %>%
  drop_na() %>%
  dplyr::summarise(mean(wynik), min(wynik), max(wynik)) %>%
  formattable(align ="c") 


dane1 <- dane1 %>%
  transmute(Loan_ID, Gender, Applicant_Income , Married , Dependents , Education , Self_Employed , Coapplicant_Income , Loan_Amount , Loan_Amount_Term , Credit_History , Property_Area, Loan_Status, wynik)

dane1  %>%
  dplyr:: select(Loan_Status) %>%
  group_by(Loan_Status) %>%
  drop_na() %>%
  count(Loan_Status) %>%
  formattable(align ="c") 


```

<p style="text-align: justify"> W oparciu o opracowaną punktację 61 wniosków zostało odrzuconych, 227 zaakceptowanych. Dzięki opracowanej punktacji, decyzje o udzielaniu kredytów będą miały uzasadnienie, skrócimy czas potrzebny do podjęcia decyzji oraz uporamy się z problemem przypadkowości. </p>

<br>

# Wiskowanie statystyczne

**PYTANIA BADAWCZE:**
<br>
-   Czy wysokość kredytu zależy od całkowitego dochodu (aplikanta i współaplikanta)? Sprawdzanie za pomocą ANOVA – testowanie istotności współczynników regresji liniowej

```{r}
mod <- stats::aov(Loan_Amount~ Applicant_Income + Coapplicant_Income, dane2)
ggcoefstats(mod)

```
<p style="text-align: justify">
Bardzo niski współczynnik pvalue świadczy o istotności parametrów. Im mniejsze wartości Kryterium Informacyjnego Akaike'a (AIC) i Kryterium Informacyjnego Bayesa (BIC), tym „lepszy” jest model. Poziome proste pokazują przedziały 95% obserwacji odpowiednio dla zmiennej Coapplicant Income i Applicant Income. Ponadto pokazana jest statystyka testu F i Chi dla wybranych ziennych. </p>

## Wnioski końcowe

<p style="text-align: justify"> W procesie analizy EDA okazało się, że wysokość dochodów praktycznie nie decyduje o zdolności kredytowej klientów, toteż nasza hitpoteza została odrzucona. W oparciu o przeprowadzoną analizę oraz uzasadnione przesłanki opracowaliśmy model, który przyznaje punkty w oparciu o określone kryteria i na tej podstawie zostaje podjęta decyzja o udzieleniu kredytu. (Nasz model wymaga jednak dopracowania, szczególnie w konkekście osób, które otrzymały wysoką liczbę punktów, a z nieznanych nam powodów ich wnioski zostały odrzucone. Po uwazględnieniu takich dodatkowych danych, wykraczających poza zakres dostępnych obecnie danych, model należałoby uaktualnić, żeby stał się bardziej efektywny). </p>
