1 Wstęp

1.1 Opis problemu

Celem projektu jest przeprowadzenie analizy danych dotyczących zatwierdzenia kredytu mieszkaniowego i określenie, które czynniki w największym stopniu wpływają na decyzję o przyznaniu pożyczki. Firma, której dane analizujemy obsługuje klientów z obszarów miejskich, półmiejskich i wiejskich, a proces wnioskowania odbywa się za pomocą wypełnienia formularza online przez klienta. Aby przyspieszyć podejmowanie decyzji i zwiększyć efektywność obsługi, przedsiębiorstwo planuje automatyzację procesu oceny zdolności kredytowej w czasie rzeczywistym.

1.2 Dane

Do analizy wykorzystano zbiór danych: Hipoteczny.csv.

Obejmuje on 614 obserwacji. Dane pochodzą z procesu składania wniosków kredytowych i zawierają informacje o wnioskodawcy i charakterystyce pożyczki. Wśród dostępnych kolumn znajdują się między innymi:

  • Loan_ID: identyfikator wniosku,
  • Gender: płeć wnioskodawcy,
  • Married: informacja o stanie cywilnym,
  • Dependents: liczba osób na utrzymaniu,
  • Education: poziom wykształcenia,
  • Self_Employed: prowadzenie działalności gospodarczej,
  • ApplicantIncome i CoapplicantIncome: dochody głównego i współwnioskodawcy,
  • LoanAmount: kwota pożyczki,
  • Loan_Amount_Term: okres kredytowania,
  • Credit_history: informacja o historii kredytowej,
  • Property_Area: obszar zamieszkania klienta,
  • Loan_Status: wynik decyzji kredytowej (zatwierdzony lub odrzucony).

Zbiór danych nie jest kompletny i część kolumn zawiera braki. Najwięcej braków występuje w zmiennych Credit_History, LoanAmount, Loan_Amount_Term, Self_Employed, Dependents oraz częściowo w Gender i Married. Wstępny przegląd danych pokazuje, że tylko zmienne takie jak dochód czy identyfikator wniosku są pełne, a elementy oceny ryzyka kredytowego wymagają dalszego uzupełnienia.

1.3 Przebieg analizy

Projekt koncentruje się na zrozumieniu, które cechy klientów najsilniej wiążą się z przyznaniem lub odrzuceniem kredytu i przygotowaniu modelu, który mógłby automatycznie wskazywać potencjalnie kwalifikujących się wnioskdawców. Wykonamy wstępne oczyszczanie danych, eksplorację, wizualizację i przeprowadzimy analizę jedno oraz dwuwymiarową. Wnioski z analizy pomogą usprawnić proces oceny wniosków kredytowych oraz poprawić skuteczność i spójność decyzji podejmowanych przez firmę.

2 Przygotowanie danych

2.1 Wstępna analiza danych

Wśród wnioskodawców przeważają mężczyźni (499 z 614) oraz osoby żonate (401 z 614). Większość posiada wykształcenie wyższe (480 z 614). Status kredytu jest nierównomiernie rozłożony: 422 pozytywne decyzje wobec 192 negatywnych, co należy uwzględnić w dalszych analizach. Dodatkowo analiza opisowa wskazała, że rozkłady zmiennych ApplicantIncome, CoapplicantIncome, LoanAmount są mocno skośne, z wartościami minimalnymi równymi 0 oraz wartościami maksymalnymi znacznie wyższymi od mediany i kwartylów.

2.2 Braki danych

Nazwa zmiennej Liczba braków Udział braków
Credit_History 50 8.14
Self_Employed 32 5.21
LoanAmount 22 3.58

Największą liczbę brakujących danych zawierają kolejno zmienne: Credit_History (50 braków danych), Self_Employed (32 braki danych) oraz LoanAmount (22 braki danych).

Braki danych według liczby osób na utrzymaniu

Na podstawie heatmapy można stwierdzić nielosowość brakujących danych. Widać to na podstawie dużego natężenia braków danych w zmiennej określającej stan cywilny klienta (Married), w sytuacji gdy nie podał on również liczby osób na swoim utrzymaniu (Dependents).

Mapa braków danych

Dane zawierają 2% braków danych (missmap), a braki te nie są zależne między sobą (md.pattern). W celu zastąpienia braków danych można wykorzystać proste metody: mediana, średnia, dominanta lub użyć funkcji hotdeck.

2.3 Zastępowanie braków danych

Hotdeck - metoda polegająca na zastępowaniu braków danych według wierszy najczęściej się powtarzających (najbardziej prawdopodobnych).

Po zastosowaniu metody hotdeck zbiór danych nie zawiera brakujących wartości. Zostało to pokazane poniżej za pomocą funkcji sumującej wszystkie braki danych w nowym zbiorze.

Liczba braków Udział braków
0 0%

2.4 Reguły zmiennych

W kolejnym etapie nadano reguły dla zmiennych w celu sprawdzenia poprawności danych po uzupełnieniu braków. Poniżej w tabeli przedstawiono ilość wierszy spełniających i niespełniających poszczególne reguły. Widać w niej, że zbiór danych całkowicie spełnia ustalone reguły.

Nazwa Spełnione Niespełnione Reguła
V01 614 0 Liczba osóba na utrzymaniu musi być większa lub równa 0
V02 614 0 Płeć przyjmuje tylko wartości Male/Female
V03 614 0 Status cywilny przyjmuje tylko wartości Yes/No
V04 614 0 Wykształcenie przyjmuje tylko wartości Graduate/Not Graduate
V05 614 0 Samozatrudnienie przyjmuje tylko wartości Yes/No
V06 614 0 Dochód wnioskodawcy musi być większy lub równy 0
V07 614 0 Dochód współwnioskodawcy musi być większy lub równy 0
V08 614 0 Kwota pożyczki musi być większa lub równa 0
V09 614 0 Okres kredytowania musi być większy lub równy 0
V10 614 0 Okres kredytowania musi być podzielny bez reszty przez 6
V11 614 0 Miejsce zamieszkania przyjmuje tylko wartości Urban/Semiurban/Rural
V12 614 0 Status wniosku przyjmuje tylko wartości Y/N
V13 614 0 Historia kredytowa przyjmuje tylko wartości 0 lub 1

W celu potwierdzenia utworzono wykres, który również sprawdza, czy dane spełniają ustalone reguły.

Wykres spełnienia reguł

2.5 Duplikaty

Dane nie posiadają duplikatów, obserwacje są unikalne i nie ma potrzeby dodatkowego czyszczenia pod kątem prawidłowości struktury danych.

Liczba duplikatów Udział duplikatów
0 0%

3 Wizualizacja danych

3.1 Wykres kołowy

Rozkład statusów decyzji kredytowych

Wykres pokazuje, że większość wniosków kredytowych zakończyła się pozytywną decyzją - około 69% stanowią zgody na udzielenie pożyczki. Odmowy stanowią natomiast około 31% wszystkich przypadków.

3.2 Wykresy słupkowe

Udział decyzji kredytowych w zależności od obszaru zamieszkania

Najwyższy odsetek wniosków zakończonych przyznaniem kredytu można zaobserwować wśród klientów mieszkających w obszarach półmiejskich. W tej grupie ponad 75% wniosków kończy się akceptacją. W obszarach miejskich i wiejskich udział decyzji pozytywnych jest niższy i wynosi około 60-65%.

Udział decyzji kredytowych w zależności od historii kredytowej

Wykres pokazuje, że wśród klientów posiadających historię kredytową znaczna większość otrzymuje kredyt, natomiast jej brak wiąże się z dużo większym odsetkiem odrzuceń.

Udział decyzji kredytowych w zależności od poziomu wykształcenia

Z wykresu wynika, że osoby z wykształceniem częściej otrzymują zgodę na udzielenie kredytu niż osoby bez wykształcenia. Jednocześnie w grupie bez wykształcenia odsetek odmów jest wyraźnie większy.

3.3 Wykresy pudełkowe

Wykresy pokazują, że istnieją różnice w kwocie kredytów w zależności od poziomu wykształcenia, płci, liczby osób w gospodarstwie domowym oraz stanu cywilnego. Nie widać natomiast istotnych różnic dla historii kredytowej oraz obszaru zamieszkania.

3.4 Heatmapa

Korelacja zmiennych numerycznych

Wykres korelacji pokazuje, że najsilniejsza zależność występuje między dochodem wnioskodawcy a kwotą pożyczki (umiarkowana dodatnia korelacja). Pozostałe zmienne, w tym historia kredytowa i okres pożyczki, są ze sobą bardzo słabo skorelowane lub praktycznie niezależne.

3.5 Wykres punktowy

Zależność między dochodem wnioskodawcy a kwotą pożyczki

Zdecydowana większość wniosków kredytowych koncentruje się w obszarze niskich dochodów - poniżej 20 000 USD oraz niskich kwot pożyczek, czyli tych o kwotach poniżej 300 tys. USD. Powyższy wykres wskazuje zatem, że dochód i kwota pożyczki nie są jedynymi czynnikami decyzyjnymi, ponieważ w określonym obszarze występują zarówno wnioski przyjęte, jak i odrzucone.

4 Analiza opisowa

4.1 Miary położenia i zróżnicowania zmiennych ilościowych

Średnia Mediana Minimum Maksimum Rozstęp
Applicant Income 5403.46 3812.5 150 81000 80850
Coapplicant Income 1621.25 1188.5 0 41667 41667
Loan Amount 146.25 128.0 9 700 691
Loan Amount Term 342.31 360.0 12 480 468
Rozstęp międzykwartylowy Wariancja Odchylenie standardowe Współczynnik zmienności (%)
Applicant Income 2917.50 37320390.17 6109.04 113.06
Coapplicant Income 2297.25 8562929.52 2926.25 180.49
Loan Amount 68.00 7150.14 84.56 57.82
Loan Amount Term 0.00 4153.47 64.45 18.83

Analiza statystyk opisowych wskazuje na bardzo duże zróżnicowanie dochodów wśród wnioskodawców. Średni dochód wynosi ok. 5403 USD, przy medianie 3813 USD, co sugeruje prawostronną asymetrię rozkładu i wpływ bardzo wysokich dochodów na średnią. Zakres dochodów jest szeroki (150–81 000 USD), a wysoka wariancja i rozstęp międzykwartylowy potwierdzają dużą zmienność także w centralnej części rozkładu. Dochody współwnioskodawców są niższe (średnia 1621 USD, mediana 1189 USD), lecz również silnie zróżnicowane.

Średnia kwota kredytu wynosi ok. 146 tys. USD, a mediana 128 tys. USD, co również wskazuje na asymetrię rozkładu. Mimo bardzo dużego rozstępu (9–700 tys. USD), połowa obserwacji mieści się w stosunkowo wąskim przedziale wartości, co sugeruje obecność obserwacji skrajnych.

Okres kredytowania cechuje się najmniejszym zróżnicowaniem. Średnia wynosi ok. 342 miesiące, a mediana 360 miesięcy, co oznacza dominację kredytów 30-letnich. Zerowy rozstęp międzykwartylowy wskazuje na silną koncentrację obserwacji wokół jednej wartości.

Współczynnik zmienności potwierdza największą heterogeniczność dochodów, zwłaszcza współwnioskodawców, umiarkowane zróżnicowanie kwot kredytu oraz niską zmienność okresu spłaty.

Dochód wnioskodawcy cechuje się bardzo dużym zróżnicowaniem, co potwierdzają wysoki rozstęp (80 850), wariancja oraz rozstęp międzykwartylowy (2 917,50), wskazujący na dużą zmienność także w centralnej części rozkładu. Dochód współwnioskodawcy jest również zróżnicowany, ale w mniejszym stopniu, o czym świadczą niższe wartości rozstępu, wariancji i rozstępu międzykwartylowego.

W przypadku kwoty kredytu obserwuje się duży całkowity rozstęp, jednak połowa obserwacji mieści się w stosunkowo wąskim przedziale wartości, co sugeruje wpływ obserwacji skrajnych. Okres spłaty kredytu wykazuje najmniejsze zróżnicowanie.Zerowy rozstęp międzykwartylowy oznacza, że co najmniej 50% kredytów ma identyczny okres spłaty, najczęściej 360 miesięcy. Współczynnik zmienności potwierdza największą heterogeniczność dochodów, szczególnie współwnioskodawców, umiarkowane zróżnicowanie kwoty kredytu oraz niską zmienność okresu kredytowania.

4.2 Miary asymetrii i kurtozy

Asymetria Kurtoza
Applicant Income 6.51 59.83
Coapplicant Income 7.45 83.97
Loan Amount 2.67 10.45
Loan Amount Term -2.38 6.80

Dochody wnioskodawców charakteryzują się bardzo silną asymetrią prawostronną (6,51), co oznacza koncentrację obserwacji na niskich wartościach oraz występowanie nielicznych, bardzo wysokich dochodów. Bardzo wysoka kurtoza (59,83) wskazuje na rozkład leptokurtyczny i obecność licznych obserwacji odstających. Jeszcze większą skośność wykazują dochody współwnioskodawców (7,45), co potwierdza dominację niskich lub zerowych dochodów oraz silny wpływ wartości skrajnych, czego dowodem jest bardzo wysoka kurtoza (83,97).

Kwota kredytu ma umiarkowaną asymetrię prawostronną (2,63). Rozkład ten jest mniej skośny niż w przypadku dochodów, jednak nadal występują obserwacje odstające, co potwierdza dodatnia kurtoza (9,87). Okres kredytowania cechuje się asymetrią lewostronną (–2,35), co oznacza przewagę długich okresów spłaty, przy rzadszym występowaniu krótszych terminów. Kurtoza (6,72) wskazuje na koncentrację obserwacji wokół typowych wartości.

Podsumowując, wszystkie analizowane zmienne wyraźnie odbiegają od rozkładu normalnego, przy czym najsilniejsze odchylenia występują w przypadku zmiennych dochodowych.

4.3 Analiza korelacji

Applicant Income Coapplicant Income Loan Amount Loan Amount Term
Applicant Income 1.00 -0.12 0.56 -0.05
Coapplicant Income -0.12 1.00 0.19 -0.06
Loan Amount 0.56 0.19 1.00 0.03
Loan Amount Term -0.05 -0.06 0.03 1.00

Klasyfikacja siły korelacji:

|r| < 0,3 - słaba korelacja

0,3 ≤ |r| ≤ 0,7 - umiarkowana korelacja

|r| ≥ 0,7 - silna korelacja

Analiza korelacji Pearsona pokazuje zróżnicowaną siłę i kierunek zależności między badanymi zmiennymi. Najsilniejsza zależność występuje między dochodem głównego wnioskodawcy a kwotą kredytu (r = 0,55), co wskazuje na umiarkowaną dodatnią korelację: wyższy dochód wiąże się przeciętnie z wyższą kwotą kredytu. Zależność między dochodem współwnioskodawcy a kwotą kredytu jest słaba i dodatnia (r = 0,18), co sugeruje jego mniejsze znaczenie przy ustalaniu wysokości zobowiązania. Korelacje dochodów z okresem spłaty kredytu są bardzo słabe i bliskie zeru (od –0,06 do 0,03), co wskazuje na brak istotnej zależności liniowej. Dochód wnioskodawcy i współwnioskodawcy wykazują natomiast słabą ujemną korelację (r = –0,12), co oznacza brak wyraźnej współzależności między tymi zmiennymi.

5 Testy statystyczne

5.1 Test Shapiro - Wilka

W p-value
Applicant Income 0.4713 0
Loan Amount 0.7675 0
Total Income 0.5250 0
Loan Amount Term 0.4776 0

Test Shapiro - Wilka pokazał, że zarówno dochód wnioskodawcy (ApplicantIncome), kwota kredytu (LoanAmount), łączny dochód (TotalIncome) oraz okres kredytowania (Loan_Amount_Term) nie mają rozkładu normalnego. Dla każdego testu p-value było mniejsze od poziomu istotności alfa = 0,05 - należy więc odrzucić hipotezę zerową o normalności rozkładów tych zmiennych.

5.2 Porównanie zmiennych w zależności od grup

Powyższe wykresy wskazują, że osoby, które otrzymały kredyt, cechują się nieco wyższą medianą dochodu całkowitego w porównaniu z tymi, którym kredyt odmówiono. Potwierdza to, że dochód może być jednym z czynników branych pod uwagę przy podejmowaniu decyzji kredytowych. Jednocześnie mediany okresu kredytowania są praktycznie identyczne dla obu grup, co sugeruje, że długość kredytu nie wpływała znacząco na decyzje kredytowe.

W przypadku kwoty przyznawanego kredytu widać, że osoby z przyznanym kredytem mają medianę trochę niższą niż osoby odrzucone, co świadczy o ostrożnym podejściu banku przy udzielaniu kredytów w większych kwotach. Analiza kwoty kredytu w zależności od obszaru zamieszkania pokazuje, że mieszkańcy terenów wiejskich i półmiejskich otrzymują nieco wyższe kwoty niż mieszkańcy miast,co potwierdzają wartości p, z których wynika, że różnice te są statystycznie istotne.

Podsumowując, dochód całkowity i obszar zamieszkania wydają się wpływać na decyzję kredytową oraz wysokość przyznawanego kredytu, podczas gdy okres kredytowania pozostaje neutralny.

5.3 Analiza współzależności

Analiza zależności między wykształceniem a decyzją kredytową została przeprowadzona testem chi-kwadrat Pearsona. Wartość testu wyniosła 4,53, a odpowiadające mu p value = 0,03. Oznacza to, że różnice w decyzjach kredytowych między absolwentami a osobami nieposiadającymi wykształcenia wyższego są statystycznie istotne. Współczynnik V-Cramera (0,08) wskazuje jednak, że siła tego związku jest bardzo słaba, co sugeruje, że wykształcenie ma jedynie niewielki wpływ na podjętą decyzję kredytową. W szczególności w grupie, której kredyt przyznano, odsetek absolwentów był wyższy (81%) niż w grupie odrzuconych (73%), co potwierdza tendencję do preferowania wnioskodawców z wyższym wykształceniem, choć efekt jest ograniczony.

Analiza zależności między dochodem całkowitym a przyznawaną kwotą kredytu wykazała dodatnią korelację, mówiącą o tym, że wyższy dochód wnioskodawcy jest powiązany z wyższą kwotą przyznanego kredytu. Współczynnik korelacji rang Spearmana wyniósł 0,67, co wskazuje na umiarkowanie silną zależność, która jest wysoce istotna statystycznie. Rozrzut przy wyższych dochodach jest większy, co może sugerować, że banki ostrożniej podchodzą do przyznawania bardzo wysokich kredytów, nawet dla osób o wysokim dochodzie.

5.4 Analiza różnic międzygrupowych

Test Statystyka p.value Wniosek
Levene’a F = 1.672 0.197 Jednorodność wariancji
ANOVA F = 0.599 0.439 Brak istotnych różnic średnich
Wilcoxon W = 39761.5 0.713 Brak istotnych różnic rozkładów

Analiza nie wykazała istotnych statystycznie różnic poziomu całkowitego dochodu (TotalIncome) pomiędzy grupami wyznaczonymi przez status kredytu (Loan_Status). Zarówno jednoczynnikowa analiza wariancji, jak i nieparametryczny test rang Wilcoxona nie potwierdziły istnienia istotnych różnic między grupami (p value > 0,05). Dodatkowo test Levene’a wskazał na spełnienie założenia jednorodności wariancji, co potwierdza poprawność zastosowania analizy ANOVA. Oznacza to, że w badanej próbie status kredytu nie różnicuje istotnie poziomu całkowitego dochodu.

5.5 Model logitowy

Do analizy wykorzystano model regresji logistycznej, w którym zmienną objaśnianą jest status kredytu (Loan_Status), natomiast zmiennymi objaśniającymi: dochód całkowity (TotalIncome), kwota kredytu (LoanAmount), historia kredytowa (Credit_History), poziom wykształcenia (Education), obszar zamieszkania (Property_Area) oraz status samozatrudnienia (Self_Employed).

Podsumowanie modelu logitowego

Ilorazy szans Przedział ufności 2,5% Przedział ufności 97,5% p-value
Intercept 0.140 0.062 0.296 0.000
Total Income 1.000 1.000 1.000 0.934
Loan Amount 0.999 0.996 1.002 0.515
Credit History 25.774 14.200 50.441 0.000
Education (Not Graduate) 0.673 0.416 1.102 0.111
Property Area (Semiurban) 2.122 1.283 3.540 0.004
Property Area (Urban) 1.188 0.725 1.948 0.494
Self Employed (Yes) 1.008 0.564 1.861 0.980

Wyniki modelu logitowego pokazują, że kluczowym czynnikiem wpływającym na przyznanie kredytu jest historia kredytowa (Credit_History) - osoby z pozytywną historią mają wielokrotnie (ponad 30 razy) wyższe szanse na uzyskanie kredytu, przy czym efekt ten jest silny i statystycznie istotny. Istotne znaczenie ma również obszar zamieszkania (Property_Area), ponieważ w porównaniu do terenów wiejskich osoby mieszkające na terenach półmiejskich mają wyraźnie wyższe szanse na otrzymanie kredytu.

Z kolei dochód całkowity (TotalIncome), kwota kredytu (LoanAmount), poziom wykształcenia (Education), status samozatrudnienia (Self_Employed) oraz zamieszkanie w obszarze miejskim (Property_Area) nie wykazują istotnego statystycznie wpływu na decyzję kredytową w oszacowanym modelu. Oznacza to, że decyzje kredytowe w największym stopniu opierają się na wiarygodności kredytowej klienta, a nie na jego bieżących dochodach czy cechach demograficznych.

Rozkład przewidywanego prawdopodobieństwa decyzji

Wykres pokazuje, że model logitowy skutecznie rozróżnia wnioski kredytowe zakończone akceptacją i odrzuceniem. Dla obserwacji z decyzją negatywną przewidywane prawdopodobieństwa przyznania kredytu są zazwyczaj bardzo niskie, natomiast dla decyzji pozytywnych koncentrują się one na wysokich wartościach.

Stosunkowo niewielki obszar nakładania się obu rozkładów wskazuje na dobrą zdolność modelu do separacji klas, choć jednocześnie ujawnia istnienie przypadków granicznych, w których model nie jest w pełni pewny swojej decyzji. Oznacza to, że model ma wysoką użyteczność predykcyjną.

6 Wnioski końcowe

Nasza analiza danych dotyczących wniosków kredytowych pozwoliła na ocenę zależności pomiędzy różnymi zmiennymi a statusem wniosku kredytowego.

Wyniki badań wskazują jednoznacznie, że najważniejszym czynnikiem wpływającym na pozytywne rozpatrzenie wniosku o kredyt jest historia kredytowa wnioskodawcy. Zmienna ta wykazywała zarówno najwyższy poziom zróżnicowania między grupami, jak i najwyższą istotność statystyczną w modelu regresji logistycznej, w którym oszacowane ilorazy szans potwierdzają jej dominujący wpływ na decyzję kredytową.

Analizy korelacyjne i opisowe wykazały, że dochód gospodarstwa domowego jest powiązany z wysokością udzielanego kredytu. Jednakże w testach statystycznych nie zaobserwowaliśmy istotnych różnic w poziomie dochodu pomiędzy grupami wniosków zaakceptowanych i odrzuconych. Z tego powodu nie jesteśmy w stanie przewidywać decyzji kredytowej na jego podstawie.

Zauważyliśmy, że obszar zamieszkania wpływał na prawdopodobieństwo uzyskania kredytu. Najwyższy odsetek decyzji pozytywnych odnotowano wśród wnioskodawców z obszarów półmiejskich.

Inne zmienne demograficzne, takie jak poziom wykształcenia, stan cywilny czy liczba osób w gospodarstwie domowym, wykazywały jedynie niewielkie różnice między grupami. Oceniamy więc ich wpływ jako marginalny.

Model logitowy okazał się być dobrym narzędziem do przewidywania decyzji kredytowej. Rozkład prawdopodobieństwa akceptacji wniosków podzielił się na na dwie wyraźne grupy, potwierdza to zdolność modelu do sprawnej predykcji.

Podsumowując, wyniki naszej analizy jednoznacznie wskazują, że historia kredytowa stanowi najważniejszy czynnik decydujący o przyznaniu kredytu. Zauważalny był także wpływ dochodu oraz obszaru zamieszkania, odgrywały one jednak rolę drugorzędną.