1 Wstęp

Celem niniejszego raportu jest analiza danych dotyczących kredytów. Dane zostały wczytane z pliku kredyty_new.csv i zawierają informacje o różnych aspektach kredytów udzielanych klientom.

Dane pochodzą ze strony Kaggle oraz obejmują 45 000 rekordów i 14 zmiennych, które opisują zarówno cechy osób ubiegających się o pożyczkę, jak i parametry samych pożyczek. Zmienną docelową jest loan_status, określająca decyzję kredytową:
1 – pożyczka zatwierdzona,
0 – pożyczka odrzucona.

Zbiór danych zawiera informacje takie jak wiek, płeć, poziom wykształcenia, roczny dochód, doświadczenie zawodowe, status mieszkaniowy, kwotę i cel pożyczki, oprocentowanie, długość historii kredytowej oraz informację o wcześniejszych zaległościach kredytowych. Dane mają charakter syntetyczny, czyli zostały wygenerowane sztucznie, ale w sposób odzwierciedlający rzeczywiste zależności występujące w procesach oceny kredytowej.

Dane te mogą być wykorzystywane w różnych celach analitycznych i badawczych, między innymi:

  • Analiza eksploracyjna (EDA) – zrozumienie struktury danych, wykrycie wzorców, zależności i rozkładów poszczególnych zmiennych.
  • Klasyfikacja – budowa modeli predykcyjnych pozwalających przewidywać decyzję kredytową (loan_status) dla nowych wnioskodawców.
  • Regresja – modelowanie zmiennej ciągłej, np. credit_score, w celu przewidywania zdolności kredytowej.
  • Analiza jakości danych – identyfikacja błędów, braków i wartości nielogicznych.
  • Symulacje i testowanie algorytmów – wykorzystanie danych do testowania różnych podejść do oceny ryzyka kredytowego.

1.1 Pytania badawcze

  • Które cechy profilu klienta najsilniej korelują z otrzymaniem pozytywnej oceny scoringowej?
  • Jakie są główne różnice w profilu (np. dochód, wiek, stan cywilny) między klientami, którzy otrzymali pozytywną ocenę, a tymi, którzy otrzymali negatywną?
  • Czy wysokość dochodu jest najważniejszym czynnikiem decydującym o przyznaniu kredytu?
  • W jakim stopniu długość posiadanej historii kredytowej wpływa na ostateczny scoring?
  • Wraz ze wzrostem wieku spada prawdopodobieństwo otrzymania pożyczki.

1.2 Opis zmiennych

Zbiór danych zawiera 14 zmiennych opisujących osoby ubiegające się o pożyczkę oraz cechy samej pożyczki. Poniższa tabela przedstawia zestawienie wszystkich kolumn wraz z krótkim opisem:

Nazwa zmiennej Opis Typ danych
person_age Wiek osoby Liczba zmiennoprzecinkowa
person_gender Płeć osoby Kategoryczna
person_education Najwyższy poziom wykształcenia Kategoryczna
person_income Roczny dochód Liczba zmiennoprzecinkowa
person_emp_exp Lata doświadczenia zawodowego Liczba całkowita
person_home_ownership Status własności mieszkania (np. wynajem, własność, hipoteka) Kategoryczna
loan_amnt Wnioskowana kwota pożyczki Liczba zmiennoprzecinkowa
loan_intent Cel pożyczki Kategoryczna
loan_int_rate Oprocentowanie pożyczki Liczba zmiennoprzecinkowa
loan_percent_income Kwota pożyczki jako procent rocznego dochodu Liczba zmiennoprzecinkowa
cb_person_cred_hist_length Długość historii kredytowej w latach Liczba zmiennoprzecinkowa
credit_score Wynik punktowy kredytu Liczba całkowita
previous_loan_defaults_on_file Wskaźnik wcześniejszych zaległości w spłacie pożyczek Kategoryczna
loan_status (target variable) Status zatwierdzenia pożyczki: 1 = zatwierdzona; 0 = odrzucona Liczba całkowita

1.3 Wstępna analiza jakości danych

Przegląd danych wskazuje, że mimo dużej liczby obserwacji (45 000 wierszy), zbiór wymaga wstępnego oczyszczenia i ujednolicenia. Poniżej przedstawiono główne obserwacje dotyczące jakości danych:

  • Braki danych (NA):
    • person_age – 1 000 braków,
    • loan_amnt – 1 500 braków,
    • credit_score – 1 500 braków.
      Braki te mogą wymagać imputacji lub usunięcia wierszy z niepełnymi wartościami.
  • Wartości nielogiczne i odstające:
    • person_age zawiera wartości do 144 lat, co jest nierealne,
    • person_emp_exp przyjmuje maksymalnie 125 lat doświadczenia, co również wskazuje na błąd,
    • person_income osiąga wartości powyżej 7 200 000 USD, co znacznie odbiega od pozostałych danych.
  • Rozbieżności kategorialne:
    • Zmienne tekstowe (person_gender, person_education, person_home_ownership, loan_intent) mogą zawierać różne formy zapisu (np. różne wielkości liter), co wymaga standaryzacji.
    • Zmienna previous_loan_defaults_on_file powinna zostać przekodowana do formatu binarnego (np. 0/1) w celu ułatwienia modelowania.

Pomimo tych nieścisłości zbiór stanowi dobrą bazę do analizy danych z zakresu oceny ryzyka kredytowego, modelowania decyzji finansowych oraz symulacji procesów kredytowych. W dalszej części raportu dane zostaną poddane czyszczeniu, wizualizacji i analizie statystycznej w celu przygotowania ich do modelowania predykcyjnego.

2 Oczyszczenie danych z braków i wartości nielogicznych

2.1 Sprawdzenie poprawności danych przed oczyszczeniem

2.2 Wizualizacja braków danych

2.2.1 Liczba braków na zmienną

2.2.2 Diagram zestawu braków danych

2.2.3 Wizualizacja braków danych w formie mapy cieplnej

2.3 Lokalizacja błędów

2.4 Sprawdzenie poprawności danych po imputacji

3 Analiza danych

3.1 Wykres Pareto dla kwoty pożyczki

Wykres Pareto pokazuje sumę udzielonych pożyczek, zaczynając od największych kwot i stopniowo dodając coraz mniejsze. Każdy słupek to kolejna pożyczka, a czerwona linia pokazuje, jak narasta suma wszystkich kwot pożyczek. Z wykresu widać, że niewielka liczba największych pożyczek odpowiada za znaczną część całkowitej wartości portfela – większość osób wnioskuje o znacznie niższe kwoty.

3.2 Rozkład kwoty pożyczki w zależności od statusu pożyczki

Rozkład kwoty pożyczki jest bardzo podobny zarówno wśród wniosków zaakceptowanych, jak i odrzuconych – w obu grupach większość pożyczek dotyczy kwot od kilku do kilkunastu tysięcy złotych. Mediany oraz zakresy typowych wartości są zbliżone, co widać na boxplotach. Zarówno w grupie zatwierdzonych, jak i odrzuconych wniosków, pojawiają się pojedyncze, bardzo wysokie kwoty jako wartości odstające. Decyzja o przyznaniu lub odrzuceniu pożyczki nie jest więc silnie związana z jej wysokością.

3.3 Wykres funkcji dystrybuanty skumulowanej (ECDF) dla kwoty pożyczki

Większość pożyczek koncentruje się poniżej 10 000 PLN (stroma część krzywej), natomiast wartości powyżej 30 000 PLN stanowią jedynie niewielki odsetek obserwacji (krzywa zbliża się do 1 dopiero na końcu).

3.4 Mapa korelacji zmiennych numerycznych

Mapa korelacji pokazuje zależności pomiędzy zmiennymi numerycznymi w zbiorze danych. Zdecydowana większość korelacji jest słaba lub umiarkowana, a tylko nieliczne pary zmiennych wykazują silniejszy związek.

Najwyższe korelacje obserwujemy pomiędzy: Wiek a długość historii kredytowej (r = 0.81) — im ktoś starszy, tym dłuższą ma historię kredytową, co jest intuicyjne. Doświadczenie zawodowe lata i wiek (r = 0.75) — starsze osoby mają też więcej lat doświadczenia. Kwota pożyczki a procent_dochodu_pozyczka (r = 0.64) — wyższa kwota pożyczki wiąże się z większym udziałem raty w dochodzie.

4 Wyniki w odniesieniu do pytań badawczych

4.1 Pytanie: Czy wysokość dochodu jest najważniejszym czynnikiem decydującym o przyznaniu kredytu? (sprawdzenie realnego wpływu wysokości dochodu na prawdopodobieństwo udzielenia kredytu)

W większości przypadków dochody osób biorących pożyczki są relatywnie niskie (większość skupiona w dolnym zakresie), ale jest też mała grupa osób z bardzo wysokimi dochodami — wykres pokazuje tę nierównomierność i kilka ekstremalnych wartości.

4.2 Pytanie: Jakie są główne różnice w profilu (np. dochód, wiek, stan cywilny) między klientami, którzy otrzymali pozytywną ocenę, a tymi, którzy otrzymali negatywną?

Proporcje poziomów wybranych zmiennych kategorycznych względem statusu pożyczki
Zmienna Poziom Status 0 Status 1
Płeć Mężczyzna 22.2% 77.8%
Płeć Kobieta 22.2% 77.8%
Wykształcenie Policealne 22.0% 78.0%
Wykształcenie Licencjat 22.5% 77.5%
Wykształcenie Doktorat 22.9% 77.1%
Wykształcenie Szkoła średnia 22.3% 77.7%
Wykształcenie Magister 21.8% 78.2%
Status mieszkaniowy Hipoteka 11.6% 88.4%
Status mieszkaniowy Inny 33.3% 66.7%
Status mieszkaniowy Własność 7.5% 92.5%
Status mieszkaniowy Najem 32.4% 67.6%
Cel pożyczki Spłata zadłużenia 30.3% 69.7%
Cel pożyczki Edukacja 17.0% 83.0%
Cel pożyczki Remont 26.3% 73.7%
Cel pożyczki Leczenie 27.8% 72.2%
Cel pożyczki Wydatki osobiste 20.1% 79.9%
Cel pożyczki Inwestycja 14.4% 85.6%
Czynniki wpływające na udzielnie lub nieudzielenie pożyczki:
  • Dochód osobisty

    • Osoby którym udzielono pożyczki mają średnio wyższe dochody.
  • Rodzaj zamieszkania

    • Osoby posiadające własne mieszkanie lub kredyt hipoteczny częściej dostają pożyczki niż osoby wynajmujące mieszkanie lub pozostałe.
  • Cel pożyczki

    • Największy odsetek udzielonych pożyczek jest w kategorii venture oraz education.
  • Stopa procentowa

    • Pożyczki, które zostały udzielone, mają średnio niższe oprocentowanie.
  • Relacja pożyczki do dochodu

  • W przypadku udzielonych pożyczek wartość pożyczki stanowi przeciętnie mniejszy odsetek dochodu klienta.

    Pozostałe analizowane zmienne nie wykazują istotnego wpływu na decyzję o udzieleniu pożyczki.

4.3 Pytanie: Czy wysokość dochodu jest najważniejszym czynnikiem decydującym o przyznaniu kredytu?

Do oszacowania wpływu zmiennych zastosujemy regresję logistyczną.

Na podstawie poprzedniej analizy bierzemy pod uwagę czynniki wpływające na udzielenie lub nieudzielenie pożyczki (uwzględniamy tylko kolumny numeryczne do policzenia korelacji).

Model logitowy: tylko procent_dochodu_pozyczka
term estimate std.error statistic p.value
(Intercept) 2.894055 0.027229 106.28754 0
procent_dochodu_pozyczka -10.414450 0.142722 -72.97023 0
Ilorazy szans dla wzrostu procentu dochodu pożyczki o 1 pp oraz 10 pp
Iloraz.szans.przy.wzroście.o.1pp Iloraz.szans.przy.wzroście.o.10pp
procent_dochodu_pozyczka 0.901 0.353

Im większy udział raty w dochodzie, tym niższe prawdopodobieństwo otrzymania pożyczki; każdy wzrost o 1 punkt procentowy zmniejsza szanse o około 10% (OR≈0.901), o 10 punktów procentowych o około 65% (OR≈0.353), a przy 40% udziału przewidywane prawdopodobieństwo wynosi około 22%.

Duże znaczenie ma relacja pożyczki do dochodu, czyli to, jaką część rocznych zarobków stanowi wnioskowana kwota. Im mniejszy udział pożyczki w dochodzie, tym większe prawdopodobieństwo jej akceptacji.

4.4 Hipoteza: Wraz ze wzrostem wieku spada prawdopodobieństwo otrzymania pożyczki.

W powyższej próbie dominuje grupa 23–27 lat (48%), następnie 28–32 (23%) i 18–22 (12%); udział starszych roczników jest bardzo mały (41–60 to pojedyncze procenty, a 60+ zaledwie ~0.2%). Empiryczne prawdopodobieństwo uzyskania pożyczki do okolic 55–60 lat utrzymuje się na poziomie ~75–80% i lekko spada w okolicach 60 lat. Skokowy wzrost powyżej 60 lat nie odzwierciedla rzeczywistej decyzji kredytowej—wynika z zastosowania imputacji hot‑deck dla brakujących danych, a nie z obserwacji; przy tak znikomej liczbie przypadków 60+ wyniki są artefaktem i nie powinny być interpretowane. Podsumowując, w dostępnych realnych obserwacjach trend względem wieku jest co najwyżej płaski lub lekko malejący, natomiast wnioski dla 60+ są niewiarygodne z powodu imputacji i bardzo małej liczebności.

5 Analiza opisowa

5.1 Statystyki opisowe dla numerycznych zmiennych według statusu pożyczki

Analiza opisowa wg status_pozyczki (z testami)
Dependent: status_pozyczki Odrzucona Zatwierdzona p
wiek Mean (SD) 27.6 (6.0) 27.8 (5.9) <0.001
dochod_roczny Mean (SD) 59886.1 (45338.3) 86157.0 (87035.2) <0.001
doswiadczenie_zawodowe_lata Mean (SD) 5.1 (5.9) 5.4 (5.9) <0.001
kwota_pozyczki Mean (SD) 10797.7 (7097.7) 9227.7 (6030.8) <0.001
oprocentowanie Mean (SD) 12.9 (3.1) 10.5 (2.7) <0.001
procent_dochodu_pozyczka Mean (SD) 0.2 (0.1) 0.1 (0.1) <0.001
dlugosc_historii_kredytowej Mean (SD) 5.7 (3.9) 5.8 (3.8) 0.002
scoring_kredytowy Mean (SD) 631.8 (50.4) 632.9 (50.5) 0.059

Pożyczki zatwierdzone mają średnio wyższy dochód roczny, dłuższą historię kredytową, niższe oprocentowanie, niższy procent dochodu przeznaczany na pożyczkę i nieco wyższą kwotę pożyczki niż pożyczki odrzucone. Różnice między grupami są istotne statystycznie dla większości cech (poza scoringiem kredytowym, który nie różni się pomiędzy grupami).

5.2 Statystyki opisowe dla kategorycznych zmiennych według statusu pożyczki

Analiza opisowa wg status_pozyczki (z testami) — zmienne kategoryczne (nazwy po polsku)
Dependent: status_pozyczki Odrzucona Zatwierdzona p
plec Kobieta 4485 (44.9) 15674 (44.8) 0.914
Mężczyzna 5515 (55.1) 19326 (55.2)
wyksztalcenie Policealne 2650 (26.5) 9378 (26.8) 0.733
Licencjat 3018 (30.2) 10381 (29.7)
Doktorat 142 (1.4) 479 (1.4)
Szkoła średnia 2671 (26.7) 9301 (26.6)
Magister 1519 (15.2) 5461 (15.6)
status_mieszkaniowy Hipoteka 2144 (21.4) 16345 (46.7) <0.001
Inny 39 (0.4) 78 (0.2)
Własność 222 (2.2) 2729 (7.8)
Najem 7595 (76.0) 15848 (45.3)
cel_pozyczki Spłata zadłużenia 2163 (21.6) 4982 (14.2) <0.001
Edukacja 1552 (15.5) 7601 (21.7)
Remont 1258 (12.6) 3525 (10.1)
Leczenie 2378 (23.8) 6170 (17.6)
Wydatki osobiste 1521 (15.2) 6031 (17.2)
Inwestycja 1128 (11.3) 6691 (19.1)
wczesniejsze_zaleglosci Nie 10000 (100.0) 12142 (34.7) <0.001
Tak 0 (0.0) 22858 (65.3)
(Missing) 0 (0.0) 0 (0.0)

Nie ma istotnych różnic w podziale na płeć ani wykształcenie pomiędzy pożyczkami odrzuconymi i zatwierdzonymi. Status mieszkaniowy oraz wcześniejsze zaległości mają znaczenie: pożyczki częściej są zatwierdzane osobom o statusie „Hipoteka” lub „Własność” i tym, którzy nie mieli wcześniejszych zaległości. Różnią się także cele pożyczek – zatwierdzane są częściej w przypadku edukacji i inwestycji, a rzadziej na spłatę zadłużenia, remont czy wydatki medyczne.

5.3 Statystyki opisowe kluczowych zmiennych według statusu pożyczki

Pożyczki zatwierdzone są średnio niższe niż odrzucone, ale udzielane osobom o znacznie wyższych dochodach. Dla zatwierdzonych widać mniejszy udział pożyczki w dochodzie i niższe oprocentowanie. Odchylenia i rozstępy są wyraźnie wyższe w grupie zatwierdzonej, co świadczy o większym zróżnicowaniu dochodów i kwot. Co ciekawe, scoring kredytowy i wiek nie różnią się mocno między grupami — zwłaszcza średnie i mediana są niemal identyczne, mimo nieco większej rozpiętości w grupie zatwierdzonej. Można zauważyć, że zatwierdzane pożyczki są przyznawane osobom o lepszej sytuacji finansowej i niższym ryzyku zadłużeniowym.

6 Wnioskowanie statystyczne

6.1 Test t Studenta — porównanie średnich pomiędzy grupami

Poniżej porównujemy średnie wybranych zmiennych numerycznych pomiędzy osobami, którym przyznano pożyczkę (status_pozyczki = 1) a tymi, którym odmówiono (status_pozyczki = 0). Dla każdej zmiennej numerycznej wykonujemy test t Studenta.

Test t Studenta (Welcha) — porównanie średnich według status_pozyczki
Zmienna Kod Średnia: Odrzucona Średnia: Zatwierdzona Statystyka t Wartość p Wynik
Wiek wiek 27.577 27.841 -3.913 <0.001 istotna
Dochód roczny dochod_roczny 59886.097 86157.041 -40.441 <0.001 istotna
Doświadczenie zawodowe (lata) doswiadczenie_zawodowe_lata 5.149 5.414 -3.993 <0.001 istotna
Kwota pożyczki kwota_pozyczki 10797.663 9227.727 20.139 <0.001 istotna
Oprocentowanie (%) oprocentowanie 12.857 10.478 70.003 <0.001 istotna
Pożyczka/dochod (%) procent_dochodu_pozyczka 0.203 0.122 71.365 <0.001 istotna
Długość historii kredytowej [lata] dlugosc_historii_kredytowej 5.698 5.836 -3.125 0.002 istotna
Scoring kredytowy scoring_kredytowy 631.783 632.865 -1.894 0.058 nieistotna

Na podstawie wyników testu t Studenta można stwierdzić, że pożyczkę najłatwiej uzyskują osoby, które charakteryzują się wyższym rocznym dochodem, wnioskują o niższą kwotę pożyczki oraz deklarują niższe oprocentowanie i stosunkowo mniejsze obciążenie dochodu ratą kredytową. Innymi słowy, banki czy instytucje udzielające pożyczek zdecydowanie preferują wnioskodawców o ustabilizowanej sytuacji finansowej, dla których potencjalna ratowna pożyczka nie stanowi zbyt dużej części rocznych zarobków – to minimalizuje ryzyko kredytowe z perspektywy pożyczkodawcy.

6.2 Test chi-kwadrat — porównanie zmiennych kategorycznych względem statusu pożyczki

Test chi-kwadrat — zależność zmiennych kategorycznych względem statusu pożyczki
Etykieta Zm. w bazie Statystyka chi² df Wartość p Istotność
Płeć plec 0.012 1 0.914 nieistotna
Wykształcenie wyksztalcenie 2.016 4 0.733 nieistotna
Status mieszkaniowy status_mieszkaniowy 2989.515 3 <0.001 istotna
Cel pożyczki cel_pozyczki 909.648 5 <0.001 istotna
Wcześniejsze zaległości wczesniejsze_zaleglosci 13270.288 1 <0.001 istotna

Na podstawie przeprowadzonych testów chi-kwadrat widać, że status mieszkaniowy, cel pożyczki oraz wcześniejsze zaległości są istotnie powiązane ze statusem przyznania pożyczki. Oznacza to, że te cechy mają realny wpływ na decyzję kredytową – instytucje finansowe przywiązują dużą wagę do tego, czy klient miał wcześniej zaległości, jaki ma status mieszkaniowy oraz na jaki cel zaciąga pożyczkę.

Natomiast płeć i wykształcenie nie wykazały istotnego statystycznie związku z decyzją o udzieleniu kredytu, więc te czynniki nie mają większego znaczenia w analizowanym zbiorze danych.

O przyznaniu pożyczki decydowały przede wszystkim czynniki związane ze stabilnością mieszkaniową, historią zadłużenia klienta i przeznaczeniem pożyczki. Aspekty demograficzne, takie jak płeć czy poziom wykształcenia, nie odgrywały tu istotnej roli.

6.3 Analiza ANCOVA — wpływ statusu pożyczki na kwotę przy kontroli dochodu i wieku

ANCOVA – wpływ statusu pożyczki na kwotę pożyczki przy kontroli dochodu i wieku
Czynnik df Statystyka F Wartość p Istotność
Status pożyczki 1 906.09301 <0.001 istotna
Dochód roczny 1 2975.79666 <0.001 istotna
Wiek 1 20.80893 <0.001 istotna
Residuals 44996 NA NA NA

Przeprowadzona analiza ANCOVA wykazała, że status pożyczki, dochód roczny oraz wiek mają istotny wpływ na kwotę pożyczki, nawet po wzajemnym skorygowaniu ich wpływu. Oznacza to, że średnia kwota udzielanej pożyczki znacząco różni się w zależności od tego, czy wniosek został zatwierdzony czy odrzucony, a także rośnie wraz z wyższym dochodem oraz – w mniejszym stopniu – wraz z wiekiem klienta. Wszystkie te czynniki okazały się wysoce istotne statystycznie (p < 0.001), co potwierdza, że są one kluczowymi determinantami wysokości udzielanej pożyczki i powinny być uwzględniane w procesie oceny wniosków kredytowych.

6.4 Wykres interakcji między statusem pożyczki, a statusem mieszkaniowym wpływającym na dochód roczny

Wykres pokazuje średnie roczne dochody w podziale na status mieszkaniowy i status pożyczki: linie dla grup “Odrzucona” i “Zatwierdzona” są blisko siebie we wszystkich kategoriach, co sugeruje brak wyraźnej interakcji - dochód nie różnicuje istotnie efektu zatwierdzenia pożyczki między wynajmem, własnością czy hipoteką.

6.5 Test Kruskala-Wallisa - nieparametryczny test statystyczny służący do porównywania median

Wyniki testu Kruskala-Wallisa oraz post-hoc Dunn dla dochodu rocznego
Test Statystyka p-value
Kruskal-Wallis H = 3402 <0.001
Dunn (0 vs 1) Z = 58.33 <0.001
Wybrane statystyki opisowe dochodu rocznego wg status_pozyczki
Status pożyczki N Mediana Kwartyl1 Kwartyl3 Przycięta średnia
0 10000 50629 36841.75 71888.25 53704.32
1 35000 72928 51476.50 101994.00 76787.85

Test Kruskal–Wallisa wykazał istotną różnicę w rozkładzie dochodu rocznego między grupami (χ² ≈ 3402.37, df = 1, p < 0.001). Post‑hoc Dunn potwierdza, że różnica dotyczy pary 0 vs 1 (stat ≈ 58.3, p_FDR < 0.001); z tabeli opisowej wynika, że grupa „Zatwierdzona” ma wyraźnie wyższe wartości dochodu (mediana ≈ 72 928, średnia ≈ 86 157) niż grupa „Odrzucona” (mediana ≈ 50 629, średnia ≈ 59 886).

6.6 Porównanie % pożyczki względem wcześniejszych zaległości

Wykres pokazuje rozkład udziału kwoty pożyczki w dochodzie (w %) dla dwóch grup: bez wcześniejszych zaległości („Nie”) i z wcześniejszymi zaległościami („Tak”). Czerwone kropki to trimmed mean - ~14.9% dla grupy „Nie” i ~11.6% dla „Tak”, czyli osoby bez wcześniejszych zaległości biorą przeciętnie nieco większe pożyczki w stosunku do dochodu. Jednocześnie rozkłady silnie się pokrywają i obie mają sporo obserwacji w przedziale ~10–30% oraz pojedyncze wartości skrajne powyżej ~50%.

7 Podsumowanie i wnioski końcowe

Niniejszy raport poddał analizie zbiór 45 000 wniosków kredytowych. Przeprowadzony został proces czyszczenia danych, imputacji braków metodą hot-deck oraz weryfikacji statystycznej.

7.1 Jakość danych i czyszczenie

Analiza wykazała obecność licznych błędów logicznych w danych surowych (np. wiek 144 lata, staż pracy 125 lat), co wymagało rygorystycznego czyszczenia.

Rekomendacja: Dla celów predykcyjnych w przyszłości, zaleca się budowę modelu regresji logistycznej w oparciu o zmienne: procent_dochodu_pozyczka, dochod_roczny oraz wczesniejsze_zaleglosci, gdyż wykazują one najwyższą moc dyskryminacyjną.

7.2 Kluczowe czynniki wpływające na decyzję kredytową

Najsilniejszymi czynnikami różnicującymi grupę pożyczek zatwierdzonych od odrzuconych okazały się wskaźniki ekonomiczne oraz historia kredytowa. Najważniejszym parametrem numerycznym okazała się relacja pożyczki do dochodu. Im wyższy udział wnioskowanej kwoty w rocznym dochodzie, tym gwałtowniej spada szansa na akceptację (każdy wzrost o 1 p.p. udziału zmniejsza szanse na pożyczkę o ok. 10%).

Jeżeli chodzi o dochód mediana osób z zatwierdzoną pożyczką (~73 tys. PLN) jest o niemal 45% wyższa niż w grupie odrzuconej (~50 tys. PLN), co potwierdził test Kruskala-Wallisa (p < 0,001). Kolejnym ważnym aspektem okazała się historia finansowa oraz wiarygodność. Brak wcześniejszych zaległości płatniczych oraz posiadanie nieruchomości (hipoteka lub własność) istotnie zwiększają prawdopodobieństwo pozytywnej decyzji.

7.2.1 Cel pożyczki

Przeprowadzona analiza wykazała, że instytucje finansowe wykazują preferencje co do przeznaczenia środków. Najwyższy odsetek akceptacji odnotowano dla pożyczek o charakterze “inwestycyjnym” (Venture) oraz edukacyjnym. Najtrudniej o finansowanie w przypadku spłaty zadłużenia, remontów i wydatków medycznych.

7.2.2 Czynniki nieistotne statystycznie

Wbrew postawionym hipotezom, pewne cechy profilu klienta nie mają statystycznie istotnego wpływu na status pożyczki, a są nimi:

  • Płeć i wykształcenie: Testy chi-kwadrat wykazały brak zależności – proces decyzyjny wydaje się być wolny od uprzedzeń demograficznych w tym zakresie.

  • Wiek: W przedziale 18–60 lat trend prawdopodobieństwa akceptacji jest relatywnie płaski. Wiek silnie korluje z długością historii kredytowej, ale sam w sobie nie jest barierą w uzyskaniu finansowania.

7.2.3 Kryteriów przyznania kredytu

Najważniejsze wnioski, odnośnie kryteriów przyznania kredytu:

  • Sytuacja finansowa a demografia: Bank ocenia głównie sytuację finansową. Płeć, wiek czy poziom wykształcenia okazały się praktycznie nieistotne w procesie podejmowania decyzji.

  • Zdolność do spłaty: Najważniejszym wskaźnikiem jest to, jaką część zarobków stanowi rata. Im mniejszy jest to procent, tym większa szansa na otrzymanie kredytu.

  • Dochód: Osoby, które dostały pożyczkę, zarabiały średnio znacznie więcej (mediana 73 tys. PLN) niż te, których wnioski odrzucono (50 tys. PLN).

  • Historia i majątek: Czysta historia kredytowa (brak wcześniejszych zaległości) oraz posiadanie nieruchomości (własność lub hipoteka) stanowia silne fundamenty, do pozytywnej decyzji kredytowej.

  • Cel pożyczki: Łatwiej o kredyt na rozwój (edukacja, inwestycje) niż aspekty takie jak spłata starych długów czy remonty.

7.3 Wnioski końcowe

Portfel kredytowy jest zarządzany w oparciu o racjonalną ocenę zdolności do spłaty i historię kredytową, przy jednoczesnym zachowaniu neutralności wobec cech demograficznych klientów. Kryteria, które mają najwiekszą szanse na powodzenie w otrzymaniu decyzji pozytywnej dotyczącej kredytu to: nieskie obciążenie dochodu, brak zaległości w przeszłości klienta, stabilne oraz wysokie zarobki oraz posiadanie własnego mieszkania/ domu. Czynniki demograficzne oraz wiek kredytobiorcy okazały się być mniej istotne.