Analiza danych - Kredyt Hipoteczny

Gracjan Szleja, Mateusz Majewski

2025-02-15

Spis Treści

1. Wprowadzenie
2. Wczytanie danych
3. Czyszczenie danych
4. Wizualizacja danych
5. Analiza Opisowa
6. Wnioskowanie Statystyczne
7. Podsumowanie i Wnioski

Wprowadzenie

Celem tego raportu jest analiza zestawu danych dotyczących kredytów hipotecznych, obejmująca czyszczenie danych, wizualizację, analizę opisową oraz wnioskowanie statystyczne. Kluczowym elementem analizy jest ocena czynników wpływających na decyzję kredytową oraz identyfikacja brakujących wartości w zbiorze danych.

Dostarczony zbiór danych zawiera informacje o wnioskodawcach kredytów oraz ich cechach demograficznych i finansowych. Poniżej przedstawiono główne kolumny oraz ich znaczenie:

Loan_ID – Unikalny identyfikator wniosku kredytowego.
Gender – Płeć wnioskodawcy (wartości mogą być brakujące).
Married – Status cywilny (np. “Yes” dla osób zamężnych).
Dependents – Liczba osób na utrzymaniu (występują brakujące wartości).
Education – Poziom wykształcenia wnioskodawcy (np. “Graduate”, “Not Graduate”).
Self_Employed – Informacja, czy wnioskodawca jest samozatrudniony (znaczna liczba braków).
ApplicantIncome – Dochód głównego wnioskodawcy.
CoapplicantIncome – Dochód współwnioskodawcy (jeśli dotyczy).
LoanAmount – Kwota wnioskowanego kredytu (niektóre wartości brakujące).
Loan_Amount_Term – Okres spłaty kredytu w miesiącach.

Wczytanie danych

Hipoteczny <- read_delim("Hipoteczny.csv", 
    delim = ";", escape_double = FALSE, trim_ws = TRUE)
hipo_baza <- Hipoteczny

# Podstawowa charakterystyka danych
skim(hipo_baza)

Data summary
Name	hipo_baza
Number of rows	736
Number of columns	12
_______________________
Column type frequency:
character	12
________________________
Group variables	None

Variable type: character

skim_variable	n_missing	complete_rate	min	max	n_unique
Loan_ID	0	1.00	7	48	370
Gender	24	0.97	4	6	3
Married	2	1.00	2	7	3
Dependents	22	0.97	1	10	5
Education	2	1.00	8	12	3
Self_Employed	48	0.93	2	13	3
ApplicantIncome	2	1.00	1	15	315
CoapplicantIncome	2	1.00	1	17	195
LoanAmount	12	0.98	2	10	145
Loan_Amount_Term	14	0.98	1	16	13
Credit_History	60	0.92	1	14	3
Property_Area	2	1.00	5	13	4

W tabeli przedstawiono kluczowe statystyki opisowe dla każdej zmiennej, co pozwala na ocenę ewentualnych braków i rozkładu wartości. Jednym z istotnych aspektów jest obecność brakujących danych. Najwięcej braków obserwujemy w zmiennej Credit_History , gdzie brakuje aż 60 wartości. Znaczne luki występują również w kolumnach Self_Employed (44) oraz Gender (24). Atutem zbioru danych jest brak nadmiarowych spacj i wysoki współczynnik kompletności dla większości zmiennych (powyżej 97%) sugeruje, że dane są stosunkowo dobrze uzupełnione, jednak te braki zostaną uwzględnione w dalszej analizie poprzez imputację.

Czyszczenie danych

Braukjące dane zaburzają otrzymane wyniki, sprwadźmuy ile mamy pustych wartości.

#Suma brakującyh wartośći
sum(is.na(hipo_baza))

## [1] 190

W bazie mamy łącznie 190 pustych wartości. Zobaczmy to na wykresie.

gg_miss_upset(hipo_baza, nsets = 2)

Najwięcej brakujących wartości występuje w zmiennej Credit_History (56 braków), co może sugerować, że niektóre wnioski kredytowe nie zawierają informacji o historii kredytowej klientów. Drugą zmienną z największą liczbą braków jest Self_Employed (44 braki), co oznacza, że w przypadku części klientów brakuje informacji o ich statusie zatrudnienia. Dodatkowo widoczne są przypadki współwystępowania braków w tych dwóch zmiennych, choć skala tego zjawiska jest mniejsza ponieważ tylko 4 przypadki. Taka analiza wskazuje na konieczność imputacji brakujących danych.

#Imputacja
getmode <- function(v) {
  uniqv <- unique(v)
  uniqv[which.max(tabulate(match(v, uniqv)))]
}
hipo_baza$Gender[is.na(hipo_baza$Gender)] <- getmode(hipo_baza$Gender)
hipo_baza$Married[is.na(hipo_baza$Married)] <- getmode(hipo_baza$Married)
hipo_baza$Dependents[is.na(hipo_baza$Dependents)] <- getmode(hipo_baza$Dependents)
hipo_baza$Education[is.na(hipo_baza$Education)] <- getmode(hipo_baza$Education)
hipo_baza$Self_Employed[is.na(hipo_baza$Self_Employed)] <- getmode(hipo_baza$Self_Employed)
hipo_baza$ApplicantIncome[is.na(hipo_baza$ApplicantIncome)] <- getmode(hipo_baza$ApplicantIncome)
hipo_baza$CoapplicantIncome[is.na(hipo_baza$CoapplicantIncome)] <- getmode(hipo_baza$CoapplicantIncome)
hipo_baza$LoanAmount[is.na(hipo_baza$LoanAmount)] <- getmode(hipo_baza$LoanAmount)
hipo_baza$Loan_Amount_Term[is.na(hipo_baza$Loan_Amount_Term)] <- getmode(hipo_baza$Loan_Amount_Term)
hipo_baza$Credit_History[is.na(hipo_baza$Credit_History)] <- getmode(hipo_baza$Credit_History)
hipo_baza$Property_Area[is.na(hipo_baza$Property_Area)] <- getmode(hipo_baza$Property_Area)

#Ponowne sprwadzenie sumy pustych danych w celu weryfikacji
sum(is.na(hipo_baza))

## [1] 0

Po przeprowadzonej imputacji zbiór danych stał się kompletny – wszystkie brakujące wartości zostały zastąpione najczęściej występującymi wartościami w poszczególnych kolumnach. Dzięki temu zmienne kategoryczne, takie jak Gender, Married, Education czy Property_Area, nie zawierają już braków, co pozwala na ich pełne wykorzystanie w analizie. Podobnie w przypadku zmiennych liczbowych, takich jak ApplicantIncome i LoanAmount, uzupełnienie braków modalną zapewniło spójność i brak luk w danych. Sprawdzenie sumy braków (sum(is.na(hipo_baza))) zwróciło wartość 0, co potwierdza, że nie ma już żadnych pustych wartości w zbiorze.

Sprwadzanie sumy zduplikownaych wartośći i ich unięcie.

sum(duplicated(hipo_baza$Loan_ID))

## [1] 366

Baza danych składa się w prawie połowie ze duplikownych wartośći, które należy usunąć.

hipo_baza <- hipo_baza[!duplicated(hipo_baza$Loan_ID), ]
#Ponowna weryfikacja
sum(duplicated(hipo_baza$Loan_ID))

## [1] 0

Po wykonaniu naszego polecenia, baza nie zawiera już zduplikowanych wartośći.

Usuwanie błednych wartości

hipo_baza <- hipo_baza[grepl("^LP\\d{6}$", hipo_baza$Loan_ID), ]  #czyszczenie jeśli nie mają LP i 6 cyfr
hipo_baza <- subset(hipo_baza, Gender %in% c("male", "female")) #czyszczenie jesli nie ma male lub female
hipo_baza <- subset(hipo_baza, Married %in% c("yes", "no")) #czyszczenie jesli nie ma Yes lub No
hipo_baza <- subset(hipo_baza, Education %in% c("graduate", "not graduate")) #czyszczenie jesli graduate lubNot
hipo_baza <- subset(hipo_baza, Self_Employed %in% c("yes", "no")) #czyszczenie jesli nie ma Yes lub No
hipo_baza <- subset(hipo_baza, Credit_History %in% c(1, 0)) #czyszczenie jesli nie ma 1 lub 0
hipo_baza <- subset(hipo_baza, LoanAmount > 0) #czyszczenie jesli jest mniejsze badz równe 0
hipo_baza <- subset(hipo_baza, ApplicantIncome >= 0)#czyszczenie jesli jest mniejsze od 0
hipo_baza <- subset(hipo_baza, CoapplicantIncome >= 0)
hipo_baza <- subset(hipo_baza, Loan_Amount_Term >= 0)
hipo_baza <- subset(hipo_baza, Property_Area %in% c("urban", "semiurban", "rural"))
hipo_baza <- subset(hipo_baza, Dependents >= 0)

Dane są już gotowe do pracy, przechodzimy do następnego etapu jakim jest wizualizacja danych.

Wizualizacja danch

Wykresy zależności

#wykres zależności pomiędzy zarobkami wnioskodawcy a wielkością miejscowosći zamieszkania
hipo_baza$Property_Area <- factor(hipo_baza$Property_Area, 
                                   levels = c(1, 2, 3), 
                                   labels = c("Duże Miasto", "Małe Miasto", "Wieś"))

wykres_zarobki_do_miejscowosci <- ggplot(hipo_baza, aes(x = Property_Area, y = ApplicantIncome, fill = Property_Area)) +
  geom_jitter(aes(color = Property_Area), width = 0.2, size = 2, alpha = 0.7) +
  scale_fill_manual(values = c("Duże Miasto" = "lightgreen", "Małe Miasto" = "violet", "Wieś" = "tomato")) +
  scale_color_manual(values = c("Duże Miasto" = "darkgreen", "Małe Miasto" = "purple", "Wieś" = "red")) +
  coord_cartesian(ylim = c(0, 15000)) +
  labs(
    x = "Obszar",
    y = "Dochód wnioskodawcy",
    title = "Zarobki w zależności od obszaru zamieszkania"
  ) +
  theme(
    plot.title = element_text(size = 18, face = "bold", hjust = 0.5) # Wyśrodkowanie tytułu
  )
print(wykres_zarobki_do_miejscowosci)

Dochody wnioskodawców różnią się w zależności od miejsca zamieszkania. W dużych miastach występują zarówno niskie, jak i bardzo wysokie zarobki. W małych miastach dochody są bardziej stabilne, ale rzadziej osiągają wysokie wartości. Na wsiach większość dochodów jest niższa, choć zdarzają się wyjątki z bardzo wysokimi zarobkami.

Wykres zależności pomiędzy zarobkami a poziomem edukacji.

#wykres zależności pomiędzy zarobkami a poziomem edukacji
hipo_baza$Education <- factor(hipo_baza$Education, 
                                   levels = c(1, 0),
                                   labels = c("Z wykształceniem", "Bez wykształcenia"))

wykres_zarobki_do_wyksztalcenia <- ggplot(hipo_baza, aes(x = Education, y = ApplicantIncome, fill = Education)) +
  geom_jitter(aes(color = Education), width = 0.2, size = 2, alpha = 0.7) +
  scale_fill_manual(values = c("Z wykształceniem" = "lightgreen", "Bez wykształcenia" = "tomato")) +
  scale_color_manual(values = c("Z wykształceniem" = "darkgreen", "Bez wykształcenia" = "red")) +
  coord_cartesian(ylim = c(0, 15000)) +
  labs(
    x = "Wykształcenie",
    y = "Dochód wnioskodawcy",
    title = "Zarobki w zależności od wykształcenia"
  ) +
  theme(
    plot.title = element_text(size = 18, face = "bold", hjust = 0.5) # Wyśrodkowanie tytułu
  )
print(wykres_zarobki_do_wyksztalcenia)

#Wykres wielkość kredytu do obszaru zamieszkania
  wykres_kredyt_do_miejscowosci <- ggplot(hipo_baza, aes(x = Property_Area, y = LoanAmount, fill = Property_Area)) +
    geom_jitter(aes(color = Property_Area), width = 0.2, size = 2, alpha = 0.7) +
    scale_fill_manual(values = c("Duże Miasto" = "lightgreen", "Małe Miasto" = "violet", "Wieś" = "tomato")) +
    scale_color_manual(values = c("Duże Miasto" = "darkgreen", "Małe Miasto" = "purple", "Wieś" = "red")) +
    labs(
      x = "Obszar",
      y = "Wielkość kredytu w tyś.",
      title = "Wielkość kredytu w zależności od obszaru zamieszkania"
    ) +
  theme(
    plot.title = element_text(size = 18, face = "bold", hjust = 0.5) # Wyśrodkowanie tytułu
  )
  print(wykres_kredyt_do_miejscowosci)

Wielkość kredytów różni się w zależności od miejsca zamieszkania. W dużych miastach występują zarówno małe, jak i wysokie kredyty, z pojedynczymi ekstremalnymi wartościami. W małych miastach kredyty są bardziej skupione wokół średnich wartości, choć pojawiają się nieliczne wysokie wnioski. Na wsiach rozrzut jest większy, a niektóre kredyty osiągają wysokie wartości, co może wynikać z różnych potrzeb finansowych mieszkańców.

#Wykres zarobków w stosunku do płci
hipo_baza$Gender <- factor(hipo_baza$Gender, 
                                   levels = c(1, 0),
                                   labels = c("Mężczyzna", "Kobieta"))

wykres_zarobki_do_plci <- ggplot(hipo_baza, aes(x = Gender, y = ApplicantIncome, fill = Gender)) +
  geom_jitter(aes(color = Gender), width = 0.2, size = 2, alpha = 0.7) +
  scale_fill_manual(values = c("Mężczyzna" = "lightgreen", "Kobieta" = "tomato")) +
  scale_color_manual(values = c("Mężczyzna" = "darkgreen", "Kobieta" = "red")) +
  coord_cartesian(ylim = c(0, 15000)) +
  labs(
    x = "Płeć",
    y = "Dochód wnioskodawcy",
    title = "Zarobki w zależności od płci"
  ) +
  theme(
    plot.title = element_text(size = 18, face = "bold", hjust = 0.5) # Wyśrodkowanie tytułu
  )
print(wykres_zarobki_do_plci)

Mężczyźni mają większy rozrzut zarobków i częściej osiągają wyższe dochody. Dochody kobiet są bardziej skupione w niższych przedziałach, choć występują pojedyncze wysokie wartości. Ogólnie, widać wyraźne różnice w rozkładzie zarobków między płciami.

#Wykres kredytu w stostunku do małżeńśtwa
hipo_baza$Married <- factor(hipo_baza$Married, 
                                   levels = c(1, 0),
                                   labels = c("Małżeństwo", "Przed ślubem"))
wykres_zarobki_do_malzenstwa <- ggplot(hipo_baza, aes(x = Married, y = LoanAmount, fill = Married)) +
  geom_jitter(aes(color = Married), width = 0.2, size = 2, alpha = 0.7) +
  scale_fill_manual(values = c("Małżeństwo" = "lightgreen", "Przed ślubem" = "tomato")) +
  scale_color_manual(values = c("Małżeństwo" = "darkgreen", "Przed ślubem" = "red")) +

  coord_cartesian(ylim = c(0, 800)) +
  labs(
    x = "Stan cywilny",
    y = "Wielkość kredytu",
    title = "Wielkość kredytu w zależności od stanu cywilnego"
  ) +
  theme(
    plot.title = element_text(size = 18, face = "bold", hjust = 0.5) # Wyśrodkowanie tytułu
  )
print(wykres_zarobki_do_malzenstwa)

Osoby w małżeństwie zaciągają kredyty o większym rozrzucie, a niektóre wnioski osiągają bardzo wysokie wartości. Osoby przed ślubem częściej mają kredyty o niższej wartości, z mniejszą liczbą skrajnie wysokich przypadków. Wskazuje to, że status małżeński może wpływać na zdolność kredytową lub potrzeby finansowe.

#Rozkład płci wśród wnioskodawców
ggplot(hipo_baza, aes(x = as.factor(Gender), fill = as.factor(Gender))) +
  geom_bar() +
  scale_fill_manual(values = c( "Blue","pink"),
                    labels = c("Mężczyzna","Kobieta")) +
  ggtitle("Rozkład płci wśród wnioskodawców") +
  xlab("Płeć") +
  ylab("Liczba wnioskodawców")+
  theme(
    plot.title = element_text(size = 18, face = "bold", hjust = 0.5) # Wyśrodkowanie tytułu
  )

Wśród wnioskodawców znaczną większość stanowią mężczyźni, których liczba jest ponad trzykrotnie większa niż liczba kobiet. Może to sugerować, że mężczyźni częściej wnioskują o kredyty lub mają większą zdolność kredytową.

#Wykaz stanu cywilnego wśród wnioskodawców
ggplot(hipo_baza, aes(x = as.factor(Married), fill = as.factor(Married))) +
  geom_bar() +
  scale_fill_manual(values = c("Przed ślubem" = "white", "Małżeństwo" = "black"),
                    labels = c("Małżeńśtwo", "Przed ślubem"))+
  ggtitle("Wykaz stanu cywilnego wśród wnioskodawców") +
  xlab("Stan Cywilny") +
  ylab("Liczba wnioskodawców")+
  theme(
    plot.title = element_text(size = 18, face = "bold", hjust = 0.5) # Wyśrodkowanie tytułu
  )

Wśród wnioskodawców dominują osoby pozostające w małżeństwie, których liczba jest wyraźnie większa niż osób przed ślubem. Może to sugerować, że osoby zamężne/cywilnie poślubione częściej ubiegają się o kredyty, być może ze względu na większe potrzeby finansowe lub wyższą zdolność kredytową.

#Rozkład liczby osób na utrzymaniu
ggplot(hipo_baza, aes(x = Dependents)) +
  geom_bar(fill = "orange") +
  ggtitle("Liczba osób na utrzymaniu wśród wnioskodawców") +
  xlab("Liczba osób na utrzymaniu") +
  ylab("Liczba wnioskodawców")+
  theme(
    plot.title = element_text(size = 18, face = "bold", hjust = 0.5) # Wyśrodkowanie tytułu
  )

Większość wnioskodawców nie ma osób na utrzymaniu, co może sugerować, że kredyty są częściej zaciągane przez osoby samotne lub niezależne finansowo. Znacznie mniejsza grupa ma 1 lub 2 osoby na utrzymaniu, a najmniej wnioskodawców deklaruje utrzymywanie 3 osób. Może to mieć wpływ na zdolność kredytową i wysokość przyznawanych kredytów.

#Dochód wnioskodawcy a kwota kredytu
ggplot(hipo_baza, aes(x = ApplicantIncome, y = LoanAmount)) +
  geom_point(color = "blue", alpha = 0.5) +
  coord_cartesian(xlim = c(0, 20000)) +
  ggtitle("Dochód wnioskodawcy a kwota kredytu") + 
  xlab("Dochód") +
  ylab("Kwota Kredytu")+
  theme(
    plot.title = element_text(size = 18, face = "bold", hjust = 0.5) # Wyśrodkowanie tytułu
  )

Nie widać wyraźnej zależności między wysokością dochodu a kwotą kredytu. Wnioskodawcy o niskich i średnich dochodach najczęściej ubiegają się o kredyty w przedziale 100–200 tys. zł. Pojedyncze przypadki wysokich kredytów dotyczą zarówno osób o niższych, jak i wyższych dochodach, co może wskazywać na inne czynniki wpływające na decyzję kredytową.

#Rozkład dochodów wnioskodawców
ggplot(hipo_baza, aes(x = ApplicantIncome)) +
  geom_histogram(bins = 30, fill = "green", color = "black") +
  coord_cartesian(xlim = c(0, 20000)) +
  ggtitle("Rozkład dochodów wnioskodawców")+
  xlab("Dochód") +
  ylab("Ilość wniosków")+
  theme(
    plot.title = element_text(size = 18, face = "bold", hjust = 0.5) # Wyśrodkowanie tytułu
  )

Większość wnioskodawców ma dochody poniżej 10 000 zł, z największą grupą w przedziale 2500–5000 zł. Dochody powyżej 10 000 zł są rzadkie, a ekstremalnie wysokie wartości występują sporadycznie. Rozkład jest prawostronnie skośny, co sugeruje, że znaczna część osób ma stosunkowo niskie zarobki, a tylko nieliczne osiągają bardzo wysokie dochody.

#Porównanie średniej wartosci kredytu do zatrudnienia
srednia_kredytu <- aggregate(LoanAmount ~ Self_Employed, data = hipo_baza, FUN = mean, na.rm = TRUE)
kable(srednia_kredytu, format = "html", align = "c",
      col.names = c("Status Zatrudnienia", "Średnia Kwota Pożyczki (tyś)")) %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed", "bordered"),
                full_width = FALSE, position = "center") %>%
  column_spec(1, bold = TRUE, color = "white", background = "#0073e6") %>%
  column_spec(2, bold = TRUE, background = "#f2f2f2") %>%
  add_header_above(c("Analiza Kredytów" = 2))

Analiza Kredytów
Status Zatrudnienia	Średnia Kwota Pożyczki (tyś)
0	134.7667
1	150.1892

Średnia kwota kredytu dla osób samozatrudnionych wynosi 150,19, natomiast dla osób niebędących samozatrudnionymi 134,77. Oznacza to, że samozatrudnieni otrzymują średnio o 15,42 jednostek więcej kredytu. Może to wynikać z ich wyższej zdolności kredytowej, potrzeby finansowania działalności gospodarczej lub większej skłonności do zaciągania większych zobowiązań.

#Rozkład dochodów wnioskodawców
ggplot(hipo_baza, aes(x = Credit_History)) +
  geom_bar(fill = "purple", color = "black") +
  ggtitle("Historia kredytowa pośród wnioskodawców") +
  xlab("Historia Kredytowa") +
  ylab("Ilość wniosków")+
  theme(
    plot.title = element_text(size = 18, face = "bold", hjust = 0.5) # Wyśrodkowanie tytułu
  )

Większość wnioskodawców posiada pozytywną historię kredytową (wartość 1), co może zwiększać ich szanse na uzyskanie kredytu. Znacznie mniejsza grupa osób nie ma historii kredytowej lub ma negatywną (wartość 0), co może utrudniać uzyskanie finansowania. To sugeruje, że banki częściej obsługują klientów z ugruntowaną historią kredytową.

#Wzorce wielkości kredytów do ilości domowników w różnych typach zurbanizowania
Wykres_ilosc_domownikow_kredyt_zamieszkanie <- ggplot(hipo_baza, aes(LoanAmount, Dependents)) +
  geom_abline() +
  geom_jitter(width = 0.1, height = 0.1)
Wykres_ilosc_domownikow_kredyt_zamieszkanie + facet_wrap(~Property_Area)+
  xlab("Wielkość kredytu") +
  ylab("Liczba osób na utrzymaniu")

Większość kredytobiorców ma 0–1 osoby na utrzymaniu i zaciąga kredyty o niższych wartościach. Wnioskodawcy z większą liczbą domowników (2–3) również uzyskują kredyty, ale nie ma wyraźnej zależności między liczbą osób na utrzymaniu a wysokością kredytu. Rozkład jest dość równomierny w różnych obszarach, co sugeruje, że liczba osób na utrzymaniu nie jest kluczowym czynnikiem wpływającym na kwotę kredytu.

Analiza Opisowa

Postawowe dane dla dochodów i kredytów

stat_dochod_kredyt <- summary(hipo_baza[, c("ApplicantIncome", "CoapplicantIncome", "LoanAmount")])


kable(stat_dochod_kredyt, format = "html", align = "c",
      col.names = c("Dochód Wnioskodawcy", "Dochód Współwnioskodawcy", "Kwota Kredytu (Tyś)")) %>%
  row_spec(0, bold = TRUE, font_size = 14, color = "white", background = "green") %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed", "bordered"),
                full_width = FALSE, position = "center") %>%
  add_header_above(c("Analiza Kredytów" = 4))


Dochód Wnioskodawcy	Dochód Współwnioskodawcy	Kwota Kredytu (Tyś)
Min. : 0	Min. : 0	Min. : 28.0
1st Qu.: 2864	1st Qu.: 0	1st Qu.:101.0
Median : 3786	Median : 1025	Median :126.0
Mean : 4806	Mean : 1570	Mean :136.3
3rd Qu.: 5060	3rd Qu.: 2430	3rd Qu.:157.5
Max. :72529	Max. :24000	Max. :550.0

Większość wnioskodawców ma dochody w przedziale 2864 – 5060, jednak pojedyncze przypadki bardzo wysokich zarobków podnoszą średnią. Współwnioskodawcy często nie mają dochodu, co sugeruje, że wiele wniosków opiera się na jednym źródle dochodu. Średnia kwota kredytu wynosi 136,3, a większość kredytów mieści się w zakresie 101 – 157,5, choć zdarzają się znacznie wyższe wnioski.

#podstawowe dane statystyczne dla wszytkich zmiennych
suma_bazy <- summary(hipo_baza)
kable(suma_bazy, format = "html", align = "c",
      col.names = c("Loan_ID", "Gender", "Married", "Dependents", "Education", "Self_Employed",
                  "ApplicantIncome", "CoapplicantIncome", "LoanAmount", "Loan_Amount_Term",
                  "Credit_History", "Property_Area")) %>%
  row_spec(0, bold = TRUE, font_size = 14, color = "black", background = "grey") %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed", "bordered"),
                full_width = FALSE, position = "center")

Loan_ID	Gender	Married	Dependents	Education	Self_Employed	ApplicantIncome	CoapplicantIncome	LoanAmount	Loan_Amount_Term	Credit_History	Property_Area
Length:367	Min. :0.0000	Min. :0.0000	Min. :0.0000	Min. :0.0000	Min. :0	Min. : 0	Min. : 0	Min. : 28.0	Min. : 6.0	Min. :0.0000	Min. :1.000
Class :character	1st Qu.:1.0000	1st Qu.:0.0000	1st Qu.:0.0000	1st Qu.:1.0000	1st Qu.:0	1st Qu.: 2864	1st Qu.: 0	1st Qu.:101.0	1st Qu.:360.0	1st Qu.:1.0000	1st Qu.:1.000
Mode :character	Median :1.0000	Median :1.0000	Median :0.0000	Median :1.0000	Median :0	Median : 3786	Median : 1025	Median :126.0	Median :360.0	Median :1.0000	Median :2.000
NA	Mean :0.8093	Mean :0.6349	Mean :0.8065	Mean :0.7711	Mean :0	Mean : 4806	Mean : 1570	Mean :136.3	Mean :342.8	Mean :0.8392	Mean :1.921
NA	3rd Qu.:1.0000	3rd Qu.:1.0000	3rd Qu.:2.0000	3rd Qu.:1.0000	3rd Qu.:0	3rd Qu.: 5060	3rd Qu.: 2430	3rd Qu.:157.5	3rd Qu.:360.0	3rd Qu.:1.0000	3rd Qu.:3.000
NA	Max. :1.0000	Max. :1.0000	Max. :3.0000	Max. :1.0000	Max. :0	Max. :72529	Max. :24000	Max. :550.0	Max. :480.0	Max. :1.0000	Max. :3.000

Większość wnioskodawców to mężczyźni (80,9%), osoby zamężne (63,5%) i posiadające wyższe wykształcenie (71,1%). Dochody głównego wnioskodawcy są zróżnicowane, ale mediana wynosi 3786, a średnia 4806 – co wskazuje na obecność wysokich wartości odstających. Współwnioskodawcy często nie mają dochodu. Większość kredytów opiewa na 126–136 tys. i jest udzielana na 30 lat. Wnioskodawcy z pozytywną historią kredytową dominują, co sugeruje, że historia kredytowa ma istotny wpływ na decyzję o przyznaniu finansowania.

# Obliczanie korelacji
mac_kor <- hipo_baza %>% select(Married, Education, ApplicantIncome, LoanAmount)
corr_matrix <- cor(mac_kor, use = "complete.obs")

# Wizualizacja macierzy korelacji
corrplot(corr_matrix, method = "color")

Najsilniejsza zależność występuje pomiędzy dochodem wnioskodawcy (ApplicantIncome) a kwotą kredytu (LoanAmount), co wskazuje, że osoby o wyższych zarobkach częściej wnioskują o wyższe kwoty kredytu. Z kolei zmienne Married i Education nie wykazują wyraźnych powiązań z innymi zmiennymi, co sugeruje, że stan cywilny i poziom wykształcenia nie mają istotnego wpływu na wysokość dochodów czy wielkość udzielonego kredytu

cor(hipo_baza[, sapply(hipo_baza, is.numeric)], use = "complete.obs")

## Warning in cor(hipo_baza[, sapply(hipo_baza, is.numeric)], use =
## "complete.obs"): odchylenie standardowe wynosi zero

##                        Gender     Married  Dependents   Education Self_Employed
## Gender             1.00000000  0.26564567  0.08774380 -0.03337673            NA
## Married            0.26564567  1.00000000  0.36218985 -0.04944295            NA
## Dependents         0.08774380  0.36218985  1.00000000 -0.12957187            NA
## Education         -0.03337673 -0.04944295 -0.12957187  1.00000000            NA
## Self_Employed              NA          NA          NA          NA             1
## ApplicantIncome    0.06355589  0.05126504  0.13800360  0.13636898            NA
## CoapplicantIncome  0.08281100  0.03254846 -0.05002353  0.05731837            NA
## LoanAmount         0.07330295  0.18340488  0.13260588  0.15553137            NA
## Loan_Amount_Term  -0.06083617  0.04069162 -0.05345953 -0.06417298            NA
## Credit_History     0.03297839  0.03786821 -0.05170492  0.04407185            NA
## Property_Area      0.01237323 -0.01092094 -0.04546249 -0.02865960            NA
##                   ApplicantIncome CoapplicantIncome  LoanAmount
## Gender                 0.06355589       0.082811000  0.07330295
## Married                0.05126504       0.032548461  0.18340488
## Dependents             0.13800360      -0.050023529  0.13260588
## Education              0.13636898       0.057318371  0.15553137
## Self_Employed                  NA                NA          NA
## ApplicantIncome        1.00000000      -0.110334799  0.49165635
## CoapplicantIncome     -0.11033480       1.000000000  0.15011425
## LoanAmount             0.49165635       0.150114254  1.00000000
## Loan_Amount_Term       0.02331949      -0.008632882  0.09542272
## Credit_History         0.09494434      -0.058004319 -0.01352803
## Property_Area         -0.03940269       0.095954968  0.01110803
##                   Loan_Amount_Term Credit_History Property_Area
## Gender                -0.060836168     0.03297839    0.01237323
## Married                0.040691622     0.03786821   -0.01092094
## Dependents            -0.053459527    -0.05170492   -0.04546249
## Education             -0.064172975     0.04407185   -0.02865960
## Self_Employed                   NA             NA            NA
## ApplicantIncome        0.023319489     0.09494434   -0.03940269
## CoapplicantIncome     -0.008632882    -0.05800432    0.09595497
## LoanAmount             0.095422718    -0.01352803    0.01110803
## Loan_Amount_Term       1.000000000    -0.04818878   -0.01436013
## Credit_History        -0.048188780     1.00000000   -0.06003427
## Property_Area         -0.014360135    -0.06003427    1.00000000

Kwota kredytu jest najsilniej skorelowana z dochodem głównego wnioskodawcy (0,49), co oznacza, że im wyższy dochód, tym większy kredyt. Dochód współwnioskodawcy ma mniejszy wpływ (0,15). Liczba osób na utrzymaniu, stan cywilny, historia kredytowa i obszar zamieszkania mają bardzo słabe korelacje z innymi zmiennymi, co sugeruje, że nie są kluczowymi czynnikami w decyzjach kredytowych.

#podstawowe dane statystyczne dla całej bazy w tabelce
wyniki_descr <- descr(hipo_baza[, 2:10],
                      stats = c("min", "max", "mean", "sd"),
                      transpose = TRUE) 

kable(wyniki_descr, format = "html", align = "c",
      col.names = c("Kolumny","Min", "Max","Mean","Std.Dev")) %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed", "bordered"),
                full_width = FALSE, position = "center") %>%
  column_spec(1:5, bold = TRUE, background = "#f2f2f2") %>%
  row_spec(0, bold = TRUE, color = "white", background = "#FF0000") %>% 
  add_header_above(c("Podstawowe dane statystyczne" = 5), color = "white", background = "#FF0000")

Podstawowe dane statystyczne
Kolumny	Min	Max	Mean	Std.Dev
ApplicantIncome	0	72529	4805.5994550	4910.6853990
CoapplicantIncome	0	24000	1569.5776567	2334.2320987
Dependents	0	3	0.8065395	1.0651769
Education	0	1	0.7711172	0.4206872
Gender	0	1	0.8092643	0.3934175
Loan_Amount_Term	6	480	342.8228883	64.6584023
LoanAmount	28	550	136.3215259	60.9672953
Married	0	1	0.6348774	0.4821218
Self_Employed	0	0	0.0000000	0.0000000

Większość wnioskodawców ma dochody w przedziale 2864 – 5060, ale duże odchylenie standardowe wskazuje na znaczne różnice między zarobkami. Współwnioskodawcy często nie mają dochodu, co oznacza, że kredyty są głównie przyznawane na podstawie zarobków głównego wnioskodawcy. Średnia kwota kredytu wynosi 136,32, a większość kredytów udzielana jest na 30 lat. Ponad 63% wnioskodawców jest w związku małżeńskim. Brak danych dla samozatrudnionych może sugerować konieczność weryfikacji zbioru danych.

#Występowanie Płuci w wnioskach kredytowych
wyniki_freq <- freq(hipo_baza$Gender,
                    report.nas = FALSE,
                    plain.ascii = TRUE)
print(wyniki_freq)

## Frequencies  
## hipo_baza$Gender  
## Type: Integer  
## 
##               Freq        %   % Cum.
## ----------- ------ -------- --------
##           0     70    19.07    19.07
##           1    297    80.93   100.00
##       Total    367   100.00   100.00

Wśród wnioskodawców 80,93% stanowią mężczyźni (297 osób), a 19,07% kobiety (70 osób). Wskazuje to na znaczną przewagę mężczyzn w grupie ubiegających się o kredyt. Może to wynikać z różnic w dochodach, strukturze gospodarstw domowych lub preferencjach finansowych.

#Tabela krzyżowa historii kredytowej do wielkości kredytu
hipo_baza$Credit_History <- factor(hipo_baza$Credit_History)
hipo_baza$LoanAmount_cat <- cut(hipo_baza$LoanAmount, 
                                breaks = c(0, 100, 200, 300, 1000), 
                                include.lowest = TRUE, 
                                labels = c("0 do 100", "100-200", "200-300", "300+"))

tabela_krzyzowa <- ctable(hipo_baza$Credit_History, hipo_baza$LoanAmount_cat, prop = "n", round.digits = 2)
tabela_krzyzowa

## Cross-Tabulation  
## Credit_History * LoanAmount_cat  
## Data Frame: hipo_baza  
## 
## ---------------- ---------------- ---------- --------- --------- ------ -------
##                    LoanAmount_cat   0 do 100   100-200   200-300   300+   Total
##   Credit_History                                                               
##                0                           9        48         2      0      59
##                1                          82       198        22      6     308
##            Total                          91       246        24      6     367
## ---------------- ---------------- ---------- --------- --------- ------ -------

Osoby z pozytywną historią kredytową częściej otrzymują wyższe kredyty – 64,29% z nich mieści się w przedziale 100-200 tys., a 1,95% przekracza 300 tys.. Natomiast osoby bez historii kredytowej rzadko dostają wysokie kredyty – aż 81,36% otrzymuje kwoty 100-200 tys., a nikt nie przekracza 300 tys.. Brak historii kredytowej znacząco ogranicza dostęp do wyższych kredytów.

#Podsumowanie wszystkich statysyk dla wszystkich zmiennych
podsumowanie <- dfSummary(hipo_baza,
                           method = "render")
print(podsumowanie)

## Data Frame Summary  
## hipo_baza  
## Dimensions: 367 x 13  
## Duplicates: 0  
## 
## ------------------------------------------------------------------------------------------------------------------------
## No   Variable            Stats / Values                Freqs (% of Valid)    Graph                  Valid      Missing  
## ---- ------------------- ----------------------------- --------------------- ---------------------- ---------- ---------
## 1    Loan_ID             1. LP001015                     1 ( 0.3%)                                  367        0        
##      [character]         2. LP001022                     1 ( 0.3%)                                  (100.0%)   (0.0%)   
##                          3. LP001031                     1 ( 0.3%)                                                      
##                          4. LP001035                     1 ( 0.3%)                                                      
##                          5. LP001051                     1 ( 0.3%)                                                      
##                          6. LP001054                     1 ( 0.3%)                                                      
##                          7. LP001055                     1 ( 0.3%)                                                      
##                          8. LP001056                     1 ( 0.3%)                                                      
##                          9. LP001059                     1 ( 0.3%)                                                      
##                          10. LP001067                    1 ( 0.3%)                                                      
##                          [ 357 others ]                357 (97.3%)           IIIIIIIIIIIIIIIIIII                        
## 
## 2    Gender              Min  : 0                      0 :  70 (19.1%)       III                    367        0        
##      [integer]           Mean : 0.8                    1 : 297 (80.9%)       IIIIIIIIIIIIIIII       (100.0%)   (0.0%)   
##                          Max  : 1                                                                                       
## 
## 3    Married             Min  : 0                      0 : 134 (36.5%)       IIIIIII                367        0        
##      [integer]           Mean : 0.6                    1 : 233 (63.5%)       IIIIIIIIIIII           (100.0%)   (0.0%)   
##                          Max  : 1                                                                                       
## 
## 4    Dependents          Mean (sd) : 0.8 (1.1)         0 : 210 (57.2%)       IIIIIIIIIII            367        0        
##      [integer]           min < med < max:              1 :  58 (15.8%)       III                    (100.0%)   (0.0%)   
##                          0 < 0 < 3                     2 :  59 (16.1%)       III                                        
##                          IQR (CV) : 2 (1.3)            3 :  40 (10.9%)       II                                         
## 
## 5    Education           Min  : 0                      0 :  84 (22.9%)       IIII                   367        0        
##      [integer]           Mean : 0.8                    1 : 283 (77.1%)       IIIIIIIIIIIIIII        (100.0%)   (0.0%)   
##                          Max  : 1                                                                                       
## 
## 6    Self_Employed       1 distinct value              0 : 367 (100.0%)      IIIIIIIIIIIIIIIIIIII   367        0        
##      [integer]                                                                                      (100.0%)   (0.0%)   
## 
## 7    ApplicantIncome     Mean (sd) : 4805.6 (4910.7)   314 distinct values   :                      367        0        
##      [integer]           min < med < max:                                    :                      (100.0%)   (0.0%)   
##                          0 < 3786 < 72529                                    :                                          
##                          IQR (CV) : 2196 (1)                                 :                                          
##                                                                              :                                          
## 
## 8    CoapplicantIncome   Mean (sd) : 1569.6 (2334.2)   194 distinct values   :                      367        0        
##      [integer]           min < med < max:                                    :                      (100.0%)   (0.0%)   
##                          0 < 1025 < 24000                                    :                                          
##                          IQR (CV) : 2430.5 (1.5)                             : .                                        
##                                                                              : :                                        
## 
## 9    LoanAmount          Mean (sd) : 136.3 (61)        144 distinct values     :                    367        0        
##      [integer]           min < med < max:                                      : .                  (100.0%)   (0.0%)   
##                          28 < 126 < 550                                        : :                                      
##                          IQR (CV) : 56.5 (0.4)                               . : :                                      
##                                                                              : : : :                                    
## 
## 10   Loan_Amount_Term    Mean (sd) : 342.8 (64.7)      12 distinct values                  :        367        0        
##      [integer]           min < med < max:                                                  :        (100.0%)   (0.0%)   
##                          6 < 360 < 480                                                     :                            
##                          IQR (CV) : 0 (0.2)                                                :                            
##                                                                                    .       :                            
## 
## 11   Credit_History      1. 0                           59 (16.1%)           III                    367        0        
##      [factor]            2. 1                          308 (83.9%)           IIIIIIIIIIIIIIII       (100.0%)   (0.0%)   
## 
## 12   Property_Area       Mean (sd) : 1.9 (0.8)         1 : 140 (38.1%)       IIIIIII                367        0        
##      [integer]           min < med < max:              2 : 116 (31.6%)       IIIIII                 (100.0%)   (0.0%)   
##                          1 < 2 < 3                     3 : 111 (30.2%)       IIIIII                                     
##                          IQR (CV) : 2 (0.4)                                                                             
## 
## 13   LoanAmount_cat      1. 0 do 100                    91 (24.8%)           IIII                   367        0        
##      [factor]            2. 100-200                    246 (67.0%)           IIIIIIIIIIIII          (100.0%)   (0.0%)   
##                          3. 200-300                     24 ( 6.5%)           I                                          
##                          4. 300+                         6 ( 1.6%)                                                      
## ------------------------------------------------------------------------------------------------------------------------

Większość wnioskodawców to mężczyźni (80,9%), osoby zamężne (63,5%) i posiadające wyższe wykształcenie (77,1%). Ponad połowa nie ma osób na utrzymaniu (57,2%).

Średni dochód głównego wnioskodawcy wynosi 4805,6, ale jest mocno zróżnicowany. Współwnioskodawcy często nie mają dochodu, a jeśli mają, to średnio 1569,6. Średnia kwota kredytu wynosi 136,3, a większość mieści się w przedziale 100-200 tys..

Większość kredytów udzielana jest na 30 lat, a 83,9% wnioskodawców ma pozytywną historię kredytową, co zwiększa ich szanse na uzyskanie finansowania.

Wnioskowanie Statystyczne

#Satystyka Długosci kredytu to wielkości
ggbetweenstats(
  data = hipo_baza,
  x = Loan_Amount_Term,
  y = LoanAmount, 
  type = "parametric", 
)

## Number of labels is greater than default palette color count.
## • Select another color `palette` (and/or `package`).

Najczęściej udzielane kredyty mają okres 360 miesięcy (30 lat), ze średnią kwotą 133 tys.. Krótsze kredyty (np. 6–36 miesięcy) mają większą zmienność kwot – od 95 tys. do 260 tys.. Kredyty na 15 lat (180 miesięcy) mają najniższą średnią kwotę (80 tys.). Dłuższe okresy kredytowania wiążą się z większym rozproszeniem wartości kredytów.

#Satystyka Dochodów do wielkości kredytu
ggbetweenstats(
  data = hipo_baza,
  x = Credit_History,
  y = LoanAmount, 
  type = "bonferroni", 
)

Analiza zależności między historią kredytową a kwotą kredytu wskazuje, że średnia wartość udzielanego finansowania pozostaje na zbliżonym poziomie niezależnie od posiadania wcześniejszej historii kredytowej. Osoby bez historii kredytowej otrzymują średnio 128,74 jednostek kredytu, natomiast wnioskodawcy z historią kredytową 118,83.

Pomimo większej liczby osób posiadających historię kredytową (n = 308) w porównaniu do osób bez historii (n = 59), rozkład wartości kredytów w obu grupach wykazuje podobne tendencje. Co więcej, szerokość rozkładów sugeruje większą zmienność w grupie z historią kredytową, gdzie występują pojedyncze przypadki znacznie wyższych kredytów.

Istotnym wnioskiem z analizy jest brak wyraźnej różnicy w wysokości kredytów między grupami, co sugeruje, że np. dochód wnioskodawcy, może mieć większy wpływ na decyzję kredytową niż sama historia kredytowa.

hipo_baza$kat_doch <- cut(
  hipo_baza$ApplicantIncome,
  breaks = c(0, 4500, 9000, 15000, Inf),  # Granice przedziałów
  labels = c("1", "2", "3", "4"),         # Nazwy kategorii
  right = TRUE,                           # Domyślnie przedziały prawostronnie domknięte
  include.lowest = TRUE                   # Włącza 0 do pierwszej kategorii
)
ggbetweenstats(
  data = hipo_baza,
  x = kat_doch,
  y = LoanAmount, 
  type = "bonferroni",
)

Analiza zależności między dochodem a wysokością kredytu wskazuje, że osoby o wyższych zarobkach uzyskują średnio wyższe kwoty finansowania. Wartość średnia kredytu (MAP) wzrasta wraz z kategorią dochodową – od 118,93 dla osób zarabiających do 4500 jednostek, aż do 211,50 w grupie o najwyższych dochodach.

Największa stabilność w wysokości przyznawanych kredytów występuje wśród osób z najniższymi dochodami, podczas gdy wśród najlepiej zarabiających obserwujemy znaczną rozpiętość kwot. Wskazuje to na większą elastyczność w przyznawaniu finansowania dla tej grupy.

Testy statystyczne potwierdzają istotne różnice między kategoriami dochodowymi, co sugeruje, że dochód wnioskodawcy jest jednym z kluczowych czynników wpływających na decyzję kredytową. Wysokie zarobki zwiększają szanse na wyższe finansowanie, choć jednocześnie obserwujemy większe zróżnicowanie przyznawanych kwot w tej grupie.

#wizualizację zależności między wielkościa kredytu a stusem cywilnym wraz z wynikami testu korelacji
ggscatterstats(
  data = hipo_baza,
  x = LoanAmount,
  y = Married,
)

Osoby w związku małżeńskim częściej otrzymują wyższe kredyty, ale związek ten jest słaby (r = 0,18). Stan cywilny może mieć pewien wpływ na wysokość kredytu, jednak inne czynniki, jak dochód czy historia kredytowa, są bardziej istotne.

#Model regresji liniowej zależność dochodu od statusu cwyilnego i płuci
model_dochod <- lm(ApplicantIncome ~ Married + Gender, data = hipo_baza)
ggcoefstats(model_dochod)

Analiza regresji wskazuje, że płeć i stan cywilny nie mają istotnego wpływu na dochód wnioskodawcy (p > 0,05). Jedynie wyraz wolny modelu (β = 4023,65, p < 0,001) jest istotny, co sugeruje, że inne czynniki niż płeć czy stan cywilny lepiej wyjaśniają poziom dochodów.

#Wielkość kredytu zależna od  statusu cwyilnego, płuci i Historii Kredytowej
  model_wielkosc_kredytu <- lm(LoanAmount ~ Married + Gender + Credit_History, data = hipo_baza)
  ggcoefstats(model_wielkosc_kredytu)

Analiza regresji liniowej wykazała, że status cywilny istotnie wpływa na wysokość przyznanego kredytu. Osoby pozostające w związku małżeńskim otrzymują średnio wyższe kredyty (β = 22,39, p = 0.001), co może wynikać z postrzegania ich jako bardziej stabilnych finansowo przez instytucje kredytowe.

Z kolei płeć oraz historia kredytowa nie wykazały istotnego wpływu na wysokość kredytu. Współczynnik regresji dla płci (β = 4,18, p = 0.61) oraz historii kredytowej (β = -3,50, p = 0.68) sugeruje, że te zmienne nie mają bezpośredniego znaczenia w decyzji o wysokości finansowania.

Średnia wartość kredytu, gdy wszystkie analizowane zmienne są na poziomie referencyjnym, wynosi 121,65 jednostek. Wyniki te wskazują, że w procesie decyzyjnym banków status cywilny może odgrywać większą rolę niż sama historia kredytowa czy płeć, co może być istotnym czynnikiem w analizie polityki kredytowej.

Podsumowanie i Wnioski

Raport dostarcza kompleksowej analizy danych o kredytach hipotecznych, obejmującej czyszczenie i eksplorację danych oraz szczegółową analizę statystyczną, identyfikującą kluczowe czynniki wpływające na wysokość przyznawanego kredytu.

Wyniki analizy wskazują, że dochody głównego wnioskodawcy oraz stan cywilny mają największy wpływ na wysokość kredytu. Osoby o wyższych dochodach częściej otrzymują wyższe kredyty, co wynika z większej zdolności kredytowej oraz lepszej oceny ryzyka kredytowego przez banki. Dochody współwnioskodawcy mają mniejsze znaczenie, co sugeruje, że decyzje banków opierają się głównie na zarobkach kredytobiorcy głównego.

Stan cywilny również odgrywa istotną rolę – osoby zamężne lub w związku małżeńskim częściej uzyskują wyższe kredyty. Może to wynikać z faktu, że gospodarstwa domowe oparte na dwóch osobach mają większą stabilność finansową i wyższe łączne dochody, co zwiększa ich zdolność kredytową. Banki mogą również preferować klientów zamężnych, postrzegając ich jako bardziej wiarygodnych kredytobiorców.

Z kolei inne czynniki, takie jak płeć, historia kredytowa czy liczba osób na utrzymaniu, mają mniejsze znaczenie w określaniu wysokości kredytu. Chociaż osoby z pozytywną historią kredytową mają większe szanse na otrzymanie kredytu, to sama wysokość przyznanego finansowania zależy głównie od dochodów i sytuacji rodzinnej kredytobiorcy. Również analiza różnic między kobietami a mężczyznami wskazuje, że choć mężczyźni częściej ubiegają się o wyższe kredyty, to różnice te wynikają głównie z ich wyższych dochodów, a nie samej płci jako czynnika decydującego.

Dane pokazują także, że obszar zamieszkania może mieć pewien wpływ na wysokość kredytu. Wnioskodawcy z dużych miast mają większe zróżnicowanie dochodów i kwot kredytów, co może wynikać z wyższych kosztów życia i cen nieruchomości. Osoby mieszkające na terenach wiejskich częściej ubiegają się o niższe kredyty, choć zdarzają się wyjątki związane z większymi inwestycjami w nieruchomości.

Podsumowując, analiza potwierdza, że banki przy określaniu wysokości kredytu opierają się przede wszystkim na dochodach głównego wnioskodawcy oraz jego sytuacji rodzinnej, podczas gdy inne czynniki, takie jak historia kredytowa czy płeć, mają mniejsze znaczenie w określaniu przyznanej kwoty finansowania.