Analiza danych odgrywa fundamentalną rolę w realizacji projektów opartych na danych.
Niniejszy raport koncentruje się na obróbce historycznych danych dotyczących wniosków kredytowych. Proces ten obejmuje ich: - oczyszczanie, - analizę, - wizualizację.
Dzięki odpowiedniemu przetwarzaniu danych możliwe jest nie tylko eliminowanie nieścisłości, ale również ich przekształcenie, co pozwala na: - formułowanie wartościowych wniosków, - podejmowanie bardziej świadomych decyzji strategicznych.
Celem projektu jest: 1. Przedstawienie kompleksowego podejścia do analizy danych. 2. Zaprezentowanie etapów od przygotowania danych aż po ich interpretację.
Szczególny nacisk położono na: - identyfikację braków, - weryfikację spójności, - transformację kluczowych informacji.
Te etapy stanowią fundament dla zaawansowanych metod analitycznych, takich jak: - wnioskowanie statystyczne, - odkrywanie ukrytych wzorców w danych.
Ten dokument zawiera podsumowanie procesu analizy i oczyszczania
danych w projekcie zespołowym. Plik wejściowy:
previous_application_new.csv
Proces przetwarzania i czyszczenia danych był kluczowym krokiem w przygotowaniu informacji do dalszej analizy.
Dzięki tym operacjom uzyskano zestaw danych: - kompletny, - zgodny ze standardami analitycznymi, - gotowy do dalszego przetwarzania.
Weryfikacja danych: - Walidacja pozwoliła zidentyfikować i wyeliminować potencjalne rozbieżności. - Potwierdzono integralność i spójność przekształconych danych.
Oczyszczone dane stanowią solidną podstawę dla kolejnych etapów projektu, takich jak: - wizualizacja danych, - analiza opisowa, - testy statystyczne.
Finalny plik z przetworzonymi danymi został zapisany pod ścieżką:
C:/Users/user/Documents/GIT projekts/Analiza_danych-Projekt_Zespolowy2024-2025/previous_application_cleaned_finished.csv
W tej sekcji przedstawiono kluczowe wizualizacje danych przygotowanych na podstawie wcześniejszej analizy. Każdy wykres został zapisany i opisany poniżej.
- Większość wniosków
dotyczy niewielkich kwot poniżej 500 000. - Rozkład jest prawostronnie
skośny.
- Zdecydowana większość
wniosków dotyczy niskich kwot kredytu (poniżej 500 000). - Pojawiają się
nieliczne przypadki wysokich kwot kredytu (powyżej 2 000 000).
- Największa liczba
wniosków dotyczy wkładu własnego w przedziale 40 000–50 000. - Rozkład
jest symetryczny z niewielką liczbą wartości skrajnych.
- Dominują towary o cenie
poniżej 500 000. - Rozkład wskazuje na prawostronną skośność.
- Większość wniosków dotyczy
rat rocznych poniżej 50 000. - Nieliczne przypadki wskazują na wysokie
raty powyżej 150 000.
- Kredyty
gotówkowe najczęściej mieszczą się w przedziale 100 000–150 000. - Inne
typy kredytów skupiają się w niższych przedziałach kwotowych.
- Towary o
niskich cenach (poniżej 500 000) dominują niezależnie od kategorii
portfela.
-
Widoczna jest liniowa zależność między wnioskowaną kwotą a przyznanym
kredytem.
- Wysoki
wkład własny częściej występuje przy niższym procencie kredytu.
- Dominują kredyty
przeznaczone na remonty, inwestycje i bieżące wydatki.
- Proporcje stanów
umowy różnią się w zależności od rodzaju klienta.
- Najwięcej
wniosków jest składanych w godzinach popołudniowych.
- Liczba wniosków zmienia
się w zależności od dnia, wskazując na różnorodne trendy.
-
Kredyty na budowę domu lub zakup nieruchomości charakteryzują się
najwyższymi kwotami.
- Liczba rat
różni się w zależności od kategorii produktu. Najwięcej rat przypada na
produkty hipoteczne.
Każda wizualizacja została zapisana w formacie .png i
może być wykorzystywana do dalszej analizy i prezentacji wyników.
W tej sekcji przedstawiono analizę danych w oparciu o różne zmienne opisowe i ilościowe.
Poniżej przedstawiono boxplot dla wnioskowanej kwoty z wykorzystaniem skali logarytmicznej.
- Wykres przedstawia rozkład
wnioskowanej kwoty w skali logarytmicznej. - Widoczna jest obecność
wartości odstających w górnym zakresie kwot.
Wykres przedstawia macierz korelacji pomiędzy zmiennymi numerycznymi w zbiorze danych.
-
Wykres pokazuje relacje między zmiennymi numerycznymi w danych. - Silne
korelacje mogą sugerować redundancję zmiennych lub istotne relacje.
Na
podstawie wykresu i wyników testów statystycznych z użyciem funkcji
ggbetweenstats, można wyciągnąć następujące wnioski: 1. Istotność
różnic między grupami:
Wartość statystyki F dla testu Welch ANOVA wynosi F(3, 3021.34) = 959.40, a wartość p jest równa p < 0.001. Oznacza to, że istnieją istotne statystycznie różnice w średnich „wnioskowanej kwoty” między grupami określonymi przez „stan_umowy” (Approved, Refused, Canceled, Unused offer).
Wielkość efektu:
Wielkość efektu (eta squared) wynosi 0.49, co wskazuje na
bardzo duży efekt w kontekście różnic między grupami. Oznacza to, że
znaczna część zmienności w wartościach „wnioskowanej kwoty” jest
wyjaśniana przez zmienną „stan_umowy”.
Porównania parami (Post-hoc):
Testy post-hoc (Games-Howell) pokazują istotne różnice między wszystkimi
grupami:
Średnie wartości (średnie wnioskowane kwoty):
Wizualizacja:
Na powyższym
wykresie przedstawiono analizę korelacji między wnioskowaną kwotą
kredytu a faktycznie przyznaną kwotą kredytu.
Na przedstawionym wykresie widzimy wyniki analizy zależności między zmiennymi „stan_umowy” a „cel_kredytu”, przeprowadzonej przy pomocy testu chi-kwadrat oraz wizualizacji procentowego udziału kategorii w ramach celu kredytu.
Wykres słupkowy prezentuje udział różnych stanów umowy
(Approved, Refused, Canceled,
Unused offer) w ramach każdego celu kredytu
(cel_kredytu). Kluczowe obserwacje:
Wykres przedstawia analizę różnic w procentowym wkładzie własnym („procent_wkladu_wlasny”) w zależności od stanu umowy („stan_umowy”) za pomocą testu Kruskala-Wallisa. Oto główne wnioski:
Grupa „Canceled” znacząco różni się od pozostałych pod względem mediany procentu wkładu własnego, wskazujac na znacznie wyższe wartości wkładu własnego w tej grupie.
Wykres przedstawia wyniki analizy różnic w „stosunku kwoty kredytu” w zależności od „typu umowy” za pomocą testu Kruskala-Wallisa. Oto kluczowe wnioski:
H0: Średnia kwota kredytu jest taka sama w obydwu grupach.
HA: Średnia kwota kredytu różni się między grupami.
Brak podstaw do odrzucenia hipotezy zerowej, co oznacza, że nie ma statystycznie istotnych różnic między średnimi kwotami kredytu w grupach “Home renovation” i “Vacation”.
Wskazuje na to wysoka wartość p (0,347) oraz niska wartość statystyki t (-0,941).
Po sprawdzeniu średnich dla obydwu badanych zmiennych,należy zauważyć ich zbliżony poziom (odpowiednio 126444,4 i 131327,5), co byłoby zgodne z wynikiem przeprowadzonego testu statystycznego.
Test Shapiro-Wilka:
Wyniki testu Shapiro-Wilka wskazują na to, że dane w obu grupach nie mają rozkładu normalnego.
Ponieważ dane nie są normalnie rozkładowe, test t-Studenta (który zakłada normalność danych) może nie być właściwy.
Test Manna-Whitneya:
Brak podstaw do odrzucenia hipotezy zerowej (H₀).
Oznacza to, że nie ma statystycznie istotnych różnic w medianach kwoty kredytu między grupami “Home Renovation” i “Vacation”.
Wartość p (0,6004) jest znacznie większa od progu istotności.
H0: Liczba rat i kwota kredytu nie są ze sobą skorelowane
HA: Liczba rat i kwota kredytu są ze sobą skorelowane
Równanie modelu regresji: kwota_kredytu = -25826,45 + 2545,53 * liczba_rat
Gdy liczba rat wynosi 0, przewidywana kwota kredytu wynosi -25826,45.
Przy każdej dodatkowej racie, przewidywana kwota kredytu zwiększa się średnio o 2545,53 jednostek.
Wartość p dla liczby rat jest znacznie mniejsza niż 0,05, co oznacza, że liczba rat jest statystycznie istotną determinantą kwoty kredytu.
H0: Rodzaj płatności i stan umowy są od siebie niezależne
HA: Rodzaj płatności i stan umowy są od siebie zależne
Wartość p (<2,2e-16), czyli znacznie mniejsza niż 0,05.
Należy odrzucić hipotezę zerową, co oznacza, że istnieje statystycznie istotna zależność między rodzajem płatności a stanem umowy.
Cash through the bank ma bardzo wysokie wartości w kolumnie “Approved” (9702.29 oczekiwane), co sugeruje, że znaczna część zaakceptowanych umów jest związana z tą formą płatności.
H0: Cel kredytu i stan umowy są od siebie niezależne
HA: Cel kredytu i stan umowy są od siebie zależne
Wartość p (<2,2e-16), czyli znacznie mniejsza niż 0,05.
Należy odrzucić hipotezę zerową, co oznacza, że istnieje statystycznie istotna zależność między celem kredytu a stanem umowy.
Education i Vacation mają wysokie wartości oczekiwane i duży wpływ na wynik testu.
H0: Średnia kwota kredytu jest taka sama dla wsyzstkich celów kredytu
HA: Średnia kwota kredytu nie jest taka sama dla wszystkich celów kredytu
Wartość p (0,252) jest większe niż poziom istnotności 0,05.
Brak podstaw do odrzucenia hipotezy zerowej, co oznacza, że średnia kwota kredytu nie różni się.
istotnie między poszczególnymi celami kredytu.