Analiza danych odgrywa fundamentalną rolę w realizacji projektów opartych na danych.
Niniejszy raport koncentruje się na obróbce historycznych danych dotyczących wniosków kredytowych. Proces ten obejmuje ich: - oczyszczanie, - analizę, - wizualizację.
Dzięki odpowiedniemu przetwarzaniu danych możliwe jest nie tylko eliminowanie nieścisłości, ale również ich przekształcenie, co pozwala na: - formułowanie wartościowych wniosków, - podejmowanie bardziej świadomych decyzji strategicznych.
Celem projektu jest: 1. Przedstawienie kompleksowego podejścia do analizy danych. 2. Zaprezentowanie etapów od przygotowania danych aż po ich interpretację.
Szczególny nacisk położono na: - identyfikację braków, - weryfikację spójności, - transformację kluczowych informacji.
Te etapy stanowią fundament dla zaawansowanych metod analitycznych, takich jak: - wnioskowanie statystyczne, - odkrywanie ukrytych wzorców w danych.
Ten dokument zawiera podsumowanie procesu analizy i oczyszczania
danych w projekcie zespołowym. Plik wejściowy:
previous_application_new.csv
Przeprowadzono analizę brakujących wartości w zbiorze danych, identyfikując kolumny z największą liczbą braków.
Braki danych występowały głównie w kolumnach kategorycznych oraz niektórych zmiennych liczbowych.
Dokonano szczegółowego przeglądu rozkładu braków, co pozwoliło na wybór odpowiedniej metody ich uzupełniania lub usunięcia.
Kolumny zawierające powyżej 90% brakujących wartości zostały usunięte, ponieważ ich uzupełnianie byłoby nieefektywne i mogłoby wprowadzać zbyt dużą niepewność w analizie.
Pełna lista usuniętych kolumn została zarchiwizowana do celów weryfikacyjnych.
Dane liczbowe: Braki uzupełniono medianą, aby uniknąć wpływu wartości odstających.
Dane kategoryczne: Braki wypełniono najczęściej występującą wartością (modą), co pozwoliło na zachowanie spójności danych.
Kolumny związane z datami: Braki w zmiennych czasowych zostały uzupełnione na podstawie sąsiednich wartości (metoda interpolacji).
Niektóre zmienne nominalne poddano grupowaniu, aby zmniejszyć liczbę unikalnych wartości i zwiększyć ich interpretowalność.
Usunięto duplikaty w zbiorze, co pozwoliło na eliminację redundantnych rekordów.
Zmieniono typy danych dla wybranych kolumn (np. konwersja kategorii na typ „factor” w języku R).
Standaryzacja wartości numerycznych dla zmiennych związanych z kwotami kredytu oraz wkładem własnym.
Normalizacja wartości procentowych, aby umożliwić ich poprawną interpretację w dalszej analizie.
Sprawdzono, czy nie występują wartości odstające, które mogłyby zaburzać dalsze analizy.
Zweryfikowano poprawność relacji pomiędzy zmiennymi numerycznymi (np. kwota kredytu nie może być wyższa od wnioskowanej kwoty).
Potwierdzono integralność danych, co oznacza brak brakujących wartości w finalnym zbiorze.
Proces czyszczenia danych znacząco poprawił ich jakość i pozwolił na dalsze analizy statystyczne.
Usunięcie kolumn o wysokim poziomie braków poprawiło spójność i interpretowalność danych.
Uzupełnienie brakujących wartości umożliwiło dalsze analizy bez ryzyka błędnych interpretacji wyników.
Standaryzacja i konwersja typów zapewniła spójność formatu danych dla kolejnych etapów przetwarzania.
Weryfikacja poprawności danych:
Braki zostały uzupełnione w sposób kontrolowany i metodyczny.
Dane zostały przekształcone i oczyszczone zgodnie z najlepszymi praktykami analizy danych.
Integralność danych została potwierdzona na podstawie walidacji struktury zbioru.
Oczyszczony zbiór danych został zapisany:previous_application_cleaned_finished.csv.
W tej sekcji przedstawiono kluczowe wizualizacje danych przygotowanych na podstawie wcześniejszej analizy. Każdy wykres został zapisany i opisany poniżej.
- Większość wniosków
dotyczy niewielkich kwot poniżej 500 000. - Rozkład jest prawostronnie
skośny.
- Zdecydowana większość
wniosków dotyczy niskich kwot kredytu (poniżej 500 000). - Pojawiają się
nieliczne przypadki wysokich kwot kredytu (powyżej 2 000 000).
- Największa liczba
wniosków dotyczy wkładu własnego w przedziale 40 000–50 000. - Rozkład
jest symetryczny z niewielką liczbą wartości skrajnych.
- Dominują towary o cenie
poniżej 500 000. - Rozkład wskazuje na prawostronną skośność.
- Większość wniosków dotyczy
rat rocznych poniżej 50 000. - Nieliczne przypadki wskazują na wysokie
raty powyżej 150 000.
- Kredyty
gotówkowe najczęściej mieszczą się w przedziale 100 000–150 000. - Inne
typy kredytów skupiają się w niższych przedziałach kwotowych.
- Towary o
niskich cenach (poniżej 500 000) dominują niezależnie od kategorii
portfela.
-
Widoczna jest liniowa zależność między wnioskowaną kwotą a przyznanym
kredytem.
- Wysoki
wkład własny częściej występuje przy niższym procencie kredytu.
- Dominują kredyty
przeznaczone na remonty, inwestycje i bieżące wydatki.
- Proporcje stanów
umowy różnią się w zależności od rodzaju klienta.
- Najwięcej
wniosków jest składanych w godzinach popołudniowych.
- Liczba wniosków zmienia
się w zależności od dnia, wskazując na różnorodne trendy.
-
Kredyty na budowę domu lub zakup nieruchomości charakteryzują się
najwyższymi kwotami.
- Liczba rat
różni się w zależności od kategorii produktu. Najwięcej rat przypada na
produkty hipoteczne.
Każda wizualizacja została zapisana w formacie .png i
może być wykorzystywana do dalszej analizy i prezentacji wyników.
W tej sekcji przedstawiono szczegółową analizę danych w oparciu o różne zmienne opisowe i ilościowe, pozwalając na lepsze zrozumienie ich struktury oraz wzorców występujących w zbiorze danych.
Poniżej przedstawiono wykres pudełkowy dla wnioskowanej kwoty, przy zastosowaniu skali logarytmicznej.
Wykres ukazuje rozkład wartości wnioskowanych kwot kredytu.
Widoczna jest znaczna liczba wartości odstających, szczególnie w górnym zakresie kwot, co może sugerować obecność pojedynczych, wyjątkowo wysokich wniosków kredytowych.
Wartości te mogą znacząco wpływać na analizę statystyczną, dlatego warto rozważyć ich dalsze badanie oraz potencjalne przekształcenia danych.
- Wykres przedstawia rozkład
wnioskowanej kwoty w skali logarytmicznej. - Widoczna jest obecność
wartości odstających w górnym zakresie kwot.
Poniższy wykres przedstawia macierz korelacji pomiędzy zmiennymi numerycznymi w zbiorze danych.
Analiza macierzy korelacji wskazuje na silne zależności pomiędzy niektórymi zmiennymi, w szczególności:
Wnioskowana kwota i kwota kredytu wykazują wysoką dodatnią korelację, co sugeruje, że większe wnioski kredytowe częściej prowadzą do wyższych przyznanych kwot.
Procent wkładu własnego jest ujemnie skorelowany z kwotą kredytu, co oznacza, że wyższy wkład własny może być związany z niższą wartością przyznanego kredytu.
Niektóre zmienne wykazują brak istotnych korelacji, co może sugerować ich niezależność lub konieczność głębszej analizy w celu ich interpretacji.
-
Wykres pokazuje relacje między zmiennymi numerycznymi w danych. - Silne
korelacje mogą sugerować redundancję zmiennych lub istotne relacje.
Na podstawie przeprowadzonej analizy można sformułować następujące kluczowe wnioski:
Rozkład wnioskowanej kwoty:
Dane są skośne w prawo, co oznacza, że większość wartości koncentruje się w niższych przedziałach kwotowych.
Obecność wartości odstających w górnym zakresie wymaga dalszej weryfikacji, ponieważ mogą one zniekształcać wyniki statystyczne.
Zależności między zmiennymi:
Wysoka korelacja pomiędzy wnioskowaną kwotą a kwotą przyznanego kredytu wskazuje na silny wpływ jednego czynnika na drugi.
Pewne zmienne, takie jak typ umowy, mogą mieć istotny wpływ na kwotę przyznanego kredytu, co wymaga dalszej analizy.
Analiza wartości odstających powinna zostać przeprowadzona w celu oceny, czy wynikają one z błędów w danych, czy też rzeczywiście reprezentują unikalne przypadki.
Silne korelacje między niektórymi zmiennymi sugerują możliwość redukcji wymiarowości danych poprzez eliminację redundantnych cech.
Warto rozważyć normalizację lub transformację niektórych zmiennych, aby poprawić jakość analiz statystycznych i modelowania predykcyjnego.
Dalsza analiza zmiennych kategorycznych, np. typu umowy czy celu kredytu, mogłaby dostarczyć dodatkowych informacji o potencjalnych zależnościach i ich wpływie na decyzje kredytowe.
Na
podstawie wykresu i wyników testów statystycznych z użyciem funkcji
ggbetweenstats, można wyciągnąć następujące wnioski: 1. Istotność
różnic między grupami:
Wartość statystyki F dla testu Welch ANOVA wynosi F(3, 3021.34) = 959.40, a wartość p jest równa p < 0.001. Oznacza to, że istnieją istotne statystycznie różnice w średnich „wnioskowanej kwoty” między grupami określonymi przez „stan_umowy” (Approved, Refused, Canceled, Unused offer).
Wielkość efektu:
Wielkość efektu (eta squared) wynosi 0.49, co wskazuje na
bardzo duży efekt w kontekście różnic między grupami. Oznacza to, że
znaczna część zmienności w wartościach „wnioskowanej kwoty” jest
wyjaśniana przez zmienną „stan_umowy”.
Porównania parami (Post-hoc):
Testy post-hoc (Games-Howell) pokazują istotne różnice między wszystkimi
grupami:
Średnie wartości (średnie wnioskowane kwoty):
Wizualizacja:
Na powyższym
wykresie przedstawiono analizę korelacji między wnioskowaną kwotą
kredytu a faktycznie przyznaną kwotą kredytu.
Na przedstawionym wykresie widzimy wyniki analizy zależności między zmiennymi „stan_umowy” a „cel_kredytu”, przeprowadzonej przy pomocy testu chi-kwadrat oraz wizualizacji procentowego udziału kategorii w ramach celu kredytu.
Wykres słupkowy prezentuje udział różnych stanów umowy
(Approved, Refused, Canceled,
Unused offer) w ramach każdego celu kredytu
(cel_kredytu). Kluczowe obserwacje:
Wykres przedstawia analizę różnic w procentowym wkładzie własnym („procent_wkladu_wlasny”) w zależności od stanu umowy („stan_umowy”) za pomocą testu Kruskala-Wallisa. Oto główne wnioski:
Grupa „Canceled” znacząco różni się od pozostałych pod względem mediany procentu wkładu własnego, wskazujac na znacznie wyższe wartości wkładu własnego w tej grupie.
Wykres przedstawia wyniki analizy różnic w „stosunku kwoty kredytu” w zależności od „typu umowy” za pomocą testu Kruskala-Wallisa. Oto kluczowe wnioski:
H0: Średnia kwota kredytu jest taka sama w obydwu grupach.
HA: Średnia kwota kredytu różni się między grupami.
Brak podstaw do odrzucenia hipotezy zerowej, co oznacza, że nie ma statystycznie istotnych różnic między średnimi kwotami kredytu w grupach “Home renovation” i “Vacation”.
Wskazuje na to wysoka wartość p (0,347) oraz niska wartość statystyki t (-0,941).
Po sprawdzeniu średnich dla obydwu badanych zmiennych,należy zauważyć ich zbliżony poziom (odpowiednio 126444,4 i 131327,5), co byłoby zgodne z wynikiem przeprowadzonego testu statystycznego.
Test Shapiro-Wilka:
Wyniki testu Shapiro-Wilka wskazują na to, że dane w obu grupach nie mają rozkładu normalnego.
Ponieważ dane nie są normalnie rozkładowe, test t-Studenta (który zakłada normalność danych) może nie być właściwy.
Test Manna-Whitneya:
Brak podstaw do odrzucenia hipotezy zerowej (H₀).
Oznacza to, że nie ma statystycznie istotnych różnic w medianach kwoty kredytu między grupami “Home Renovation” i “Vacation”.
Wartość p (0,6004) jest znacznie większa od progu istotności.
H0: Liczba rat i kwota kredytu nie są ze sobą skorelowane
HA: Liczba rat i kwota kredytu są ze sobą skorelowane
Równanie modelu regresji: kwota_kredytu = -25826,45 + 2545,53 * liczba_rat
Gdy liczba rat wynosi 0, przewidywana kwota kredytu wynosi -25826,45.
Przy każdej dodatkowej racie, przewidywana kwota kredytu zwiększa się średnio o 2545,53 jednostek.
Wartość p dla liczby rat jest znacznie mniejsza niż 0,05, co oznacza, że liczba rat jest statystycznie istotną determinantą kwoty kredytu.
H0: Rodzaj płatności i stan umowy są od siebie niezależne
HA: Rodzaj płatności i stan umowy są od siebie zależne
Wartość p (<2,2e-16), czyli znacznie mniejsza niż 0,05.
Należy odrzucić hipotezę zerową, co oznacza, że istnieje statystycznie istotna zależność między rodzajem płatności a stanem umowy.
Cash through the bank ma bardzo wysokie wartości w kolumnie “Approved” (9702.29 oczekiwane), co sugeruje, że znaczna część zaakceptowanych umów jest związana z tą formą płatności.
H0: Cel kredytu i stan umowy są od siebie niezależne
HA: Cel kredytu i stan umowy są od siebie zależne
Wartość p (<2,2e-16), czyli znacznie mniejsza niż 0,05.
Należy odrzucić hipotezę zerową, co oznacza, że istnieje statystycznie istotna zależność między celem kredytu a stanem umowy.
Education i Vacation mają wysokie wartości oczekiwane i duży wpływ na wynik testu.
H0: Średnia kwota kredytu jest taka sama dla wsyzstkich celów kredytu
HA: Średnia kwota kredytu nie jest taka sama dla wszystkich celów kredytu
Wartość p (0,252) jest większe niż poziom istnotności 0,05.
Brak podstaw do odrzucenia hipotezy zerowej, co oznacza, że średnia kwota kredytu nie różni się.
istotnie między poszczególnymi celami kredytu.