Podstawowe operacje w R - część 4.

Czyszczenie danych

Zadanie domowe

Korzystając z paczki danych “germancredit” dotyczącą oceny kredytowej (creditability) wybranych klientów pewnego banku:

Czy w zbiorze danych mamy obserwacje brakujące?

Proszę dokonać kategoryzacji zmiennej “age.in.years” (wiek w latach) wg oceny kredytowej “creditability”.

Podaj i zinterpretuj wskaźniki informacyjne. Oceń skośność zmiennych ilościowych.

Sprawdź, czy nie mamy obserwacji odstających dla zmiennej “age.in.years” (wiek w latach). Jeśli są - dokonaj imputacji wybraną przez siebie metodą.

data("germancredit")

library(fairml)
## Warning: pakiet 'fairml' został zbudowany w wersji R 4.2.2
data("germancredit")
attach(german.credit)
# optimal binning:
bin <- binning_by(german.credit, y="Credit_risk", x="Age")
## Warning in binning_by(german.credit, y = "Credit_risk", x = "Age"): The factor y has been changed to a numeric vector consisting of 0 and 1.
## 'GOOD' changed to 1 (positive) and 'BAD' changed to 0 (negative).
# pokaż wszystkie kategorie:
summary(bin) 
## ── Binning Table ──────────────────────── Several Metrics ── 
##       Bin CntRec CntPos CntNeg RatePos RateNeg    Odds      WoE      IV     JSD
## 1 [19,25]    190    110     80 0.15714 0.26667 1.37500 -0.52884 0.05792 0.00716
## 2 (25,75]    810    590    220 0.84286 0.73333 2.68182  0.13920 0.01525 0.00190
## 3   Total   1000    700    300 1.00000 1.00000 2.33333       NA 0.07317 0.00906
##       AUC
## 1 0.02095
## 2 0.42429
## 3 0.44524
## 
## ── General Metrics ───────────────────────────────────────── 
## • Gini index                       :  -0.10952
## • IV (Jeffrey)                     :  0.07317
## • JS (Jensen-Shannon) Divergence   :  0.00906
## • Kolmogorov-Smirnov Statistics    :  0.10952
## • HHI (Herfindahl-Hirschman Index) :  0.6922
## • HHI (normalized)                 :  0.3844
## • Cramer's V                       :  0.12794 
## 
## ── Significance Tests ──────────────────── Chisquare Test ── 
##     Bin A   Bin B statistics      p_value
## 1 [19,25] (25,75]    16.3681 0.0000521562

Po więcej informacji nt. pakietu ‘dlookr’ zapraszam na jego stronę domową z rozwiązanymi przykładami.