In deze analyse bestuderen we een dataset die 1000 observaties van Duitse leningsaanvragen bevat die goedgekeurd of afgekeurd werden. De dataset beschrijft informatie over de aanvragers zoals hun geslacht, leeftijd, spaargeld etc. Daarnaast is er ook informatie gegeven over de leengeschiedenis van de aanvragers en waarvoor er geleend wordt. In dit onderzoek analyseren we het geslacht en de leeftijd van de aanvragers en linken we deze met het doel van hun lening. Zo onderzoeken wij of er voorkeuren zijn voor bepaalde doelen bij bepaalde leeftijdsgroepen en analyseren we de vershillen in de leenvoorkeur tussen mannen en vrouwen.
De onderzochte dataset “german”:
## Observations: 1,000
## Variables: 22
## $ checking_account (fctr) <0, 0-200, None, <0, <0, None, Non...
## $ duration (int) 6, 48, 12, 42, 24, 36, 24, 36, 12, ...
## $ credit_history (fctr) Critical, Existing credits paid ba...
## $ loan_purpose (fctr) Radio/TV, Radio/TV, Education, Fur...
## $ credit_amount (int) 1169, 5951, 2096, 7882, 4870, 9055,...
## $ savings (fctr) None, <100, <100, <100, <100, None...
## $ years_employed (fctr) >=7, 1-4, 4-7, 4-7, 1-4, 1-4, >=7,...
## $ installment_rate (dbl) 194.83333, 123.97917, 174.66667, 18...
## $ third_parties (fctr) None, None, None, Guarantor, None,...
## $ years_in_present_residence (dbl) 16.024441, 5.029647, 7.806148, 11.3...
## $ most_valuable_property (fctr) Real Estate, Real Estate, Real Est...
## $ age (int) 67, 22, 49, 45, 53, 35, 53, 35, 61,...
## $ other_installment_plans (fctr) None, None, None, None, None, None...
## $ housing (fctr) Own, Own, Own, For free, For free,...
## $ existing_loans (fctr) 2, 1, 1, 1, 2, 1, 1, 1, 1, 2, 1, 1...
## $ job (fctr) Skilled, Skilled, Unskilled, Skill...
## $ number_of_dependents (fctr) 1, 1, 2, 2, 2, 2, 1, 1, 1, 1, 1, 1...
## $ telephone (fctr) TRUE, FALSE, FALSE, FALSE, FALSE, ...
## $ foreign_worker (fctr) TRUE, TRUE, TRUE, TRUE, TRUE, TRUE...
## $ approved (fctr) TRUE, FALSE, TRUE, TRUE, FALSE, TR...
## $ marital_status (fctr) Single, Divorced, Single, Single, ...
## $ sex (fctr) Male, Female, Male, Male, Male, Ma...
Om te beginnen gaan we de leeftijd, geslacht en doel van de aanvragers bestuderen om een beter beeld te krijgen over de gegevens. Zo kunnen we beter verbanden zien in de gegevens tijdens de bivariate en multivariate analyses.
## Source: local data frame [1 x 6]
##
## min max Q1 mediaan Q3
## (chr) (int) (int) (dbl) (dbl) (dbl)
## 1 leeftijd 19 75 27 33 45
Alle aanvragers waren minstens 19 jaar oud en niet ouder dan 75 jaar. De helft van de aanvragers was jonger dan 33 jaar. 25% van de aanvragers was ouder dan 42 jaar en 25% was jonger dan 27 jaar. De meeste aanvragers (ongeveer 22%) hadden een leeftijd tussen 25 en 30 jaar. Na 30 jaar is er een omgekeerd evenredig verband tussen leeftijd en aantal aanvragers. Aanvragers jonger dan 20 jaar of ouder dan 70 jaar waren eerder uitzonderlijk.
De aanvragers voor een lening waren vooral mannen. Enkel 31% van de aanvragers waren vrouwen.
## Source: local data frame [10 x 4]
##
## loan_purpose freq rel_freq cum_rel_freq
## (fctr) (int) (dbl) (dbl)
## 1 Radio/TV 280 0.280 0.280
## 2 New car 234 0.234 0.514
## 3 Furniture 181 0.181 0.695
## 4 Used car 103 0.103 0.798
## 5 Business 97 0.097 0.895
## 6 Education 50 0.050 0.945
## 7 Repairs 22 0.022 0.967
## 8 Domestic Appliances 12 0.012 0.979
## 9 Others 12 0.012 0.991
## 10 Retraining 9 0.009 1.000
De meeste aanvragers vroegen een lening aan om een TV of een radio aan te kopen. Het aandeel van aanvragers dat een lening aanvroeg voor een heropleiding is het kleinst. 69,5% van de aanvragers vroeg een lening voor een radio, TV, nieuwe auto of meubilair.
We concluderen dat 69% van de aanvragers mannen waren en de meeste aanvragers tussen de 27 en 42 jaar oud waren. De meeste applicanten vroegen een lening aan om een radio, een TV, een nieuwe auto of meubilair aan te schaffen.
Nu we meer weten over het geslacht en de leeftijd van de aanvragers en het doel van hun lening gaan we bivariate analyses voeren om onderlinge verbanden te zoeken tussen de variabelen om zo nog meer extra informatie te hebben voor onze multivariate analyse.
## Source: local data frame [2 x 6]
##
## min max Q1 mediaan Q3
## (chr) (int) (int) (dbl) (dbl) (dbl)
## 1 leeftijd mannen 20 75 28 35 46
## 2 leeftijd vrouwen 19 75 24 29 41
De meeste vrouwen die een lening aanvroegen waren tussen de 20 en 30 jaar oud terwijl de meeste mannelijke aanvragers 25 tot 35 jaar oud waren. Aanvragers jonger dan 20 jaar waren allemaal vrouwen. 50% van de mannelijke aanvragers was ouder dan 35 jaar terwijl 50% van de vrouwelijke aanvragers jonger was dan 29 jaar. Dit betekent dat het histogram van de vrouwelijke aanvragers meer rechts scheef verdeeld is dan de histogram van de mannen. Maar het aandeel van vrouwelijke aanvragers van 55 tot 66 jaar en het aandeel vrouwen van 70 tot 75 jaar is opmerkelijk hoog (ongeveer de helft!). Toch kunnen we constateren dat vrouwen die een lening aanvroegen in verhouding meestal jonger waren dan de mannelijke aanvragers aangezien deze 2 proporties slechts een kleine hoeveelheid observaties omvatten en de rechts scheve verdeling van de vrouwelijke leeftijden weinig benvloeden.
## Source: local data frame [10 x 4]
##
## loan_purpose Q1 mediaan Q3
## (fctr) (dbl) (dbl) (dbl)
## 1 Radio/TV 26.00 32.0 40.25
## 2 New car 28.00 35.0 43.00
## 3 Furniture 25.00 30.0 39.00
## 4 Used car 28.00 35.0 44.00
## 5 Business 27.00 33.0 39.00
## 6 Education 30.25 36.0 48.50
## 7 Repairs 25.50 33.5 48.00
## 8 Domestic Appliances 24.00 28.0 39.50
## 9 Others 30.50 39.5 45.00
## 10 Retraining 31.00 36.0 39.00
Op de grafieken is te zien dat mensen ouder dan 70 jaar gingen lenen om een nieuwe of gebruikte auto te kopen of ze gingen lenen voor businessdoeleinden. Aanvragers die geld gingen lenen voor een hertraining waren niet ouder dan 45 jaar. 75% van de aanvragers die ging lenen voor een business was niet ouder dan 39 jaar. Na 60 jaar leende bijna niemand voor meubilair. Mensen ouder dan 60 jaar leenden vaak geld om een nieuwe auto, TV of radio te kopen. 50% van de applicanten van een lening voor huishoudelijke installaties was jonger dan 24 jaar. De leeftijden van mensen die gingen lenen voor onderwijs en reparaties zijn redelijk verspreid.
De absolute cijfers van de leningsdoelen verschillen niet veel als we gaan vergelijken volgens geslacht. Vrouwen leenden wel relatief meer om uit te geven aan meubilair, onderwijs en huishoudelijke installaties. We zien ook dat vrouwen relatief minder gingen lenen voor auto’s, business en hertrainingen dan mannen. Voor de rest zijn de leendoelen van mannen en vrouwen niet zo verschillend van elkaar en zijn de realtieve verschillen tussen het leengedrag van mannen en vrouwen klein.
We zijn tot de conclusie gekomen dat de vrouwen die geld gingen lenen iets jonger waren dan de mannen. Jongere mensen leenden vaker voor hertraining, meubilair en huishoudelijke installaties terwijl oudere mensen vaker gingen lenen voor auto’s, radio’s en TV’s. Leningen voor educatie en reparaties zijn populair bij zowel jongere als oudere mensen. Maar niet alleen leeftijd speelde een rol bij het leengedrag. Zo hebben we ook opgemerkt dat vrouwen minder leenden voor business en hertrainingen en meer gingen lenen voor meubilair, onderwijs en huishoudelijke installaties.
In de voorgaande bivariate analyses bekeken we welke invloed leeftijd en geslacht apart hebben op het leengedrag. Nu gebruiken we bijde variabelen om een laatste verdict te geven over het leengedrag in relatie met de leeftijd en geslacht.
Er is meer variatie aanwezig in gegevens van het aantal vrouwelijke applicanten met als doel het kopen van een radio of TV dan bij de gegevens van de mannelijke applicanten met zulde doeleinden. Het omgekeerde geldt voor de mensen die gingen lenen om meubels aan te schaffen. De gegevens van de vrouwen zijn daar rechtsschever verdeeldeeld dan de gegevens van de mannen. Het valt ook op dat vrouwen die toch gingen lenen voor een business relatief jong waren vergeleken met de mannelijke applicanten; meer dan 50% van van de vrouwelijke applicanten voor een lening met businessdoeleinden was niet ouder dan 30 jaar terwijl bijna de helft van de mannelijke applicanten met businessdoeleinden een leeftijd had van meer dan 35 jaar. De gegevens van mannelijke aanvragers met als leendoel een opleiding betalen variërt minder ten opzichte van de gegevens van zulke vrouwelijke aanvragers. De meeste vrouwen die lenen voor educatie zijn jonger dan 40 jaar en ouder dan 50 jaar. De vrouwen die geld leenden om huishoudelijke installaties te kopen waren tussen 20 en 30 jaar oud. De leeftijden van mannen met de zelfde doeleinden waren veel meer verspreid. Hetzelfde geld voor de leners van geld voor hertraining. Vrouwen die hiervoor geld gingen lenen waren rond de 35 à 40 jaar oud terwijl de leeftijd van zulke mannen variërt tussen de 20 tot 50 jaar. De vrouwen die voor andere doeleinden gingen lenen waren ofwel rond de 60 jaar oud ofwel rond de 30 jaar oud. De mannen die voor andere doelen een lening aanvroegen waren tussen de 25 en 65 jaar oud.
Als een bijkomende bonus gaan we even kort analyseren of oudere mensen ook sneller terugbetalen.
german%>%
ggplot(aes(age,duration,color="blank"))+
geom_jitter()+
scale_x_continuous(limits=c(0,80), breaks=seq(0,80,by=10))+
scale_y_continuous(limits=c(0,80), breaks=seq(0,80,by=10))+
theme(legend.position="none")
Op het eerste zicht is er niet echt iets wat opvalt. Je zou zelfs zeggen dat oudere en jongere mensen even snel terugbetalen. Maar als we enkel de observaties gaan bekijken waar de aanvragers ouder zijn dan 50 jaar krijgen we deze grafiek:
Het aantal mensen dat ouder is dan 50 jaar en langer leent dan 25 jaar is relatief lager dan de 50+ jarige applicanten die op een termijn van hoogstens 25 jaar willen lenen en mensen die ouder zijn dan 70 jaar lenen helemaal niet langer dan voor 25 jaar. Dit effect is niet zo fel bij jongere applicanten:
## Warning: Removed 6 rows containing missing values (geom_point).
Op deze grafiek zien we dat het aantal applicanten voor leningen van een duurtijd lager dan 25 jaar het grootst is. Het aantal jongere applicanten dat hun schulden zal afbetalen na 25-50 jaar zijn met wat minder maar dit verschil is kleiner vergeleken met de 50+ers. Het aantal mensen dat een leentermijn heeft van langer dan 50 jaar is hier, net zoals bij de 50+ers, bijna uitzonderlijk.
We kunnen concluderen dat applicanten voor een lening die ouder zijn dan 50 jaar sneller terugbetalen dan de jongere applicanten.