Importation des données

La première étape consiste à importer les données telles qu’elles sont sans effectuer aucune modification. Ci-dessous en bleu la variable à prédire.

Type_de_client Age_du_client Situation_familiale_regroupée Ancienneté Domiciliation_du_salaire Domiciliation_epargne_regroupée Profession Moyenne_encours Moyenne_des_mouvements Cumul_des_débits Autorisation_de_découvert Interdiction_de_chéquier
Bon client moins de 23 ans célibataire anc. de 6 à 12 ans Non domicilié pas d’épargne employé de 2 à 5 K encours de 10 à 30K mouvt moins de 40 débits découvert interdit chéquier autorisé
Bon client de 40 à 50 ans célibataire anc. de 4 ans ou moins Oui domicilié pas d’épargne employé moins de 2K encours de 30 à 50K mouvt plus de 100 débits découvert autorisé chéquier autorisé
Bon client de 23 à 39 ans célibataire anc. de 4 à 6 ans Non domicilié pas d’épargne autre de 2 à 5 K encours moins 10 K mouvt de 40 à 100 débits découvert autorisé chéquier autorisé
Bon client de 23 à 39 ans célibataire anc. plus 12 ans Oui domicilié pas d’épargne employé moins de 2K encours de 30 à 50K mouvt plus de 100 débits découvert autorisé chéquier autorisé
Bon client de 40 à 50 ans marié anc. de 6 à 12 ans Oui domicilié épargne cadre plus de 5 K encours plus de 50K mouvt plus de 100 débits découvert autorisé chéquier autorisé
Bon client de 23 à 39 ans marié anc. plus 12 ans Oui domicilié épargne employé plus de 5 K encours plus de 50K mouvt moins de 40 débits découvert interdit chéquier autorisé

Analyser les variables

Après importation du fichier comportant des données, on analyse les différentes variables existantes de la table des données. Tout d’abord nous vérifions qu’il existe un identifiant unique.

Type_de_client factor
Age_du_client character
Situation_familiale_regroupée character
Ancienneté character
Domiciliation_du_salaire character
Domiciliation_epargne_regroupée character
Profession character
Moyenne_encours character
Moyenne_des_mouvements character
Cumul_des_débits character
Autorisation_de_découvert character
Interdiction_de_chéquier character
Il est important de connaître les types de données que nous devons analyser. Il existe 2 types de variables explicatives :

Distributions et statistiques

On examine les variables une à une :
Pour chaque modalité d’une variable, on observe la distributivité des valeurs possibles comme l’effectif ou le pourcentage de celle-ci par rapport aux autres modalités.

label value percent
de 23 à 39 ans 59 25.2%
de 40 à 50 ans 65 27.8%
moins de 23 ans 32 13.7%
plus de 50 ans 78 33.3%
Ensemble 234 100.0%
label value percent
célibataire 80 34.2%
divorcé/veuf 28 12.0%
marié 126 53.8%
Ensemble 234 100.0%
label value percent
anc. 1 an ou moins 66 28.2%
anc. de 1 à 4 ans 13 5.6%
anc. de 4 à 6 ans 40 17.1%
anc. de 6 à 12 ans 46 19.7%
anc. plus 12 ans 69 29.5%
Ensemble 234 100.0%
label value percent
Non domicilié 44 18.8%
Oui domicilié 190 81.2%
Ensemble 234 100.0%
label value percent
moins de 10K épargne 29 12.4%
pas d’épargne 174 74.4%
plus de 10K épargne 31 13.2%
Ensemble 234 100.0%
label value percent
autre 59 25.2%
cadre 50 21.4%
employé 125 53.4%
Ensemble 234 100.0%
label value percent
de 2 à 5 K encours 164 70.1%
moins de 2K encours 28 12.0%
plus de 5 K encours 42 17.9%
Ensemble 234 100.0%
label value percent
de 10 à 30K mouvt 35 15.0%
de 30 à 50K mouvt 71 30.3%
moins 10 K mouvt 41 17.5%
plus de 50K mouvt 87 37.2%
Ensemble 234 100.0%
label value percent
de 40 à 100 débits 88 37.6%
moins de 40 débits 89 38.0%
plus de 100 débits 57 24.4%
Ensemble 234 100.0%
label value percent
découvert autorisé 94 40.2%
découvert interdit 140 59.8%
Ensemble 234 100.0%
label value percent
chéquier autorisé 223 95.3%
chéquier interdit 11 4.7%
Ensemble 234 100.0%

Regroupement des modalités

Si une des valeurs des modalités est trop faible par rapport au jeu de données (ce qui peut rendre le modèle instable), on le regroupe avec une autre valeur ayant un sens grammatical pratiquement équivalent. En général, on fixe un seuil à 30 %.

Le nombre de modalités pour la variable “Ancienneté” avant regroupement

label value
anc. 1 an ou moins 66
anc. de 1 à 4 ans 13
anc. de 4 à 6 ans 40
anc. de 6 à 12 ans 46
anc. plus 12 ans 69
label value
anc. de 4 à 6 ans 40
anc. de 4 ans ou moins 79
anc. de 6 à 12 ans 46
anc. plus 12 ans 69

Le nombre de modalités pour la variable “Domiciliation de l’épargne” avant regroupement

Concernant le nombre de modalités pour la variable explicative “Domiciliation de l’épargne”, on remarque que des modalités sont sous représentés.

label value
moins de 10K épargne 29
pas d’épargne 174
plus de 10K épargne 31

Le nombre de modalités pour la variable “Domiciliation de l’épargne” après regroupement

Comme certaines modalités sont sous representer, nous procédons à un regroupement.
Ci-dessous le nombre de modalité après regroupement

label value
épargne 60
pas d’épargne 174

Echantionnage (Apprentissage/Test)

Echantionnage d’apprentissage (70% des données)

Classe Effectif
Bon 155
Mauvais 162

Echantionnage de test (30% des données)

Classe Effectif
Bon 82
Mauvais 69

Modelisation Regression Logistique

-Selection des variables : Stratégie Stepwise

Stratégie Stepwise : Utilisée lorsque la connaissance des variables prédictrices possibles s’avère limitée. La variable la plus significative est injecté en première. La deuxième est injectée conditionnellement à la première et ainsi de suite. Nous avons choisi instinctivement la stratégie stepwise pour nous faire une première idée sur les variables ayant un impact sur le modèle
Bon Mauvais
Bon 72 16
Mauvais 10 53
Overall
Age_du_clientde 40 à 50 ans 1.0177498
Age_du_clientmoins de 23 ans 2.1739790
Age_du_clientplus de 50 ans 0.6512909
Situation_familialedivorcé 3.2598211
Situation_familialemarié 1.7147494
Situation_familialeveuf 0.5151025
Anciennetéanc. de 1 à 4 ans 2.0069936
Anciennetéanc. de 4 à 6 ans 3.4947546
Anciennetéanc. de 6 à 12 ans 2.3161568
Anciennetéanc. plus 12 ans 2.8403357
Domiciliation_du_salaireOui domicilié 4.0264805
Domiciliation_epargne_regroupéemoins de 10K épargne 0.5840803
Domiciliation_epargne_regroupéepas d'épargne 0.4892536
Domiciliation_epargne_regroupéeplus de 100K épargne 0.0174500
Professioncadre 0.6329669
Professionemployé 0.1416247
Moyenne_encoursmoins de 2K encours 1.3573503
Moyenne_encoursplus de 5 K encours 1.2176322
Moyenne_des_mouvementsde 30 à 50K mouvt 0.4053367
Moyenne_des_mouvementsmoins 10 K mouvt 1.0544972
Moyenne_des_mouvementsplus de 50K mouvt 1.1430418
Cumul_des_débitsmoins de 40 débits 2.6504200
Cumul_des_débitsplus de 100 débits 2.5473102
Autorisation_de_découvertdécouvert interdit 0.0475587
Interdiction_de_chéquierchéquier interdit 3.0158769

Modelisation Arbre de décision

Bon Mauvais
Bon 57 13
Mauvais 25 56
Overall
Age_du_clientmoins de 23 ans 3.3767496
Autorisation_de_découvertdécouvert interdit 0.3123374
Cumul_des_débitsmoins de 40 débits 5.4070096
Cumul_des_débitsplus de 100 débits 23.7132407
Domiciliation_du_salaireOui domicilié 26.5168060
Domiciliation_epargne_regroupéepas d’épargne 1.8853311
Interdiction_de_chéquierchéquier interdit 24.8031125
Moyenne_des_mouvementsmoins 10 K mouvt 34.7935102
Moyenne_des_mouvementsplus de 50K mouvt 4.5517306
Moyenne_encoursmoins de 2K encours 23.8760699
Professioncadre 4.6087851
Professionemployé 1.9444444
Situation_familialemarié 0.6067821
Age_du_clientde 40 à 50 ans 0.0000000
Age_du_clientmoins de 23 ans 0.0000000
Age_du_clientplus de 50 ans 0.0000000
Situation_familialedivorcé 0.0000000
Situation_familialeveuf 0.0000000
Anciennetéanc. de 1 à 4 ans 0.0000000
Anciennetéanc. de 4 à 6 ans 0.0000000
Anciennetéanc. de 6 à 12 ans 0.0000000
Anciennetéanc. plus 12 ans 0.0000000
Domiciliation_du_salaireOui domicilié 0.0000000
Domiciliation_epargne_regroupéemoins de 10K épargne 0.0000000
Domiciliation_epargne_regroupéepas d'épargne 0.0000000
Domiciliation_epargne_regroupéeplus de 100K épargne 0.0000000
Moyenne_encoursmoins de 2K encours 0.0000000
Moyenne_encoursplus de 5 K encours 0.0000000
Moyenne_des_mouvementsde 30 à 50K mouvt 0.0000000
Moyenne_des_mouvementsmoins 10 K mouvt 0.0000000
Moyenne_des_mouvementsplus de 50K mouvt 0.0000000
Cumul_des_débitsmoins de 40 débits 0.0000000
Cumul_des_débitsplus de 100 débits 0.0000000
Autorisation_de_découvertdécouvert interdit 0.0000000
Interdiction_de_chéquierchéquier interdit 0.0000000

Comparaison des modèles