Importation des données
La première étape consiste à importer les données telles qu’elles sont sans effectuer aucune modification. Ci-dessous en bleu la variable à prédire.
Type_de_client
|
Age_du_client
|
Situation_familiale_regroupée
|
Ancienneté
|
Domiciliation_du_salaire
|
Domiciliation_epargne_regroupée
|
Profession
|
Moyenne_encours
|
Moyenne_des_mouvements
|
Cumul_des_débits
|
Autorisation_de_découvert
|
Interdiction_de_chéquier
|
Bon client
|
moins de 23 ans
|
célibataire
|
anc. de 6 à 12 ans
|
Non domicilié
|
pas d’épargne
|
employé
|
de 2 à 5 K encours
|
de 10 à 30K mouvt
|
moins de 40 débits
|
découvert interdit
|
chéquier autorisé
|
Bon client
|
de 40 à 50 ans
|
célibataire
|
anc. de 4 ans ou moins
|
Oui domicilié
|
pas d’épargne
|
employé
|
moins de 2K encours
|
de 30 à 50K mouvt
|
plus de 100 débits
|
découvert autorisé
|
chéquier autorisé
|
Bon client
|
de 23 à 39 ans
|
célibataire
|
anc. de 4 à 6 ans
|
Non domicilié
|
pas d’épargne
|
autre
|
de 2 à 5 K encours
|
moins 10 K mouvt
|
de 40 à 100 débits
|
découvert autorisé
|
chéquier autorisé
|
Bon client
|
de 23 à 39 ans
|
célibataire
|
anc. plus 12 ans
|
Oui domicilié
|
pas d’épargne
|
employé
|
moins de 2K encours
|
de 30 à 50K mouvt
|
plus de 100 débits
|
découvert autorisé
|
chéquier autorisé
|
Bon client
|
de 40 à 50 ans
|
marié
|
anc. de 6 à 12 ans
|
Oui domicilié
|
épargne
|
cadre
|
plus de 5 K encours
|
plus de 50K mouvt
|
plus de 100 débits
|
découvert autorisé
|
chéquier autorisé
|
Bon client
|
de 23 à 39 ans
|
marié
|
anc. plus 12 ans
|
Oui domicilié
|
épargne
|
employé
|
plus de 5 K encours
|
plus de 50K mouvt
|
moins de 40 débits
|
découvert interdit
|
chéquier autorisé
|
Analyser les variables
Après importation du fichier comportant des données, on analyse les différentes variables existantes de la table des données. Tout d’abord nous vérifions qu’il existe un identifiant unique.
Type_de_client
|
factor
|
Age_du_client
|
character
|
Situation_familiale_regroupée
|
character
|
Ancienneté
|
character
|
Domiciliation_du_salaire
|
character
|
Domiciliation_epargne_regroupée
|
character
|
Profession
|
character
|
Moyenne_encours
|
character
|
Moyenne_des_mouvements
|
character
|
Cumul_des_débits
|
character
|
Autorisation_de_découvert
|
character
|
Interdiction_de_chéquier
|
character
|
Il est important de connaître les types de données que nous devons analyser. Il existe 2 types de variables explicatives :
-
Qualitatives ayant un certain nombre de modalités
-
Quantitatives : ce sont des indicateurs (continue) que l’on met en place à partir de valeurs numériques qui par définition sont susceptibles à l’application d’opérations arithmétiques.
Distributions et statistiques
On examine les variables une à une :
Pour chaque modalité d’une variable, on observe la distributivité des valeurs possibles comme l’effectif ou le pourcentage de celle-ci par rapport aux autres modalités.
label
|
value
|
percent
|
de 23 à 39 ans
|
59
|
25.2%
|
de 40 à 50 ans
|
65
|
27.8%
|
moins de 23 ans
|
32
|
13.7%
|
plus de 50 ans
|
78
|
33.3%
|
Ensemble
|
234
|
100.0%
|
|
label
|
value
|
percent
|
célibataire
|
80
|
34.2%
|
divorcé/veuf
|
28
|
12.0%
|
marié
|
126
|
53.8%
|
Ensemble
|
234
|
100.0%
|
|
label
|
value
|
percent
|
anc. 1 an ou moins
|
66
|
28.2%
|
anc. de 1 à 4 ans
|
13
|
5.6%
|
anc. de 4 à 6 ans
|
40
|
17.1%
|
anc. de 6 à 12 ans
|
46
|
19.7%
|
anc. plus 12 ans
|
69
|
29.5%
|
Ensemble
|
234
|
100.0%
|
|
label
|
value
|
percent
|
Non domicilié
|
44
|
18.8%
|
Oui domicilié
|
190
|
81.2%
|
Ensemble
|
234
|
100.0%
|
|
label
|
value
|
percent
|
moins de 10K épargne
|
29
|
12.4%
|
pas d’épargne
|
174
|
74.4%
|
plus de 10K épargne
|
31
|
13.2%
|
Ensemble
|
234
|
100.0%
|
|
label
|
value
|
percent
|
autre
|
59
|
25.2%
|
cadre
|
50
|
21.4%
|
employé
|
125
|
53.4%
|
Ensemble
|
234
|
100.0%
|
|
label
|
value
|
percent
|
de 2 à 5 K encours
|
164
|
70.1%
|
moins de 2K encours
|
28
|
12.0%
|
plus de 5 K encours
|
42
|
17.9%
|
Ensemble
|
234
|
100.0%
|
|
label
|
value
|
percent
|
de 10 à 30K mouvt
|
35
|
15.0%
|
de 30 à 50K mouvt
|
71
|
30.3%
|
moins 10 K mouvt
|
41
|
17.5%
|
plus de 50K mouvt
|
87
|
37.2%
|
Ensemble
|
234
|
100.0%
|
|
label
|
value
|
percent
|
de 40 à 100 débits
|
88
|
37.6%
|
moins de 40 débits
|
89
|
38.0%
|
plus de 100 débits
|
57
|
24.4%
|
Ensemble
|
234
|
100.0%
|
|
label
|
value
|
percent
|
découvert autorisé
|
94
|
40.2%
|
découvert interdit
|
140
|
59.8%
|
Ensemble
|
234
|
100.0%
|
|
label
|
value
|
percent
|
chéquier autorisé
|
223
|
95.3%
|
chéquier interdit
|
11
|
4.7%
|
Ensemble
|
234
|
100.0%
|
|
Regroupement des modalités
Si une des valeurs des modalités est trop faible par rapport au jeu de données (ce qui peut rendre le modèle instable), on le regroupe avec une autre valeur ayant un sens grammatical pratiquement équivalent. En général, on fixe un seuil à 30 %.
Le nombre de modalités pour la variable “Ancienneté” avant regroupement
label
|
value
|
anc. 1 an ou moins
|
66
|
anc. de 1 à 4 ans
|
13
|
anc. de 4 à 6 ans
|
40
|
anc. de 6 à 12 ans
|
46
|
anc. plus 12 ans
|
69
|
label
|
value
|
anc. de 4 à 6 ans
|
40
|
anc. de 4 ans ou moins
|
79
|
anc. de 6 à 12 ans
|
46
|
anc. plus 12 ans
|
69
|
Le nombre de modalités pour la variable “Domiciliation de l’épargne” avant regroupement
Concernant le nombre de modalités pour la variable explicative “Domiciliation de l’épargne”, on remarque que des modalités sont sous représentés.
label
|
value
|
moins de 10K épargne
|
29
|
pas d’épargne
|
174
|
plus de 10K épargne
|
31
|
Le nombre de modalités pour la variable “Domiciliation de l’épargne” après regroupement
Comme certaines modalités sont sous representer, nous procédons à un regroupement.
Ci-dessous le nombre de modalité après regroupement
label
|
value
|
épargne
|
60
|
pas d’épargne
|
174
|
Echantionnage (Apprentissage/Test)
Echantionnage d’apprentissage (70% des données)
Classe
|
Effectif
|
Bon
|
155
|
Mauvais
|
162
|
Echantionnage de test (30% des données)
Classe
|
Effectif
|
Bon
|
82
|
Mauvais
|
69
|
Modelisation Regression Logistique
-Selection des variables : Stratégie Stepwise
Stratégie Stepwise : Utilisée lorsque la connaissance des variables prédictrices possibles s’avère limitée. La variable la plus significative est injecté en première. La deuxième est injectée conditionnellement à la première et ainsi de suite. Nous avons choisi instinctivement la stratégie stepwise pour nous faire une première idée sur les variables ayant un impact sur le modèle
|
Bon
|
Mauvais
|
Bon
|
72
|
16
|
Mauvais
|
10
|
53
|
|
Overall
|
Age_du_clientde 40 à 50 ans
|
1.0177498
|
Age_du_clientmoins de 23 ans
|
2.1739790
|
Age_du_clientplus de 50 ans
|
0.6512909
|
Situation_familialedivorcé
|
3.2598211
|
Situation_familialemarié
|
1.7147494
|
Situation_familialeveuf
|
0.5151025
|
Anciennetéanc. de 1 à 4 ans
|
2.0069936
|
Anciennetéanc. de 4 à 6 ans
|
3.4947546
|
Anciennetéanc. de 6 à 12 ans
|
2.3161568
|
Anciennetéanc. plus 12 ans
|
2.8403357
|
Domiciliation_du_salaireOui domicilié
|
4.0264805
|
Domiciliation_epargne_regroupéemoins de 10K épargne
|
0.5840803
|
Domiciliation_epargne_regroupéepas d'épargne
|
0.4892536
|
Domiciliation_epargne_regroupéeplus de 100K épargne
|
0.0174500
|
Professioncadre
|
0.6329669
|
Professionemployé
|
0.1416247
|
Moyenne_encoursmoins de 2K encours
|
1.3573503
|
Moyenne_encoursplus de 5 K encours
|
1.2176322
|
Moyenne_des_mouvementsde 30 à 50K mouvt
|
0.4053367
|
Moyenne_des_mouvementsmoins 10 K mouvt
|
1.0544972
|
Moyenne_des_mouvementsplus de 50K mouvt
|
1.1430418
|
Cumul_des_débitsmoins de 40 débits
|
2.6504200
|
Cumul_des_débitsplus de 100 débits
|
2.5473102
|
Autorisation_de_découvertdécouvert interdit
|
0.0475587
|
Interdiction_de_chéquierchéquier interdit
|
3.0158769
|

Modelisation Arbre de décision
|
Bon
|
Mauvais
|
Bon
|
57
|
13
|
Mauvais
|
25
|
56
|
|
Overall
|
Age_du_clientmoins de 23 ans
|
3.3767496
|
Autorisation_de_découvertdécouvert interdit
|
0.3123374
|
Cumul_des_débitsmoins de 40 débits
|
5.4070096
|
Cumul_des_débitsplus de 100 débits
|
23.7132407
|
Domiciliation_du_salaireOui domicilié
|
26.5168060
|
Domiciliation_epargne_regroupéepas d’épargne
|
1.8853311
|
Interdiction_de_chéquierchéquier interdit
|
24.8031125
|
Moyenne_des_mouvementsmoins 10 K mouvt
|
34.7935102
|
Moyenne_des_mouvementsplus de 50K mouvt
|
4.5517306
|
Moyenne_encoursmoins de 2K encours
|
23.8760699
|
Professioncadre
|
4.6087851
|
Professionemployé
|
1.9444444
|
Situation_familialemarié
|
0.6067821
|
Age_du_clientde 40 à 50 ans
|
0.0000000
|
Age_du_clientmoins de 23 ans
|
0.0000000
|
Age_du_clientplus de 50 ans
|
0.0000000
|
Situation_familialedivorcé
|
0.0000000
|
Situation_familialeveuf
|
0.0000000
|
Anciennetéanc. de 1 à 4 ans
|
0.0000000
|
Anciennetéanc. de 4 à 6 ans
|
0.0000000
|
Anciennetéanc. de 6 à 12 ans
|
0.0000000
|
Anciennetéanc. plus 12 ans
|
0.0000000
|
Domiciliation_du_salaireOui domicilié
|
0.0000000
|
Domiciliation_epargne_regroupéemoins de 10K épargne
|
0.0000000
|
Domiciliation_epargne_regroupéepas d'épargne
|
0.0000000
|
Domiciliation_epargne_regroupéeplus de 100K épargne
|
0.0000000
|
Moyenne_encoursmoins de 2K encours
|
0.0000000
|
Moyenne_encoursplus de 5 K encours
|
0.0000000
|
Moyenne_des_mouvementsde 30 à 50K mouvt
|
0.0000000
|
Moyenne_des_mouvementsmoins 10 K mouvt
|
0.0000000
|
Moyenne_des_mouvementsplus de 50K mouvt
|
0.0000000
|
Cumul_des_débitsmoins de 40 débits
|
0.0000000
|
Cumul_des_débitsplus de 100 débits
|
0.0000000
|
Autorisation_de_découvertdécouvert interdit
|
0.0000000
|
Interdiction_de_chéquierchéquier interdit
|
0.0000000
|

Comparaison des modèles
