Importation des données

La première étape consiste à importer les données telles qu’elles sont sans effectuer aucune modification. Ci-dessous en bleu la variable à prédire.

Type_de_client Age_du_client Situation_familiale_regroupée Ancienneté Domiciliation_du_salaire Domiciliation_epargne_regroupée Profession Moyenne_encours Moyenne_des_mouvements Cumul_des_débits Autorisation_de_découvert Interdiction_de_chéquier
Bon client moins de 23 ans célibataire anc. de 6 à 12 ans Non domicilié pas d’épargne employé de 2 à 5 K encours de 10 à 30K mouvt moins de 40 débits découvert interdit chéquier autorisé
Bon client de 40 à 50 ans célibataire anc. de 4 ans ou moins Oui domicilié pas d’épargne employé moins de 2K encours de 30 à 50K mouvt plus de 100 débits découvert autorisé chéquier autorisé
Bon client de 23 à 39 ans célibataire anc. de 4 à 6 ans Non domicilié pas d’épargne autre de 2 à 5 K encours moins 10 K mouvt de 40 à 100 débits découvert autorisé chéquier autorisé
Bon client de 23 à 39 ans célibataire anc. plus 12 ans Oui domicilié pas d’épargne employé moins de 2K encours de 30 à 50K mouvt plus de 100 débits découvert autorisé chéquier autorisé
Bon client de 40 à 50 ans marié anc. de 6 à 12 ans Oui domicilié épargne cadre plus de 5 K encours plus de 50K mouvt plus de 100 débits découvert autorisé chéquier autorisé
Bon client de 23 à 39 ans marié anc. plus 12 ans Oui domicilié épargne employé plus de 5 K encours plus de 50K mouvt moins de 40 débits découvert interdit chéquier autorisé

Analyser les variables

Après importation du fichier comportant des données, on analyse les différentes variables existantes de la table des données. Tout d’abord nous vérifions qu’il existe un identifiant unique.

Type_de_client factor
Age_du_client character
Situation_familiale_regroupée character
Ancienneté character
Domiciliation_du_salaire character
Domiciliation_epargne_regroupée character
Profession character
Moyenne_encours character
Moyenne_des_mouvements character
Cumul_des_débits character
Autorisation_de_découvert character
Interdiction_de_chéquier character
Il est important de connaître les types de données que nous devons analyser. Il existe 2 types de variables explicatives :

Distributions et statistiques

On examine les variables une à une :
Pour chaque modalité d’une variable, on observe la distributivité des valeurs possibles comme l’effectif ou le pourcentage de celle-ci par rapport aux autres modalités.

label value percent
de 23 à 39 ans 59 25.2%
de 40 à 50 ans 65 27.8%
moins de 23 ans 32 13.7%
plus de 50 ans 78 33.3%
Ensemble 234 100.0%
label value percent
célibataire 80 34.2%
divorcé/veuf 28 12.0%
marié 126 53.8%
Ensemble 234 100.0%
label value percent
anc. 1 an ou moins 66 28.2%
anc. de 1 à 4 ans 13 5.6%
anc. de 4 à 6 ans 40 17.1%
anc. de 6 à 12 ans 46 19.7%
anc. plus 12 ans 69 29.5%
Ensemble 234 100.0%
label value percent
Non domicilié 44 18.8%
Oui domicilié 190 81.2%
Ensemble 234 100.0%
label value percent
moins de 10K épargne 29 12.4%
pas d’épargne 174 74.4%
plus de 10K épargne 31 13.2%
Ensemble 234 100.0%
label value percent
autre 59 25.2%
cadre 50 21.4%
employé 125 53.4%
Ensemble 234 100.0%
label value percent
de 2 à 5 K encours 164 70.1%
moins de 2K encours 28 12.0%
plus de 5 K encours 42 17.9%
Ensemble 234 100.0%
label value percent
de 10 à 30K mouvt 35 15.0%
de 30 à 50K mouvt 71 30.3%
moins 10 K mouvt 41 17.5%
plus de 50K mouvt 87 37.2%
Ensemble 234 100.0%
label value percent
de 40 à 100 débits 88 37.6%
moins de 40 débits 89 38.0%
plus de 100 débits 57 24.4%
Ensemble 234 100.0%
label value percent
découvert autorisé 94 40.2%
découvert interdit 140 59.8%
Ensemble 234 100.0%
label value percent
chéquier autorisé 223 95.3%
chéquier interdit 11 4.7%
Ensemble 234 100.0%

Regroupement des modalités

Si une des valeurs des modalités est trop faible par rapport au jeu de données (ce qui peut rendre le modèle instable), on le regroupe avec une autre valeur ayant un sens grammatical pratiquement équivalent. En général, on fixe un seuil à 30 %.

Le nombre de modalités pour la variable “Ancienneté” avant regroupement

label value
anc. 1 an ou moins 66
anc. de 1 à 4 ans 13
anc. de 4 à 6 ans 40
anc. de 6 à 12 ans 46
anc. plus 12 ans 69
label value
anc. de 4 à 6 ans 40
anc. de 4 ans ou moins 79
anc. de 6 à 12 ans 46
anc. plus 12 ans 69

Le nombre de modalités pour la variable “Domiciliation de l’épargne” avant regroupement

Concernant le nombre de modalités pour la variable explicative “Domiciliation de l’épargne”, on remarque que des modalités sont sous représentés.

label value
moins de 10K épargne 29
pas d’épargne 174
plus de 10K épargne 31

Le nombre de modalités pour la variable “Domiciliation de l’épargne” après regroupement

Comme certaines modalités sont sous representer, nous procédons à un regroupement.
Ci-dessous le nombre de modalité après regroupement

label value
épargne 60
pas d’épargne 174

Echantionnage (Apprentissage/Test)

Echantionnage d’apprentissage (70% des données)

Classe Effectif
Bon 165
Mauvais 164

Echantionnage de test (30% des données)

Classe Effectif
Bon 72
Mauvais 67

Modelisation Regression Logistique

-Selection des variables : Stratégie Stepwise

Stratégie Stepwise : Utilisée lorsque la connaissance des variables prédictrices possibles s’avère limitée. La variable la plus significative est injecté en première. La deuxième est injectée conditionnellement à la première et ainsi de suite. Nous avons choisi instinctivement la stratégie stepwise pour nous faire une première idée sur les variables ayant un impact sur le modèle
Bon Mauvais
Bon 61 15
Mauvais 11 52
Overall
Age_du_clientde 40 à 50 ans 1.4856976
Age_du_clientmoins de 23 ans 0.8737580
Age_du_clientplus de 50 ans 1.1217060
Situation_familialedivorcé 2.5061885
Situation_familialemarié 1.0731110
Situation_familialeveuf 1.1550691
Anciennetéanc. de 1 à 4 ans 1.1132740
Anciennetéanc. de 4 à 6 ans 4.2393177
Anciennetéanc. de 6 à 12 ans 2.3162705
Anciennetéanc. plus 12 ans 2.6458487
Domiciliation_du_salaireOui domicilié 3.2898080
Domiciliation_epargne_regroupéemoins de 10K épargne 0.6026486
Domiciliation_epargne_regroupéepas d'épargne 0.7761292
Domiciliation_epargne_regroupéeplus de 100K épargne 0.0191907
Professioncadre 0.2935824
Professionemployé 0.5517817
Moyenne_encoursmoins de 2K encours 1.5862344
Moyenne_encoursplus de 5 K encours 0.1334544
Moyenne_des_mouvementsde 30 à 50K mouvt 0.9396694
Moyenne_des_mouvementsmoins 10 K mouvt 0.9131219
Moyenne_des_mouvementsplus de 50K mouvt 2.1489969
Cumul_des_débitsmoins de 40 débits 2.5634619
Cumul_des_débitsplus de 100 débits 2.2100635
Autorisation_de_découvertdécouvert interdit 0.2248830
Interdiction_de_chéquierchéquier interdit 3.4791289

Modelisation Arbre de décision

Bon Mauvais
Bon 52 17
Mauvais 20 50
Overall
Anciennetéanc. de 4 à 6 ans 4.422917
Cumul_des_débitsmoins de 40 débits 4.820440
Cumul_des_débitsplus de 100 débits 14.962960
Domiciliation_du_salaireOui domicilié 23.448120
Interdiction_de_chéquierchéquier interdit 32.005770
Moyenne_des_mouvementsmoins 10 K mouvt 24.783180
Moyenne_des_mouvementsplus de 50K mouvt 7.506402
Moyenne_encoursmoins de 2K encours 28.512114
Moyenne_encoursplus de 5 K encours 6.192432
Age_du_clientde 40 à 50 ans 0.000000
Age_du_clientmoins de 23 ans 0.000000
Age_du_clientplus de 50 ans 0.000000
Situation_familialedivorcé 0.000000
Situation_familialemarié 0.000000
Situation_familialeveuf 0.000000
Anciennetéanc. de 1 à 4 ans 0.000000
Anciennetéanc. de 4 à 6 ans 0.000000
Anciennetéanc. de 6 à 12 ans 0.000000
Anciennetéanc. plus 12 ans 0.000000
Domiciliation_du_salaireOui domicilié 0.000000
Domiciliation_epargne_regroupéemoins de 10K épargne 0.000000
Domiciliation_epargne_regroupéepas d'épargne 0.000000
Domiciliation_epargne_regroupéeplus de 100K épargne 0.000000
Professioncadre 0.000000
Professionemployé 0.000000
Moyenne_encoursmoins de 2K encours 0.000000
Moyenne_encoursplus de 5 K encours 0.000000
Moyenne_des_mouvementsde 30 à 50K mouvt 0.000000
Moyenne_des_mouvementsmoins 10 K mouvt 0.000000
Moyenne_des_mouvementsplus de 50K mouvt 0.000000
Cumul_des_débitsmoins de 40 débits 0.000000
Cumul_des_débitsplus de 100 débits 0.000000
Autorisation_de_découvertdécouvert interdit 0.000000
Interdiction_de_chéquierchéquier interdit 0.000000

Comparaison des modèles