1 Modélisation
1.1 Echantionnage (Apprentissage/Test)
Nous allons séparer notre échantillion de données en deux sous-échantillions:- Un échantillion d'apprentissage : Nos différents modèles s'entraîneront sur cette échantillion
- Un échantillion de test : Cette échantillion nous permettra de tester le pouvoir prédictif de nos modèles
Classe | Effectif |
---|---|
Actif | 1092 |
Churneurs | 512 |
1.2 Echantionnage de test (30% des données)
Classe | Effectif |
---|---|
Actif | 251 |
Churneurs | 145 |
1.3 Regression Logistique
1.3.1 -Selection des variables : Stratégie Stepwise
Stratégie Stepwise : Utilisée lorsque la connaissance des variables prédictrices possibles s’avère limitée . La variable la plus significative est injectée en première. La deuxième est injectée conditionnellement à la première et ainsi de suite. Nous avons choisi instinctivement la stratégie stepwise pour nous faire une première idée sur les variables pouvant avoir un impact sur le modèle.
1.3.2 Matrice de Confusion
Afin d'analyser la performance de notre classifieur, nous nous sommes basés sur différentes métriques telles que :
- La matrice de confusion
- La courbe de ROC
Actif | Churneurs | |
---|---|---|
Actif | 213 | 56 |
Churneurs | 38 | 89 |
On remarque pour les deux classes "Churneurs" & "Actif" clients, que le taux de bien classés est conséquent , il y a peu de mauvais classement.
1.3.3 Metriques du modèle
Sensitivity | 0.8486056 |
Specificity | 0.6137931 |
Pos Pred Value | 0.7918216 |
Neg Pred Value | 0.7007874 |
Precision | 0.7918216 |
Recall | 0.8486056 |
F1 | 0.8192308 |
Prevalence | 0.6338384 |
Detection Rate | 0.5378788 |
Detection Prevalence | 0.6792929 |
Balanced Accuracy | 0.7311993 |
- Sensibilité : taux de vrai positif
- Spécificité : taux de vrai négatif
Nous remarquons que les taux de sensibilité et de spécificité sont très correct cela signifie que notre modèle effectue un bon classement .
1.3.4 Courbe de ROC
Nous affichons sur ce graphique, la courbe (droite) sans valeurs discriminantes (dont l'aire de la courbe équivaut à 0,5) et celle de notre classifieur.
On remarque que la courbe se rapproche de la courbe du classifieur idéale avec une valeur d'aire sous la courbe se rapprochant de X
Ces informations, en plus des résultats fournient par la matrice de confusion, nous permettent de déduire que notre modèle est plutôt performant .
1.4 Modelisation Arbre de décision
Un arbre de décision est un outil d'aide à la décision représentant un ensemble de choix sous la forme graphique d'un arbre. Les différentes décisions possibles sont situées aux extrémités des branches (les « feuilles » de l'arbre), et sont atteintes en fonction de décisions prises à chaque étape.
Arbre de décision
Ci-dessus l'arbre de décision, les feuilles representent les classes predites et les noeuds sont des tests sur les variables explicatives. L'arbre de décision permet de créer des règles de décision.
Une des règles que l'on peut déduire de cet arbre est les clients qui sont adhérents depuis plus de 14 ans, non VIP et qui achètent moins de 2 produits de l’univers 1
Overall | |
---|---|
ca_moyen_u1 | 119.946963 |
ca_moyen_u2 | 78.292177 |
ca_moyen_u3 | 3.012009 |
evol_CA_T2T3positive | 4.165889 |
montant_remise_moyen | 9.722066 |
montant_remise_Total | 106.645153 |
nb_article_u1 | 231.125474 |
nb_visites | 110.149691 |
nb_visites_T1 | 6.016027 |
nb_visites_T3 | 8.635851 |
nombre_article_total | 3.397647 |
panier_moy_T3 | 11.153078 |
panier_moyen | 2.273239 |
total_CA | 117.181944 |
total_T1 | 2.162985 |
total_T3 | 8.373495 |
total_u1 | 149.743409 |
total_u2 | 77.516569 |
total_u3 | 3.862635 |
VIP1 | 102.195089 |
nombre_magasin_frequente | 0.000000 |
SEXEMONSIEUR | 0.000000 |
MAGASINBEA | 0.000000 |
MAGASINBEC | 0.000000 |
MAGASINBRE | 0.000000 |
MAGASINBSN | 0.000000 |
MAGASINCLA | 0.000000 |
MAGASINDUM | 0.000000 |
MAGASINECU | 0.000000 |
MAGASINFEG | 0.000000 |
MAGASINFRV | 0.000000 |
MAGASINGAI | 0.000000 |
MAGASINHAG | 0.000000 |
MAGASINMAC | 0.000000 |
MAGASINMET | 0.000000 |
MAGASINMOB | 0.000000 |
MAGASINMUL | 0.000000 |
MAGASINOBE | 0.000000 |
MAGASINPEG | 0.000000 |
MAGASINPOC | 0.000000 |
MAGASINPRI | 0.000000 |
MAGASINQUE | 0.000000 |
MAGASINRAV | 0.000000 |
MAGASINSAL | 0.000000 |
MAGASINSEY | 0.000000 |
MAGASINSGL | 0.000000 |
MAGASINSNO | 0.000000 |
MAGASINSSM | 0.000000 |
MAGASINSTE | 0.000000 |
MAGASINSUR | 0.000000 |
MAGASINTHO | 0.000000 |
MAGASINVAL | 0.000000 |
MAGASINVIB | 0.000000 |
MAGASINVIC | 0.000000 |
MAGASINVIF | 0.000000 |
MAGASINVIT | 0.000000 |
MAGASINVLG | 0.000000 |
AGE | 0.000000 |
distance_bracet10-20 km
|
0.000000 |
distance_bracet20-50 km
|
0.000000 |
distance_bracet5-10 km
|
0.000000 |
distance_bracetplus de 50 km
|
0.000000 |
panier_moy_T1 | 0.000000 |
nb_visites_T2 | 0.000000 |
total_T2 | 0.000000 |
panier_moy_T2 | 0.000000 |
nb_visites_T4 | 0.000000 |
total_T4 | 0.000000 |
panier_moy_T4 | 0.000000 |
evol_CA_T1T2positive | 0.000000 |
evol_CA_T3T4positive | 0.000000 |
evol_visites_T1T2positive | 0.000000 |
evol_visites_T2T3positive | 0.000000 |
evol_visites_T3T4positive | 0.000000 |
nb_article_u2 | 0.000000 |
nb_article_u3 | 0.000000 |
nb_article_u4 | 0.000000 |
total_u4 | 0.000000 |
ca_moyen_u4 | 0.000000 |
nb_article_u5 | 0.000000 |
total_u5 | 0.000000 |
ca_moyen_u5 | 0.000000 |
On retrouve dans ce tableau l'overall calculé pour chaque item de variables. Plus l'overall est élevé, plus les variables ont un impact important dans la modélisation.
1.4.1 CART Matrice de confusion
Actif | Churneurs | |
---|---|---|
Actif | 226 | 63 |
Churneurs | 25 | 82 |
Nous remarquons que l'algorithme CART d'arbre de décision classe assez bien les deux classes, aussi bien que la regression logistique .
1.4.2 CART ROC
2 Comparaison des modèles
Dans cette partie, nous voulons comparer les modèles suivants :- Régression Logistique
- Arbre de décision
2.1 Courbe de lift
La courbe de Lift permet de mettre en évidence la volumétrie de l'echantillion d'apprentissage à partir duquel notre modèle est le plus performant. Nous remarquons que lorsque le modèle a apris 50% de l'echantillion d'apprentissage, il a la meilleure performance. Les arbres de décisions ont tendance à devenir moins performant passé ce seuil, cela est dû au surapprentissage.
Nous en concluons que si nous voulons un modèle plus robuste nous pourrions par exemple réduire l'échantillon d'apprentissage et augmenter l'échantillion de test.
2.2 Courbe de ROC
Regression logistique AUC:
0.8441269 |
CART AUC:
0.8370106 |
On remarque que la regression logistique, à travers l'aire sous la courbe, est plus performante que les arbres de décisions, mais les arbres de décisions sont plus stables .
Si nous devrions choisir un modèle, nous pencherons plutôt pour l'arbre de décision CHAID car il semble plus robuste malgré des performances plus faible que la régression logistique qui a tendance à osciller beaucoup .
Nous pensons que la regression logistique est plus sensible aux fluctuations des données .