Modélisation

Equipe CASA : Jihane LEFEBVRE, Bintou OUEDRAOGO, Wilfried DESCOLIS,Nabil AIT-BAHA

15/05/2018

1 Modélisation

1.1 Echantionnage (Apprentissage/Test)

Nous allons séparer notre échantillion de données en deux sous-échantillions:
  • Un échantillion d'apprentissage : Nos différents modèles s'entraîneront sur cette échantillion
  • Un échantillion de test : Cette échantillion nous permettra de tester le pouvoir prédictif de nos modèles
Classe Effectif
Actif 1092
Churneurs 512

1.2 Echantionnage de test (30% des données)

Classe Effectif
Actif 251
Churneurs 145

1.3 Regression Logistique

1.3.1 -Selection des variables : Stratégie Stepwise

Stratégie Stepwise : Utilisée lorsque la connaissance des variables prédictrices possibles s’avère limitée . La variable la plus significative est injectée en première. La deuxième est injectée conditionnellement à la première et ainsi de suite. Nous avons choisi instinctivement la stratégie stepwise pour nous faire une première idée sur les variables pouvant avoir un impact sur le modèle.

1.3.2 Matrice de Confusion


Afin d'analyser la performance de notre classifieur, nous nous sommes basés sur différentes métriques telles que :
  • La matrice de confusion
  • La courbe de ROC
Actif Churneurs
Actif 213 56
Churneurs 38 89

On remarque pour les deux classes "Churneurs" & "Actif" clients, que le taux de bien classés est conséquent , il y a peu de mauvais classement.

1.3.3 Metriques du modèle

Sensitivity 0.8486056
Specificity 0.6137931
Pos Pred Value 0.7918216
Neg Pred Value 0.7007874
Precision 0.7918216
Recall 0.8486056
F1 0.8192308
Prevalence 0.6338384
Detection Rate 0.5378788
Detection Prevalence 0.6792929
Balanced Accuracy 0.7311993
Nous avons donc les métriques suivantes:
  • Sensibilité : taux de vrai positif
  • Spécificité : taux de vrai négatif

Nous remarquons que les taux de sensibilité et de spécificité sont très correct cela signifie que notre modèle effectue un bon classement .

1.3.4 Courbe de ROC


Nous affichons sur ce graphique, la courbe (droite) sans valeurs discriminantes (dont l'aire de la courbe équivaut à 0,5) et celle de notre classifieur.

On remarque que la courbe se rapproche de la courbe du classifieur idéale avec une valeur d'aire sous la courbe se rapprochant de X

Ces informations, en plus des résultats fournient par la matrice de confusion, nous permettent de déduire que notre modèle est plutôt performant .

1.4 Modelisation Arbre de décision

Un arbre de décision est un outil d'aide à la décision représentant un ensemble de choix sous la forme graphique d'un arbre. Les différentes décisions possibles sont situées aux extrémités des branches (les « feuilles » de l'arbre), et sont atteintes en fonction de décisions prises à chaque étape.

Arbre de décision

Ci-dessus l'arbre de décision, les feuilles representent les classes predites et les noeuds sont des tests sur les variables explicatives. L'arbre de décision permet de créer des règles de décision.

Une des règles que l'on peut déduire de cet arbre est les clients qui sont adhérents depuis plus de 14 ans, non VIP et qui achètent moins de 2 produits de l’univers 1

Overall
ca_moyen_u1 119.946963
ca_moyen_u2 78.292177
ca_moyen_u3 3.012009
evol_CA_T2T3positive 4.165889
montant_remise_moyen 9.722066
montant_remise_Total 106.645153
nb_article_u1 231.125474
nb_visites 110.149691
nb_visites_T1 6.016027
nb_visites_T3 8.635851
nombre_article_total 3.397647
panier_moy_T3 11.153078
panier_moyen 2.273239
total_CA 117.181944
total_T1 2.162985
total_T3 8.373495
total_u1 149.743409
total_u2 77.516569
total_u3 3.862635
VIP1 102.195089
nombre_magasin_frequente 0.000000
SEXEMONSIEUR 0.000000
MAGASINBEA 0.000000
MAGASINBEC 0.000000
MAGASINBRE 0.000000
MAGASINBSN 0.000000
MAGASINCLA 0.000000
MAGASINDUM 0.000000
MAGASINECU 0.000000
MAGASINFEG 0.000000
MAGASINFRV 0.000000
MAGASINGAI 0.000000
MAGASINHAG 0.000000
MAGASINMAC 0.000000
MAGASINMET 0.000000
MAGASINMOB 0.000000
MAGASINMUL 0.000000
MAGASINOBE 0.000000
MAGASINPEG 0.000000
MAGASINPOC 0.000000
MAGASINPRI 0.000000
MAGASINQUE 0.000000
MAGASINRAV 0.000000
MAGASINSAL 0.000000
MAGASINSEY 0.000000
MAGASINSGL 0.000000
MAGASINSNO 0.000000
MAGASINSSM 0.000000
MAGASINSTE 0.000000
MAGASINSUR 0.000000
MAGASINTHO 0.000000
MAGASINVAL 0.000000
MAGASINVIB 0.000000
MAGASINVIC 0.000000
MAGASINVIF 0.000000
MAGASINVIT 0.000000
MAGASINVLG 0.000000
AGE 0.000000
distance_bracet10-20 km 0.000000
distance_bracet20-50 km 0.000000
distance_bracet5-10 km 0.000000
distance_bracetplus de 50 km 0.000000
panier_moy_T1 0.000000
nb_visites_T2 0.000000
total_T2 0.000000
panier_moy_T2 0.000000
nb_visites_T4 0.000000
total_T4 0.000000
panier_moy_T4 0.000000
evol_CA_T1T2positive 0.000000
evol_CA_T3T4positive 0.000000
evol_visites_T1T2positive 0.000000
evol_visites_T2T3positive 0.000000
evol_visites_T3T4positive 0.000000
nb_article_u2 0.000000
nb_article_u3 0.000000
nb_article_u4 0.000000
total_u4 0.000000
ca_moyen_u4 0.000000
nb_article_u5 0.000000
total_u5 0.000000
ca_moyen_u5 0.000000

On retrouve dans ce tableau l'overall calculé pour chaque item de variables. Plus l'overall est élevé, plus les variables ont un impact important dans la modélisation.

1.4.1 CART Matrice de confusion

Actif Churneurs
Actif 226 63
Churneurs 25 82

Nous remarquons que l'algorithme CART d'arbre de décision classe assez bien les deux classes, aussi bien que la regression logistique .

1.4.2 CART ROC

2 Comparaison des modèles

Dans cette partie, nous voulons comparer les modèles suivants :
  • Régression Logistique
  • Arbre de décision

2.1 Courbe de lift


La courbe de Lift permet de mettre en évidence la volumétrie de l'echantillion d'apprentissage à partir duquel notre modèle est le plus performant. Nous remarquons que lorsque le modèle a apris 50% de l'echantillion d'apprentissage, il a la meilleure performance. Les arbres de décisions ont tendance à devenir moins performant passé ce seuil, cela est dû au surapprentissage.

Nous en concluons que si nous voulons un modèle plus robuste nous pourrions par exemple réduire l'échantillon d'apprentissage et augmenter l'échantillion de test.

2.2 Courbe de ROC


Regression logistique AUC:

0.8441269

CART AUC:

0.8370106

On remarque que la regression logistique, à travers l'aire sous la courbe, est plus performante que les arbres de décisions, mais les arbres de décisions sont plus stables .

Si nous devrions choisir un modèle, nous pencherons plutôt pour l'arbre de décision CHAID car il semble plus robuste malgré des performances plus faible que la régression logistique qui a tendance à osciller beaucoup .

Nous pensons que la regression logistique est plus sensible aux fluctuations des données .