Modélisation

Echantionnage (Apprentissage/Test)

Nous allons séparer notre échantillion de données en deux sous-échantillions:

Un échantillion d’apprentissage : Nos différents modèles s’entraîneront sur cette échantillion
Un échantillion de test : Cette échantillion nous permettra de tester le pouvoir prédictif de nos modèles

Classe	Effectif
Actif	1092
Churneurs	524

Echantionnage de test (30% des données)

Classe	Effectif
Actif	251
Churneurs	133

Regression Logistique

-Selection des variables : Stratégie Stepwise

Stratégie Stepwise : Utilisée lorsque la connaissance des variables prédictrices possibles s’avère limitée . La variable la plus significative est injectée en première. La deuxième est injectée conditionnellement à la première et ainsi de suite. Nous avons choisi instinctivement la stratégie stepwise pour nous faire une première idée sur les variables pouvant avoir un impact sur le modèle.

Matrice de Confusion

Afin d’analyser la performance de notre classifieur, nous nous sommes basés sur différentes métriques telles que :

La matrice de confusion
La courbe de ROC

	Actif	Churneurs
Actif	214	52
Churneurs	37	81

On remarque pour les deux classes “Churneurs” & “Actif” clients, que le taux de bien classés est conséquent , il y a peu de mauvais classement.

Metriques du modèle

Sensitivity	0.8525896
Specificity	0.6090226
Pos Pred Value	0.8045113
Neg Pred Value	0.6864407
Precision	0.8045113
Recall	0.8525896
F1	0.8278530
Prevalence	0.6536458
Detection Rate	0.5572917
Detection Prevalence	0.6927083
Balanced Accuracy	0.7308061

Nous avons donc les métriques suivantes:

Sensibilité : taux de vrai positif
Spécificité : taux de vrai négatif

Nous remarquons que les taux de sensibilité et de spécificité sont très correct cela signifie que notre modèle effectue un bon classement .

Courbe de ROC

Nous affichons sur ce graphique, la courbe (droite) sans valeurs discriminantes (dont l’aire de la courbe équivaut à 0,5) et celle de notre classifieur.

On remarque que la courbe se rapproche de la courbe du classifieur idéale avec une valeur d’aire sous la courbe se rapprochant de 80%

Ces informations, en plus des résultats fournient par la matrice de confusion, nous permettent de déduire que notre modèle est plutôt performant .

Modelisation Arbre de décision

Un arbre de décision est un outil d’aide à la décision représentant un ensemble de choix sous la forme graphique d’un arbre. Les différentes décisions possibles sont situées aux extrémités des branches (les « feuilles » de l’arbre), et sont atteintes en fonction de décisions prises à chaque étape.

Arbre de décision

On distingue donc quatre typologies de churneur : Les Non VIP qui n’ont fait aucun achat dans l’univer 1 Les clients qui ont fait un achat ou plus dans l’univer 1, ils ont un CA total inférieur à 632€, ils ont acheté moins de 12 articles de l’univer 1 et leur CA moyen de l’univer 1 est inférieur à 2 € Les clients qui ont fait un achat ou plus dans l’univer 1, ils ont un CA total inférieur à 632€, ils ont acheté moins de 12 articles de l’univer 1 et leur CA moyen de l’univer 1 est inférieur à 2 €, ils ont en moyenne des remise de moins de 3€, ils ont fait moins de 10 visites au cours de l’année et il ne sont pas venu lors du troisième trimestre. Les clients qui ont fait un achat ou plus dans l’univer 1, ils ont un CA total inférieur à 632€, ils ont acheté moins de 12 articles de l’univer 1 et leur CA moyen de l’univer 1 est inférieur à 2 €, ils ont en moyenne des remise de moins de 3€, ils ont fait moins de 10 visites au cours de l’année, ils sont venu au moins une fois lors du trimestre 3, ils ont un panier moyen lors du premier trimestre inférieur à 54€ et ils ont achetés moins de 5 article de l’univers 5.

	Overall
AGE	16.276812
ca_moyen_u1	20.141963
montant_remise_moyen	15.458408
montant_remise_Total	38.866458
nb_article_u1	123.821580
nb_visites	198.343948
nb_visites_T1	6.362525
nombre_article_total	110.909685
panier_moy_T1	2.709636
total_CA	227.145596
total_T1	4.839506
total_T2	1.846788
total_T4	72.002832
total_u1	37.258990
total_u2	93.209479
VIP1	224.999439
panier_moyen	0.000000
nombre_magasin_frequente	0.000000
SEXEMONSIEUR	0.000000
MAGASINBEA	0.000000
MAGASINBEC	0.000000
MAGASINBRE	0.000000
MAGASINBSN	0.000000
MAGASINCLA	0.000000
MAGASINDUM	0.000000
MAGASINECU	0.000000
MAGASINFEG	0.000000
MAGASINFRV	0.000000
MAGASINGAI	0.000000
MAGASINHAG	0.000000
MAGASINMAC	0.000000
MAGASINMET	0.000000
MAGASINMOB	0.000000
MAGASINMUL	0.000000
MAGASINOBE	0.000000
MAGASINPEG	0.000000
MAGASINPOC	0.000000
MAGASINPRI	0.000000
MAGASINQUE	0.000000
MAGASINRAV	0.000000
MAGASINSAL	0.000000
MAGASINSEY	0.000000
MAGASINSGL	0.000000
MAGASINSNO	0.000000
MAGASINSSM	0.000000
MAGASINSTE	0.000000
MAGASINSUR	0.000000
MAGASINTHO	0.000000
MAGASINVAL	0.000000
MAGASINVIB	0.000000
MAGASINVIC	0.000000
MAGASINVIF	0.000000
MAGASINVIT	0.000000
MAGASINVLG	0.000000
`distance_bracet10-20 km`	0.000000
`distance_bracet20-50 km`	0.000000
`distance_bracet5-10 km`	0.000000
`distance_bracetplus de 50 km`	0.000000
nb_visites_T2	0.000000
panier_moy_T2	0.000000
nb_visites_T3	0.000000
total_T3	0.000000
panier_moy_T3	0.000000
nb_visites_T4	0.000000
panier_moy_T4	0.000000
evol_CA_T1T2positive	0.000000
evol_CA_T2T3positive	0.000000
evol_CA_T3T4positive	0.000000
evol_visites_T1T2positive	0.000000
evol_visites_T2T3positive	0.000000
evol_visites_T3T4positive	0.000000
nb_article_u2	0.000000
ca_moyen_u2	0.000000
nb_article_u3	0.000000
total_u3	0.000000
ca_moyen_u3	0.000000
nb_article_u4	0.000000
total_u4	0.000000
ca_moyen_u4	0.000000
nb_article_u5	0.000000
total_u5	0.000000
ca_moyen_u5	0.000000

On retrouve dans ce tableau l’overall calculé pour chaque item de variables. Plus l’overall est élevé, plus les variables ont un impact important dans la modélisation.

CART Matrice de confusion

	Actif	Churneurs
Actif	233	63
Churneurs	18	70

Nous remarquons que l’algorithme CART d’arbre de décision classe assez bien les deux classes, .

Modélisation

Equipe CASA : Jihane LEFEBVRE, Bintou OUEDRAOGO, Wilfried DESCOLIS,Nabil AIT-BAHA

15/05/2018

Modélisation

Echantionnage (Apprentissage/Test)

Echantionnage de test (30% des données)

Regression Logistique

-Selection des variables : Stratégie Stepwise

Matrice de Confusion

Metriques du modèle

Courbe de ROC

Modelisation Arbre de décision

CART Matrice de confusion

CART ROC

Comparaison des modèles

Courbe de lift

Courbe de ROC