Introduction au machine learning

Attachés 2024

Vous avez dit “machine learning” ?

“La bonne vieille IA”…

…VS l’apprentissage automatique

Les différents types d’apprentissage automatique

  1. L’apprentissage supervisé

  2. L’apprentissage non supervisé

  3. L’apprentissage par essai/erreur

But de l’apprentissage supervisé : la prédiction

  • \[ Y = f(X_1, X_2, ...,X_n) \]

  • Le but premier n’est pas d’expliquer mais de prédire.

  • Deux types d’apprentissage supervisé :

    • Régression

    • Classification

Comment la machine apprend ?

  • Le statisticien fixe un cadre d’apprentissage : le modèle

  • Des algorithmes permettent d’entraîner ces modèles sur des données étiquetées. Leur but est de minimiser l’erreur d’estimation.

  • Les algorithmes sont des répétitions de calculs simples permettant d’approcher de façon itérative le résultat attendu.

Quelques exemples de modèles

  • Régression linéaire / Régression logistique

  • Arbre de régression / Arbre de classification

  • Méthodes à base d’arbres :

    • Forêt aléatoire

    • Boosting

  • KNN (plus proches voisins)

  • SVM

  • Réseaux de neurones/deep learning

Prédire ou estimer ?

Y_prix X1_surface
logement1 1000 50
logement2 800 30
logement3 600 25
logement4 1000 60
logement5 800 35

\[ Y = 416,5 + 10,6 X_1 \]

Y_prix X1_surface prix_estime
logement1 1000 50 945.9
logement2 800 30 734.1
logement3 600 25 681.2
logement4 1000 60 1051.8
logement5 800 35 787.1
surface prix_prevu
logement6 45 892.9
logement7 30 734.1
logement8 110 1581.2

Comment savoir si un modèle a bien appris ?

  • Le modèle apprend (s’ajuste) sur une base d’entraînement.

  • Un modèle entraîné sur une base s’appelle une instance.

  • On évalue la performance de cette instance sur une base de validation.

Problème de régression

locations
Y_prix X1_surface
logement1 1000 50
logement2 800 30
logement3 600 25
logement4 1000 60
logement5 800 35
logement6 900 45
logement7 300 30
logement8 1500 110
location_train
Y_prix X1_surface
logement1 1000 50
logement2 800 30
logement3 600 25
logement4 1000 60
logement5 800 35

Call:
lm(formula = locations_train$Y_prix ~ locations_train$X1_surface)

Residuals:
     1      2      3      4      5 
 54.12  65.88 -81.18 -51.76  12.94 

Coefficients:
                           Estimate Std. Error t value Pr(>|t|)  
(Intercept)                  416.47     107.68   3.868   0.0306 *
locations_train$X1_surface    10.59       2.56   4.137   0.0256 *
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 74.62 on 3 degrees of freedom
Multiple R-squared:  0.8508,    Adjusted R-squared:  0.8011 
F-statistic: 17.11 on 1 and 3 DF,  p-value: 0.02564
locations_valid
.pred .resid Y_prix X1_surface
892.9 7.1 900 45
734.1 -434.1 300 30
1581.2 -81.2 1500 110

Indicateurs de performances

\[ RSS = \sum_{i=1}^{N}{(y_i - \hat{y}_i)^2} \]

\[ MSE = \frac{RSS}{N} \]

\[ RMSE = \sqrt{MSE} \]

\[ R² = \frac{SCE}{SCT} \]

Problème de classification

canards
Y_femelle X1_poids
canard1 1 841
canard2 1 600
canard3 0 1200
canard4 1 500
canard5 1 700
canard6 0 1150
canard7 0 750
canard8 0 800
canard9 1 680
canards10 0 910
canards_train
Y_femelle X1_poids
canard1 1 841
canard2 1 600
canard3 0 1200
canard4 1 500
canard5 1 700
canards6 0 1150
canards7 0 750
══ Workflow [trained] ══════════════════════════════════════════════════════════
Preprocessor: Recipe
Model: logistic_reg()

── Preprocessor ────────────────────────────────────────────────────────────────
0 Recipe Steps

── Model ───────────────────────────────────────────────────────────────────────

Call:  stats::glm(formula = ..y ~ ., family = stats::binomial, data = data)

Coefficients:
(Intercept)     X1_poids  
    9.21213     -0.01098  

Degrees of Freedom: 6 Total (i.e. Null);  5 Residual
Null Deviance:      9.561 
Residual Deviance: 4.685    AIC: 8.685
canards_valid
.pred_class .pred_0 .pred_1 Y_femelle X1_poids
1 0.40 0.60 0 800
1 0.15 0.85 1 680
0 0.69 0.31 0 910

Indicateurs de performances

Exactitude : (TN + TP) / (TN + TP + FP + FN)

Sensibilité (Rappel, ou taux de vrais positifs) : TP / (TP + FN)

Spécificité : TN / (TN + FP)

Précision : TP / (TP + FP)

La validation croisée

Les deux écueils de l’apprentissage

  • Le sous-apprentissage : le modèle n’est pas adapté ou trop simple.

  • Le sur-apprentissage : le modèle colle trop aux données d’apprentissage.

A la recherche du bon modèle

Le compromis biais-variance

Autre exemple

Un arbre de décision, c’est quoi ?

Comment est-il construit ?

L’algorithme CART permet d’ajuster le modèle sur les données d’entraînement.

  1. L’utilisateur paramètre la profondeur de l’arbre.

  2. A chaque noeud, l’algorithme (CART) choisit la variable la plus discriminante.

  3. Il teste toutes les valeurs de cette variable et choisit celle qui discrimine le mieux.

  4. Le noeud est divisé en deux parties qui deviennent soit des feuilles soit des noeuds.

  5. L’estimation est soit la moyenne (pour la régression) soit la modalité majoritaire (pour la classification).

La forêt aléatoire : mieux qu’un arbre !

  • L’arbre de décision est un apprenant faible (faibles performances)…

  • La forêt aléatoire entraîne un grand nombre instances d’arbres :

    • sur des données légèrement différentes (bootstrap)

    • sur une partie des variables explicatives

  • Les estimations de tous les arbres sont ensuite combinées :

    • pour la régression : on prend la moyenne

    • pour la classification : on prend la valeur majoritaire

Forêt aléatoire : illustration

.

Le KNN : les plus proches voisins

Classification supervisée

Régression supervisée

Les étapes de l’apprentissage supervisé :

  1. Définir le sujet (classification ou régression ?)

  2. Explorer et nettoyer la base de données

  3. Réserver une partie de la base pour l’apprentissage/validation/test

  4. Apprendre des données avec des modèles/algorithmes

  5. Comparer les performances prédictives de ces algorithmes

  6. Choisir le meilleur modèle et le mettre en production

Premier exemple

Régression ou classification ?

Grandile
Y_REVENU X1_NBPIECES X2_AGE
42476 4 59
14155 3 96
24696 1 41
21418 2 74
64255 5 38
42047 3 43
38543 4 67
32735 4 34
39086 5 53
42880 5 29
47687 3 33
16973 2 86
13602 2 69
12832 1 91
73697 2 59
82289 8 58
12586 3 96
45611 8 41
45493 5 36
41852 5 30
46765 5 43
50602 5 32
25092 1 41
12736 1 75
28304 3 24
55220 4 41
40119 3 42
52525 5 45
13374 3 79
24052 4 65
22482 2 59
12862 3 91
72041 5 44
24495 2 33
24110 3 37
101718 5 61
50568 8 25
32690 2 33
12957 3 81
58191 2 45
22915 1 39
39196 4 42
25286 3 42
13101 1 76
22659 5 64
40002 1 54
22486 4 60
20515 6 59
22701 6 71
69430 3 30
12917 4 56
12616 2 89
84281 6 58
16691 5 26
33589 1 44
13154 2 65
28233 1 55
25639 1 42
53782 6 56
42123 5 54
17489 5 49
46696 5 37
27170 4 41
52403 5 48
22220 4 68
36737 5 45
60434 8 37
44056 5 38
11636 1 22
11318 1 21
24990 4 35
38147 2 44
40863 7 42
13372 2 86
12905 1 91
19587 6 69
15608 6 53
22710 5 64
77087 2 45
53205 4 57
21424 1 54
99668 3 45
12742 3 79
56474 5 30
55198 5 34
22700 2 73
62475 4 47
12604 1 76
46606 7 51
55174 6 40
21130 5 18
13292 3 66
47790 2 52
39500 8 46
37925 8 43
20490 6 72
20870 7 74
12723 1 79
14682 6 25
25313 3 52

Exploration de la base brute

Data summary
Name grandile
Number of rows 5418
Number of columns 3
_______________________
Column type frequency:
numeric 3
________________________
Group variables None

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
Y_REVENU 0 1 33889.09 19431.26 9823 19771.5 27169.5 44531 116674 ▇▅▁▁▁
X1_NBPIECES 0 1 3.61 1.94 1 2.0 3.0 5 10 ▇▇▆▂▁
X2_AGE 0 1 51.82 18.74 16 37.0 50.0 66 99 ▅▇▇▅▂

Nettoyage et transformation des données

  • Traitement des données manquantes

  • Traitement des “outliers”

  • Encodage de variables

  • Transformation de variables (log, centrage-réduction)

  • Création de nouvelles variables

Partition de la base

  • Base d’entraînement : 60 %

  • Base de validation : 20 %

  • Base de test : 20 %

Base d’entraînement

Data summary
Name train_grandile
Number of rows 3250
Number of columns 3
_______________________
Column type frequency:
numeric 3
________________________
Group variables None

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
Y_REVENU 0 1 33478.94 19253.68 9823 19689.75 26673.5 44496.5 109241 ▇▅▂▁▁
X1_NBPIECES 0 1 3.59 1.92 1 2.00 3.0 5.0 10 ▇▇▆▂▁
X2_AGE 0 1 51.92 18.80 16 37.00 50.0 66.0 99 ▅▇▆▅▂

Modèle 1 : Régression linéaire

══ Workflow [trained] ══════════════════════════════════════════════════════════
Preprocessor: Recipe
Model: linear_reg()

── Preprocessor ────────────────────────────────────────────────────────────────
0 Recipe Steps

── Model ───────────────────────────────────────────────────────────────────────

Call:
stats::lm(formula = ..y ~ ., data = data)

Coefficients:
(Intercept)  X1_NBPIECES       X2_AGE  
    40356.8       3611.0       -381.8  

Modèle 2 : Arbre de régression (visualisation)

Modèle 2 : sortie R

══ Workflow [trained] ══════════════════════════════════════════════════════════
Preprocessor: Recipe
Model: decision_tree()

── Preprocessor ────────────────────────────────────────────────────────────────
0 Recipe Steps

── Model ───────────────────────────────────────────────────────────────────────
n= 3250 

node), split, n, deviance, yval
      * denotes terminal node

 1) root 3250 1.204418e+12 33478.94  
   2) X2_AGE>=59.5 1093 7.009491e+10 18209.92 *
   3) X2_AGE< 59.5 2157 7.503724e+11 41216.09  
     6) X1_NBPIECES< 4.5 1328 3.958018e+11 35487.69  
      12) X2_AGE< 24.5 117 6.771606e+09 15298.85 *
      13) X2_AGE>=24.5 1211 3.367348e+11 37438.23  
        26) X1_NBPIECES< 1.5 225 1.676386e+10 27253.01 *
        27) X1_NBPIECES>=1.5 986 2.913035e+11 39762.44 *
     7) X1_NBPIECES>=4.5 829 2.411843e+11 50392.59 *

Prévisions sur la base de validation

Y_REVENU X1_NBPIECES X2_AGE Y_REG Y_ARBRE
14155 3 96 14535 18210
32735 4 34 41819 39762
52525 5 45 41230 50393
72041 5 44 41612 50393
13101 1 76 14950 18210
20515 6 59 39496 50393
84281 6 58 39877 50393
13154 2 65 22761 18210
42123 5 54 37794 50393
15608 6 53 41786 50393
12742 3 79 21026 18210
55198 5 34 45430 50393
12604 1 76 14950 18210
46606 7 51 46161 50393
55174 6 40 46750 50393
58180 2 47 29633 39762
34891 4 42 38764 39762
77105 3 38 36681 39762
19681 5 83 26721 18210
13257 3 86 18354 18210
12921 1 69 17622 18210
12985 2 82 16270 18210
77572 7 48 47307 50393
13024 1 88 10368 18210
52346 5 43 41994 50393
31245 1 48 25641 27253
24155 3 71 24081 18210
13234 2 87 14361 18210
40270 2 44 30779 39762
55187 6 51 42550 50393
12710 2 69 21233 18210
12804 2 62 23906 18210
97998 5 51 38939 50393
25746 2 41 31924 39762
26207 4 51 35328 39762
18256 2 24 38415 15299
43156 7 38 51125 50393
27620 2 35 34215 39762
12898 3 82 19881 18210
24142 2 82 16270 18210
44487 4 32 42583 39762
13645 1 66 18768 18210
12740 2 63 23524 18210
73386 6 51 42550 50393
21560 4 72 27310 18210
23442 1 52 24113 27253
23435 1 49 25259 27253
11098 2 21 39561 15299
43392 3 53 30953 39762
19791 7 79 35470 18210
24789 7 80 35088 18210
43097 5 62 34739 18210
46447 3 44 34390 39762
12980 1 94 8077 18210
56516 8 34 56263 50393
21850 3 48 32863 39762
13827 1 81 13041 18210
55281 5 47 40466 50393
21507 2 72 20088 18210
77017 4 29 43728 39762
20348 6 63 37968 18210
21006 6 72 34532 18210
76099 6 42 45986 50393
40709 5 27 48103 50393
14108 1 95 7695 18210
21386 3 30 39735 39762
44497 4 18 47928 15299
82294 7 32 53416 50393
12685 2 72 20088 18210
42564 4 53 34564 39762
10926 2 18 40706 15299
47812 7 53 45397 50393
52455 7 47 47688 50393
82213 6 46 44459 50393
10658 2 30 36124 39762
28077 3 56 29808 39762
27421 1 42 27931 27253
77053 2 41 31924 39762
44397 5 44 41612 50393
77067 2 25 38033 39762
41947 6 31 50186 50393
26984 1 33 31368 27253
23975 5 51 38939 50393
22174 7 71 38525 18210
22090 5 61 35121 18210
13053 1 60 21059 18210
44521 2 48 29252 39762
44635 5 36 44666 50393
45627 6 50 42932 50393
22457 3 82 19881 18210
27632 5 49 39703 50393
27332 4 50 35710 39762
26515 4 38 40292 39762
24767 4 72 27310 18210
37686 6 37 47896 50393
43424 4 47 36855 39762
43272 2 56 26197 39762
55204 8 51 49772 50393
23551 3 38 36681 39762
29392 1 43 27550 27253
55182 4 28 44110 39762
34141 5 36 44666 50393
53123 2 43 31161 39762
24787 4 60 31892 18210
12905 3 64 26754 18210
12987 1 86 11132 18210
25915 3 45 34008 39762
42333 3 33 38590 39762
43233 4 51 35328 39762
21468 4 73 26928 18210
23502 1 52 24113 27253
45732 7 41 49979 50393
21987 4 88 21201 18210
46582 5 40 43139 50393
21564 5 82 27103 18210
42429 4 48 36474 39762
44327 7 49 46925 50393
22569 4 67 29219 18210
77036 2 27 37270 39762
43470 2 29 36506 39762
23919 3 54 30572 39762
39576 5 49 39703 50393
12912 2 82 16270 18210
23879 5 45 41230 50393
53918 5 54 37794 50393
38150 2 34 34597 39762
22638 1 37 29841 27253
43321 4 41 39146 39762
20274 6 71 34914 18210
45499 5 39 43521 50393
23866 4 44 38001 39762
44379 3 42 35153 39762
11650 1 23 35186 15299
68208 4 58 32655 39762
16026 8 72 41754 18210
51845 7 54 45016 50393
44373 6 37 47896 50393
41757 5 50 39321 50393
27613 2 32 35361 39762
43128 5 58 36266 50393
13163 1 68 18004 18210
26980 1 54 23350 27253
11226 4 23 46019 15299
82666 5 53 38175 50393
55160 6 59 39496 50393
21414 3 51 31717 39762
46742 5 32 46194 50393
44727 2 35 34215 39762
42322 2 27 37270 39762
77003 2 49 28870 39762
23382 4 28 44110 39762
21041 5 66 33212 18210
20501 7 74 37379 18210
25461 4 70 28074 18210
77003 3 59 28663 39762
19739 7 70 38907 18210
21540 2 82 16270 18210
21503 2 68 21615 18210
14011 3 61 27899 18210
29195 4 58 32655 39762
23061 1 64 19532 18210
40847 6 42 45986 50393
23611 1 53 23732 27253
43360 3 48 32863 39762
56769 5 58 36266 50393
51011 8 36 55499 50393
12894 2 74 19324 18210
42987 5 51 38939 50393
41186 3 52 31335 39762
61107 3 34 38208 39762
73756 5 46 40848 50393
17307 2 44 30779 39762
45489 4 42 38764 39762
10904 2 25 38033 39762
40595 5 44 41612 50393
54325 4 51 35328 39762
12749 6 85 29568 18210
40302 3 48 32863 39762
30597 1 49 25259 27253
80291 5 57 36648 50393
10749 2 71 20470 18210
62500 8 40 53972 50393
22536 5 62 34739 18210
21997 2 70 20852 18210
32147 3 24 42026 15299
24403 3 56 29808 39762
75530 2 31 35742 39762
21968 3 63 27135 18210
28164 1 32 31750 27253
13598 2 65 22761 18210
12911 1 66 18768 18210
10211 4 42 38764 39762
46939 7 51 46161 50393
40671 7 31 53797 50393
17844 2 54 26961 39762
22020 2 74 19324 18210
55183 5 58 36266 50393
102517 6 52 42168 50393
13416 1 61 20677 18210
12809 1 76 14950 18210
31085 3 56 29808 39762
21854 1 27 33659 27253
20366 5 61 35121 18210
57607 2 33 34979 39762
52938 4 55 33801 39762
46822 5 53 38175 50393
20867 2 41 31924 39762
40105 2 33 34979 39762
35801 2 42 31542 39762
55191 5 39 43521 50393
52024 3 40 35917 39762
43628 3 52 31335 39762
12952 3 92 16063 18210
82406 5 45 41230 50393
20859 4 25 45255 39762
23987 1 44 27168 27253
10893 3 20 43553 15299
55235 6 30 50568 50393
77653 4 41 39146 39762
44236 5 25 48866 50393
20935 6 17 55532 50393
12887 1 63 19913 18210
13098 2 82 16270 18210
39577 5 43 41994 50393
45378 3 26 41263 39762
39770 1 35 30604 27253
53076 3 52 31335 39762
12832 2 68 21615 18210
55198 6 30 50568 50393
29276 1 35 30604 27253
54294 3 21 43172 15299
80346 5 50 39321 50393
44479 7 39 50743 50393
77959 6 39 47132 50393
106373 4 50 35710 39762
29285 2 29 36506 39762
21848 4 52 34946 39762
30061 1 43 27550 27253
12840 1 84 11895 18210
21466 5 80 27866 18210
29361 1 59 21441 27253
13332 3 91 16444 18210
77088 4 41 39146 39762
44415 7 49 46925 50393
22977 3 28 40499 39762
11330 1 31 32131 27253
22101 4 61 31510 18210
47900 5 42 42375 50393
22495 1 53 23732 27253
50393 2 27 37270 39762
23547 4 46 37237 39762
46796 6 53 41786 50393
49941 5 34 45430 50393
12847 1 65 19150 18210
39113 3 63 27135 18210
21421 2 66 22379 18210
12802 1 75 15332 18210
22867 1 59 21441 27253
45504 7 47 47688 50393
12915 1 60 21059 18210
82252 5 33 45812 50393
11176 3 21 43172 15299
39218 3 56 29808 39762
35402 3 23 42408 15299
12771 1 93 8459 18210
77125 2 28 36888 39762
43219 3 58 29044 39762
82018 5 29 47339 50393
13683 3 80 20644 18210
12891 1 72 16477 18210
21639 2 73 19706 18210
12855 1 79 13804 18210
30156 4 27 44492 39762
43244 4 51 35328 39762
39665 1 39 29077 27253
22579 2 63 23524 18210
22685 6 61 38732 18210
13116 1 94 8077 18210
55112 8 48 50918 50393
13369 5 65 33594 18210
27934 2 54 26961 39762
25323 4 52 34946 39762
15040 5 70 31685 18210
44264 5 48 40085 50393
21951 3 63 27135 18210
43074 4 39 39910 39762
43461 2 28 36888 39762
12713 3 70 24463 18210
87812 4 43 38383 39762
15170 5 48 40085 50393
23785 4 62 31128 18210
21391 2 84 15506 18210
13352 3 89 17208 18210
58041 7 30 54179 50393
21561 2 74 19324 18210
99626 2 54 26961 39762
18816 2 51 28106 39762
53072 4 43 38383 39762
25065 1 50 24877 27253
22793 2 67 21997 18210
43174 5 40 43139 50393
12774 3 76 22172 18210
21428 4 87 21583 18210
26197 5 76 29394 18210
22772 7 64 41198 18210
39275 2 43 31161 39762
56328 6 43 45605 50393
12756 2 74 19324 18210
24445 1 35 30604 27253
86939 3 56 29808 39762
20339 5 74 30157 18210
40199 3 42 35153 39762
19565 8 77 39845 18210
82123 8 36 55499 50393
47576 5 42 42375 50393
12666 2 83 15888 18210
12957 2 68 21615 18210
24007 1 51 24495 27253
40002 1 36 30222 27253
62511 6 39 47132 50393
49505 7 29 54561 50393
13322 1 85 11513 18210
78440 7 43 49216 50393
12708 2 70 20852 18210
73846 7 29 54561 50393
30686 1 54 23350 27253
21917 4 37 40674 39762
21264 1 77 14568 18210
25234 3 39 36299 39762
47985 5 38 43903 50393
74449 6 63 37968 18210
29343 1 57 22204 27253
49612 7 40 50361 50393
13422 3 86 18354 18210
24931 2 26 37652 39762
53192 2 50 28488 39762
53011 5 56 37030 50393
24096 1 53 23732 27253
44349 7 49 46925 50393
81200 4 37 40674 39762
55330 2 50 28488 39762
60683 5 31 46575 50393
32073 1 55 22968 27253
20245 7 65 40816 18210
45560 6 58 39877 50393
51693 3 29 40117 39762
44480 4 27 44492 39762
56691 5 57 36648 50393
12829 2 72 20088 18210
17122 2 43 31161 39762
18336 3 44 34390 39762
39696 6 35 48659 50393
58039 2 31 35742 39762
11396 1 20 36331 15299
21687 3 86 18354 18210
13767 1 88 10368 18210
28275 1 55 22968 27253
19941 6 72 34532 18210
44467 4 36 41055 39762
101971 5 53 38175 50393
43235 4 42 38764 39762
28831 2 49 28870 39762
25122 2 45 30397 39762
75278 2 37 33452 39762
41940 7 49 46925 50393
49946 3 49 32481 39762
48110 7 54 45016 50393
13504 1 82 12659 18210
47630 3 40 35917 39762
38125 2 48 29252 39762
21717 3 77 21790 18210
13253 1 68 18004 18210
40377 3 37 37063 39762
50534 2 57 25815 39762
21929 2 35 34215 39762
38551 7 34 52652 50393
26078 3 22 42790 15299
24554 1 44 27168 27253
52276 6 58 39877 50393
43152 4 51 35328 39762
42267 2 37 33452 39762
48037 5 46 40848 50393
87597 6 41 46368 50393
40140 4 50 35710 39762
13110 1 78 14186 18210
17841 1 39 29077 27253
22583 4 62 31128 18210
41034 6 40 46750 50393
55150 6 26 52096 50393
51842 3 49 32481 39762
57949 5 58 36266 50393
46794 4 59 32274 39762
43183 6 31 50186 50393
12711 3 69 24844 18210
43183 5 49 39703 50393
44793 2 53 27342 39762
65974 5 39 43521 50393
21928 3 66 25990 18210
10701 1 94 8077 18210
40125 2 37 33452 39762
55140 5 31 46575 50393
40196 4 25 45255 39762
13650 2 76 18561 18210
44357 5 45 41230 50393
11355 2 19 40324 15299
23548 3 20 43553 15299
77593 5 56 37030 50393
25412 5 92 23285 18210
21606 2 66 22379 18210
11470 2 21 39561 15299
52882 3 41 35535 39762
73699 6 37 47896 50393
79467 6 32 49805 50393
35544 5 57 36648 50393
21907 2 96 10924 18210
28725 2 29 36506 39762
35495 2 58 25433 39762
19756 5 63 34357 18210
55289 5 25 48866 50393
69154 6 25 52477 50393
44851 5 32 46194 50393
26871 5 71 31303 18210
80255 5 46 40848 50393
21882 3 35 37826 39762
54237 2 57 25815 39762
38121 2 48 29252 39762
40298 3 52 31335 39762
25008 3 36 37444 39762
24489 1 47 26022 27253
22652 6 71 34914 18210
38172 1 57 22204 27253
13102 1 62 20295 18210
12750 1 74 15713 18210
16930 7 56 44252 50393
20381 5 75 29776 18210
21532 2 65 22761 18210
47572 2 45 30397 39762
11179 2 20 39942 15299
18940 1 58 21822 27253
46798 6 47 44077 50393
22004 4 66 29601 18210
25193 4 43 38383 39762
27527 1 58 21822 27253
82297 5 26 48485 50393
76271 5 55 37412 50393
77167 5 52 38557 50393
12892 3 76 22172 18210
41769 8 52 49390 50393
26540 3 54 30572 39762
22016 1 58 21822 27253
57975 8 29 58172 50393
24790 6 85 29568 18210
13298 1 64 19532 18210
43194 4 45 37619 39762
30994 6 48 43696 50393
98126 3 50 32099 39762
34015 3 54 30572 39762
45474 2 33 34979 39762
16850 5 25 48866 50393
12907 5 95 22139 18210
61025 2 42 31542 39762
14773 8 36 55499 50393
25287 3 39 36299 39762
53189 2 46 30015 39762
23565 2 65 22761 18210
20758 4 63 30746 18210
42024 7 41 49979 50393
16086 7 52 45779 50393
13054 2 74 19324 18210
43474 5 44 41612 50393
12932 2 76 18561 18210
55430 2 49 28870 39762
22628 3 83 19499 18210
42914 7 46 48070 50393
19733 5 74 30157 18210
57953 6 25 52477 50393
45639 8 26 59318 50393
22633 1 66 18768 18210
12835 4 74 26546 18210
70242 4 58 32655 39762
43421 3 41 35535 39762
13387 2 74 19324 18210
55203 7 40 50361 50393
82246 5 45 41230 50393
22402 2 27 37270 39762
13583 1 66 18768 18210
20509 3 47 33244 39762
28153 2 58 25433 39762
55513 3 30 39735 39762
32706 4 58 32655 39762
38422 4 47 36855 39762
45885 5 51 38939 50393
13231 2 67 21997 18210
13287 1 92 8841 18210
40570 7 38 51125 50393
29205 1 25 34422 27253
41656 7 53 45397 50393
39734 8 43 52827 50393
22213 1 43 27550 27253
21457 2 80 17033 18210
12763 1 90 9604 18210
41373 4 27 44492 39762
14024 2 83 15888 18210
36682 6 56 40641 50393
67512 6 22 53623 50393
43006 7 26 55707 50393
43056 6 47 44077 50393
20672 5 38 43903 50393
26383 3 53 30953 39762
12604 3 83 19499 18210
53193 3 27 40881 39762
21678 3 60 28281 18210
55293 6 52 42168 50393
21930 3 62 27517 18210
44002 7 44 48834 50393
55360 6 45 44841 50393
12751 2 77 18179 18210
39536 8 37 55118 50393
11219 3 22 42790 15299
13086 1 90 9604 18210
50536 4 30 43346 39762
44500 2 48 29252 39762
19465 5 70 31685 18210
47735 5 35 45048 50393
44356 2 36 33833 39762
23608 2 69 21233 18210
13211 2 81 16652 18210
44361 3 43 34772 39762
22870 2 35 34215 39762
44511 6 43 45605 50393
13501 4 70 28074 18210
53643 6 25 52477 50393
11182 1 61 20677 18210
35464 7 55 44634 50393
23588 3 44 34390 39762
24716 5 92 23285 18210
13182 1 93 8459 18210
50576 7 27 55325 50393
50380 3 37 37063 39762
30157 2 39 32688 39762
22907 3 43 34772 39762
21575 4 73 26928 18210
40715 6 42 45986 50393
13157 2 57 25815 39762
12792 2 73 19706 18210
67834 2 55 26579 39762
13111 1 61 20677 18210
78369 8 53 49008 50393
17295 3 27 40881 39762
116674 4 59 32274 39762
45562 6 36 48277 50393
21411 2 86 14743 18210
49143 2 47 29633 39762
16336 5 54 37794 50393
16605 8 90 34881 18210
50546 5 26 48485 50393
85385 3 40 35917 39762
13172 3 62 27517 18210
45533 5 56 37030 50393
44302 5 44 41612 50393
20463 6 65 37205 18210
43064 8 58 47099 50393
43379 1 30 32513 27253
56621 5 27 48103 50393
23500 2 82 16270 18210
22939 3 67 25608 18210
39623 6 48 43696 50393
38653 5 32 46194 50393
48022 4 27 44492 39762
22062 2 62 23906 18210
55205 6 26 52096 50393
12790 2 74 19324 18210
30522 4 52 34946 39762
39249 2 43 31161 39762
21527 2 78 17797 18210
44460 6 41 46368 50393
43527 3 40 35917 39762
18710 3 20 43553 15299
57678 5 43 41994 50393
40796 6 48 43696 50393
39952 2 44 30779 39762
55292 5 25 48866 50393
23762 2 87 14361 18210
21217 1 39 29077 27253
22864 3 49 32481 39762
22302 1 37 29841 27253
82089 5 36 44666 50393
39835 6 48 43696 50393
43285 3 36 37444 39762
13079 4 59 32274 39762
44475 3 57 29426 39762
24439 2 32 35361 39762
41422 2 50 28488 39762
23603 2 68 21615 18210
43329 2 54 26961 39762
21523 3 78 21408 18210
23106 1 45 26786 27253
76998 3 29 40117 39762
12872 1 70 17241 18210
19804 8 73 41372 18210
25887 4 26 44874 39762
48040 4 54 34183 39762
54411 5 39 43521 50393
20566 6 60 39114 18210
45623 7 32 53416 50393
25898 4 41 39146 39762
40977 5 43 41994 50393
82193 8 42 53208 50393
46803 7 56 44252 50393
54285 5 53 38175 50393
13650 1 71 16859 18210
40206 3 35 37826 39762
43189 5 37 44285 50393
22047 3 72 23699 18210
21962 2 77 18179 18210
44454 6 32 49805 50393
37549 3 54 30572 39762
21566 4 70 28074 18210
28054 3 22 42790 15299
50474 2 49 28870 39762
22682 4 67 29219 18210
40122 2 46 30015 39762
23674 2 76 18561 18210
77054 3 46 33626 39762
78241 7 40 50361 50393
11356 1 22 35568 15299
12860 3 65 26372 18210
42460 4 43 38383 39762
48137 7 43 49216 50393
34848 4 32 42583 39762
13334 1 65 19150 18210
25966 5 83 26721 18210
35061 2 60 24670 18210
24490 3 39 36299 39762
39702 5 43 41994 50393
21330 2 87 14361 18210
13618 1 70 17241 18210
39778 1 48 25641 27253
19727 5 70 31685 18210
53217 3 46 33626 39762
43393 3 52 31335 39762
80401 5 30 46957 50393
47746 4 32 42583 39762
99566 4 50 35710 39762
21440 4 83 23110 18210
77080 4 42 38764 39762
27857 3 46 33626 39762
22873 5 60 35503 18210
11418 1 22 35568 15299
44282 6 50 42932 50393
21901 1 52 24113 27253
46655 7 46 48070 50393
16471 6 78 32241 18210
41186 3 29 40117 39762
46866 7 53 45397 50393
14054 2 59 25052 39762
12889 3 59 28663 39762
55122 5 33 45812 50393
23113 2 79 17415 18210
12832 4 73 26928 18210
27276 4 35 41437 39762
74533 5 54 37794 50393
43356 2 50 28488 39762
20897 6 88 28423 18210
30690 1 58 21822 27253
19674 5 60 35503 18210
44549 5 54 37794 50393
82451 5 51 38939 50393
41265 2 26 37652 39762
47784 4 42 38764 39762
80401 5 47 40466 50393
42054 6 48 43696 50393
12948 1 64 19532 18210
44268 6 47 44077 50393
64301 6 36 48277 50393
70026 6 39 47132 50393
70111 3 55 30190 39762
22042 3 67 25608 18210
73674 7 28 54943 50393
40777 6 35 48659 50393
12708 3 87 17972 18210
40823 6 42 45986 50393
15908 5 25 48866 50393
12768 2 68 21615 18210
19760 5 74 30157 18210
13094 1 85 11513 18210
22902 1 71 16859 18210
45751 5 36 44666 50393
49144 5 38 43903 50393
12740 4 80 24255 18210
18436 3 56 29808 39762
37793 4 27 44492 39762
10766 3 38 36681 39762
23965 1 65 19150 18210
32731 5 50 39321 50393
73664 6 35 48659 50393
45404 7 42 49597 50393
55177 6 58 39877 50393
32854 3 54 30572 39762
76487 5 54 37794 50393
39679 6 46 44459 50393
21525 3 51 31717 39762
21547 6 65 37205 18210
36681 2 41 31924 39762
21302 4 65 29983 18210
12678 5 84 26339 18210
56859 4 28 44110 39762
46638 7 48 47307 50393
47836 3 33 38590 39762
43468 2 38 33070 39762
23431 1 44 27168 27253
10657 3 33 38590 39762
13910 3 93 15681 18210
12931 1 84 11895 18210
56622 4 42 38764 39762
39630 7 47 47688 50393
45582 5 44 41612 50393
45637 4 36 41055 39762
54255 5 56 37030 50393
78571 7 44 48834 50393
20798 5 64 33976 18210
42105 2 33 34979 39762
55391 7 54 45016 50393
27781 3 25 41644 39762
21881 1 65 19150 18210
21940 4 66 29601 18210
49449 5 31 46575 50393
56685 4 26 44874 39762
12842 1 75 15332 18210
11337 1 20 36331 15299
82369 5 26 48485 50393
22964 2 48 29252 39762
12869 1 74 15713 18210
37480 3 33 38590 39762
39306 4 42 38764 39762
13379 5 79 28248 18210
17836 2 19 40324 15299
25344 4 38 40292 39762
51726 3 36 37444 39762
11482 2 23 38797 15299
11244 1 21 35950 15299
27415 6 76 33005 18210
23032 1 29 32895 27253
23425 2 27 37270 39762
22582 5 92 23285 18210
39045 3 35 37826 39762
39258 7 26 55707 50393
32715 3 57 29426 39762
13871 2 85 15124 18210
21595 2 68 21615 18210
56567 5 35 45048 50393
71833 3 51 31717 39762
13139 1 62 20295 18210
23483 1 48 25641 27253
28823 2 58 25433 39762
21776 3 78 21408 18210
19721 5 72 30921 18210
13123 1 64 19532 18210
47942 3 31 39353 39762
24602 7 79 35470 18210
21742 3 36 37444 39762
48005 2 39 32688 39762
14274 5 61 35121 18210
24520 1 27 33659 27253
10414 5 19 51157 50393
35473 5 52 38557 50393
77661 7 40 50361 50393
10777 1 62 20295 18210
11482 2 22 39179 15299
18010 1 23 35186 15299
12796 2 92 12452 18210
43237 7 45 48452 50393
13087 2 94 11688 18210
22930 2 54 26961 39762
59304 6 45 44841 50393
13202 1 63 19913 18210
13169 1 67 18386 18210
41787 7 52 45779 50393
27214 3 29 40117 39762
47969 5 49 39703 50393
43143 7 57 43870 50393
10804 1 78 14186 18210
21407 5 60 35503 18210
22229 4 66 29601 18210
38244 2 53 27342 39762
10969 1 19 36713 15299
25726 5 63 34357 18210
52160 7 52 45779 50393
21440 3 83 19499 18210
22407 2 58 25433 39762
39893 1 45 26786 27253
42307 3 56 29808 39762
11049 2 71 20470 18210
21487 2 61 24288 18210
39840 4 58 32655 39762
20363 8 66 44045 18210
32638 4 49 36092 39762
14137 3 67 25608 18210
52979 4 49 36092 39762
10774 1 19 36713 15299
19643 5 70 31685 18210
34249 4 32 42583 39762
33627 4 43 38383 39762
44279 6 50 42932 50393
40945 4 38 40292 39762
77027 3 48 32863 39762
52774 5 28 47721 50393
39205 4 51 35328 39762
39271 3 52 31335 39762
23623 3 74 22935 18210
22886 1 27 33659 27253
41370 5 54 37794 50393
22143 3 80 20644 18210
41835 6 35 48659 50393
41769 5 42 42375 50393
52417 6 31 50186 50393
40993 5 56 37030 50393
12921 3 81 20263 18210
39818 1 38 29459 27253
20240 5 71 31303 18210
13661 1 62 20295 18210
24770 4 67 29219 18210
24734 4 83 23110 18210
82541 5 51 38939 50393
43120 5 35 45048 50393
60628 5 37 44285 50393
19771 7 65 40816 18210
57886 5 40 43139 50393
39933 1 40 28695 27253
26356 1 55 22968 27253
51577 5 49 39703 50393
40741 4 40 39528 39762
52154 5 44 41612 50393
70068 3 60 28281 18210
55246 6 51 42550 50393
43421 2 48 29252 39762
32685 3 40 35917 39762
45385 5 42 42375 50393
73759 6 50 42932 50393
12789 2 90 13215 18210
55136 7 41 49979 50393
55287 5 28 47721 50393
44379 7 50 46543 50393
13085 2 60 24670 18210
17744 2 37 33452 39762
31511 1 53 23732 27253
14421 5 49 39703 50393
11122 4 61 31510 18210
45676 5 49 39703 50393
46691 3 39 36299 39762
12831 2 81 16652 18210
20590 4 63 30746 18210
54451 1 61 20677 18210
14420 3 65 26372 18210
11142 4 34 41819 39762
31735 1 59 21441 27253
12995 3 76 22172 18210
23274 2 37 33452 39762
50588 7 44 48834 50393
38604 4 47 36855 39762
24100 1 25 34422 27253
24568 1 37 29841 27253
42358 2 59 25052 39762
41301 3 55 30190 39762
49033 6 57 40259 50393
12979 1 96 7313 18210
24873 1 48 25641 27253
25260 4 42 38764 39762
28249 3 19 43935 15299
13252 2 63 23524 18210
45656 8 44 52445 50393
45362 4 28 44110 39762
23397 1 39 29077 27253
17967 4 52 34946 39762
13112 1 78 14186 18210
97642 8 53 49008 50393
50950 7 42 49597 50393
44465 6 43 45605 50393
12812 2 89 13597 18210
12703 1 85 11513 18210
19765 8 68 43281 18210
20438 6 70 35296 18210
12767 2 85 15124 18210
11364 2 31 35742 39762
40761 5 32 46194 50393
41030 5 45 41230 50393
13664 4 60 31892 18210
12760 1 71 16859 18210
42433 4 54 34183 39762
22131 3 75 22554 18210
23625 1 26 34041 27253
11214 2 82 16270 18210
30623 1 55 22968 27253
39367 3 50 32099 39762
22449 3 26 41263 39762
21544 2 57 25815 39762
32673 5 30 46957 50393
34833 3 31 39353 39762
10876 1 21 35950 15299
38284 2 26 37652 39762
20986 2 31 35742 39762
44143 5 28 47721 50393
44525 2 57 25815 39762
17840 1 62 20295 18210
57808 6 36 48277 50393
12961 1 64 19532 18210
41141 3 37 37063 39762
24689 4 48 36474 39762
23834 2 62 23906 18210
17042 3 78 21408 18210
13072 1 62 20295 18210
22514 1 70 17241 18210
22196 2 72 20088 18210
39789 7 44 48834 50393
22380 1 40 28695 27253
41230 2 53 27342 39762
44261 3 37 37063 39762
11499 3 22 42790 15299
42029 7 52 45779 50393
12959 1 81 13041 18210
53044 2 35 34215 39762
36612 7 46 48070 50393
21462 1 61 20677 18210
44229 6 58 39877 50393
25083 4 44 38001 39762
21597 4 68 28837 18210
44518 5 49 39703 50393
46787 5 37 44285 50393
12979 4 66 29601 18210
10929 6 50 42932 50393
82127 5 44 41612 50393
19777 6 82 30714 18210
22198 3 74 22935 18210
20301 4 76 25783 18210
13304 3 61 27899 18210
28236 2 55 26579 39762
53095 3 50 32099 39762
12682 2 94 11688 18210
40459 3 41 35535 39762
45419 5 52 38557 50393
82194 7 40 50361 50393
32146 1 20 36331 15299
39961 1 63 19913 18210
35458 6 56 40641 50393
13842 3 95 14917 18210
40160 2 27 37270 39762
95933 5 50 39321 50393
47737 5 45 41230 50393
80402 6 34 49041 50393
56691 7 40 50361 50393
38440 2 50 28488 39762
12942 2 79 17415 18210
18369 5 89 24430 18210
23530 1 48 25641 27253
20987 6 60 39114 18210
26692 1 37 29841 27253
22085 3 71 24081 18210
45569 6 35 48659 50393
12911 1 97 6932 18210
20882 5 67 32830 18210
12676 5 73 30539 18210
47922 2 38 33070 39762
17009 4 27 44492 39762
12966 2 96 10924 18210
22789 2 31 35742 39762
26947 5 87 25194 18210
13309 1 64 19532 18210
20503 5 66 33212 18210
23204 2 61 24288 18210
77110 4 43 38383 39762
20449 6 69 35677 18210
13869 5 64 33976 18210
82254 8 33 56645 50393
11199 2 19 40324 15299
41136 3 32 38972 39762
49309 7 37 51507 50393
10988 1 18 37095 15299
23069 2 87 14361 18210
26914 2 57 25815 39762
12936 1 92 8841 18210
36284 2 38 33070 39762
29318 1 43 27550 27253
23726 2 67 21997 18210
21570 1 44 27168 27253
51840 3 27 40881 39762
41309 2 52 27724 39762
22180 5 65 33594 18210
27562 3 37 37063 39762
12757 1 73 16095 18210
21582 4 68 28837 18210
38538 6 36 48277 50393
53178 2 42 31542 39762
51952 3 43 34772 39762
52997 3 47 33244 39762
13433 1 97 6932 18210
44306 5 27 48103 50393
21493 4 81 23874 18210
81939 8 28 58554 50393
32273 2 57 25815 39762
42218 4 50 35710 39762
21020 5 66 33212 18210
11246 1 19 36713 15299
19756 5 72 30921 18210
21660 3 67 25608 18210
29463 4 34 41819 39762
13012 2 60 24670 18210
11557 3 24 42026 15299
80360 7 59 43107 50393
23107 1 68 18004 18210
48997 2 33 34979 39762
52429 5 59 35885 50393
12863 1 80 13422 18210
13407 1 72 16477 18210
46561 5 41 42757 50393
20384 5 94 22521 18210
79453 4 31 42964 39762
43457 2 27 37270 39762
39961 3 34 38208 39762
21023 4 25 45255 39762
71964 4 52 34946 39762
43367 3 41 35535 39762
24727 7 69 39288 18210
39395 2 43 31161 39762
19902 7 74 37379 18210
12945 2 66 22379 18210
28176 1 59 21441 27253
11262 1 48 25641 27253
36105 2 30 36124 39762
39685 1 43 27550 27253
50563 4 45 37619 39762
53693 6 44 45223 50393
12460 6 77 32623 18210
12673 2 82 16270 18210
38569 6 39 47132 50393
52345 8 50 50154 50393
78936 7 49 46925 50393
42970 6 54 41405 50393
12985 1 62 20295 18210
24905 6 62 38350 18210
22610 2 67 21997 18210
41267 4 49 36092 39762
24392 4 36 41055 39762
23567 2 40 32306 39762
45481 6 37 47896 50393
27095 2 55 26579 39762
44303 7 48 47307 50393
17832 1 28 33277 27253
51750 1 54 23350 27253
40900 8 46 51681 50393
41449 2 29 36506 39762
13360 2 67 21997 18210
45375 5 51 38939 50393
13403 1 85 11513 18210
24774 5 42 42375 50393
50462 3 56 29808 39762
46681 7 41 49979 50393
13360 2 91 12833 18210
52931 4 32 42583 39762
22242 2 67 21997 18210
43345 1 49 25259 27253
54292 2 51 28106 39762
41963 5 34 45430 50393
42626 5 48 40085 50393
82190 6 36 48277 50393
46864 6 38 47514 50393
12769 3 67 25608 18210
63270 4 46 37237 39762
19647 5 65 33594 18210
13058 2 61 24288 18210
73608 7 33 53034 50393
13466 2 71 20470 18210
17436 3 56 29808 39762
22052 2 83 15888 18210
19788 7 67 40052 18210
39638 5 38 43903 50393
23079 3 66 25990 18210
40147 2 42 31542 39762
11023 3 20 43553 15299
11602 1 26 34041 27253
25398 4 75 26165 18210
13183 1 66 18768 18210
40705 8 48 50918 50393
18659 1 59 21441 27253
20824 6 76 33005 18210

Comparaison des performances

Modèle MSE RMSE
Modèle 1 : Régression linéaire 2.6929032^{8} 1.64101^{4} 0.33
Modèle 2 : Arbre 2.0045389^{8} 1.41582^{4} 0.5

Optimisation des modèles

  1. Et si on retirait une variable ? ajoutait une variable ?

  2. Et si on essayait avec un arbre plus profond ? (hyper-paramètres)

  3. Et si on construisait des variables à partir des variables existantes ? (X², Log(X) etc…)

Entraînement du modèle final

══ Workflow [trained] ══════════════════════════════════════════════════════════
Preprocessor: Recipe
Model: decision_tree()

── Preprocessor ────────────────────────────────────────────────────────────────
0 Recipe Steps

── Model ───────────────────────────────────────────────────────────────────────
n= 4334 

node), split, n, deviance, yval
      * denotes terminal node

 1) root 4334 1.636048e+12 33858.69  
   2) X2_AGE>=59.5 1440 8.654326e+10 18210.93 *
   3) X2_AGE< 59.5 2894 1.021477e+12 41644.72  
     6) X1_NBPIECES< 4.5 1763 5.362400e+11 35767.18  
      12) X2_AGE< 24.5 156 1.106295e+10 15764.29 *
      13) X2_AGE>=24.5 1607 4.566998e+11 37708.96  
        26) X1_NBPIECES< 1.5 302 2.106195e+10 27248.05 *
        27) X1_NBPIECES>=1.5 1305 3.949419e+11 40129.80 *
     7) X1_NBPIECES>=4.5 1131 3.293963e+11 50806.63 *

Généralisation/Mise en production

Y_PREVU X1_NBPIECES X2_AGE
40130 4 59
40130 3 43
18211 2 86
50807 8 41
50807 5 30
18211 3 79
40130 2 33
40130 3 42
40130 3 30
18211 2 89
50807 5 45
15764 1 21
40130 4 35
50807 7 42
18211 2 86
18211 6 69
27248 1 54
40130 3 45
18211 7 74
50807 6 25
27248 1 29
40130 4 31
40130 3 41
18211 2 66
18211 3 87
40130 2 28
50807 6 51
50807 6 37
50807 5 50
40130 2 59
50807 5 26
18211 2 67
18211 8 71
15764 3 23
18211 4 85
18211 3 66
40130 2 42
18211 3 67
18211 2 95
18211 3 62
50807 6 40
50807 5 30
50807 6 45
18211 1 70
50807 7 51
27248 1 26
40130 2 38
18211 5 84
27248 1 39
18211 5 69
40130 2 30
50807 7 35
50807 5 37
18211 2 80
40130 3 31
40130 3 40
50807 5 53
40130 3 31
40130 2 28
40130 3 39
18211 5 65
40130 4 54
15764 2 22
40130 4 35
27248 1 58
18211 2 87
18211 3 72
50807 5 26
40130 4 47
40130 2 50
50807 6 46
18211 5 60
40130 3 50
18211 1 62
40130 2 25
18211 3 63
40130 4 56
18211 1 62
40130 2 46
40130 3 42
18211 3 72
40130 2 49
50807 5 30
15764 1 21
50807 5 47
18211 7 65
40130 4 32
27248 1 38
40130 3 58
50807 5 39
50807 5 28
15764 3 20
50807 6 42
50807 5 37
18211 4 63
50807 6 34
18211 3 62
18211 4 63
50807 5 42
40130 3 47

Deuxième exemple

Régression ou classification ?

Y_PAUVRE X1_REVENU X2_DIPL
0 42476 2
0 14155 6
0 24696 2
0 21418 0
0 64255 3
0 42047 5
1 38543 0
0 32735 4
0 39086 2
0 42880 2
0 47687 6
1 16973 0
0 13602 4
0 12832 0
0 73697 4
0 82289 6
0 12586 0
0 45611 3
0 45493 5
0 41852 4
0 46765 4
0 50602 2
0 25092 5
0 12736 0
0 28304 4
0 55220 4
0 40119 3
0 52525 2
0 13374 3
0 24052 6
0 22482 0
0 12862 0
0 72041 5
0 24495 5
0 24110 3
0 101718 0
0 50568 5
0 32690 4
0 12957 0
0 58191 4
0 22915 0
0 39196 2
0 25286 5
0 13101 1
0 22659 3
0 40002 6
0 22486 3
1 20515 2
1 22701 6
0 69430 6
0 12917 2
1 12616 0
0 84281 3
1 16691 5
0 33589 5
0 13154 2
0 28233 4
0 25639 6
0 53782 3
0 42123 3
1 17489 1
0 46696 4
0 27170 4
0 52403 2
0 22220 1
0 36737 1
0 60434 5
0 44056 6
1 11636 6
1 11318 5
1 24990 4
0 38147 0
0 40863 1
0 13372 3
0 12905 0
1 19587 0
1 15608 3
1 22710 6
0 77087 6
0 53205 4
0 21424 1
0 99668 1
1 12742 0
0 56474 5
0 55198 4
0 22700 3
0 62475 1
0 12604 0
0 46606 5
0 55174 4
0 21130 3
1 13292 3
0 47790 6
0 39500 2
0 37925 3
1 20490 1
1 20870 3
0 12723 0
1 14682 0
0 25313 3

Exploration de la base brute

Data summary
Name grandile
Number of rows 5418
Number of columns 3
_______________________
Column type frequency:
factor 2
numeric 1
________________________
Group variables None

Variable type: factor

skim_variable n_missing complete_rate ordered n_unique top_counts
Y_PAUVRE 0 1 FALSE 2 0: 4517, 1: 901
X2_DIPL 0 1 FALSE 7 3: 1207, 0: 1072, 4: 855, 6: 606

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
X1_REVENU 0 1 33889.09 19431.26 9823 19771.5 27169.5 44531 116674 ▇▅▁▁▁

Partition

  • Base d’entraînement : 60 %

  • Base de validation : 20 %

  • Base de test : 20 %

Exploration de la base d’entraînement

Data summary
Name train_grandile
Number of rows 3250
Number of columns 3
_______________________
Column type frequency:
factor 2
numeric 1
________________________
Group variables None

Variable type: factor

skim_variable n_missing complete_rate ordered n_unique top_counts
Y_PAUVRE 0 1 FALSE 2 0: 2710, 1: 540
X2_DIPL 0 1 FALSE 7 3: 731, 0: 634, 4: 528, 6: 368

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
X1_REVENU 0 1 33814.45 19368.38 9823 19772.25 27025 44534.75 116674 ▇▅▂▁▁

Modèles à entraîner

  1. Régression logistique

  2. Arbre de classification

  3. Forêt aléatoire

Modèle 1 : régression logistique

══ Workflow [trained] ══════════════════════════════════════════════════════════
Preprocessor: Recipe
Model: logistic_reg()

── Preprocessor ────────────────────────────────────────────────────────────────
0 Recipe Steps

── Model ───────────────────────────────────────────────────────────────────────

Call:  stats::glm(formula = ..y ~ ., family = stats::binomial, data = data)

Coefficients:
(Intercept)    X1_REVENU     X2_DIPL1     X2_DIPL2     X2_DIPL3     X2_DIPL4  
  1.6731620   -0.0001539    0.2287291    0.3249587    0.3519125    0.5408592  
   X2_DIPL5     X2_DIPL6  
  0.4859229    0.4291867  

Degrees of Freedom: 3249 Total (i.e. Null);  3242 Residual
Null Deviance:      2923 
Residual Deviance: 2060     AIC: 2076

Prévisions (modèle 1)

Y_PAUVRE Y_REG .pred_0 .pred_1
0 0 0.98 0.02
0 0 0.57 0.43
0 0 0.84 0.16
0 0 0.98 0.02
1 0 0.60 0.40
0 0 0.51 0.49
0 0 0.86 0.14
0 0 1.00 0.00
0 0 0.88 0.12
0 0 1.00 0.00
0 0 0.81 0.19
0 0 1.00 0.00
0 0 0.57 0.43
0 0 1.00 0.00
0 0 0.83 0.17
0 0 0.58 0.42
0 0 0.99 0.01
0 0 1.00 0.00
0 0 0.58 0.42
0 0 1.00 0.00
1 0 0.61 0.39
0 0 0.88 0.12
0 0 0.97 0.03
0 0 1.00 0.00
1 0 0.77 0.23
1 0 0.72 0.28
0 0 0.96 0.04
0 0 0.99 0.01
1 0 0.68 0.32
0 0 0.53 0.47
1 0 0.78 0.22
1 1 0.40 0.60
0 0 1.00 0.00
0 0 0.98 0.02
0 0 0.57 0.43
0 0 1.00 0.00
0 0 0.53 0.47
0 0 0.94 0.06
0 0 1.00 0.00
0 0 1.00 0.00
0 0 0.99 0.01
0 0 0.91 0.09
0 0 0.85 0.15
0 0 1.00 0.00
0 0 0.98 0.02
0 0 0.82 0.18
0 0 1.00 0.00
0 0 0.83 0.17
0 0 0.82 0.18
0 0 0.84 0.16
1 1 0.38 0.62
0 0 0.99 0.01
0 0 1.00 0.00
0 0 0.99 0.01
0 0 0.99 0.01
0 0 0.90 0.10
0 0 0.52 0.48
0 0 1.00 0.00
0 0 1.00 0.00
0 0 0.79 0.21
0 0 0.84 0.16
0 0 0.80 0.20
0 0 0.99 0.01
0 0 1.00 0.00
0 0 1.00 0.00
0 0 0.58 0.42
0 0 1.00 0.00
0 0 0.85 0.15
0 0 0.52 0.48
0 0 1.00 0.00
0 0 1.00 0.00
0 0 0.99 0.01
1 0 0.79 0.21
0 0 0.57 0.43
0 0 1.00 0.00
0 0 0.80 0.20
1 1 0.49 0.51
0 0 0.89 0.11
1 0 0.77 0.23
0 0 0.98 0.02
1 1 0.42 0.58
0 0 0.88 0.12
1 0 0.80 0.20
0 0 0.99 0.01
0 0 0.98 0.02
1 1 0.38 0.62
0 0 0.95 0.05
1 0 0.77 0.23
1 1 0.40 0.60
0 0 0.96 0.04
0 0 0.90 0.10
0 0 0.84 0.16
0 0 0.98 0.02
0 0 0.84 0.16
0 0 0.51 0.49
0 0 0.98 0.02
0 0 1.00 0.00
0 0 0.51 0.49
0 0 0.92 0.08
0 0 0.89 0.11

Table de confusion (modèle 1)

Performances (modèle 1)

Exactitude Sensibilité Spécificité
Modèle 1 : régression logistique 0.88 0.4 0.98

Modèle 2 : arbre de classification

══ Workflow [trained] ══════════════════════════════════════════════════════════
Preprocessor: Recipe
Model: decision_tree()

── Preprocessor ────────────────────────────────────────────────────────────────
0 Recipe Steps

── Model ───────────────────────────────────────────────────────────────────────
n= 3250 

node), split, n, loss, yval, (yprob)
      * denotes terminal node

 1) root 3250 540 0 (0.83384615 0.16615385)  
   2) X1_REVENU>=21187.5 2311  72 0 (0.96884466 0.03115534) *
   3) X1_REVENU< 21187.5 939 468 0 (0.50159744 0.49840256)  
     6) X1_REVENU>=12624.5 763 295 0 (0.61336828 0.38663172)  
      12) X1_REVENU< 14208 462  46 0 (0.90043290 0.09956710) *
      13) X1_REVENU>=14208 301  52 1 (0.17275748 0.82724252) *
     7) X1_REVENU< 12624.5 176   3 1 (0.01704545 0.98295455) *

Modèle 3 : forêt aléatoire

══ Workflow [trained] ══════════════════════════════════════════════════════════
Preprocessor: Recipe
Model: rand_forest()

── Preprocessor ────────────────────────────────────────────────────────────────
0 Recipe Steps

── Model ───────────────────────────────────────────────────────────────────────
Ranger result

Call:
 ranger::ranger(x = maybe_data_frame(x), y = y, mtry = min_cols(~3,      x), num.trees = ~1000, num.threads = 1, verbose = FALSE,      seed = sample.int(10^5, 1), probability = TRUE) 

Type:                             Probability estimation 
Number of trees:                  1000 
Sample size:                      3250 
Number of independent variables:  2 
Mtry:                             2 
Target node size:                 10 
Variable importance mode:         none 
Splitrule:                        gini 
OOB prediction error (Brier s.):  0.03482798 

Comparaison des modèles

Exactitude Spécificité Sensibilité
Modèle 1 : régression logistique 0.88 0.4 0.98
Modèle 2 : arbre de classification 0.95 0.79 0.98
Modèle 3 : forêt aléatoire 0.96 0.83 0.98

Optimisation

  1. Et si on ajoutait/retirait des variables explicatives ?

  2. Et si on regroupait des modalités sur DIPL ?

  3. Et si on modifiait la profondeur de l’arbre (modèle 2) ?

  4. Et si modifiait le nombre d’arbres tirés aléatoirement ? Le nombre de variables ? (modèle 3)

Entraînement du modèle final

══ Workflow [trained] ══════════════════════════════════════════════════════════
Preprocessor: Recipe
Model: rand_forest()

── Preprocessor ────────────────────────────────────────────────────────────────
0 Recipe Steps

── Model ───────────────────────────────────────────────────────────────────────
Ranger result

Call:
 ranger::ranger(x = maybe_data_frame(x), y = y, mtry = min_cols(~3,      x), num.trees = ~1000, num.threads = 1, verbose = FALSE,      seed = sample.int(10^5, 1), probability = TRUE) 

Type:                             Probability estimation 
Number of trees:                  1000 
Sample size:                      4334 
Number of independent variables:  2 
Mtry:                             2 
Target node size:                 10 
Variable importance mode:         none 
Splitrule:                        gini 
OOB prediction error (Brier s.):  0.03567222 

Généralisation/Mise en production

Y_PAUVRE Y_PREDICT .pred_0 .pred_1 X1_REVENU X2_DIPL
0 0 1.00 0.00 42476 2
0 0 1.00 0.00 42880 2
0 0 1.00 0.00 82289 6
0 0 1.00 0.00 41852 4
0 0 1.00 0.00 50602 2
0 0 1.00 0.00 25092 5
0 0 1.00 0.00 22482 0
0 0 1.00 0.00 32690 4
0 0 1.00 0.00 22659 3
0 0 1.00 0.00 33589 5
0 0 1.00 0.00 60434 5
1 0 1.00 0.00 24990 4
0 0 0.88 0.12 12905 0
1 1 0.00 1.00 15608 3
1 1 0.05 0.95 22710 6
0 0 1.00 0.00 77087 6
1 0 1.00 0.00 12742 0
0 0 1.00 0.00 56474 5
0 1 0.12 0.88 21130 3
1 1 0.00 1.00 20870 3
0 0 1.00 0.00 12723 0
1 1 0.01 0.99 14682 0
0 0 0.97 0.03 25313 3
0 0 1.00 0.00 22977 0
1 1 0.00 1.00 20445 1
0 0 1.00 0.00 28030 4
0 0 1.00 0.00 22117 2
0 0 1.00 0.00 22705 3
1 1 0.00 1.00 11371 5
0 0 1.00 0.00 39219 2
0 0 1.00 0.00 50828 0
0 0 1.00 0.00 24090 3
0 0 1.00 0.00 21412 0
0 0 1.00 0.00 61949 6
0 0 1.00 0.00 75421 5
0 0 1.00 0.00 22262 1
0 0 1.00 0.00 30934 1
0 0 1.00 0.00 31245 2
0 1 0.45 0.55 21908 5
1 0 0.89 0.11 13288 3
0 0 1.00 0.00 44248 3
0 0 0.91 0.09 13792 5
0 0 1.00 0.00 24155 6
0 0 1.00 0.00 43220 2
0 0 1.00 0.00 23390 2
0 0 0.96 0.04 12777 0
0 0 1.00 0.00 41216 4
0 0 1.00 0.00 26207 5
0 0 1.00 0.00 46467 5
0 0 1.00 0.00 53043 4
0 0 0.99 0.01 27620 3
1 1 0.00 1.00 19796 0
0 0 1.00 0.00 75360 5
0 0 1.00 0.00 58054 2
1 1 0.00 1.00 19648 0
0 0 0.95 0.05 13047 2
1 1 0.00 1.00 15769 3
0 0 1.00 0.00 28308 4
0 0 0.97 0.03 12751 0
0 0 1.00 0.00 49138 4
0 0 1.00 0.00 48886 5
0 0 1.00 0.00 37689 3
0 0 1.00 0.00 12740 0
0 0 1.00 0.00 45381 4
0 0 1.00 0.00 82204 6
0 0 1.00 0.00 53226 4
1 0 0.70 0.30 25556 2
0 0 1.00 0.00 27278 4
0 0 1.00 0.00 22071 1
0 0 1.00 0.00 20965 0
0 0 1.00 0.00 21517 0
0 0 1.00 0.00 77107 6
0 0 1.00 0.00 44224 3
0 0 1.00 0.00 45360 5
0 0 0.99 0.01 23771 2
0 0 1.00 0.00 27030 3
0 0 1.00 0.00 43392 1
0 0 1.00 0.00 14146 6
0 0 1.00 0.00 51826 3
0 0 1.00 0.00 22053 1
0 0 0.98 0.02 24789 0
1 1 0.00 1.00 16458 5
0 0 1.00 0.00 26462 5
0 0 1.00 0.00 22050 1
0 0 1.00 0.00 42465 2
0 0 1.00 0.00 23624 5
0 0 1.00 0.00 44398 3
0 0 0.98 0.02 25511 4
0 0 1.00 0.00 21507 0
1 1 0.00 1.00 15037 1
0 0 1.00 0.00 77017 6
0 0 1.00 0.00 45694 3
0 0 1.00 0.00 42037 5
0 0 1.00 0.00 22497 3
0 0 1.00 0.00 21305 0
0 0 1.00 0.00 44308 3
0 0 1.00 0.00 61252 3
0 0 1.00 0.00 27898 4
0 0 1.00 0.00 49065 4
0 0 1.00 0.00 41090 4

A vous de jouer maintenant !