Scénario

Mise en situation Vous êtes employé chez Enercoop, société coopérative qui s’est développée grâce à la libéralisation du marché de l’électricité en France. Elle est spécialisée dans les énergies renouvelables.

La plupart de ces énergies renouvelables est cependant intermittente, il est donc difficile de prévoir les capacités de production d’électricité. De plus, la demande en électricité des utilisateurs varie au cours du temps, et dépend de paramètres comme la météo (température, luminosité, etc.) Tout le challenge est de mettre en adéquation l’offre et la demande !

Votre mission Vous vous concentrerez uniquement sur la prédiction de la demande en électricité.

  1. Corrigez les données de consommation mensuelles de l’effet température (dues au chauffage électrique) en utilisant une régression linéaire.
  2. Effectuez une désaisonnalisation de la consommation que vous aurez obtenue après correction, grâce aux moyennes mobiles.
  3. Effectuez une prévision de la consommation (corrigée de l’effet température) sur un an, en utilisant la méthode de Holt Winters (lissage exponentiel) puis la méthode SARIMA sur la série temporelle.

Pour chaque traitement effectué (correction de l’effet température, désaisonnalisation, etc.), vous présenterez les 2 séries temporelles avant et après traitement, sur un graphique où les deux séries temporelles seront superposées.

Importation et Nettoyage

  • On joint les fichiers et on agrège par la moyenne par date.

  • On supprimer les valeurs égales à zéro qui sont des valeurs manquantes NA.

  • On applique le format Date à la colonne “mois”.

Donnée Consommation électrique

On a un data frame :

  • mois = date par mois

  • value = Donnée météo : chauffage

  • Consommation.totale : Consommation électrique totale en France , toutes sources de production confondues

Partie 1 : Correction de l’effet température

Énoncé : Corrigez les données de consommation mensuelles de l’effet température (dues au chauffage électrique) en utilisant une régression linéaire.

Visualisation

Régression linéaire

On visualise

`geom_smooth()` using formula 'y ~ x'

Modèle de Régression linéaire

On se doit de transformer la variable Concommation totale pour ne pas avoir des valeurs négatives.

On peut choisir une transformation Logarithmique ou BoxCox.

Nous allons chercher dans un premier temps la meilleure transformation.

Version logarithmique


Call:
lm(formula = log(Consommation.totale) ~ value, data = df2)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.209752 -0.026461  0.002572  0.027318  0.227315 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 1.033e+01  8.629e-03 1197.39   <2e-16 ***
value       1.236e-03  3.560e-05   34.73   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.05085 on 112 degrees of freedom
Multiple R-squared:  0.915, Adjusted R-squared:  0.9143 
F-statistic:  1206 on 1 and 112 DF,  p-value: < 2.2e-16

 (Intercept)        value 
10.331959472  0.001236492 

Test de Breusch-Pagan (version log)


    studentized Breusch-Pagan test

data:  mod1
BP = 3.7034, df = 1, p-value = 0.0543

La p-value est supérieure à 5%, nous ne pouvons pas rejeter l’hypothèse H0 selon laquelle les variances sont constantes (l’hypothèse d’homoscédasticité).

Méthode Box Cox


Attachement du package : ‘MASS’

L'objet suivant est masqué depuis ‘package:dplyr’:

    select

[1] -0.1414141

Attachement du package : ‘Ecfun’

L'objet suivant est masqué depuis ‘package:forecast’:

    BoxCox

L'objet suivant est masqué depuis ‘package:base’:

    sign

Call:
lm(formula = ((df2$Consommation.totale^lambda - 1)/lambda) ~ 
    df2$value)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.047546 -0.005935  0.000372  0.006054  0.051176 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 5.432e+00  1.931e-03 2813.04   <2e-16 ***
df2$value   2.758e-04  7.967e-06   34.62   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.01138 on 112 degrees of freedom
Multiple R-squared:  0.9145,    Adjusted R-squared:  0.9138 
F-statistic:  1198 on 1 and 112 DF,  p-value: < 2.2e-16

    studentized Breusch-Pagan test

data:  BC_model
BP = 3.9081, df = 1, p-value = 0.04805

studentized Breusch-Pagan test

La p-value est inférieure à 5%, nous pouvons rejeter l’hypothèse H0 selon laquelle les variances sont constantes (l’hypothèse d’homoscédasticité).

On retient par conséquent l’hypothèse d’hétéroscédasticité des résidus de notre modèle BoxCox.

On retiendra la version BoxCox qui minimise les résidus pour notre transformation linéaire.

La différence entre les deux transformations est maigre.

Visualisation Partie 1 : Consommation corrigée par régression linéaire.

Partie 2 : Saisonnalité et Moyenne Mobile

Effectuez une désaisonnalisation de la consommation que vous aurez obtenue après correction, grâce aux moyennes mobiles.

Création d’un Vecteur de type serie temporelle

Décomposition saisonnale

Sur ce graphique interactif on remarque facilement que les années suivent la même tendance de 2012 à 2019

il suffit de cliqué sur une année pour l’exclure et inversement

L’année 2020 connait une baisse tendantielle ( dû probablement à la baisse d’activité lié à la pandémie)

2021 connait une tendance à la hausse qu’il faut relativiser : Effet de rattrapage de l’activité mais également un effet saisonnier.

Nous avons que les 6 premiers mois de l’année 2021, or juin / juillet est un pic de consommation comme nous le montre le “month plot”.

On peut voir sur ce graphique Mai et Juin 2021 sont des valeurs extrêmes.

Moyennes Mobiles

Conclusion Partie 2 :

  • Tendance assez stable de 2012 à 2019

  • Baisse en en 2020 ( baisse de l’activité lié au effet Covid ? )

  • Hausse sur les 6 premiers mois de 2021 : Effet de rattrapage de l’économie ? Pic de demande en Juin / Juillet augmente notre moyenne car nous n’avons pas la baisse de fin d’année. ( Voir graphique “month plot”)

Partie 3 : Prévision

Effectuez une prévision de la consommation (corrigée de l’effet température) sur un an, en utilisant la méthode de Holt Winters (lissage exponentiel) puis la méthode SARIMA sur la série temporelle.

Partitionnement de la série temporelle

Train : Donnée d’apprentissage Test : Donnée sur lesquelles on teste notre modèle

Effet stationnaire des series Train et Test Dickey-Fuller Test


    Augmented Dickey-Fuller Test

data:  ts
Dickey-Fuller = -3.1369, Lag order = 4, p-value = 0.1047
alternative hypothesis: stationary


    Augmented Dickey-Fuller Test

data:  ts_train
Dickey-Fuller = -6.456, Lag order = 4, p-value = 0.01
alternative hypothesis: stationary


    Augmented Dickey-Fuller Test

data:  ts_test
Dickey-Fuller = -0.84461, Lag order = 3, p-value = 0.9463
alternative hypothesis: stationary
  • Data : Non Stationnaire

  • Data Train : Stationnaire

  • Data Test : Non Stationnaire

I. la méthode de Holt Winters (lissage exponentiel)

Recherche d’un modèle optimal

ETS(A,N,A) 

Call:
 ets(y = .) 

  Smoothing parameters:
    alpha = 1e-04 
    gamma = 1e-04 

  Initial states:
    l = 30941.4567 
    s = 523.8601 58.3033 260.5293 -567.6645 -426.3778 2103.696
           -4.7084 -1308.042 -1603.3 588.8305 -522.8931 897.766

  sigma:  596.8593

     AIC     AICc      BIC 
1406.032 1413.417 1441.949 

Prévision dans l’ensemble fiable.

Les extremums saisonniers du Data Test échappent à la prévision du modèle HW.

Vérifions

                     ME      RMSE       MAE        MPE     MAPE      MASE        ACF1 Theil's U
Training set  -28.42323  542.8338  430.7379 -0.1233404 1.400094 0.6368697 -0.06080472        NA
Test set     -221.88439 1959.4048 1204.9710 -1.1161636 3.907340 1.7816158  0.48988555 0.9540477

ME : Mean Error

MAPE : Mean absolute percentage error : Train 1.4 % >>> Test 3.9 %

RMSE : Root Mean Squared Error : La différence Train et Test s’explique en grande partie par les valeurs extrêmes non prédites

Prévision avec la méthode de Holt Winters

Notre modèle pour prévoir les 12 prochains mois :

ETS(A,N,A)

Call: ets(y = .)

Smoothing parameters: alpha = 1e-04 gamma = 1e-04

Évaluer le modèle

[1] 6.250623
[1] 1268881
                   ME    RMSE      MAE        MPE     MAPE      MASE      ACF1
Training set 6.250623 1121.52 656.5168 -0.1068567 2.127383 0.6903134 0.4297618

    Ljung-Box test

data:  Residuals from ETS(A,N,A)
Q* = 59.208, df = 9, p-value = 1.905e-09

Model df: 14.   Total lags used: 23


    Shapiro-Wilk normality test

data:  residuals(hw)
W = 0.77275, p-value = 5.38e-12

On peut rejeter les hypothèses suivantes :

  • La serie est un bruit blanc Ljung-Box test p-value < 0.05
  • les résidus suivent une loi Normale Shapiro-Wilk test p-value < 0.05

/ /

II. Modèle SARIMA

Recherche d’un modèle avec la fonction auto.arima du package forecast.

On teste auto aurima sur l’ensemble du jeu de donnée.

Modélisation Train and Test

Évaluation sur Data Test

                     ME      RMSE       MAE        MPE     MAPE      MASE        ACF1 Theil's U
Training set  -28.42323  542.8338  430.7379 -0.1233404 1.400094 0.6368697 -0.06080472        NA
Test set     -221.88439 1959.4048 1204.9710 -1.1161636 3.907340 1.7816158  0.48988555 0.9540477
                      ME      RMSE       MAE         MPE     MAPE      MASE        ACF1 Theil's U
Training set    4.776656  595.6995  453.3286 -0.02383615 1.473304 0.6702712 -0.07046697        NA
Test set     -213.668027 1944.7607 1184.1389 -1.08247871 3.840731 1.7508144  0.49239583 0.9492737

MAPE/RMSE Sarima : légèrement plus performant sur le test set que le modèle Holt Winter

Prévision avec ce modèle sur 12 mois

Évaluation du modèle SARIMA
                    ME     RMSE      MAE       MPE     MAPE      MASE      ACF1
Training set -15.01439 1231.917 676.9028 -0.192516 2.186639 0.7117488 0.4507758

On test le modèle


    Ljung-Box test

data:  Residuals from ARIMA(0,0,0)(0,1,1)[12]
Q* = 66.219, df = 22, p-value = 2.567e-06

Model df: 1.   Total lags used: 23


    Shapiro-Wilk normality test

data:  residuals(new.f.arima)
W = 0.72489, p-value = 2.543e-13

On peut rejeter les hypothèses : - de bruit blanc de la série : Ljung-Box test :p value < 0.05 - et de normalité des résidus : Shapiro-Wilk normality test : p value < 0.05

Comparaison des deux modèles

Partie Test

Prévision

Accuracy

                   ME    RMSE      MAE        MPE     MAPE      MASE      ACF1
Training set 6.250623 1121.52 656.5168 -0.1068567 2.127383 0.6903134 0.4297618
                    ME     RMSE      MAE       MPE     MAPE      MASE      ACF1
Training set -15.01439 1231.917 676.9028 -0.192516 2.186639 0.7117488 0.4507758

Conclusion Partie 3 : - Deux modèles assez similaires. - Holt Winter a cependant de meilleurs performances : les données sont plus adaptées au lissage exponentiel. - Les erreurs moyennes sont notamment plus faibles dans ce modèle.

Pour aller plus loin

  1. Librarie Prophet pour un nouveau modèle prédictif.
  2. Fable pour la comparaison des modèles.
  3. Highcharter pour la data Viz.

Nous allons également tester la librairie Prophet de Facebook.

Error in select(., mois, Consommation_corrigée) : 
  unused arguments (mois, Consommation_corrigée)

Le modèle Prophet est très similaire à nos modèles précédents.

FABLE

Librairie

Plot variable not specified, automatically selected `y = Consommation_corrigée`

Comparaison des trois modèles avec Fable.

DATA VIZ amélioration

Librarie highcharter

Warning: Deprecated function. Use the `create_axis` function.
Warning: Deprecated function. Use the `create_axis` function.
