Scénario
Mise en situation Vous êtes employé chez Enercoop, société coopérative qui s’est développée grâce à la libéralisation du marché de l’électricité en France. Elle est spécialisée dans les énergies renouvelables.
La plupart de ces énergies renouvelables est cependant intermittente, il est donc difficile de prévoir les capacités de production d’électricité. De plus, la demande en électricité des utilisateurs varie au cours du temps, et dépend de paramètres comme la météo (température, luminosité, etc.) Tout le challenge est de mettre en adéquation l’offre et la demande !
Votre mission Vous vous concentrerez uniquement sur la prédiction de la demande en électricité.
- Corrigez les données de consommation mensuelles de l’effet température (dues au chauffage électrique) en utilisant une régression linéaire.
- Effectuez une désaisonnalisation de la consommation que vous aurez obtenue après correction, grâce aux moyennes mobiles.
- Effectuez une prévision de la consommation (corrigée de l’effet température) sur un an, en utilisant la méthode de Holt Winters (lissage exponentiel) puis la méthode SARIMA sur la série temporelle.
Pour chaque traitement effectué (correction de l’effet température, désaisonnalisation, etc.), vous présenterez les 2 séries temporelles avant et après traitement, sur un graphique où les deux séries temporelles seront superposées.
Importation et Nettoyage
On joint les fichiers et on agrège par la moyenne par date.
On supprimer les valeurs égales à zéro qui sont des valeurs manquantes NA.
On applique le format Date à la colonne “mois”.
Donnée Consommation électrique
On a un data frame :
mois = date par mois
value = Donnée météo : chauffage
Consommation.totale : Consommation électrique totale en France , toutes sources de production confondues
Partie 1 : Correction de l’effet température
Énoncé : Corrigez les données de consommation mensuelles de l’effet température (dues au chauffage électrique) en utilisant une régression linéaire.
Visualisation

Régression linéaire
On visualise
`geom_smooth()` using formula 'y ~ x'

Modèle de Régression linéaire
On se doit de transformer la variable Concommation totale pour ne pas avoir des valeurs négatives.
On peut choisir une transformation Logarithmique ou BoxCox.
Nous allons chercher dans un premier temps la meilleure transformation.
Version logarithmique
Call:
lm(formula = log(Consommation.totale) ~ value, data = df2)
Residuals:
Min 1Q Median 3Q Max
-0.209752 -0.026461 0.002572 0.027318 0.227315
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.033e+01 8.629e-03 1197.39 <2e-16 ***
value 1.236e-03 3.560e-05 34.73 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.05085 on 112 degrees of freedom
Multiple R-squared: 0.915, Adjusted R-squared: 0.9143
F-statistic: 1206 on 1 and 112 DF, p-value: < 2.2e-16
(Intercept) value
10.331959472 0.001236492

Test de Breusch-Pagan (version log)
studentized Breusch-Pagan test
data: mod1
BP = 3.7034, df = 1, p-value = 0.0543
La p-value est supérieure à 5%, nous ne pouvons pas rejeter l’hypothèse H0 selon laquelle les variances sont constantes (l’hypothèse d’homoscédasticité).
Méthode Box Cox
Attachement du package : ‘MASS’
L'objet suivant est masqué depuis ‘package:dplyr’:
select

[1] -0.1414141
Attachement du package : ‘Ecfun’
L'objet suivant est masqué depuis ‘package:forecast’:
BoxCox
L'objet suivant est masqué depuis ‘package:base’:
sign
Call:
lm(formula = ((df2$Consommation.totale^lambda - 1)/lambda) ~
df2$value)
Residuals:
Min 1Q Median 3Q Max
-0.047546 -0.005935 0.000372 0.006054 0.051176
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.432e+00 1.931e-03 2813.04 <2e-16 ***
df2$value 2.758e-04 7.967e-06 34.62 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.01138 on 112 degrees of freedom
Multiple R-squared: 0.9145, Adjusted R-squared: 0.9138
F-statistic: 1198 on 1 and 112 DF, p-value: < 2.2e-16
studentized Breusch-Pagan test
data: BC_model
BP = 3.9081, df = 1, p-value = 0.04805
studentized Breusch-Pagan test
La p-value est inférieure à 5%, nous pouvons rejeter l’hypothèse H0 selon laquelle les variances sont constantes (l’hypothèse d’homoscédasticité).
On retient par conséquent l’hypothèse d’hétéroscédasticité des résidus de notre modèle BoxCox.
On retiendra la version BoxCox qui minimise les résidus pour notre transformation linéaire.
La différence entre les deux transformations est maigre.

Visualisation Partie 1 : Consommation corrigée par régression linéaire.

Partie 2 : Saisonnalité et Moyenne Mobile
Effectuez une désaisonnalisation de la consommation que vous aurez obtenue après correction, grâce aux moyennes mobiles.
Création d’un Vecteur de type serie temporelle

Décomposition saisonnale


Sur ce graphique interactif on remarque facilement que les années suivent la même tendance de 2012 à 2019
il suffit de cliqué sur une année pour l’exclure et inversement
L’année 2020 connait une baisse tendantielle ( dû probablement à la baisse d’activité lié à la pandémie)
2021 connait une tendance à la hausse qu’il faut relativiser : Effet de rattrapage de l’activité mais également un effet saisonnier.
Nous avons que les 6 premiers mois de l’année 2021, or juin / juillet est un pic de consommation comme nous le montre le “month plot”.


On peut voir sur ce graphique Mai et Juin 2021 sont des valeurs extrêmes.
Moyennes Mobiles

Conclusion Partie 2 :
Tendance assez stable de 2012 à 2019
Baisse en en 2020 ( baisse de l’activité lié au effet Covid ? )
Hausse sur les 6 premiers mois de 2021 : Effet de rattrapage de l’économie ? Pic de demande en Juin / Juillet augmente notre moyenne car nous n’avons pas la baisse de fin d’année. ( Voir graphique “month plot”)
Partie 3 : Prévision
Effectuez une prévision de la consommation (corrigée de l’effet température) sur un an, en utilisant la méthode de Holt Winters (lissage exponentiel) puis la méthode SARIMA sur la série temporelle.
Partitionnement de la série temporelle
Train : Donnée d’apprentissage Test : Donnée sur lesquelles on teste notre modèle

Effet stationnaire des series Train et Test Dickey-Fuller Test
Augmented Dickey-Fuller Test
data: ts
Dickey-Fuller = -3.1369, Lag order = 4, p-value = 0.1047
alternative hypothesis: stationary
Augmented Dickey-Fuller Test
data: ts_train
Dickey-Fuller = -6.456, Lag order = 4, p-value = 0.01
alternative hypothesis: stationary
Augmented Dickey-Fuller Test
data: ts_test
Dickey-Fuller = -0.84461, Lag order = 3, p-value = 0.9463
alternative hypothesis: stationary
I. la méthode de Holt Winters (lissage exponentiel)
Recherche d’un modèle optimal
ETS(A,N,A)
Call:
ets(y = .)
Smoothing parameters:
alpha = 1e-04
gamma = 1e-04
Initial states:
l = 30941.4567
s = 523.8601 58.3033 260.5293 -567.6645 -426.3778 2103.696
-4.7084 -1308.042 -1603.3 588.8305 -522.8931 897.766
sigma: 596.8593
AIC AICc BIC
1406.032 1413.417 1441.949

Prévision dans l’ensemble fiable.
Les extremums saisonniers du Data Test échappent à la prévision du modèle HW.
Vérifions
ME RMSE MAE MPE MAPE MASE ACF1 Theil's U
Training set -28.42323 542.8338 430.7379 -0.1233404 1.400094 0.6368697 -0.06080472 NA
Test set -221.88439 1959.4048 1204.9710 -1.1161636 3.907340 1.7816158 0.48988555 0.9540477
ME : Mean Error
MAPE : Mean absolute percentage error : Train 1.4 % >>> Test 3.9 %
RMSE : Root Mean Squared Error : La différence Train et Test s’explique en grande partie par les valeurs extrêmes non prédites

Prévision avec la méthode de Holt Winters
Notre modèle pour prévoir les 12 prochains mois :
ETS(A,N,A)
Call: ets(y = .)
Smoothing parameters: alpha = 1e-04 gamma = 1e-04

Évaluer le modèle
[1] 6.250623
[1] 1268881
ME RMSE MAE MPE MAPE MASE ACF1
Training set 6.250623 1121.52 656.5168 -0.1068567 2.127383 0.6903134 0.4297618
Ljung-Box test
data: Residuals from ETS(A,N,A)
Q* = 59.208, df = 9, p-value = 1.905e-09
Model df: 14. Total lags used: 23

Shapiro-Wilk normality test
data: residuals(hw)
W = 0.77275, p-value = 5.38e-12
On peut rejeter les hypothèses suivantes :
- La serie est un bruit blanc Ljung-Box test p-value < 0.05
- les résidus suivent une loi Normale Shapiro-Wilk test p-value < 0.05
/ /
II. Modèle SARIMA
Recherche d’un modèle avec la fonction auto.arima du package forecast.
On teste auto aurima sur l’ensemble du jeu de donnée.
Modélisation Train and Test

Évaluation sur Data Test

ME RMSE MAE MPE MAPE MASE ACF1 Theil's U
Training set -28.42323 542.8338 430.7379 -0.1233404 1.400094 0.6368697 -0.06080472 NA
Test set -221.88439 1959.4048 1204.9710 -1.1161636 3.907340 1.7816158 0.48988555 0.9540477
ME RMSE MAE MPE MAPE MASE ACF1 Theil's U
Training set 4.776656 595.6995 453.3286 -0.02383615 1.473304 0.6702712 -0.07046697 NA
Test set -213.668027 1944.7607 1184.1389 -1.08247871 3.840731 1.7508144 0.49239583 0.9492737
MAPE/RMSE Sarima : légèrement plus performant sur le test set que le modèle Holt Winter
Prévision avec ce modèle sur 12 mois

Évaluation du modèle SARIMA
ME RMSE MAE MPE MAPE MASE ACF1
Training set -15.01439 1231.917 676.9028 -0.192516 2.186639 0.7117488 0.4507758
On test le modèle
Ljung-Box test
data: Residuals from ARIMA(0,0,0)(0,1,1)[12]
Q* = 66.219, df = 22, p-value = 2.567e-06
Model df: 1. Total lags used: 23

Shapiro-Wilk normality test
data: residuals(new.f.arima)
W = 0.72489, p-value = 2.543e-13
On peut rejeter les hypothèses : - de bruit blanc de la série : Ljung-Box test :p value < 0.05 - et de normalité des résidus : Shapiro-Wilk normality test : p value < 0.05
Comparaison des deux modèles
Partie Test

Prévision

Accuracy
ME RMSE MAE MPE MAPE MASE ACF1
Training set 6.250623 1121.52 656.5168 -0.1068567 2.127383 0.6903134 0.4297618
ME RMSE MAE MPE MAPE MASE ACF1
Training set -15.01439 1231.917 676.9028 -0.192516 2.186639 0.7117488 0.4507758
Conclusion Partie 3 : - Deux modèles assez similaires. - Holt Winter a cependant de meilleurs performances : les données sont plus adaptées au lissage exponentiel. - Les erreurs moyennes sont notamment plus faibles dans ce modèle.
Pour aller plus loin
- Librarie Prophet pour un nouveau modèle prédictif.
- Fable pour la comparaison des modèles.
- Highcharter pour la data Viz.
Nous allons également tester la librairie Prophet de Facebook.
Error in select(., mois, Consommation_corrigée) :
unused arguments (mois, Consommation_corrigée)


Le modèle Prophet est très similaire à nos modèles précédents.
FABLE
Librairie
Plot variable not specified, automatically selected `y = Consommation_corrigée`




Comparaison des trois modèles avec Fable.

DATA VIZ amélioration
Librarie highcharter
Warning: Deprecated function. Use the `create_axis` function.
Warning: Deprecated function. Use the `create_axis` function.
