Objectif de l’étude

Cette étude vise à modéliser le rythme et l’intensité des épidémies de gastro-entérite au cours de la dernière décennie afin de prédire leur évolution à court et moyen terme. Cet exercice de modélisation peut être utile aux autorités sanitaires, aux établissements et professionnels de santé, aux assurances, etc. afin de planifier leur activité.

Données

Nous recourons aux données de l’Indicateur Avancé Sanitaire (IAS) mises à disposition par OpenHealth Company sur le site d’ouverture des données publiques data.gouv.fr. Elles sont accessibles à l’adresse suivante : https://www.data.gouv.fr/fr/datasets/indicateur-avance-sanitaire-ias-gastro-enterite/

Nous choisissons le 1er janvier 2010 comme point de départ de la série longitudinale, l’année 2009 comprenant des valeurs manquantes. De plus, si le jeu de données initial fournit des données quotidiennes, nous ne retenons pour cette étude qu’un jour par semaine, en l’occurrence le vendredi, car certaines modélisations ne sont pas possibles sur des données dont la fréquence est trop importante.

# required libraries
library(readr)
library(tidyverse)
library(ggplot2)
library(forecast)
library(seasonal)
library(fracdiff)
Gastro <- read_delim("OpenHealth_Gastro.csv", ";", escape_double = FALSE, 
                     locale = locale(decimal_mark = ",", encoding = "ISO-8859-1"), trim_ws = TRUE)
names(Gastro) <- c('PERIODE', 'IAS') # names of the dataset
Gastro <- Gastro[-c(1:365), ] # remove the year 2009
Gastro$PERIODE <- weekdays(as.POSIXct(Gastro$PERIODE), abbreviate = F) # change the date syntax format to weekdays
Gastro_reduced <- dplyr::filter(Gastro, Gastro$PERIODE == 'vendredi') # keep only this weekday
Gastro_ts_weeks <- ts(Gastro_reduced[, 2], start = 2010, frequency = 52) # make a ts object

Les épidémies de gastro-entérite depuis 2010

Les graphiques suivants montrent l’évolution de l’indice des gastro-entérites en France depuis 2010. Sans surprise, les pics d’épidémies surviennent en général dans les premières et les dernières semaines de chaque année.

Les corrélogrammes mettent en évidence les coefficients d’autocorrélation de la série. La plupart sont significativement différents de 0, ce qui dénote bien de la saisonnalité de la série.

# time series since 2010
autoplot(Gastro_ts_weeks) +
        labs(title = "Epidémies de gastro-entérite depuis 2010", 
             x = "Année", y = "Indicateur Avancé Sanitaire")

# seasonality
ggseasonplot(Gastro_ts_weeks) +
        labs(title = "Episodes de gastro-entérite par année", x = "Semaine", y = "IAS")

ggseasonplot(Gastro_ts_weeks, polar = TRUE) +
        labs(title = "Episodes de gastro-entérite par année", x = "Semaine", y = "IAS")

# ACF and PACF
ggtsdisplay(Gastro_ts_weeks)

Modélisations et prédictions des épidémies de gastro-entérite pour les années 2019-2020

La prédiction sur la base de séries longitudinales étant toujours un exercice très incertain, il convient de recourir à plusieurs techniques afin de comparer leurs qualités et défauts respectifs. A noter que dans les graphiques qui suivent, des intervalles de confiance à 80 % et 95 % sont affichés en couleur afin de rendre compte du degré d’incertitude de la projection.

Prédictions à partir de la décomposition de la saisonnalité

A l’aide d’une décomposition de type STL (Seasonal and trend decomposition using loess), il est possible de faire apparaître la tendance de long terme de la série ainsi que sa saisonnalité. Conformément aux corrélogrammes vus précédemment, la série comporte une saisonnalité très marquée (en gris) mais la tendance lourde (en rouge) est relativement stable, au moins depuis 2015.

Le niveau prédit par le modèle pour les années 2019 et 2020 parait faible en ce qui concerne les semaines qui ne connaissent pas de forts pics d’épidémies.

Gastro_ts_weeks[,1] %>% mstl(robust=TRUE) -> fit_mSTL
autoplot(Gastro_ts_weeks, series="Données brutes") +
  autolayer(trendcycle(fit_mSTL), series="Tendance") +
  autolayer(seasadj(fit_mSTL), series="Ajustement de la saisonnalité") +
  xlab("Année") + ylab("IAS") +
  ggtitle("Décomposition des épidémies de gastro-entérite depuis 2010") +
  scale_colour_manual(values=c("gray","blue","red"),
             breaks=c("Données brutes","Ajustement de la saisonnalité","Tendance"))

fit_mSTL %>% forecast(method="naive", h = 104) %>%
  autoplot() + ylab("IAS") + xlab("Année") + ggtitle("Prédictions des épidémies pour 2019-2020")

Modèle ETS

Le modèle ETS (Error, Trend, Seasonal) appartient à la famille du lissage exponentiel, qui pondère les observations passées de manière de plus en plus forte à mesure que les observations sont récentes.

En l’occurrence, le modèle ETS n’est pas un bon choix de modélisation, comme le montre l’erreur élevée (AICc = 4467) et l’amplitude des intervalles de confiance. Le niveau prédit par le modèle pour les années 2019 et 2020 parait de nouveau faible en ce qui concerne les semaines qui ne connaissent pas de forts pics d’épidémies ; ce résultat est logique puisque le modèle ETS s’est appuyé sur la même méthode de décomposition STL.

ets_model <- forecast(Gastro_ts_weeks, h = 104)
summary(ets_model)

Forecast method: STL +  ETS(A,N,N)

Model Information:
ETS(A,N,N) 

Call:
 ets(y = x, model = etsmodel, allow.multiplicative.trend = allow.multiplicative.trend) 

  Smoothing parameters:
    alpha = 0.9998 

  Initial states:
    l = 118.0236 

  sigma:  5.0912

     AIC     AICc      BIC 
4467.287 4467.338 4479.771 

Error measures:
                      ME     RMSE      MAE        MPE     MAPE     MASE         ACF1
Training set -0.04010455 5.080428 2.813324 -0.1000158 2.225832 0.293453 9.292575e-05

Forecasts:
autoplot(ets_model) +
        labs(title = "Prédictions des épidémies de gastro-entérite pour les années 2019-2020",
             x = "Année", y = "IAS")

Modèle ARIMA

Au contraire des modèles de lissage exponentiel, tels qu’ETS, les modèles ARIMA recherchent les coefficients d’autocorrélation de la série.

En l’occurrence, puisque l’indice de gastro-entérite connait une forte saisonnalité, il est nécessaire de différencier au moins une fois la série que nous étudions afin de la rendre davantage stationnaire. Les prédictions issues du modèle semblent crédibles concernant les pics d’épidémie, mais le niveau de l’indice parait faible pour les semaines hors pics d’épidémie.

modelARIMA_1 <- auto.arima(Gastro_ts_weeks, d = 1, approximation=FALSE,trace=FALSE) # d=1 means we differentiate once
summary(modelARIMA_1) # ARIMA(1,1,1)(0,1,2)[52] with zero mean. AIcc = 2747.76
Series: Gastro_ts_weeks 
ARIMA(1,1,1)(0,1,2)[52] 

Coefficients:
          ar1     ma1     sma1    sma2
      -0.4974  0.5905  -0.4468  0.1697
s.e.   0.2459  0.2258   0.0523  0.0548

sigma^2 estimated as 38.38:  log likelihood=-1368.81
AIC=2747.61   AICc=2747.76   BIC=2767.83

Training set error measures:
                      ME    RMSE      MAE       MPE     MAPE      MASE        ACF1
Training set -0.09372274 5.81095 3.113939 -0.105925 2.467264 0.3248096 -0.02173083
modelARIMA_1 %>% forecast(h = 104) %>% autoplot() + 
        labs(title = "Prédictions des épidémies de gastro-entérite pour 2019-2020",
             x = "Année", y = "Indice")

Réseau de neurones

Les réseaux de neurones demeurent relativement peu utilisés dans le cas de séries longitudinales. Le modèle retenu ici possède deux neurones dans l’unique couche cachée. Ses prédictions pour 2019 et 2020 semblent crédibles pour les semaines hors pics d’épidémie, en comparaison des projections des précédents modèles. En revanche, il tend probablement à sous-estimer l’ampleur des pics d’épidémie.

# fit the model
fitNN <- nnetar(Gastro_ts_weeks, lambda = 0)
summary(fitNN)
          Length Class        Mode     
x         474    ts           numeric  
m           1    -none-       numeric  
p           1    -none-       numeric  
P           1    -none-       numeric  
scalex      2    -none-       list     
size        1    -none-       numeric  
lambda      1    -none-       numeric  
subset    474    -none-       numeric  
model      20    nnetarmodels list     
nnetargs    0    -none-       list     
fitted    474    ts           numeric  
residuals 474    ts           numeric  
lags        3    -none-       numeric  
series      1    -none-       character
method      1    -none-       character
call        3    -none-       call     
# plot the model's forecasts
autoplot(forecast(fitNN, h = 104))

# prediction intervals
# compute prediction intervals using simulation where future sample paths are generated using bootstrapped residuals
sim <- ts(matrix(0, nrow=2L, ncol=6L), start = end(Gastro_ts_weeks)[1L]+1L)
for(i in seq(6)) {
        sim[,i] <- simulate(fitNN, nsim=2L)
        }
        # plot the prediction Intervals for the fitNN model 
fcast <- forecast(fitNN, PI = TRUE, h = 104)
autoplot(fcast) +
        labs(title = "Prédictions des épidémies de gastro-entérite pour 2019-2020 avec un réseau de neurones", 
             x = "Année", y = "Indice")

Termes de Fourier

Il est également possible de recourir aux termes de Fourier comme variable prédictive de la saisonnalité d’un modèle ARIMA. K désigne le nombre de paires de sinus et de cosinus. Il est choisi à l’issue d’un arbitrage entre la réduction de l’erreur (ici mesurée par l’AICc) et le degré de flexibilité pour éviter le sur-apprentissage (overfitting).

Après avoir essayé 6 différentes valeurs pour K, nous retenons K=4, soit 4 paires de sinus et de cosinus, car le gain marginal associé à la 4e paire est forte en termes de réduction de l’AICc tandis que la 5e paire n’apporte que peu de bénéfices au prix d’une flexibilité potentiellement trop forte.

Les prédictions de ce modèle pour les années 2019 et 2020 semblent trop faibles en ce qui concerne les semaines qui ne connaissent pas de forts pics d’épidémie. En revanche les semaines pour lesquelles les épidémies sont nombreuses paraissent mieux approximées.

# Fourier 1/2
plots <- list()
for (i in seq(6)) {
  fit <- auto.arima(Gastro_ts_weeks, xreg = fourier(Gastro_ts_weeks, K = i), seasonal = TRUE, lambda = 0)
  plots[[i]] <- autoplot(forecast(fit, xreg=fourier(Gastro_ts_weeks, K=i, h=104))) +
    xlab(paste("K=",i,"AICC=",round(fit[["aicc"]],2))) +
    ylab("")
}
gridExtra::grid.arrange( #from package gridExtra
  plots[[1]],plots[[2]],plots[[3]],
  plots[[4]],plots[[5]],plots[[6]], nrow=3) 

# Keep K = 4 model because beyond the reduction in AICc is weak
# Fourier 2/2
fourier_Gastro <- auto.arima(Gastro_ts_weeks, 
                             xreg = fourier(Gastro_ts_weeks, K = 4), seasonal = TRUE, lambda = 0) # K = 4, cf graphs
summary(fourier_Gastro) # Regression with ARIMA(2,1,1)(0,0,1)[52]. AICc=-1633.62
Series: Gastro_ts_weeks 
Regression with ARIMA(2,1,1)(0,0,1)[52] errors 
Box Cox transformation: lambda= 0 

Coefficients:
         ar1      ar2      ma1    sma1   S1-52   C1-52   S2-52   C2-52   S3-52   C3-52   S4-52   C4-52
      0.5448  -0.3274  -0.4484  0.3835  0.0751  0.1495  0.1096  0.0512  0.0116  0.0250  0.0505  0.0162
s.e.  0.2071   0.0451   0.2277  0.0377  0.0215  0.0216  0.0114  0.0114  0.0082  0.0082  0.0069  0.0069

sigma^2 estimated as 0.001763:  log likelihood=830.21
AIC=-1634.41   AICc=-1633.62   BIC=-1580.34

Training set error measures:
                      ME     RMSE      MAE        MPE    MAPE      MASE        ACF1
Training set -0.08852325 6.631208 3.520882 -0.1865732 2.73298 0.3672572 -0.06039594
autoplot(forecast(fourier_Gastro, xreg=fourier(Gastro_ts_weeks, K=4, h=104))) +
        labs(title = "Prédictions des épidémies de gastro-entérite pour 2019-2020 avec les termes de Fourier", 
             x = "Année", y = "Indice")

Conclusion

Différentes méthodes ont été utilisées afin de prédire les épidémies de gastro-entérite des années 2019 et 2020. La plupart des modèles tendent à prédire un niveau faible de l’indice pour les semaines hors pics d’épidémie, ce qui parait douteux. Pour ces semaines, les prédictions du réseau de neurones paraissent les plus crédibles. En revanche, le réseau de neurones semble sous-estimer l’ampleur des pics d’épidémies, lesquels pourraient être mieux approximés notamment par les modèles ETS, ARIMA voire avec les termes de Fourier.

Enfin, il convient de relever la grande incertitude autour de ces projections au regard de l’étendue des intervalles de confiance (surtout pour 2020, c’est-à-dire à un horizon plus lointain), hormis pour le réseau de neurones et, dans une certaine mesure, les termes de Fourier.

Il serait opportun de calculer, à la fin de l’année 2019, l’erreur moyenne commise par les différents modèles au regard des valeurs observées, afin d’obtenir de meilleures prédictions pour 2020.

