Ce projet porte sur l’analyse fréquentielle des débits extrêmes du bassin versant de Bafing-Makana, situé en Afrique de l’Ouest. L’analyse fréquentielle est une méthode de prédiction qui permet de voir l’aptitude d’un modèle à reproduire les observations.
L’objectif de cette étude est d’identifier en premier lieu le modèle probabiliste le mieux adapté à la modélisation des crues à partir des débits observés, et d’estimer en suite les quantiles de crue pour différentes périodes de retour à partir des débits observés et des débits simulés par le modèle hydrologique GR4J, afin d’évaluer la capacité du modèle à reproduire les extrêmes.
2 Fondements théoriques de l’analyse fréquentielle
2.1 Enjeux de l’analyse fréquentielle
L’analyse fréquentielle en hydrologie a pour objectif de quantifier la probabilité d’occurrence des événements hydrologiques extrêmes (crues, étiages). Elle répond à des enjeux fondamentaux :
Dimensionnement des ouvrages hydrauliques : barrages, ponts, digues, évacuateurs de crues. Le sous-dimensionnement expose à des risques catastrophiques, le sur-dimensionnement à des coûts inutiles.
Gestion des risques inondation : délimitation des zones à risque, plans de prévention, assurance.
Planification et aménagement du territoire : les périodes de retour (2, 10, 50, 100 ans) servent de référence réglementaire dans de nombreux pays.
Évaluation de l’impact du changement climatique : en comparant les fréquences passées et futures des extrêmes.
En pratique, l’analyse fréquentielle permet d’estimer le débit \(Q_T\) associé à une période de retour \(T\) donnée, c’est-à-dire le débit qui n’est dépassé en moyenne qu’une fois tous les \(T\) ans.
2.2 Théorie des valeurs extrêmes (EVA)
La Théorie des Valeurs Extrêmes (Extreme Value Analysis, EVA) est le cadre probabiliste qui fonde l’analyse des événements rares. Elle repose sur deux résultats asymptotiques fondamentaux.
2.2.1 Théorème de Fisher-Tippett-Gnedenko
Si \(M_n = \max(X_1, ..., X_n)\) est le maximum d’une suite de variables aléatoires i.i.d., et s’il existe des suites \(a_n > 0\) et \(b_n\) telles que :
où \(\mu\) est le paramètre de localisation, \(\sigma > 0\) le paramètre d’échelle, et \(\xi\) le paramètre de forme. Ce paramètre \(\xi\) détermine le type de queue :
Valeur de \(\xi\)
Type
Domaine d’attraction
\(\xi > 0\)
Fréchet (queue lourde)
Pareto, log-normale
\(\xi = 0\)
Gumbel (queue légère)
Normale, exponentielle
\(\xi < 0\)
Weibull (queue bornée)
Uniforme, bêta
2.2.2 Hypothèses fondamentales de l’EVA
Pour que l’EVA soit valide, les séries de maxima doivent respecter trois hypothèses :
Stationnarité : les propriétés statistiques (moyenne, variance) ne varient pas dans le temps. Aucune tendance ni saut structurel ne doit affecter la série.
Indépendance : les maxima annuels doivent être indépendants les uns des autres autrement dit, ils ne doivent pas être autocorrélés. En hydrologie, cette hypothèse est généralement satisfaite pour des maxima annuels.
Homogénéité : les données proviennent d’une même population statistique (même loi de probabilité).
2.3 Méthodes d’échantillonnage des valeurs extrêmes
2.3.1 Méthode des maxima par blocs (Block Maxima – BM)
Principe : On divise la série temporelle en blocs de taille fixe (généralement une année), et on retient le maximum de chaque bloc. Les maxima annuels ainsi obtenus sont ajustés par une loi GEV.
Avantages : - Fondement théorique solide (théorème de Fisher-Tippett-Gnedenko). - Facile à mettre en œuvre (Simple). - Garantit l’indépendance des observations si les blocs sont annuels.
Limites : - Perte d’information : un seul événement extrême est retenu par année, même si plusieurs événements importants ont eu lieu. - Exige une série longue pour avoir suffisamment de maxima. - Augmente les incertitudes, - Sensible à la taille du bloc : plus l’échantillon est petit plus le modèle a du mal à reproduire la réalité.
2.3.2 Méthode des dépassements de seuil (Peaks Over Threshold – POT)
Principe : On retient tous les événements qui dépassent un seuil \(u\) prédéfini. Par le théorème de Pickands-Balkema-de Haan, les excès \(X - u\) au-delà de \(u\) convergent vers une loi de Pareto généralisée (GPD).
Avantages :
Utilise davantage d’information que la méthode BM (échantillons plus grand, pour une année on peut avoir plus d’une valeur).
Plus efficace statistiquement, surtout pour des séries courtes.
Diminue les incertitudes
Limites :
Choix du seuil \(u\) délicat et subjectif (trop bas → biais(valeurs ne faisant pas parties des valeurs extrêmes et risque d’autocorrélation), trop haut → variance élevée).
Nécessite de dépouiller les occurrences pour garantir l’indépendance.
Le choix de la méthode dépendra de :
la longueur de la série
la précision recherchée
Mais dans la littérature on utilise la méthode du BM à cause de sa simplicité. C’est d’ailleurs la méthode adoptée dans ce travail.
2.4 Le modèle fréquentiel
Un modèle fréquentiel est une loi de probabilité ajustée aux données extrêmes qui permet de relier la valeur d’un événement à sa fréquence d’occurrence. Il se caractérise par une fonction de distribution\(F(x) = P(X \leq x)\) dont les paramètres sont estimés à partir des données. En hydrologie, les modèles les plus utilisés sont la GEV (forme générale), la loi de Gumbel (\(\xi = 0\)), la loi de Fréchet (\(\xi > 0\)), et la loi log-Pearson III.
2.5 Ajustement d’un modèle fréquentiel
L’ajustement consiste à estimer les paramètres du modèle choisi à partir des données observées. Les principales méthodes sont :
Maximum de vraisemblance (MLE) : maximise la probabilité d’observer les données sous le modèle.
Méthode des moments (MOM) : égalise les moments théoriques et empiriques.
Méthode des L-moments : utilise des combinaisons linéaires des statistiques d’ordre, plus robustes aux valeurs aberrantes.
2.6 Pourquoi et comment ajuster un modèle fréquentiel ?
L’ajustement est nécessaire pour extrapoler au-delà des données observées : on ne dispose généralement que de quelques décennies de mesures, alors qu’on souhaite estimer les événements de période de retour 100 ou 1000 ans. Le modèle ajusté permet de calculer le quantile\(Q_T\) associé à la période de retour \(T\) :
\[Q_T = F^{-1}\left(1 - \frac{1}{T}\right)\]
La démarche comprend : (1) choix de la famille de distributions, (2) estimation des paramètres, (3) validation de l’ajustement par des tests statistiques et des graphiques diagnostiques, (4) estimation des quantiles avec intervalles de confiance.
3 Mise en œuvre de l’analyse fréquentielle
3.1 Chargement et préparation des données
Pour faciliter le travail, nous avons placer le fichier Qmm_BafingMakana.xlsx dans le répertoire de travail.
La figure ?@fig-debit_journaliers montre l’évolution des débits journaliers.
ggplot(donnees) +geom_line(aes(x = Date, y = Qobs, color ="Observé"), linewidth =0.5) +geom_line(aes(x = Date, y = Qsim, color ="Simulé"), linewidth =0.5) +scale_color_manual(values =c("Observé"="dodgerblue", "Simulé"="tomato")) +labs(x ="Date", y ="Débit (m³/s)", color =NULL) +theme_minimal() +theme(legend.position ="top")
Figure 1: Évolution des débits journaliers observés et simulés (2005–2015)
3.5 Application de l’analyse fréquentielle
3.5.1 Extraction des maxima annuels (Block Maxima)
# Fonction d'extraction des maxima annuelsextract_annual_maxima <-function(data, col_name, date_col ="Date") { maxima <- data %>%mutate(temp_year =year(!!sym(date_col))) %>%group_by(temp_year) %>%slice_max(order_by =!!sym(col_name), n =1, with_ties =FALSE) %>%ungroup() %>% dplyr::select(-temp_year)return(maxima[, c(date_col, col_name)])}
3.5.1.1 Application sur les débits observés et simulés :
Figure 2: Débits journaliers avec maxima annuels (rouge = observés, vert = simulés)
3.5.2 Tests statistiques sur les maxima annuels
Avant d’ajuster un modèle de valeurs extrêmes, il est indispensable de vérifier que les hypothèses fondamentales de l’EVA (stationnarité, indépendance, homogénéité) sont satisfaites.
3.5.2.1 Corrélogramme (indépendance visuelle)
L’analyse du corrélogramme montre que seul le lag 0 dépasse largement les bornes de l’intervalle de confiance à 95% , ce qui est normal car on a une autocorrélation d’une valeur avec elle-même. Tous les autres lags (1 à 10) sont à l’intérieur des bandes de confiance à 95% (lignes rouges pointillées à ±0,5 environ). Donc les maximas annuels observés ne présentent aucune autocorrélation significative. Aucun lag ne dépasse le seuil critique, ce qui indique que chaque maximum annuel est statistiquement indépendant des années précédentes.
L’hypothèse d’indépendance des maximas annuels, condition nécessaire à l’application de la théorie des valeurs extrêmes (EVA) est ainsi validée visuellement.
Afficher le code
bacf <-acf(AMAXobs$Qobs, plot =FALSE)bacfdf <-with(bacf, data.frame(lag, acf))n <-length(AMAXobs$Qobs)conf_lim <-1.96/sqrt(n)ggplot(bacfdf, aes(x = lag, y = acf)) +geom_hline(aes(yintercept =0)) +geom_bar(stat ="identity", width =0.2) +geom_hline(yintercept = conf_lim, linetype ="dashed", color ="red") +geom_hline(yintercept =-conf_lim, linetype ="dashed", color ="red") +scale_x_continuous(breaks =seq(1, 10)) +labs(y ="ACF", x ="Retard (Lag)") +theme_minimal() +theme(axis.title =element_text(size =10, face ="bold", family ="Times"),axis.text =element_text(size =10, color ="black", family ="Times") )
Figure 3: Autocorrélation des maxima annuels observés. Les lignes rouges représentent l’IC à 95%.
3.5.2.2 Test d’indépendance (Wald-Wolfowitz)
# Test sur les observationsww_obs <-ww.test(AMAXobs$Qobs)print(ww_obs)
Wald-Wolfowitz test for independence and stationarity
data: AMAXobs$Qobs
z = -0.078307, n = 11, p-value = 0.9376
alternative hypothesis: The series is significantly different from
independence and stationarity
# Test sur les simulationsww_sim <-ww.test(AMAXsim$Qsim)print(ww_sim)
Wald-Wolfowitz test for independence and stationarity
data: AMAXsim$Qsim
z = 0.53753, n = 11, p-value = 0.5909
alternative hypothesis: The series is significantly different from
independence and stationarity
Le test de Wald-Wolfowitz appliqué aux maxima annuels observés donne les résultats suivants : (z = -0,078 ) (n = 11, p = 0,937). Étant donné que la p-valeur est très supérieure à 0,05, nous ne rejetons pas l’hypothèse nulle d’indépendance et de stationnarité. Par conséquent les maximas annuels de Bafing-Makana ne présentent aucune structure d’autocorrélation significative. Ce résultat confirme l’analyse visuelle du corrélogramme.
3.5.2.3 Test de tendance (Mann-Kendall)
Visualisation graphique de la tendance linéaire :
Afficher le code
model_obs <-lm(Qobs ~year(Date), data = AMAXobs)slope_obs <-coef(model_obs)[2]ggplot(AMAXobs, aes(year(Date), Qobs)) +geom_line(color ="dodgerblue", linewidth =1) +geom_smooth(method ="lm", color ="red", linewidth =1, se =FALSE) +scale_x_continuous(labels =function(x) round(x)) +annotate("text",x =min(year(AMAXobs$Date)),y =max(AMAXobs$Qobs),label =paste0("Pente = ", round(slope_obs, 3), " m³/s/an"),hjust =0, size =3.5) +labs(x ="Année", y ="Débit max annuel (m³/s)") +theme_minimal()
Figure 4: Évolution du débit annuel maximal observé avec tendance linéaire.
3.5.2.3.1 Test de Mann-Kendall sur les observations :
mk_obs <-mk.test(AMAXobs$Qobs)print(mk_obs)
Mann-Kendall trend test
data: AMAXobs$Qobs
z = 0.1557, n = 11, p-value = 0.8763
alternative hypothesis: true S is not equal to 0
sample estimates:
S varS tau
3.00000000 165.00000000 0.05454545
3.5.2.3.2 Test de Mann-Kendall sur les simulations :
mk_sim <-mk.test(AMAXsim$Qsim)print(mk_sim)
Mann-Kendall trend test
data: AMAXsim$Qsim
z = 1.4013, n = 11, p-value = 0.1611
alternative hypothesis: true S is not equal to 0
sample estimates:
S varS tau
19.0000000 165.0000000 0.3454545
Le test de Mann-Kendall appliqué aux maximas annuels observés donne les résultats suivants : (z = 0.1557), (n = 11, p = 0.876). Étant donné que la p-valeur est très supérieure à 0.05, nous ne rejetons pas l’hypothèse nulle d’absence de tendance monotone. Par conséquent, les maximas annuels de Bafing-Makana ne présentent aucune tendance significative à la hausse ou à la baisse sur la période observée. Ce résultat est cohérent avec l’hypothèse de stationnarité de la série.
3.5.2.3.3 Pente de Sen (amplitude de la tendance) :
Sen's slope
data: AMAXobs$Qobs
z = 0.1557, n = 11, p-value = 0.8763
alternative hypothesis: true z is not equal to 0
95 percent confidence interval:
-174.7012 247.4933
sample estimates:
Sen's slope
17.12756
La pente de Sen estimée sur les maxima annuels observés est de 17.13 m³/s par an, avec un intervalle de confiance à 95 % de [−174.70 ; 247.49]. La p-valeur associée (p = 0.876) étant largement supérieure au seuil de 0.05, cette pente n’est pas statistiquement différente de zéro. Ainsi, bien que la tendance estimée soit légèrement positive, elle demeure non significative et statistiquement indiscernable d’une absence de tendance. Ce résultat vient confirmer les conclusions du test de Mann-Kendall : les maxima annuels de Bafing-Makana ne présentent pas de tendance monotone significative sur la période analysée, ce qui est compatible avec l’hypothèse de stationnarité de la série.
3.5.2.4 Test d’homogénéité (Test de rupture de Pettitt)
# Test sur les observationspett_obs <-pettitt.test(AMAXobs$Qobs)print(pett_obs)
Pettitt's test for single change-point detection
data: AMAXobs$Qobs
U* = 14, p-value = 0.8898
alternative hypothesis: two.sided
sample estimates:
probable change point at time K
4
Le test de Pettitt appliqué aux maxima annuels observés donne les résultats suivants : (U* = 14), (n = 11, p = 0,890). La p-valeur étant très largement supérieure au seuil de 0.05, nous ne rejetons pas l’hypothèse nulle d’homogénéité de la série. Bien que le test identifie une rupture potentielle à la 4ème observation, cette détection n’est pas statistiquement significative et peut être attribuée aux fluctuations aléatoires inhérentes à une série de faible longueur. Par conséquent, les maxima annuels de Bafing-Makana ne présentent aucune rupture structurelle significative, ce qui confirme l’homogénéité de la série et renforce l’hypothèse de stationnarité retenue pour la suite de l’analyse fréquentielle.
# Test sur les simulationspett_sim <-pettitt.test(AMAXsim$Qsim)print(pett_sim)
Pettitt's test for single change-point detection
data: AMAXsim$Qsim
U* = 18, p-value = 0.5243
alternative hypothesis: two.sided
sample estimates:
probable change point at time K <NA>
2 4
<NA>
5
Le test de Pettitt appliqué aux maximas annuels simulés donne les résultats suivants : (U* = 18), (p = 0.524). La p-valeur étant nettement supérieure au seuil de 0.05, nous ne rejetons pas l’hypothèse nulle d’homogénéité de la série simulée. Les points de rupture potentiels identifiés aux positions 2 et 4 ne sont pas statistiquement significatifs et relèvent vraisemblablement de la variabilité naturelle de la série. Par conséquent, les maxima annuels simulés de Bafing-Makana ne présentent aucune rupture structurelle significative, ce qui confirme leur homogénéité et leur compatibilité avec l’hypothèse de stationnarité, au même titre que les débits observés.
3.5.3 Test d’indépendance (Ljung-Box)
# Test sur les observationsLjung_obs <-Box.test(AMAXobs$Qobs, lag =10, type ="Ljung-Box")print(Ljung_obs)
Le test de Ljung-Box appliqué aux maxima annuels observés (lag = 10) donne une statistique X² = 8.185 (ddl = 10) avec une p-valeur de 0.611. Cette valeur étant largement supérieure au seuil de 0.05, on ne rejette pas l’hypothèse nulle d’indépendance des observations. Les maxima annuels peuvent donc être considérés comme indépendants et identiquement distribués (i.i.d.), ce qui valide une condition fondamentale pour l’application de l’analyse des valeurs extrêmes (EVA).
# Test sur les simulationsLjung_sim <-Box.test(AMAXsim$Qsim, lag =10, type ="Ljung-Box")print(Ljung_sim)
Le même test de Ljung-Box appliqué aux maxima annuels simulés (lag = 10) donne une statistique X² = 8.186 (ddl = 10) avec une p-valeur de 0.611, pratiquement identique à celle obtenue sur les observations. L’hypothèse d’indépendance n’est pas rejetée, confirmant que les simulations préservent la propriété i.i.d. des données observées, condition nécessaire à l’application de l’EVA.
L’ajustement d’une loi des valeurs extrêmes généralisée (GEV) aux maxima annuels observés fournit les paramètres suivants : un paramètre de position μ = 2897.14 m³/s, un paramètre d’échelle σ = 795.15 m³/s, et un paramètre de forme ξ = −0.317. Le paramètre de forme négatif indique que la distribution appartient au domaine de Weibull, caractérisé par une borne supérieure finie, ce qui est physiquement cohérent pour des débits extrêmes. Les critères d’information donnent une log-vraisemblance de 88.57, un AIC de 183.14 et un BIC de 184.33, qui serviront de références pour la comparaison avec d’autres distributions candidates. Dans l’ensemble, cet ajustement GEV constitue une représentation satisfaisante du comportement des maximas annuels observés à la station de Bafing-Makana.
plot(gevfit_obs)
L’ajustement du modèle GEV aux données de maxima annuels (AMAXobs) présente un BIC de 184.33, indiquant une qualité d’ajustement acceptable. Les diagnostics graphiques confirment la validité du modèle : le QQ-plot montre un bon alignement des points sur la diagonale, traduisant une bonne reproduction de la distribution empirique. Le PP-plot révèle une légère déviation aux queues, attendue pour les valeurs extrêmes rares. La comparaison des densités confirme que la densité modélisée suit la forme générale des observations. Enfin, la courbe des niveaux de retour est croissante avec des bandes de confiance à 95 % qui s’élargissent pour les grandes périodes de retour, ce qui reflète l’incertitude naturellement croissante associée aux événements rares. Le modèle GEV est donc adapté pour l’estimation des quantiles extrêmes.
3.5.4.2 Ajustement Gumbel – Série observée
gumfit_obs <-fevd(x = AMAXobs$Qobs, type ="Gumbel")
L’ajustement d’une loi de Gumbel (GEV avec ξ = 0) aux maximas annuels observés fournit les paramètres suivants : un paramètre de position μ = 2875.18 m³/s et un paramètre d’échelle σ = 733.76 m³/s. Les critères d’information donnent une log-vraisemblance de 89.26, un AIC de 182.53 et un BIC de 183.32. Comparativement à l’ajustement GEV (AIC = 183.14 ; BIC = 184.33), la loi de Gumbel présente des critères légèrement plus favorables malgré un paramètre de moins, ce qui suggère qu’elle offre un meilleur compromis entre qualité d’ajustement et parcimonie pour cette série. Ce résultat est cohérent avec la faible valeur du paramètre de forme estimé par la GEV (ξ = −0.317), qui, bien que négatif, reste associé à une incertitude importante compte tenu de la courte longueur de la série (n = 11).
plot(gumfit_obs)
L’ajustement du modèle de Gumbel aux données de maxima annuels (AMAXobs) présente un BIC de 183.32, légèrement inférieur à celui du modèle GEV (184.33), ce qui indique un meilleur ajustement au sens du critère BIC. Le QQ-plot montre un bon alignement des points sur la diagonale pour les valeurs centrales, mais une déviation plus marquée aux queues supérieures que pour le GEV. Le PP-plot confirme cette tendance, avec des écarts plus visibles pour les probabilités extrêmes. La densité modélisée suit globalement la forme empirique, bien que le pic soit moins bien capturé. La courbe des niveaux de retour est croissante avec des bandes de confiance qui s’élargissent pour les grandes périodes de retour. Malgré un BIC plus favorable, le modèle de Gumbel, étant un cas particulier du GEV (paramètre de forme ξ = 0), est plus contraint et peut sous-estimer les quantiles extrêmes rares.
3.5.4.3 Comparaison des modèles – Série observée
La comparaison repose exclusivement sur les données observées, conformément aux consignes.
Comparaison AIC/BIC – GEV vs Gumbel (série observée)
Model
AIC
BIC
GEV – Observé
183.14
184.33
Gumbel – Observé
182.53
183.32
La comparaison des critères d’information entre la loi GEV et la loi de Gumbel sur la série observée révèle des différences très faibles : ΔAIC = 0.61 et ΔBIC = 1.01, tous deux en faveur de la loi de Gumbel. Conformément au principe de parcimonie, lorsque la différence d’AIC entre deux modèles est inférieure à 2, le modèle le plus simple est préféré. La loi de Gumbel, qui ne comporte que deux paramètres contre trois pour la GEV, est donc retenue comme modèle d’ajustement pour la série observée des maxima annuels de Bafing-Makana. Ce choix est d’autant plus justifié que la courte longueur de la série (n = 11) ne permet pas d’estimer le paramètre de forme ξ de la GEV avec une précision suffisante, rendant l’ajout de ce paramètre supplémentaire peu fiable statistiquement.
3.5.4.4 Ajustement Gumbel – Série simulée
gumfit_sim <-fevd(x = AMAXsim$Qsim, type ="Gumbel")
L’ajustement d’une loi de Gumbel aux maximas annuels simulés fournit les paramètres suivants : un paramètre de position μ = 2319.03 m³/s et un paramètre d’échelle σ = 560.46 m³/s. Les critères d’information donnent une log-vraisemblance de 86.31, un AIC de 176.61 et un BIC de 177.41. Comparativement à l’ajustement Gumbel sur la série observée (μ = 2875.18 m³/s ; σ = 733.76 m³/s), les paramètres estimés sur la série simulée sont sensiblement plus faibles, ce qui traduit une tendance centrale et une dispersion inférieures des débits simulés par rapport aux débits observés. Cet écart entre les deux séries mérite d’être pris en compte lors de l’interprétation des quantiles extrêmes, notamment pour les périodes de retour élevées, où la divergence entre les deux ajustements pourrait s’accentuer.
plot(gumfit_sim)
L’ajustement du modèle de Gumbel aux données simulées (AMAXsim) révèle un ajustement nettement moins satisfaisant que sur les données observées. Le QQ-plot montre une dispersion importante des points autour de la diagonale, avec des déviations significatives aux deux extrémités, indiquant que le modèle de Gumbel capture mal la structure des données simulées. Le PP-plot confirme ces écarts, particulièrement prononcés dans les queues. La comparaison des densités est particulièrement révélatrice : la densité empirique présente une forme bimodale avec deux pics distincts, que le modèle de Gumbel (unimodal) ne peut pas reproduire. Ce décalage est majeur et remet en question l’adéquation du modèle. La courbe des niveaux de retour présente des bandes de confiance très larges, reflétant une forte incertitude. La présence d’une bimodalité dans les données simulées suggère une hétérogénéité dans le processus générateur, rendant le modèle de Gumbel inadapté pour cette série simulée.
L’ajustement d’une loi GEV aux maxima annuels simulés fournit les paramètres suivants : un paramètre de position μ = 2368.13 m³/s, un paramètre d’échelle σ = 588.19 m³/s et un paramètre de forme ξ = −0.183. Comme pour la série observée, le paramètre de forme négatif indique une distribution de type Weibull à queue bornée, bien que sa valeur absolue soit plus faible que celle estimée sur la série observée (ξ = −0.317), suggérant une queue de distribution légèrement moins contrainte. Les critères d’information donnent une log-vraisemblance de 85.98, un AIC de 177.96 et un BIC de 179.16. Comparativement à l’ajustement Gumbel sur la même série simulée (AIC = 176.61 ; BIC = 177.41), la loi de Gumbel présente à nouveau des critères plus favorables avec ΔAIC = 1.35 et ΔBIC = 1.75, tous deux inférieurs au seuil de 2, confirmant ainsi la préférence pour le modèle de Gumbel au titre du principe de parcimonie.
plot(gevfit_sim)
L’ajustement GEV sur les données simulées (AMAXsim) montre des diagnostics globalement satisfaisants mais avec une qualité moindre par rapport aux données observées. Le QQ-plot révèle une dispersion plus importante des points autour de la diagonale, notamment aux valeurs extrêmes, indiquant un ajustement moins précis. Le PP-plot confirme cette tendance avec des écarts plus marqués. La comparaison des densités montre un décalage notable entre la densité empirique et modélisée, suggérant que les données simulées présentent une distribution légèrement différente de celle capturée par le modèle GEV. La courbe des niveaux de retour reste croissante, mais les bandes de confiance sont plus larges que pour les données observées, traduisant une incertitude accrue. Ce résultat est cohérent avec le fait que les données simulées introduisent une variabilité supplémentaire par rapport aux observations, ce qui rend l’ajustement plus incertain.
3.6 Estimation des quantiles de crue
Le meilleur modèle (identifié par l’AIC) est utilisé pour chaque série. Dans ce travail, nous retenons la loi de Gumbel.
Les quantiles estimés croissent régulièrement avec la période de retour, passant de 3144 m³/s pour la crue biennale à 5738 m³/s pour la crue cinquantennale. On notera toutefois que les intervalles de confiance à 95 % sont particulièrement larges, reflétant l’incertitude importante liée à la faible taille de l’échantillon (n = 11). Cette incertitude s’accentue avec la période de retour, ce qui invite à la prudence dans l’interprétation des quantiles extrêmes, notamment pour la crue cinquantennale dont la borne supérieure n’est pas disponible dans les résultats fournis.
Comparativement aux quantiles issus de la série observée, les estimations de la série simulée sont systématiquement inférieures pour toutes les périodes de retour, avec des écarts allant de 619 m³/s pour la crue biennale à 1232 m³/s pour la crue cinquantennale. Cet écart croissant avec la période de retour traduit une sous-estimation progressive des débits extrêmes par le modèle hydrologique, vraisemblablement liée aux différences de paramètres d’échelle entre les deux ajustements (σ = 733.76 m³/s pour la série observée contre σ = 560.46 m³/s pour la série simulée). Ces résultats soulignent l’importance de recourir aux données observées pour le dimensionnement des ouvrages hydrauliques, les débits simulés ne reproduisant pas fidèlement l’amplitude des crues extrêmes à la station de Bafing-Makana.
3.6.4 Visualisation des quantiles et intervalles de confiance
Afficher le code
recap_long <- recap %>%select(T, Q_obs, IC_inf_obs, IC_sup_obs, Q_sim, IC_inf_sim, IC_sup_sim) %>%pivot_longer(-T,names_to =c(".value", "Serie"),names_pattern ="(.+)_(obs|sim)") %>%mutate(Serie =ifelse(Serie =="obs", "Observé", "Simulé"))ggplot(recap_long, aes(x = T, y = Q, color = Serie, fill = Serie)) +geom_ribbon(aes(ymin = IC_inf, ymax = IC_sup), alpha =0.15, color =NA) +geom_line(linewidth =1) +geom_point(size =3) +scale_color_manual(values =c("Observé"="dodgerblue", "Simulé"="tomato")) +scale_fill_manual(values =c("Observé"="dodgerblue", "Simulé"="tomato")) +scale_x_log10(breaks = rperiods, labels =paste0(rperiods, " ans")) +labs(x ="Période de retour (échelle log)",y ="Débit (m³/s)", color =NULL, fill =NULL) +theme_minimal() +theme(legend.position ="top")
Figure 5: Quantiles de crue avec intervalles de confiance à 95%
La figure 5 compare les quantiles de crue estimés à partir des données observées (bleu) et simulées (rouge) en fonction de la période de retour (échelle logarithmique, de 2 à 60 ans). Les deux courbes sont croissantes, ce qui est cohérent avec la théorie des valeurs extrêmes. Cependant, les débits estimés à partir des données observées sont systématiquement supérieurs à ceux issus des données simulées, pour toutes les périodes de retour. Cet écart s’accentue avec l’augmentation de la période de retour, atteignant environ 1000 m³/s pour une période de 60 ans. Les intervalles de confiance à 95 % des deux séries se chevauchent partiellement, suggérant que les différences ne sont pas toujours statistiquement significatives pour les courtes périodes de retour, mais le deviennent pour les événements rares. Ce résultat indique que le modèle de simulation tend à sous-estimer les débits extrêmes par rapport aux observations, ce qui constitue un biais important à considérer pour le dimensionnement des ouvrages hydrauliques.
Figure 6: Biais relatif Br des quantiles GR4J par rapport aux quantiles observés
Le biais relatif est négatif pour toutes les périodes de retour, confirmant que le modèle GR4J sous-estime systématiquement les quantiles de crue par rapport aux observations. Les valeurs sont de -19.7 % pour 2 ans, -20.9 % pour 10 ans, -21.2 % pour 20 ans et -21.5 % pour 50 ans. Le biais s’accentue légèrement avec la période de retour, indiquant que la sous-estimation est plus marquée pour les événements rares et extrêmes. Cette tendance est préoccupante du point de vue de la gestion des risques hydrologiques, car sous-estimer les crues rares peut conduire à un sous-dimensionnement des ouvrages hydrauliques. Ce biais systématique peut s’expliquer par les limites du modèle GR4J à reproduire fidèlement les processus générateurs des débits de pointe extrêmes, notamment en cas de saturation des sols ou d’événements de précipitations intenses non représentés dans la période de calage.
3.6.6 Incertitude normalisée par période de retour
Figure 7: Incertitude normalisée U en fonction de la période de retour
L’incertitude normalisée U = (IC_sup − IC_inf) / Q représente la largeur relative des intervalles de confiance à 95 % rapportée au quantile estimé. Les deux courbes (observée et simulée) sont croissantes, confirmant que l’incertitude augmente avec la période de retour, ce qui est statistiquement attendu. Pour les données observées, U passe d’environ 33 % à 2 ans jusqu’à plus de 55 % à 50 ans. Les données simulées présentent une incertitude légèrement inférieure à celle des observations pour toutes les périodes de retour, les deux courbes convergeant vers des valeurs proches pour les grandes périodes. Ce résultat peut sembler paradoxal : une incertitude plus faible sur les données simulées ne signifie pas un meilleur ajustement, mais plutôt que le modèle GR4J produit des séries moins variables, sous-estimant ainsi la dispersion naturelle des extrêmes. En résumé, bien que l’incertitude soit moindre sur les données simulées, cela reflète le biais de sous-estimation déjà identifié en Figure 6, et non une meilleure représentation des crues extrêmes.
3.7 Discussion
3.7.1 Validation des hypothèses de l’EVA
Les trois tests statistiques convergent vers les mêmes conclusions pour les séries observées et simulées :
Indépendance (Wald-Wolfowitz et Ljung-Box) : aucune autocorrélation significative n’est détectée (p > 0.05). L’hypothèse i.i.d. est validée pour les deux séries.
Stationnarité (Mann-Kendall, pente de Sen) : aucune tendance monotone significative n’est identifiée. Les maxima annuels sont stationnaires sur la période 2005–2015.
Homogénéité (Pettitt) : aucune rupture structurelle n’est détectée. Les données proviennent d’une population statistique homogène.
Ces résultats valident collectivement les conditions nécessaires à l’application de la théorie des valeurs extrêmes (EVA).
3.7.2 Choix du modèle fréquentiel
La comparaison GEV vs Gumbel sur la série observée donne \(\Delta\)AIC = 0.61 et \(\Delta\)BIC = 1.01, tous deux inférieurs au seuil de 2. Conformément au principe de parcimonie, la loi de Gumbel (2 paramètres) est retenue. Ce choix est renforcé par la faible longueur de la série (n = 11), qui ne permet pas d’estimer le paramètre de forme \(\xi\) de la GEV avec une précision statistique suffisante.
3.7.3 Performance du modèle GR4J pour les crues extrêmes
Le modèle GR4J sous-estime systématiquement les quantiles de crue : le biais relatif \(B_r\) est négatif pour toutes les périodes de retour (−19.7 % à 2 ans, −21.5 % à 50 ans). Ce biais s’accentue avec la période de retour, ce qui est préoccupant pour le dimensionnement des ouvrages hydrauliques. Cette sous-estimation s’explique par le calage du modèle sur le comportement moyen de la série, sans optimisation ciblée sur les événements extrêmes.
3.7.4 Incertitude des estimations
L’incertitude normalisée \(U\) croît avec la période de retour pour les deux séries, atteignant plus de 55 % à 50 ans pour les observations. Les intervalles de confiance plus étroits sur les simulations ne reflètent pas une meilleure précision, mais une sous-estimation de la variabilité naturelle par le modèle GR4J. Ces incertitudes élevées, liées à la courte durée de la série (11 ans), doivent être communiquées et prises en compte dans tout usage opérationnel des quantiles estimés.
3.8 Lien de publication
Ce document est disponible en ligne à l’adresse suivante :
Pour publier sur Quarto Pub, exécuter dans le terminal :
quarto publish quarto-pub Projet_Analyse_Frequentielle_2025_2026.qmd
Un compte gratuit sur quartopub.com est nécessaire. Le lien définitif sera généré à la première publication et pourra être partagé.
3.9 Références
Gilleland, E. & Katz, R.W. (2016). extRemes 2.0: An Extreme Value Analysis Package in R. Journal of Statistical Software, 72(8). https://doi.org/10.18637/jss.v072.i08