PROJET D’HYDROLOGIE STATISTIQUE (MASTER 2 OAC)

Analyse fréquentielle et estimation des crues extrêmes dans le bassin versant de Bafing-Makana

Auteur·rice

Affiliation

Mame Fatou Diagne

Université GASTON BERGER / UFR SAT / Département de P.A.

Date de publication

01 juin 2026

1 Introduction

Le bassin versant de Bafing-Makana est une entité géographique et hydrologique située dans le Haut-Bassin du fleuve Sénégal. Il constitue l’un des principaux affluents du fleuve Sénégal et représente une zone d’intérêt majeur pour les études hydrologiques en Afrique de l’Ouest car sujette à d’importantes fluctuations saisonnières de débits ainsi que d’épisodes de crues parfois sévères. En raison de son importance, ce bassin constitue un cadre particulièrement pertinent pour l’application des méthodes d’analyse fréquentielle des valeurs extrêmes.

Dans le cadre de ce projet, on applique l’analyse fréquentielle au bassin versant de Bafing-Makana à partir de séries de débits journaliers observés et simulés par le modèle hydrologique GR4J sur la période 2005–2015. L’objectif principal est d’identifier le modèle fréquentiel le plus adapté à la représentation des crues extrêmes du bassin, puis d’estimer les quantiles de crue associés à différentes périodes de retour.

2 Fondements théoriques

L’analyse fréquentielle en hydrologie est une méthode statistique utilisée pour comprendre et prédire la probabilité d’occurrence future d’événements et de phénomènes hydrologiques rares à partir de l’étude des données passées (séries historiques).

Elle est largement utilisée pour l’étude des événements extrêmes, qu’il s’agisse de crues majeures, de précipitations intenses ou de sécheresses sévères. Cette section présente les bases théoriques de l’analyse fréquentielle appliquée à l’hydrologie.

2.1 Enjeux de l’analyse fréquentielle

Les enjeux de l’analyse fréquentielle sont multidimensionnels, couvrant à la fois la sécurité, la planification des infrastructures et la gestion durable des ressources en eau. Ils se déclinent en ces points qui suivent.

Le dimensionnement des infrastructures et ouvrages hydrauliques: elle permet de calculer les caractéristiques géométriques et structurelles des ouvrages hydrauliques (barrages, digues, évacuateurs de crues, ponts, réseaux d’assainissement) afin qu’ils supportent des charges extrêmes bien définies. Une mauvaise estimation des débits extrêmes peut conduire soit à un sous-dimensionnement des ouvrages, augmentant les risques de défaillance, soit à un surdimensionnement entraînant des coûts économiques excessifs.
La gestion du risque et l’aménagement du territoire: elle fournit les éléments scientifiques indispensables à la cartographie des zones inondables, à la planification urbaine et à la mise en place de plans de prévention des risques (PPR).
La gestion durable des ressources en eau: les estimations des événements extrêmes permettent d’améliorer la planification hydrologique, la gestion des réservoirs et l’évaluation des impacts potentiels liés à la variabilité climatique et au changement climatique.
Un support à la modélisation: en synthétisant les données hydrologiques sur plusieurs années, elle fournit des paramètres fiables pour les hydrologiques. Ainsi, elle permet de relier les observations passées aux probabilités d’occurrence des évènements extrêmes, ce qui sert directement à la modélisation hydrologique.
L’optimisation économique: elle aide à déterminer le meilleur compromis entre le coût initial d’investissement d’une infrastructure et le coût des dommages potentiels si l’événement de projet venait à être dépassé (notion de risque consenti).

2.2 Théorie des valeurs extrêmes (EVA)

2.2.1 Définition

La Théorie des Valeurs Extrêmes (Extreme Value Analysis - EVA) est un domaine de la statistique mathématique spécifiquement dédié à l’étude des événements rares et de forte magnitude. Contrairement aux approches statistiques classiques qui analysent l’ensemble des observations, l’EVA se concentre principalement sur les valeurs situées dans les extrémités de la distribution statistique, s’intéressant exclusivement au comportement asymptotique des queues de distributions (les valeurs maximales ou minimales).

2.2.2 Hypothèses fondamentales

L’application de la théorie des valeurs extrêmes repose sur trois hypothèses statistiques essentielles permettant de garantir la validité des ajustements fréquentiels et la crédibilité des extrapolations réalisées pour les longues périodes de retour.

La première hypothèse est celle de la stationnarité. Elle suppose que les propriétés statistiques de la série hydrologique, notamment la moyenne, la variance et la distribution des données, restent constantes au cours du temps. En d’autres termes, les mécanismes climatiques et hydrologiques qui contrôlent les débits ne doivent pas subir de modifications significatives pendant la période étudiée.
La deuxième hypothèse concerne l’indépendance des observations extrêmes. Les événements analysés doivent être statistiquement indépendants les uns des autres. Dans le cas des maxima annuels, cette hypothèse est généralement acceptable puisque les événements extrêmes sont séparés dans le temps.
Enfin, la troisième hypothèse importante est celle de l’homogénéité des données. Les observations utilisées doivent être cohérentes et ne pas présenter de ruptures artificielles liées à des changements de méthode de mesure, de station hydrométrique ou d’instrumentation. Autrement dit, toutes les données de l’échantillon doivent provenir de la même population statistique et être générées par les mêmes processus physiques sous-jacents.

2.3 Méthodes d’échantillonnage des valeurs extrêmes

L’analyse fréquentielle des événements extrêmes nécessite l’utilisation de méthodes d’échantillonnage adaptées afin d’extraire les observations les plus représentatives des phénomènes rares à partir des séries hydrologiques. Il s’agit de filtrer la chronique complète des débits journaliers afin de constituer un échantillon de données dites « exceptionnelles ».

Dans la théorie des valeurs extrêmes, deux approches méthodologiques standards et complémentaires permettent de réaliser cette sélection: la méthode des maxima par blocs (Block Maxima) et la méthode des dépassements de seuil (Peaks Over Threshold, POT).

2.3.1 Méthode des maxima par blocs (Block Maxima)

Principe

La méthode des maxima par blocs consiste à diviser la chronique temporelle continue en intervalles de temps réguliers et de durées égales, appelés « blocs » qui correspondent généralement à des années hydrologiques ou civiles. Pour chaque bloc annuel, seule la valeur maximale absolue du débit est extraite et conservée.

Cette méthode repose sur le théorème des valeurs extrêmes, selon lequel les maxima d’échantillons suffisamment grands convergent vers une loi de type GEV (Generalized Extreme Value). L’échantillon ainsi constitué (composé d’une valeur par an) est destiné à être ajusté par des distributions statistiques adaptées telles que la loi de Gumbel ou la loi GEV.

Avantages

Simplicité conceptuelle et opérationnelle: Cette approche est intuitive, facile à mettre en œuvre et largement documentée dans la littérature hydrologique. Elle bénéficie de l’appui de nombreux outils numériques et packages statistiques éprouvés (comme extRemes sous R).

Atténuation de la dépendance temporelle: En ne sélectionnant qu’une seule valeur par bloc, la corrélation temporelle à court terme — propre aux séries de débits journaliers — est naturellement éliminée (hypothèse d’indépendance des variables (i.i.d.) respecté).

Filtrage du bruit de fond hydrologique: Le processus de sélection isole le sommet des hydrogrammes et élimine les fluctuations quotidiennes ou saisonnières mineures. L’analyse se focalise ainsi exclusivement sur les événements générateurs de crues réelles.

Robustesse de l’assise théorique: Elle repose sur des théorèmes asymptotiques rigoureux et éprouvés, offrant un cadre statistique hautement validé par la communauté scientifique.

Signification hydrologique directe: L’interprétation physique est concrète et intuitive pour les ingénieurs et les gestionnaires du risque, facilitant la communication des résultats (notion de crue annuelle).

Standardisation internationale: Elle est largement adoptée dans les guides techniques et les études d’impact hydro-climatiques à travers le monde (parfaite comparabilité des résultats avec la littérature existante).

Limites

Perte importante d’information: En ne retenant qu’une seule valeur par an, elle censure et ignore toutes les autres crues majeures secondaires survenues au cours de la même année.

Échantillon réduit et forte incertitude: La taille de la série finale est limitée au nombre d’années d’observation. Cela fragilise l’extrapolation des crues rares (périodes de retour à 50 ou 100 ans) et élargit les intervalles de confiance.

Sensibilité aux années sèches: Lors d’une année de faible hydraulicité, le maximum extrait reste numériquement bas. L’introduire dans l’échantillon intègre du bruit et fausse la queue de la distribution.

Arbitraire du découpage temporel: Le choix de la fenêtre du bloc (année civile ou hydrologique) est figé. Si un événement majeur se produit à cheval sur deux blocs, sa magnitude peut être artificiellement divisée.

Incapacité à gérer le regroupement (Clustering): La méthode ne peut pas modéliser la succession rapprochée de plusieurs événements extrêmes au cours d’une même saison, un aspect pourtant critique pour la gestion des risques.

2.3.2 Méthode Peaks Over Threshold (POT)

Principe

La méthode des dépassements de seuil, connue sous le nom de Peaks Over Threshold (POT), est une approche de la théorie des valeurs extrêmes qui consiste à sélectionner toutes les observations dépassant un seuil élevé prédéfini. Contrairement à la méthode des maxima par blocs, qui ne conserve qu’un seul maximum par période, la méthode POT permet de retenir plusieurs événements extrêmes au sein d’une même année.

Contrairement à la méthode des maxima par blocs, qui ne conserve qu’un seul maximum par période, la méthode POT permet de retenir plusieurs événements extrêmes au sein d’une même année. Par ailleurs, les événements extrêmes sélectionnés doivent être indépendants. Il est alors nécessaire d’utiliser des techniques de declustering afin de conserver uniquement les événements indépendants.

Avantages

Optimisation et richesse de l’information : Elle exploite pleinement la chronique chronologique en capturant tous les événements extrêmes réels, sans subir la censure d’un découpage annuel rigide.

Flexibilité temporelle : Elle permet de conserver plusieurs crues majeures indépendantes au cours d’une même année, tout en excluant totalement les valeurs basses liées aux périodes de sécheresse ou d’hydraulicité normale.

Élargissement de l’échantillon : En augmentant potentiellement le nombre d’observations de crise par rapport aux maxima annuels, elle offre une base statistique beaucoup plus dense et représentative.

Précision accrue des estimations : L’apport de données supplémentaires améliore significativement la robustesse des ajustements statistiques et réduit les marges d’erreur.

Fiabilité sur les longues périodes de retour : En modélisant plus fidèlement la queue de la distribution, elle permet une meilleure extrapolation de la magnitude des événements rares (comme les crues cinquantenaires ou centenaires).

Limites

Délicatesse du choix du seuil: La sélection du seuil optimal reste subjective et empirique. Un seuil trop bas intègre des données ordinaires (violation de la théorie), tandis qu’un seuil trop élevé réduit drastiquement la taille de l’échantillon et accroît l’incertitude.

Dépendance statistique des observations: Lors d’un même épisode de crue, plusieurs débits journaliers consécutifs dépassent fréquemment le seuil. Ces valeurs successives étant fortement corrélées entre elles, elles violent l’hypothèse fondamentale d’indépendance (i.i.d.).

Nécessité de procédures de filtrage: Pour garantir l’indépendance des événements, il est obligatoire d’appliquer des algorithmes supplémentaires et contraignants de dégroupement (declustering) afin d’isoler uniquement le pic principal de chaque crue.

Complexité de mise en œuvre: En raison du choix du seuil et du traitement de la dépendance des données, sa manipulation pratique et statistique est nettement plus lourde et complexe que celle de la méthode des maxima annuels.

2.4 Modèle fréquentiel

En hydrologie, un modèle fréquentiel est une loi de probabilité utilisée pour représenter statistiquement le comportement des événements extrêmes observés dans une série hydrologique. Ce modèle permet d’associer mathématiquement la magnitude d’un événement (comme un débit de crue) à sa probabilité d’occurrence et à sa période de retour.

2.4.1 Ajustement d’un modèle fréquentiel

L’ajustement d’un modèle fréquentiel consiste à adapter un modèle statistique aux données observées afin de représenter au mieux la distribution des fréquences d’événements ou d’observations dans un échantillon. En pratique, cela signifie estimer les paramètres du modèle afin de faire correspondre au plus près la courbe théorique de la loi statistique avec les points de données réels observés (la distribution empirique).

Autrement dit, il s’agit de trouver la distribution statistique la plus adaptée au comportement des événements extrêmes extraits de la série hydrologique.

2.4.2 Pourquoi ajuster un modèle fréquentiel ?

L’ajustement d’un modèle fréquentiel est une étape essentielle en analyse fréquentielle puisqu’il permet de:

Représenter mathématiquement les extrêmes : Il permet de traduire une série brute de débits de terrain en une loi de probabilité structurée, facilitant l’identification des patterns et régularités de la distribution.
Extrapoler au-delà des observations : Les séries réelles étant souvent courtes (comme les 11 ans du Bafing-Makana), l’ajustement permet de “prolonger” la courbe pour estimer la magnitude et la probabilité d’occurrence de crues rares (périodes de retour à 50 ou 100 ans) jamais observées historiquement.
Calculer les quantiles de projet : Il fournit les valeurs numériques exactes de débits nécessaires au dimensionnement des ouvrages hydrauliques en fonction du risque choisi.
Quantifier l’incertitude : Il permet de calculer des intervalles de confiance et de réaliser des tests statistiques pour mesurer la qualité de l’ajustement et encadrer la marge d’erreur des prédictions.
Comparer et sélectionner la meilleure loi : En ajustant différentes lois (Gumbel, GEV, etc.) sur un même échantillon, on peut utiliser des critères numériques pour retenir le modèle le plus performant pour la gestion des risques.

2.4.3 Comment ajuster un modèle fréquentiel ?

L’ajustement d’un modèle fréquentiel repose sur des méthodes qui permettent de représenter statistiquement ou fonctionnellement les variables hydrologiques (précipitations, débits, volume de crue, etc.) et de prédire leur comportement à partir de données historiques.

Plusieurs méthodes d’ajustement peuvent être utilisées en analyse fréquentielle. Les plus courantes sont la méthode des moments, la méthode du maximum de vraisemblance et la méthode des L-moments.

La méthode des moments ordinaires :

Elle consiste à égaliser les caractéristiques théoriques de la loi (sa moyenne, sa variance,etc) avec les caractéristiques calculées directement sur l’échantillon de données.
- Propriétés: Très simple et intuitive à comprendre, elle est cependant très sensible aux valeurs extrêmes exceptionnelles qui peuvent complètement fausser le calcul des paramètres.
La méthode du Maximum de Vraisemblance (MLE) :

Elle s’appuie sur une fonction de calcul qui recherche les paramètres de la loi rendant l’observation de l’échantillon réel la plus probable possible.
- Propriétés: C’est la méthode la plus puissante sur le plan théorique lorsque l’on dispose d’un grand nombre de données. En revanche, elle peut être instable sur de petites séries.
La méthode des L-moments

Elle est une alternative robuste à la méthode des moments classiques et repose sur des combinaisons linéaires des statistiques d’ordre plutôt que sur les moments traditionnels.
- Propriétés: Recommandée pour les échantillons courts, elle est extrêmement stable, ne subit pas l’effet des valeurs aberrantes et donne des estimations très robustes.

3 Mise en œuvre

3.1 Echantillonnage des maxima annuels

# --- Chargement des packages nécessaires ---
library(readxl)
library(dplyr)
library(tidyverse)
library(extRemes)

# --- Chargement des données ---
donnees <- read_excel("C:/Users/jerom/Documents/Projet_Hydro-Stat/Qmm_BafingMakana.xlsx")

# Conversion de la colonne Date et extraction de l'année
donnees <- donnees %>%
  mutate(Date = as.Date(Date),
         Annee = as.numeric(format(Date, "%Y")))

# --- Échantillonnage Block-Maxima ---
max_annuels <- donnees %>%
  group_by(Annee) %>%
  summarise(
    Qobs_max = max(Qobs, na.rm = TRUE),
    Qsim_max = max(Qsim, na.rm = TRUE)
  )

# Affichage du tableau des maxima pour vérification dans le rapport
knitr::kable(max_annuels, caption = "Maxima annuels des débits observés et simulés (Bafing-Makana)")

Maxima annuels des débits observés et simulés (Bafing-Makana)
Annee	Qobs_max	Qsim_max
2005	3035.004	1717.215
2006	1760.714	1606.149
2007	3584.799	2724.747
2008	2488.635	2481.776
2009	3601.927	2685.874
2010	4511.401	2912.659
2011	2885.995	2930.059
2012	4391.508	2435.068
2013	3380.981	3994.115
2014	2937.377	2390.572
2015	2760.963	2737.395

Pour chaque série de débits (observés et simulés), la méthode des Block Maxima a été utilisée afin d’extraire les valeurs maximales annuelles. Cette approche consiste à sélectionner, pour chaque année hydrologique, la valeur maximale observée, permettant ainsi de constituer une série de valeurs extrêmes.

3.2 Tests d’hypothèses: Vérification des hypothèses de la théorie de EVA

Pour une série de maxima annuels, les hypothèses essentielles sont :

La stationnarité: les caractéristiques statistiques ne changent pas au cours du temps.
L’indépendance: les maxima d’une année ne doivent pas dépendre de ceux de l’année précédente.

Nous allons d’abord tester l’absence de tendance (linéaire ou climatique sur la période 2005-2015) puis l’absence d’autocorrélation d’une année sur l’autre.

3.2.1 Test de tendance (Mann-Kendall)

Le test de Mann-Kendall (appliqué aux maxima annuels) est utilisé afin de détecter la présence d’une tendance monotone dans la série des maxima annuels.

# Test de stationnarité (tendance)
library(trend)

mk.test(max_annuels$Qobs_max)


    Mann-Kendall trend test

data:  max_annuels$Qobs_max
z = 0.1557, n = 11, p-value = 0.8763
alternative hypothesis: true S is not equal to 0
sample estimates:
           S         varS          tau 
  3.00000000 165.00000000   0.05454545

Il fournit une p-value de 0.8763, largement supérieure au seuil de 5% (0.05). L’hypothèse nulle d’absence de tendance ne peut donc pas être rejetée.

La statistique de Kendall (tau = 0.0545), très proche de zéro, confirme l’absence de tendance monotone significative sur la période 2005–2015.

Ainsi, la série des débits extrêmes peut être considérée comme stationnaire en tendance, ce qui satisfait une condition essentielle de la théorie des valeurs extrêmes (EVA).

3.2.2 Test d’indépendance (autocorrélation)

Puisque la stationnarité est validée, passons au second test. Il s’agit de vérifier si les maxima annuels sont indépendants dans le temps.

La fonction d’autocorrélation (ACF) des maxima annuels permet d’évaluer l’existence d’une dépendance linéaire entre les valeurs de la série à différents décalages temporels (lags).

# Test d’indépendance : fonction d’autocorrélation acf
acf(max_annuels$Qobs_max,
    main = "ACF des maxima annuels observés")

Par construction, l’autocorrélation est égale à 1 au lag 0. Pour les lags supérieurs ou égaux à 1, les coefficients restent globalement compris dans les bornes de confiance à 95%.

Aucune autocorrélation significative n’est observée sur les lags étudiés (1 à 10 ans), ce qui indique l’absence de persistance temporelle dans la série des extrêmes.

3.2.3 Conclusion des tests d’hypothèses

Les résultats du test de Mann-Kendall (p-value = 0.8763) et de l’analyse de l’ACF montrent que la série des maxima annuels observés est stationnaire en tendance et ne présente pas de dépendance temporelle significative.

Par conséquent, l’hypothèse d’indépendance et d’identique distribution (i.i.d.) des extrêmes est jugée acceptable, ce qui permet de poursuivre l’analyse par l’ajustement des modèles fréquentiels (GEV et Gumbel).

3.3 Modèles fréquentiels

3.3.1 Ajustement des distributions GEV et Gumbel

L’ajustement des modèles GEV et Gumbel sur les maxima annuels met en évidence la capacité des deux distributions à représenter les valeurs extrêmes.

Il est réalisé à partir de la méthode L-moments: cette approche permet une estimation robuste des paramètres des distributions de valeurs extrêmes.

## 3.3 Ajustement des modèles fréquentiels

#| label: ajustement-modeles-lmom
#| echo: true
#| message: false
#| warning: false

library(lmomco)

Warning: package 'lmomco' was built under R version 4.4.3

# 1. Calcul des L-moments
lmom_obs <- lmomco::lmoms(max_annuels$Qobs_max)

# 2. Ajustement des modèles fréquentiels
par_gev <- lmomco::pargev(lmom_obs)
par_gum <- lmomco::pargum(lmom_obs)

# 3. Affichage des résultats
cat("=== AJUSTEMENT GEV (L-moments) ===\n")

=== AJUSTEMENT GEV (L-moments) ===

print(par_gev)

$type
[1] "gev"

$para
          xi        alpha        kappa 
2896.4691703  795.0232892    0.2160873 

$source
[1] "pargev"

cat("\n=== AJUSTEMENT GUMBEL (L-moments) ===\n")


=== AJUSTEMENT GUMBEL (L-moments) ===

print(par_gum)

$type
[1] "gum"

$para
       xi     alpha 
2823.1049  674.8935 

$source
[1] "pargum"

3.3.2 Comparaison de la qualité d’ajustement des modèles GEV et Gumbel

Pour rester en parfaite adéquation avec la méthode d’ajustement , la RMSE ( Root Mean Squared Error) est le choix le plus rigoureux. Contrairement aux critères basés sur la vraisemblance (AIC, BIC), elle est parfaitement compatible avec une estimation par la méthode des L-moments, qui ne repose pas sur une fonction de log-vraisemblance.

Elle mesure l’écart moyen direct entre les débits observés et les débits théoriques calculés par les modèles avec l’avantage d’être facilement interprétable car exprimée dans la même unité que la variable étudiée (m³/s).

Par ailleurs, la RMSE offre un indicateur de performance concret et indépendant de toute simulation numérique ou biais de modèle (comparaison basée exclusivement sur les données observées: le choix est pleinement cohérent avec l’exigence méthodologique du projet).

## Comparaison des modèles avec la RMSE
#| label: rmse-gev-gum
#| echo: true
#| message: false
#| warning: false

library(lmomco)

# -----------------------------
# 1. Données empiriques
# -----------------------------
emp <- sort(max_annuels$Qobs_max)
n <- length(emp)

# Probabilités de Gringorten (recommandé en hydrologie)
p <- (1:n - 0.44) / (n + 0.12)

# -----------------------------
# 2. Quantiles théoriques
# -----------------------------
q_gev <- quagev(p, par_gev)
q_gum <- quagum(p, par_gum)

# -----------------------------
# 3. Fonction RMSE
# -----------------------------
rmse <- function(obs, sim) {
  sqrt(mean((obs - sim)^2))
}

rmse_gev <- rmse(emp, q_gev)
rmse_gum <- rmse(emp, q_gum)

# -----------------------------
# 4. Résultats
# -----------------------------
cat("=== COMPARAISON DES MODÈLES (RMSE) ===\n")

=== COMPARAISON DES MODÈLES (RMSE) ===

cat("RMSE GEV    :", rmse_gev, "\n")

RMSE GEV    : 150.7684

cat("RMSE Gumbel :", rmse_gum, "\n")

RMSE Gumbel : 193.659

# -----------------------------
# 5. Choix automatique
# -----------------------------
if (rmse_gev < rmse_gum) {
  cat("\n=> Le modèle GEV est le plus performant selon la RMSE.\n")
} else {
  cat("\n=> Le modèle Gumbel est le plus performant selon la RMSE.\n")
}


=> Le modèle GEV est le plus performant selon la RMSE.

La comparaison des modèles fréquentiels à l’aide de la RMSE montre que la distribution GEV présente une meilleure capacité à reproduire les maxima annuels observés que la distribution de Gumbel. En effet, la RMSE obtenue pour la GEV (150,77 m³/s) est inférieure à celle de la loi de Gumbel (193,66 m³/s), ce qui traduit des écarts moyens plus faibles entre les quantiles observés et les quantiles théoriques.

3.3.3 Résultats de l’ajustement: graphiques diagnostiques

library(lmomco)

# -----------------------------
# Données empiriques
# -----------------------------
emp <- sort(max_annuels$Qobs_max)
n <- length(emp)
p <- (1:n - 0.44) / (n + 0.12)

# -----------------------------
# Quantiles théoriques
# -----------------------------
q_gev <- quagev(p, par_gev)
q_gum <- quagum(p, par_gum)

# -----------------------------
# 1. QQ-plot (Quantiles vs quantiles)
# -----------------------------
plot(emp, q_gev,
     pch = 19, col = "red",
     xlab = "Quantiles observés",
     ylab = "Quantiles GEV",
     main = "GEV")

abline(0, 1, col = "black", lwd = 2)

plot(emp, q_gum,
     pch = 19, col = "blue",
     xlab = "Quantiles observés",
     ylab = "Quantiles Gumbel",
     main = "Gumbel")

abline(0, 1, col = "black", lwd = 2)

# -----------------------------
# 2. Courbe de retour (Return level plot)
# -----------------------------
plot(p, emp,
     pch = 19,
     xlab = "Probabilité non-excédée",
     ylab = "Débit (m³/s)",
     main = "Courbe de retour")

lines(p, q_gev, col = "red", lwd = 2)
lines(p, q_gum, col = "blue", lwd = 2)

legend("topleft",
       legend = c("Observé", "GEV", "Gumbel"),
       col = c("black", "red", "blue"),
       lwd = 2,
       bty = "n")

Q-Q GEV

Le modèle GEV présente un très bon alignement des quantiles empiriques avec la droite de référence, indiquant une excellente adéquation globale. Il reproduit efficacement les valeurs intermédiaires ainsi que les valeurs extrêmes, notamment le débit maximal observé (≈ 4500 m³/s).

Q-Q Gumbel

Le modèle de Gumbel montre un ajustement globalement satisfaisant, mais légèrement plus contraint. Un écart plus marqué est observé pour les valeurs élevées, traduisant une moindre flexibilité dans la représentation des queues de distribution.

Courbe de retour

Dans la zone des faibles probabilités (p<0.2), la loi GEV reproduit plus fidèlement les plus faibles valeurs observées, tandis que la loi de Gumbel tend à les surestimer légèrement.

Dans la zone centrale (0.2<p<0.8), les deux modèles présentent un ajustement satisfaisant, avec une meilleure continuité pour la GEV.

Dans la zone des extrêmes (p>0.8), la GEV décrit mieux la courbure des données et suit plus efficacement la croissance des valeurs élevées. La loi de Gumbel montre une rigidité qui limite sa capacité à représenter les valeurs extrêmes les plus élevées.

Conclusion

Les analyses issues des graphiques diagnostiques, notamment de la représentation des crues les plus élevées, confirment les résultats de la RMSE qui montraient déjà une meilleure adéquation de la GEV aux données observées.

3.4 Estimation des quantiles de crue

Le modèle GEV ayant présenté la meilleure qualité d’ajustement selon le critère RMSE, est retenu pour l’estimation des quantiles de crue associés aux périodes de retour de 2, 10, 20 et 50 ans. Les quantiles sont estimés à partir des séries de maxima annuels observés et simulés.

Estimation des quantiles de crue observés

library(extRemes)

# Ajustement du modèle GEV sur les maxima annuels observés
modele_gev_obs <- fevd(
  x = max_annuels$Qobs_max,
  type = "GEV",
  method = "MLE"
)

# Périodes de retour étudiées
periodes_retour <- c(2, 10, 20, 50)

# Estimation des quantiles et intervalles de confiance à 95 %
resultats_obs <- return.level(
  modele_gev_obs,
  return.period = periodes_retour,
  do.ci = TRUE
)

# Construction du tableau de résultats
quantiles_obs <- data.frame(
  Periode_retour = periodes_retour,
  Borne_inferieure = resultats_obs[,1],
  Quantile = resultats_obs[,2],
  Borne_superieure = resultats_obs[,3]
)

# Calcul de l'incertitude normalisée
quantiles_obs$Incertitude <- (
  quantiles_obs$Borne_superieure -
  quantiles_obs$Borne_inferieure
) / quantiles_obs$Quantile

# Arrondi des résultats
quantiles_obs <- round(quantiles_obs, 2)

# Affichage du tableau
knitr::kable(
  quantiles_obs,
  caption = "Quantiles de crue observés, intervalles de confiance et incertitudes associées"
)

Quantiles de crue observés, intervalles de confiance et incertitudes associées
	Periode_retour	Borne_inferieure	Quantile	Borne_superieure	Incertitude
2-year return level	2	2645.13	3172.28	3699.44	0.33
10-year return level	10	3622.00	4176.39	4730.78	0.27
20-year return level	20	3743.85	4427.13	5110.41	0.31
50-year return level	50	3718.54	4677.30	5636.06	0.41

Pour les données observées, les quantiles augmentent progressivement avec la période de retour, passant de 3172,28 m³/s pour une période de retour de 2 ans à 4677,30 m³/s pour une période de retour de 50 ans. Cette évolution est conforme à la théorie fréquentielle, selon laquelle les événements les plus rares sont associés à des débits plus élevés.

Estimation des quantiles de crue simulés

# Ajustement du modèle GEV sur les maxima annuels simulés
modele_gev_sim <- fevd(
  x = max_annuels$Qsim_max,
  type = "GEV",
  method = "MLE"
)

# Estimation des quantiles et intervalles de confiance à 95 %
resultats_sim <- return.level(
  modele_gev_sim,
  return.period = periodes_retour,
  do.ci = TRUE
)

# Construction du tableau de résultats
quantiles_sim <- data.frame(
  Periode_retour = periodes_retour,
  Borne_inferieure = resultats_sim[,1],
  Quantile = resultats_sim[,2],
  Borne_superieure = resultats_sim[,3]
)

# Calcul de l'incertitude normalisée
quantiles_sim$Incertitude <- (
  quantiles_sim$Borne_superieure -
  quantiles_sim$Borne_inferieure
) / quantiles_sim$Quantile

# Arrondi des résultats
quantiles_sim <- round(quantiles_sim, 2)

# Affichage du tableau
knitr::kable(
  quantiles_sim,
  caption = "Quantiles de crue simulés, intervalles de confiance et incertitudes associées"
)

Quantiles de crue simulés, intervalles de confiance et incertitudes associées
	Periode_retour	Borne_inferieure	Quantile	Borne_superieure	Incertitude
2-year return level	2	2181.06	2576.63	2972.19	0.31
10-year return level	10	2877.78	3452.74	4027.71	0.33
20-year return level	20	2998.59	3715.33	4432.06	0.39
50-year return level	50	3036.07	4007.61	4979.16	0.48

Les résultats obtenus à partir des simulations GR4J présentent également une augmentation des quantiles avec la période de retour. Toutefois, les valeurs simulées demeurent systématiquement inférieures aux quantiles observés, ce qui suggère une sous-estimation des crues extrêmes par le modèle hydrologique.

Calcul du biais relatif

# Comparaison des quantiles observés et simulés
biais_relatif <- data.frame(
  Periode_retour = periodes_retour,
  Quantile_observe = quantiles_obs$Quantile,
  Quantile_simule = quantiles_sim$Quantile
)

# Calcul du biais relatif
biais_relatif$Biais_relatif <- (
  biais_relatif$Quantile_simule -
  biais_relatif$Quantile_observe
) / biais_relatif$Quantile_observe

# Arrondi
biais_relatif <- round(biais_relatif, 3)

# Affichage
knitr::kable(
  biais_relatif,
  caption = "Biais relatif des quantiles simulés par rapport aux quantiles observés"
)

Biais relatif des quantiles simulés par rapport aux quantiles observés
Periode_retour	Quantile_observe	Quantile_simule	Biais_relatif
2	3172.28	2576.63	-0.188
10	4176.39	3452.74	-0.173
20	4427.13	3715.33	-0.161
50	4677.30	4007.61	-0.143

Le biais relatif a été calculé afin d’évaluer la capacité du modèle GR4J à reproduire les quantiles de crue estimés à partir des observations. Les résultats montrent que le biais relatif est négatif pour l’ensemble des périodes de retour étudiées.

3.5 Discussion: analyse et interprétation des résultats

L’analyse conjointe des quantiles de crue, des indices d’incertitude et des biais relatifs permet de dresser un diagnostic précis du comportement hydro-statistique du bassin de Bafing-Makana et d’évaluer les performances du modèle conceptuel GR4J face aux événements extrêmes.

Les résultats numériques révèlent une sous-estimation systématique des quantiles simulés par rapport aux quantiles observés, avec un biais qui oscille entre -18,8 % (pour la crue biennale) et -14,3 % (pour la crue cinquantenaire). Cette sous-estimation reste importante aussi bien pour les événements fréquents que pour les événements rares, ce qui indique une limite structurelle du modèle dans la reproduction des extrêmes hydrologiques.

Par ailleurs, l’analyse des intervalles de confiance met en évidence une relation claire entre la période de retour et le niveau d’incertitude. Plus la période de retour augmente, plus les intervalles de confiance s’élargissent. Cette tendance traduit une augmentation progressive de l’incertitude associée aux quantiles extrêmes. Cette évolution s’explique par le fait que les grandes périodes de retour correspondent à une extrapolation de la distribution au-delà des observations disponibles.

Ainsi, l’incertitude est relativement faible pour les événements fréquents (faibles périodes de retour), mais devient significativement plus importante pour les événements rares. En résumé, le modèle GR4J tend à sous-estimer les extrêmes hydrologiques, tandis que les intervalles de confiance révèlent une augmentation attendue de l’incertitude avec l’extrapolation vers les fortes périodes de retour.

4 Conclusion générale

Cette étude a permis d’analyser les crues extrêmes du bassin de Bafing-Makana à partir de la théorie des valeurs extrêmes et de comparer les performances du modèle hydrologique GR4J aux observations.

Les tests préliminaires ont montré que les maxima annuels respectent les hypothèses de stationnarité et d’indépendance, ce qui justifie l’application d’une analyse fréquentielle. L’ajustement des lois de Gumbel et GEV par la méthode des L-moments a révélé que la loi GEV offre le meilleur compromis d’ajustement selon le critère RMSE.

L’estimation des quantiles de crue montre une augmentation des incertitudes avec la période de retour, traduisant les limites de l’extrapolation vers les événements rares. On note aussi que le modèle GR4J sous-estime systématiquement les crues extrêmes, mettant en évidence un biais structurel dans la reproduction des fortes valeurs.

En conclusion, l’approche statistique permet une bonne caractérisation des extrêmes, mais la représentation des crues rares reste limitée.