Chargement des données

# Définir le répertoire de travail
setwd("C:/Users/HP PC/Documents/S7/Projet Coulibaly/Projet RTI 2024-2025 A/Script 2/")

# Charger les données
donnees <- read.csv("Donnees 4.csv", header = TRUE, sep =";", quote = "\"",
                    dec = ",", row.names = 1)

# Aperçu des données
head(donnees)
##                 ISA    EP TMI MOH  AI   PIB   DEA IBSV   ER  UEI   UES
## Benin         39.46 75.37 8.1 2.9 2.5  7.17 28.10 4.38 0.98 1.42  8.56
## Burkina Faso  58.08 78.98 7.9 3.2 2.7  4.51 67.26 4.55 7.82 4.04  3.16
## Cote d'ivoire 64.18 81.10 6.9 1.6 1.4 11.56 25.72 5.08 5.09 0.86 18.75
## Gambie        59.40 91.56 4.6 1.6 1.3  4.41  7.60 4.48 2.21 0.22  3.99
## Ghana         73.13 94.30 4.2 1.7 1.3 11.44 51.34 4.29 6.31 3.22 18.02
## Guinee        60.58 83.62 9.6 2.7 2.2  5.64 30.66 5.02 1.37 1.04  3.61

Nous avons résumé nos variables ci-dessous :
Accès à des installations sanitaires améliorées (ISA)
Accès à l’eau potable (EP)
Eaux renouvelables (ER)
Décès liés aux maladies d’origine hydrique (MOH)
décès liés à un assainissement insalubre (AI)
Produit intérieur brut (PIB)
Dépenses liées à l’eau et à l’assainissement (DEA)
Indice de bonheur et de satisfaction de la vie (IBSV)
Efficacité de l’utilisation des eaux pour l’industrie (UEI)
Efficacité de l’utilisation des eaux pour les services (UES)

Matrice de corrélation

# Calcul de la matrice de corrélation
mat_cor <- cor(donnees[1:9])

# Visualiser la matrice de corrélation
mat_cor
##              ISA         EP        TMI         MOH         AI        PIB
## ISA   1.00000000  0.7882945 -0.4359682 -0.65285522 -0.6651304  0.5569880
## EP    0.78829452  1.0000000 -0.5991238 -0.71728370 -0.7494969  0.4291996
## TMI  -0.43596824 -0.5991238  1.0000000  0.81582180  0.8148701 -0.2751251
## MOH  -0.65285522 -0.7172837  0.8158218  1.00000000  0.9953272 -0.4441371
## AI   -0.66513045 -0.7494969  0.8148701  0.99532723  1.0000000 -0.4461966
## PIB   0.55698797  0.4291996 -0.2751251 -0.44413711 -0.4461966  1.0000000
## DEA  -0.01839368 -0.1158328  0.3535575  0.50700513  0.4954041  0.1772007
## IBSV  0.24336556  0.3009937 -0.1396397 -0.23437006 -0.2119391  0.4974654
## ER    0.41005880  0.2349939 -0.1558655 -0.02576509 -0.0160183  0.3145167
##              DEA       IBSV          ER
## ISA  -0.01839368  0.2433656  0.41005880
## EP   -0.11583276  0.3009937  0.23499390
## TMI   0.35355754 -0.1396397 -0.15586546
## MOH   0.50700513 -0.2343701 -0.02576509
## AI    0.49540414 -0.2119391 -0.01601830
## PIB   0.17720069  0.4974654  0.31451665
## DEA   1.00000000  0.3693158  0.78478753
## IBSV  0.36931578  1.0000000  0.48197271
## ER    0.78478753  0.4819727  1.00000000

Cette matrice de corrélation met en évidence les relations clés entre les variables liées à l’eau, à l’assainissement, et aux indicateurs socio-économiques :
Relations principales :
• Une forte corrélation positive entre l’accès à des installations sanitaires améliorées (ISA) et l’accès à l’eau potable (EP) (0.788) montre que ces deux infrastructures se développent simultanément.
• Les décès liés à un assainissement insalubre (AI) etles maladies d’origine hydrique (MOH) sont presque parfaitement corrélés (0.995), confirmant l’impact direct des mauvaises conditions sanitaires sur la santé publique.

Relations négatives significatives :
• L’amélioration de l’accès à l’eau potable (EP) et aux installations sanitaires (ISA) réduit significativement les décès liés aux maladies hydriques (MOH) avec des corrélations respectives de -0.717 et -0.653.
• Le PIB est négativement corrélé aux décès liés aux maladies hydriques (-0.444), suggérant que les pays plus riches investissent davantage pour réduire ces problèmes.

Observations générales :
• Les dépenses liées à l’eau et à l’assainissement (DEA) augmentent avec la disponibilité des eaux renouvelables (ER), avec une forte corrélation (0.788).
• L’indice de bonheur (IBSV) est faiblement corrélé à l’accès à l’eau et à l’assainissement, reflétant un impact indirect.

Analyse en Composantes Principales (ACP)

ACP sans rotation

library(psych)
resultat1 <- principal(donnees[1:9], nfactors = 2, residuals = FALSE, rotate = "none")

# Valeurs propres
resultat1$values
## [1] 4.4500595298 2.4179128431 0.7476089351 0.6380808368 0.4174375801
## [6] 0.2207403834 0.0901758498 0.0170415527 0.0009424892
# Charges factorielles
resultat1$loadings
## 
## Loadings:
##      PC1    PC2   
## ISA  -0.813  0.216
## EP   -0.859       
## TMI   0.798  0.221
## MOH   0.937  0.275
## AI    0.943  0.278
## PIB  -0.609  0.413
## DEA   0.258  0.932
## IBSV -0.382  0.622
## ER   -0.253  0.860
## 
##                  PC1   PC2
## SS loadings    4.450 2.418
## Proportion Var 0.494 0.269
## Cumulative Var 0.494 0.763

ACP avec rotation Varimax

resultat2 <- principal(donnees[1:9], nfactors = 2, residuals = FALSE, rotate = "varimax")

# Valeurs propres
resultat2$values
## [1] 4.4500595298 2.4179128431 0.7476089351 0.6380808368 0.4174375801
## [6] 0.2207403834 0.0901758498 0.0170415527 0.0009424892
# Charges factorielles
resultat2$loadings
## 
## Loadings:
##      RC1    RC2   
## ISA  -0.741  0.397
## EP   -0.821  0.260
## TMI   0.828       
## MOH   0.976       
## AI    0.981       
## PIB  -0.498  0.542
## DEA   0.466  0.848
## IBSV -0.228  0.693
## ER           0.895
## 
##                  RC1   RC2
## SS loadings    4.343 2.525
## Proportion Var 0.483 0.281
## Cumulative Var 0.483 0.763

Visualisation des valeurs propres

Les deux premiers axes principaux expliquent 76,32 % de la variance totale des données, ce qui offre une bonne représentation des informations collectées.

result <- prcomp(donnees[1:9], scale = TRUE)  # ACP
eigenvalues <- result$sdev^2  # Valeurs propres

barplot(eigenvalues, 
        main = "Diagramme des valeurs propres", 
        xlab = "Composantes principales", 
        ylab = "Valeurs propres", 
        col = "blue")

Visualisation des individus et des variables

library(factoextra)
## Warning: le package 'factoextra' a été compilé avec la version R 4.4.2
## Le chargement a nécessité le package : ggplot2
## 
## Attachement du package : 'ggplot2'
## Les objets suivants sont masqués depuis 'package:psych':
## 
##     %+%, alpha
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
# Graphique des individus
fviz_pca_ind(result,
             label = "all",
             repel = TRUE,
             col.ind = "black",
             title = "Graphique des individus")

fviz_pca_var(result,
             col.var = "cos2",  
             gradient.cols = c("#0000FF", "#800080", "#FF0000"), # Couleurs
             repel = TRUE)    # Évite le chevauchement des étiquettes

  1. Représentation des axes principaux
    • Axe 1 (49,45 % de la variance totale) : Oppose des conditions socio-économiques précaires (caractérisées par des valeurs élevées pour AI, MOH et TMI) à des contextes de développement sanitaire élevé (corrélé avec PIB, EP, et ISA). Ce gradient reflète des disparités dans les infrastructures sanitaires et l’accès aux services de base.
    • Axe 2 (26,87 % de la variance totale) :Met en lumière l’importance de la gestion des ressources naturelles et du bien-être. Les variables ER, DEA, et IBSV sont corrélées positivement, suggérant un lien entre la gestion hydrique et la satisfaction des populations.

  2. Relations entre les variables
    Les variables proches de l’origine contribuent peu à ces deux axes. • Une opposition est notable entre AI, MOH, TMI (indicateurs de précarité) et PIB, ISA, EP (indicateurs de développement).
  3. Identification des axes par individu
    • Axe 1 : Classe les pays selon leurs conditions socio-économiques et sanitaires. À gauche, des pays avec des infrastructures faibles (Sénégal, Ghana, Côte d’Ivoire, Gambie). À droite, des pays mieux développés (Bénin, Sierra Leone, Niger).
    • Axe 2 : Oppose les pays en termes de gestion et satisfaction hydrique. En bas, des pays avec une gestion moins efficace (Sierra Leone, Guinée-Bissau, Libéria).En haut, des pays performants dans ce domaine (Nigéria, Sénégal, Niger).

  4. Synthèse des axes
    • L’Axe 1 capture un gradient de développement socio-économique et sanitaire.
    • L’Axe 2 met en avant la gestion des ressources naturelles et son impact sur le bien-être.
    Cette analyse permet un classement des pays selon leurs priorités en matière de développement, offrant des pistes pour orienter les politiques publiques.

Interface interactive pour ACP

library(Factoshiny)
## Le chargement a nécessité le package : FactoMineR
## Le chargement a nécessité le package : shiny
## Le chargement a nécessité le package : FactoInvestigate
# Lancer PCAshiny

Classification Ascendante Hiérarchique (CAH)

Après l’analyse, nous regroupons les différents individus à l’aide de la méthode de classification hiérarchique ascendante (HAC). HAC crée une structure hiérarchique qui permet de visualiser les relations entre des groupes d’objets. Cela peut être utile pour comprendre les sous-groupes et les niveaux de similarité. À l’aide du package Factoshiny du logiciel Rstudio, un rapport de classification CAH est généré.

CAH et visualisation 2D

# Calcul de la matrice de distances
dist_matrix <- dist(donnees[1:9], method = "euclidean")

# Classification hiérarchique
cah <- hclust(dist_matrix, method = "ward.D2")

# Visualisation du dendrogramme
library(dendextend)
## Warning: le package 'dendextend' a été compilé avec la version R 4.4.2
## 
## ---------------------
## Welcome to dendextend version 1.19.0
## Type citation('dendextend') for how to cite the package.
## 
## Type browseVignettes(package = 'dendextend') for the package vignette.
## The github page is: https://github.com/talgalili/dendextend/
## 
## Suggestions and bug-reports can be submitted at: https://github.com/talgalili/dendextend/issues
## You may ask questions at stackoverflow, use the r and dendextend tags: 
##   https://stackoverflow.com/questions/tagged/dendextend
## 
##  To suppress this message use:  suppressPackageStartupMessages(library(dendextend))
## ---------------------
## 
## Attachement du package : 'dendextend'
## L'objet suivant est masqué depuis 'package:stats':
## 
##     cutree
fviz_dend(cah, 
          cex = 0.8, 
          k = 3, 
          rect = TRUE, 
          rect_border = "blue", 
          rect_fill = TRUE, 
          main = "Dendrogramme de la CAH")
## Warning: The `<scale>` argument of `guides()` cannot be `FALSE`. Use "none" instead as
## of ggplot2 3.3.4.
## ℹ The deprecated feature was likely used in the factoextra package.
##   Please report the issue at <https://github.com/kassambara/factoextra/issues>.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

La classification effectuée sur les individus fait apparaître trois (3) classes d’individus.

Le premier groupe est composé de la Guinée Bissau, du Liberia, de la Sierra Leone, de la Guinée, de la Gambie, du Togo, du Benin et de la Côte d’Ivoire). Ce groupe se caractérise également par de faibles valeurs pour les variables eaux renouvelables (ER), dépenses liées à l’eau et à l’assainissement (DEA). Cela signifie que ces pays disposent de ressources en eau douces limitées ou mal exploitées, ce qui peut être liées à des conditions climatiques ou à une gestion inefficace des ressources. Aussi des investissements faibles dans les infrastructures d’eau potable et d’assainissement traduisent un déficit dans les politiques publiques ou une priorité donnée à d’autres secteurs économiques.

Le deuxième groupe est composé du Ghana, du Mali, du Sénégal et du Burkina Faso. Elles se distinguent par leurs fortes valeurs pour les variables Eaux renouvelables (ER), Accès à des installations sanitaires améliorées (ISA). Cela signifie qu’ils bénéficient d’une disponibilité significative en ressources hydriques naturelles. Certains de ces pays sont avantagés par leur géographie qui leur fournit des bassins fluviaux et des écosystèmes présentant une quantité d’eau renouvelables suffisante pour couvrir les besoins de la population et des activités économiques. Aussi les fortes valeurs en matière d’accès aux installations sanitaires améliorées montrent que ces pays ont consacré des ressources à la santé publique et à l’assainissement. Cela peut également refléter une volonté de réduire les maladies liées à l’eau comme le choléra.

Le troisième groupe comprend le Niger et le Nigéria et se caractérise par une forte valeurs pour les variables : dépenses liées à l’eau et à l’assainissement (DEA), Maladies d’origine hydriques (MOH), Assainissement insalubre (AI), Taux de Mortalité Infantile (TMI).Ces pays souffrent d’un déficit structurel en matière d’infrastructures d’eau et d’assainissement. Le Nigéria, avec sa population massive et le Niger, avec sa forte croissance démographique, font face à des défis importants pour répondre aux besoins élémentaires de leurs populations, en particulier dans les zones rurales et les bidonvilles urbains. Nous avons également les maladies d’origines hydriques, liées à une mauvaise qualité de l’eau et à un assainissement insuffisant, qui pèsent lourdement sur les systèmes de santé.

Suite à la classification, on va procéder d’une part à une régression simple pour évaluer l’effet de l’assainissement insalubre sur le taux de maladies d’origine hydrique et d’autre part une régression multiple afin d’étudier l’effet combiné des variables approvisionnement en eau potable , des installations sanitaires améliorées sur le taux de mortalité infantile.

Visualisation 3D des clusters

# Extraire les coordonnées des trois premières dimensions
coord <- as.data.frame(result$x[, 1:3])

# Découper en clusters
clusters <- cutree(cah, k = 3)

# Ajouter les clusters aux données
coord$Cluster <- as.factor(clusters)

# Visualisation interactive en 3D
library(plotly)
## Warning: le package 'plotly' a été compilé avec la version R 4.4.2
## 
## Attachement du package : 'plotly'
## L'objet suivant est masqué depuis 'package:ggplot2':
## 
##     last_plot
## L'objet suivant est masqué depuis 'package:stats':
## 
##     filter
## L'objet suivant est masqué depuis 'package:graphics':
## 
##     layout
fig <- plot_ly(
  data = coord,
  x = ~PC1, y = ~PC2, z = ~PC3,
  color = ~Cluster,
  colors = c("red", "blue", "green", "orange"),
  type = "scatter3d",
  mode = "markers+text",
  text = rownames(coord),
  marker = list(size = 5)
) %>% layout(
  title = "Visualisation 3D des clusters sur le plan factoriel",
  scene = list(
    xaxis = list(title = "Dim 1 (PC1)"),
    yaxis = list(title = "Dim 2 (PC2)"),
    zaxis = list(title = "Dim 3 (PC3)")
  )
)

fig

Analyse des Corrélations et Modèles

Visualisation des corrélations

library(GGally)
## Warning: le package 'GGally' a été compilé avec la version R 4.4.2
## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2
ggpairs(donnees, columns = c("ISA", "EP", "MOH"))

• ISA et EP (Corr: 0.788) : Une forte corrélation positive montre qu’une amélioration des installations sanitaires (ISA) est associée à un meilleur accès à l’eau potable (EP).
• ISA et MOH (Corr: -0.653) : Une corrélation négative significative indique qu’une amélioration des installations sanitaires réduit les maladies d’origine hydrique (MOH).
• EP et MOH (Corr: -0.717) : Une meilleure accessibilité à l’eau potable est liée à une diminution des maladies hydriques.

### Régression multiple

library(car)
## Le chargement a nécessité le package : carData
## 
## Attachement du package : 'car'
## L'objet suivant est masqué depuis 'package:psych':
## 
##     logit
# Modèle de régression
modele <- lm(MOH ~ ISA + EP, data = donnees)
summary(modele)
## 
## Call:
## lm(formula = MOH ~ ISA + EP, data = donnees)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -0.9590 -0.3910  0.0487  0.3828  0.9913 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)   
## (Intercept)  8.25082    2.24831   3.670  0.00369 **
## ISA         -0.01395    0.02019  -0.691  0.50399   
## EP          -0.05914    0.03694  -1.601  0.13762   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.6109 on 11 degrees of freedom
## Multiple R-squared:  0.5347, Adjusted R-squared:  0.4501 
## F-statistic:  6.32 on 2 and 11 DF,  p-value: 0.01488
# Facteur d'inflation de variance
vif(modele)
##      ISA       EP 
## 2.641368 2.641368
  1. Modèle global
    Le modèle explique 53,47 % de la variance des maladies hydriques (MOH) (R² = 0.5347). Bien que l’ajustement soit modéré (R² ajusté = 0.4501), le modèle global est statistiquement significatif (F = 6.32, p = 0.01488).
  2. Coefficients individuels
    Constante : La valeur de MOH est estimée à 8.25 lorsque ISA et EP sont nulles (significative, p = 0.00369). ISA (Installations sanitaires améliorées) : Coefficient : -0.01395 (relation négative avec MOH). EP (Eaux potables) : Coefficient : -0.05914 (relation négative avec MOH).
  3. Résidus
    Les résidus sont bien équilibrés (-0.959 à 0.9913), indiquant une bonne distribution des erreurs autour des prédictions.

    Interprétation globale
    • Les corrélations montrent que l’amélioration des infrastructures sanitaires (ISA) et l’accès à l’eau potable (EP) réduisent les maladies hydriques (MOH).
    • Cependant, dans la régression multiple, la multicolinéarité (forte corrélation entre ISA et EP) pourrait affaiblir la significativité des coefficients individuels, bien que leur contribution combinée soit significative.

Visualisation de la régression simple

library(ggplot2)

ggplot(donnees, aes(x = AI, y = MOH)) +
  geom_point() +
  geom_smooth(method = 'lm', col = 'red') +
  labs(title = "Relation entre Assainissement Insalubre et Maladies d'origine hydrique",
       x = "Assainissement Insalubre", y = "Maladies d'origine hydrique")
## `geom_smooth()` using formula = 'y ~ x'

modele <- lm(MOH ~ AI, data = donnees)
summary(modele)
## 
## Call:
## lm(formula = MOH ~ AI, data = donnees)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.15204 -0.05825  0.01736  0.04221  0.12433 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.02372    0.07731  -0.307    0.764    
## AI           1.23030    0.03445  35.708 1.49e-13 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.0828 on 12 degrees of freedom
## Multiple R-squared:  0.9907, Adjusted R-squared:  0.9899 
## F-statistic:  1275 on 1 and 12 DF,  p-value: 1.488e-13

Le graphique issu d’une régression linéaire simple montre une relation linéaire positive entre le niveau d’assainissement insalubre (axe des abscisses) et le taux de maladies d’origine hydrique (axe des ordonnées).

Points clés :
• Relation positive : Une augmentation du niveau d’insalubrité est associée à une hausse des maladies hydriques, indiquant que l’assainissement insalubre est un facteur de risque majeur.
• Pente de la droite : Chaque unité supplémentaire d’insalubrité entraîne, en moyenne, une augmentation de 1,2303 % des maladies hydriques.
• Qualité de l’ajustement : Les points de données étant proches de la droite de régression, le modèle explique bien la relation entre les deux variables.


Ce modèle permet de prédire le taux de maladies hydriques en fonction du niveau d’assainissement insalubre. Les résultats soulignent la nécessité d’améliorer les infrastructures sanitaires pour réduire ces maladies.

  Conclusion

Cette étude met en lumière l’impact crucial des infrastructures hydriques et sanitaires sur la qualité de vie en Afrique de l’Ouest. Elle révèle que l’amélioration de l’accès à l’eau potable et aux installations sanitaires contribue significativement à réduire les maladies d’origine hydrique et le taux de mortalité infantile. Cependant, les résultats montrent de fortes disparités entre les pays, liées à des défis structurels importants, tels qu’une gestion insuffisante des ressources en eau et un manque d’investissements dans les infrastructures essentielles. Ces inégalités appellent à des actions ciblées pour garantir un développement équitable et durable dans la région