# Définir le répertoire de travail
setwd("C:/Users/HP PC/Documents/S7/Projet Coulibaly/Projet RTI 2024-2025 A/Script 2/")
# Charger les données
donnees <- read.csv("Donnees 4.csv", header = TRUE, sep =";", quote = "\"",
dec = ",", row.names = 1)
# Aperçu des données
head(donnees)
## ISA EP TMI MOH AI PIB DEA IBSV ER UEI UES
## Benin 39.46 75.37 8.1 2.9 2.5 7.17 28.10 4.38 0.98 1.42 8.56
## Burkina Faso 58.08 78.98 7.9 3.2 2.7 4.51 67.26 4.55 7.82 4.04 3.16
## Cote d'ivoire 64.18 81.10 6.9 1.6 1.4 11.56 25.72 5.08 5.09 0.86 18.75
## Gambie 59.40 91.56 4.6 1.6 1.3 4.41 7.60 4.48 2.21 0.22 3.99
## Ghana 73.13 94.30 4.2 1.7 1.3 11.44 51.34 4.29 6.31 3.22 18.02
## Guinee 60.58 83.62 9.6 2.7 2.2 5.64 30.66 5.02 1.37 1.04 3.61
Nous avons résumé nos variables ci-dessous :
Accès à des
installations sanitaires améliorées (ISA)
Accès à l’eau potable (EP)
Eaux renouvelables (ER)
Décès liés aux maladies d’origine
hydrique (MOH)
décès liés à un assainissement insalubre (AI)
Produit intérieur brut (PIB)
Dépenses liées à l’eau et à
l’assainissement (DEA)
Indice de bonheur et de satisfaction de la
vie (IBSV)
Efficacité de l’utilisation des eaux pour l’industrie
(UEI)
Efficacité de l’utilisation des eaux pour les services (UES)
# Calcul de la matrice de corrélation
mat_cor <- cor(donnees[1:9])
# Visualiser la matrice de corrélation
mat_cor
## ISA EP TMI MOH AI PIB
## ISA 1.00000000 0.7882945 -0.4359682 -0.65285522 -0.6651304 0.5569880
## EP 0.78829452 1.0000000 -0.5991238 -0.71728370 -0.7494969 0.4291996
## TMI -0.43596824 -0.5991238 1.0000000 0.81582180 0.8148701 -0.2751251
## MOH -0.65285522 -0.7172837 0.8158218 1.00000000 0.9953272 -0.4441371
## AI -0.66513045 -0.7494969 0.8148701 0.99532723 1.0000000 -0.4461966
## PIB 0.55698797 0.4291996 -0.2751251 -0.44413711 -0.4461966 1.0000000
## DEA -0.01839368 -0.1158328 0.3535575 0.50700513 0.4954041 0.1772007
## IBSV 0.24336556 0.3009937 -0.1396397 -0.23437006 -0.2119391 0.4974654
## ER 0.41005880 0.2349939 -0.1558655 -0.02576509 -0.0160183 0.3145167
## DEA IBSV ER
## ISA -0.01839368 0.2433656 0.41005880
## EP -0.11583276 0.3009937 0.23499390
## TMI 0.35355754 -0.1396397 -0.15586546
## MOH 0.50700513 -0.2343701 -0.02576509
## AI 0.49540414 -0.2119391 -0.01601830
## PIB 0.17720069 0.4974654 0.31451665
## DEA 1.00000000 0.3693158 0.78478753
## IBSV 0.36931578 1.0000000 0.48197271
## ER 0.78478753 0.4819727 1.00000000
Cette matrice de corrélation met en évidence les relations clés entre
les variables liées à l’eau, à l’assainissement, et aux indicateurs
socio-économiques :
Relations principales :
• Une forte
corrélation positive entre l’accès à des installations sanitaires
améliorées (ISA) et l’accès à l’eau potable (EP) (0.788) montre que ces
deux infrastructures se développent simultanément.
• Les décès liés
à un assainissement insalubre (AI) etles maladies d’origine hydrique
(MOH) sont presque parfaitement corrélés (0.995), confirmant l’impact
direct des mauvaises conditions sanitaires sur la santé publique.
Relations négatives significatives :
• L’amélioration de
l’accès à l’eau potable (EP) et aux installations sanitaires (ISA)
réduit significativement les décès liés aux maladies hydriques (MOH)
avec des corrélations respectives de -0.717 et -0.653.
• Le PIB est
négativement corrélé aux décès liés aux maladies hydriques (-0.444),
suggérant que les pays plus riches investissent davantage pour réduire
ces problèmes.
Observations générales :
• Les dépenses
liées à l’eau et à l’assainissement (DEA) augmentent avec la
disponibilité des eaux renouvelables (ER), avec une forte corrélation
(0.788).
• L’indice de bonheur (IBSV) est faiblement corrélé à
l’accès à l’eau et à l’assainissement, reflétant un impact indirect.
library(psych)
resultat1 <- principal(donnees[1:9], nfactors = 2, residuals = FALSE, rotate = "none")
# Valeurs propres
resultat1$values
## [1] 4.4500595298 2.4179128431 0.7476089351 0.6380808368 0.4174375801
## [6] 0.2207403834 0.0901758498 0.0170415527 0.0009424892
# Charges factorielles
resultat1$loadings
##
## Loadings:
## PC1 PC2
## ISA -0.813 0.216
## EP -0.859
## TMI 0.798 0.221
## MOH 0.937 0.275
## AI 0.943 0.278
## PIB -0.609 0.413
## DEA 0.258 0.932
## IBSV -0.382 0.622
## ER -0.253 0.860
##
## PC1 PC2
## SS loadings 4.450 2.418
## Proportion Var 0.494 0.269
## Cumulative Var 0.494 0.763
resultat2 <- principal(donnees[1:9], nfactors = 2, residuals = FALSE, rotate = "varimax")
# Valeurs propres
resultat2$values
## [1] 4.4500595298 2.4179128431 0.7476089351 0.6380808368 0.4174375801
## [6] 0.2207403834 0.0901758498 0.0170415527 0.0009424892
# Charges factorielles
resultat2$loadings
##
## Loadings:
## RC1 RC2
## ISA -0.741 0.397
## EP -0.821 0.260
## TMI 0.828
## MOH 0.976
## AI 0.981
## PIB -0.498 0.542
## DEA 0.466 0.848
## IBSV -0.228 0.693
## ER 0.895
##
## RC1 RC2
## SS loadings 4.343 2.525
## Proportion Var 0.483 0.281
## Cumulative Var 0.483 0.763
Les deux premiers axes principaux expliquent 76,32 % de la variance totale des données, ce qui offre une bonne représentation des informations collectées.
result <- prcomp(donnees[1:9], scale = TRUE) # ACP
eigenvalues <- result$sdev^2 # Valeurs propres
barplot(eigenvalues,
main = "Diagramme des valeurs propres",
xlab = "Composantes principales",
ylab = "Valeurs propres",
col = "blue")
library(factoextra)
## Warning: le package 'factoextra' a été compilé avec la version R 4.4.2
## Le chargement a nécessité le package : ggplot2
##
## Attachement du package : 'ggplot2'
## Les objets suivants sont masqués depuis 'package:psych':
##
## %+%, alpha
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
# Graphique des individus
fviz_pca_ind(result,
label = "all",
repel = TRUE,
col.ind = "black",
title = "Graphique des individus")
fviz_pca_var(result,
col.var = "cos2",
gradient.cols = c("#0000FF", "#800080", "#FF0000"), # Couleurs
repel = TRUE) # Évite le chevauchement des étiquettes
library(Factoshiny)
## Le chargement a nécessité le package : FactoMineR
## Le chargement a nécessité le package : shiny
## Le chargement a nécessité le package : FactoInvestigate
# Lancer PCAshiny
Après l’analyse, nous regroupons les différents individus à l’aide de la méthode de classification hiérarchique ascendante (HAC). HAC crée une structure hiérarchique qui permet de visualiser les relations entre des groupes d’objets. Cela peut être utile pour comprendre les sous-groupes et les niveaux de similarité. À l’aide du package Factoshiny du logiciel Rstudio, un rapport de classification CAH est généré.
# Calcul de la matrice de distances
dist_matrix <- dist(donnees[1:9], method = "euclidean")
# Classification hiérarchique
cah <- hclust(dist_matrix, method = "ward.D2")
# Visualisation du dendrogramme
library(dendextend)
## Warning: le package 'dendextend' a été compilé avec la version R 4.4.2
##
## ---------------------
## Welcome to dendextend version 1.19.0
## Type citation('dendextend') for how to cite the package.
##
## Type browseVignettes(package = 'dendextend') for the package vignette.
## The github page is: https://github.com/talgalili/dendextend/
##
## Suggestions and bug-reports can be submitted at: https://github.com/talgalili/dendextend/issues
## You may ask questions at stackoverflow, use the r and dendextend tags:
## https://stackoverflow.com/questions/tagged/dendextend
##
## To suppress this message use: suppressPackageStartupMessages(library(dendextend))
## ---------------------
##
## Attachement du package : 'dendextend'
## L'objet suivant est masqué depuis 'package:stats':
##
## cutree
fviz_dend(cah,
cex = 0.8,
k = 3,
rect = TRUE,
rect_border = "blue",
rect_fill = TRUE,
main = "Dendrogramme de la CAH")
## Warning: The `<scale>` argument of `guides()` cannot be `FALSE`. Use "none" instead as
## of ggplot2 3.3.4.
## ℹ The deprecated feature was likely used in the factoextra package.
## Please report the issue at <https://github.com/kassambara/factoextra/issues>.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
La classification effectuée sur les individus fait apparaître trois
(3) classes d’individus.
Le premier groupe est composé de la
Guinée Bissau, du Liberia, de la Sierra Leone, de la Guinée, de la
Gambie, du Togo, du Benin et de la Côte d’Ivoire). Ce groupe se
caractérise également par de faibles valeurs pour les variables eaux
renouvelables (ER), dépenses liées à l’eau et à l’assainissement (DEA).
Cela signifie que ces pays disposent de ressources en eau douces
limitées ou mal exploitées, ce qui peut être liées à des conditions
climatiques ou à une gestion inefficace des ressources. Aussi des
investissements faibles dans les infrastructures d’eau potable et
d’assainissement traduisent un déficit dans les politiques publiques ou
une priorité donnée à d’autres secteurs économiques.
Le
deuxième groupe est composé du Ghana, du Mali, du Sénégal et du Burkina
Faso. Elles se distinguent par leurs fortes valeurs pour les variables
Eaux renouvelables (ER), Accès à des installations sanitaires améliorées
(ISA). Cela signifie qu’ils bénéficient d’une disponibilité
significative en ressources hydriques naturelles. Certains de ces pays
sont avantagés par leur géographie qui leur fournit des bassins fluviaux
et des écosystèmes présentant une quantité d’eau renouvelables
suffisante pour couvrir les besoins de la population et des activités
économiques. Aussi les fortes valeurs en matière d’accès aux
installations sanitaires améliorées montrent que ces pays ont consacré
des ressources à la santé publique et à l’assainissement. Cela peut
également refléter une volonté de réduire les maladies liées à l’eau
comme le choléra.
Le troisième groupe comprend le Niger et le
Nigéria et se caractérise par une forte valeurs pour les variables :
dépenses liées à l’eau et à l’assainissement (DEA), Maladies d’origine
hydriques (MOH), Assainissement insalubre (AI), Taux de Mortalité
Infantile (TMI).Ces pays souffrent d’un déficit structurel en matière
d’infrastructures d’eau et d’assainissement. Le Nigéria, avec sa
population massive et le Niger, avec sa forte croissance démographique,
font face à des défis importants pour répondre aux besoins élémentaires
de leurs populations, en particulier dans les zones rurales et les
bidonvilles urbains. Nous avons également les maladies d’origines
hydriques, liées à une mauvaise qualité de l’eau et à un assainissement
insuffisant, qui pèsent lourdement sur les systèmes de santé.
Suite à la classification, on va procéder d’une part à une régression
simple pour évaluer l’effet de l’assainissement insalubre sur le taux de
maladies d’origine hydrique et d’autre part une régression multiple afin
d’étudier l’effet combiné des variables approvisionnement en eau potable
, des installations sanitaires améliorées sur le taux de mortalité
infantile.
# Extraire les coordonnées des trois premières dimensions
coord <- as.data.frame(result$x[, 1:3])
# Découper en clusters
clusters <- cutree(cah, k = 3)
# Ajouter les clusters aux données
coord$Cluster <- as.factor(clusters)
# Visualisation interactive en 3D
library(plotly)
## Warning: le package 'plotly' a été compilé avec la version R 4.4.2
##
## Attachement du package : 'plotly'
## L'objet suivant est masqué depuis 'package:ggplot2':
##
## last_plot
## L'objet suivant est masqué depuis 'package:stats':
##
## filter
## L'objet suivant est masqué depuis 'package:graphics':
##
## layout
fig <- plot_ly(
data = coord,
x = ~PC1, y = ~PC2, z = ~PC3,
color = ~Cluster,
colors = c("red", "blue", "green", "orange"),
type = "scatter3d",
mode = "markers+text",
text = rownames(coord),
marker = list(size = 5)
) %>% layout(
title = "Visualisation 3D des clusters sur le plan factoriel",
scene = list(
xaxis = list(title = "Dim 1 (PC1)"),
yaxis = list(title = "Dim 2 (PC2)"),
zaxis = list(title = "Dim 3 (PC3)")
)
)
fig
library(GGally)
## Warning: le package 'GGally' a été compilé avec la version R 4.4.2
## Registered S3 method overwritten by 'GGally':
## method from
## +.gg ggplot2
ggpairs(donnees, columns = c("ISA", "EP", "MOH"))
• ISA et EP (Corr: 0.788) : Une forte corrélation positive montre qu’une
amélioration des installations sanitaires (ISA) est associée à un
meilleur accès à l’eau potable (EP).
• ISA et MOH (Corr: -0.653) :
Une corrélation négative significative indique qu’une amélioration des
installations sanitaires réduit les maladies d’origine hydrique
(MOH).
• EP et MOH (Corr: -0.717) : Une meilleure accessibilité à
l’eau potable est liée à une diminution des maladies hydriques.
### Régression multiple
library(car)
## Le chargement a nécessité le package : carData
##
## Attachement du package : 'car'
## L'objet suivant est masqué depuis 'package:psych':
##
## logit
# Modèle de régression
modele <- lm(MOH ~ ISA + EP, data = donnees)
summary(modele)
##
## Call:
## lm(formula = MOH ~ ISA + EP, data = donnees)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.9590 -0.3910 0.0487 0.3828 0.9913
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 8.25082 2.24831 3.670 0.00369 **
## ISA -0.01395 0.02019 -0.691 0.50399
## EP -0.05914 0.03694 -1.601 0.13762
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.6109 on 11 degrees of freedom
## Multiple R-squared: 0.5347, Adjusted R-squared: 0.4501
## F-statistic: 6.32 on 2 and 11 DF, p-value: 0.01488
# Facteur d'inflation de variance
vif(modele)
## ISA EP
## 2.641368 2.641368
library(ggplot2)
ggplot(donnees, aes(x = AI, y = MOH)) +
geom_point() +
geom_smooth(method = 'lm', col = 'red') +
labs(title = "Relation entre Assainissement Insalubre et Maladies d'origine hydrique",
x = "Assainissement Insalubre", y = "Maladies d'origine hydrique")
## `geom_smooth()` using formula = 'y ~ x'
modele <- lm(MOH ~ AI, data = donnees)
summary(modele)
##
## Call:
## lm(formula = MOH ~ AI, data = donnees)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.15204 -0.05825 0.01736 0.04221 0.12433
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.02372 0.07731 -0.307 0.764
## AI 1.23030 0.03445 35.708 1.49e-13 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.0828 on 12 degrees of freedom
## Multiple R-squared: 0.9907, Adjusted R-squared: 0.9899
## F-statistic: 1275 on 1 and 12 DF, p-value: 1.488e-13
Le graphique issu d’une régression linéaire simple montre une
relation linéaire positive entre le niveau d’assainissement insalubre
(axe des abscisses) et le taux de maladies d’origine hydrique (axe des
ordonnées).
Points clés :
• Relation positive : Une
augmentation du niveau d’insalubrité est associée à une hausse des
maladies hydriques, indiquant que l’assainissement insalubre est un
facteur de risque majeur.
• Pente de la droite : Chaque unité
supplémentaire d’insalubrité entraîne, en moyenne, une augmentation de
1,2303 % des maladies hydriques.
• Qualité de l’ajustement : Les
points de données étant proches de la droite de régression, le modèle
explique bien la relation entre les deux variables.
Ce modèle permet de prédire le taux de maladies hydriques en
fonction du niveau d’assainissement insalubre. Les résultats soulignent
la nécessité d’améliorer les infrastructures sanitaires pour réduire ces
maladies.
Conclusion
Cette étude met en lumière l’impact crucial des infrastructures hydriques et sanitaires sur la qualité de vie en Afrique de l’Ouest. Elle révèle que l’amélioration de l’accès à l’eau potable et aux installations sanitaires contribue significativement à réduire les maladies d’origine hydrique et le taux de mortalité infantile. Cependant, les résultats montrent de fortes disparités entre les pays, liées à des défis structurels importants, tels qu’une gestion insuffisante des ressources en eau et un manque d’investissements dans les infrastructures essentielles. Ces inégalités appellent à des actions ciblées pour garantir un développement équitable et durable dans la région