options("digits"=2,"scipen" =100)
ggrepel.max.overlaps=Inf
library(shiny)
library(rsconnect)
##
## Attachement du package : 'rsconnect'
## L'objet suivant est masqué depuis 'package:shiny':
##
## serverInfo
library(rmarkdown)
library(dplyr)
##
## Attachement du package : 'dplyr'
## Les objets suivants sont masqués depuis 'package:stats':
##
## filter, lag
## Les objets suivants sont masqués depuis 'package:base':
##
## intersect, setdiff, setequal, union
library(FactoMineR)
library(factoextra)
## Le chargement a nécessité le package : ggplot2
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
library(psych)
##
## Attachement du package : 'psych'
## Les objets suivants sont masqués depuis 'package:ggplot2':
##
## %+%, alpha
library(Rcpp)
library(data.table)
##
## Attachement du package : 'data.table'
## Les objets suivants sont masqués depuis 'package:dplyr':
##
## between, first, last
library(questionr)
##
## Attachement du package : 'questionr'
## L'objet suivant est masqué depuis 'package:psych':
##
## describe
library(explor)
library(ade4)
##
## Attachement du package : 'ade4'
## L'objet suivant est masqué depuis 'package:FactoMineR':
##
## reconst
library(cluster)
library(corrplot)
## corrplot 0.95 loaded
library(missMDA)
library(stats)
library(reshape2)
##
## Attachement du package : 'reshape2'
## Les objets suivants sont masqués depuis 'package:data.table':
##
## dcast, melt
library(ggplot2)
library(readxl)
library(tibble)
library(scales)
##
## Attachement du package : 'scales'
## Les objets suivants sont masqués depuis 'package:psych':
##
## alpha, rescale
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ forcats 1.0.1 ✔ readr 2.1.6
## ✔ lubridate 1.9.4 ✔ stringr 1.6.0
## ✔ purrr 1.2.0 ✔ tidyr 1.3.2
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ psych::%+%() masks ggplot2::%+%()
## ✖ scales::alpha() masks psych::alpha(), ggplot2::alpha()
## ✖ data.table::between() masks dplyr::between()
## ✖ readr::col_factor() masks scales::col_factor()
## ✖ purrr::discard() masks scales::discard()
## ✖ dplyr::filter() masks stats::filter()
## ✖ data.table::first() masks dplyr::first()
## ✖ lubridate::hour() masks data.table::hour()
## ✖ lubridate::isoweek() masks data.table::isoweek()
## ✖ lubridate::isoyear() masks data.table::isoyear()
## ✖ dplyr::lag() masks stats::lag()
## ✖ data.table::last() masks dplyr::last()
## ✖ lubridate::mday() masks data.table::mday()
## ✖ lubridate::minute() masks data.table::minute()
## ✖ lubridate::month() masks data.table::month()
## ✖ lubridate::quarter() masks data.table::quarter()
## ✖ lubridate::second() masks data.table::second()
## ✖ purrr::transpose() masks data.table::transpose()
## ✖ lubridate::wday() masks data.table::wday()
## ✖ lubridate::week() masks data.table::week()
## ✖ lubridate::yday() masks data.table::yday()
## ✖ lubridate::year() masks data.table::year()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(ggpubr)
library(rstatix)
##
## Attachement du package : 'rstatix'
##
## L'objet suivant est masqué depuis 'package:stats':
##
## filter
Le tableur de données initial (“ViK”) contient 28 individus (les 28
régions et ViKs régionaux) et 36 variables. Une variable, la part du
prix de l’eau potable dans le budget des ViKs sera calculée par la
suite, pour l’analyse. Ces variables sont toutes décrites dans le
tableur des métadonnées (“META”).
Les ViKs municipaux n’ont pas été pris en compte dans cette analyse. Les
données sont essentiellement issues de la statistique nationale (INS) et
des rapports du régulateur, le KEVR pour les années 2013 (données
anciennes) et 2021 à 2024 (données actuelles). L’année 2021 est une
année particulière à prendre en compte puisque c’est celle où la
pandémie de COVID et la guerre en Ukraine entraînent une forte
inflation, notamment des prix de l’énergie, et où beaucoup de travaux de
maintenance sont reportés. Parmi les indicateurs de performance, seuls
trois ont été retenus parmi l’ensemble des KPIs du KEVER car ils
concernent directement la qualité du service d’approvisionnement en eau.
L’indicateur de la qualité de l’eau aurait pu être retenu mais il est
très homogène et globalement élevé.
ViK<-read.csv2("C:/Users/Raph/Documents/thesebulgarie/STATISTIQUES/analysesR/VIK_INEG/STAT_VIK_R.csv")
row.names(ViK) <- ViK$REG_FR
Pour de nombreux indicateurs Sofia ne représente pas une valeur extrême, mais lors de la réalisation de l’ACP la base de données (BD) sans Sofia permet de tester la pertinence des axes avec ou sans la ville de loin la plus peuplée, la plus riche et où le ViK a de très loin le plus d’abonné·es du pays
ViKnoSOF <- ViK[-24, ]
META<-read.csv2("C:/Users/Raph/Documents/thesebulgarie/STATISTIQUES/analysesR/VIK_INEG/Metadonnees.csv",stringsAsFactors=FALSE, fileEncoding="latin1")
J’enlève les variables qualitatives et j’utilise le coefficient de Spearman car au regard des différents nuages de points, la majorité des variables sont non linéaires
ViKmatrice<-ViK[,c(4:14,16:36)]
Matrice_globale_cor<- cor(ViKmatrice, method=c("spearman"))
Sans Sofia
ViKnoSOFMatrice<-ViKnoSOF[,c(4:14,16:36)]
Matrice_global_nosof<-cor(ViKnoSOFMatrice,method=c("spearman"))
Il y a une forte variation entre les ViKs en terme de nombre
d’habitant·es desservie.
Ce chiffre ne recoupe pas totalement la population régionale totale.
D’une part, parce que certains ViKs ne sont pas entièrement régionaux
(il y a des ViKs municipaux au sein de la région). D’autre part, parce
qu’il peut y avoir un léger écart entre les sources.
En 2021, la population minimum que desservait un ViK était de 85 000
habitant·es à Vidin et la population maximum de 1,3 millions
d’habitant·es à Sofia, avec une médiane de 173 000 hab., une moyenne de
243 000 hab. et un coefficient de variation de 102,7%. Le diagramme en
barres montre que Sofia est de très loin le plus gros opérateur en terme
d’abonné·es, suivi des régions où se situent les principales villes du
pays (Plovdiv, Varna, Burgas, Stara Zagora)
summary(ViK$POP_VIK_21)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 84865 111486 173012 243148 238316 1328790
sd(ViK$POP_VIK_21)#écart-type
## [1] 249801
sd(ViK$POP_VIK_21)/mean(ViK$POP_VIK_21)*100#coefficient de variation
## [1] 103
ggplot(data=ViK, aes(x = reorder(REG_FR, POP_VIK_21), y= POP_VIK_21)) +
geom_bar(stat = "identity", width=0.5, color="black", fill="white")+
geom_text(aes(label=POP_VIK_21), vjust=-0.3, size=2)+
theme(axis.text.x = element_text(face="bold", color="black",size=7, angle=45),
axis.text.y = element_text(face="bold", color="black",size=7, angle=90))+
labs(x="ViK", y="Population des ViKs", title="Population des ViKs")+theme(plot.title=element_text(face="bold", color="black", size=10))+theme(axis.title.x = element_text(face="plain", color="black", size=9))+theme(axis.title.y = element_text(face="plain", color="black", size=9)) #diagramme en barres
Entre 2013 et 2021, l’évolution globale de la population desservie
par les ViKs est globalement négative, reflétant la tendance à la baisse
démographique très importante dans tout le pays.
Les données sont cependant très dispersées, avec une amplitude
importante, de 136 000 et un maximum et un minimum à presque la même
distance du zéro : -68 201 habitant·es pour le ViK de Vidin et + 67 725
habitant·es pour le ViK de Haskovo.
La moyenne est de -962 hab. entre 2013 et 2021, la médiane de -7238 et
l’écart type de 30 576. Le coefficient de variation est de -3177%.
Parmi les ViKs dont la population augmente la situation est toutefois très différente.
À Sofia, l’évolution de la population positive du ViK correspond à une augmentation réelle de la population dans la ville et région capitale (voir ci-dessous, évolution de la population des oblasts entre 2001 et 2021). Cette augmentation, de +6% s’ajoute à une population importante au départ (>1M abonné·es)
Dans les autres ViKs où l’évolution de la population est positive, la population de départ dans les ViKs n’est pas très importante (< 250 000 hab). L’augmentation de la population des ViKs n’est pas liée à une augmentation régionale réelle de la population (voir graphique). Elle est artificielle, et est liée à des fusions de ViKs municipaux dans le ViK régional. Pour ceux que j’ai pu lister :
Les ViKs de Stambolovo et de Dimitrovgrad ont fusionné avec celui de Haskovo ;
Le ViK de Petrich avec Blagoevgrad ;
Le ViK de Kjustendil avec Dupnica
Les ViKs de Panagjurishte et Strelcha avec Pazardzhik, Svishtov avec Veliko Tarnovo
Le ViK de Sevlievo avec Gabrovo
Le ViK de Botevgrad avec la région de Sofia.
À Pleven et à Razgrad il y a aussi eu des fusions mais la trop forte baisse de la population générale n’a pas permis de compenser la hausse de population dans ces ViKs
summary(ViK$EVO_POP_VIK_13.21)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -68201 -13065 -7238 -962 19906 67725
sd(ViK$EVO_POP_VIK_13.21)
## [1] 30576
sd(ViK$EVO_POP_VIK_13.21)/mean(ViK$EVO_POP_VIK_13.21)*100
## [1] -3177
ggplot(data=ViK, aes(x = reorder(REG_FR, EVO_POP_VIK_13.21), y= EVO_POP_VIK_13.21)) +
geom_bar(stat = "identity", width=0.5, color="black", fill="white")+
geom_text(aes(label=EVO_POP_VIK_13.21), vjust=-0.3, size=2)+
theme(axis.text.x = element_text(face="bold", color="black",size=7, angle=45),
axis.text.y = element_text(face="bold", color="black",size=7, angle=90))+
labs(x="ViK", y="Évolution population des ViKs", title="Évolution de la population des ViKs")+theme(plot.title=element_text(face="bold", color="black", size=10))+theme(axis.title.x = element_text(face="plain", color="black", size=9))+theme(axis.title.y = element_text(face="plain", color="black", size=9))
ggplot(data=ViK, aes(y = EVO_POP_VIK_13.21, x= PEVO_POP_01.21))+
geom_point()+
geom_text(aes(label=REG_FR), vjust=-0.3, size=2)+
labs(x="Population au sein des régions : évolution 2001-2021", y="Évolution de la population du ViK entre 2001 et 2021", title="Relation entre l'évolution de la population au sein des ViKs entre 2013 et 2021 et l'évolution démographique régionale entre 2001 et 2021")+theme(plot.title=element_text(face="bold", color="black", size=10))+geom_vline(aes(xintercept=0),color="red", linetype="dashed", size=1)+geom_hline(aes(yintercept=0), color="red", linetype="dashed", size=1)
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
EvoVIK <- data.frame(ViK$REG_FR, ViK$EVO_POP_VIK_13.21, ViK$FUSION_ViK)
EvoVIK <- EvoVIK[c(26,14,24,23,18,16,3,27,1,25), ]
row.names(EvoVIK)<-EvoVIK$ViK.REG_FR
EvoVIK <- EvoVIK[, c(2,3)]
EvoVIK
## ViK.EVO_POP_VIK_13.21 ViK.FUSION_ViK
## Kardzhali 9640
## Sofia region 13767 Botevgrad
## Sofia capitale 19156
## Gabrovo 22157 Sevlievo
## Veliko Tarnovo 26029 Svishtov
## Targovishte 26083
## Pazardzhik 32474 Panagjurishte, Strelcha
## Kjustendil 45072 Dupnica
## Blagoevgrad 55768 Petric
## Haskovo 67725 Dimitrovgrad + Stambolovo
ggplot(data=ViK, aes(x = reorder(REG_FR, PEVO_POP_01.21), y= PEVO_POP_01.21)) +
geom_bar(stat = "identity", width=0.5, color="black", fill="white")+
geom_text(aes(label=PEVO_POP_01.21), vjust=-0.3, size=2)+
theme(axis.text.x = element_text(face="bold", color="black",size=7, angle=45),
axis.text.y = element_text(face="bold", color="black",size=7, angle=90))+
labs(x="ViK", y="Évolution population", title="Évolution de la population des oblasts entre 2001 et 2021")+theme(plot.title=element_text(face="bold", color="black", size=10))+theme(axis.title.x = element_text(face="plain", color="black", size=9))+theme(axis.title.y = element_text(face="plain", color="black", size=9))
Le nombre de kilomètres de réseau par ViK varie entre 1 150 km (à Pazardzhik) et 4 344 km à Plovdiv, suivi de près par Varna, Burgas. Le réseau de Sofia capitale est moins étendu, donc bien plus dense, que celui des autres régions du fait de la superficie réduite de la région-capitale et de son caractère essentiellement urbain.La médiane est de 2 085 km et le coefficient de variation de 40% avec un écart type de 991 par rapport à une moyenne de 2 470 km
summary(ViK$Km_reseau_eau_21)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1150 1748 2085 2470 3292 4344
sd(ViK$Km_reseau_eau_21)
## [1] 991
sd(ViK$Km_reseau_eau_21)/mean(ViK$Km_reseau_eau_21)*100
## [1] 40
ggplot(data=ViK, aes(x = reorder(REG_FR,Km_reseau_eau_21), y= Km_reseau_eau_21)) +
geom_bar(stat = "identity", width=0.5, color="black", fill="white")+
geom_text(aes(label=Km_reseau_eau_21), vjust=-0.3, size=2)+
theme(axis.text.x = element_text(face="bold", color="black",size=7, angle=45),
axis.text.y = element_text(face="bold", color="black",size=7, angle=90))+
labs(x="ViK", y="km réseau", title="Kilomètres de réseau d'eau potable des ViKs en 2021")+theme(plot.title=element_text(face="bold", color="black", size=10))+theme(axis.title.x = element_text(face="plain", color="black", size=9))+theme(axis.title.y = element_text(face="plain", color="black", size=9))
La densité de population sur le réseau mesure le nombre d’abonné·es par km de réseau sur un territoire donné. Une faible densité de population sur le réseau est identifié comme un potentiel indicateur de surdimentionnement des réseaux, en particulier si la population diminue. Plus la population sur un réseau est dense, moins le km de réseau est coûteux à entretenir. Des problèmes techniques peuvent être présents sur un réseau dense et sur un réseau peu dense. Sur un réseau dense, le nombre de cassures pour 100 km de réseau peut augmenter, car beaucoup de cassures ont lieu au niveau des embranchements individuels (joints qui sautent) Sur un réseau peu dense, les fuites sont moins accessibles, plus difficiles à identifier et à réparer. Dans les deux cas, les problèmes techniques ont un impact économique.
La densité d’abonné·es sur le réseau varie entre 50,4 hab/km à Vidin et 359,2 hab/km à Sofia. Sofia représente une valeur extrême. Les autres densités élevées se situent dans les régions de Pazardzhik, de Plovdiv et de Blagoevgrad qui ont environ 150 hab./km de réseau. La moyenne est de 91,9 hab.km et la médiane de 73,6.hab.km
Pazardzhik et Blagoevgrad ont un nombre de km de réseau très faible et un nombre d’abonné·es peu élevé, mais plus important que la médiane des autres ViKs. Plovdiv, lui, a un nombre de km de réseau élevé mais, comme Sofia, un grand nombre d’abonné·es. Globalement, on a une corrélation entre le nombre de km de réseau et la population, même en enlevant la valeur extrême de Sofia. Elle est de 0,68 avec une p.value de moins de 0,05 (Spearman). Un grand nombre de ViK ont une population peu importante (< 200 000 hab) et un réseau de petite taille à entretenir (< 2000 km de canalisations d’eau potable + eaux usées). Les ViKs potentiellement les plus en difficulté pour entretenir leur réseau sont ceux qui ont une faible population et un réseau étendu (notamment Shumen, Vraca et Dobrich).
summary(ViK$dens_pop_reseau21)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 50.4 59.8 73.6 91.9 96.4 359.2
sd(ViK$dens_pop_reseau21)
## [1] 60
sd(ViK$dens_pop_reseau21)/mean(ViK$dens_pop_reseau21)*100
## [1] 66
ggplot(data=ViK, aes(x = reorder(REG_FR,dens_pop_reseau21), y= dens_pop_reseau21)) + geom_bar(stat = "identity", width=0.5, color="black", fill="white")+ geom_text(aes(label=dens_pop_reseau21), vjust=-0.3, size=2)+ theme(axis.text.x = element_text(face="bold", color="black",size=7, angle=45), axis.text.y = element_text(face="bold", color="black",size=7, angle=90))+ labs(x="ViK", y="hab./km de réseau", title="Densité d'abonné·es sur le réseau d'eau potable en 2021")+theme(plot.title=element_text(face="bold", color="black", size=10))+theme(axis.title.x = element_text(face="plain", color="black", size=9))+theme(axis.title.y = element_text(face="plain", color="black", size=9))
ggplot(data=ViK, aes(y = POP_VIK_21, x= Km_reseau_eau_21))+
geom_point()+
geom_text(aes(label=REG_FR), vjust=-0.3, size=2)+
labs(x="kilomètres de réseau d'eau 2021", y="Population du ViK en 2021", title="Relation entre la population au sein des ViKs et les km de réseau")+theme(plot.title=element_text(face="bold", color="black", size=10))+geom_vline(aes(xintercept=median(Km_reseau_eau_21)),color="red", linetype="dashed", size=1)+geom_hline(aes(yintercept=median(POP_VIK_21), color="red"))
cor.test(ViKnoSOF$Km_reseau_eau_21, ViKnoSOF$POP_VIK_21, method=c("spearman"))
##
## Spearman's rank correlation rho
##
## data: ViKnoSOF$Km_reseau_eau_21 and ViKnoSOF$POP_VIK_21
## S = 1056, p-value = 0.0002
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.68
On utilise le test de Pearson car on a des exaequos , malgré le fait que la distribution des données ne soit pas tout à fait linéaire (mais elle reste monotone). Selon le test de Pearson, , la corrélation entre les deux variables est de 0.79 avec Sofia et de 0.69 sans Sofia. La p.value est chaque fois < à 0.05 ce qui signifie que la corrélation est statistiquement significative. Cela signifie que les ViK qui ont les densités de population sur les réseaux les plus faibles sont aussi ceux dont la population diminue, en pourcentage annuelle, le plus depuis 2001. La chute démographique a sans surprise un effet direct sur les réseau d’eau et d’assainissement, et l’on peut penser avec peu de doute que les régions qui ont à la fois la plus faible densité et la plus forte baisse de population sont les plus concernés par le surdimentionnement des réseaux. Ici, il s’agit très nettement du ViK de Vidin, la région du pays se dépeuplant le plus et qui a aussi la plus faible densité par habitant.
cor.test(ViK$dens_pop_reseau21, ViK$PEVO_POP_01.21, method=c("pearson"))
##
## Pearson's product-moment correlation
##
## data: ViK$dens_pop_reseau21 and ViK$PEVO_POP_01.21
## t = 6, df = 26, p-value = 0.0000007
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.59 0.90
## sample estimates:
## cor
## 0.79
cor.test(ViKnoSOF$dens_pop_reseau21, ViKnoSOF$PEVO_POP_01.21, method=c("pearson"))
##
## Pearson's product-moment correlation
##
## data: ViKnoSOF$dens_pop_reseau21 and ViKnoSOF$PEVO_POP_01.21
## t = 5, df = 25, p-value = 0.00006
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.42 0.85
## sample estimates:
## cor
## 0.69
ggplot(data=ViK, aes(y = dens_pop_reseau21, x= PEVO_POP_01.21))+
geom_point()+
geom_text(aes(label=REG_FR), vjust=-0.3, size=2)+
labs(x="Pourcentage annuel moyen d'évolution de la population entre 2001-2021", y="Densité d'abonné·es sur le réseau, 2021", title="Relation entre l'évolution de la population dans les ViK et la densité d'abonné·es sur le réseau")+theme(plot.title=element_text(face="bold", color="black", size=10))+geom_vline(aes(xintercept=median(PEVO_POP_01.21)),color="red", linetype="dashed", size=1)+ geom_hline(aes(yintercept=median(dens_pop_reseau21)), color="red", linetype="dashed", size=1)
–> Réalisation d’une carte densité d’abonnés sur le réseau et évolution annuelle moyenne de la population
Les prélèvements en eau sont très inégaux selon les ViKs, de 6,1 millions de m3 par an (Vidin) à 142 millions de m3 par an (Sofia Capitale), avec une médiane à 20 millions, une moyenne à 29,7 millions et un écart type de 28. Le coefficient de variation est de 96%.
summary(ViK$EAUprel_21/1000000)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 6.1 12.4 20.2 29.8 32.7 142.4
sd(ViK$EAUprel_21/1000000)
## [1] 28
sd(ViK$EAUprel_21)/mean(ViK$EAUprel_21)*100
## [1] 96
ggplot(data=ViK, aes(x = reorder(REG_FR,EAUprel_21/1000000), y= EAUprel_21/1000000)) +
geom_bar(stat = "identity", width=0.5, color="black", fill="white")+
geom_text(aes(label=EAUprel_21/1000000), vjust=-0.3, size=2)+
theme(axis.text.x = element_text(face="bold", color="black",size=7, angle=45),
axis.text.y = element_text(face="bold", color="black",size=7, angle=90))+
labs(x="ViK", y="millions de m3/an", title="Total des prélèvements en eau pour le réseau en 2021")+theme(plot.title=element_text(face="bold", color="black", size=10))+theme(axis.title.x = element_text(face="plain", color="black", size=9))+theme(axis.title.y = element_text(face="plain", color="black", size=9))
Comme le montre les matrices de corrélation avec ou sans Sofia (spearman), les prélèvements en eau potable sont, en valeur brute, fortement corrélés à la population du ViK en nombre d’habitant, au revenu du ViK, à l’évolution de la population sur le territoire, au nombre de km de réseau, à la densité de population desservie ; ils sont négativement corrélés à la population rurale, et à la valeur ajouté agricole régionale. Il y a un lien logique entre le fait que plus un réseau dessert d’habitant·es, plus les prélèvements en eau soient importants. Ceux ci sont aussi corrélés (mais de façon moins importante) au PIB / habitant des régions et probablement de façon très importante au PIB globale, qui n’apparaît pas dans les indicateurs.
Dans la matrice de corrélation sans Sofia, les prélèvements en eau sont aussi corrélés (faiblement : 0.37) aux pertes en eau. Cette corrélation apparaît bien plus forte si l’on compare les prélèvements en eau des ViKs par habitant aux pertes en eau (et non plus les prélèvements en eau bruts).
Les prélèvements en eau par habitant vont de 70,5 m3/hab (à Kardzhali) à 235 m3/hab (à Dobrich), avec une médiane de 112 m3/hab et une moyenne de 126 m3/h. La dispersion des données autour de la moyenne est plus faible que pour les prélèvements bruts, avec un écart type de 46 et un coefficient de variation de 37%. Les ViKs qui prélèvent le plus d’eau par habitant ne sont pas les mêmes que ceux qui prélèvent le plus d’eau. Dobrich, Shumen, Sliven, Pernik et Montana sont les plus consommatrices en eau par habitant. Kardzhali, Vidin, Haskovo et Smoljan ont en revanche de plus faibles prélèvements .
summary(ViK$EAUprelHab_21)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 70.5 98.9 112.0 125.5 140.6 235.2
sd(ViK$EAUprelHab_21)
## [1] 46
sd(ViK$EAUprelHab_21)/mean(ViK$EAUprelHab_21)*100
## [1] 37
ggplot(data=ViK, aes(x = reorder(REG_FR,EAUprelHab_21), y= EAUprelHab_21)) +
geom_bar(stat = "identity", width=0.5, color="black", fill="white")+
geom_text(aes(label=EAUprelHab_21), vjust=-0.3, size=2)+
theme(axis.text.x = element_text(face="bold", color="black",size=7, angle=45),
axis.text.y = element_text(face="bold", color="black",size=7, angle=90))+
labs(x="ViK", y="m3/hab an", title="Total des prélèvements en eau pour le résau par habitant en 2021")+theme(plot.title=element_text(face="bold", color="black", size=10))+theme(axis.title.x = element_text(face="plain", color="black", size=9))+theme(axis.title.y = element_text(face="plain", color="black", size=9))
Il existe une corrélation entre l’eau prélevée par habitant et les pertes en eau, de 0,75 selon le coefficient de Spearman. Le test de Spearman pour ces deux variables détaillé ci-dessous montre une relation significative puisque la p.value est \< 0,05 (Pearson : coefficient de corrélation = 0.84).
cor.test(ViK$Perteseau_Pourc_VIK21, ViK$EAUprelHab_21, method=c("spearman"))
##
## Spearman's rank correlation rho
##
## data: ViK$Perteseau_Pourc_VIK21 and ViK$EAUprelHab_21
## S = 920, p-value = 0.000009
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.75
cor.test(ViK$Perteseau_Pourc_VIK21, ViK$EAUprelHab_21, method=c("pearson"))
##
## Pearson's product-moment correlation
##
## data: ViK$Perteseau_Pourc_VIK21 and ViK$EAUprelHab_21
## t = 8, df = 26, p-value = 0.00000003
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.67 0.92
## sample estimates:
## cor
## 0.84
Le nuage de point ci-dessous représente cette relation statistique qui est monotone, plutôt linéaire et positive entre les variables. Ainsi, globalement, plus le pourcentage de pertes en eau est élevé, plus le prélèvement en eau par habitant est lui aussi élevé. Ceci est assez logique, dans la mesure où les pertes en eau représentent des fuites dont l’augmentation des prélèvements vise à limiter les effets.
ggplot(data=ViK, aes(y = EAUprelHab_21, x= Perteseau_Pourc_VIK21))+
geom_point()+
geom_text(aes(label=REG_FR), vjust=-0.3, size=2)+
labs(x="pourcentage de pertes en eau", y="eau prélevée par an (m3/hab)", title="Relation entre les pertes en eau (%) et le volume de prélèvement en eau par habitant en 2021")+theme(plot.title=element_text(face="bold", color="black", size=10))+geom_hline(aes(yintercept=median(EAUprelHab_21), color="red"))+geom_vline(aes(xintercept=median(Perteseau_Pourc_VIK21), color="red"))
Les régions ayant à la fois le plus haut niveau de pertes en eau et le plus haut niveau de prélèvement par habitant sont Sliven, Sumen, Dobrich, Pernik, Montana et Jambol. Les conséquences sont écologiques, mais aussi économiques, les prélèvements en eau coûtant cher, surtout si la région est approvisionnée par pompage et a donc des consommations énergétiques élevées. Ici, le nuage de point suivant permet de voir que Dobrich et Shumen sont particulièrement concernés et, dans une moindre mesure, Jambol et Razgrad
ggplot(data=ViK, aes(y = EAUprelHab_21, x= Energie.kwh.m3_21ViK))+
geom_point()+
geom_text(aes(label=REG_FR), vjust=-0.3, size=2)+
labs(x="Facture énergétique", y="eau prélevée par an (m3/hab)", title="Relation entre les factures énergétiques et le volume de prélèvement en eau par habitant en 2021")+theme(plot.title=element_text(face="bold", color="black", size=10))+geom_hline(aes(yintercept=median(EAUprelHab_21), color="red"))+geom_vline(aes(xintercept=median(Energie.kwh.m3_21ViK), color="red"))
Selon les régions, les consommations en eau par habitant varient entre 74 litres d’eau par jour (à Targovishte) et 126 litres par jour (à Sofia), ce qui est important pour ce type d’indicateur. La moyenne de consommation par habitant est de 99 et la médiane est de 98. On observe un lien fort entre tous les indicateurs d’urbanité,de revenu et la consommation en eau par habitant par jour, avec ou sans Sofia, qui représente une valeur extrême.
Globalement donc, les habitants des régions rurales et agricoles tendent à consommer moins d’eau individuellement que les habitants des régions urbaines. Cela peut être lié :
- au mode de vie et à l’équipement en appareil électroménagers
- au revenu globalement plus élevé de la population urbaine qui consomme plus
- à l’existence de davantage sources alternatives à l’eau du robinet en zone rurale (puits, sources naturelles) [outre l’eau en bouteille, qui peut être achetée partout]
- à une moindre confiance en zone rurale pour l’eau du réseau, réputée de moins bonne qualité
summary(ViK$Conso_eau_hab_23)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 74.0 89.5 98.5 99.1 109.2 126.0
sd(ViK$Conso_eau_hab_23)
## [1] 14
sd(ViK$Conso_eau_hab_23)/mean(ViK$Conso_eau_hab_23)*100
## [1] 14
ggplot(data=ViK, aes(x = reorder(REG_FR,Conso_eau_hab_23), y= Conso_eau_hab_23)) +
geom_bar(stat = "identity", width=0.5, color="black", fill="white")+
geom_text(aes(label=Conso_eau_hab_23), vjust=-0.3, size=2)+
theme(axis.text.x = element_text(face="bold", color="black",size=7, angle=45),
axis.text.y = element_text(face="bold", color="black",size=7, angle=90))+
labs(x="ViK", y="m3/hab an", title="Consommations d'eau annuelles par habitant en 2023, en m3")+theme(plot.title=element_text(face="bold", color="black", size=10))+theme(axis.title.x = element_text(face="plain", color="black", size=9))+theme(axis.title.y = element_text(face="plain", color="black", size=9))
Ce sont en particulier les régions rurales et agricoles qui ont une faible consommation.
Blagoevgrad et Pazardzhik ont une faible VA agricole et ont une consommation en eau et par habitant plus élevée. Cela peut être lié au mode de vie de populations rurales, mais urbanisées par l’industrialisation.
ggplot(data=ViK, aes(y = Conso_eau_hab_23, x= PopRural_24))+
geom_point()+
geom_text(aes(label=REG_FR), vjust=-0.3, size=2)+
labs(x="% pop rurale", y="consommations en eau par habitant L/eau/j", title="Relation entre la ruralité d'une région et les consommations par hab par jour")+theme(plot.title=element_text(face="bold", color="black", size=10))+geom_hline(aes(yintercept=median(Conso_eau_hab_23), color="red"))+geom_vline(aes(xintercept=median(PopRural_24), color="red"))
ggplot(data=ViK, aes(y = Conso_eau_hab_23, x= AgriVA_23))+
geom_point()+
geom_text(aes(label=REG_FR), vjust=-0.3, size=2)+
labs(x="% agriculture dans la VA", y="consommations en eau par habitant par j", title="Relation entre l'agriculture et les consommations en eau par hab")+theme(plot.title=element_text(face="bold", color="black", size=10))+geom_hline(aes(yintercept=median(Conso_eau_hab_23), color="red"))+geom_vline(aes(xintercept=median(AgriVA_23), color="red"))
Une autre corrélation négative est entre la consommation en eau par jour et par habitant et le pourcentage de population non bulgare dans les régions. Cela est lié à la fois au fait que ces populations vivent dans les régions les plus agricoles, mais aussi peut-être, comme à Sliven, au niveau de pauvreté des populations minoritaires et au fait qu’elles sont mal raccordés.
ggplot(data=ViK, aes(y = Conso_eau_hab_23, x= NonBG_21))+
geom_point()+
geom_text(aes(label=REG_FR), vjust=-0.3, size=2)+
labs(x="% de population se déclarant non bulgare", y="consommations en eau par habitant par j", title="Relation entre le pourcentage de population se déclarant non bulgare et les consommations en eau par hab")+theme(plot.title=element_text(face="bold", color="black", size=10))+geom_hline(aes(yintercept=median(Conso_eau_hab_23), color="red"))+geom_vline(aes(xintercept=median(NonBG_21), color="red"))
Les revenus des ViKs ne sont pas les bénéfices. Ce
sont uniquement les revenus générés par le ViK, dont on a vu dans le
chapitre 6 qu’ils dépendaient essentiellement des factures d’eau, donc
de la consommation et de la capacité de paiement des consommateurs. Un
ViK qui a à la fois des dépenses importantes (en particulier
énergétiques, mais aussi pour les prélèvements) et des revenus faibles
sera donc en difficulté.
Le revenu le plus bas est de 7 millions de leva à Vidin, suivi de près
par Kjustendil et par Smoljan.Le revenu le plus élevé est de 196
millions de leva à Sofia, suivi par Burgas à 93 millions de leva
(amplitude de 189 millions de leva).L’écart type de 39 est plus élevé
que la moyenne à 29 millions de leva par ViK. On a donc une très forte
dispersion des données (coefficient de variation = 132%) et des valeurs
extrêmes puisque 75% des ViKs ont entre 7 et 26 millions de leva par
an.
summary(ViK$REV_VIK_21/1000000)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 7.19 11.21 15.81 29.20 25.97 196.24
sd(ViK$REV_VIK_21/1000000)
## [1] 39
sd(ViK$REV_VIK_21)/mean(ViK$REV_VIK_21)*100
## [1] 132
ggplot(data=ViK, aes(x = reorder(REG_FR,REV_VIK_21/1000000), y= REV_VIK_21/1000000)) +
geom_bar(stat = "identity", width=0.5, color="black", fill="white")+
geom_text(aes(label=REV_VIK_21/1000000), vjust=-0.3, size=2)+
theme(axis.text.x = element_text(face="bold", color="black",size=7, angle=45),
axis.text.y = element_text(face="bold", color="black",size=7, angle=90))+
labs(x="ViK", y="millions de leva", title="Revenus des ViKs en 2021")+theme(plot.title=element_text(face="bold", color="black", size=10))+theme(axis.title.x = element_text(face="plain", color="black", size=9))+theme(axis.title.y = element_text(face="plain", color="black", size=9))
cor.test(ViK$REV_VIK_21, ViK$PIBhab_23, method=c("pearson"))
##
## Pearson's product-moment correlation
##
## data: ViK$REV_VIK_21 and ViK$PIBhab_23
## t = 8, df = 26, p-value = 0.00000001
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.70 0.93
## sample estimates:
## cor
## 0.85
cor.test(ViK$REV_VIK_21, ViK$PIBhab_23, method=c("spearman"))
##
## Spearman's rank correlation rho
##
## data: ViK$REV_VIK_21 and ViK$PIBhab_23
## S = 1588, p-value = 0.002
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.57
Toutefois, les corrélations ne sont plus significatives entre le PIB/hab et le revenu qu’il s’agisse du revenu par habitant des ViK ou du revenu brut des Viks si l’on retire Sofia.
corr.test(ViKnoSOF$PIBhab_23, ViKnoSOF$REV_POP_VIK_21, method=c("spearman"))
## Call:corr.test(x = ViKnoSOF$PIBhab_23, y = ViKnoSOF$REV_POP_VIK_21,
## method = c("spearman"))
## Correlation matrix
## [1] 0.52
## Sample Size
## [1] 27
## These are the unadjusted probability values.
## The probability values adjusted for multiple tests are in the p.adj object.
## [1] 0.01
##
## To see confidence intervals of the correlations, print with the short=FALSE option
corr.test(ViKnoSOF$PIBhab_23, ViKnoSOF$REV_VIK_21, method=c("spearman"))
## Call:corr.test(x = ViKnoSOF$PIBhab_23, y = ViKnoSOF$REV_VIK_21, method = c("spearman"))
## Correlation matrix
## [1] 0.52
## Sample Size
## [1] 27
## These are the unadjusted probability values.
## The probability values adjusted for multiple tests are in the p.adj object.
## [1] 0.01
##
## To see confidence intervals of the correlations, print with the short=FALSE option
ggplot(data=ViKnoSOF, aes(x = REV_VIK_21 , y= PIBhab_23))+
geom_point()+
geom_text(aes(label=REG_FR), vjust=-0.3, size=2)+
labs(x="Revenu des ViKs (excepté Sofia) en 2021", y="PIB par habitant en 2023 (excepté sofia)", title="Relation entre les revenus des ViKs et le PIB par habitant régional, sans Sofia")+theme(plot.title=element_text(face="bold", color="black", size=10))+geom_vline(aes(xintercept=median(REV_VIK_21)),color="red", linetype="dashed", size=1)+geom_hline(aes(yintercept=median(PIBhab_23)), color="red", linetype="dashed")
Les revenus par habitants s’étendent entre 59 leva/hab à Kjustendil et 227 leva/hab à Burgas, suivi de Varna et de la capitale, Sofia. L’écart type est de 33 pour une moyenne de 108 leva/hab. La mediane est elle aussi de 108 leva/hab. On a donc un coefficient de variation bien moins important que pour le revenu brut, de 31%. La matrice des corrélation montre une corrélation négative entre le revenu par habitant des ViKs et :
- l’augmentation de la population d’un ViK : en effet, la plupart des ViKs ayant vu leur population augmenter fortement n’ont pas vu leurs revenus augmenter en parallèle et ont des revenus par habitant plus bas après qu’avant la fusion (-0,5)
- le % de population rurale (-0,4) ce qui signifie que ce sont surtout les régions urbaines qui ont un revenu par habitant plus élevé
…une corrélation positive entre le rev/hab.
des ViKs et :
- le revenu global, le revenu pour 1000 km de réseau, et l’augmentation de ce revenu depuis 2013
- le PIB/hab montrant que les régions avec une plus forte activité économique dépensent aussi plus d’eau ; c’est d’autant plus vrai que les tarifs pour les entreprises sont plus chers que pour les ménages et qu’elles consomment aussi plus (surtout l’industrie)
- la taille du réseau d’eau potable en valeur brute et les prélèvements en eau (ce qui est lié à l’urbanisation surtout ici, comme le % de population ayant fait des études supérieures)
- le prix de l’eau et l’évolution du prix de l’eau : plus il est élevé, plus le revenu par tête d’un ViK est élevé
On a donc un lien entre les ViKs de régions urbaines et peuplées et le revenu par habitant qu’ils génèrent et, de l’autre côté, les ViKs de régions rurales et leur revenu par habitant.
summary(ViK$REV_POP_VIK_21)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 59.1 84.6 108.4 107.5 119.2 226.6
sd(ViK$REV_POP_VIK_21)
## [1] 33
sd(ViK$REV_POP_VIK_21)/mean(ViK$REV_POP_VIK_21)*100
## [1] 31
ggplot(data=ViK, aes(x = reorder(REG_FR,REV_POP_VIK_21), y= REV_POP_VIK_21)) +
geom_bar(stat = "identity", width=0.5, color="black", fill="white")+
geom_text(aes(label=REV_POP_VIK_21), vjust=-0.3, size=2)+
theme(axis.text.x = element_text(face="bold", color="black",size=7, angle=45),
axis.text.y = element_text(face="bold", color="black",size=7, angle=90))+
labs(x="ViK", y="leva/hab", title="Revenus par habitant desservi des ViKs en 2021")+theme(plot.title=element_text(face="bold", color="black", size=10))+theme(axis.title.x = element_text(face="plain", color="black", size=9))+theme(axis.title.y = element_text(face="plain", color="black", size=9))
Les dépenses énergétiques sont l’une des principales dépenses des ViKs. Il n’y a pas de corrélation entre le revenu par habitant des ViKs et leurs dépenses énergétiques. Toutefois : certains ViK à faible revenu doivent-ils faire face à davantage de dépenses que les autres ?
Au dessus de la médiane, se distingue nettement le cas de Haskovo, avec un très faible revenu par habitant des ViKs et de très fortes dépenses énergétiques ; puis de Razgrad, Silistra, Targovishte et Vidin. D’autres ViKs comme Burgas, Varna et Sofia-capitale, ont inversement de faibles consommations énergétiques et un plus haut revenu des ViKs par habitant
ggplot(data=ViK, aes(y = Energie.kwh.m3_21ViK, x=REV_POP_VIK_21))+
geom_point()+
geom_text(aes(label=REG_FR), vjust=-0.3, size=2)+
labs(y="consommation énergétique en KwH m3", x="revenu par hab. du ViK", title ="Relation entre les consommations énergétiques et la densité de population sur le réseau")+theme(plot.title=element_text(face="bold", color="black", size=10))+geom_vline(aes(xintercept=median(REV_POP_VIK_21)),color="red", linetype="dashed", size=1)+geom_hline(aes(yintercept=median(Energie.kwh.m3_21ViK)), color="red", linetype="dashed", size=1)
On voit ici se dessiner une légère relation positive et monotone entre le prix de l’eau et le revenu par habitant des ViKs. Le coefficient de corrélation est assez faible, 0,38 et la p.value est de 0,05 donc l’hypothèse de relation est validée. Les ViKs où le revenu par habitant est le plus élevé sortent de la tendance générale :
- Sofia capitale et Dobrich ont des prix de l’eau faibles par rapport à leur revenu par habitant élevé ; dans une moindre mesure c’est aussi le cas pour Burgas et Varna
- Ici, on voit sans doute le rôle de l’activité économique (industrie, et surtout tourisme dans ces régions situées sur la cote de la Mer Noire ou dans la région capitale).
Cela réhausse les consommations donc le revenu par habitant, sans nécessairement le faire dépendre du prix de l’eau.
cor.test(ViK$PRIX_ViK_23, ViK$REV_POP_VIK_21, method = c("spearman"))
##
## Spearman's rank correlation rho
##
## data: ViK$PRIX_ViK_23 and ViK$REV_POP_VIK_21
## S = 2270, p-value = 0.05
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.38
ggplot(data=ViK, aes(x = PRIX_ViK_23 , y= REV_POP_VIK_21))+
geom_point()+
geom_text(aes(label=REG_FR), vjust=-0.3, size=2)+
labs(x="prix de l'eau en 2023", y="revenu du ViK par habitant (leva) en 2021", title="Relation entre le prix de l'eau au m3 et le revenu des ViK par habitant")+theme(plot.title=element_text(face="bold", color="black", size=10))+geom_vline(aes(xintercept=median(PRIX_ViK_23)),color="red", linetype="dashed", size=1)+geom_hline(aes(yintercept=median(REV_POP_VIK_21)), color="red", linetype="dashed", size=1)
L’évolution des revenus des ViK varie entre -1 millions de leva constants et +45 millions de leva avec un écart type de 10 millions et un coefficient de variation de +169%.
- L’évolution des revenus en valeur brute est négativement corrélée à l’agriculture en valeur ajouté, au % de population rurale et à l’énergie en KWH dépensée pour le réseau.
- Corrélation positive avec la population des ViKs (les ViKs les plus peuplés ont tendance à s’enrichir), avec leur revenu total en 2023 et avec tous les indicateurs désignant des régions urbaines
summary(ViK$EVO_REVcon_VIK_31.21/1000000)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -1.02 1.95 2.58 6.09 4.07 45.18
sd(ViK$EVO_REVcon_VIK_31.21/1000000)
## [1] 10
sd(ViK$EVO_REVcon_VIK_31.21)/mean(ViK$EVO_REVcon_VIK_31.21)*100
## [1] 169
ggplot(data=ViK, aes(x = reorder(REG_FR,EVO_REVcon_VIK_31.21/1000000), y= EVO_REVcon_VIK_31.21/1000000)) +
geom_bar(stat = "identity", width=0.5, color="black", fill="white")+
geom_text(aes(label=EVO_REVcon_VIK_31.21/1000000), vjust=-0.3, size=2)+
theme(axis.text.x = element_text(face="bold", color="black",size=7, angle=45),
axis.text.y = element_text(face="bold", color="black",size=7, angle=90))+
labs(x="ViK", y="millions de leva constant", title=" Évolution des revenus des ViKs entre 2013 et 2021")+theme(plot.title=element_text(face="bold", color="black", size=10))+theme(axis.title.x = element_text(face="plain", color="black", size=9))+theme(axis.title.y = element_text(face="plain", color="black", size=9))+geom_hline(yintercept=0, color="red")
Sur la matrice de corrélations, on observe une corrélation négative,
de -0,7, entre les consommations énergétiques d’un ViK et ses
revenus.
Plus un ViK consomme d’énergie, plus l’évolution des revenus est faible
(voire négative). Les ViKs ayant une forte consommation énergétique ont
aussi une faible évolution de leurs revenus en % du revenu de 2013. Il
s’agit surtout de : Haskovo, Razgrad, Silistra, Dobrich, Ruse, Stara
Zagora, Shumen, Targovishte, Lovech, Vidin et Yambol.
Pourtant, les consommations énergétiques n’entrent pas dans le calcul
des revenus. Il s’agit sans doute là d’une corrélation liée au fait que
ce sont les régions les plus rurales et agricoles qui, en Bulgarie,
utilisent le plus d’énergie pour les services d’eau potable, car elles
ont peu de ressource en eau et/ou dépendent du pompage (développement
historique de la Dobrudzha notamment + région de Haskovo).
Les régions plus urbaines et industrielles, qui se sont aussi
historiquement développées par la construction de barrages et autour de
ressources en eau importantes (zones montagneuses, souvent), subissent
moins ce facteur supplémentaire du coût de l’énergie .
p.value \< 0,05
cor.test(ViK$EVO_REVcon_VIK_pourc_13.21, ViK$Energie.kwh.m3_21ViK, method=c("spearman"))
## Warning in cor.test.default(ViK$EVO_REVcon_VIK_pourc_13.21,
## ViK$Energie.kwh.m3_21ViK, : Impossible de calculer la p-value exacte avec des
## ex-aequos
##
## Spearman's rank correlation rho
##
## data: ViK$EVO_REVcon_VIK_pourc_13.21 and ViK$Energie.kwh.m3_21ViK
## S = 6286, p-value = 0.00002
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## -0.72
cor.test(ViK$EVO_REVcon_VIK_pourc_13.21, ViK$Energie.kwh.m3_21ViK, method=c("pearson"))
##
## Pearson's product-moment correlation
##
## data: ViK$EVO_REVcon_VIK_pourc_13.21 and ViK$Energie.kwh.m3_21ViK
## t = -3, df = 26, p-value = 0.003
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.76 -0.20
## sample estimates:
## cor
## -0.53
ggplot(data=ViK, aes(y =EVO_REVcon_VIK_pourc_13.21 , x= Energie.kwh.m3_21ViK))+
geom_point()+
geom_text(aes(label=REG_FR), vjust=-0.3, size=2)+
labs(x="Consommation énergétique kwh/m3", y="% évolution des revenus entre 2013 et 2021 (constants)", title="Relation entre la consommation énergétique des ViKs en 2021 et l'importance de l'évolution de leurs revenus entre 2013 et 2021")+theme(plot.title=element_text(face="bold", color="black", size=10))+
geom_vline(aes(xintercept=median(Energie.kwh.m3_21ViK)),color="red", linetype="dashed", size=1)+
geom_hline(aes(yintercept=median(EVO_REVcon_VIK_pourc_13.21)), color="red", linetype="dashed", size=1)
-Quels ViK ont les prix de l’eau les plus élevés ?
Et dans les régions où les prix de l’eau sont élevés, le niveau de vie général est-il lui aussi élevé ?
En 2023, les prix de l’eau s’étalent entre 1,4 leva le m3 (Pazardzhik) et 4,5 leva le m3 (Razgrad), soit trois fois plus. La médiane et la moyenne sont proches, entre 3,1 et 3,7 et la variation des prix entre les ViKs est moyen, avec un coefficient de variation de 27% et un écart type de 0,83.
Cela est sans doute lié à la régulation des prix de l’eau, qui ne permet pas aux ViK de les augmenter au delà d’un seuil de tolérance sociale, fixé par rapport au revenu moyen des régions.
summary(ViK$PRIX_ViK_23)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.37 2.49 3.24 3.10 3.71 4.49
sd(ViK$PRIX_ViK_23)
## [1] 0.83
sd(ViK$PRIX_ViK_23)/mean(ViK$PRIX_ViK_23)*100
## [1] 27
ggplot(data=ViK, aes(x = reorder(REG_FR,PRIX_ViK_23), y= PRIX_ViK_23)) +
geom_bar(stat = "identity", width=0.5, color="black", fill="white")+
geom_text(aes(label=PRIX_ViK_23), vjust=-0.3, size=2)+
theme(axis.text.x = element_text(face="bold", color="black",size=7, angle=45),
axis.text.y = element_text(face="bold", color="black",size=7, angle=90))+
labs(x="ViK", y="leva", title="Prix de l'eau au m3 en leva en 2023")+theme(plot.title=element_text(face="bold", color="black", size=10))+theme(axis.title.x = element_text(face="plain", color="black", size=9))+theme(axis.title.y = element_text(face="plain", color="black", size=9))
Ces 10 dernières années, les prix de l’eau ont globalement augmenté en Bulgarie, en valeur courante comme constante.
En valeur courante, les prix ont, selon les ViK, varié de 0 leva à +2,42 leva entre 2013 et 2023 dans les ViKs bulgares.
Certains ViK comme Kjustendil et Pazardzhik n’ont eu aucune, ou presque augune, augmentation du prix de l’eau,.
Silistra est la région où les prix ont le plus augmenté.
L’écart type est de 0,71 et le coefficient de variation de 56%, avec une augmentation moyenne des prix de 1,25 (et médiane de +1,27).
En valeur constante (indice des prix décembre 2013-décembre 2023 = 143), les prix ont évolué de 0 leva à +1,70 leva, avec un écart type de 0,49 et un coefficient de variation de 56%.
Moyenne : +0.88 leva par ViK et médiane : +0.89 leva.
summary(ViK$EVO_PRIX_cou_13.23/143*100)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 0.558 0.888 0.875 1.280 1.695
sd(ViK$EVO_PRIX_cou_13.23/143*100)
## [1] 0.49
sd(ViK$EVO_PRIX_cou_13.23/143*100)/mean(ViK$EVO_PRIX_cou_13.23/143*100)*100
## [1] 56
ggplot(data=ViK, aes(x =reorder(REG_FR,EVO_PRIX_cou_13.23), y= EVO_PRIX_cou_13.23)) +
geom_bar(stat = "identity", width=0.5, color="black", fill="white")+
geom_text(aes(label=EVO_PRIX_cou_13.23), vjust=-0.3, size=2)+
theme(axis.text.x = element_text(face="bold", color="black",size=7, angle=45),
axis.text.y = element_text(face="bold", color="black",size=7, angle=90))+
labs(x="ViK", y="leva", title="évolution du prix de l'eau au m3 en leva entre 2013 et 2023")+theme(plot.title=element_text(face="bold", color="black", size=10))+theme(axis.title.x = element_text(face="plain", color="black", size=9))+theme(axis.title.y = element_text(face="plain", color="black", size=9))
La matrice de corrélation (Spearman) montre **des corrélations positives entre le prix de l’eau et :**
- L’évolution du prix de l’eau (+0,9) = les ViKs où le prix de l’eau a le plus augmenté ces 10 dernières années en valeur sont ceux où il est aujourd’hui le plus élevé
- Les consommations énergétiques
- Le revenu par habitant des ViKs (mais pas leurs revenus globaux!).
Sans doute, la hausse du prix de l’eau joue-t-elle sur les revenus par habitant, mais elle ne compense pas, au niveau des revenus globaux, les diminutions de population et de consommation.
**…et des corrélations négatives entre le prix de l’eau et :**
- L’augmentation de la population sur le territoire d’un ViK
- pour Sofia, seul VIK dont la population augmente réellement et non par l’effet d’une fusion, le prix de l’eau est relativement bas par rapport aux autres ViK
- Dans les autres régions, où il y a eu une fusion, les prix de l’eau sont assez faibles et ont peu augmenté.
En effet : il est politiquement peu populaire d’augmenter le prix de l’eau l’année de la fusion, c’est l’un des points de contestation majeur de cette politique.
- La consommation en eau des habitants.
- Il pourrait y avoir un lien direct : plus le prix de l’eau est fort, plus la consommation des habitants diminue ; plus la consommation en eau des habitants est faible, plus les ViKs compensent en augmentant le prix de l’eau ; ou inversement plus les prix de l’eau sont faibles, plus la population consomme. Mais on sait que les consommations sont peu élastiques par rapport aux prix concernant l’eau potable. Il n’est donc pas certain que ce lien soit si direct.
- Déjà parce que seuls les prix de l’eau, et non l’*évolution* des prix de l’eau, sont corrélés à la consommation en eau par habitant. Cela suggère donc qu’une forte augmentation des prix n’a pas eu d’incidence généralisée sur la consommation en eau potable
- Les ViKs qui ont des prix de l’eau élevés sont pour beaucoup, on l’a vu, des ViK ruraux et agricoles.
On a vu que dans ce type de ViK les consommations en eau par jour et par habitant était aussi plus faibles qu’ailleurs, probablement pour des raisons culturelles et du fait de la disponibilité d’autres sources en eau (voir, ci-dessus). C’est sans doute davantage le facteur de régions rurales et agricoles qui fait le lien entre les variables, bien que des prix de l’eau élevés n’encouragent probablement pas l’usage ou la confiance dans le réseau conventionnel.
ggplot(data=ViK, aes(y =Conso_eau_hab_23 , x= PRIX_ViK_23))+
geom_point()+
geom_text(aes(label=REG_FR), vjust=-0.3, size=2)+
labs(x="Prix de l'eau en 2023", y="Consommation en eau par habitant", title="Relation entre la consommation en eau par hab et le prix de l'eau")+theme(plot.title=element_text(face="bold", color="black", size=10))+
geom_vline(aes(xintercept=median(PRIX_ViK_23)),color="red", linetype="dashed", size=1)+
geom_hline(aes(yintercept=median(Conso_eau_hab_23)), color="red", linetype="dashed", size=1)
Il convient d’abord de souligner que le prix de l’eau moyen au m3 par mois est faible en Bulgarie au regard du revenu moyen de la population. Pour une consommation moyenne de 36m3 d’eau par an par habitant, en 2023, la facture d’eau maximale moyenne par habitant (prix : 3,1 leva/m3) représente 0,47% du revenu moyen par hab en 2024. Malgré l’inflation entre les deux années, et malgré le fait que la facture d’eau d’un ménage qui compte plusieurs enfants représente nécessairement une part plus élevé du revenu du ménage, on peut estimer que cette part reste faible.
mean(ViK$PRIX_ViK_23) #prix maximum moyen du m3 d'eau en BG = 3,1 leva
## [1] 3.1
mean(ViK$Conso_eau_hab_23)*365/1000 #consommation moyenne de l'eau = 36m3/an
## [1] 36
mean(ViK$PRIX_ViK_23)*(mean(ViK$Conso_eau_hab_23)*365/1000) #facture annuelle moyenne des bulgares : 112 leva
## [1] 112
mean(ViK$RevHab_24) #revenu annuel moyen des bulgares = 24 106 leva
## [1] 24106
(mean(ViK$PRIX_ViK_23)*(mean(ViK$Conso_eau_hab_23)*365/1000))/mean(ViK$RevHab_24)*100 #la facture d'eau maximale moyenne par habitant pour un niveau de consommation moyen de 99l/j/hab représente 0,47% du revenu moyen par habitant, soit peu
## [1] 0.47
Création d’une variable : part de l’eau courante dans le budget d’un ménage par région
PourcEauBudget <- (ViK$PRIX_ViK_23)*(ViK$Conso_eau_hab_23*365/1000)/(ViK$RevHab_24)*100
ViK$PourcEauBudget<-PourcEauBudget
La part du prix de l’eau dans le budget d’un individu varie entre 0,23% et 0,73% au maximum, avec une moyenne de 0,47 et une médiane à 0,44 et un coefficient de variation à 30%
summary(ViK$PourcEauBudget)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.228 0.385 0.443 0.469 0.545 0.726
sd(ViK$PourcEauBudget)/mean(ViK$PourcEauBudget)*100
## [1] 30
ggplot(data=ViK, aes(x =reorder(REG_FR,PourcEauBudget), y= PourcEauBudget)) +
geom_bar(stat = "identity", width=0.5, color="black", fill="white")+
geom_text(aes(label=PourcEauBudget), vjust=-0.3, size=2)+
theme(axis.text.x = element_text(face="bold", color="black",size=7, angle=45),
axis.text.y = element_text(face="bold", color="black",size=7, angle=90))+
labs(x="ViK", y="%", title="Pourcentage du coût de l'eau dans le revenu moyen d'un habitant")+theme(plot.title=element_text(face="bold", color="black", size=10))+theme(axis.title.x = element_text(face="plain", color="black", size=9))+theme(axis.title.y = element_text(face="plain", color="black", size=9))+geom_hline(aes(yintercept=0.54))
À Varna, Lovech, Yambol, Razgrad, Ruse, Silistra, Burgas, Haskovo, Stara Zagora et Veliko Tarnovo, le prix de l’eau dans le budget des ménages se situe dans le dernier quartile (\> 0,54%).Cela reste limité, mais ce sont les régions où ce dernier “pèse” le plus.
Il n’y a pas de corrélation statistique entre le prix de l’eau (ni son augmentation) et le niveau de vie global dans une région mesuré en revenu par habitant.
Le nuage de point ci-dessous montre une diversité de situations.
Parmi les régions où la population est l
a plus pauvre (\< médiane), on voit que certaines ont des prix de
l’eau plutôt faibles (Région de Sofia, Dobrich, Vidin, Veliko Tarnovo et
Kardzhali) et d’autres des prix de l’eau élevés, voire très élevés :
(Razgrad, Varna, Ruse, Haskovo, Yambol, Lovech).
ggplot(data=ViK, aes(y =RevHab_24 , x= PRIX_ViK_23))+
geom_point()+
geom_text(aes(label=REG_FR), vjust=-0.3, size=2)+
labs(x="Prix de l'eau en 2023", y="Revenu par habitant en 2024", title="Relation entre le revenu par habitant et le prix de l'eau")+theme(plot.title=element_text(face="bold", color="black", size=10))+
geom_vline(aes(xintercept=median(PRIX_ViK_23)),color="red", linetype="dashed", size=1)+
geom_hline(aes(yintercept=median(RevHab_24)), color="red", linetype="dashed", size=1)
De plus, Certaines régions au revenu moyen élevé ont aussi des taux de pauvreté et d’exclusion sociale importants. C’est particulièrement le cas de Pernik, dont une partie de la population travaille à Sofia et une autre - restée sur place - a des revenus bien moins importants ; Certaines régions assez pauvres peuvent aussi avoir des taux élevés, notamment Razgrad, Sliven, Vidin…Pour ces foyers très pauvres le prix de l’eau - même faible - peut représenter un poids très important
ggplot(data=ViK, aes(y =TxRisq_24 , x= RevHab_24))+
geom_point()+
geom_text(aes(label=REG_FR), vjust=-0.3, size=2)+
labs(x="Revenu par habitant", y="Risque de pauvreté et d'exclusion sociale en 2024", title="Relation entre le revenu par habitant et le risque de pauvreté et d'exclusion sociale")+theme(plot.title=element_text(face="bold", color="black", size=10))+
geom_vline(aes(xintercept=median(RevHab_24)),color="red", linetype="dashed", size=1)+
geom_hline(aes(yintercept=median(TxRisq_24)), color="red", linetype="dashed", size=1)
Il y a des écarts importants entre les ViKs du point de vue de leur consommation énergétique.
Leurs dépenses vont de 0,04 kwh /m3 d’eau prélevée à 2,34 Kwh avec une moyenne à 0,74 et une médiane à 0,58 .
L’écart type est de 0,49 et le coefficient de variation de 67%.
Le maximum, de 2,34 est à Haskovo et constitue une valeur extrême suivi de Razgrad, de Silistra et de Dobrich.
Tous ces ViKs ont une eau qui dépend majoritairement du pompage et de grands systèmes techniques avec des transferts d’eau importants.
summary(ViK$Energie.kwh.m3_21ViK)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.040 0.445 0.585 0.738 0.970 2.340
sd(ViK$Energie.kwh.m3_21ViK)
## [1] 0.49
sd(ViK$Energie.kwh.m3_21ViK)/mean(ViK$Energie.kwh.m3_21ViK)*100
## [1] 67
ggplot(data=ViK, aes(x = reorder(REG_FR,Energie.kwh.m3_21ViK), y= Energie.kwh.m3_21ViK)) +
geom_bar(stat = "identity", width=0.5, color="black", fill="white")+
geom_text(aes(label=Energie.kwh.m3_21ViK), vjust=-0.3, size=2)+
theme(axis.text.x = element_text(face="bold", color="black",size=7, angle=45),
axis.text.y = element_text(face="bold", color="black",size=7, angle=90))+
labs(x="ViK", y="KwH/m3", title="Consommation énergétique des VIKs en KwH/m3 en 2021")+theme(plot.title=element_text(face="bold", color="black", size=10))+theme(axis.title.x = element_text(face="plain", color="black", size=9))+theme(axis.title.y = element_text(face="plain", color="black", size=9))
ggplot(data=ViK, aes(x=Energie.kwh.m3_21ViK))+
geom_histogram(color="black", fill="white", binwidth = 0.5)+
geom_vline(aes(xintercept=mean(Energie.kwh.m3_21ViK)),color="blue", linetype="dashed", size=1)+
geom_vline(aes(xintercept=median(Energie.kwh.m3_21ViK)),color="red", linetype="dashed", size=1)+
theme(plot.title=element_text(face="bold", color="black", size=10))+
theme(axis.title.x = element_text(face="plain", color="black", size=9))+
theme(axis.title.y = element_text(face="plain", color="black", size=9))+
labs(x="KwH/m3", y="effectif", title="Dépenses énergétiques des ViKs en 2021")+
theme(plot.title=element_text(face="bold", color="black", size=10))
cor.test(ViK$Energie.kwh.m3_21ViK, ViK$PRIX_ViK_23,method= c("spearman"))
## Warning in cor.test.default(ViK$Energie.kwh.m3_21ViK, ViK$PRIX_ViK_23, method =
## c("spearman")): Impossible de calculer la p-value exacte avec des ex-aequos
##
## Spearman's rank correlation rho
##
## data: ViK$Energie.kwh.m3_21ViK and ViK$PRIX_ViK_23
## S = 1533, p-value = 0.001
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.58
ggplot(data=ViK, aes(x = Energie.kwh.m3_21ViK, y= PRIX_ViK_23))+
geom_point()+
geom_text(aes(label=REG_FR), vjust=-0.3, size=2)+
labs(x="consommation énergétique en KwH m3", y="Prix de l'eau en 2023", title="Relation entre les consommations énergétiques et le prix de l'eau")+theme(plot.title=element_text(face="bold", color="black", size=10))+geom_vline(aes(xintercept=median(Energie.kwh.m3_21ViK)),color="red", linetype="dashed", size=1)+geom_hline(aes(yintercept=median(PRIX_ViK_23)))
Plusieurs profils se détachent avant même la réalisation d’une analyse à composante principale, des caractéristiques générales des ViKs.
- Le groupe des ViKs dans des territoires ruraux et agricoles dont, l’eau est issue majoritairement du pompage et a un prix plus élevé qu’ailleurs
- Groupe de régions plus riches, urbaines, où les ViKs génèrent des revenus (et des revenus par hab.) plus élevés - en premier lieu Sofia.
Les prix de l’eau y sont variables : le revenu est davantage dépendant du nombre d’habitant et de leur consommation
- Groupe de régions plutôt industrialisées (ou industrialisées par le passé), urbaines ou rurales, qui ont un accès relativement facile à l’eau, où les ViKs ne sont pas riches, mais peuvent pratiquer des prix plutôt bas (Sliven, Gabrovo)
Il convient maintenant de regarder si ces caractéristiques générales influencent, ou non, la qualité des services d’eau et d’approvisionnement ?
Les pertes en eau vont de 40% à 85% de l’eau prélevé. C’est, dans tout les cas, très supérieur à la moyenne européenne. L’écart type est de 12 et le coefficient de variation de 19%. La moyenne est de 61% et la médiane de 58%.
La matrice de corrélation montre que les pertes en eau tendent à être plus faibles dans les régions urbaines.
Le pourcentage de pertes en eau sur le réseau est corrélé au nombre de lits d’hôpitaux par habitant (0,41) ; au PIB par habitant (0,3) et au pourcentage de population ayant fait des études supérieures (0,3).
Il s’agit essentiellement de l’influence de Sofia, qui a le plus faible niveau de pertes (40%), suivie par Ruse, Smoljan (45%) et Vidin (47%).
En effet, sans Sofia, l’indicateur du PIB et celui des études supérieurs ne sont plus corrélés au pourcentage de pertes en eau.
Il n’y a donc pas de réel lien entre le fait d’être un territoire riche et urbain et le pourcentage de pertes en eau.
Inversement, les pertes en eau sont corrélées au pourcentage d’agriculture dans la VA régionale.
La corrélation est de 0,38, avec une p.value de 0,05 avec Sofia).
En revanche, si on enlève Sofia, la corrélation n’est plus que de 0,31 et la p.value de 0,1 montre que cette corrélation est plutôt liée au hasard.
Cependant, on peut expliquer cette très légère corrélation par le fait que plusieurs régions qui ont un haut pourcentage de pertes en eau sont les régions qui sont situées dans le Nord Est soit à la fois des régions agricoles et des régions où les systèmes techniques d’eau et d’assainissement sont de très grande taille et où l’eau vient de loin.
Enfin, les pertes en eau sont, on l’a déjà vu, positivement corrélées au niveau de prélèvements en eau par habitant (0,75 avec Sofia / 0,77 sans Sofia, coefficients de corrélation \< 0,05).
En effet, ceci semble logique: plus on perd d’eau, plus il faut prélever pour compenser les pertes en comparaison du nombre d’habitant·es qui consomment.
La corrélation positive avec la population âgée (0,35 avec Sofia) est faible et n’est pas significative (p.value \> 0,05) ; de plus elle n’existe plus si l’on retire la capitale.
summary(ViK$Perteseau_Pourc_VIK21)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 40.0 55.9 58.3 61.4 68.8 84.6
sd(ViK$Perteseau_Pourc_VIK21)
## [1] 12
sd(ViK$Perteseau_Pourc_VIK21)/mean(ViK$Perteseau_Pourc_VIK21)*100
## [1] 19
ggplot(data=ViK, aes(x = reorder(REG_FR,Perteseau_Pourc_VIK21), y= Perteseau_Pourc_VIK21)) +
geom_bar(stat = "identity", width=0.5, color="black", fill="white")+
geom_text(aes(label=Perteseau_Pourc_VIK21), vjust=-0.3, size=2)+
theme(axis.text.x = element_text(face="bold", color="black",size=7, angle=45),
axis.text.y = element_text(face="bold", color="black",size=7, angle=90))+
labs(x="ViK", y="%", title="Pertes en eau en 2021")+theme(plot.title=element_text(face="bold", color="black", size=10))+theme(axis.title.x = element_text(face="plain", color="black", size=9))+theme(axis.title.y = element_text(face="plain", color="black", size=9))
L’indicateur de dis/continuité de service prend en compte le nombre et la durée des ruptures de service d’eau dans les régions pour l’année 2021.
Il est peu fiable pour un certain nombre de régions, selon le KEVR : Vraca, Plovdiv, Montana, Gabrovo, Sliven, Burgas (6/28).
Son minimum est de 0,06 à Pazardzhik et son maximum de 15,3 à Montana (suivi de Gabrovo à 9), avec une médiane à 1 et une moyenne à 2,5.
L’écart type est de 3,5, soit légèrement supérieur à la moyenne, avec un coefficient de variation de 139%.
Les écarts entre les oblast apparaissent donc importants.
Dans les matrices de corrélation, ce ratio est négativement corrélé à la part de population ne se déclarant pas bulgare (-0,40 avec Sofia ; -0,41 sans Sofia avec des p.value \<0,05) et à la population rurale (-0,39 avec Sofia ; -0,42 sans Sofia avec des p.value \<0,05).
Ces faibles corrélations sont difficiles à interpréter en tant que telles.
Plus la population se déclarerait non bulgare et plus elle vivrait en zone rurale, moins le niveau de discontinuité de service serait important.
Le ratio de continuité est positivement corrélé au nombre de pannes pour 100km de réseau par an ; ceci est compréhensible, puisque les interruptions de services sont généralement liées à des pannes et leur réparation ( coefficient de corrélation de spearman = 0.5 et p.value \<0,05 avec ou sans Sofia).
summary(ViK$Continuite_21_VIK)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.060 0.278 0.960 2.524 2.945 15.282
sd(ViK$Continuite_21_VIK)
## [1] 3.5
sd(ViK$Continuite_21_VIK)/mean(ViK$Continuite_21_VIK)*100
## [1] 139
Le minimum de pannes pour 100km de réseau est de 55, à Burgas puis à Targovishte.
Le maximum à Pernik et à Jambol avec plus de 140 avaries pour 100km de réseau en 2021.
La moyenne est de 84 pannes par an pour 100km de réseau avec des données peu dispersées autour (écart type de 24, coefficient de variation : 29%) .
La médiane est de 78 avaries pour 100km.
Les avaries sont, on l’a vu, positivement et significativement corrélées à la discontinuité de service.
Elles sont négativement et faiblement corrélées à : la part de population âgée sur un territoire (-0,37, p.value \<0,05). Cette corrélation n’est cependant plus significative lorsque l’on retire Sofia. Les avaries sont aussi corrélées (avec Sofia), mais sans significativité, au prix de l’eau (-0,34, mais cela n’est pas significatif : p.value \> 0.05) , au revenu par habitant des VIKs (-0.33, mais cela n’est pas significatif : p.value \> 0.05).
summary(ViK$Avaries100Km_VIK_21)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 55.3 67.7 78.1 84.0 93.7 147.2
sd(ViK$Avaries100Km_VIK_21)
## [1] 24
sd(ViK$Avaries100Km_VIK_21)/mean(ViK$Avaries100Km_VIK_21)*100
## [1] 29
Au final, si l’on prend les trois indicateurs de performance retenus, il apparaît très difficile d’interpréter les résultats.
On ne peut ni les lier à des caractéristiques des ViKs (population desservie, revenu, km de réseau) ni à des caractéristiques territoriales très claires.
Les ruptures de continuité de service tendent à être plus présentes en milieu urbain.
Cela pourrait être lié au fait que “l*es pertes linéaires (volume perdu divisé par la longueur du réseau) dépendent du nombre d’abonnés par kilomètre de réseau (densité linéaire) car des fuites existent préférentiellement au niveau des branchements. Ainsi, en moyenne, un service urbain dense aura plus de pertes linéaires qu’un service rural (IFEN, 2001). Mais sur le terrain, pour une même densité linéaire, la variabilité autour de la valeur moyenne reste très élevée*.” (Guérin Schneider et Nakhla, 2003).
Cependant, le nombre de pannes pour 100 km de réseau n’est pas corrélé avec le caractère urbain ou rural des régions.
De plus, les pertes en eau (%) sont plutôt lié au caractère agricole des régions sans doute du fait des très longs réseaux qui desservent les zones du nord est.\
On ne peut donc pas dire que la performance des ViKs est liée à des caractéristiques territoriales ou à des caractéristiques des ViKs.
**Il n’y a donc pas de conséquences évidentes en terme de qualité du service des inégalités grandissantes entre les compagnies des eaux et les territoires aujourd’hui.**
Si rien n’est automatique et évident, il est cependant possible d’établir des profils des compagnies des eaux sur leurs territoires.
Certains territoires cumulent-t-ils difficultés régionales , difficultés économiques des ViKs et problème de qualité du service.
C’est l’objectif de l’analyse multivariée ci-dessous.
Objectif : dresser des profils territorialisés des ViKs et de la qualité des services d’eau
Il faut retirer de la BD ViK les variables qualitatives (colonnes 1,2,3,17) ainsi qu’un certain nombre de variables que j’ai choisi de ne pas utiliser pour l’ACP.
Variables retenues : pourcentage de l’évolution de la population entre 2001 et 2021 (8), part de l’agriculture dans la Valeur ajouté régionale en 2023 (10), PIB/hab (12), pourcentage de population vivant en zone rurale (13), revenu des ViKs par habitant en 2023 (25), prix de l’eau en 2023 (27), consommations énergétiques (33), consommation d’eau par habitant en L/J/Hab (36). Dans les mesures où les indicateurs de performances ne font pas l’objet de corrélations claires je les représenterai après sur une carte
ACP<-ViK[, c(8, 10,12, 14,18, 25, 27, 33, 36)]
ACP
## PEVO_POP_01.21 AgriVA_23 PIBhab_23 TxRisq_24
## Blagoevgrad -11.4 5.534 16449 26
## Montana -31.6 11.619 15127 24
## Pazardzhik -17.8 5.953 16057 32
## Pernik -23.0 3.486 15608 37
## Pleven -30.5 5.763 17703 32
## Plovdiv -11.2 2.427 22209 35
## Razgrad -29.7 11.602 17081 48
## Ruse -27.5 5.187 21678 23
## Shumen -25.5 10.169 17129 19
## Silistra -30.6 16.487 13114 27
## Sliven -20.5 6.727 13493 40
## Burgas -10.0 2.801 22169 30
## Smoljan -30.6 5.659 17016 16
## Sofia region -14.2 3.293 24251 23
## Stara Zagora -19.6 2.083 36470 37
## Targovishte -30.3 10.452 18802 33
## Varna -6.3 1.904 26946 29
## Veliko Tarnovo -28.8 5.545 20187 34
## Vidin -41.1 11.928 15071 37
## Vraca -31.6 4.561 27113 30
## Jambol -28.9 8.961 17865 27
## Dobrich -29.6 12.360 17075 27
## Gabrovo -31.1 3.843 24297 25
## Sofia capitale 8.1 0.092 61833 25
## Haskovo -23.1 7.257 13012 25
## Kardzhali -13.6 9.823 15593 30
## Kjustendil -33.2 6.365 15030 25
## Lovech -31.7 6.698 18024 24
## EVO_REVcon_VIK_31.21 REV_POP_VIK_21 PRIX_ViK_23
## Blagoevgrad 9118111 93 2.2
## Montana 2664439 111 3.4
## Pazardzhik 2501905 60 1.4
## Pernik 2036535 100 2.0
## Pleven 4835506 114 3.7
## Plovdiv 13395872 97 2.5
## Razgrad 820830 115 4.5
## Ruse 2275191 129 3.7
## Shumen -1016848 119 2.9
## Silistra 1855493 110 4.4
## Sliven 2794877 84 2.0
## Burgas 33216685 227 3.5
## Smoljan 1987513 83 3.9
## Sofia region 2117623 71 2.1
## Stara Zagora 2362934 119 3.8
## Targovishte -589925 90 3.8
## Varna 17642787 148 4.2
## Veliko Tarnovo 6871973 107 3.1
## Vidin 521055 85 2.9
## Vraca 2654986 120 3.3
## Jambol 1511370 99 3.7
## Dobrich 3400699 136 2.5
## Gabrovo 3814481 110 2.9
## Sofia capitale 45179858 148 2.4
## Haskovo 3278131 82 3.6
## Kardzhali 3016240 77 3.2
## Kjustendil 2015503 59 1.7
## Lovech 269743 119 3.4
## Energie.kwh.m3_21ViK Conso_eau_hab_23
## Blagoevgrad 0.06 125
## Montana 0.50 90
## Pazardzhik 0.38 115
## Pernik 0.29 111
## Pleven 0.81 100
## Plovdiv 0.60 102
## Razgrad 1.53 88
## Ruse 1.08 109
## Shumen 1.03 88
## Silistra 1.48 96
## Sliven 0.52 75
## Burgas 0.40 115
## Smoljan 0.59 84
## Sofia region 0.56 98
## Stara Zagora 1.08 95
## Targovishte 0.95 74
## Varna 0.46 110
## Veliko Tarnovo 0.56 105
## Vidin 0.78 92
## Vraca 0.58 103
## Jambol 0.67 91
## Dobrich 1.33 96
## Gabrovo 0.31 105
## Sofia capitale 0.04 126
## Haskovo 2.34 83
## Kardzhali 0.53 81
## Kjustendil 0.38 120
## Lovech 0.82 99
ACPnoSOF <- ViKnoSOF [, c(8, 10,12, 14,18, 25, 27, 33, 36)]
ACPnoSOF
## PEVO_POP_01.21 AgriVA_23 PIBhab_23 TxRisq_24
## Blagoevgrad -11.4 5.5 16449 26
## Montana -31.6 11.6 15127 24
## Pazardzhik -17.8 6.0 16057 32
## Pernik -23.0 3.5 15608 37
## Pleven -30.5 5.8 17703 32
## Plovdiv -11.2 2.4 22209 35
## Razgrad -29.7 11.6 17081 48
## Ruse -27.5 5.2 21678 23
## Shumen -25.5 10.2 17129 19
## Silistra -30.6 16.5 13114 27
## Sliven -20.5 6.7 13493 40
## Burgas -10.0 2.8 22169 30
## Smoljan -30.6 5.7 17016 16
## Sofia region -14.2 3.3 24251 23
## Stara Zagora -19.6 2.1 36470 37
## Targovishte -30.3 10.5 18802 33
## Varna -6.3 1.9 26946 29
## Veliko Tarnovo -28.8 5.5 20187 34
## Vidin -41.1 11.9 15071 37
## Vraca -31.6 4.6 27113 30
## Jambol -28.9 9.0 17865 27
## Dobrich -29.6 12.4 17075 27
## Gabrovo -31.1 3.8 24297 25
## Haskovo -23.1 7.3 13012 25
## Kardzhali -13.6 9.8 15593 30
## Kjustendil -33.2 6.4 15030 25
## Lovech -31.7 6.7 18024 24
## EVO_REVcon_VIK_31.21 REV_POP_VIK_21 PRIX_ViK_23
## Blagoevgrad 9118111 93 2.2
## Montana 2664439 111 3.4
## Pazardzhik 2501905 60 1.4
## Pernik 2036535 100 2.0
## Pleven 4835506 114 3.7
## Plovdiv 13395872 97 2.5
## Razgrad 820830 115 4.5
## Ruse 2275191 129 3.7
## Shumen -1016848 119 2.9
## Silistra 1855493 110 4.4
## Sliven 2794877 84 2.0
## Burgas 33216685 227 3.5
## Smoljan 1987513 83 3.9
## Sofia region 2117623 71 2.1
## Stara Zagora 2362934 119 3.8
## Targovishte -589925 90 3.8
## Varna 17642787 148 4.2
## Veliko Tarnovo 6871973 107 3.1
## Vidin 521055 85 2.9
## Vraca 2654986 120 3.3
## Jambol 1511370 99 3.7
## Dobrich 3400699 136 2.5
## Gabrovo 3814481 110 2.9
## Haskovo 3278131 82 3.6
## Kardzhali 3016240 77 3.2
## Kjustendil 2015503 59 1.7
## Lovech 269743 119 3.4
## Energie.kwh.m3_21ViK Conso_eau_hab_23
## Blagoevgrad 0.06 125
## Montana 0.50 90
## Pazardzhik 0.38 115
## Pernik 0.29 111
## Pleven 0.81 100
## Plovdiv 0.60 102
## Razgrad 1.53 88
## Ruse 1.08 109
## Shumen 1.03 88
## Silistra 1.48 96
## Sliven 0.52 75
## Burgas 0.40 115
## Smoljan 0.59 84
## Sofia region 0.56 98
## Stara Zagora 1.08 95
## Targovishte 0.95 74
## Varna 0.46 110
## Veliko Tarnovo 0.56 105
## Vidin 0.78 92
## Vraca 0.58 103
## Jambol 0.67 91
## Dobrich 1.33 96
## Gabrovo 0.31 105
## Haskovo 2.34 83
## Kardzhali 0.53 81
## Kjustendil 0.38 120
## Lovech 0.82 99
Création d’une matrice de corrélation pour étudier la pertinence de réaliser une ACP à partir de ces variables.
Ici, on calcule les coefficients de corrélation avec la fonction cor.
C’est par défaut le test de pearson qui est utilisé.
On ne peut en effet effectuer le test de Bartlett sur une matrice de corrélation calculée à partir de spearman sous R
MatrixACP<-cor(ACP)
MatrixACP<-as.data.frame(MatrixACP)
MatrixACP
## PEVO_POP_01.21 AgriVA_23 PIBhab_23 TxRisq_24
## PEVO_POP_01.21 1.000 -0.61 0.622 -0.0367
## AgriVA_23 -0.610 1.00 -0.601 0.0502
## PIBhab_23 0.622 -0.60 1.000 -0.0661
## TxRisq_24 -0.037 0.05 -0.066 1.0000
## EVO_REVcon_VIK_31.21 0.776 -0.54 0.723 -0.0487
## REV_POP_VIK_21 0.308 -0.23 0.392 -0.0077
## PRIX_ViK_23 -0.232 0.29 -0.017 0.0376
## Energie.kwh.m3_21ViK -0.375 0.51 -0.314 0.0753
## Conso_eau_hab_23 0.427 -0.55 0.425 -0.1503
## EVO_REVcon_VIK_31.21 REV_POP_VIK_21 PRIX_ViK_23
## PEVO_POP_01.21 0.776 0.3077 -0.232
## AgriVA_23 -0.539 -0.2285 0.285
## PIBhab_23 0.723 0.3920 -0.017
## TxRisq_24 -0.049 -0.0077 0.038
## EVO_REVcon_VIK_31.21 1.000 0.6386 -0.064
## REV_POP_VIK_21 0.639 1.0000 0.381
## PRIX_ViK_23 -0.064 0.3811 1.000
## Energie.kwh.m3_21ViK -0.390 -0.0385 0.520
## Conso_eau_hab_23 0.553 0.2930 -0.395
## Energie.kwh.m3_21ViK Conso_eau_hab_23
## PEVO_POP_01.21 -0.375 0.43
## AgriVA_23 0.509 -0.55
## PIBhab_23 -0.314 0.43
## TxRisq_24 0.075 -0.15
## EVO_REVcon_VIK_31.21 -0.390 0.55
## REV_POP_VIK_21 -0.038 0.29
## PRIX_ViK_23 0.520 -0.39
## Energie.kwh.m3_21ViK 1.000 -0.53
## Conso_eau_hab_23 -0.533 1.00
write.csv2(MatrixACP, "C:/Users/Raph/Documents/thesebulgarie/STATISTIQUES/analysesR/VIK_INEG/MatriceCorr.csv")
L’ACP est une compression de l’information. Elle n’est possible que si les données présentent une certaines redondances. Si les variables sont toutes parfaitement corrélées alors un axe factoriel suffit et restiuera 100% de l’information. Si les variables sont toutes indépendantes, alors il y a autant d’axes que de variables.
Le test de sphéricité de Bartlett permet de voir dans quelle mesure la matrice de corrélation calculée avec nos données diverge de la matrice unité, càd de la matrice théorique sous l’hypothèse nulle (H=0). II faut que l’hypothèse nulle soit démentie par les données pour pouvoir faire un résumé.
Pour mesurer le lien entre les variables, il faut calculer le déterminant [R] de la matrice de corrélation
H0 : R=1
colinéarité parfaite : R=0
Lorsque R \< 0,00001 on considère qu’il y a une forte redondance des données (elles ne recèlent qu’un seul type d’information).
Et si R se rapproche de 1 alors on est proche de H0.
**Ici p.value (R) =0.00000000000000044**\
L’hypothèse nulle est invalidée et il y a une redondance importante entre les données.
cortest.bartlett(MatrixACP, n=28)
## $chisq
## [1] 113
##
## $p.value
## [1] 0.00000000083
##
## $df
## [1] 36
Ce test permet de voir la corrélation nette entre deux variables, c’est à dire en retranchant l’influence des autres variables dans les corrélations obtenues sur la matrice. Si la corrélation nette est inférieure à la corrélation brute alors les liaisons sont déterminées par d’autres variables. Cela veut dire qu’il y a de la redondance et donc la possibilité de faire une réduction efficace de l’information
Si la corrélation brute > corrélation nette ou équivalente alors la relation directe entre les variables est réelle et sera prise en compte par l’ACP. Ces deux variables détermineront donc souvent un axe factoriel à elles seules
L’indice KMO global donne une idée de la redondance générale des données.
Il varie entre 0 et 1.
Si il est proche de 0 : corrélations partielles identiques aux corrélations brutes : variables indépendantes.
Si proche de 1 : excellent résumé de l’information sur les premiers axes factoriels.
**Ici il est de 0,65.**
KMO(MatrixACP)
## Kaiser-Meyer-Olkin factor adequacy
## Call: KMO(r = MatrixACP)
## Overall MSA = 0.73
## MSA for each item =
## PEVO_POP_01.21 AgriVA_23 PIBhab_23
## 0.74 0.80 0.81
## TxRisq_24 EVO_REVcon_VIK_31.21 REV_POP_VIK_21
## 0.58 0.68 0.57
## PRIX_ViK_23 Energie.kwh.m3_21ViK Conso_eau_hab_23
## 0.58 0.84 0.82
MatrixACPNoSof<-cor(ACPnoSOF)
MatrixACPNoSof<-as.data.frame(MatrixACPNoSof)
MatrixACPNoSof
## PEVO_POP_01.21 AgriVA_23 PIBhab_23 TxRisq_24
## PEVO_POP_01.21 1.000 -0.54 0.299 0.042
## AgriVA_23 -0.541 1.00 -0.629 0.010
## PIBhab_23 0.299 -0.63 1.000 0.068
## TxRisq_24 0.042 0.01 0.068 1.000
## EVO_REVcon_VIK_31.21 0.630 -0.46 0.268 0.063
## REV_POP_VIK_21 0.214 -0.16 0.365 0.022
## PRIX_ViK_23 -0.177 0.25 0.212 0.019
## Energie.kwh.m3_21ViK -0.273 0.46 -0.154 0.044
## Conso_eau_hab_23 0.276 -0.48 0.217 -0.114
## EVO_REVcon_VIK_31.21 REV_POP_VIK_21 PRIX_ViK_23
## PEVO_POP_01.21 0.630 0.214 -0.177
## AgriVA_23 -0.460 -0.162 0.251
## PIBhab_23 0.268 0.365 0.212
## TxRisq_24 0.063 0.022 0.019
## EVO_REVcon_VIK_31.21 1.000 0.711 0.077
## REV_POP_VIK_21 0.711 1.000 0.436
## PRIX_ViK_23 0.077 0.436 1.000
## Energie.kwh.m3_21ViK -0.285 0.030 0.503
## Conso_eau_hab_23 0.442 0.226 -0.368
## Energie.kwh.m3_21ViK Conso_eau_hab_23
## PEVO_POP_01.21 -0.273 0.28
## AgriVA_23 0.459 -0.48
## PIBhab_23 -0.154 0.22
## TxRisq_24 0.044 -0.11
## EVO_REVcon_VIK_31.21 -0.285 0.44
## REV_POP_VIK_21 0.030 0.23
## PRIX_ViK_23 0.503 -0.37
## Energie.kwh.m3_21ViK 1.000 -0.48
## Conso_eau_hab_23 -0.482 1.00
write.csv2(MatrixACPNoSof, "C:/Users/Raph/Documents/thesebulgarie/STATISTIQUES/analysesR/VIK_INEG/MatriceCorrNoSof.csv")
cortest.bartlett(MatrixACPNoSof, n=27)
## $chisq
## [1] 98
##
## $p.value
## [1] 0.00000011
##
## $df
## [1] 36
KMO(MatrixACPNoSof)
## Kaiser-Meyer-Olkin factor adequacy
## Call: KMO(r = MatrixACPNoSof)
## Overall MSA = 0.57
## MSA for each item =
## PEVO_POP_01.21 AgriVA_23 PIBhab_23
## 0.59 0.66 0.43
## TxRisq_24 EVO_REVcon_VIK_31.21 REV_POP_VIK_21
## 0.17 0.50 0.48
## PRIX_ViK_23 Energie.kwh.m3_21ViK Conso_eau_hab_23
## 0.56 0.76 0.78
BARTLETT : p.value =0.00000000003\
KMO : 0,64
Centrer réduire
ACP_scale<-scale(ACP)
Réalisation ACP avec 6 composantes
ACPViK <- PCA(ACP_scale, ncp = 6, graph = TRUE)
## Warning: ggrepel: 4 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps
Choix du nombre de dimensions pertinentes (3 : 78% données)
get_eigenvalue(ACPViK)
## eigenvalue variance.percent cumulative.variance.percent
## Dim.1 3.982 44.2 44
## Dim.2 1.744 19.4 64
## Dim.3 1.004 11.2 75
## Dim.4 0.686 7.6 82
## Dim.5 0.481 5.3 88
## Dim.6 0.423 4.7 92
## Dim.7 0.344 3.8 96
## Dim.8 0.240 2.7 99
## Dim.9 0.097 1.1 100
Sans Sofia
scaleACPnoSOF<-scale(ACPnoSOF)
ACPViKnoSOF <- PCA(scaleACPnoSOF, ncp = 6, graph = FALSE)
Il n’est pas possible de faire figurer les graphiques d’Explor sur un pdf statique
Réalisation d’un tableau excel en annexe résumant l’analyse des principaux axes. Voir annexes
Pour cela, on utilise la fonction AGNES du package “Cluster”.
On utilise une métrique euclidienne pour la distance entre les individus et la méthode de ward qui donne une perte d’inertie minimale
CAH <- agnes(ACP_scale, metric="euclidean", method="ward")
On travaille surtout à partir des 2 premiers axes de l’ACP.
À partir du dendogramme ci-dessous, j’identifie 6 classes
Régions urbaines, où le PIB/hab sont élevés, où le revenu des ViK et le revenu/hab sont importants et où les consommations en eau sont fortes
1) Sofia : prix de l’eau plutôt bas et conso énergétique très basses
2) Burgas et Varna : consommations énergétiques plutôt faibles mais prix de l’eau élevé. Tourisme
Régions où les ViKs sont davantage en difficulté économique
a.Au prix de l’eau bas
3) Blagoevgrad, Pazardzhik, Kjustendil, Pernik, Veliko Tarnovo, Gabrovo, Plovdiv, Région de Sofia= ViK s’étant consolidées, prix de l’eau assez faible, plutôt en zone montagneuse. Le revenu par habitant du ViK est assez faible mais les dépenses énergétiques aussi. Plovdiv est un cas limite car au niveau du PIB/hab il se situe plutôt dans une moyenne haute. Les consommations énergétiques sont faibles
b. Au prix de l’eau élevé
4) Agricoles, où la population diminue et a de faibles revenus et où les prix de l’énergie sont très élevés : Haskovo, Razgrad, Silistra
5) Plus urbaines et industrielles, : Stara Zagora, Ruse, Vraca, Pleven, Lovech. Les consommations énergétiques et les prix de l’eau sont importants notamment par rapport au groupe 3 avec qui équivalent au niveau de l’urbanisation.
6) “moyennes” Moins agricoles, où l**a diminution de la population est forte** et où le prix de l’eau m’est pas bas est variable : Sliven, Kardzhali, Shumen, Dobrich, Smoljan, Targovishte, Vidin, Montana, Jambol. Les consommations énergétiques sont plutot importantes ou moyennes. Beaucoup des régions rurales ex. industrielles en crise
CAH_Dist <- dist(ACP_scale, method="euclidian")
CAH2<-hclust(CAH_Dist, method="ward.D2")
plot(CAH2)
Je choisis donc 6 classes.
Selon le graphique suivant, ces 6 classes résument 48% de l’information de la CAH
HeightCAH <- sort(CAH$height, decreasing=TRUE)
relHeightCAH <- HeightCAH/sum(HeightCAH)*100
cumHeightCAH <- cumsum(relHeightCAH)
barplot(relHeightCAH [1:28], names.arg =seq (1,28,1), col = "lightblue4", border= "lightblue4", xlab="Nombre de groupes", ylab="Part de l'inertie totale (%)")
cumHeightCAH
## [1] 13 22 29 35 41 46 50 54 58 61 65 68 71 74 77 79 82 84 87
## [20] 89 91 93 95 96 98 99 100
Dendogramme 3 D avec 6 classes :
CAH2_dendo <- as.data.frame(ACP_scale)
CAH2_den <- HCPC(CAH2_dendo, nb.clust = 6, graph=FALSE)
plot.HCPC(CAH2_den, choice = "3D.map")
Dendogramme en arbre avec 6 classes
plot.HCPC(CAH2_den, choice = "tree")
#### Création d’une nouvelle variable indiquant les groupes de clusters
clusCAH_ViK <- cutree(CAH, k=6) #on le fait pour 6 classes
ViK_Clusters <- as.data.frame(ViK)
ViK_Clusters$clusCAH_ViK <- factor(clusCAH_ViK, levels = 1:6, labels = paste("CLUS", 1:6))
Export du nouveau tableau
write.csv2(ViK_Clusters, "C:/Users/Raph/Documents/thesebulgarie/STATISTIQUES/analysesR/VIK_INEG/ViK_Clusters_DEF.csv")
Visualisation du poids des variables de l’ACP dans chacun des clusters
Scale_clusCAH_ViK <- as.data.frame(ACP_scale)
Scale_clusCAH_ViK$clusCAH_ViK <- factor(clusCAH_ViK, levels = 1:6, labels = paste("CLUS", 1:6))
clusProfil6cl_ViK <- aggregate(Scale_clusCAH_ViK[,1:9], by=list(Scale_clusCAH_ViK$clusCAH_ViK), mean)
colnames(clusProfil6cl_ViK) [1] <- "GROUPES"
GROUPES=c("Groupe 3", "Groupe 2", "Groupe 4","Groupe 1","Groupe 5","Groupe 6")
clusProfil6cl_ViK$GROUPES<-GROUPES
clusLongViK<-melt(clusProfil6cl_ViK, id.vars="GROUPES")
ggplot(clusLongViK)+geom_bar(aes(x=variable, y=value, fill=GROUPES), stat="identity")+facet_wrap(~GROUPES)+coord_flip()+scale_fill_manual(values=c("#75bc86", "#bcd4cf", "#b9dffd", "#72ccf9", "#0199ff", "#0020ae"))
Cartographie associée : sur QGIS