EVOLUTION DES PRIX DU PETROLE EN 60 ANS : CAS DU NIGERIA DE 1960 A 2019
# code R pour tableau statistique
akposso.qt.tableau<-function(vecteur){
T<-table(vecteur)
Tc<-c(T)
tab<-data.frame(
Effectifs=Tc,
Eff_Cum_crois=cumsum(Tc),
Eff_Cum_decrois= sort(cumsum(Tc),decreasing = TRUE),
Frequence=Tc/sum(Tc),
Freq_Cum_crois=cumsum(Tc/sum(Tc)), Freq_Cum_decrois=sort(cumsum(Tc/sum(Tc)), decreasing = TRUE))
tab
return(tab)
}
#----------------------------------
# Fonction akposso.qt (graphiques de variables quantitatives)
akposso.qt.graph<-function(vecteur){
par(mfrow=c(2,2), mar=c(3,3,3,3))
res1<- plot(table(vecteur),main="Diagramme en Baton")
res2<- plot(ecdf(vecteur),main="Diagramme en Escalier")
res3<-hist(vecteur,main="Histogramme",col="green")
res4<-boxplot(vecteur,main="Boite ? moustache",col="green")
par(mfrow=c(1,1), mar=c(0,0,0,0))
}
#----------------------------------
akposso.qt.resume<-function(vecteur){
res1<-min(vecteur)
res2<-max(vecteur)
library(RVAideMemoire)
res3<-mod(vecteur)
res4<-median(vecteur,na.rm=TRUE)
res5<-mean(vecteur,na.rm=TRUE)
res6<-quantile(vecteur,na.rm=TRUE)
res7<-cv(vecteur)
res8<-var(vecteur,na.rm=TRUE)
res9<-sd(vecteur,na.rm=TRUE)
library(moments)
res10<-skewness(vecteur)
interpskew<- ifelse(res10<0,'distribution etalee à gauche','distribution etalee a droite')
res11<-kurtosis(vecteur)
interpkurt<- ifelse(res11<3,'distribution platikurtique','distribution leptokurtique')
return(list(minimum=res1,maximum=res2,mode=res3, mediane=res4,moyenne=res5,quantile=res6, coefficient_variation=res7,variance=res8,ecart_type=res9, coefficient_assymetrie=res10,interpretation_skewness=interpskew, coefficent_applatissement=res11,interpretation_kurtosis=interpkurt))
}
#----------------------------------
akposso.ql.tableau<-function(facteur){
T<-table(facteur)
Tc=c(T)
tab<-data.frame(Effectif=Tc,Frequence=Tc/sum(Tc))
tab
return(tab)
}
#----------------------------------
akposso.ql.graph<-function(facteur){
par(mfrow=c(2,1), mar=c(3,3,3,3))
barplot(table(facteur),main="Diagramme en barre")
pie(table(facteur),main="Diagramme en secteur")
par(mfrow=c(1,1), mar=c(0,0,0,0))
}
#----------------------------------
akposso.2qT.liaison<-function(vecteur1,vecteur2){
res1<- cor(vecteur1,vecteur2,method="pearson")
res2<- cor(vecteur1,vecteur2,method="spearman")
res3<- cor(vecteur1,vecteur2,method="kendall")
res4<- cor(vecteur1,vecteur2,method="pearson")^2
interp1<- ifelse(res4<0.10,'liaison tres faible',ifelse(res4<0.40,'liaison faible',ifelse(res4<0.60,'liaison moyenne',ifelse(res4<0.80,'liaison forte','liaison tres forte'))))
res5<- lm(vecteur1~vecteur2)$coefficients
res6<- cor.test(vecteur2, vecteur1)
interp2<- ifelse(res6$p.value<0.05,'liaison significative','liaison non significative')
rem<-"Si la liaison n?est pas significative, Ne pas tenir compte de son intensite"
return(list(Correlation_Pearson=res1, Correlation_Spearman=res2, Correlation_Kendall=res3, Coefficient_Determination=res4, Interpretation_Intensite_Liaison=interp1, Coefficents_Droite_Regression=res5,Resultat_Test_Liaison=res6, p.value=res6$p.value, Significacite_Liaison=interp2, Remarque=rem))
}
#----------------------------------
akposso.2qL.tableau<-function(facteur1,facteur2){
res1<- table(facteur1,facteur2)
res2<- round(prop.table(table(facteur1,facteur2)),2)
res3<- round(prop.table(table(facteur1,facteur2),1),2)
res4<- round(prop.table(table(facteur1,facteur2),2),2)
return(list(Tableau_Contingence=res1, Tableau_Frequence=res2, Tableau_Profil_Ligne=res3, Tableau_Profil_Colonne=res4))
}
#----------------------------------
akposso.2qL.graph<-function(facteur1, facteur2){
par(mfrow=c(3,2), mar=c(3,3,3,3))
barplot(table(facteur1, facteur2),main="diagramme en barres empiles",legend.text=F)
barplot(table(facteur2, facteur1),main="diagramme en barres empile?s",legend.text=F)
barplot(table(facteur1, facteur2),main="diagramme en b?tons groupes",beside=TRUE, legend.text=F)
barplot(table(facteur2, facteur1),main="diagramme en b?tons groupes",beside=TRUE, legend.text=F)
tabc1<-table(facteur1, facteur2)
fi1<-apply(tabc1,1,sum)
plignes1<-sweep(tabc1,1,fi1,"/")
barplot(t(plignes1),horiz=TRUE, main="Profil ligne",legend.text=F)
tabc2<-table(facteur2, facteur1)
fi2<-apply(tabc2,1,sum)
plignes2<-sweep(tabc2,1,fi2,"/")
barplot(t(plignes2),horiz=TRUE, main=" Profil colonne",legend.text=F)
par(mfrow=c(1,1), mar=c(3,3,3,3))
}
#----------------------------------
akposso.2qL.liaison<-function(vecteur1,vecteur2){
library(questionr)
res1<- chisq.test(table(vecteur1,vecteur2))$expected
res2<- fisher.test(table(vecteur1,vecteur2))
res3<- chisq.test(table(vecteur1,vecteur2))
res4<- cramer.v(table(vecteur1,vecteur2))
interp1<- ifelse(res2$p.value<0.05, 'liaison significative, les deux variables sont liees','liaison non significative, les deux variables ne sont pas liees')
interp2<- ifelse(res3$p.value<0.05, 'liaison significative, les deux variables sont liees','liaison non significative, les deux variables ne sont pas liees')
interp3<- ifelse(res4<0.10,'liaison tres faible',ifelse(res4<0.40,'liaison faible',ifelse(res4<0.60,'liaison moyenne',ifelse(res4<0.80,'liaison forte','liaison tres forte'))))
rem<-"Si la liaison n?est pas significative, Ne pas tenir compte de son intensite"
return(list(Effectif_Theorique=res1, Resultat_Test_KhiDeux=res3, Resultat_Test_Fisher=res2,Khi_Deux=res3$statistic, V_Cramer=res4,Khi2.P.value=res3$p.value,Significativite_TestKhi2=interp2, Fisher.P.value=res2$p.value, Significativite_TestFisher=interp1, Intensite_liaison=interp3, Remarque=rem))
}
#----------------------------------
akposso.qLqT.liaison<-function(vecteur,facteur){
library(BioStatR)
res1<- eta2(vecteur,facteur)
res2<- anova(lm(vecteur~facteur))
a<-data.frame(res2)
res3<-a$Pr..F.[1]
interp1<- ifelse(res1<0.10,'liaison tres faible',ifelse(res1<0.40,'liaison faible',ifelse(res1<0.60,'liaison moyenne',ifelse(res1<0.80,'liaison forte','liaison tres forte'))))
interp2<- ifelse(res3<0.05, 'liaison significative, les deux variables sont liees','liaison non significative, les deux variables ne sont pas liees')
rem<-"Si la liaison n?est pas significative, Ne pas tenir compte de son intensite"
return(list(Rapport_Correlation=res1, Resultat_Test_Anova=res2,Anova.P.value=res3,Significativite_TestAnova=interp2, Intensite_liaison=interp1, Remarque=rem))
}
#------------------------------------
# akposso.qt.tableau() # tableau statistique de variable quantitative
# akposso.qt.graph() # graphiques de variable quantitative
# akposso.qt.resume() # resume numerique de variable quantitative
# akposso.ql.tableau() # tableau statistique de variable qualitative
# akposso.ql.graph() # graphique de variable quantitative
#------------------------------------
# akposso.2qT.liaison() # liaison entre deux variables quantitatives
# akposso.2qL.tableau() # tableaux statistiques de deux variables qualitatives
# akposso.2qL.graph() # graphiques de deux variables qualitatives
# akposso.2qL.liaison() # liaison entre deux variables qualitatives
# akposso.qLqT.liaison() # liaison entre une variable quantitative et une variable qualitative
#------------------------------------
Ce mini-projet entre dans le cadre de la validation des crédits accordés à chacun des modules de notre master en Statistique, Econometrie et data Science. Il mettra en exergue une analyse descriptive de l’évolution du prix du pétrole au Nigeria de 1960 à 2019. Cette étude se veut être une contribution professionnelle par laquelle nous ne prétendons pas épuiser tous les contours pour en faire une véritable étude thématique. C’est pourquoi nos conclusions n’engagent quiconque que nous-même, c’est à dire l’auteur de ce document. Cette étude intervient au moment où le Nigeria semble se trouver à la croisée des chemins avec la loi pétrole. Le pays le plus peuplé d’Afrique dépendrait largement des revenus de l’or noir pour équilibrer son budget et oscillerait entre tantôt des baisses, tantôt des hausses de prix du pétrole.
L’exploitation des reserves barils au Nigeria a commencé à la fin des années 1950, juste avant l’indépendance. Soixante ans plus tard, quel bilan ? Cet or noir a-t-il contribué aux performances de l’économie nigériane ? Que disent les grandeurs macroeconomiques du pays ? Le géant africain vit-il toujours donc au rythme du prix du baril ?
C’est bien eu égard à tout ce qui précède et d’informations disponibles en notre possession, que ce mini-projet se propose de mener une analyse descriptive des grandeurs macroeconomiques du Nigeria et l’évolution du prix du pétrole au pays de l’or noir de 1960 à 2019. Cette étude se réalisera à partir de certaines variables telles que : le prix du baril ; la balance commerciale, le taux de chômage, le PIB par habitant, le cours du Naira, le solde budgétaire, le taux de croissance annuel, la balance des paiements.
Mais plus spécifiquement, notre étude présentera :
1- Une analyse descriptive univariée du prix du baril, du PIB par habitant, de la balance commerciale et du solde budgétaire
2- Une analyse descriptive bivariée pour décrire les dépendances et correlations entre le prix du baril et PIB par habitant, entre le prix du baril et le taux de chômage, entre le prix du baril et la balance commerciale
La présente étude est structurée en 2 grandes parties précédée d’une étape préliminaire. La première présente les données ainsi que l’approche méthodologique de l’analyse. La deuxième partie est consacrée à l’analyse univariée de toutes les variables de la base de données. La troisième partie est relative à l’analyse bi-variée entre quelques variables de notre base de données. Nous clôturons cette analyse en présentant les principales conclusions et quelques recommandations sur la base des résultats obtenus.
Cette partie présente le dictionnaire des données utilisées dans la présente analyse ainsi que les étapes de l’apurement de notre base de données. A cela, il faut ajouter que la méthodologie est basée sur une approche essentiellement descriptive en utilisant le logiciel R pour le traitement et l’analyse des données.
Le jeu de données s’appelera “Petrole”. Il comporte des variables tant quantitatives que qualitatives. Ces variables sont listées dans le tableau de dictionnaire de données ci-dessous :
my_tbl <- tibble::tribble(
~VARIABLE, ~NATURE, ~DESCRIPTION, ~MODALITES,
"PB", "Quantitative", "Prix du baril", "Numérique",
"BC", "Qualitative", "Balance commerciale", "Favorable\nDéfavorable",
"TXCH", "Quantitative", "Taux de chômage", "Numérique",
"PIBH", "Quantitative", "PIB par habitant", "Numérique",
"CN", "Quantitative", "Cours du naira", "Numérique",
"SB", "Qualitative", "Solde budgétaire", "Excédent\nDéficit",
"TXCA", "Quantitative", "Taux de croissance annuel", "Numérique",
"BP", "Qualitative", "Balance des paiements", "Equilibre\nDéséquilibre"
)
require(rhandsontable)
rhandsontable(my_tbl, rowHeaders = NULL,
digits = 3, useTypes = FALSE, search = FALSE,
width = NULL, height = NULL)
Nous avons commencé par charger le jeu de données depuis son espace de stockage sur notre ordinateur avant de le lire. Cette base de données sera appelée « Petrole ». Par la suite, nous avons choisi d’en afficher un aperçu. Ce travail préliminaire nous a permis d’identifier que l’étude se réalise sur des données des grandeurs macro-économiques observées de 1960 à 2019.Les variables de ce jeu de données sont : PB, PIB, TCA, TXCH, BC, PIBH, SB, BP, leur description est fournie dans le dictionnaire de données élaboré dans le préliminaire. Le jeu de données global contient 60 observations reparties sur 8 variables dont 3 de type qualitatives et de type 5 quantitatives.
setwd("D:/Insseds/Dataframe") #Donner le chemin d'acces au jeu de données
petrole <- read.table("petrole_na.csv",header=TRUE,sep=";",check.names=FALSE, row.names=1,stringsAsFactors = TRUE) # Lire le jeu de données
head(petrole) # Afficher les 6 premieres observations du jeu de données
## PB BC TXCH PIBH CN SB TXCA BP
## 1960 1.63 defavorable 2.43 92.96 0.714 excedent 0.720 equilibre
## 1961 1.57 defavorable 2.41 96.98 0.714 excedent 0.192 equilibre
## 1962 1.52 defavorable 2.44 104.39 0.714 excedent 4.103 equilibre
## 1963 1.50 defavorable 2.47 107.54 0.714 excedent 8.579 equilibre
## 1964 1.45 defavorable 2.50 113.17 0.714 excedent 4.950 equilibre
## 1965 1.42 defavorable 2.45 117.19 0.714 excedent 4.885 equilibre
names(petrole)# Identifier les variables en évidence dans le jeu de données
## [1] "PB" "BC" "TXCH" "PIBH" "CN" "SB" "TXCA" "BP"
str(petrole) # Donner la structure du jeu de données
## 'data.frame': 60 obs. of 8 variables:
## $ PB : num 1.63 1.57 1.52 1.5 1.45 1.42 1.36 1.33 1.32 1.27 ...
## $ BC : Factor w/ 2 levels "defavorable",..: 1 1 1 1 1 1 NA 1 1 1 ...
## $ TXCH: num 2.43 2.41 2.44 2.47 2.5 2.45 2.37 2.39 2.43 2.51 ...
## $ PIBH: num 93 97 104 108 113 ...
## $ CN : num 0.714 0.714 0.714 0.714 0.714 0.714 0.714 0.714 0.714 0.714 ...
## $ SB : Factor w/ 2 levels "deficit","excedent": 2 2 2 2 2 2 2 2 2 2 ...
## $ TXCA: num 0.72 0.192 4.103 8.579 4.95 ...
## $ BP : Factor w/ 2 levels "desequilibre",..: 2 2 2 2 2 2 2 2 2 2 ...
dim(petrole) # Donner la dimension du jeu de données
## [1] 60 8
summary(petrole)# Faire un bref résumé du jeu de données
## PB BC TXCH PIBH
## Min. : 1.21 defavorable:22 Min. : 2.360 Min. : 92.96
## 1st Qu.: 10.86 favorable :35 1st Qu.: 2.500 1st Qu.: 283.00
## Median : 18.74 NA's : 3 Median : 3.760 Median : 561.97
## Mean : 29.75 Mean : 4.095 Mean : 963.54
## 3rd Qu.: 37.23 3rd Qu.: 4.883 3rd Qu.:1797.04
## Max. :109.45 Max. :10.000 Max. :3222.69
## NA's :2
## CN SB TXCA BP
## Min. : 0.547 deficit :22 Min. :-15.7440 desequilibre:16
## 1st Qu.: 0.714 excedent:37 1st Qu.: 0.3165 equilibre :42
## Median : 7.365 NA's : 1 Median : 4.2175 NA's : 2
## Mean : 58.225 Mean : 3.7238
## 3rd Qu.:124.615 3rd Qu.: 6.6930
## Max. :306.921 Max. : 25.0070
## NA's :1
Le résumé sommaire de ce jeu de données permet de détecter qu’il existe des données manquantes matérialisées par des valeurs NAs. Ces valeurs doivent passer par une étape de traitement.
Cette section va servir à afficher les observations qui contiennent des valeurs manquantes. Il existe 9 valeurs manquantes prises individuellement sur 9 années à savoir 1966, 1975, 1978, 1984, 1990, 1994, 2010, 2016 et 2018. Et le taux de valeurs manquantes est de 15%.
petrole[!complete.cases(petrole),] # affiche les individus avec les valeurs manquantes
## PB BC TXCH PIBH CN SB TXCA BP
## 1966 1.36 <NA> 2.37 124.31 0.714 excedent -4.251 equilibre
## 1975 10.43 defavorable 2.36 NA 0.616 deficit -5.228 desequilibre
## 1978 12.79 defavorable 10.00 527.31 0.635 deficit -5.764 <NA>
## 1984 28.20 favorable 5.90 NA 0.767 excedent -1.116 equilibre
## 1990 22.26 favorable 6.01 567.23 8.038 excedent 11.777 <NA>
## 1994 15.53 <NA> 3.76 321.32 21.996 deficit -1.815 equilibre
## 2010 77.38 favorable 3.77 2292.45 150.298 <NA> 8.006 equilibre
## 2016 40.76 defavorable 7.06 2176.00 NA deficit -1.617 equilibre
## 2018 69.78 <NA> 8.24 2028.18 306.084 excedent 1.923 equilibre
nrow(petrole[!complete.cases(petrole),]) # Determiner le nombre de valeurs manquantes
## [1] 9
nrow(petrole[!complete.cases(petrole),])/nrow(petrole)# déterminerle taux de valeurs manquantes
## [1] 0.15
En visualisant le jeu de données, l’on se rend compte qu’en moyenne c’est 2% des données manquantes sur chacune des variables. la variable « BC » appelée balance commerciale contient le plus grand pourcentage de données manquantes au sein de toutes les autres variables. Néanmoins, sur chacune des années de l’étude, aucune des valeurs manquantes n’est partagée simultanément par plusieurs variables. Ce constat montre que, la perte des données sur chaque année de l’étude serait en proportion très insignifiante mais par contre reste assez significative dans l’ensemble pour ne pas nous donner le luxe de les supprimer. De plus, le taux de données manquantes étant supérieur à 5%, il convient donc de procéder au traitement de ces valeurs manquantes pour leur imputation, plutôt que de les supprimer de notre base de données.
library(visdat)
vis_miss(petrole)# Visulaiser le jeu de données entier avec les valeurs manquantes en pourcentage de NA pour chaque variable et global
vis_dat(petrole)# Visualiser la position des données manquantes
library(naniar)
naniar::gg_miss_upset(petrole)# savoir si les valeurs ne sont pas correllées
Nous avons d’abord dupliqué le jeu de données en le renommant “petrole1 et petrole2” puis avons procédé à l’annulation des variables qualitatives sur petrole1 et annulation des variables quantitatives sur petrole2.
Pour l’imputation des valeurs manquantes parmi les variables quantitatives, nous avons avons utilisé la technique des K plus proches voisins consistant à remplir les valeurs manquantes en explorant les similitudes entre les cas. Ceci du fait que nous essayons de trouver les valeurs les plus probables pour chacune de ces inconnues. Pour mesurer donc cette proximité entre les observations, nous avons opté pour l’application d’une fonction de similarité reposant sur un calcul de distance. Cette fonction qui calcule la distance entre deux observations estime l’affinité entre les observations comme ceci : « Plus deux points sont proches l’un de l’autre, plus ils sont similaires. » Nous avons donc conservé les 10 observations du jeu de données qui sont les plus « proches » des observations à prédire. Par la suite nous nous sommes évertué à retrouver à quelle famille appartient les nouvelles données, en cherchant la famille sinon la classe majoritaire parmi les k données. Et nous avons retourné la valeur calculée comme étant la valeur qui a été prédite pour l’observation en entrée qui était inconnue.
Ci-dessous un bref aperçu des nouvelles données quantitatives après imputation des valeurs manquantes.
setwd("D:/Insseds/Dataframe") # pour charger le chemin du jeu de données
petrole1 <- read.table("petrole_qt.csv",header=TRUE,sep=";",check.names=FALSE, row.names=1, stringsAsFactors = TRUE)
summary(petrole1)
## PB BC TXCH PIBH
## Min. : 1.21 defavorable:22 Min. : 2.360 Min. : 92.96
## 1st Qu.: 10.86 favorable :35 1st Qu.: 2.500 1st Qu.: 283.00
## Median : 18.74 NA's : 3 Median : 3.760 Median : 561.97
## Mean : 29.75 Mean : 4.095 Mean : 963.54
## 3rd Qu.: 37.23 3rd Qu.: 4.883 3rd Qu.:1797.04
## Max. :109.45 Max. :10.000 Max. :3222.69
## NA's :2
## CN SB TXCA BP
## Min. : 0.547 deficit :22 Min. :-15.7440 desequilibre:16
## 1st Qu.: 0.714 excedent:37 1st Qu.: 0.3165 equilibre :42
## Median : 7.365 NA's : 1 Median : 4.2175 NA's : 2
## Mean : 58.225 Mean : 3.7238
## 3rd Qu.:124.615 3rd Qu.: 6.6930
## Max. :306.921 Max. : 25.0070
## NA's :1
library(DMwR2)
petrole1$BC = NULL
petrole1$SB = NULL
petrole1$BP = NULL
head(petrole1)
## PB TXCH PIBH CN TXCA
## 1960 1.63 2.43 92.96 0.714 0.720
## 1961 1.57 2.41 96.98 0.714 0.192
## 1962 1.52 2.44 104.39 0.714 4.103
## 1963 1.50 2.47 107.54 0.714 8.579
## 1964 1.45 2.50 113.17 0.714 4.950
## 1965 1.42 2.45 117.19 0.714 4.885
petrole1 <- knnImputation(petrole1, k = 25, scale = TRUE, meth = "weighAvg")
summary(petrole1)
## PB TXCH PIBH CN
## Min. : 1.21 Min. : 2.360 Min. : 92.96 Min. : 0.547
## 1st Qu.: 10.86 1st Qu.: 2.500 1st Qu.: 308.55 1st Qu.: 0.714
## Median : 18.74 Median : 3.760 Median : 561.97 Median : 7.702
## Mean : 29.75 Mean : 4.095 Mean : 948.80 Mean : 59.477
## 3rd Qu.: 37.23 3rd Qu.: 4.883 3rd Qu.:1703.29 3rd Qu.:128.691
## Max. :109.45 Max. :10.000 Max. :3222.69 Max. :306.921
## TXCA
## Min. :-15.7440
## 1st Qu.: 0.3165
## Median : 4.2175
## Mean : 3.7238
## 3rd Qu.: 6.6930
## Max. : 25.0070
head(petrole1)
## PB TXCH PIBH CN TXCA
## 1960 1.63 2.43 92.96 0.714 0.720
## 1961 1.57 2.41 96.98 0.714 0.192
## 1962 1.52 2.44 104.39 0.714 4.103
## 1963 1.50 2.47 107.54 0.714 8.579
## 1964 1.45 2.50 113.17 0.714 4.950
## 1965 1.42 2.45 117.19 0.714 4.885
Pour les données qualitatives, nous avons d’abord procédé à l’annulation des variables quantitatives puis déployé cette même technique d’imputation de données par l’approche des K plus proches voisins.
setwd("D:/Insseds/Dataframe") # pour charger le chemin du jeu de données
petrole2 <- read.table("petrole_ql.csv",header=TRUE,sep=";",check.names=FALSE, row.names=1,stringsAsFactors = TRUE)
summary(petrole2)
## PB BC TXCH PIBH
## Min. : 1.21 defavorable:22 Min. : 2.360 Min. : 92.96
## 1st Qu.: 10.86 favorable :35 1st Qu.: 2.500 1st Qu.: 283.00
## Median : 18.74 NA's : 3 Median : 3.760 Median : 561.97
## Mean : 29.75 Mean : 4.095 Mean : 963.54
## 3rd Qu.: 37.23 3rd Qu.: 4.883 3rd Qu.:1797.04
## Max. :109.45 Max. :10.000 Max. :3222.69
## NA's :2
## CN SB TXCA BP
## Min. : 0.547 deficit :22 Min. :-15.7440 desequilibre:16
## 1st Qu.: 0.714 excedent:37 1st Qu.: 0.3165 equilibre :42
## Median : 7.365 NA's : 1 Median : 4.2175 NA's : 2
## Mean : 58.225 Mean : 3.7238
## 3rd Qu.:124.615 3rd Qu.: 6.6930
## Max. :306.921 Max. : 25.0070
## NA's :1
library(DMwR2)
petrole2$TXCA = NULL
petrole2$TXCH = NULL
petrole2$CN = NULL
petrole2$PIBH = NULL
petrole2$PB = NULL
head(petrole2)
## BC SB BP
## 1960 defavorable excedent equilibre
## 1961 defavorable excedent equilibre
## 1962 defavorable excedent equilibre
## 1963 defavorable excedent equilibre
## 1964 defavorable excedent equilibre
## 1965 defavorable excedent equilibre
library(VIM)
petrole2<- kNN(petrole2)
head(petrole2)
## BC SB BP BC_imp SB_imp BP_imp
## 1 defavorable excedent equilibre FALSE FALSE FALSE
## 2 defavorable excedent equilibre FALSE FALSE FALSE
## 3 defavorable excedent equilibre FALSE FALSE FALSE
## 4 defavorable excedent equilibre FALSE FALSE FALSE
## 5 defavorable excedent equilibre FALSE FALSE FALSE
## 6 defavorable excedent equilibre FALSE FALSE FALSE
Après le traitement des valeurs manquantes, nous avons reconstitué le jeu de données en un nouveau qui contient les valeurs générées au titre des valeurs manqauntes qualitatives comme quantitatives. Nous l’appelerons “rescol”. C’est ce nouveau jeu de données que nous allons utilsé pour la suite du traitement des données en poursuivant cette fois avec le traitement des valeurs abérrantes et des valeurs extrêmes s’il en existait dans le jeu de données.
petrole2<- subset(petrole2, select = BC : BP)
head(petrole2)
## BC SB BP
## 1 defavorable excedent equilibre
## 2 defavorable excedent equilibre
## 3 defavorable excedent equilibre
## 4 defavorable excedent equilibre
## 5 defavorable excedent equilibre
## 6 defavorable excedent equilibre
rescol<-cbind(petrole1,petrole2)
head(rescol)
## PB TXCH PIBH CN TXCA BC SB BP
## 1960 1.63 2.43 92.96 0.714 0.720 defavorable excedent equilibre
## 1961 1.57 2.41 96.98 0.714 0.192 defavorable excedent equilibre
## 1962 1.52 2.44 104.39 0.714 4.103 defavorable excedent equilibre
## 1963 1.50 2.47 107.54 0.714 8.579 defavorable excedent equilibre
## 1964 1.45 2.50 113.17 0.714 4.950 defavorable excedent equilibre
## 1965 1.42 2.45 117.19 0.714 4.885 defavorable excedent equilibre
summary(rescol)
## PB TXCH PIBH CN
## Min. : 1.21 Min. : 2.360 Min. : 92.96 Min. : 0.547
## 1st Qu.: 10.86 1st Qu.: 2.500 1st Qu.: 308.55 1st Qu.: 0.714
## Median : 18.74 Median : 3.760 Median : 561.97 Median : 7.702
## Mean : 29.75 Mean : 4.095 Mean : 948.80 Mean : 59.477
## 3rd Qu.: 37.23 3rd Qu.: 4.883 3rd Qu.:1703.29 3rd Qu.:128.691
## Max. :109.45 Max. :10.000 Max. :3222.69 Max. :306.921
## TXCA BC SB BP
## Min. :-15.7440 defavorable:24 deficit :22 desequilibre:17
## 1st Qu.: 0.3165 favorable :36 excedent:38 equilibre :43
## Median : 4.2175
## Mean : 3.7238
## 3rd Qu.: 6.6930
## Max. : 25.0070
Une seconde étape de l’exploration des données disponibles nous a conduit à traiter les valeurs aberrantes et extrêmes sur les variables quantitatives à savoir PB, PIBH, TXCH, TXCA et CN. Nous appelons valeur aberrante une valeur ou une observation qui est « distante » des autres observations effectuées sur le même phénomène, c’est-à-dire qu’elle contraste grandement avec les valeurs « normalement » mesurées. Leur présence dans les données peut conduire à des estimateurs de paramètres biaisés et, suite à la réalisation de tests statistiques, à une interprétation des résultats erronée. Pouvant être dû à plusieurs facteurs, nous avons pensé utile dans un premier temps de les detecter, puis de les imputer si elles existaient dans notre base de données. La détection desdites données est perceptible comme l’on peut le voir sur notre graphe. Nous avons utilisé les boite à moustache afin de visualiser les débordements observés.
Tous les graphiques présentant des points au-dessus ou en dessous de la boite sont des valeurs aberrantes. Les variables PIBH et CN ne présentent pas de valeurs aberrantes. La variable TXCH présente 01 valeur abérrante 10 sur l’année 1978. La variable PB présente 5 valeurs abberantes 94.10 107.46 109.45 107.85 96.29 sur les observations 49 52 53 54 55. La variable TCA contient également 5 valeurs aberantes -15.744 24.197 25.007 -13.128 -10.924 sur les observations 8 10 11 22 24.Que faire de ces données ? Nous décidons de ne pas supprimer ces valeurs, mais plutôt de les traiter.
library(rpart)
par(mfrow=c(2,3), mar=c(3,3,3,3))
boxplot(rescol$PB)# graph
boxplot(rescol$TXCH)
boxplot(rescol$PIBH)
boxplot(rescol$CN)
boxplot(rescol$TXCA)
par(mfrow=c(1,1), mar=c(0,0,0,0))
Pour le traitement des données extrêmes de la variable PB et TXCH nous avons choisi de les neutraliser en les ramenant aux bornes supérieures et inférieures de la moustache. Tandis que pour la variable TXCA nous avons utilisé la technique de Winzorisation en les ramenant dans les limites des bornes (inférieure et supérieure) des moutaches.
head(rescol)
## PB TXCH PIBH CN TXCA BC SB BP
## 1960 1.63 2.43 92.96 0.714 0.720 defavorable excedent equilibre
## 1961 1.57 2.41 96.98 0.714 0.192 defavorable excedent equilibre
## 1962 1.52 2.44 104.39 0.714 4.103 defavorable excedent equilibre
## 1963 1.50 2.47 107.54 0.714 8.579 defavorable excedent equilibre
## 1964 1.45 2.50 113.17 0.714 4.950 defavorable excedent equilibre
## 1965 1.42 2.45 117.19 0.714 4.885 defavorable excedent equilibre
summary(rescol)
## PB TXCH PIBH CN
## Min. : 1.21 Min. : 2.360 Min. : 92.96 Min. : 0.547
## 1st Qu.: 10.86 1st Qu.: 2.500 1st Qu.: 308.55 1st Qu.: 0.714
## Median : 18.74 Median : 3.760 Median : 561.97 Median : 7.702
## Mean : 29.75 Mean : 4.095 Mean : 948.80 Mean : 59.477
## 3rd Qu.: 37.23 3rd Qu.: 4.883 3rd Qu.:1703.29 3rd Qu.:128.691
## Max. :109.45 Max. :10.000 Max. :3222.69 Max. :306.921
## TXCA BC SB BP
## Min. :-15.7440 defavorable:24 deficit :22 desequilibre:17
## 1st Qu.: 0.3165 favorable :36 excedent:38 equilibre :43
## Median : 4.2175
## Mean : 3.7238
## 3rd Qu.: 6.6930
## Max. : 25.0070
head(rescol)
## PB TXCH PIBH CN TXCA BC SB BP
## 1960 1.63 2.43 92.96 0.714 0.720 defavorable excedent equilibre
## 1961 1.57 2.41 96.98 0.714 0.192 defavorable excedent equilibre
## 1962 1.52 2.44 104.39 0.714 4.103 defavorable excedent equilibre
## 1963 1.50 2.47 107.54 0.714 8.579 defavorable excedent equilibre
## 1964 1.45 2.50 113.17 0.714 4.950 defavorable excedent equilibre
## 1965 1.42 2.45 117.19 0.714 4.885 defavorable excedent equilibre
summary(rescol)
## PB TXCH PIBH CN
## Min. : 1.21 Min. : 2.360 Min. : 92.96 Min. : 0.547
## 1st Qu.: 10.86 1st Qu.: 2.500 1st Qu.: 308.55 1st Qu.: 0.714
## Median : 18.74 Median : 3.760 Median : 561.97 Median : 7.702
## Mean : 29.75 Mean : 4.095 Mean : 948.80 Mean : 59.477
## 3rd Qu.: 37.23 3rd Qu.: 4.883 3rd Qu.:1703.29 3rd Qu.:128.691
## Max. :109.45 Max. :10.000 Max. :3222.69 Max. :306.921
## TXCA BC SB BP
## Min. :-15.7440 defavorable:24 deficit :22 desequilibre:17
## 1st Qu.: 0.3165 favorable :36 excedent:38 equilibre :43
## Median : 4.2175
## Mean : 3.7238
## 3rd Qu.: 6.6930
## Max. : 25.0070
library(DescTools)
quantile(rescol$PB)
## 0% 25% 50% 75% 100%
## 1.2100 10.8575 18.7400 37.2275 109.4500
val_max <- (37.2275 )+(1.5*(37.2275 -10.8575))
val_max
## [1] 76.7825
rescol$PB[rescol$PB > 76.7825] <- 76.7825
quantile(rescol$TXCH)
## 0% 25% 50% 75% 100%
## 2.3600 2.5000 3.7600 4.8825 10.0000
val_max <- (4.8825 )+(1.5*(4.8825 -2.5000 ))
val_max
## [1] 8.45625
rescol$TXCH[rescol$TXCH > 8.45625] <- 8.45625
library(DescTools)
rescol$TXCA <- Winsorize(rescol$TXCA)
par(mfrow=c(2,3), mar=c(3,3,3,3))
boxplot(rescol$PB)
boxplot(rescol$TXCH)
boxplot(rescol$TXCA)
par(mfrow=c(1,1), mar=c(0,0,0,0))
Toutes les valeurs abéreantes et extremes ont été traité comme le montre les graphiques ci-dessus. Nous pouvons à présent réaliser les analyses statistiques descriptives univariées et bivariées de nos données traitées.
head(rescol)
## PB TXCH PIBH CN TXCA BC SB BP
## 1960 1.63 2.43 92.96 0.714 0.720 defavorable excedent equilibre
## 1961 1.57 2.41 96.98 0.714 0.192 defavorable excedent equilibre
## 1962 1.52 2.44 104.39 0.714 4.103 defavorable excedent equilibre
## 1963 1.50 2.47 107.54 0.714 8.579 defavorable excedent equilibre
## 1964 1.45 2.50 113.17 0.714 4.950 defavorable excedent equilibre
## 1965 1.42 2.45 117.19 0.714 4.885 defavorable excedent equilibre
# exporter le tableau statistique PB dans Excel
write.csv(rescol,"D:/Insseds/Export Rxls/rescol_final.csv", row.names=TRUE, sep=";" ,dec=",")
Cette partie se consacre à analyser les variables prises individuellement et ce, à partir des tableaux de fréquences, des représentations graphiques, ainsi que des différentes caractéristiques de chacune de ces variables. A cet effet, elle se subdivise en deux parties : une première s’intéressant à l’analyse des variables qualitatives et une seconde s’intéressant à l’analyse des variables quantitatives.
Ces variables seront représentées sous 2 aspects : sous forme de tableaux et sous forme graphique
La balance commerciale est repartie en 2 modalités “favorable et défavorable”. Dans l’ensemble près de 60% des années observées ont présenté une balance commerciale favorable. La balance commerciale a été favorable pendant 36 années en 60 ans. On peut dire que le Nigeria a su vendre plus de baril de petrole et a reçu plus de capitaux. Néanmoins, cette situation laisse entrevoir à l’inverse, que sur 24 années il y a eu diminution de la stabilité financière du pays en raison d’une détérioration des prix du brail de petrole. Cette observation represente 40% des années de l’étude. Alors nous pouvons dire que le pays n’a pas profité plus longtemps d’un niveau stable.
table(rescol$BC) #Tableau des effectifs
##
## defavorable favorable
## 24 36
tab1<-table(rescol$BC)#Tableau des fréquences
prop.table(tab1)
##
## defavorable favorable
## 0.4 0.6
akposso.ql.tableau(rescol$BC) #tableau des effectifs et frequences
## Effectif Frequence
## defavorable 24 0.4
## favorable 36 0.6
par(mfrow=c(1,2), mar=c(3,3,3,3))
barplot(table(rescol$BC),col="blue",main="Diagramme en barre",xlab="Statut",ylab="FREQUENCE")
pie(table(rescol$BC),main="Diagramme en secteur")
par(mfrow=c(1,1), mar=c(0,0,0,0))
La repartion du solde budgetaire s’est faite entre “déficit et excédent”. Pendant 38 années, donc 63% des observations, le niveau des recettes au Nigéria a été supérieur au niveau des dépenses constatées dans le budget. C’est une performance remarquable qui aurait pu être améliorée avec des pratiques de bonnes gouvernance. Néanmmoins, durant 22 années, les finances publiques n’ont pas suffi pour le paiement des dettes. Il est évident que ce déficit ait pu engendrer une dette considérable par l’accumulation de déficits sur plusieurs années.
table(rescol$SB) #Tableau des effectifs
##
## deficit excedent
## 22 38
tab1<-table(rescol$SB)#Tableau des fréquences
prop.table(tab1)
##
## deficit excedent
## 0.3666667 0.6333333
akposso.ql.tableau(rescol$SB) #tableau des effectifs et frequences
## Effectif Frequence
## deficit 22 0.3666667
## excedent 38 0.6333333
par(mfrow=c(1,2), mar=c(3,3,3,3))
barplot(table(rescol$SB),col="blue",main="Diagramme en barre",xlab="Statut",ylab="FREQUENCE")
pie(table(rescol$SB),main="Diagramme en secteur")
par(mfrow=c(1,1), mar=c(0,0,0,0))
Cette partie de l’analyse descriptive réservée aux variables quantitatives s’intéressera aux variables PB, PIBH, TXCH, TXCA et CN. Nous avons d’abord pour chacune des variables, fais une representation des données sous forme de tableau statistique afin de ressortir les fréquences et effectifs tant bien cumulés que croissants et décroisssants. Par la suite nous avons representé les données des variables sous forme de graphique pour leur visualisation et enfin sous forme de resumé numerique en mettant en exergue les indicateurs de tendance centrale, les indicateurs de dispersions et les indicateurs de forme.
Cette partie présente les effectifs et fréquences du prix du baril en 60 années. Il est mis ici en évidence la distribution observée des modalités.
L’observation nous montre que pendant 17 années, le prix de baril est resté entre 10 et 20 nairas. Et cela represente les prix de baril les plus pratiqués de la serie de données soit 28% des années. Les prix de baril les plus élévés sont entre 70 et 80 nairas et ont été constaté seulement que sur 6 années soit 10% de notre observation. Tandis que les prix les plus faibles sont ceux compris entre 1 et 10 nairas observés sur près de 15 années. Il ressort que sur 75% soit le trois tiers des années observées, les prix du baril ont atteint au plus 40 nairas. Cette dernière observation mise en comparaison avec la classe de prix de les plus élevés, nous pouvons conclure à de faibles prix de baril sur l’ensemble des années.
## Recodage de rescol$PB en rescol$PB_rec5 pour creer un regoupage en classes
rescol$PB_rec5 <- cut(rescol$PB,
include.lowest = TRUE,
right = TRUE,
dig.lab = 4,
breaks = c(0, 10, 20, 30, 40, 50, 60, 70, 80)
)
akposso.qt.tableau(rescol$PB_rec5)
## Effectifs Eff_Cum_crois Eff_Cum_decrois Frequence Freq_Cum_crois
## [0,10] 14 14 60 0.23333333 0.2333333
## (10,20] 17 31 54 0.28333333 0.5166667
## (20,30] 10 41 49 0.16666667 0.6833333
## (30,40] 4 45 47 0.06666667 0.7500000
## (40,50] 2 47 45 0.03333333 0.7833333
## (50,60] 2 49 41 0.03333333 0.8166667
## (60,70] 5 54 31 0.08333333 0.9000000
## (70,80] 6 60 14 0.10000000 1.0000000
## Freq_Cum_decrois
## [0,10] 1.0000000
## (10,20] 0.9000000
## (20,30] 0.8166667
## (30,40] 0.7833333
## (40,50] 0.7500000
## (50,60] 0.6833333
## (60,70] 0.5166667
## (70,80] 0.2333333
# exporter le tableau statistique PB dans Excel
rescol_PB = round(akposso.qt.tableau(rescol$PB_rec5),2)
write.table(rescol_PB,"D:/Insseds/Export Rxls/Tb_rescol_PB.csv", row.names=TRUE, sep=";" ,dec=",")
L’analyse graphique du prix du baril s’est faite par classe avec un histogramme relevant les effectifs pour chacune des proportions de prix. On observe une dispersion des prix du baril qui s’étend de 1 à 80 nairas. Cette représentation laisse percevoir que pendant relativement une quinzaine d’année le prix du baril est resté longtemps et fortement concentré entre 10 et 20 nairas. Tandis que le nombre d’années pendant lesquelles le pays a pratiqué les meilleurs prix du baril entre 60 et 80 nairas s’élève à 11 et représente environ 20% sur l’ensemble. Nous relevons également une stagnation des prix du baril sur une période relativement courte mais avec un prix de baril au dessus de 40 nairas atteingant même les 60 nairas. Pendant de nombreuses années le pays a relativement connu un faible prix de baril. Nous dirons que le nombre d’années avec des prix de baril faibles restent plus élevés que le nombre des années avec des prix de baril en croissance.
akposso.qt.graph(rescol$PB)
Cette section présente les indicateurs de tendance centrale (on décrira des mesures statistiques autour desquelles se concentrent les prix du baril), les indicateurs de dispersion (On appellera dispersion statistique, la tendance qu’ont les prix du baril à s’étaler, à se disperser, de part et d’autre d’une valeur centrale comme la moyenne, la mediane) et les indicateurs de forme ( ce sont des tests de normalité pour vérifier l’irrégularité et l’asymétrie de la distribution) relatives à la variable PB.
akposso.qt.resume(rescol$PB)
## $minimum
## [1] 1.21
##
## $maximum
## [1] 76.7825
##
## $mode
## [1] 14.91777
##
## $mediane
## [1] 18.74
##
## $moyenne
## [1] 27.55292
##
## $quantile
## 0% 25% 50% 75% 100%
## 1.2100 10.8575 18.7400 37.2275 76.7825
##
## $coefficient_variation
## [1] 89.64439
##
## $variance
## [1] 610.0725
##
## $ecart_type
## [1] 24.69965
##
## $coefficient_assymetrie
## [1] 0.842137
##
## $interpretation_skewness
## [1] "distribution etalee a droite"
##
## $coefficent_applatissement
## [1] 2.479247
##
## $interpretation_kurtosis
## [1] "distribution platikurtique"
| INDICATEURS | VALEURS | INTERPRETATIONS |
|---|---|---|
| Minimum | 1,21 | Le plus bas prix de baril est de 1,21 |
| Maximum | 76,7825 | Le prix du baril le plus élevé est de 76,7825 |
| Mode | 14,91777 | Le prix de baril le plus pratiqué est de 14,91777 |
| 1er Quartile Q1 | 10,8575 | Sur les 25% des 60 années de l’étude, soit le ¼ de l’effectif total, les prix du baril ont atteint un maximum de 10,8575 |
| Médiane (2ème Quartile Q2) | 18,74 | Sur les 60 années, 50% des prix du baril sont restés inférieurs ou égaux à 18,74 et 50% ont dépassé le prix de 18,74 |
| 3ème Quartile Q3 | 37,2275 | Sur les 75% des 60 années de l’étude, soit le ¾ de l’effectif total, les prix du baril ont atteint un maximum de 37,2275 |
| Moyenne | 27,55292 | Le prix moyen du baril en 60 années s’éleve à 27,55292 |
| INDICATEURS | VALEURS | INTERPRETATIONS |
|---|---|---|
| Etendue | 75,5725 | L’écart entre la valeur maximale et la valeur minimale du prix du baril étant très grand, nous en déduisons que les prix du baril sont très dispersés et non-homogènes. |
| Variance | 610,0725 | La dispersion des prix du baril est très importante sur les années observées |
| Ecart type | 24,69965 | Le prix moyen du baril étant de 27,55292, l’écart-type de 24,69965 indique que les prix du brail sont très dispersés autour de la moyenne. Ils varient dans un intervalle fermé entre [27,55292– 24,69965; 27,55292+24,69965] Soit entre [2,85327 ; 52,25257]. Cette dispersion se confirmera effectivement avec le coefficient de variation qui sera certainement élevé |
| Coefficiant de variation | 89,64439 | Le coefficient de variation est de 89,64439%, ce qui indique la distribution est très hétérogène (les prix du baril sont très disparates) |
| Intervalle interquartile | 26,37 | Sur la moitié des 60 années le prix de baril est compris entre 10,8575 et 37,2275 avec un écart de 26,37 |
| INDICATEURS | VALEURS | INTERPRETATIONS |
|---|---|---|
| Coefficient d’asymetrie | 0,842137 | Le coefficient d’asymétrie est positif. Ce qui veut dire que notre distribution est étalée à droite et donc la majorité des effectifs sont concentrées à droite de la moyenne. Ce qui confirme que plus de 80% des prix du baril pratiqués sont restés largement supérieurs à la moyenne. |
| Coefficient d’applatissement | 2,479247 | distribution platikurtique . Nous avons donc une forte variation voire une distribution relativement hétérogène des prix du baril qui s’éloignent de la moyenne. |
Le PIBH est resté largement concentré entre 0 et 500 pendant 25 années soit un peu plus de 40% de l’observation globale. Cela représente 40% environ de l’ensemble des années de l’observation. Cette valeur du PIBH est largement faible au regard du pic du PIBH compris entre 3000 et 3500. Seulement le constat est que les meilleures performances du PIBH ne durent qu’autour de 5 ans. C’est le cas par exemple si nous observons les données du PIBH avec une valeur à partir de 2000.
## Recodage de rescol$PIBH en rescol$PIBH_rec pour creer un regoupage en classes
rescol$PIBH_rec <- cut(rescol$PIBH,
include.lowest = TRUE,
right = TRUE,
dig.lab = 4,
breaks = c(0, 500, 1000, 1500, 2000, 2500, 3000, 3500)
)
akposso.qt.tableau(rescol$PIBH_rec)
## Effectifs Eff_Cum_crois Eff_Cum_decrois Frequence Freq_Cum_crois
## [0,500] 25 25 60 0.41666667 0.4166667
## (500,1000] 16 41 59 0.26666667 0.6833333
## (1000,1500] 3 44 55 0.05000000 0.7333333
## (1500,2000] 5 49 49 0.08333333 0.8166667
## (2000,2500] 6 55 44 0.10000000 0.9166667
## (2500,3000] 4 59 41 0.06666667 0.9833333
## (3000,3500] 1 60 25 0.01666667 1.0000000
## Freq_Cum_decrois
## [0,500] 1.0000000
## (500,1000] 0.9833333
## (1000,1500] 0.9166667
## (1500,2000] 0.8166667
## (2000,2500] 0.7333333
## (2500,3000] 0.6833333
## (3000,3500] 0.4166667
# exporter le tableau statistique PB dans Excel
rescol_PIBH = round(akposso.qt.tableau(rescol$PIBH_rec),2)
write.table(rescol_PIBH,"D:/Insseds/Export Rxls/Tb_rescol_PIBH.csv", row.names=TRUE, sep=";" ,dec=",")
L’analyse nous fait observer une plus forte concentration des années avec un PIBH dont le maximum est de 500. Cela est suivie d’une forte concentration des années où le PIBH est entre 500 et 1000. Le PIBH est resté supérieur à 1500 pendant plus d’une quinzaine d’années. Seulement le constat frappant est que le Nigéria n’est pas parvenu à maintenir plus longtemps et en évolution les périodes où le PIBH a augmenté au dessus de 2000. Cette étude nous fait constater un faible PIBH dans l’ensemble. Nous pouvons affirmer les périodes de performance du PIBH sont restées de très courtes durées.
akposso.qt.graph(rescol$PIBH)
Cette section présente les indicateurs de tendance centrale (on décrira des mesures statistiques autour desquelles se concentrent les produit interieur brut par habitant), les indicateurs de dispersion (On appellera dispersion statistique, la tendance qu’ont les prix du baril à s’étaler, à se disperser, de part et d’autre d’une valeur centrale comme la moyenne, la mediane) et les indicateurs de forme ( ce sont des tests de normalité pour vérifier l’irrégularité et l’asymétrie de la distribution) relatives à la variable PIBH.
akposso.qt.resume(rescol$PIBH)
## $minimum
## [1] 92.96
##
## $maximum
## [1] 3222.69
##
## $mode
## [1] 424.2753
##
## $mediane
## [1] 561.965
##
## $moyenne
## [1] 948.7965
##
## $quantile
## 0% 25% 50% 75% 100%
## 92.960 308.545 561.965 1703.293 3222.690
##
## $coefficient_variation
## [1] 93.01643
##
## $variance
## [1] 778871
##
## $ecart_type
## [1] 882.5367
##
## $coefficient_assymetrie
## [1] 1.026814
##
## $interpretation_skewness
## [1] "distribution etalee a droite"
##
## $coefficent_applatissement
## [1] 2.745926
##
## $interpretation_kurtosis
## [1] "distribution platikurtique"
| INDICATEURS | VALEURS | INTERPRETATIONS |
|---|---|---|
| Minimum | 92,96 | Le PIBH le plus bas en 60 ans est de 92,96 |
| Maximum | 3222,69 | Le PIBH le plus élevé en 60 ans est de 3222,69 |
| Mode | 424,2753 | Le PIBH le plus pratiqué est de 424,2753 |
| 1er Quartile Q1 | 308,545 | Sur les 25% des 60 années de l’étude, soit le ¼ de l’effectif total, le PIBH a atteint un maximum de 308,545 |
| Médiane (2ème Quartile Q2) | 561,965 | Sur les 60 années, 50% du PIBH sont restés inférieurs ou égaux à 561,965 et 50% ont dépassé le prix de 561,965 |
| 3ème Quartile Q3 | 1703,293 | Sur les 75% des 60 années de l’étude, soit le ¾ de l’effectif total, le PIBH a atteint un maximum de 1703,293 |
| Moyenne | 948,7965 | Le PIBH moyen en 60 années s’éleve à 948,7965 |
| INDICATEURS | VALEURS | INTERPRETATIONS |
|---|---|---|
| Etendue | 3129,73 | L’écart entre la valeur maximale et la valeur minimale du PIBH étant très grand, nous en déduisons que le PIBH est très dispersés et non-homogène. |
| Variance | 778871 | La dispersion du PIBH est très importante sur les années observées |
| Ecart type | 882,5367 | Le PIBH moyen étant de 948,7965, l’écart-type de 882,5367 indique que les valeurs du PIBH sont très dispersés autour de la moyenne. Ils varient dans un intervalle fermé entre [948,7965– 882,5367; 948,7965+882,5367] Soit entre [66,2598; 1831,3332] Cette dispersion se confirmera effectivement avec le coefficient de variation qui sera certainement élevé |
| Coefficiant de variation | 93,01643 | Le coefficient de variation est de 93,01643%, ce qui indique la distribution est très hétérogène (les valeurs du PIBH sont très disparates disparates) |
| Intervalle interquartile | 1394,747 | Sur la moitié des 60 années le prix de baril est compris entre 308,545 et 1703,293 avec un écart de 1394,747 |
| INDICATEURS | VALEURS | INTERPRETATIONS |
|---|---|---|
| Coefficient d’asymetrie | 1,026814 | Le coefficient d’asymétrie est positif. Ce qui veut dire que notre distribution est étalée à droite et donc la majorité des effectifs sont concentrées à droite de la moyenne |
| Coefficient d’applatissement | 2,745926 | distribution platikurtique |
Faire une analyse bivariée revient à étudier la relation entre deux variables : sont-elles liées ? Les valeurs de l’une influencent-elles les valeurs de l’autre ? ou sont-elles au contraire indépendantes ? Cette partie se consacre à analyser la variable d’intérêt PB avec les autres variables. Il s’agit de s’intéresser au lien qui peut exister entres cette variable et d’autres.
Nous réaliserons nos analyses des variables concernées sous forme de tableaux et sous forme graphique.
Nous nous sommes posé ici la question de savoir si l’évolution du Prix du baril (PB) est liée au Produit interieur brut par habitant (PIBH). Nous avons représenté la distribution des prix du baril selon le produit intérieur brut par habitant.
Un nuage de points ou diagramme de dispersion est une représentation graphique dans un repère du plan d’une série statistique à deux variables X et Y. Chaque individu i est représenté par un point dont les coordonnées sont les valeurs respectives des variables X et Y prises par l’individu i. En observant, l’allure du nuage de points révèle s’il existe une liaison ou non entre les deux variables quantitatives.
A la lecture du Graphique, nous remarquons que les points sont disposés positivement. Ici on peut dire que lorsque le PB augmente, alors le PIBH augmente également. Nous avons donc une corrélation positive.
PB_PIBH<-data.frame(rescol$PB, rescol$PIBH)
PB_PIBH #Tableau statistique
## rescol.PB rescol.PIBH
## 1 1.6300 92.9600
## 2 1.5700 96.9800
## 3 1.5200 104.3900
## 4 1.5000 107.5400
## 5 1.4500 113.1700
## 6 1.4200 117.1900
## 7 1.3600 124.3100
## 8 1.3300 99.4100
## 9 1.3200 97.2000
## 10 1.2700 121.2500
## 11 1.2100 224.1000
## 12 1.7000 160.2500
## 13 1.8200 209.2300
## 14 2.7000 252.2300
## 15 11.0000 402.8500
## 16 10.4300 364.7894
## 17 11.6000 556.7000
## 18 12.5000 536.2200
## 19 12.7900 527.3100
## 20 29.1900 662.2600
## 21 35.5200 874.4000
## 22 34.0000 2180.2000
## 23 32.3800 1843.9100
## 24 29.0400 1222.6300
## 25 28.2000 677.8232
## 26 27.0100 882.5200
## 27 13.5300 639.0100
## 28 17.7300 598.2600
## 29 14.2400 549.2400
## 30 17.3100 474.2300
## 31 22.2600 567.2300
## 32 18.6200 502.9100
## 33 18.4400 477.1800
## 34 16.3300 270.2200
## 35 15.5300 321.3200
## 36 16.8600 408.1800
## 37 20.2900 461.5200
## 38 18.8600 479.9800
## 39 12.2800 469.4300
## 40 17.4400 497.8400
## 41 27.6000 567.9300
## 42 23.1200 590.3800
## 43 24.3600 741.7500
## 44 28.1000 795.3900
## 45 36.0500 1007.8700
## 46 50.5900 1268.3800
## 47 61.0000 1656.4200
## 48 69.0400 1883.4600
## 49 76.7825 2242.8700
## 50 60.8600 1891.3400
## 51 76.7825 2292.4500
## 52 76.7825 2520.4000
## 53 76.7825 2746.9900
## 54 76.7825 2998.0700
## 55 76.7825 3222.6900
## 56 49.4900 2730.4300
## 57 40.7600 2176.0000
## 58 52.5100 1968.5600
## 59 69.7800 2028.1800
## 60 64.0400 2229.8590
plot(PB~PIBH,data=rescol)
library(ggplot2)
# Nuage de points simples
ggplot(rescol, aes(x=PIBH,y=PB))+
geom_point(col="blue")+
scale_x_log10()
#Visualiser les corrélations deux a deux
cor <- data.frame(rescol$PB, rescol$PIBH)
library(GGally)
library(ggplot2)
ggpairs(cor)
On voit que les deux variables suivent une loi de distribution normale.
Nous allons donc au-delà de cette analyse graphique, procéder à une
analyse numérique pour mesurer la liaison à travers le calcul de la
correlation par le coefficiant de Pearson.
Cette étape présentera les indicateurs de liaison à savoir la covariance, le coefficiant de correlation linéaire et le coefficiant de détermination.
Cov(rescol$PB, rescol$PIBH)
## [1] 20320.78
akposso.2qT.liaison(rescol$PB, rescol$PIBH)
## $Correlation_Pearson
## [1] 0.9322168
##
## $Correlation_Spearman
## [1] 0.9465009
##
## $Correlation_Kendall
## [1] 0.7971703
##
## $Coefficient_Determination
## [1] 0.8690282
##
## $Interpretation_Intensite_Liaison
## [1] "liaison tres forte"
##
## $Coefficents_Droite_Regression
## (Intercept) vecteur2
## 2.79876942 0.02609005
##
## $Resultat_Test_Liaison
##
## Pearson's product-moment correlation
##
## data: vecteur2 and vecteur1
## t = 19.617, df = 58, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.8886461 0.9591083
## sample estimates:
## cor
## 0.9322168
##
##
## $p.value
## [1] 2.791949e-27
##
## $Significacite_Liaison
## [1] "liaison significative"
##
## $Remarque
## [1] "Si la liaison n?est pas significative, Ne pas tenir compte de son intensite"
| INDICATEURS | VALEURS | INTERPRETATIONS |
|---|---|---|
| Covariance | 20320,78 | La valeur 20320,78 est positive, ce qui signifie que les paires de valeurs x et y varient dans le même sens autour de leur moyenne respective. La relation linéaire entre les variables PB et PIBH est également positive. C’est-à-dire plus le prix du baril augmente, plus le PIBH augmente également. Mais comme les données ne sont pas standardisées, nous ne pouvons pas utiliser les statistiques de la covariance pour évaluer l’importance de la relation linéaire. Pour évaluer la force d’une relation entre les variables PB et PIBH à l’aide d’une échelle normalisée allant de −1 à +1, nous allons utiliser la corrélation. L’estimation de la force et du sens de la relation entre deux variables est calculée à l’aide du coefficient de corrélation |
| Coéfficiant de correlation Pearson | 0,9322168 | Ce coefficient basée sur la covariance, n’en n’est simplement qu’une standardisation. Le coefficient de corrélation entre x et y est 0,9322168. Le coefficiant est de 0,9322168 ce qui signifie qu’il y a une forte corrélation linéaire entre le PB et le PIBH et cette corrélation est positive. Il existe un très forte liaison |
| Coefficient de détermination | 0,8690282 | 𝒓^𝟐=0,8690282 ce qui signifie que la variabilité de y (PIBH) est expliquée à 86,70% par la variabilité de x (PB). Cela signifie que 86,70% des variabilités du PIBH est expliquée par la variabilité du PB d’où une très forte liaison. |
| Test de significativité de la correlation | 10,8575 | La P-value résultant de ce test est de 2,791949e-27. Cette valeur étant inférieure à 0.05, on rejette 𝐻0 et on accepte 𝐻1, c’est-à-dire le coefficient de corrélation est significativement différent de zéro. Autrement dit, le lien entre le PB et le PIBH est très significatif ou est très fiable à l’échelle de la population toute entière. Cette corrélation est estimée à 0,8690282 au niveau échantillonnal et sa vraie valeur au niveau de la population est comprise entre [0,8886461; 0,9591083]. Donc un intervalle de confiance de 95% |
| Coefficient d’applatissement | 2,479247 | Plus la valeur de p est petite, plus la probabilité de faire une erreur en rejetant l’hypothèse nulle est faible. Une valeur limite de 0,05 est souvent utilisée. Autrement dit, vous pouvez rejeter l’hypothèse nulle si la valeur de p est inférieure à 0,05. Dans notre exemple avec le test t, la statistique de test est une fonction de la moyenne, et la valeur de p est de 0,026. Cela signifie que, pour 2,6 % des échantillons d’effectif 35 et provenant de la population où µ = 25, la moyenne obtenue fournirait au moins autant de preuves permettant de conclure que µ n’est pas égal à 25 que celle de l’échantillon actuel. A vous ensuite de vous demander s’il est plus probable que µ = 25 et que vous ayez simplement choisi un échantillon très inhabituel, ou que µ ne soit pas égal à 25. |
Nous nous sommes posé ici la question de savoir si l’évolution du TXCA est liée au PB. Nous avons représenté la distribution des prix du baril selon le produit intérieur brut par habitant.
Un nuage de points ou diagramme de dispersion est une représentation graphique dans un repère du plan d’une série statistique à deux variables X et Y. Chaque individu i est représenté par un point dont les coordonnées sont les valeurs respectives des variables X et Y prises par l’individu i. En observant, l’allure du nuage de points révèle s’il existe une liaison ou non entre les deux variables quantitatives.
A la lecture du Graphique, nous remarquons que les points sont disposés positivement. Ici on peut dire que lorsque le PB augmente, alors le TXCH augmente également. Nous avons donc une corrélation positive.
PB_TXCA<-data.frame(rescol$PB, rescol$TXCA)
PB_TXCA #Tableau statistique
## rescol.PB rescol.TXCA
## 1 1.6300 0.72000
## 2 1.5700 0.19200
## 3 1.5200 4.10300
## 4 1.5000 8.57900
## 5 1.4500 4.95000
## 6 1.4200 4.88500
## 7 1.3600 -4.25100
## 8 1.3300 -7.00905
## 9 1.3200 -1.24800
## 10 1.2700 14.29255
## 11 1.2100 14.29255
## 12 1.7000 14.23800
## 13 1.8200 3.36400
## 14 2.7000 5.39300
## 15 11.0000 11.16100
## 16 10.4300 -5.22800
## 17 11.6000 9.04200
## 18 12.5000 6.02400
## 19 12.7900 -5.76400
## 20 29.1900 6.75900
## 21 35.5200 4.20500
## 22 34.0000 -7.00905
## 23 32.3800 -6.80300
## 24 29.0400 -7.00905
## 25 28.2000 -1.11600
## 26 27.0100 5.91300
## 27 13.5300 0.06100
## 28 17.7300 3.20000
## 29 14.2400 7.33400
## 30 17.3100 1.91900
## 31 22.2600 11.77700
## 32 18.6200 0.35800
## 33 18.4400 4.63100
## 34 16.3300 -2.03500
## 35 15.5300 -1.81500
## 36 16.8600 -0.07300
## 37 20.2900 4.19600
## 38 18.8600 2.93700
## 39 12.2800 2.58100
## 40 17.4400 0.58400
## 41 27.6000 5.01600
## 42 23.1200 5.91800
## 43 24.3600 14.29255
## 44 28.1000 7.34700
## 45 36.0500 9.25100
## 46 50.5900 6.43900
## 47 61.0000 6.05900
## 48 69.0400 6.59100
## 49 76.7825 6.76400
## 50 60.8600 8.03700
## 51 76.7825 8.00600
## 52 76.7825 5.30800
## 53 76.7825 4.23000
## 54 76.7825 6.67100
## 55 76.7825 6.31000
## 56 49.4900 2.65300
## 57 40.7600 -1.61700
## 58 52.5100 0.80600
## 59 69.7800 1.92300
## 60 64.0400 2.20800
plot(PB~TXCA,data=rescol)
library(ggplot2)
# Nuage de points simples
ggplot(rescol, aes(x=TXCA,y=PB))+
geom_point(col="blue")+
scale_x_log10()
#Visualiser les corrélations deux a deux
cor <- data.frame(rescol$PB, rescol$TXCA)
library(GGally)
library(ggplot2)
ggpairs(cor)
On voit que les deux variables suivent une loi de distribution normale.
Nous allons donc au-delà de cette analyse graphique, procéder à une
analyse numérique pour mesurer la liaison à travers le calcul de la
correlation par le coefficiant de Pearson.
Cette étape présentera les indicateurs de liaison à savoir la covariance, le coefficiant de correlation linéaire et le coefficiant de détermination.
Cov(rescol$PB, rescol$PIBH)
## [1] 20320.78
akposso.2qT.liaison(rescol$PB, rescol$PIBH)
## $Correlation_Pearson
## [1] 0.9322168
##
## $Correlation_Spearman
## [1] 0.9465009
##
## $Correlation_Kendall
## [1] 0.7971703
##
## $Coefficient_Determination
## [1] 0.8690282
##
## $Interpretation_Intensite_Liaison
## [1] "liaison tres forte"
##
## $Coefficents_Droite_Regression
## (Intercept) vecteur2
## 2.79876942 0.02609005
##
## $Resultat_Test_Liaison
##
## Pearson's product-moment correlation
##
## data: vecteur2 and vecteur1
## t = 19.617, df = 58, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.8886461 0.9591083
## sample estimates:
## cor
## 0.9322168
##
##
## $p.value
## [1] 2.791949e-27
##
## $Significacite_Liaison
## [1] "liaison significative"
##
## $Remarque
## [1] "Si la liaison n?est pas significative, Ne pas tenir compte de son intensite"
| INDICATEURS | VALEURS | INTERPRETATIONS |
|---|---|---|
| Covariance | 20320,78 | La valeur 20320,78 est positive, ce qui signifie que les paires de valeurs x et y varient dans le même sens autour de leur moyenne respective. La relation linéaire entre les variables PB et PIBH est également positive. C’est-à-dire plus le prix du baril augmente, plus le PIBH augmente également. Mais comme les données ne sont pas standardisées, nous ne pouvons pas utiliser les statistiques de la covariance pour évaluer l’importance de la relation linéaire. Pour évaluer la force d’une relation entre les variables PB et PIBH à l’aide d’une échelle normalisée allant de −1 à +1, nous allons utiliser la corrélation. L’estimation de la force et du sens de la relation entre deux variables est calculée à l’aide du coefficient de corrélation |
| Coéfficiant de correlation Pearson | 0,9322168 | Ce coefficient basée sur la covariance, n’en n’est simplement qu’une standardisation. Le coefficient de corrélation entre x et y est 0,9322168. Le coefficiant est de 0,9322168 ce qui signifie qu’il y a une forte corrélation linéaire entre le PB et le PIBH et cette corrélation est positive. Il existe un très forte liaison |
| Coefficient de détermination | 0,8690282 | 𝒓^𝟐=0,8690282 ce qui signifie que la variabilité de y (PIBH) est expliquée à 86,70% par la variabilité de x (PB). Cela signifie que 86,70% des variabilités du PIBH est expliquée par la variabilité du PB d’où une très forte liaison. |
| Test de significativité de la correlation | 10,8575 | La P-value résultant de ce test est de 2,791949e-27. Cette valeur étant inférieure à 0.05, on rejette 𝐻0 et on accepte 𝐻1, c’est-à-dire le coefficient de corrélation est significativement différent de zéro. Autrement dit, le lien entre le PB et le PIBH est très significatif ou est très fiable à l’échelle de la population toute entière. Cette corrélation est estimée à 0,8690282 au niveau échantillonnal et sa vraie valeur au niveau de la population est comprise entre [0,8886461; 0,9591083]. Donc un intervalle de confiance de 95% |
| Coefficient d’applatissement | 2,479247 | Plus la valeur de p est petite, plus la probabilité de faire une erreur en rejetant l’hypothèse nulle est faible. Une valeur limite de 0,05 est souvent utilisée. Autrement dit, vous pouvez rejeter l’hypothèse nulle si la valeur de p est inférieure à 0,05. Dans notre exemple avec le test t, la statistique de test est une fonction de la moyenne, et la valeur de p est de 0,026. Cela signifie que, pour 2,6 % des échantillons d’effectif 35 et provenant de la population où µ = 25, la moyenne obtenue fournirait au moins autant de preuves permettant de conclure que µ n’est pas égal à 25 que celle de l’échantillon actuel. A vous ensuite de vous demander s’il est plus probable que µ = 25 et que vous ayez simplement choisi un échantillon très inhabituel, ou que µ ne soit pas égal à 25. |
Nous nous sommes posé ici la question de savoir si l’évolution du TXCA est liée au PB. Nous avons représenté la distribution des prix du baril selon le produit intérieur brut par habitant.
Un nuage de points ou diagramme de dispersion est une représentation graphique dans un repère du plan d’une série statistique à deux variables X et Y. Chaque individu i est représenté par un point dont les coordonnées sont les valeurs respectives des variables X et Y prises par l’individu i. En observant, l’allure du nuage de points révèle s’il existe une liaison ou non entre les deux variables quantitatives.
A la lecture du Graphique, nous remarquons que les points sont disposés positivement. Ici on peut dire que lorsque le PB augmente, alors le TXCH augmente également. Nous avons donc une corrélation positive.
PB_TXCA<-data.frame(rescol$PB, rescol$TXCA)
PB_TXCA #Tableau statistique
## rescol.PB rescol.TXCA
## 1 1.6300 0.72000
## 2 1.5700 0.19200
## 3 1.5200 4.10300
## 4 1.5000 8.57900
## 5 1.4500 4.95000
## 6 1.4200 4.88500
## 7 1.3600 -4.25100
## 8 1.3300 -7.00905
## 9 1.3200 -1.24800
## 10 1.2700 14.29255
## 11 1.2100 14.29255
## 12 1.7000 14.23800
## 13 1.8200 3.36400
## 14 2.7000 5.39300
## 15 11.0000 11.16100
## 16 10.4300 -5.22800
## 17 11.6000 9.04200
## 18 12.5000 6.02400
## 19 12.7900 -5.76400
## 20 29.1900 6.75900
## 21 35.5200 4.20500
## 22 34.0000 -7.00905
## 23 32.3800 -6.80300
## 24 29.0400 -7.00905
## 25 28.2000 -1.11600
## 26 27.0100 5.91300
## 27 13.5300 0.06100
## 28 17.7300 3.20000
## 29 14.2400 7.33400
## 30 17.3100 1.91900
## 31 22.2600 11.77700
## 32 18.6200 0.35800
## 33 18.4400 4.63100
## 34 16.3300 -2.03500
## 35 15.5300 -1.81500
## 36 16.8600 -0.07300
## 37 20.2900 4.19600
## 38 18.8600 2.93700
## 39 12.2800 2.58100
## 40 17.4400 0.58400
## 41 27.6000 5.01600
## 42 23.1200 5.91800
## 43 24.3600 14.29255
## 44 28.1000 7.34700
## 45 36.0500 9.25100
## 46 50.5900 6.43900
## 47 61.0000 6.05900
## 48 69.0400 6.59100
## 49 76.7825 6.76400
## 50 60.8600 8.03700
## 51 76.7825 8.00600
## 52 76.7825 5.30800
## 53 76.7825 4.23000
## 54 76.7825 6.67100
## 55 76.7825 6.31000
## 56 49.4900 2.65300
## 57 40.7600 -1.61700
## 58 52.5100 0.80600
## 59 69.7800 1.92300
## 60 64.0400 2.20800
plot(PB~TXCA,data=rescol)
library(ggplot2)
# Nuage de points simples
ggplot(rescol, aes(x=TXCA,y=PB))+
geom_point(col="blue")+
scale_x_log10()
#Visualiser les corrélations deux a deux
cor <- data.frame(rescol$PB, rescol$TXCA)
library(GGally)
library(ggplot2)
ggpairs(cor)
On voit que les deux variables suivent une loi de distribution normale.
Nous allons donc au-delà de cette analyse graphique, procéder à une
analyse numérique pour mesurer la liaison à travers le calcul de la
correlation par le coefficiant de Pearson.
Cette étape présentera les indicateurs de liaison à savoir la covariance, le coefficiant de correlation linéaire et le coefficiant de détermination.
Cov(rescol$PB, rescol$PIBH)
## [1] 20320.78
akposso.2qT.liaison(rescol$PB, rescol$PIBH)
## $Correlation_Pearson
## [1] 0.9322168
##
## $Correlation_Spearman
## [1] 0.9465009
##
## $Correlation_Kendall
## [1] 0.7971703
##
## $Coefficient_Determination
## [1] 0.8690282
##
## $Interpretation_Intensite_Liaison
## [1] "liaison tres forte"
##
## $Coefficents_Droite_Regression
## (Intercept) vecteur2
## 2.79876942 0.02609005
##
## $Resultat_Test_Liaison
##
## Pearson's product-moment correlation
##
## data: vecteur2 and vecteur1
## t = 19.617, df = 58, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.8886461 0.9591083
## sample estimates:
## cor
## 0.9322168
##
##
## $p.value
## [1] 2.791949e-27
##
## $Significacite_Liaison
## [1] "liaison significative"
##
## $Remarque
## [1] "Si la liaison n?est pas significative, Ne pas tenir compte de son intensite"
| INDICATEURS | VALEURS | INTERPRETATIONS |
|---|---|---|
| Covariance | 20320,78 | La valeur 20320,78 est positive, ce qui signifie que les paires de valeurs x et y varient dans le même sens autour de leur moyenne respective. La relation linéaire entre les variables PB et PIBH est également positive. C’est-à-dire plus le prix du baril augmente, plus le PIBH augmente également. Mais comme les données ne sont pas standardisées, nous ne pouvons pas utiliser les statistiques de la covariance pour évaluer l’importance de la relation linéaire. Pour évaluer la force d’une relation entre les variables PB et PIBH à l’aide d’une échelle normalisée allant de −1 à +1, nous allons utiliser la corrélation. L’estimation de la force et du sens de la relation entre deux variables est calculée à l’aide du coefficient de corrélation |
| Coéfficiant de correlation Pearson | 0,9322168 | Ce coefficient basée sur la covariance, n’en n’est simplement qu’une standardisation. Le coefficient de corrélation entre x et y est 0,9322168. Le coefficiant est de 0,9322168 ce qui signifie qu’il y a une forte corrélation linéaire entre le PB et le PIBH et cette corrélation est positive. Il existe un très forte liaison |
| Coefficient de détermination | 0,8690282 | 𝒓^𝟐=0,8690282 ce qui signifie que la variabilité de y (PIBH) est expliquée à 86,70% par la variabilité de x (PB). Cela signifie que 86,70% des variabilités du PIBH est expliquée par la variabilité du PB d’où une très forte liaison. |
| Test de significativité de la correlation | 10,8575 | La P-value résultant de ce test est de 2,791949e-27. Cette valeur étant inférieure à 0.05, on rejette 𝐻0 et on accepte 𝐻1, c’est-à-dire le coefficient de corrélation est significativement différent de zéro. Autrement dit, le lien entre le PB et le PIBH est très significatif ou est très fiable à l’échelle de la population toute entière. Cette corrélation est estimée à 0,8690282 au niveau échantillonnal et sa vraie valeur au niveau de la population est comprise entre [0,8886461; 0,9591083]. Donc un intervalle de confiance de 95% |
| Coefficient d’applatissement | 2,479247 | Plus la valeur de p est petite, plus la probabilité de faire une erreur en rejetant l’hypothèse nulle est faible. Une valeur limite de 0,05 est souvent utilisée. Autrement dit, vous pouvez rejeter l’hypothèse nulle si la valeur de p est inférieure à 0,05. Dans notre exemple avec le test t, la statistique de test est une fonction de la moyenne, et la valeur de p est de 0,026. Cela signifie que, pour 2,6 % des échantillons d’effectif 35 et provenant de la population où µ = 25, la moyenne obtenue fournirait au moins autant de preuves permettant de conclure que µ n’est pas égal à 25 que celle de l’échantillon actuel. A vous ensuite de vous demander s’il est plus probable que µ = 25 et que vous ayez simplement choisi un échantillon très inhabituel, ou que µ ne soit pas égal à 25. |