Résumé du code et des fonctions statistiques utilisées pour l’analyse exploratoire
AVANT PROPOS
INTRODUCTION GENERALE
PREPARATION PREALABLE DES DONNEES
PARTIE 1 : ANALYSE STATISTIQUE UNIVARIEE
- A- ANALYSE DES VARIABLES QUALITATIVES
  - 1- Analyse de la Balance Commerciale (BC)
  - 2- Analyse du Solde Budgétaire (SB)
- B- ANALYSE DES VARIABLES QUANTITATIVES
  - 1- Analyse du Prix du Baril (PB)
  - 2- Analyse du Produit interieur brut par habitant (PIBH)
PARTIE II : ANALYSES STATISTIQUES BIVARIEES
- A- ANALYSE DES VARIABLES QUANTITATIVES

EVOLUTION DES PRIX DU PETROLE EN 60 ANS : CAS DU NIGERIA DE 1960 A 2019

Résumé du code et des fonctions statistiques utilisées pour l’analyse exploratoire

# code R pour tableau statistique
akposso.qt.tableau<-function(vecteur){
T<-table(vecteur) 
Tc<-c(T)
tab<-data.frame(
Effectifs=Tc,
Eff_Cum_crois=cumsum(Tc), 
Eff_Cum_decrois= sort(cumsum(Tc),decreasing = TRUE),
Frequence=Tc/sum(Tc),
Freq_Cum_crois=cumsum(Tc/sum(Tc)), Freq_Cum_decrois=sort(cumsum(Tc/sum(Tc)), decreasing = TRUE)) 
tab
return(tab)
}
#----------------------------------
# Fonction akposso.qt (graphiques de variables quantitatives)
akposso.qt.graph<-function(vecteur){
par(mfrow=c(2,2), mar=c(3,3,3,3))
res1<- plot(table(vecteur),main="Diagramme en Baton")
res2<- plot(ecdf(vecteur),main="Diagramme en Escalier")
res3<-hist(vecteur,main="Histogramme",col="green")
res4<-boxplot(vecteur,main="Boite ? moustache",col="green")
par(mfrow=c(1,1), mar=c(0,0,0,0))
}
#----------------------------------
akposso.qt.resume<-function(vecteur){
res1<-min(vecteur)
res2<-max(vecteur)
library(RVAideMemoire)
res3<-mod(vecteur)
res4<-median(vecteur,na.rm=TRUE)
res5<-mean(vecteur,na.rm=TRUE)
res6<-quantile(vecteur,na.rm=TRUE)
res7<-cv(vecteur)
res8<-var(vecteur,na.rm=TRUE)
res9<-sd(vecteur,na.rm=TRUE)
library(moments)
res10<-skewness(vecteur)
interpskew<- ifelse(res10<0,'distribution etalee Ã  gauche','distribution etalee a droite')
res11<-kurtosis(vecteur)
interpkurt<- ifelse(res11<3,'distribution platikurtique','distribution leptokurtique')
return(list(minimum=res1,maximum=res2,mode=res3, mediane=res4,moyenne=res5,quantile=res6, coefficient_variation=res7,variance=res8,ecart_type=res9, coefficient_assymetrie=res10,interpretation_skewness=interpskew, coefficent_applatissement=res11,interpretation_kurtosis=interpkurt))
}
#----------------------------------
akposso.ql.tableau<-function(facteur){
T<-table(facteur) 
Tc=c(T)
tab<-data.frame(Effectif=Tc,Frequence=Tc/sum(Tc)) 
tab
return(tab)
}
#----------------------------------
akposso.ql.graph<-function(facteur){
par(mfrow=c(2,1), mar=c(3,3,3,3))
barplot(table(facteur),main="Diagramme en barre")
pie(table(facteur),main="Diagramme en secteur")
par(mfrow=c(1,1), mar=c(0,0,0,0))
}
#----------------------------------
akposso.2qT.liaison<-function(vecteur1,vecteur2){
res1<- cor(vecteur1,vecteur2,method="pearson")
res2<- cor(vecteur1,vecteur2,method="spearman")
res3<- cor(vecteur1,vecteur2,method="kendall")
res4<- cor(vecteur1,vecteur2,method="pearson")^2
interp1<- ifelse(res4<0.10,'liaison tres faible',ifelse(res4<0.40,'liaison faible',ifelse(res4<0.60,'liaison moyenne',ifelse(res4<0.80,'liaison forte','liaison tres forte'))))
res5<- lm(vecteur1~vecteur2)$coefficients
res6<- cor.test(vecteur2, vecteur1)
interp2<- ifelse(res6$p.value<0.05,'liaison significative','liaison non significative')
rem<-"Si la liaison n?est pas significative, Ne pas tenir compte de son intensite"
return(list(Correlation_Pearson=res1, Correlation_Spearman=res2, Correlation_Kendall=res3, Coefficient_Determination=res4, Interpretation_Intensite_Liaison=interp1, Coefficents_Droite_Regression=res5,Resultat_Test_Liaison=res6, p.value=res6$p.value, Significacite_Liaison=interp2, Remarque=rem))
}
#----------------------------------
akposso.2qL.tableau<-function(facteur1,facteur2){
res1<- table(facteur1,facteur2)
res2<- round(prop.table(table(facteur1,facteur2)),2)
res3<- round(prop.table(table(facteur1,facteur2),1),2)
res4<- round(prop.table(table(facteur1,facteur2),2),2)
return(list(Tableau_Contingence=res1, Tableau_Frequence=res2, Tableau_Profil_Ligne=res3, Tableau_Profil_Colonne=res4))
}
#----------------------------------
akposso.2qL.graph<-function(facteur1, facteur2){
par(mfrow=c(3,2), mar=c(3,3,3,3))
barplot(table(facteur1, facteur2),main="diagramme en barres empiles",legend.text=F)
barplot(table(facteur2, facteur1),main="diagramme en barres empile?s",legend.text=F)
barplot(table(facteur1, facteur2),main="diagramme en b?tons groupes",beside=TRUE, legend.text=F)
barplot(table(facteur2, facteur1),main="diagramme en b?tons groupes",beside=TRUE, legend.text=F)
tabc1<-table(facteur1, facteur2)
fi1<-apply(tabc1,1,sum)
plignes1<-sweep(tabc1,1,fi1,"/")
barplot(t(plignes1),horiz=TRUE, main="Profil ligne",legend.text=F)
tabc2<-table(facteur2, facteur1)
fi2<-apply(tabc2,1,sum)
plignes2<-sweep(tabc2,1,fi2,"/")
barplot(t(plignes2),horiz=TRUE, main=" Profil colonne",legend.text=F)
par(mfrow=c(1,1), mar=c(3,3,3,3))
}
#----------------------------------
akposso.2qL.liaison<-function(vecteur1,vecteur2){
library(questionr)
res1<- chisq.test(table(vecteur1,vecteur2))$expected
res2<- fisher.test(table(vecteur1,vecteur2))
res3<- chisq.test(table(vecteur1,vecteur2))
res4<- cramer.v(table(vecteur1,vecteur2))
interp1<- ifelse(res2$p.value<0.05, 'liaison significative, les deux variables sont liees','liaison non significative, les deux variables ne sont pas liees')
interp2<- ifelse(res3$p.value<0.05, 'liaison significative, les deux variables sont liees','liaison non significative, les deux variables ne sont pas liees')
interp3<- ifelse(res4<0.10,'liaison tres faible',ifelse(res4<0.40,'liaison faible',ifelse(res4<0.60,'liaison moyenne',ifelse(res4<0.80,'liaison forte','liaison tres forte'))))
rem<-"Si la liaison n?est pas significative, Ne pas tenir compte de son intensite"
return(list(Effectif_Theorique=res1, Resultat_Test_KhiDeux=res3, Resultat_Test_Fisher=res2,Khi_Deux=res3$statistic, V_Cramer=res4,Khi2.P.value=res3$p.value,Significativite_TestKhi2=interp2, Fisher.P.value=res2$p.value, Significativite_TestFisher=interp1, Intensite_liaison=interp3, Remarque=rem))
}
#----------------------------------
akposso.qLqT.liaison<-function(vecteur,facteur){
library(BioStatR)
res1<- eta2(vecteur,facteur)
res2<- anova(lm(vecteur~facteur))
a<-data.frame(res2)
res3<-a$Pr..F.[1]
interp1<- ifelse(res1<0.10,'liaison tres faible',ifelse(res1<0.40,'liaison faible',ifelse(res1<0.60,'liaison moyenne',ifelse(res1<0.80,'liaison forte','liaison tres forte'))))
interp2<- ifelse(res3<0.05, 'liaison significative, les deux variables sont liees','liaison non significative, les deux variables ne sont pas liees')
rem<-"Si la liaison n?est pas significative, Ne pas tenir compte de son intensite"
return(list(Rapport_Correlation=res1, Resultat_Test_Anova=res2,Anova.P.value=res3,Significativite_TestAnova=interp2, Intensite_liaison=interp1, Remarque=rem))
}
#------------------------------------
# akposso.qt.tableau()   # tableau statistique de variable quantitative
# akposso.qt.graph()     # graphiques de variable quantitative
# akposso.qt.resume()    # resume numerique de variable quantitative
# akposso.ql.tableau()   # tableau statistique de variable qualitative
# akposso.ql.graph()     # graphique de variable quantitative
#------------------------------------
# akposso.2qT.liaison()  # liaison entre deux variables quantitatives
# akposso.2qL.tableau()  # tableaux statistiques de deux variables qualitatives
# akposso.2qL.graph()    # graphiques de deux variables qualitatives
# akposso.2qL.liaison()  # liaison entre deux variables qualitatives
# akposso.qLqT.liaison() # liaison entre une variable quantitative et une variable qualitative
#------------------------------------

AVANT PROPOS

Ce mini-projet entre dans le cadre de la validation des crédits accordés à chacun des modules de notre master en Statistique, Econometrie et data Science. Il mettra en exergue une analyse descriptive de l’évolution du prix du pétrole au Nigeria de 1960 à 2019. Cette étude se veut être une contribution professionnelle par laquelle nous ne prétendons pas épuiser tous les contours pour en faire une véritable étude thématique. C’est pourquoi nos conclusions n’engagent quiconque que nous-même, c’est à dire l’auteur de ce document. Cette étude intervient au moment où le Nigeria semble se trouver à la croisée des chemins avec la loi pétrole. Le pays le plus peuplé d’Afrique dépendrait largement des revenus de l’or noir pour équilibrer son budget et oscillerait entre tantôt des baisses, tantôt des hausses de prix du pétrole.

INTRODUCTION GENERALE

L’exploitation des reserves barils au Nigeria a commencé à la fin des années 1950, juste avant l’indépendance. Soixante ans plus tard, quel bilan ? Cet or noir a-t-il contribué aux performances de l’économie nigériane ? Que disent les grandeurs macroeconomiques du pays ? Le géant africain vit-il toujours donc au rythme du prix du baril ?

C’est bien eu égard à tout ce qui précède et d’informations disponibles en notre possession, que ce mini-projet se propose de mener une analyse descriptive des grandeurs macroeconomiques du Nigeria et l’évolution du prix du pétrole au pays de l’or noir de 1960 à 2019. Cette étude se réalisera à partir de certaines variables telles que : le prix du baril ; la balance commerciale, le taux de chômage, le PIB par habitant, le cours du Naira, le solde budgétaire, le taux de croissance annuel, la balance des paiements.

Mais plus spécifiquement, notre étude présentera :

1- Une analyse descriptive univariée du prix du baril, du PIB par habitant, de la balance commerciale et du solde budgétaire

2- Une analyse descriptive bivariée pour décrire les dépendances et correlations entre le prix du baril et PIB par habitant, entre le prix du baril et le taux de chômage, entre le prix du baril et la balance commerciale

La présente étude est structurée en 2 grandes parties précédée d’une étape préliminaire. La première présente les données ainsi que l’approche méthodologique de l’analyse. La deuxième partie est consacrée à l’analyse univariée de toutes les variables de la base de données. La troisième partie est relative à l’analyse bi-variée entre quelques variables de notre base de données. Nous clôturons cette analyse en présentant les principales conclusions et quelques recommandations sur la base des résultats obtenus.

PREPARATION PREALABLE DES DONNEES

Cette partie présente le dictionnaire des données utilisées dans la présente analyse ainsi que les étapes de l’apurement de notre base de données. A cela, il faut ajouter que la méthodologie est basée sur une approche essentiellement descriptive en utilisant le logiciel R pour le traitement et l’analyse des données.

Dictionnaire des données de l’analyse

Le jeu de données s’appelera “Petrole”. Il comporte des variables tant quantitatives que qualitatives. Ces variables sont listées dans le tableau de dictionnaire de données ci-dessous :

my_tbl <- tibble::tribble(
  ~VARIABLE,        ~NATURE,                ~DESCRIPTION,                ~MODALITES,
               "PB", "Quantitative",             "Prix du baril",               "Numérique",
               "BC",  "Qualitative",       "Balance commerciale",  "Favorable\nDéfavorable",
             "TXCH", "Quantitative",           "Taux de chômage",               "Numérique",
             "PIBH", "Quantitative",          "PIB par habitant",               "Numérique",
               "CN", "Quantitative",            "Cours du naira",               "Numérique",
               "SB",  "Qualitative",          "Solde budgétaire",       "Excédent\nDéficit",
             "TXCA", "Quantitative", "Taux de croissance annuel",               "Numérique",
               "BP",  "Qualitative",     "Balance des paiements", "Equilibre\nDéséquilibre"
  )

require(rhandsontable)
rhandsontable(my_tbl, rowHeaders = NULL,
               digits = 3, useTypes = FALSE, search = FALSE,
               width = NULL, height = NULL)

Importation du jeu de donées

Nous avons commencé par charger le jeu de données depuis son espace de stockage sur notre ordinateur avant de le lire. Cette base de données sera appelée « Petrole ». Par la suite, nous avons choisi d’en afficher un aperçu. Ce travail préliminaire nous a permis d’identifier que l’étude se réalise sur des données des grandeurs macro-économiques observées de 1960 à 2019.Les variables de ce jeu de données sont : PB, PIB, TCA, TXCH, BC, PIBH, SB, BP, leur description est fournie dans le dictionnaire de données élaboré dans le préliminaire. Le jeu de données global contient 60 observations reparties sur 8 variables dont 3 de type qualitatives et de type 5 quantitatives.

setwd("D:/Insseds/Dataframe") #Donner le chemin d'acces au jeu de données
petrole <- read.table("petrole_na.csv",header=TRUE,sep=";",check.names=FALSE, row.names=1,stringsAsFactors = TRUE) # Lire le jeu de données 
head(petrole) # Afficher les 6 premieres observations du jeu de données

##        PB          BC TXCH   PIBH    CN       SB  TXCA        BP
## 1960 1.63 defavorable 2.43  92.96 0.714 excedent 0.720 equilibre
## 1961 1.57 defavorable 2.41  96.98 0.714 excedent 0.192 equilibre
## 1962 1.52 defavorable 2.44 104.39 0.714 excedent 4.103 equilibre
## 1963 1.50 defavorable 2.47 107.54 0.714 excedent 8.579 equilibre
## 1964 1.45 defavorable 2.50 113.17 0.714 excedent 4.950 equilibre
## 1965 1.42 defavorable 2.45 117.19 0.714 excedent 4.885 equilibre

names(petrole)# Identifier les variables en évidence dans le jeu de données

## [1] "PB"   "BC"   "TXCH" "PIBH" "CN"   "SB"   "TXCA" "BP"

str(petrole) # Donner la structure du jeu de données

## 'data.frame':    60 obs. of  8 variables:
##  $ PB  : num  1.63 1.57 1.52 1.5 1.45 1.42 1.36 1.33 1.32 1.27 ...
##  $ BC  : Factor w/ 2 levels "defavorable",..: 1 1 1 1 1 1 NA 1 1 1 ...
##  $ TXCH: num  2.43 2.41 2.44 2.47 2.5 2.45 2.37 2.39 2.43 2.51 ...
##  $ PIBH: num  93 97 104 108 113 ...
##  $ CN  : num  0.714 0.714 0.714 0.714 0.714 0.714 0.714 0.714 0.714 0.714 ...
##  $ SB  : Factor w/ 2 levels "deficit","excedent": 2 2 2 2 2 2 2 2 2 2 ...
##  $ TXCA: num  0.72 0.192 4.103 8.579 4.95 ...
##  $ BP  : Factor w/ 2 levels "desequilibre",..: 2 2 2 2 2 2 2 2 2 2 ...

dim(petrole) # Donner la dimension du jeu de données

## [1] 60  8

summary(petrole)# Faire un bref résumé du jeu de données

##        PB                   BC          TXCH             PIBH        
##  Min.   :  1.21   defavorable:22   Min.   : 2.360   Min.   :  92.96  
##  1st Qu.: 10.86   favorable  :35   1st Qu.: 2.500   1st Qu.: 283.00  
##  Median : 18.74   NA's       : 3   Median : 3.760   Median : 561.97  
##  Mean   : 29.75                    Mean   : 4.095   Mean   : 963.54  
##  3rd Qu.: 37.23                    3rd Qu.: 4.883   3rd Qu.:1797.04  
##  Max.   :109.45                    Max.   :10.000   Max.   :3222.69  
##                                                     NA's   :2        
##        CN                 SB          TXCA                     BP    
##  Min.   :  0.547   deficit :22   Min.   :-15.7440   desequilibre:16  
##  1st Qu.:  0.714   excedent:37   1st Qu.:  0.3165   equilibre   :42  
##  Median :  7.365   NA's    : 1   Median :  4.2175   NA's        : 2  
##  Mean   : 58.225                 Mean   :  3.7238                    
##  3rd Qu.:124.615                 3rd Qu.:  6.6930                    
##  Max.   :306.921                 Max.   : 25.0070                    
##  NA's   :1

Le résumé sommaire de ce jeu de données permet de détecter qu’il existe des données manquantes matérialisées par des valeurs NAs. Ces valeurs doivent passer par une étape de traitement.

Traitement des valeurs manquantes dans les données

Cette section va servir à afficher les observations qui contiennent des valeurs manquantes. Il existe 9 valeurs manquantes prises individuellement sur 9 années à savoir 1966, 1975, 1978, 1984, 1990, 1994, 2010, 2016 et 2018. Et le taux de valeurs manquantes est de 15%.

petrole[!complete.cases(petrole),] # affiche les individus avec les valeurs manquantes

##         PB          BC  TXCH    PIBH      CN       SB   TXCA           BP
## 1966  1.36        <NA>  2.37  124.31   0.714 excedent -4.251    equilibre
## 1975 10.43 defavorable  2.36      NA   0.616  deficit -5.228 desequilibre
## 1978 12.79 defavorable 10.00  527.31   0.635  deficit -5.764         <NA>
## 1984 28.20   favorable  5.90      NA   0.767 excedent -1.116    equilibre
## 1990 22.26   favorable  6.01  567.23   8.038 excedent 11.777         <NA>
## 1994 15.53        <NA>  3.76  321.32  21.996  deficit -1.815    equilibre
## 2010 77.38   favorable  3.77 2292.45 150.298     <NA>  8.006    equilibre
## 2016 40.76 defavorable  7.06 2176.00      NA  deficit -1.617    equilibre
## 2018 69.78        <NA>  8.24 2028.18 306.084 excedent  1.923    equilibre

nrow(petrole[!complete.cases(petrole),]) # Determiner le nombre de valeurs manquantes

## [1] 9

nrow(petrole[!complete.cases(petrole),])/nrow(petrole)# déterminerle taux de valeurs manquantes

## [1] 0.15

En visualisant le jeu de données, l’on se rend compte qu’en moyenne c’est 2% des données manquantes sur chacune des variables. la variable « BC » appelée balance commerciale contient le plus grand pourcentage de données manquantes au sein de toutes les autres variables. Néanmoins, sur chacune des années de l’étude, aucune des valeurs manquantes n’est partagée simultanément par plusieurs variables. Ce constat montre que, la perte des données sur chaque année de l’étude serait en proportion très insignifiante mais par contre reste assez significative dans l’ensemble pour ne pas nous donner le luxe de les supprimer. De plus, le taux de données manquantes étant supérieur à 5%, il convient donc de procéder au traitement de ces valeurs manquantes pour leur imputation, plutôt que de les supprimer de notre base de données.

library(visdat) 
vis_miss(petrole)# Visulaiser le jeu de données entier avec les valeurs manquantes en pourcentage de NA pour chaque variable et global

vis_dat(petrole)# Visualiser la position des données manquantes

library(naniar) 
naniar::gg_miss_upset(petrole)# savoir si les valeurs ne sont pas correllées

Imputation de données en remplacement des valeurs manquantes

Nous avons d’abord dupliqué le jeu de données en le renommant “petrole1 et petrole2” puis avons procédé à l’annulation des variables qualitatives sur petrole1 et annulation des variables quantitatives sur petrole2.

Pour l’imputation des valeurs manquantes parmi les variables quantitatives, nous avons avons utilisé la technique des K plus proches voisins consistant à remplir les valeurs manquantes en explorant les similitudes entre les cas. Ceci du fait que nous essayons de trouver les valeurs les plus probables pour chacune de ces inconnues. Pour mesurer donc cette proximité entre les observations, nous avons opté pour l’application d’une fonction de similarité reposant sur un calcul de distance. Cette fonction qui calcule la distance entre deux observations estime l’affinité entre les observations comme ceci : « Plus deux points sont proches l’un de l’autre, plus ils sont similaires. » Nous avons donc conservé les 10 observations du jeu de données qui sont les plus « proches » des observations à prédire. Par la suite nous nous sommes évertué à retrouver à quelle famille appartient les nouvelles données, en cherchant la famille sinon la classe majoritaire parmi les k données. Et nous avons retourné la valeur calculée comme étant la valeur qui a été prédite pour l’observation en entrée qui était inconnue.

Ci-dessous un bref aperçu des nouvelles données quantitatives après imputation des valeurs manquantes.

setwd("D:/Insseds/Dataframe") # pour charger le chemin du jeu de données
petrole1 <- read.table("petrole_qt.csv",header=TRUE,sep=";",check.names=FALSE, row.names=1, stringsAsFactors = TRUE)
summary(petrole1)

##        PB                   BC          TXCH             PIBH        
##  Min.   :  1.21   defavorable:22   Min.   : 2.360   Min.   :  92.96  
##  1st Qu.: 10.86   favorable  :35   1st Qu.: 2.500   1st Qu.: 283.00  
##  Median : 18.74   NA's       : 3   Median : 3.760   Median : 561.97  
##  Mean   : 29.75                    Mean   : 4.095   Mean   : 963.54  
##  3rd Qu.: 37.23                    3rd Qu.: 4.883   3rd Qu.:1797.04  
##  Max.   :109.45                    Max.   :10.000   Max.   :3222.69  
##                                                     NA's   :2        
##        CN                 SB          TXCA                     BP    
##  Min.   :  0.547   deficit :22   Min.   :-15.7440   desequilibre:16  
##  1st Qu.:  0.714   excedent:37   1st Qu.:  0.3165   equilibre   :42  
##  Median :  7.365   NA's    : 1   Median :  4.2175   NA's        : 2  
##  Mean   : 58.225                 Mean   :  3.7238                    
##  3rd Qu.:124.615                 3rd Qu.:  6.6930                    
##  Max.   :306.921                 Max.   : 25.0070                    
##  NA's   :1

library(DMwR2)
petrole1$BC = NULL
petrole1$SB = NULL
petrole1$BP = NULL
head(petrole1)

##        PB TXCH   PIBH    CN  TXCA
## 1960 1.63 2.43  92.96 0.714 0.720
## 1961 1.57 2.41  96.98 0.714 0.192
## 1962 1.52 2.44 104.39 0.714 4.103
## 1963 1.50 2.47 107.54 0.714 8.579
## 1964 1.45 2.50 113.17 0.714 4.950
## 1965 1.42 2.45 117.19 0.714 4.885

petrole1 <- knnImputation(petrole1, k = 25, scale = TRUE, meth = "weighAvg")
summary(petrole1)

##        PB              TXCH             PIBH               CN         
##  Min.   :  1.21   Min.   : 2.360   Min.   :  92.96   Min.   :  0.547  
##  1st Qu.: 10.86   1st Qu.: 2.500   1st Qu.: 308.55   1st Qu.:  0.714  
##  Median : 18.74   Median : 3.760   Median : 561.97   Median :  7.702  
##  Mean   : 29.75   Mean   : 4.095   Mean   : 948.80   Mean   : 59.477  
##  3rd Qu.: 37.23   3rd Qu.: 4.883   3rd Qu.:1703.29   3rd Qu.:128.691  
##  Max.   :109.45   Max.   :10.000   Max.   :3222.69   Max.   :306.921  
##       TXCA         
##  Min.   :-15.7440  
##  1st Qu.:  0.3165  
##  Median :  4.2175  
##  Mean   :  3.7238  
##  3rd Qu.:  6.6930  
##  Max.   : 25.0070

head(petrole1)

##        PB TXCH   PIBH    CN  TXCA
## 1960 1.63 2.43  92.96 0.714 0.720
## 1961 1.57 2.41  96.98 0.714 0.192
## 1962 1.52 2.44 104.39 0.714 4.103
## 1963 1.50 2.47 107.54 0.714 8.579
## 1964 1.45 2.50 113.17 0.714 4.950
## 1965 1.42 2.45 117.19 0.714 4.885

Pour les données qualitatives, nous avons d’abord procédé à l’annulation des variables quantitatives puis déployé cette même technique d’imputation de données par l’approche des K plus proches voisins.

setwd("D:/Insseds/Dataframe") # pour charger le chemin du jeu de données
petrole2 <- read.table("petrole_ql.csv",header=TRUE,sep=";",check.names=FALSE, row.names=1,stringsAsFactors = TRUE)
summary(petrole2)

##        PB                   BC          TXCH             PIBH        
##  Min.   :  1.21   defavorable:22   Min.   : 2.360   Min.   :  92.96  
##  1st Qu.: 10.86   favorable  :35   1st Qu.: 2.500   1st Qu.: 283.00  
##  Median : 18.74   NA's       : 3   Median : 3.760   Median : 561.97  
##  Mean   : 29.75                    Mean   : 4.095   Mean   : 963.54  
##  3rd Qu.: 37.23                    3rd Qu.: 4.883   3rd Qu.:1797.04  
##  Max.   :109.45                    Max.   :10.000   Max.   :3222.69  
##                                                     NA's   :2        
##        CN                 SB          TXCA                     BP    
##  Min.   :  0.547   deficit :22   Min.   :-15.7440   desequilibre:16  
##  1st Qu.:  0.714   excedent:37   1st Qu.:  0.3165   equilibre   :42  
##  Median :  7.365   NA's    : 1   Median :  4.2175   NA's        : 2  
##  Mean   : 58.225                 Mean   :  3.7238                    
##  3rd Qu.:124.615                 3rd Qu.:  6.6930                    
##  Max.   :306.921                 Max.   : 25.0070                    
##  NA's   :1

library(DMwR2)
petrole2$TXCA = NULL
petrole2$TXCH = NULL
petrole2$CN = NULL
petrole2$PIBH = NULL
petrole2$PB = NULL
head(petrole2)

##               BC       SB        BP
## 1960 defavorable excedent equilibre
## 1961 defavorable excedent equilibre
## 1962 defavorable excedent equilibre
## 1963 defavorable excedent equilibre
## 1964 defavorable excedent equilibre
## 1965 defavorable excedent equilibre

library(VIM)
petrole2<- kNN(petrole2)
head(petrole2)

##            BC       SB        BP BC_imp SB_imp BP_imp
## 1 defavorable excedent equilibre  FALSE  FALSE  FALSE
## 2 defavorable excedent equilibre  FALSE  FALSE  FALSE
## 3 defavorable excedent equilibre  FALSE  FALSE  FALSE
## 4 defavorable excedent equilibre  FALSE  FALSE  FALSE
## 5 defavorable excedent equilibre  FALSE  FALSE  FALSE
## 6 defavorable excedent equilibre  FALSE  FALSE  FALSE

Reconstitution du jeu de données sans valeurs manquantes

Après le traitement des valeurs manquantes, nous avons reconstitué le jeu de données en un nouveau qui contient les valeurs générées au titre des valeurs manqauntes qualitatives comme quantitatives. Nous l’appelerons “rescol”. C’est ce nouveau jeu de données que nous allons utilsé pour la suite du traitement des données en poursuivant cette fois avec le traitement des valeurs abérrantes et des valeurs extrêmes s’il en existait dans le jeu de données.

petrole2<- subset(petrole2, select = BC : BP)
head(petrole2)

##            BC       SB        BP
## 1 defavorable excedent equilibre
## 2 defavorable excedent equilibre
## 3 defavorable excedent equilibre
## 4 defavorable excedent equilibre
## 5 defavorable excedent equilibre
## 6 defavorable excedent equilibre

rescol<-cbind(petrole1,petrole2)
head(rescol)

##        PB TXCH   PIBH    CN  TXCA          BC       SB        BP
## 1960 1.63 2.43  92.96 0.714 0.720 defavorable excedent equilibre
## 1961 1.57 2.41  96.98 0.714 0.192 defavorable excedent equilibre
## 1962 1.52 2.44 104.39 0.714 4.103 defavorable excedent equilibre
## 1963 1.50 2.47 107.54 0.714 8.579 defavorable excedent equilibre
## 1964 1.45 2.50 113.17 0.714 4.950 defavorable excedent equilibre
## 1965 1.42 2.45 117.19 0.714 4.885 defavorable excedent equilibre

summary(rescol)

##        PB              TXCH             PIBH               CN         
##  Min.   :  1.21   Min.   : 2.360   Min.   :  92.96   Min.   :  0.547  
##  1st Qu.: 10.86   1st Qu.: 2.500   1st Qu.: 308.55   1st Qu.:  0.714  
##  Median : 18.74   Median : 3.760   Median : 561.97   Median :  7.702  
##  Mean   : 29.75   Mean   : 4.095   Mean   : 948.80   Mean   : 59.477  
##  3rd Qu.: 37.23   3rd Qu.: 4.883   3rd Qu.:1703.29   3rd Qu.:128.691  
##  Max.   :109.45   Max.   :10.000   Max.   :3222.69   Max.   :306.921  
##       TXCA                    BC            SB                BP    
##  Min.   :-15.7440   defavorable:24   deficit :22   desequilibre:17  
##  1st Qu.:  0.3165   favorable  :36   excedent:38   equilibre   :43  
##  Median :  4.2175                                                   
##  Mean   :  3.7238                                                   
##  3rd Qu.:  6.6930                                                   
##  Max.   : 25.0070

Traitement des valeurs aberrantes et extrêmes

Une seconde étape de l’exploration des données disponibles nous a conduit à traiter les valeurs aberrantes et extrêmes sur les variables quantitatives à savoir PB, PIBH, TXCH, TXCA et CN. Nous appelons valeur aberrante une valeur ou une observation qui est « distante » des autres observations effectuées sur le même phénomène, c’est-à-dire qu’elle contraste grandement avec les valeurs « normalement » mesurées. Leur présence dans les données peut conduire à des estimateurs de paramètres biaisés et, suite à la réalisation de tests statistiques, à une interprétation des résultats erronée. Pouvant être dû à plusieurs facteurs, nous avons pensé utile dans un premier temps de les detecter, puis de les imputer si elles existaient dans notre base de données. La détection desdites données est perceptible comme l’on peut le voir sur notre graphe. Nous avons utilisé les boite à moustache afin de visualiser les débordements observés.

Détection visuelle des valeurs aberrantes et extrêmes

Tous les graphiques présentant des points au-dessus ou en dessous de la boite sont des valeurs aberrantes. Les variables PIBH et CN ne présentent pas de valeurs aberrantes. La variable TXCH présente 01 valeur abérrante 10 sur l’année 1978. La variable PB présente 5 valeurs abberantes 94.10 107.46 109.45 107.85 96.29 sur les observations 49 52 53 54 55. La variable TCA contient également 5 valeurs aberantes -15.744 24.197 25.007 -13.128 -10.924 sur les observations 8 10 11 22 24.Que faire de ces données ? Nous décidons de ne pas supprimer ces valeurs, mais plutôt de les traiter.

library(rpart)
par(mfrow=c(2,3), mar=c(3,3,3,3))
boxplot(rescol$PB)# graph
boxplot(rescol$TXCH)
boxplot(rescol$PIBH)
boxplot(rescol$CN)
boxplot(rescol$TXCA)
par(mfrow=c(1,1), mar=c(0,0,0,0))

Technique d’imputation de données abérrantes par winzorisation

Pour le traitement des données extrêmes de la variable PB et TXCH nous avons choisi de les neutraliser en les ramenant aux bornes supérieures et inférieures de la moustache. Tandis que pour la variable TXCA nous avons utilisé la technique de Winzorisation en les ramenant dans les limites des bornes (inférieure et supérieure) des moutaches.

head(rescol)

##        PB TXCH   PIBH    CN  TXCA          BC       SB        BP
## 1960 1.63 2.43  92.96 0.714 0.720 defavorable excedent equilibre
## 1961 1.57 2.41  96.98 0.714 0.192 defavorable excedent equilibre
## 1962 1.52 2.44 104.39 0.714 4.103 defavorable excedent equilibre
## 1963 1.50 2.47 107.54 0.714 8.579 defavorable excedent equilibre
## 1964 1.45 2.50 113.17 0.714 4.950 defavorable excedent equilibre
## 1965 1.42 2.45 117.19 0.714 4.885 defavorable excedent equilibre

summary(rescol)

##        PB              TXCH             PIBH               CN         
##  Min.   :  1.21   Min.   : 2.360   Min.   :  92.96   Min.   :  0.547  
##  1st Qu.: 10.86   1st Qu.: 2.500   1st Qu.: 308.55   1st Qu.:  0.714  
##  Median : 18.74   Median : 3.760   Median : 561.97   Median :  7.702  
##  Mean   : 29.75   Mean   : 4.095   Mean   : 948.80   Mean   : 59.477  
##  3rd Qu.: 37.23   3rd Qu.: 4.883   3rd Qu.:1703.29   3rd Qu.:128.691  
##  Max.   :109.45   Max.   :10.000   Max.   :3222.69   Max.   :306.921  
##       TXCA                    BC            SB                BP    
##  Min.   :-15.7440   defavorable:24   deficit :22   desequilibre:17  
##  1st Qu.:  0.3165   favorable  :36   excedent:38   equilibre   :43  
##  Median :  4.2175                                                   
##  Mean   :  3.7238                                                   
##  3rd Qu.:  6.6930                                                   
##  Max.   : 25.0070

head(rescol)

##        PB TXCH   PIBH    CN  TXCA          BC       SB        BP
## 1960 1.63 2.43  92.96 0.714 0.720 defavorable excedent equilibre
## 1961 1.57 2.41  96.98 0.714 0.192 defavorable excedent equilibre
## 1962 1.52 2.44 104.39 0.714 4.103 defavorable excedent equilibre
## 1963 1.50 2.47 107.54 0.714 8.579 defavorable excedent equilibre
## 1964 1.45 2.50 113.17 0.714 4.950 defavorable excedent equilibre
## 1965 1.42 2.45 117.19 0.714 4.885 defavorable excedent equilibre

summary(rescol)

##        PB              TXCH             PIBH               CN         
##  Min.   :  1.21   Min.   : 2.360   Min.   :  92.96   Min.   :  0.547  
##  1st Qu.: 10.86   1st Qu.: 2.500   1st Qu.: 308.55   1st Qu.:  0.714  
##  Median : 18.74   Median : 3.760   Median : 561.97   Median :  7.702  
##  Mean   : 29.75   Mean   : 4.095   Mean   : 948.80   Mean   : 59.477  
##  3rd Qu.: 37.23   3rd Qu.: 4.883   3rd Qu.:1703.29   3rd Qu.:128.691  
##  Max.   :109.45   Max.   :10.000   Max.   :3222.69   Max.   :306.921  
##       TXCA                    BC            SB                BP    
##  Min.   :-15.7440   defavorable:24   deficit :22   desequilibre:17  
##  1st Qu.:  0.3165   favorable  :36   excedent:38   equilibre   :43  
##  Median :  4.2175                                                   
##  Mean   :  3.7238                                                   
##  3rd Qu.:  6.6930                                                   
##  Max.   : 25.0070

library(DescTools)
quantile(rescol$PB)

##       0%      25%      50%      75%     100% 
##   1.2100  10.8575  18.7400  37.2275 109.4500

val_max <- (37.2275 )+(1.5*(37.2275 -10.8575))
val_max

## [1] 76.7825

rescol$PB[rescol$PB > 76.7825] <- 76.7825

quantile(rescol$TXCH)

##      0%     25%     50%     75%    100% 
##  2.3600  2.5000  3.7600  4.8825 10.0000

val_max <- (4.8825  )+(1.5*(4.8825  -2.5000    ))
val_max

## [1] 8.45625

rescol$TXCH[rescol$TXCH > 8.45625] <- 8.45625

library(DescTools)
rescol$TXCA <- Winsorize(rescol$TXCA)

par(mfrow=c(2,3), mar=c(3,3,3,3))
boxplot(rescol$PB)
boxplot(rescol$TXCH)
boxplot(rescol$TXCA)
par(mfrow=c(1,1), mar=c(0,0,0,0))

Toutes les valeurs abéreantes et extremes ont été traité comme le montre les graphiques ci-dessus. Nous pouvons à présent réaliser les analyses statistiques descriptives univariées et bivariées de nos données traitées.

Exportation du jeu de données final pour les analyses statistiques

head(rescol)

##        PB TXCH   PIBH    CN  TXCA          BC       SB        BP
## 1960 1.63 2.43  92.96 0.714 0.720 defavorable excedent equilibre
## 1961 1.57 2.41  96.98 0.714 0.192 defavorable excedent equilibre
## 1962 1.52 2.44 104.39 0.714 4.103 defavorable excedent equilibre
## 1963 1.50 2.47 107.54 0.714 8.579 defavorable excedent equilibre
## 1964 1.45 2.50 113.17 0.714 4.950 defavorable excedent equilibre
## 1965 1.42 2.45 117.19 0.714 4.885 defavorable excedent equilibre

# exporter le tableau statistique PB dans Excel
write.csv(rescol,"D:/Insseds/Export Rxls/rescol_final.csv", row.names=TRUE, sep=";" ,dec=",")

PARTIE 1 : ANALYSE STATISTIQUE UNIVARIEE

Cette partie se consacre à analyser les variables prises individuellement et ce, à partir des tableaux de fréquences, des représentations graphiques, ainsi que des différentes caractéristiques de chacune de ces variables. A cet effet, elle se subdivise en deux parties : une première s’intéressant à l’analyse des variables qualitatives et une seconde s’intéressant à l’analyse des variables quantitatives.

A- ANALYSE DES VARIABLES QUALITATIVES

Ces variables seront représentées sous 2 aspects : sous forme de tableaux et sous forme graphique

1- Analyse de la Balance Commerciale (BC)

La balance commerciale est repartie en 2 modalités “favorable et défavorable”. Dans l’ensemble près de 60% des années observées ont présenté une balance commerciale favorable. La balance commerciale a été favorable pendant 36 années en 60 ans. On peut dire que le Nigeria a su vendre plus de baril de petrole et a reçu plus de capitaux. Néanmoins, cette situation laisse entrevoir à l’inverse, que sur 24 années il y a eu diminution de la stabilité financière du pays en raison d’une détérioration des prix du brail de petrole. Cette observation represente 40% des années de l’étude. Alors nous pouvons dire que le pays n’a pas profité plus longtemps d’un niveau stable.

table(rescol$BC) #Tableau des effectifs

## 
## defavorable   favorable 
##          24          36

tab1<-table(rescol$BC)#Tableau des fréquences
prop.table(tab1)

## 
## defavorable   favorable 
##         0.4         0.6

akposso.ql.tableau(rescol$BC) #tableau des effectifs et frequences

##             Effectif Frequence
## defavorable       24       0.4
## favorable         36       0.6

par(mfrow=c(1,2), mar=c(3,3,3,3))
barplot(table(rescol$BC),col="blue",main="Diagramme en barre",xlab="Statut",ylab="FREQUENCE")
pie(table(rescol$BC),main="Diagramme en secteur")

par(mfrow=c(1,1), mar=c(0,0,0,0))

2- Analyse du Solde Budgétaire (SB)

La repartion du solde budgetaire s’est faite entre “déficit et excédent”. Pendant 38 années, donc 63% des observations, le niveau des recettes au Nigéria a été supérieur au niveau des dépenses constatées dans le budget. C’est une performance remarquable qui aurait pu être améliorée avec des pratiques de bonnes gouvernance. Néanmmoins, durant 22 années, les finances publiques n’ont pas suffi pour le paiement des dettes. Il est évident que ce déficit ait pu engendrer une dette considérable par l’accumulation de déficits sur plusieurs années.

table(rescol$SB) #Tableau des effectifs

## 
##  deficit excedent 
##       22       38

tab1<-table(rescol$SB)#Tableau des fréquences
prop.table(tab1)

## 
##   deficit  excedent 
## 0.3666667 0.6333333

akposso.ql.tableau(rescol$SB) #tableau des effectifs et frequences

##          Effectif Frequence
## deficit        22 0.3666667
## excedent       38 0.6333333

par(mfrow=c(1,2), mar=c(3,3,3,3))
barplot(table(rescol$SB),col="blue",main="Diagramme en barre",xlab="Statut",ylab="FREQUENCE")
pie(table(rescol$SB),main="Diagramme en secteur")

par(mfrow=c(1,1), mar=c(0,0,0,0))

B- ANALYSE DES VARIABLES QUANTITATIVES

Cette partie de l’analyse descriptive réservée aux variables quantitatives s’intéressera aux variables PB, PIBH, TXCH, TXCA et CN. Nous avons d’abord pour chacune des variables, fais une representation des données sous forme de tableau statistique afin de ressortir les fréquences et effectifs tant bien cumulés que croissants et décroisssants. Par la suite nous avons representé les données des variables sous forme de graphique pour leur visualisation et enfin sous forme de resumé numerique en mettant en exergue les indicateurs de tendance centrale, les indicateurs de dispersions et les indicateurs de forme.

1- Analyse du Prix du Baril (PB)

1.A - TABLEAU STATISTIQUE ET INTERPRETATION

Cette partie présente les effectifs et fréquences du prix du baril en 60 années. Il est mis ici en évidence la distribution observée des modalités.

L’observation nous montre que pendant 17 années, le prix de baril est resté entre 10 et 20 nairas. Et cela represente les prix de baril les plus pratiqués de la serie de données soit 28% des années. Les prix de baril les plus élévés sont entre 70 et 80 nairas et ont été constaté seulement que sur 6 années soit 10% de notre observation. Tandis que les prix les plus faibles sont ceux compris entre 1 et 10 nairas observés sur près de 15 années. Il ressort que sur 75% soit le trois tiers des années observées, les prix du baril ont atteint au plus 40 nairas. Cette dernière observation mise en comparaison avec la classe de prix de les plus élevés, nous pouvons conclure à de faibles prix de baril sur l’ensemble des années.

## Recodage de rescol$PB en rescol$PB_rec5 pour creer un regoupage en classes
rescol$PB_rec5 <- cut(rescol$PB,
  include.lowest = TRUE,
  right = TRUE,
  dig.lab = 4,
  breaks = c(0, 10, 20, 30, 40, 50, 60, 70, 80)
)
akposso.qt.tableau(rescol$PB_rec5)

##         Effectifs Eff_Cum_crois Eff_Cum_decrois  Frequence Freq_Cum_crois
## [0,10]         14            14              60 0.23333333      0.2333333
## (10,20]        17            31              54 0.28333333      0.5166667
## (20,30]        10            41              49 0.16666667      0.6833333
## (30,40]         4            45              47 0.06666667      0.7500000
## (40,50]         2            47              45 0.03333333      0.7833333
## (50,60]         2            49              41 0.03333333      0.8166667
## (60,70]         5            54              31 0.08333333      0.9000000
## (70,80]         6            60              14 0.10000000      1.0000000
##         Freq_Cum_decrois
## [0,10]         1.0000000
## (10,20]        0.9000000
## (20,30]        0.8166667
## (30,40]        0.7833333
## (40,50]        0.7500000
## (50,60]        0.6833333
## (60,70]        0.5166667
## (70,80]        0.2333333

# exporter le tableau statistique PB dans Excel
rescol_PB = round(akposso.qt.tableau(rescol$PB_rec5),2)
write.table(rescol_PB,"D:/Insseds/Export Rxls/Tb_rescol_PB.csv", row.names=TRUE, sep=";" ,dec=",")

1.B -REPRESENTATION GRAPHIQUE ET INTERPRETATION

L’analyse graphique du prix du baril s’est faite par classe avec un histogramme relevant les effectifs pour chacune des proportions de prix. On observe une dispersion des prix du baril qui s’étend de 1 à 80 nairas. Cette représentation laisse percevoir que pendant relativement une quinzaine d’année le prix du baril est resté longtemps et fortement concentré entre 10 et 20 nairas. Tandis que le nombre d’années pendant lesquelles le pays a pratiqué les meilleurs prix du baril entre 60 et 80 nairas s’élève à 11 et représente environ 20% sur l’ensemble. Nous relevons également une stagnation des prix du baril sur une période relativement courte mais avec un prix de baril au dessus de 40 nairas atteingant même les 60 nairas. Pendant de nombreuses années le pays a relativement connu un faible prix de baril. Nous dirons que le nombre d’années avec des prix de baril faibles restent plus élevés que le nombre des années avec des prix de baril en croissance.

akposso.qt.graph(rescol$PB)

1.C -INDICATEURS ET INTERPRETATION

Cette section présente les indicateurs de tendance centrale (on décrira des mesures statistiques autour desquelles se concentrent les prix du baril), les indicateurs de dispersion (On appellera dispersion statistique, la tendance qu’ont les prix du baril à s’étaler, à se disperser, de part et d’autre d’une valeur centrale comme la moyenne, la mediane) et les indicateurs de forme ( ce sont des tests de normalité pour vérifier l’irrégularité et l’asymétrie de la distribution) relatives à la variable PB.

akposso.qt.resume(rescol$PB)

## $minimum
## [1] 1.21
## 
## $maximum
## [1] 76.7825
## 
## $mode
## [1] 14.91777
## 
## $mediane
## [1] 18.74
## 
## $moyenne
## [1] 27.55292
## 
## $quantile
##      0%     25%     50%     75%    100% 
##  1.2100 10.8575 18.7400 37.2275 76.7825 
## 
## $coefficient_variation
## [1] 89.64439
## 
## $variance
## [1] 610.0725
## 
## $ecart_type
## [1] 24.69965
## 
## $coefficient_assymetrie
## [1] 0.842137
## 
## $interpretation_skewness
## [1] "distribution etalee a droite"
## 
## $coefficent_applatissement
## [1] 2.479247
## 
## $interpretation_kurtosis
## [1] "distribution platikurtique"

1.C.1 - Indicateurs de tendance centrale PB

INDICATEURS	VALEURS	INTERPRETATIONS
Minimum	1,21	Le plus bas prix de baril est de 1,21
Maximum	76,7825	Le prix du baril le plus élevé est de 76,7825
Mode	14,91777	Le prix de baril le plus pratiqué est de 14,91777
1er Quartile Q1	10,8575	Sur les 25% des 60 années de l’étude, soit le ¼ de l’effectif total, les prix du baril ont atteint un maximum de 10,8575
Médiane (2ème Quartile Q2)	18,74	Sur les 60 années, 50% des prix du baril sont restés inférieurs ou égaux à 18,74 et 50% ont dépassé le prix de 18,74
3ème Quartile Q3	37,2275	Sur les 75% des 60 années de l’étude, soit le ¾ de l’effectif total, les prix du baril ont atteint un maximum de 37,2275
Moyenne	27,55292	Le prix moyen du baril en 60 années s’éleve à 27,55292

1.C.2 -Indicateurs de dispersion PB

INDICATEURS	VALEURS	INTERPRETATIONS
Etendue	75,5725	L’écart entre la valeur maximale et la valeur minimale du prix du baril étant très grand, nous en déduisons que les prix du baril sont très dispersés et non-homogènes.
Variance	610,0725	La dispersion des prix du baril est très importante sur les années observées
Ecart type	24,69965	Le prix moyen du baril étant de 27,55292, l’écart-type de 24,69965 indique que les prix du brail sont très dispersés autour de la moyenne. Ils varient dans un intervalle fermé entre [27,55292– 24,69965; 27,55292+24,69965] Soit entre [2,85327 ; 52,25257]. Cette dispersion se confirmera effectivement avec le coefficient de variation qui sera certainement élevé
Coefficiant de variation	89,64439	Le coefficient de variation est de 89,64439%, ce qui indique la distribution est très hétérogène (les prix du baril sont très disparates)
Intervalle interquartile	26,37	Sur la moitié des 60 années le prix de baril est compris entre 10,8575 et 37,2275 avec un écart de 26,37

1.C.3 -Indicateurs de forme PB

INDICATEURS	VALEURS	INTERPRETATIONS
Coefficient d’asymetrie	0,842137	Le coefficient d’asymétrie est positif. Ce qui veut dire que notre distribution est étalée à droite et donc la majorité des effectifs sont concentrées à droite de la moyenne. Ce qui confirme que plus de 80% des prix du baril pratiqués sont restés largement supérieurs à la moyenne.
Coefficient d’applatissement	2,479247	distribution platikurtique . Nous avons donc une forte variation voire une distribution relativement hétérogène des prix du baril qui s’éloignent de la moyenne.

2- Analyse du Produit interieur brut par habitant (PIBH)

1.A -TABLEAU STATISTIQUE ET INTERPRETATION

Le PIBH est resté largement concentré entre 0 et 500 pendant 25 années soit un peu plus de 40% de l’observation globale. Cela représente 40% environ de l’ensemble des années de l’observation. Cette valeur du PIBH est largement faible au regard du pic du PIBH compris entre 3000 et 3500. Seulement le constat est que les meilleures performances du PIBH ne durent qu’autour de 5 ans. C’est le cas par exemple si nous observons les données du PIBH avec une valeur à partir de 2000.

## Recodage de rescol$PIBH en rescol$PIBH_rec pour creer un regoupage en classes
rescol$PIBH_rec <- cut(rescol$PIBH,
  include.lowest = TRUE,
  right = TRUE,
  dig.lab = 4,
  breaks = c(0, 500, 1000, 1500, 2000, 2500, 3000, 3500)
)

akposso.qt.tableau(rescol$PIBH_rec)

##             Effectifs Eff_Cum_crois Eff_Cum_decrois  Frequence Freq_Cum_crois
## [0,500]            25            25              60 0.41666667      0.4166667
## (500,1000]         16            41              59 0.26666667      0.6833333
## (1000,1500]         3            44              55 0.05000000      0.7333333
## (1500,2000]         5            49              49 0.08333333      0.8166667
## (2000,2500]         6            55              44 0.10000000      0.9166667
## (2500,3000]         4            59              41 0.06666667      0.9833333
## (3000,3500]         1            60              25 0.01666667      1.0000000
##             Freq_Cum_decrois
## [0,500]            1.0000000
## (500,1000]         0.9833333
## (1000,1500]        0.9166667
## (1500,2000]        0.8166667
## (2000,2500]        0.7333333
## (2500,3000]        0.6833333
## (3000,3500]        0.4166667

# exporter le tableau statistique PB dans Excel
rescol_PIBH = round(akposso.qt.tableau(rescol$PIBH_rec),2)
write.table(rescol_PIBH,"D:/Insseds/Export Rxls/Tb_rescol_PIBH.csv", row.names=TRUE, sep=";" ,dec=",")

1.B -REPRESENTATION GRAPHIQUE ET INTERPRETATION

L’analyse nous fait observer une plus forte concentration des années avec un PIBH dont le maximum est de 500. Cela est suivie d’une forte concentration des années où le PIBH est entre 500 et 1000. Le PIBH est resté supérieur à 1500 pendant plus d’une quinzaine d’années. Seulement le constat frappant est que le Nigéria n’est pas parvenu à maintenir plus longtemps et en évolution les périodes où le PIBH a augmenté au dessus de 2000. Cette étude nous fait constater un faible PIBH dans l’ensemble. Nous pouvons affirmer les périodes de performance du PIBH sont restées de très courtes durées.

akposso.qt.graph(rescol$PIBH)

1.C -INDICATEURS ET INTERPRETATION

Cette section présente les indicateurs de tendance centrale (on décrira des mesures statistiques autour desquelles se concentrent les produit interieur brut par habitant), les indicateurs de dispersion (On appellera dispersion statistique, la tendance qu’ont les prix du baril à s’étaler, à se disperser, de part et d’autre d’une valeur centrale comme la moyenne, la mediane) et les indicateurs de forme ( ce sont des tests de normalité pour vérifier l’irrégularité et l’asymétrie de la distribution) relatives à la variable PIBH.

akposso.qt.resume(rescol$PIBH)

## $minimum
## [1] 92.96
## 
## $maximum
## [1] 3222.69
## 
## $mode
## [1] 424.2753
## 
## $mediane
## [1] 561.965
## 
## $moyenne
## [1] 948.7965
## 
## $quantile
##       0%      25%      50%      75%     100% 
##   92.960  308.545  561.965 1703.293 3222.690 
## 
## $coefficient_variation
## [1] 93.01643
## 
## $variance
## [1] 778871
## 
## $ecart_type
## [1] 882.5367
## 
## $coefficient_assymetrie
## [1] 1.026814
## 
## $interpretation_skewness
## [1] "distribution etalee a droite"
## 
## $coefficent_applatissement
## [1] 2.745926
## 
## $interpretation_kurtosis
## [1] "distribution platikurtique"

1.C.1 -Indicateurs de tendance centrale PIBH

INDICATEURS	VALEURS	INTERPRETATIONS
Minimum	92,96	Le PIBH le plus bas en 60 ans est de 92,96
Maximum	3222,69	Le PIBH le plus élevé en 60 ans est de 3222,69
Mode	424,2753	Le PIBH le plus pratiqué est de 424,2753
1er Quartile Q1	308,545	Sur les 25% des 60 années de l’étude, soit le ¼ de l’effectif total, le PIBH a atteint un maximum de 308,545
Médiane (2ème Quartile Q2)	561,965	Sur les 60 années, 50% du PIBH sont restés inférieurs ou égaux à 561,965 et 50% ont dépassé le prix de 561,965
3ème Quartile Q3	1703,293	Sur les 75% des 60 années de l’étude, soit le ¾ de l’effectif total, le PIBH a atteint un maximum de 1703,293
Moyenne	948,7965	Le PIBH moyen en 60 années s’éleve à 948,7965

1.C.2 -Indicateurs de dispersion PIBH

INDICATEURS	VALEURS	INTERPRETATIONS
Etendue	3129,73	L’écart entre la valeur maximale et la valeur minimale du PIBH étant très grand, nous en déduisons que le PIBH est très dispersés et non-homogène.
Variance	778871	La dispersion du PIBH est très importante sur les années observées
Ecart type	882,5367	Le PIBH moyen étant de 948,7965, l’écart-type de 882,5367 indique que les valeurs du PIBH sont très dispersés autour de la moyenne. Ils varient dans un intervalle fermé entre [948,7965– 882,5367; 948,7965+882,5367] Soit entre [66,2598; 1831,3332] Cette dispersion se confirmera effectivement avec le coefficient de variation qui sera certainement élevé
Coefficiant de variation	93,01643	Le coefficient de variation est de 93,01643%, ce qui indique la distribution est très hétérogène (les valeurs du PIBH sont très disparates disparates)
Intervalle interquartile	1394,747	Sur la moitié des 60 années le prix de baril est compris entre 308,545 et 1703,293 avec un écart de 1394,747

1.C.3 -Indicateurs de forme PIBH

INDICATEURS	VALEURS	INTERPRETATIONS
Coefficient d’asymetrie	1,026814	Le coefficient d’asymétrie est positif. Ce qui veut dire que notre distribution est étalée à droite et donc la majorité des effectifs sont concentrées à droite de la moyenne
Coefficient d’applatissement	2,745926	distribution platikurtique

PARTIE II : ANALYSES STATISTIQUES BIVARIEES

Faire une analyse bivariée revient à étudier la relation entre deux variables : sont-elles liées ? Les valeurs de l’une influencent-elles les valeurs de l’autre ? ou sont-elles au contraire indépendantes ? Cette partie se consacre à analyser la variable d’intérêt PB avec les autres variables. Il s’agit de s’intéresser au lien qui peut exister entres cette variable et d’autres.

A- ANALYSE DES VARIABLES QUANTITATIVES

Nous réaliserons nos analyses des variables concernées sous forme de tableaux et sous forme graphique.

1- Analyse de la liaison entre PB et PIBH

Nous nous sommes posé ici la question de savoir si l’évolution du Prix du baril (PB) est liée au Produit interieur brut par habitant (PIBH). Nous avons représenté la distribution des prix du baril selon le produit intérieur brut par habitant.

1.A Représentation des données sous forme de nuage de points et ajustement linéaire

Un nuage de points ou diagramme de dispersion est une représentation graphique dans un repère du plan d’une série statistique à deux variables X et Y. Chaque individu i est représenté par un point dont les coordonnées sont les valeurs respectives des variables X et Y prises par l’individu i. En observant, l’allure du nuage de points révèle s’il existe une liaison ou non entre les deux variables quantitatives.

A la lecture du Graphique, nous remarquons que les points sont disposés positivement. Ici on peut dire que lorsque le PB augmente, alors le PIBH augmente également. Nous avons donc une corrélation positive.

PB_PIBH<-data.frame(rescol$PB, rescol$PIBH)
PB_PIBH #Tableau statistique

##    rescol.PB rescol.PIBH
## 1     1.6300     92.9600
## 2     1.5700     96.9800
## 3     1.5200    104.3900
## 4     1.5000    107.5400
## 5     1.4500    113.1700
## 6     1.4200    117.1900
## 7     1.3600    124.3100
## 8     1.3300     99.4100
## 9     1.3200     97.2000
## 10    1.2700    121.2500
## 11    1.2100    224.1000
## 12    1.7000    160.2500
## 13    1.8200    209.2300
## 14    2.7000    252.2300
## 15   11.0000    402.8500
## 16   10.4300    364.7894
## 17   11.6000    556.7000
## 18   12.5000    536.2200
## 19   12.7900    527.3100
## 20   29.1900    662.2600
## 21   35.5200    874.4000
## 22   34.0000   2180.2000
## 23   32.3800   1843.9100
## 24   29.0400   1222.6300
## 25   28.2000    677.8232
## 26   27.0100    882.5200
## 27   13.5300    639.0100
## 28   17.7300    598.2600
## 29   14.2400    549.2400
## 30   17.3100    474.2300
## 31   22.2600    567.2300
## 32   18.6200    502.9100
## 33   18.4400    477.1800
## 34   16.3300    270.2200
## 35   15.5300    321.3200
## 36   16.8600    408.1800
## 37   20.2900    461.5200
## 38   18.8600    479.9800
## 39   12.2800    469.4300
## 40   17.4400    497.8400
## 41   27.6000    567.9300
## 42   23.1200    590.3800
## 43   24.3600    741.7500
## 44   28.1000    795.3900
## 45   36.0500   1007.8700
## 46   50.5900   1268.3800
## 47   61.0000   1656.4200
## 48   69.0400   1883.4600
## 49   76.7825   2242.8700
## 50   60.8600   1891.3400
## 51   76.7825   2292.4500
## 52   76.7825   2520.4000
## 53   76.7825   2746.9900
## 54   76.7825   2998.0700
## 55   76.7825   3222.6900
## 56   49.4900   2730.4300
## 57   40.7600   2176.0000
## 58   52.5100   1968.5600
## 59   69.7800   2028.1800
## 60   64.0400   2229.8590

plot(PB~PIBH,data=rescol)

library(ggplot2)
# Nuage de points simples
ggplot(rescol, aes(x=PIBH,y=PB))+
  geom_point(col="blue")+
  scale_x_log10()

#Visualiser les corrélations deux a deux
cor <- data.frame(rescol$PB, rescol$PIBH)
library(GGally)
library(ggplot2)
ggpairs(cor)

On voit que les deux variables suivent une loi de distribution normale. Nous allons donc au-delà de cette analyse graphique, procéder à une analyse numérique pour mesurer la liaison à travers le calcul de la correlation par le coefficiant de Pearson.

1.B Représentation des données sous forme de résumé numérique

Cette étape présentera les indicateurs de liaison à savoir la covariance, le coefficiant de correlation linéaire et le coefficiant de détermination.

Cov(rescol$PB, rescol$PIBH)

## [1] 20320.78

akposso.2qT.liaison(rescol$PB, rescol$PIBH)

## $Correlation_Pearson
## [1] 0.9322168
## 
## $Correlation_Spearman
## [1] 0.9465009
## 
## $Correlation_Kendall
## [1] 0.7971703
## 
## $Coefficient_Determination
## [1] 0.8690282
## 
## $Interpretation_Intensite_Liaison
## [1] "liaison tres forte"
## 
## $Coefficents_Droite_Regression
## (Intercept)    vecteur2 
##  2.79876942  0.02609005 
## 
## $Resultat_Test_Liaison
## 
##  Pearson's product-moment correlation
## 
## data:  vecteur2 and vecteur1
## t = 19.617, df = 58, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.8886461 0.9591083
## sample estimates:
##       cor 
## 0.9322168 
## 
## 
## $p.value
## [1] 2.791949e-27
## 
## $Significacite_Liaison
## [1] "liaison significative"
## 
## $Remarque
## [1] "Si la liaison n?est pas significative, Ne pas tenir compte de son intensite"

INDICATEURS	VALEURS	INTERPRETATIONS
Covariance	20320,78	La valeur 20320,78 est positive, ce qui signifie que les paires de valeurs x et y varient dans le même sens autour de leur moyenne respective. La relation linéaire entre les variables PB et PIBH est également positive. C’est-à-dire plus le prix du baril augmente, plus le PIBH augmente également. Mais comme les données ne sont pas standardisées, nous ne pouvons pas utiliser les statistiques de la covariance pour évaluer l’importance de la relation linéaire. Pour évaluer la force d’une relation entre les variables PB et PIBH à l’aide d’une échelle normalisée allant de −1 à +1, nous allons utiliser la corrélation. L’estimation de la force et du sens de la relation entre deux variables est calculée à l’aide du coefficient de corrélation
Coéfficiant de correlation Pearson	0,9322168	Ce coefficient basée sur la covariance, n’en n’est simplement qu’une standardisation. Le coefficient de corrélation entre x et y est 0,9322168. Le coefficiant est de 0,9322168 ce qui signifie qu’il y a une forte corrélation linéaire entre le PB et le PIBH et cette corrélation est positive. Il existe un très forte liaison
Coefficient de détermination	0,8690282	𝒓^𝟐=0,8690282 ce qui signifie que la variabilité de y (PIBH) est expliquée à 86,70% par la variabilité de x (PB). Cela signifie que 86,70% des variabilités du PIBH est expliquée par la variabilité du PB d’où une très forte liaison.
Test de significativité de la correlation	10,8575	La P-value résultant de ce test est de 2,791949e-27. Cette valeur étant inférieure à 0.05, on rejette 𝐻0 et on accepte 𝐻1, c’est-à-dire le coefficient de corrélation est significativement différent de zéro. Autrement dit, le lien entre le PB et le PIBH est très significatif ou est très fiable à l’échelle de la population toute entière. Cette corrélation est estimée à 0,8690282 au niveau échantillonnal et sa vraie valeur au niveau de la population est comprise entre [0,8886461; 0,9591083]. Donc un intervalle de confiance de 95%
Coefficient d’applatissement	2,479247	Plus la valeur de p est petite, plus la probabilité de faire une erreur en rejetant l’hypothèse nulle est faible. Une valeur limite de 0,05 est souvent utilisée. Autrement dit, vous pouvez rejeter l’hypothèse nulle si la valeur de p est inférieure à 0,05. Dans notre exemple avec le test t, la statistique de test est une fonction de la moyenne, et la valeur de p est de 0,026. Cela signifie que, pour 2,6 % des échantillons d’effectif 35 et provenant de la population où µ = 25, la moyenne obtenue fournirait au moins autant de preuves permettant de conclure que µ n’est pas égal à 25 que celle de l’échantillon actuel. A vous ensuite de vous demander s’il est plus probable que µ = 25 et que vous ayez simplement choisi un échantillon très inhabituel, ou que µ ne soit pas égal à 25.

2- Analyse de la liaison entre PB et TXCA

Nous nous sommes posé ici la question de savoir si l’évolution du TXCA est liée au PB. Nous avons représenté la distribution des prix du baril selon le produit intérieur brut par habitant.

2.A Représentation des données sous forme de nuage de points et ajustement linéaire

A la lecture du Graphique, nous remarquons que les points sont disposés positivement. Ici on peut dire que lorsque le PB augmente, alors le TXCH augmente également. Nous avons donc une corrélation positive.

PB_TXCA<-data.frame(rescol$PB, rescol$TXCA)
PB_TXCA #Tableau statistique

##    rescol.PB rescol.TXCA
## 1     1.6300     0.72000
## 2     1.5700     0.19200
## 3     1.5200     4.10300
## 4     1.5000     8.57900
## 5     1.4500     4.95000
## 6     1.4200     4.88500
## 7     1.3600    -4.25100
## 8     1.3300    -7.00905
## 9     1.3200    -1.24800
## 10    1.2700    14.29255
## 11    1.2100    14.29255
## 12    1.7000    14.23800
## 13    1.8200     3.36400
## 14    2.7000     5.39300
## 15   11.0000    11.16100
## 16   10.4300    -5.22800
## 17   11.6000     9.04200
## 18   12.5000     6.02400
## 19   12.7900    -5.76400
## 20   29.1900     6.75900
## 21   35.5200     4.20500
## 22   34.0000    -7.00905
## 23   32.3800    -6.80300
## 24   29.0400    -7.00905
## 25   28.2000    -1.11600
## 26   27.0100     5.91300
## 27   13.5300     0.06100
## 28   17.7300     3.20000
## 29   14.2400     7.33400
## 30   17.3100     1.91900
## 31   22.2600    11.77700
## 32   18.6200     0.35800
## 33   18.4400     4.63100
## 34   16.3300    -2.03500
## 35   15.5300    -1.81500
## 36   16.8600    -0.07300
## 37   20.2900     4.19600
## 38   18.8600     2.93700
## 39   12.2800     2.58100
## 40   17.4400     0.58400
## 41   27.6000     5.01600
## 42   23.1200     5.91800
## 43   24.3600    14.29255
## 44   28.1000     7.34700
## 45   36.0500     9.25100
## 46   50.5900     6.43900
## 47   61.0000     6.05900
## 48   69.0400     6.59100
## 49   76.7825     6.76400
## 50   60.8600     8.03700
## 51   76.7825     8.00600
## 52   76.7825     5.30800
## 53   76.7825     4.23000
## 54   76.7825     6.67100
## 55   76.7825     6.31000
## 56   49.4900     2.65300
## 57   40.7600    -1.61700
## 58   52.5100     0.80600
## 59   69.7800     1.92300
## 60   64.0400     2.20800

plot(PB~TXCA,data=rescol)

library(ggplot2)
# Nuage de points simples
ggplot(rescol, aes(x=TXCA,y=PB))+
  geom_point(col="blue")+
  scale_x_log10()

#Visualiser les corrélations deux a deux
cor <- data.frame(rescol$PB, rescol$TXCA)
library(GGally)
library(ggplot2)
ggpairs(cor)

1.B Représentation des données sous forme de résumé numérique

Cette étape présentera les indicateurs de liaison à savoir la covariance, le coefficiant de correlation linéaire et le coefficiant de détermination.

Cov(rescol$PB, rescol$PIBH)

## [1] 20320.78

akposso.2qT.liaison(rescol$PB, rescol$PIBH)

## $Correlation_Pearson
## [1] 0.9322168
## 
## $Correlation_Spearman
## [1] 0.9465009
## 
## $Correlation_Kendall
## [1] 0.7971703
## 
## $Coefficient_Determination
## [1] 0.8690282
## 
## $Interpretation_Intensite_Liaison
## [1] "liaison tres forte"
## 
## $Coefficents_Droite_Regression
## (Intercept)    vecteur2 
##  2.79876942  0.02609005 
## 
## $Resultat_Test_Liaison
## 
##  Pearson's product-moment correlation
## 
## data:  vecteur2 and vecteur1
## t = 19.617, df = 58, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.8886461 0.9591083
## sample estimates:
##       cor 
## 0.9322168 
## 
## 
## $p.value
## [1] 2.791949e-27
## 
## $Significacite_Liaison
## [1] "liaison significative"
## 
## $Remarque
## [1] "Si la liaison n?est pas significative, Ne pas tenir compte de son intensite"

INDICATEURS	VALEURS	INTERPRETATIONS
Covariance	20320,78	La valeur 20320,78 est positive, ce qui signifie que les paires de valeurs x et y varient dans le même sens autour de leur moyenne respective. La relation linéaire entre les variables PB et PIBH est également positive. C’est-à-dire plus le prix du baril augmente, plus le PIBH augmente également. Mais comme les données ne sont pas standardisées, nous ne pouvons pas utiliser les statistiques de la covariance pour évaluer l’importance de la relation linéaire. Pour évaluer la force d’une relation entre les variables PB et PIBH à l’aide d’une échelle normalisée allant de −1 à +1, nous allons utiliser la corrélation. L’estimation de la force et du sens de la relation entre deux variables est calculée à l’aide du coefficient de corrélation
Coéfficiant de correlation Pearson	0,9322168	Ce coefficient basée sur la covariance, n’en n’est simplement qu’une standardisation. Le coefficient de corrélation entre x et y est 0,9322168. Le coefficiant est de 0,9322168 ce qui signifie qu’il y a une forte corrélation linéaire entre le PB et le PIBH et cette corrélation est positive. Il existe un très forte liaison
Coefficient de détermination	0,8690282	𝒓^𝟐=0,8690282 ce qui signifie que la variabilité de y (PIBH) est expliquée à 86,70% par la variabilité de x (PB). Cela signifie que 86,70% des variabilités du PIBH est expliquée par la variabilité du PB d’où une très forte liaison.
Test de significativité de la correlation	10,8575	La P-value résultant de ce test est de 2,791949e-27. Cette valeur étant inférieure à 0.05, on rejette 𝐻0 et on accepte 𝐻1, c’est-à-dire le coefficient de corrélation est significativement différent de zéro. Autrement dit, le lien entre le PB et le PIBH est très significatif ou est très fiable à l’échelle de la population toute entière. Cette corrélation est estimée à 0,8690282 au niveau échantillonnal et sa vraie valeur au niveau de la population est comprise entre [0,8886461; 0,9591083]. Donc un intervalle de confiance de 95%
Coefficient d’applatissement	2,479247	Plus la valeur de p est petite, plus la probabilité de faire une erreur en rejetant l’hypothèse nulle est faible. Une valeur limite de 0,05 est souvent utilisée. Autrement dit, vous pouvez rejeter l’hypothèse nulle si la valeur de p est inférieure à 0,05. Dans notre exemple avec le test t, la statistique de test est une fonction de la moyenne, et la valeur de p est de 0,026. Cela signifie que, pour 2,6 % des échantillons d’effectif 35 et provenant de la population où µ = 25, la moyenne obtenue fournirait au moins autant de preuves permettant de conclure que µ n’est pas égal à 25 que celle de l’échantillon actuel. A vous ensuite de vous demander s’il est plus probable que µ = 25 et que vous ayez simplement choisi un échantillon très inhabituel, ou que µ ne soit pas égal à 25.

3- Analyse de la liaison entre PB et BC

Nous nous sommes posé ici la question de savoir si l’évolution du TXCA est liée au PB. Nous avons représenté la distribution des prix du baril selon le produit intérieur brut par habitant.

2.A Représentation des données sous forme de nuage de points et ajustement linéaire

PB_TXCA<-data.frame(rescol$PB, rescol$TXCA)
PB_TXCA #Tableau statistique

##    rescol.PB rescol.TXCA
## 1     1.6300     0.72000
## 2     1.5700     0.19200
## 3     1.5200     4.10300
## 4     1.5000     8.57900
## 5     1.4500     4.95000
## 6     1.4200     4.88500
## 7     1.3600    -4.25100
## 8     1.3300    -7.00905
## 9     1.3200    -1.24800
## 10    1.2700    14.29255
## 11    1.2100    14.29255
## 12    1.7000    14.23800
## 13    1.8200     3.36400
## 14    2.7000     5.39300
## 15   11.0000    11.16100
## 16   10.4300    -5.22800
## 17   11.6000     9.04200
## 18   12.5000     6.02400
## 19   12.7900    -5.76400
## 20   29.1900     6.75900
## 21   35.5200     4.20500
## 22   34.0000    -7.00905
## 23   32.3800    -6.80300
## 24   29.0400    -7.00905
## 25   28.2000    -1.11600
## 26   27.0100     5.91300
## 27   13.5300     0.06100
## 28   17.7300     3.20000
## 29   14.2400     7.33400
## 30   17.3100     1.91900
## 31   22.2600    11.77700
## 32   18.6200     0.35800
## 33   18.4400     4.63100
## 34   16.3300    -2.03500
## 35   15.5300    -1.81500
## 36   16.8600    -0.07300
## 37   20.2900     4.19600
## 38   18.8600     2.93700
## 39   12.2800     2.58100
## 40   17.4400     0.58400
## 41   27.6000     5.01600
## 42   23.1200     5.91800
## 43   24.3600    14.29255
## 44   28.1000     7.34700
## 45   36.0500     9.25100
## 46   50.5900     6.43900
## 47   61.0000     6.05900
## 48   69.0400     6.59100
## 49   76.7825     6.76400
## 50   60.8600     8.03700
## 51   76.7825     8.00600
## 52   76.7825     5.30800
## 53   76.7825     4.23000
## 54   76.7825     6.67100
## 55   76.7825     6.31000
## 56   49.4900     2.65300
## 57   40.7600    -1.61700
## 58   52.5100     0.80600
## 59   69.7800     1.92300
## 60   64.0400     2.20800

plot(PB~TXCA,data=rescol)

library(ggplot2)
# Nuage de points simples
ggplot(rescol, aes(x=TXCA,y=PB))+
  geom_point(col="blue")+
  scale_x_log10()

#Visualiser les corrélations deux a deux
cor <- data.frame(rescol$PB, rescol$TXCA)
library(GGally)
library(ggplot2)
ggpairs(cor)

1.B Représentation des données sous forme de résumé numérique

Cette étape présentera les indicateurs de liaison à savoir la covariance, le coefficiant de correlation linéaire et le coefficiant de détermination.

Cov(rescol$PB, rescol$PIBH)

## [1] 20320.78

akposso.2qT.liaison(rescol$PB, rescol$PIBH)

## $Correlation_Pearson
## [1] 0.9322168
## 
## $Correlation_Spearman
## [1] 0.9465009
## 
## $Correlation_Kendall
## [1] 0.7971703
## 
## $Coefficient_Determination
## [1] 0.8690282
## 
## $Interpretation_Intensite_Liaison
## [1] "liaison tres forte"
## 
## $Coefficents_Droite_Regression
## (Intercept)    vecteur2 
##  2.79876942  0.02609005 
## 
## $Resultat_Test_Liaison
## 
##  Pearson's product-moment correlation
## 
## data:  vecteur2 and vecteur1
## t = 19.617, df = 58, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.8886461 0.9591083
## sample estimates:
##       cor 
## 0.9322168 
## 
## 
## $p.value
## [1] 2.791949e-27
## 
## $Significacite_Liaison
## [1] "liaison significative"
## 
## $Remarque
## [1] "Si la liaison n?est pas significative, Ne pas tenir compte de son intensite"

INDICATEURS	VALEURS	INTERPRETATIONS
Covariance	20320,78	La valeur 20320,78 est positive, ce qui signifie que les paires de valeurs x et y varient dans le même sens autour de leur moyenne respective. La relation linéaire entre les variables PB et PIBH est également positive. C’est-à-dire plus le prix du baril augmente, plus le PIBH augmente également. Mais comme les données ne sont pas standardisées, nous ne pouvons pas utiliser les statistiques de la covariance pour évaluer l’importance de la relation linéaire. Pour évaluer la force d’une relation entre les variables PB et PIBH à l’aide d’une échelle normalisée allant de −1 à +1, nous allons utiliser la corrélation. L’estimation de la force et du sens de la relation entre deux variables est calculée à l’aide du coefficient de corrélation
Coéfficiant de correlation Pearson	0,9322168	Ce coefficient basée sur la covariance, n’en n’est simplement qu’une standardisation. Le coefficient de corrélation entre x et y est 0,9322168. Le coefficiant est de 0,9322168 ce qui signifie qu’il y a une forte corrélation linéaire entre le PB et le PIBH et cette corrélation est positive. Il existe un très forte liaison
Coefficient de détermination	0,8690282	𝒓^𝟐=0,8690282 ce qui signifie que la variabilité de y (PIBH) est expliquée à 86,70% par la variabilité de x (PB). Cela signifie que 86,70% des variabilités du PIBH est expliquée par la variabilité du PB d’où une très forte liaison.
Test de significativité de la correlation	10,8575	La P-value résultant de ce test est de 2,791949e-27. Cette valeur étant inférieure à 0.05, on rejette 𝐻0 et on accepte 𝐻1, c’est-à-dire le coefficient de corrélation est significativement différent de zéro. Autrement dit, le lien entre le PB et le PIBH est très significatif ou est très fiable à l’échelle de la population toute entière. Cette corrélation est estimée à 0,8690282 au niveau échantillonnal et sa vraie valeur au niveau de la population est comprise entre [0,8886461; 0,9591083]. Donc un intervalle de confiance de 95%
Coefficient d’applatissement	2,479247	Plus la valeur de p est petite, plus la probabilité de faire une erreur en rejetant l’hypothèse nulle est faible. Une valeur limite de 0,05 est souvent utilisée. Autrement dit, vous pouvez rejeter l’hypothèse nulle si la valeur de p est inférieure à 0,05. Dans notre exemple avec le test t, la statistique de test est une fonction de la moyenne, et la valeur de p est de 0,026. Cela signifie que, pour 2,6 % des échantillons d’effectif 35 et provenant de la population où µ = 25, la moyenne obtenue fournirait au moins autant de preuves permettant de conclure que µ n’est pas égal à 25 que celle de l’échantillon actuel. A vous ensuite de vous demander s’il est plus probable que µ = 25 et que vous ayez simplement choisi un échantillon très inhabituel, ou que µ ne soit pas égal à 25.

Analyse Exploratoire de Données

Attéméné Kouassi_Data Scientist

2022-07-11

Résumé du code et des fonctions statistiques utilisées pour l’analyse exploratoire

AVANT PROPOS

INTRODUCTION GENERALE

PREPARATION PREALABLE DES DONNEES

Dictionnaire des données de l’analyse

Importation du jeu de donées

Traitement des valeurs manquantes dans les données

Imputation de données en remplacement des valeurs manquantes

Reconstitution du jeu de données sans valeurs manquantes

Traitement des valeurs aberrantes et extrêmes

Détection visuelle des valeurs aberrantes et extrêmes

Technique d’imputation de données abérrantes par winzorisation

Exportation du jeu de données final pour les analyses statistiques

PARTIE 1 : ANALYSE STATISTIQUE UNIVARIEE

A- ANALYSE DES VARIABLES QUALITATIVES

1- Analyse de la Balance Commerciale (BC)

2- Analyse du Solde Budgétaire (SB)

B- ANALYSE DES VARIABLES QUANTITATIVES

1- Analyse du Prix du Baril (PB)

1.A - TABLEAU STATISTIQUE ET INTERPRETATION

1.B -REPRESENTATION GRAPHIQUE ET INTERPRETATION

1.C -INDICATEURS ET INTERPRETATION

1.C.1 - Indicateurs de tendance centrale PB

1.C.2 -Indicateurs de dispersion PB

1.C.3 -Indicateurs de forme PB

2- Analyse du Produit interieur brut par habitant (PIBH)

1.A -TABLEAU STATISTIQUE ET INTERPRETATION

1.B -REPRESENTATION GRAPHIQUE ET INTERPRETATION

1.C -INDICATEURS ET INTERPRETATION

1.C.1 -Indicateurs de tendance centrale PIBH

1.C.2 -Indicateurs de dispersion PIBH

1.C.3 -Indicateurs de forme PIBH

PARTIE II : ANALYSES STATISTIQUES BIVARIEES

A- ANALYSE DES VARIABLES QUANTITATIVES

1- Analyse de la liaison entre PB et PIBH

1.A Représentation des données sous forme de nuage de points et ajustement linéaire

1.B Représentation des données sous forme de résumé numérique

2- Analyse de la liaison entre PB et TXCA

2.A Représentation des données sous forme de nuage de points et ajustement linéaire

1.B Représentation des données sous forme de résumé numérique

3- Analyse de la liaison entre PB et BC

2.A Représentation des données sous forme de nuage de points et ajustement linéaire

1.B Représentation des données sous forme de résumé numérique