```#Importing data

donnees_G12 = read.csv(file = "acp_G12b3.csv", header = TRUE, sep = ";", quote = "\"",
                       dec = ",", row.names = 1)
donnees_G12[,1:11]
##       TCD     PRE        TP   IF       TIA      PIB      UP   DCN       TA
## BEN 2.556 1049.02 12.723279 22.2  5.903109 3321.552 3402.00  6900 47.10000
## BFA 2.339  831.04 25.277073 24.5  6.808462 2176.093 2832.85  2400 34.49000
## CPV 0.691  187.82 11.502216 10.8  0.581011 6356.745    5.00   750 91.00000
## CIV 2.475 1299.33  9.733192 22.3  7.685164 5316.464   22.87  2500 89.89342
## GMB 2.341  995.69 17.242134 17.6  9.602858 2076.566  300.61  7000 58.67000
## GHA 1.921 1209.73 25.208553 14.9 10.293030 5420.792 9689.50  2700 80.38000
## GIN 2.485 1790.59 13.820100 27.5 15.766694 2640.344  110.50   340 45.33000
## GNB 2.227 1649.39 25.962856 27.5  5.043369 1831.383   82.00   410 53.90000
## LBR 2.076 2450.19 27.617746 33.3  6.615877 1423.230 1035.56  3700 48.30136
## MLI 3.044  328.92 20.849255 24.7  5.187159 2120.623    3.75 24000 30.76141
## MRT 2.874  110.81 25.354673 22.6  5.773276 1652.000  347.31 23000 66.96000
## NER 3.220  183.89 50.613815 27.5  7.467802 1186.530   34.79 23523 38.10000
## SEN 2.489  722.89  9.926822 16.3  2.908652 3511.637  577.18 12000 57.67000
## SLE 2.246 2654.33 26.062035 31.3 17.019911 1614.860  360.95   800 48.64000
## TGO 2.361 1217.05 26.591830 23.7  8.951274 2130.859 1425.00 16000 66.53708
##              TU      PA
## BEN 0.017789192 1175297
## BFA 0.005845377 2086893
## CPV 0.014777748   54765
## CIV 0.009377223  241095
## GMB 0.033473211 2555332
## GHA 0.024434038 1311530
## GIN 0.005659546  197266
## GNB 0.006979516 2561140
## LBR 0.006774879  507043
## MLI 0.001233430 2018765
## MRT 0.000362413  450720
## NER 0.001037302 2393877
## SEN 0.008135895 1622980
## SLE 0.009886125  802371
## TGO 0.016459287  830017

#Correlation matrix

cor_G12b = cor(donnees_G12[,1:11])

#Application of Principal Component Analysis

library(FactoMineR)
resultat_G12b = PCA(X = donnees_G12, scale.unit = TRUE, ncp = 11, ind.sup = NULL, 
                    quanti.sup = NULL, quali.sup = NULL, row.w = NULL, 
                    col.w = NULL, graph = TRUE, axes = c(1,2))

Rep_PCA <- PCA(donnees_G12[1:11])

summary(Rep_PCA)
## 
## Call:
## PCA(X = donnees_G12[1:11]) 
## 
## 
## Eigenvalues
##                        Dim.1   Dim.2   Dim.3   Dim.4   Dim.5   Dim.6   Dim.7
## Variance               4.267   2.477   1.499   0.871   0.698   0.529   0.267
## % of var.             38.790  22.522  13.626   7.916   6.348   4.808   2.425
## Cumulative % of var.  38.790  61.312  74.938  82.854  89.202  94.010  96.435
##                        Dim.8   Dim.9  Dim.10  Dim.11
## Variance               0.244   0.072   0.062   0.014
## % of var.              2.217   0.650   0.567   0.130
## Cumulative % of var.  98.653  99.303  99.870 100.000
## 
## Individuals (the 10 first)
##         Dist    Dim.1    ctr   cos2    Dim.2    ctr   cos2    Dim.3    ctr
## BEN |  1.713 | -0.611  0.583  0.127 | -0.093  0.023  0.003 |  0.642  1.833
## BFA |  2.047 |  0.921  1.325  0.202 | -0.078  0.016  0.001 |  0.768  2.621
## CPV |  5.518 | -4.833 36.492  0.767 | -1.447  5.635  0.069 | -1.545 10.620
## CIV |  3.079 | -2.071  6.704  0.452 |  0.407  0.447  0.017 | -1.550 10.686
## GMB |  3.243 | -0.639  0.639  0.039 | -0.137  0.051  0.002 |  1.970 17.263
## GHA |  4.664 | -3.077 14.794  0.435 |  0.422  0.479  0.008 |  2.891 37.185
## GIN |  3.030 |  0.439  0.301  0.021 |  2.360 14.982  0.606 | -1.094  5.322
## GNB |  2.389 |  0.925  1.336  0.150 |  0.476  0.611  0.040 |  0.210  0.195
## LBR |  3.009 |  1.090  1.857  0.131 |  2.038 11.180  0.459 | -0.859  3.281
## MLI |  3.297 |  2.300  8.268  0.487 | -1.993 10.692  0.366 | -0.325  0.469
##       cos2  
## BEN  0.140 |
## BFA  0.141 |
## CPV  0.078 |
## CIV  0.253 |
## GMB  0.369 |
## GHA  0.384 |
## GIN  0.130 |
## GNB  0.008 |
## LBR  0.081 |
## MLI  0.010 |
## 
## Variables (the 10 first)
##        Dim.1    ctr   cos2    Dim.2    ctr   cos2    Dim.3    ctr   cos2  
## TCD |  0.804 15.132  0.646 | -0.199  1.601  0.040 |  0.090  0.545  0.008 |
## PRE |  0.069  0.112  0.005 |  0.956 36.888  0.914 | -0.002  0.000  0.000 |
## TP  |  0.669 10.495  0.448 | -0.077  0.242  0.006 |  0.305  6.224  0.093 |
## IF  |  0.780 14.241  0.608 |  0.539 11.725  0.290 | -0.203  2.739  0.041 |
## TIA |  0.245  1.411  0.060 |  0.761 23.402  0.580 |  0.203  2.740  0.041 |
## PIB | -0.918 19.732  0.842 | -0.140  0.787  0.020 | -0.061  0.248  0.004 |
## UP  | -0.363  3.080  0.131 |  0.096  0.371  0.009 |  0.699 32.557  0.488 |
## DCN |  0.543  6.904  0.295 | -0.698 19.654  0.487 | -0.035  0.079  0.001 |
## TA  | -0.834 16.289  0.695 | -0.068  0.188  0.005 | -0.152  1.532  0.023 |
## TU  | -0.584  7.981  0.341 |  0.153  0.946  0.023 |  0.623 25.911  0.388 |
resultat_G12b$eig
##         eigenvalue percentage of variance cumulative percentage of variance
## comp 1  4.26691753             38.7901594                          38.79016
## comp 2  2.47739117             22.5217379                          61.31190
## comp 3  1.49883548             13.6257771                          74.93767
## comp 4  0.87080967              7.9164516                          82.85413
## comp 5  0.69831994              6.3483631                          89.20249
## comp 6  0.52887215              4.8079287                          94.01042
## comp 7  0.26674699              2.4249727                          96.43539
## comp 8  0.24389733              2.2172485                          98.65264
## comp 9  0.07154642              0.6504220                          99.30306
## comp 10 0.06232565              0.5665968                          99.86966
## comp 11 0.01433765              0.1303423                         100.00000
resultat_G12b$loadings
## NULL

contribution et cos2 des variables et individus

##cos2 des variables

library(ggplot2)
library(factoextra)
## Warning: le package 'factoextra' a été compilé avec la version R 4.4.2
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
fviz_pca_var(Rep_PCA, col.var = "cos2" , gradient.col = c("red" , "blue" , "green"), repel = TRUE )

#Ce graphe représente une analyse en composantes principales (ACP) avec deux dimensions principales, dont les flèches représentent les variables et la valeur du cos2 nous montre la qualité de représentions. La direction de la flèche indique le sens de la relation et la longueur indique la force de la contribution de la variable par rapport aux dimensions. Plus une flèche est longue, plus la variable est significativement corrélée avec la dimension considérée, et surtout très bien représenté. Plus une flèche est courte, plus la variable est faiblement corrélée avec la dimension considérée, et surtout mal représenté. L’angle qui est formé par deux variables indique la force et les sens de la corrélation qui existe entre eux. Des flèches longues et proches les unes des autres signalent une corrélation forte et positive (exemple : TA et PIB), tandis que des flèches longues et éloignées ou opposées indiquent des corrélations fortes et négatives. Dans notre cas ici, pour faciliter la compréhension, nous avons associé des couleurs aux variables en fonction de la longueur. Ainsi, plus la couleur est vert, la variable est bien corrélée et bien représenté. Si cette couleur tend vers le bleu, alors la variable est moyennement corrélée et représenté et si la couleur est rouge, la variable est faiblement corrélée et mal représenté.

conrtibution des variables

fviz_pca_var(Rep_PCA, col.var = "contrib" , gradient.col = c("red" , "blue" , "green"), repel = TRUE )

cos2 des individus sur la plan factoriel

fviz_pca_ind(Rep_PCA, col.ind = "cos2", gradient.cols = c("red" , "blue" , "orange"), repel = TRUE)

#Ce graphe représente une analyse en composantes principales (ACP) avec deux dimensions principales, dont les pays représentent les individus étudiés et la valeur du cos2 nous montre la qualité de représentions de ces individus sur le plan factoriel. La Sierra Leone (SLE) : Positionné dans le quadrant supérieur droit, indique une forte influence positive dans la dimension 2. Niger (NER) : En revanche, il est situé dans le quadrant inférieur droit, indique une forte influence sur les deux dimensions. Tous les autres pays se trouvent dans des positions variées, reflétant des performances hétérogènes. Nous avons associé des couleurs pour faciliter la compréhension en matière de représentation. Plus la couleur tend vers l’orange, la représentation est bien faite, mais plus elle tend vers le rouge, la représentation est mal faite. Ainsi, nous pouvons dire que les pays proches les uns des autres sur le graphe partagent des caractéristiques similaires pourraient avoir des attentes ou des performances similaires dans les dimensions considérées.

contribution des individus sur le plan factoriel

fviz_pca_ind(Rep_PCA, col.ind = "contrib", gradient.cols = c("red" , "green" , "purple"), repel = TRUE)

graph de contribution des variables aux dimensions

library(corrplot)
## Warning: le package 'corrplot' a été compilé avec la version R 4.4.2
## corrplot 0.95 loaded
Rep1 <- get_pca_var(Rep_PCA)
corrplot(Rep1$cos2, is.corr = FALSE)

# graph de l’inertie

fviz_eig(Rep_PCA, addlabels = TRUE)

#Le graphe de l’inertie a pour but de nous permettre de déterminer combien de dimensions peuvent être retenues pour expliquer une part assez importante de la variance dans les données. Ainsi, nous remarquons que la première dimension explique 38,8% de la variance, elle est très importante car elle contient presque 40% des informations. La deuxième dimension quant à elle, contient 22,5% de l’information. Et enfin de la troisième à la dixième dimension, contiennent des pourcentages d’informations faibles. Cela peut se remarquer aisément à travers la courbe de tendance qui montre une décroissance rapide au début, illustrant que les premières dimensions sont essentielles pour comprendre la structure des données. Et une fois que l’on atteint la troisième dimension, le pourcentage de variance expliquée devient relativement faible, indiquant qu’ajouter davantage de dimensions ne justifiera pas la complexité. Sur la base de cette analyse, nous avons décidé de prendre les deux premières dimensions qui expliquent à 61.3 % de la variance cumulée des données, soit environ 60% de l’information.

#Graphical display of Principle Component Analysis

library(Factoshiny)
## Le chargement a nécessité le package : shiny
## Le chargement a nécessité le package : FactoInvestigate

Graphs PCA Biplot

fviz_pca_biplot(resultat_G12b, repel = TRUE,
                col.var = "blue",
                col.ind = "red" )

#Ce graphe est un biplot issu d’une analyse en composantes principales (ACP), combinant à la fois le plan factoriel des individus (pays) et le cercle de corrélation des variables. Il existe une relation entre les flèches et les individus. En effet, plus un individu est proche d’une flèche longue, cela indique que ce pays est fortement affecté par cette variable. Nous pouvons donner ici l’exemple de la Sierra Leone (SLE) et la variable précipitation (PRE). À l’inverse, des flèches courtes peuvent indiquer que la variable a une influence limitée sur la répartition des pays. Nous pouvons donner ici l’exemple de la Ghana (GHA) et la variable utilisation des pesticide (UP).

corrélation entre varaibles

library(corrplot)
cor = cor_G12b
corrplot(cor)

#matrice de corrélation

library("clusterSim")
## Warning: le package 'clusterSim' a été compilé avec la version R 4.4.2
## Le chargement a nécessité le package : cluster
## Le chargement a nécessité le package : MASS
library(DataExplorer)
## Warning: le package 'DataExplorer' a été compilé avec la version R 4.4.2
Mul1<- data.Normalization(donnees_G12)
plot_correlation(cor_G12b)

#L’examen approfondi de la matrice de corrélation présentée dans la Figure 6 révèle des relations significatives entre plusieurs variables clés, soulignant ainsi l’interconnectivité des facteurs socio-économiques et environnementaux. Ces corrélations offrent une bonne compréhension des causes qui influencent sur la famine, la croissance économique et le bien-être social de façon générale.  Taux d’Alphabétisation (TA) • Corrélations Positives : o Avec Indice de Faim (IF) : une très forte corrélation indique que lorsque le taux d’alphabétisation augmente, l’indice de faim diminue probablement. Cela montre que l’éducation peut renforcer la sensibilisation aux pratiques alimentaires durables, réduisant ainsi les pertes alimentaires. o Avec Taux d’Urbanisation (TU) : une urbanisation accrue est souvent associée à un meilleur accès à l’éducation, suggérant que la migration vers les villes offre plus d’opportunités éducatives. • Corrélations Négatives : o Avec Taux de Pauvreté (TP) : cela montre qu’une augmentation du taux d’alphabétisation pourrait être associée à une réduction significative du taux de pauvreté. o Avec Taux de Croissance Démographique (TCD): Cela suggère que les communautés avec un taux d’alphabétisation élevé peuvent avoir un taux de croissance démographique plus bas, possiblement en raison d’une meilleure planification familiale et d’une éducation à la santé reproductive.  Taux d’Urbanisation (TU) • Corrélations Positives : o Avec Taux d’Alphabétisation (TA) : renforce l’idée que les villes offrent de meilleures infrastructures éducatives et plus d’opportunités d’apprentissage. • Corrélations Négatives : o Avec Taux de Pauvreté (TP) : une forte urbanisation semble réduire le taux de pauvreté, indiquant que les zones urbaines fournissent plus d’emplois et de services. o Avec Perte Alimentaire (PA) : une urbanisation accrue peut être liée à une gestion plus efficace des ressources alimentaires, ce qui entraîne moins de pertes.

 Taux d’Inflation Alimentaire (TIA) • Corrélations Positives: o Avec Indice de Faim (IF) : les hausses de l’inflation alimentaire sont souvent corrélées à une augmentation de la faim, montrant que des prix alimentaires plus élevés mettent en péril la sécurité alimentaire. • Corrélations Négatives : o Avec Produit Intérieur Brut (PIB) : lorsque le PIB augmente, l’inflation alimentaire peut diminuer, indiquant que la croissance économique fournit des moyens pour stabiliser les prix des denrées alimentaires. o Avec Taux de Pauvreté (TP) : montre une faible corrélation indiquant que l’inflation alimentaire n’a qu’un impact modeste sur la pauvreté.

 Indice de Faim (IF) • Corrélations Positives : o Avec Taux d’Inflation Alimentaire (TIA) : une forte corrélation qui montre que l’augmentation de l’inflation alimentaire est fortement liée à l’augmentation de la faim, suggérant que des politiques doivent se concentrer sur le contrôle des prix alimentaires. • Corrélations Négatives : o Avec Taux d’Alphabétisation (TA) : indique une forte interdépendance où des niveaux d’alphabétisation plus élevés sont liés à moins de faim, renforçant l’idée que l’éducation est essentielle pour améliorer la sécurité alimentaire.  Avec Taux de Croissance Démographique (TCD) : suggère que dans les régions où la faim est plus prononcée, des taux de croissance démographique plus faibles peuvent être observés, potentiellement dû à des conditions de vie précaires.

 Taux de Croissance Démographique (TCD) • Corrélations Positives : o Avec Taux d’Alphabétisation (TA) : cela pourrait suggérer que les taux d’alphabétisation plus élevés sont associés à un contrôle des naissances plus efficace. • Corrélations Négatives : o Avec Indice de Faim (IF) : indique que des niveaux de faim plus élevés peuvent coïncider avec une plus faible croissance démographique, suggérant que des conditions de vie précaires peuvent limiter la croissance. o Avec Taux de Pauvreté (TP) : une corrélation forte indique que les régions avec une forte croissance démographique ont souvent des niveaux de pauvreté élevés, car les ressources sont étirées. o Avec Précipitations (PRE) : une corrélation suggérant que les précipitations peuvent avoir un effet négatif sur la croissance démographique dans certaines régions, possiblement liées à la disponibilité de ressources.

 Déplacement de Population dû aux Catastrophes Naturelles (DCN) • Corrélations Positives : o Avec Indice de Faim (IF) : une légère relation positive, indiquant que les déplacements due à des catastrophes pourraient engendrer des difficultés alimentaires. • Corrélations Négatives : o Avec Taux d’Alphabétisation (TA) : aucun lien significatif, ce qui indique que les déplacements n’affectent pas directement l’accès à l’éducation. o Avec Taux de Croissance Démographique (TCD) : corrélation très faible, suggérant que les catastrophes n’influencent pas significativement la croissance démographique.

library(ggplot2)
library(DataExplorer)
library(FactoMineR)
library("DataExplorer")
library(ade4)
## Warning: le package 'ade4' a été compilé avec la version R 4.4.2
## 
## Attachement du package : 'ade4'
## L'objet suivant est masqué depuis 'package:FactoMineR':
## 
##     reconst

#Individuals and variables on factorial plan

fviz_contrib(resultat_G12b, choice = "ind", axes = 1)

#CPV (Cap-Vert), NER (Niger), GHA (Ghana) : Ces trois pays affichent des contributions élevées, ce qui montre qu’ils sont des acteurs majeurs dans la formation cette dimension. ML (Mali) : Avec une contribution significative, le Mali se positionne également comme un pays clé. Cela suggère qu’il possède des caractéristiques qui s’alignent étroitement avec la dynamique présentée dans la figure 11. CIV (Côte d’Ivoire), SLE (Sierra Leone), GNB (Guinée-Bissau), BFA (Burkina Faso), MRT (Mauritanie) et LBR (Libéria) : Ces pays ont des contributions modérées. Ils pourraient avoir des indicateurs qui interagissent avec les premières dimensions, mais moins que les pays leaders. Les pays comme : SEN (Sénégal), BEN (Bénin), GMB (Gambie), GIN (Guinée) et TGO (Togo) montrent des contributions très faibles. Cela laisse entendre qu’ils sont moins influents dans la détermination des caractéristiques qui composent la dimension 1. Ces contributions faibles peuvent indiquer qu’ils n’ont pas beaucoup en commun avec les attributs représentés dans cette dimension 1. La ligne rouge horizontale dans le graphique donne une séparation nette des pays les plus contributifs et les moins contributifs à la dimension 1.

fviz_contrib(resultat_G12b, choice = "ind", axes = 2)

#Ce graphe représente la contribution de différents pays à la deuxième dimension de l’ACP, indiquant lesquels ont le plus grand impact sur la variance expliquée par cette dimension. Sierra Leone (SLE), Niger (NER), Guinée (GIN), Mali (ML), Mauritanie (MRT) et le Libéria (LBR) : Ces pays affichent des contributions élevées, ce qui montre qu’ils sont des acteurs majeurs dans cette dimension.

Sénégal (SEN) et Cap-Vert (CPV) : Ces pays ont des contributions modérées. Ils pourraient avoir des indicateurs qui interagissent avec les premières dimensions, mais moins que les pays leaders. Les pays comme Togo (TGO), Ghana (GHA), Côte d’Ivoire (CIV), Burkina Faso (BFA), Gambie (GMB), GNB (Guinée-Bissau), TGO (Togo) et Bénin (BEN) montrent des contributions très faibles. Cela laisse entendre qu’ils sont moins influents dans la détermination des caractéristiques qui composent Dimension2. Ces contributions faibles peuvent indiquer qu’ils n’ont pas beaucoup en commun avec les attributs représentés dans cette dimension. La ligne rouge horizontale dans le graphique donne une séparation nette des pays les plus contributifs et les moins contributifs à la dimension 2.

fviz_contrib(resultat_G12b, choice = "var", axes = 1)

#L’analyse de ces graphes nous permet de dire que : La dimension 1 est influencée par le PIB, le TA, l’IF, le TP et le TCD. Une forte croissance démographique voudrait que la population augmente, ce qui rend nécessaire une expansion économique pour répondre aux besoins de tous. Le PIB, en tant qu’indicateur de la performance économique, est également très important ici, car il reflète la richesse et la capacité d’un pays à fournir des biens et des services. Alors, les pays qui enregistrent une forte croissance économique tout en maintenant une croissance démographique contrôlée, peuvent mieux satisfaire les besoins basiques de leur population. A l’issue de cette analyse, nous avons nommé cette dimension : Croissance Économique et Capacité à satisfaire les Besoins de base

fviz_contrib(resultat_G12b, choice = "var", axes = 2)

#La dimension 2 est fortement liée à des éléments qui influencent la famine. Les précipitations (PRE) sont essentielles pour l’agriculture, et donc pour la disponibilité alimentaire. L’indice de faim (IF) mesure le niveau de malnutrition, ce qui est crucial pour évaluer la famine. Un indice de faim élevé indique des problèmes d’accès aux ressources alimentaires. Le taux d’inflation alimentaire (TIA) a également un rôle important, car une inflation élevée dans les produits alimentaires peut rendre l’accès à la nourriture plus difficile pour les populations vulnérables. La variable déplacements de population due aux catastrophes naturelles (DCN) est aussi très impactant, car elle peut occasionner des pertes en terre cultivable. Ainsi cette dimension est essentielle pour les politiques agricoles et alimentaires. Une attention particulière à ces variables peut aider à résoudre les problèmes de famine. A l’issue de cette analyse, nous avons nommé cette dimension : famine et Accès aux Ressources.

#Regression multiple avec la fonction lm

library(car)
## Warning: le package 'car' a été compilé avec la version R 4.4.2
## Le chargement a nécessité le package : carData
## Warning: le package 'carData' a été compilé avec la version R 4.4.2
library(carData)
library(corrplot)
library("clusterSim")
library(DataExplorer)
library(factoextra)
library(FactoInvestigate)
print(donnees_G12)
##       TCD     PRE        TP   IF       TIA      PIB      UP   DCN       TA
## BEN 2.556 1049.02 12.723279 22.2  5.903109 3321.552 3402.00  6900 47.10000
## BFA 2.339  831.04 25.277073 24.5  6.808462 2176.093 2832.85  2400 34.49000
## CPV 0.691  187.82 11.502216 10.8  0.581011 6356.745    5.00   750 91.00000
## CIV 2.475 1299.33  9.733192 22.3  7.685164 5316.464   22.87  2500 89.89342
## GMB 2.341  995.69 17.242134 17.6  9.602858 2076.566  300.61  7000 58.67000
## GHA 1.921 1209.73 25.208553 14.9 10.293030 5420.792 9689.50  2700 80.38000
## GIN 2.485 1790.59 13.820100 27.5 15.766694 2640.344  110.50   340 45.33000
## GNB 2.227 1649.39 25.962856 27.5  5.043369 1831.383   82.00   410 53.90000
## LBR 2.076 2450.19 27.617746 33.3  6.615877 1423.230 1035.56  3700 48.30136
## MLI 3.044  328.92 20.849255 24.7  5.187159 2120.623    3.75 24000 30.76141
## MRT 2.874  110.81 25.354673 22.6  5.773276 1652.000  347.31 23000 66.96000
## NER 3.220  183.89 50.613815 27.5  7.467802 1186.530   34.79 23523 38.10000
## SEN 2.489  722.89  9.926822 16.3  2.908652 3511.637  577.18 12000 57.67000
## SLE 2.246 2654.33 26.062035 31.3 17.019911 1614.860  360.95   800 48.64000
## TGO 2.361 1217.05 26.591830 23.7  8.951274 2130.859 1425.00 16000 66.53708
##              TU      PA
## BEN 0.017789192 1175297
## BFA 0.005845377 2086893
## CPV 0.014777748   54765
## CIV 0.009377223  241095
## GMB 0.033473211 2555332
## GHA 0.024434038 1311530
## GIN 0.005659546  197266
## GNB 0.006979516 2561140
## LBR 0.006774879  507043
## MLI 0.001233430 2018765
## MRT 0.000362413  450720
## NER 0.001037302 2393877
## SEN 0.008135895 1622980
## SLE 0.009886125  802371
## TGO 0.016459287  830017
attach(donnees_G12)
summary(donnees_G12)
##       TCD             PRE               TP               IF       
##  Min.   :0.691   Min.   : 110.8   Min.   : 9.733   Min.   :10.80  
##  1st Qu.:2.236   1st Qu.: 525.9   1st Qu.:13.272   1st Qu.:19.90  
##  Median :2.361   Median :1049.0   Median :25.209   Median :23.70  
##  Mean   :2.356   Mean   :1112.0   Mean   :21.899   Mean   :23.11  
##  3rd Qu.:2.522   3rd Qu.:1474.4   3rd Qu.:26.012   3rd Qu.:27.50  
##  Max.   :3.220   Max.   :2654.3   Max.   :50.614   Max.   :33.30  
##       TIA              PIB             UP               DCN       
##  Min.   : 0.581   Min.   :1187   Min.   :   3.75   Min.   :  340  
##  1st Qu.: 5.480   1st Qu.:1742   1st Qu.:  58.40   1st Qu.: 1600  
##  Median : 6.808   Median :2131   Median : 347.31   Median : 3700  
##  Mean   : 7.707   Mean   :2852   Mean   :1348.66   Mean   : 8402  
##  3rd Qu.: 9.277   3rd Qu.:3417   3rd Qu.:1230.28   3rd Qu.:14000  
##  Max.   :17.020   Max.   :6357   Max.   :9689.50   Max.   :24000  
##        TA              TU                  PA         
##  Min.   :30.76   Min.   :0.0003624   Min.   :  54765  
##  1st Qu.:46.22   1st Qu.:0.0057525   1st Qu.: 478882  
##  Median :53.90   Median :0.0081359   Median :1175297  
##  Mean   :57.18   Mean   :0.0108150   Mean   :1253939  
##  3rd Qu.:66.75   3rd Qu.:0.0156185   3rd Qu.:2052829  
##  Max.   :91.00   Max.   :0.0334732   Max.   :2561140
model1 = lm(formula = IF~ TCD + TA + PIB + TIA + TU,data=donnees_G12)
summary(model1)
## 
## Call:
## lm(formula = IF ~ TCD + TA + PIB + TIA + TU, data = donnees_G12)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.0276 -1.8637 -0.5276  1.1143  5.8616 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)   
## (Intercept)  3.319e+01  8.216e+00   4.040  0.00293 **
## TCD         -1.866e+00  2.288e+00  -0.816  0.43572   
## TA          -9.247e-03  8.420e-02  -0.110  0.91496   
## PIB         -2.221e-03  1.021e-03  -2.175  0.05767 . 
## TIA          5.531e-01  2.421e-01   2.284  0.04821 * 
## TU          -2.847e+02  1.222e+02  -2.329  0.04480 * 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.571 on 9 degrees of freedom
## Multiple R-squared:  0.7838, Adjusted R-squared:  0.6637 
## F-statistic: 6.526 on 5 and 9 DF,  p-value: 0.007855
vif(model1)
##      TCD       TA      PIB      TIA       TU 
## 1.907037 2.733996 2.992654 1.194112 1.386542
confint.default(model1)
##                     2.5 %        97.5 %
## (Intercept)  1.708735e+01  4.929283e+01
## TCD         -6.351218e+00  2.618220e+00
## TA          -1.742660e-01  1.557729e-01
## PIB         -4.222709e-03 -2.193518e-04
## TIA          7.857432e-02  1.027658e+00
## TU          -5.241786e+02 -4.513282e+01
attributes(model1)
## $names
##  [1] "coefficients"  "residuals"     "effects"       "rank"         
##  [5] "fitted.values" "assign"        "qr"            "df.residual"  
##  [9] "xlevels"       "call"          "terms"         "model"        
## 
## $class
## [1] "lm"
model1$coefficients
##   (Intercept)           TCD            TA           PIB           TIA 
##  3.319009e+01 -1.866499e+00 -9.246535e-03 -2.221031e-03  5.531161e-01 
##            TU 
## -2.846557e+02
model1$residuals
##          BEN          BFA          CPV          CIV          GMB          GHA 
##  3.392154370 -1.274214204 -2.255174088  4.787221241 -1.849156709 -0.659513966 
##          GIN          GNB          LBR          MLI          MRT          NER 
## -1.878197130  2.229742171  5.861580634 -0.332057414 -4.027607921 -0.527635789 
##          SEN          SLE          TGO 
## -3.204563392 -0.261371016 -0.001206787

#Regression multiple avec la fonction lm

library(ggplot2)
donnees = data.frame(donnees_G12)
data_vis= data.frame(valeurs_reelles=donnees$IF,predictions=predict(model1))
ggplot(data_vis,aes(x=valeurs_reelles,y=predictions))+
  geom_point()+
  geom_smooth(method="lm",se=FALSE,color="blue")+
  labs(x="valeurs_reelles",y="predictions")+
  ggtitle(model1)
## `geom_smooth()` using formula = 'y ~ x'

#Ce graphique illustre une régression linéaire simple, mettant en évidence la relation entre les valeurs réelles (variable indépendante) et les prévisions (variables dépendantes). Dans ce cas précis, nous avons utilisé 6 variables indépendantes. La ligne bleue représente le modèle de régression qui permet de prédire les valeurs en fonction des valeurs réelles. Elle est déterminée par l’équation de la régression linéaire qui peut être exprimée sous la forme :

y=18,71 -0,02x -0,001y -0,02z +0,09t +1.56u +0,005v Les points noirs représentent les observations individuelles utilisées pour construire le modèle de régression. Chaque point indique comment une valeur réelle se compare à la prévision générée par le modèle. Les points en dessous et au-dessus de la ligne représentent des écarts entre les valeurs réelles et les prédictions. Évaluer les différences entre valeurs réelles et prédites pourrait nous aider à comprendre l’exactitude du modèle. L’intercept (ou coefficient constant) du modèle de régression linéaire est la valeur de la variable dépendante (dans ce cas, les prédictions) lorsque toutes les variables indépendantes (les valeurs réelles) sont égales à zéro. C’est la valeur de référence du modèle. En définitif, nous pouvons dire que le modèle de régression linéaire est acceptable car il a un coefficient de détermination est R²= 0,94