La recherche scientifique dans le monde

Ecole supérieur de la statistique et analyse de l’information (ESSAI)

Touati Karima

Avril 2016


Introduction :

L’écart entre les pays en terme de productivité scientifique reste toutefois très important. La productivité scientifique en Tunisie est quasiment le 1/10 de celle aux Etas Unis.

On touchera d’examiner les facteurs influant la recherche scientifique et les caractéristiques des pays qui partagent le podium de la recherche scientifique et ceux qui les oppose aux autres.


Résumé :

  • Objéctif : Étudier la performance de la recherche scientifique à l’échelle internationale
  • Méthode : Analyse en composantes principales
  • Outil Technique : Rstudio version 3.1.3

Description des données :

Les données étaient collectées de différents sites et organismes internationaux tels que : SCImago Journal & Country Rank , Data World Bank , PopulationData et The Global Innovation Index.

On utilisera un échantillon de 12 variables et 68 pays.

  • 10 variables actives :
  1. Documents : Nombre de documents publiés en 2012.
  1. Citable.documents : Nombre de documents citables publiés par un journal au cours des trois années précédentes exclusivement des articles, des avis et des docuemnts de conférence sont considérés.
  1. Citations : Nombre de citations reçues par les documents publiés durant 2012
  1. Self.Citations : Nombre d’auto-citations de revues de l’année choisie pour ses propres documents publiés au cours des trois années précédentes.
  1. Citations.per.Document : La moyenne des citations par document publiées durant cette année.
  1. H.index : Indice de Hirsch essayant de quantifier la productivité scientifique et l’impact d’un scientifique en fonction du niveau de citation de ses publications.
  1. Reaserachers.in R&D per.million.people : Chercheurs en recherche et développement (pour un million de personnes) y compris les étudiants de troisième cycle en Doctorat.
  1. Scie_Tech_Journal_Articles : Nombre d’articles scientifiques et d’ingénierie publiés en 2012.
  1. IDH : Indice de développement humain.
  1. Public.Expenditure.on.education.per.pupil : Dépense publique d’éducation par élève.
  • 1 variable quantitative supplémentaire:
  1. Rank : Le rang des pays.
  • 1 variable qualitative supplémentaire:
  1. Classification : La classifaction des pays.

Analyse des données :

( Statistique Descriptive )

1/ La statistique descriptive

data=read.table(file=file.choose(),header=TRUE,sep=";",dec=",",row.names=1)
summary(data)
##    Documents      Citable.documents   Citations       Self.Citations     
##  Min.   :     1   Min.   :     1    Min.   :      1   Min.   :      0.0  
##  1st Qu.:  1300   1st Qu.:  1210    1st Qu.:   6646   1st Qu.:    853.5  
##  Median : 11929   Median : 11309    Median :  39194   Median :   9670.0  
##  Mean   : 36379   Mean   : 35490    Mean   : 195101   Mean   :  69094.4  
##  3rd Qu.: 30698   3rd Qu.: 31654    3rd Qu.: 131344   3rd Qu.:  37114.0  
##  Max.   :611478   Max.   :532342    Max.   :3559345   Max.   :1791924.0  
##                                                                          
##  Citations.per.Document    H.index      
##  Min.   :1.000          Min.   :   7.0  
##  1st Qu.:3.217          1st Qu.: 104.2  
##  Median :4.700          Median : 180.0  
##  Mean   :4.669          Mean   : 315.4  
##  3rd Qu.:5.860          3rd Qu.: 444.5  
##  Max.   :9.580          Max.   :1648.0  
##                                         
##  Reaserachers.in.R.D.per.million.people. Scie_Tech_Journal_Articles
##  Min.   :  1.036                         Min.   :  1.012           
##  1st Qu.:  2.795                         1st Qu.:  9.470           
##  Median :  4.343                         Median : 30.262           
##  Mean   : 88.714                         Mean   :136.338           
##  3rd Qu.:  7.348                         3rd Qu.:103.046           
##  Max.   :903.000                         Max.   :842.000           
##  NA's   :28                              NA's   :1                 
##       IDH         Public.Expenditure.on.education.per.pupil
##  Min.   :0.3480   Min.   : 5.70                            
##  1st Qu.:0.6885   1st Qu.:17.70                            
##  Median :0.7930   Median :20.60                            
##  Mean   :0.7596   Mean   :20.88                            
##  3rd Qu.:0.8902   3rd Qu.:25.30                            
##  Max.   :0.9440   Max.   :34.80                            
##                   NA's   :14                               
##       Rank                   Classification
##  Min.   :  1.00   développé         :28    
##  1st Qu.: 19.75   pays du golfe     : 5    
##  Median : 39.00   pays émergent     : 8    
##  Mean   : 51.13   pays industrialisé: 6    
##  3rd Qu.: 74.25   sous développé    :21    
##  Max.   :223.00                            
## 

D’après ce graphique on peut remarquer que la moyenne de documents publiés est près de 36 Milles et que nous avons une moyenne de 4,7 citations par document.

De plus,on remarque que la moyenne du nombre de chercheurs pour un million d’habitant, y compris les étudiants de troisième cycle en Doctorat est de l’ordre de 88,7 chercheurs et est de l’odre de 136 pour le nombre d’articles scientifiques et d’ingénierie publiés en 2012.

2/ les Boxplots

library(ggplot2)
p1=ggplot(data,aes(x=Classification,y=Rank))
p1+geom_boxplot()

Ce graphique montre bien la différence entre les pays de point de vue rang.En effet la classification des pays influe sur le rang.

Par exemple,la moyenne des rangs pour les pays développés est 24 alors qu’il est autour de 80 pour les pays sous développés.

3/ Analyse multivariée

( Eboulis des valeurs propres )

library(grid)
library(ggplot2)
library(factoextra)
eigenvalues <- acp$eig
barplot(eigenvalues[, 2], names.arg=1:nrow(eigenvalues), 
        main = "Variances",
        xlab = "Principal Components",
        ylab = "Percentage of variances",
        col ="steelblue")
# Add connected line segments to the plot
lines(x = 1:nrow(eigenvalues), eigenvalues[, 2], 
      type="b", pch=19, col = "red")

On remarque que le barplot des valeurs propres suggére que la première valeur propre présente une inertie de 48% de l’inertie totale . En effet les deux premières valeurs propres présentent 66% de l’inertie totale . Donc pour notre étude d’ACP, nous allons retenir les deux prmiers axes principaux.

( Contribution des variables et des individus dans la formation des axes principaux )

library(factoextra)
# Contributions of individuals to PC1
v1=fviz_pca_contrib(acp, choice = "var", axes = 1)
v1

# Contributions of the individuals to PC2
v2=fviz_pca_contrib(acp, choice = "var", axes = 2)
v2

# Total contribution on PC1 and PC2
v3=fviz_pca_contrib(acp, choice = "var", axes = 1:2)
v3

library(factoextra)
# Contributions of individuals to PC1
v4=fviz_pca_contrib(acp, choice = "ind", axes = 1,top=40)
v4

# Contributions of the individuals to PC2
v5=fviz_pca_contrib(acp, choice = "ind", axes = 2,top=40)
v5

# Total contribution on PC1 and PC2
v6=fviz_pca_contrib(acp, choice = "ind", axes = 1:2,top=40)
v6

library(gridExtra)
grid.arrange(v1,v4,nrow=1,ncol=2)

On peut remarquer que le premier axe du graphe des individus est principalement constitué par les Etats Unis (USA) et la Chine puisque ces individus présentent les coordonnées les plus élevés en valeur absolue sur cet axe .

Pour les variables , on peut aussi noter que les variables Citations, Citable.documents, Documents, Self.Ciatations et H.Index ont fortement participé à la fondation du premier axe principal vu que leurs coordonnées sont proches du bord du cercle de corrélation.

On peut nommer donc le premier axe principal comme axe de la productivité scientifique.

library(gridExtra)
grid.arrange(v2,v5,nrow=1,ncol=2)

Nous constatons que les individus sont mieux présentées sur la deuxième composante principale et que leur contribution est la meilleure sur le deuxième axe.

On remarque bien que les pays : les Etats Unis,le Denmark et la Chine sont les pays les plus participants à la formation de cet axe .

Pour les variables, il est claire que Public.Expenditure.on.education.per.pupil, Citations.per.Document et Reaserachers.in R&D per.million.people ont joué un rôle important dans la formation de cet axe.

Donc le 2éme axe du plan principal est celui de la dépense engagée pour la recherche scientifique .

( Graphe du Cercle de Corrélation et Graphe du nuage d’individus )

Utilisation du Package FactoMineR :

library(FactoMineR)
acp=PCA(data,quanti.sup=11,quali.sup=12)

Utilisation du Package factoextra :

library(grid)
library(ggplot2)
library(factoextra)
p1=fviz_pca_var(acp,col.var="cos2")+theme_minimal()
p1

p2=fviz_pca_ind(acp, geom=c("text","point"), col.ind="red")+theme_minimal()
p2

#On peut maintenant changer l'échelle des couleurs selon le cos2 sur le plan 1-2
p3=fviz_pca_ind(acp, geom=c("text","point"), col.ind="cos2")+scale_colour_gradient2(low="blue",mid="white",high="red",midpoint=0.5)+theme_minimal()
p3

#Colorer selon le groupe et Ajouter des ellipses de confiance
p4=fviz_pca_ind(acp, habillage = 12,addEllipses =TRUE, ellipse.level = 0.68) +
scale_color_brewer(palette="Dark2") +
theme_minimal()
p4

p4=fviz_pca_ind(acp,label="none",habillage=12)+theme_minimal()
p4

library(FactoMineR)
res.pca=PCA(data,scale.unit = T,ncp = 3,quanti.sup = 11,quali.sup = 12,graph=F)
cos2 = rowSums(res.pca$ind$cos2[, 1:2])


library(ggplot2)
dt = cbind.data.frame(res.pca$ind$coord[, 1:2], cos2, data$Classification,rownames(data))
colnames(dt) = c("PC1", "PC2", "Cos2", "Classification", "Country")

library(ggrepel)
p <- ggplot(data = dt, aes(x = PC1, y = PC2,  col = Classification,label = Country))+ geom_hline(yintercept = 0, alpha = 0.4) + geom_vline(xintercept = 0, alpha = 0.4)+ geom_point() + geom_text_repel() + xlab(paste("Axis 1 (", round(res.pca$eig[1,
 + 2], 1), "%)", sep = "")) + ylab(paste("Axis 2 (", round(res.pca$eig[2, 2], 1), "%)", sep = ""))
p + theme_classic()

Le Biplot :

p5=fviz_pca_biplot(acp, 
                habillage =12, addEllipses = TRUE,
                col.var = "red", alpha.var ="cos2",
                label = "var") +
  scale_color_brewer(palette="Dark2")+
  theme_minimal()
p5

# One ellipse arround all points
ggplot(data, aes(Rank,Classification))+
  geom_point()+
  stat_ellipse()


Interprétation du cercle des corrélations :

Le premier plan factoriel synthétise 66.41% de l’inertie totale , ce qui nous permettra de faire notre étude sur ce plan .

En effet, la 1ére composante est prédominante, elle résume 48.01% de l’inertie ,la deuxième composante est relativement importante car elle absorbe 18.40% de l’inertie totale.

Donc d’après le critère du coude, l’ACP est significative et il suffit de projeter les observations sur le premier plan factoriel pour obtenir le maximum d’informations.

  • D’après le cercle des corrélations, on remarque que toutes les variables sont bien représentées sauf les variables IDH , Reaserachers.in R&D per.million.people et Scie_Tech_Journal_Articles. En effet, la majorité a un cos2 supérieur à 0.5.
  • D’une part, Les variables H.index,Citations ,Documents ,Citable.documents et Self.Citations qui sont bien représentées et corrélées, sont celles qui contribuent fortement et positivement à la formation de l’axe 1 (48%) . Alors que la variable IDH qui est mal représentée, contribue faiblement à cet axe.
  • D’autre part, les variables Public.Expenditure.on.education.per.pupil et Citations.per.Document qui sont aussi bien représentées et corrélées, contribuent fortement et positivement à la formation de l’axe2 (18.4%). Alors que les variables Scie_Tech_Journal_Articles et Reaserachers.in R&D per.million.people mal représentées contribuent négativement à cet axe.
  • Les variables H index et Rank sont inversement corrélées.

Interprétation du nuage des individus :

Le nuage des individus met en lumière une différence significative entre les pays .

Interpréter le nuage des individus et le cercle des corrélations (simultanément) est équivalent à interpréter le Biplot. On a dessiné le nuage des individus en choisissant Classification comme variable illustrative.

Le nuage des individus indique 3 groupes :

  • 1er groupe est situé à droite de l’axe 2 dans le quadrant Nord-Est, et il est formé par une forte concentration de pays développés et quelques pays émergents et industrialisés tels que le Korée du sud et Hong Kong.
  • 2éme groupe est situé à gauche de l’axe 2 dans le quadrant Nord-Ouest, et il est formé par une multitude de pays en voie du développement scientifique tel que la Arabie Saoudite, le Niger ,l’ Argentine et la Tunisie.
  • 3éme groupe est situé à gauche de l’axe 2 dans le quadrant Sud-Ouest, est il est formé par le reste de pays y compris les pays sous développés,pays industrialisés,pays émergents et pays du golfe.

Nous constatons aussi que les deux pays Etats Unis et la Chine sont très isolés.Ils ont un comportement atypique des autres pays.

les situations sont beaucoup plus contrastées : On retrouve des individus moyens proches du centre tels que la Russie ,Luxembourg et l’Ukraine , et les pays du tiers monde sont beaucoup plus éloignés. Le nombre de chercheurs pour 1 million d’habitant , le Nombre d’articles scientifiques et d’ingénierie publiés concernent surtout ces derniers.

la Dépense publique d’éducation par élève concerne surtout les pays développés.

Les Etats Unis et la Chine sont remarqués par leur productivté de point de vue nombre de publications et articles publiés.


Conclusion

Nous avons pu synthétiser l’information relative à 68 pays en 2 dimensions à partir des différentes variables avec une précision de 66,41%.

L’analyse de la base de données montre que :

-Plus la productivité scientifique et l’impact d’un scientifique sont grands plus le rang d’un pays est faible.

-Plus le nombre de publications est élevé plus la productivité scientifique est importante.

-Plus la Dépense engagée pour la recherche scientifique est élevée plus la productivité scientifique est importante, plus la croissance économique est grande.

Donc la production scientifique est un indicateur important du facteur de développement humain d’un pays et ainsi de son développement économique et social.