Ecole supérieur de la statistique et analyse de l’information (ESSAI)
Touati Karima
Avril 2016
L’écart entre les pays en terme de productivité scientifique reste toutefois très important. La productivité scientifique en Tunisie est quasiment le 1/10 de celle aux Etas Unis.
On touchera d’examiner les facteurs influant la recherche scientifique et les caractéristiques des pays qui partagent le podium de la recherche scientifique et ceux qui les oppose aux autres.
- Objéctif : Étudier la performance de la recherche scientifique à l’échelle internationale
- Méthode : Analyse en composantes principales
- Outil Technique : Rstudio version 3.1.3
Les données étaient collectées de différents sites et organismes internationaux tels que : SCImago Journal & Country Rank , Data World Bank , PopulationData et The Global Innovation Index.
On utilisera un échantillon de 12 variables et 68 pays.
- 10 variables actives :
- Documents : Nombre de documents publiés en 2012.
- Citable.documents : Nombre de documents citables publiés par un journal au cours des trois années précédentes exclusivement des articles, des avis et des docuemnts de conférence sont considérés.
- Citations : Nombre de citations reçues par les documents publiés durant 2012
- Self.Citations : Nombre d’auto-citations de revues de l’année choisie pour ses propres documents publiés au cours des trois années précédentes.
- Citations.per.Document : La moyenne des citations par document publiées durant cette année.
- H.index : Indice de Hirsch essayant de quantifier la productivité scientifique et l’impact d’un scientifique en fonction du niveau de citation de ses publications.
- Reaserachers.in R&D per.million.people : Chercheurs en recherche et développement (pour un million de personnes) y compris les étudiants de troisième cycle en Doctorat.
- Scie_Tech_Journal_Articles : Nombre d’articles scientifiques et d’ingénierie publiés en 2012.
- IDH : Indice de développement humain.
- Public.Expenditure.on.education.per.pupil : Dépense publique d’éducation par élève.
- 1 variable quantitative supplémentaire:
- Rank : Le rang des pays.
- 1 variable qualitative supplémentaire:
- Classification : La classifaction des pays.
( Statistique Descriptive )
1/ La statistique descriptive
data=read.table(file=file.choose(),header=TRUE,sep=";",dec=",",row.names=1)
summary(data)
## Documents Citable.documents Citations Self.Citations
## Min. : 1 Min. : 1 Min. : 1 Min. : 0.0
## 1st Qu.: 1300 1st Qu.: 1210 1st Qu.: 6646 1st Qu.: 853.5
## Median : 11929 Median : 11309 Median : 39194 Median : 9670.0
## Mean : 36379 Mean : 35490 Mean : 195101 Mean : 69094.4
## 3rd Qu.: 30698 3rd Qu.: 31654 3rd Qu.: 131344 3rd Qu.: 37114.0
## Max. :611478 Max. :532342 Max. :3559345 Max. :1791924.0
##
## Citations.per.Document H.index
## Min. :1.000 Min. : 7.0
## 1st Qu.:3.217 1st Qu.: 104.2
## Median :4.700 Median : 180.0
## Mean :4.669 Mean : 315.4
## 3rd Qu.:5.860 3rd Qu.: 444.5
## Max. :9.580 Max. :1648.0
##
## Reaserachers.in.R.D.per.million.people. Scie_Tech_Journal_Articles
## Min. : 1.036 Min. : 1.012
## 1st Qu.: 2.795 1st Qu.: 9.470
## Median : 4.343 Median : 30.262
## Mean : 88.714 Mean :136.338
## 3rd Qu.: 7.348 3rd Qu.:103.046
## Max. :903.000 Max. :842.000
## NA's :28 NA's :1
## IDH Public.Expenditure.on.education.per.pupil
## Min. :0.3480 Min. : 5.70
## 1st Qu.:0.6885 1st Qu.:17.70
## Median :0.7930 Median :20.60
## Mean :0.7596 Mean :20.88
## 3rd Qu.:0.8902 3rd Qu.:25.30
## Max. :0.9440 Max. :34.80
## NA's :14
## Rank Classification
## Min. : 1.00 développé :28
## 1st Qu.: 19.75 pays du golfe : 5
## Median : 39.00 pays émergent : 8
## Mean : 51.13 pays industrialisé: 6
## 3rd Qu.: 74.25 sous développé :21
## Max. :223.00
##
D’après ce graphique on peut remarquer que la moyenne de documents publiés est près de 36 Milles et que nous avons une moyenne de 4,7 citations par document.
De plus,on remarque que la moyenne du nombre de chercheurs pour un million d’habitant, y compris les étudiants de troisième cycle en Doctorat est de l’ordre de 88,7 chercheurs et est de l’odre de 136 pour le nombre d’articles scientifiques et d’ingénierie publiés en 2012.
2/ les Boxplots
library(ggplot2)
p1=ggplot(data,aes(x=Classification,y=Rank))
p1+geom_boxplot()
Ce graphique montre bien la différence entre les pays de point de vue rang.En effet la classification des pays influe sur le rang.
Par exemple,la moyenne des rangs pour les pays développés est 24 alors qu’il est autour de 80 pour les pays sous développés.
3/ Analyse multivariée
( Eboulis des valeurs propres )
library(grid)
library(ggplot2)
library(factoextra)
eigenvalues <- acp$eig
barplot(eigenvalues[, 2], names.arg=1:nrow(eigenvalues),
main = "Variances",
xlab = "Principal Components",
ylab = "Percentage of variances",
col ="steelblue")
# Add connected line segments to the plot
lines(x = 1:nrow(eigenvalues), eigenvalues[, 2],
type="b", pch=19, col = "red")
On remarque que le barplot des valeurs propres suggére que la première valeur propre présente une inertie de 48% de l’inertie totale . En effet les deux premières valeurs propres présentent 66% de l’inertie totale . Donc pour notre étude d’ACP, nous allons retenir les deux prmiers axes principaux.
( Contribution des variables et des individus dans la formation des axes principaux )
library(factoextra)
# Contributions of individuals to PC1
v1=fviz_pca_contrib(acp, choice = "var", axes = 1)
v1
# Contributions of the individuals to PC2
v2=fviz_pca_contrib(acp, choice = "var", axes = 2)
v2
# Total contribution on PC1 and PC2
v3=fviz_pca_contrib(acp, choice = "var", axes = 1:2)
v3
library(factoextra)
# Contributions of individuals to PC1
v4=fviz_pca_contrib(acp, choice = "ind", axes = 1,top=40)
v4
# Contributions of the individuals to PC2
v5=fviz_pca_contrib(acp, choice = "ind", axes = 2,top=40)
v5
# Total contribution on PC1 and PC2
v6=fviz_pca_contrib(acp, choice = "ind", axes = 1:2,top=40)
v6
library(gridExtra)
grid.arrange(v1,v4,nrow=1,ncol=2)
On peut remarquer que le premier axe du graphe des individus est principalement constitué par les Etats Unis (USA) et la Chine puisque ces individus présentent les coordonnées les plus élevés en valeur absolue sur cet axe .
Pour les variables , on peut aussi noter que les variables Citations, Citable.documents, Documents, Self.Ciatations et H.Index ont fortement participé à la fondation du premier axe principal vu que leurs coordonnées sont proches du bord du cercle de corrélation.
On peut nommer donc le premier axe principal comme axe de la productivité scientifique.
library(gridExtra)
grid.arrange(v2,v5,nrow=1,ncol=2)
Nous constatons que les individus sont mieux présentées sur la deuxième composante principale et que leur contribution est la meilleure sur le deuxième axe.
On remarque bien que les pays : les Etats Unis,le Denmark et la Chine sont les pays les plus participants à la formation de cet axe .
Pour les variables, il est claire que Public.Expenditure.on.education.per.pupil, Citations.per.Document et Reaserachers.in R&D per.million.people ont joué un rôle important dans la formation de cet axe.
Donc le 2éme axe du plan principal est celui de la dépense engagée pour la recherche scientifique .
( Graphe du Cercle de Corrélation et Graphe du nuage d’individus )
Utilisation du Package FactoMineR :
library(FactoMineR)
acp=PCA(data,quanti.sup=11,quali.sup=12)
Utilisation du Package factoextra :
library(grid)
library(ggplot2)
library(factoextra)
p1=fviz_pca_var(acp,col.var="cos2")+theme_minimal()
p1
p2=fviz_pca_ind(acp, geom=c("text","point"), col.ind="red")+theme_minimal()
p2
#On peut maintenant changer l'échelle des couleurs selon le cos2 sur le plan 1-2
p3=fviz_pca_ind(acp, geom=c("text","point"), col.ind="cos2")+scale_colour_gradient2(low="blue",mid="white",high="red",midpoint=0.5)+theme_minimal()
p3
#Colorer selon le groupe et Ajouter des ellipses de confiance
p4=fviz_pca_ind(acp, habillage = 12,addEllipses =TRUE, ellipse.level = 0.68) +
scale_color_brewer(palette="Dark2") +
theme_minimal()
p4
p4=fviz_pca_ind(acp,label="none",habillage=12)+theme_minimal()
p4
library(FactoMineR)
res.pca=PCA(data,scale.unit = T,ncp = 3,quanti.sup = 11,quali.sup = 12,graph=F)
cos2 = rowSums(res.pca$ind$cos2[, 1:2])
library(ggplot2)
dt = cbind.data.frame(res.pca$ind$coord[, 1:2], cos2, data$Classification,rownames(data))
colnames(dt) = c("PC1", "PC2", "Cos2", "Classification", "Country")
library(ggrepel)
p <- ggplot(data = dt, aes(x = PC1, y = PC2, col = Classification,label = Country))+ geom_hline(yintercept = 0, alpha = 0.4) + geom_vline(xintercept = 0, alpha = 0.4)+ geom_point() + geom_text_repel() + xlab(paste("Axis 1 (", round(res.pca$eig[1,
+ 2], 1), "%)", sep = "")) + ylab(paste("Axis 2 (", round(res.pca$eig[2, 2], 1), "%)", sep = ""))
p + theme_classic()
Le Biplot :
p5=fviz_pca_biplot(acp,
habillage =12, addEllipses = TRUE,
col.var = "red", alpha.var ="cos2",
label = "var") +
scale_color_brewer(palette="Dark2")+
theme_minimal()
p5
# One ellipse arround all points
ggplot(data, aes(Rank,Classification))+
geom_point()+
stat_ellipse()
Le premier plan factoriel synthétise 66.41% de l’inertie totale , ce qui nous permettra de faire notre étude sur ce plan .
En effet, la 1ére composante est prédominante, elle résume 48.01% de l’inertie ,la deuxième composante est relativement importante car elle absorbe 18.40% de l’inertie totale.
Donc d’après le critère du coude, l’ACP est significative et il suffit de projeter les observations sur le premier plan factoriel pour obtenir le maximum d’informations.
- D’après le cercle des corrélations, on remarque que toutes les variables sont bien représentées sauf les variables IDH , Reaserachers.in R&D per.million.people et Scie_Tech_Journal_Articles. En effet, la majorité a un cos2 supérieur à 0.5.
- D’une part, Les variables H.index,Citations ,Documents ,Citable.documents et Self.Citations qui sont bien représentées et corrélées, sont celles qui contribuent fortement et positivement à la formation de l’axe 1 (48%) . Alors que la variable IDH qui est mal représentée, contribue faiblement à cet axe.
- D’autre part, les variables Public.Expenditure.on.education.per.pupil et Citations.per.Document qui sont aussi bien représentées et corrélées, contribuent fortement et positivement à la formation de l’axe2 (18.4%). Alors que les variables Scie_Tech_Journal_Articles et Reaserachers.in R&D per.million.people mal représentées contribuent négativement à cet axe.
- Les variables H index et Rank sont inversement corrélées.
Le nuage des individus met en lumière une différence significative entre les pays .
Interpréter le nuage des individus et le cercle des corrélations (simultanément) est équivalent à interpréter le Biplot. On a dessiné le nuage des individus en choisissant Classification comme variable illustrative.
Le nuage des individus indique 3 groupes :
- 1er groupe est situé à droite de l’axe 2 dans le quadrant Nord-Est, et il est formé par une forte concentration de pays développés et quelques pays émergents et industrialisés tels que le Korée du sud et Hong Kong.
- 2éme groupe est situé à gauche de l’axe 2 dans le quadrant Nord-Ouest, et il est formé par une multitude de pays en voie du développement scientifique tel que la Arabie Saoudite, le Niger ,l’ Argentine et la Tunisie.
- 3éme groupe est situé à gauche de l’axe 2 dans le quadrant Sud-Ouest, est il est formé par le reste de pays y compris les pays sous développés,pays industrialisés,pays émergents et pays du golfe.
Nous constatons aussi que les deux pays Etats Unis et la Chine sont très isolés.Ils ont un comportement atypique des autres pays.
les situations sont beaucoup plus contrastées : On retrouve des individus moyens proches du centre tels que la Russie ,Luxembourg et l’Ukraine , et les pays du tiers monde sont beaucoup plus éloignés. Le nombre de chercheurs pour 1 million d’habitant , le Nombre d’articles scientifiques et d’ingénierie publiés concernent surtout ces derniers.
la Dépense publique d’éducation par élève concerne surtout les pays développés.
Les Etats Unis et la Chine sont remarqués par leur productivté de point de vue nombre de publications et articles publiés.
Nous avons pu synthétiser l’information relative à 68 pays en 2 dimensions à partir des différentes variables avec une précision de 66,41%.
L’analyse de la base de données montre que :
-Plus la productivité scientifique et l’impact d’un scientifique sont grands plus le rang d’un pays est faible.
-Plus le nombre de publications est élevé plus la productivité scientifique est importante.
-Plus la Dépense engagée pour la recherche scientifique est élevée plus la productivité scientifique est importante, plus la croissance économique est grande.
Donc la production scientifique est un indicateur important du facteur de développement humain d’un pays et ainsi de son développement économique et social.