x=read.table("European jobs.txt",header=T,row.names=1)
head(x)
## Agr Min Man PS Con SI Fin SPS TC
## Belgium 3.3 0.9 27.6 0.9 8.2 19.1 6.2 26.6 7.2
## Denmark 9.2 0.1 21.8 0.6 8.3 14.6 6.5 32.2 7.1
## France 10.8 0.8 27.5 0.9 8.9 16.8 6.0 22.6 5.7
## W-Germany 6.7 1.3 35.8 0.9 7.3 14.4 5.0 22.3 6.1
## Ireland 23.2 1.0 20.7 1.3 7.5 16.8 2.8 20.8 6.1
## Italy 15.9 0.6 27.6 0.5 10.0 18.1 1.6 20.1 5.7
The data is the percentage employed in different industries in Europe countries during 1979. Multivariate techniques, such as cluster analysis and principal components analysis, may be used to examine which countries have similar employment patterns.
nombre de cases:26
Noms des variables : 1. Country: Name of country. 2. Agr: Percentage employed in agriculture. 3. Min: Percentage employed in mining. 4. Man: Percentage employed in manufacturing. 5. PS: Percentage employed in power supply industries. 6. Con: Percentage employed in construction. 7. SI: Percentage employed in service industries. 8. Fin: Percentage employed in finance. 9. SPS: Percentage employed in social and personal services . 10. TC: Percentage employed in transport and communications .
Je dispose dans ce jeu de donnée de 9 variables et 26 observations. Dans cette partie je me propose de faire une Analyse en composante principale. :
acp=princomp(x,cor=T,scores=T)
summary(acp)
## Importance of components:
## Comp.1 Comp.2 Comp.3 Comp.4 Comp.5
## Standard deviation 1.8673916 1.4595113 1.0483118 0.9972377 0.73703306
## Proportion of Variance 0.3874613 0.2366859 0.1221064 0.1104981 0.06035753
## Cumulative Proportion 0.3874613 0.6241472 0.7462536 0.8567517 0.91710919
## Comp.6 Comp.7 Comp.8 Comp.9
## Standard deviation 0.61921536 0.47513583 0.36985122 6.754636e-03
## Proportion of Variance 0.04260307 0.02508378 0.01519888 5.069456e-06
## Cumulative Proportion 0.95971227 0.98479605 0.99999493 1.000000e+00
On voit que les 4 premières composantes expliquent 85 % de l’inertie totale.
## Loading required package: ggplot2
## Warning: package 'ggplot2' was built under R version 3.2.4
## Loading required package: grid
## Warning: package 'FactoMineR' was built under R version 3.2.4
res.pca=PCA(x,scale.unit=T,graph=F)
fviz_screeplot(res.pca)
Je sélectionne les quatre premiers axes
res.pca$eig
## eigenvalue percentage of variance
## comp 1 3.4871512725 3.874613e+01
## comp 2 2.1301731410 2.366859e+01
## comp 3 1.0989576113 1.221064e+01
## comp 4 0.9944829778 1.104981e+01
## comp 5 0.5432177255 6.035753e+00
## comp 6 0.3834276658 4.260307e+00
## comp 7 0.2257540553 2.508378e+00
## comp 8 0.1367899257 1.519888e+00
## comp 9 0.0000456251 5.069456e-04
## cumulative percentage of variance
## comp 1 38.74613
## comp 2 62.41472
## comp 3 74.62536
## comp 4 85.67517
## comp 5 91.71092
## comp 6 95.97123
## comp 7 98.47960
## comp 8 99.99949
## comp 9 100.00000
Les valeurs propres associées aux 3 premières composantes sont supérieurs à 1 ce qui m’amène à retenir les 3 premiers axes avec 74% d’inertie expliquée. Je remarque aussi que la valeur propre associé à la quatrième composante est presque égal a 1 ce qui m’amène a retenir 4 composantes principales
Les deux premiers critères(KAISER&COUDE) ont mené sur le choix de quatre axes avec 85% d’inertie expliquée. on va s’interesser a la projection des indidvidus sur le 1er axe factoriel(1,2) car on remarque une cassure importante au niveau du 2 eme et du troisième axes principales
plan factoriel(1,2)
fviz_pca_ind(res.pca, geom = "text", col.ind="cos2")+scale_color_gradient2(low = "white", mid = "blue", high = "red", midpoint = 0.6) + theme_minimal()
fviz_pca_var(res.pca, col.var = "cos2")+scale_color_gradient2(low = "white", mid= "blue", high = "red", midpoint = 0.6) + theme_minimal()
fviz_pca_biplot(res.pca,col.var="cos2")+scale_color_gradient2(low = "white", mid= "blue", high = "red", midpoint = 0.6) + theme_minimal()
contind1=(1/nrow(x))*((acp$scores[,1]/acp$sdev[1])^2)
contind1=contind1[which(contind1>(1/nrow(x)))]
contind1
## Greece Turkey Rumania Yugoslavia
## 0.04926306 0.44439254 0.04641935 0.17209258
J’ai retenu pour l’interprétation de l’axe 1 les individus de forte contribution. Tous ces individus ont une contribution négative sur l’axe 1 et qui représentent essentiellement les pays relativement pauvres.ils ont un fort taux d’employé dans le domaine agricole.
contv1=(loadings(acp)[,1])^2
contv1=contv1[which(contv1>(1/ncol(x)))]
contv1
## Agr Man SI SPS TC
## 0.2743570 0.1207529 0.1435801 0.1500856 0.1345589
Cet axe oppose la variable agriculture de contribution négative aux restes des variables qui sont manufacturing, service industrielle, service sociaux, transport et communication (contribution positives).
fviz_pca_contrib(res.pca, choice = "var", axes = 1)
## Warning in fviz_pca_contrib(res.pca, choice = "var", axes = 1): The
## function fviz_pca_contrib() is deprecated. Please use the function
## fviz_contrib() which can handle outputs of PCA, CA and MCA functions.
####conclusion L’axe 1 sépare les pays avec des taux élevés d’employés dans le secteur agricole aux autres pays avec un taux élevés dans les secteurs : industrie et services (effet de taille).
J’ai retenu pour l’interprétation de l’axe 2 les individus de forte contribution
contind2=(1/nrow(x))*((acp$scores[,2]/acp$sdev[2])^2)
contind2=contind2[which(contind2>(1/nrow(x)))]
contind2
## Denmark Netherlands Sweden Bulgaria Czechoslovakia
## 0.08174613 0.07257270 0.04498977 0.04045010 0.12819219
## E-Germany Hungary Poland Rumania
## 0.14307888 0.17841178 0.06554121 0.04651350
L’axe 2 oppose les pays Denmark; Netherlands; Sweden qui ont des forts taux d’activité dans le secteur des services (SPS,SI) et financier (FN) aux pays Bulgaria; Czechoslovakia; E-Germany; Hungary; Poland; Rumania qui présentent des taux élevé d’employé dans le secteur de manufacture et des taux faible dans les autres secteurs.
contv2=(loadings(acp)[,2])^2
contv2=contv2[which(contv2>(1/ncol(x)))]
contv2
## Min Man SI Fin
## 0.3816857 0.1260631 0.1226205 0.2058417
Cet axe oppose les variables services industriel et finance aux variables Mining et Manufacturing ce qui confirme les interprétations obtenus par les individus.
fviz_pca_contrib(res.pca, choice = "var", axes = 2)
## Warning in fviz_pca_contrib(res.pca, choice = "var", axes = 2): The
## function fviz_pca_contrib() is deprecated. Please use the function
## fviz_contrib() which can handle outputs of PCA, CA and MCA functions.
L’axe 2 est donc un axe qui discrimine entre les pays avec un taux d’activité fort dans le secteur des services et un taux faible dans le secteur des manufactures et vice versa