objectif: Etude de la répartion des emplois en Europe en 1979

I-importation de la base

 x=read.table("European jobs.txt",header=T,row.names=1)
 head(x)
##            Agr Min  Man  PS  Con   SI Fin  SPS  TC
## Belgium    3.3 0.9 27.6 0.9  8.2 19.1 6.2 26.6 7.2
## Denmark    9.2 0.1 21.8 0.6  8.3 14.6 6.5 32.2 7.1
## France    10.8 0.8 27.5 0.9  8.9 16.8 6.0 22.6 5.7
## W-Germany  6.7 1.3 35.8 0.9  7.3 14.4 5.0 22.3 6.1
## Ireland   23.2 1.0 20.7 1.3  7.5 16.8 2.8 20.8 6.1
## Italy     15.9 0.6 27.6 0.5 10.0 18.1 1.6 20.1 5.7

II-Description:

The data is the percentage employed in different industries in Europe countries during 1979. Multivariate techniques, such as cluster analysis and principal components analysis, may be used to examine which countries have similar employment patterns.

nombre de cases:26

Noms des variables
: 1. Country: Name of country.
2. Agr: Percentage employed in agriculture.
3. Min: Percentage employed in mining.
4. Man: Percentage employed in manufacturing.
5. PS: Percentage employed in power supply industries.
6. Con: Percentage employed in construction.
7. SI: Percentage employed in service industries.
8. Fin: Percentage employed in finance.
9. SPS: Percentage employed in social and personal services .
10. TC: Percentage employed in transport and communications .

III-ACP

Je dispose dans ce jeu de donnée de 9 variables et 26 observations. Dans cette partie je me propose de faire une Analyse en composante principale. :

acp=princomp(x,cor=T,scores=T)
summary(acp)
## Importance of components:
##                           Comp.1    Comp.2    Comp.3    Comp.4     Comp.5
## Standard deviation     1.8673916 1.4595113 1.0483118 0.9972377 0.73703306
## Proportion of Variance 0.3874613 0.2366859 0.1221064 0.1104981 0.06035753
## Cumulative Proportion  0.3874613 0.6241472 0.7462536 0.8567517 0.91710919
##                            Comp.6     Comp.7     Comp.8       Comp.9
## Standard deviation     0.61921536 0.47513583 0.36985122 6.754636e-03
## Proportion of Variance 0.04260307 0.02508378 0.01519888 5.069456e-06
## Cumulative Proportion  0.95971227 0.98479605 0.99999493 1.000000e+00

On voit que les 4 premières composantes expliquent 85 % de l’inertie totale.

VI-CHOIX DU NOMBRE D AXE A RETENIR

## Loading required package: ggplot2
## Warning: package 'ggplot2' was built under R version 3.2.4
## Loading required package: grid
## Warning: package 'FactoMineR' was built under R version 3.2.4
res.pca=PCA(x,scale.unit=T,graph=F)
fviz_screeplot(res.pca)

Je sélectionne les quatre premiers axes

res.pca$eig
##          eigenvalue percentage of variance
## comp 1 3.4871512725           3.874613e+01
## comp 2 2.1301731410           2.366859e+01
## comp 3 1.0989576113           1.221064e+01
## comp 4 0.9944829778           1.104981e+01
## comp 5 0.5432177255           6.035753e+00
## comp 6 0.3834276658           4.260307e+00
## comp 7 0.2257540553           2.508378e+00
## comp 8 0.1367899257           1.519888e+00
## comp 9 0.0000456251           5.069456e-04
##        cumulative percentage of variance
## comp 1                          38.74613
## comp 2                          62.41472
## comp 3                          74.62536
## comp 4                          85.67517
## comp 5                          91.71092
## comp 6                          95.97123
## comp 7                          98.47960
## comp 8                          99.99949
## comp 9                         100.00000

Les valeurs propres associées aux 3 premières composantes sont supérieurs à 1 ce qui m’amène à retenir les 3 premiers axes avec 74% d’inertie expliquée. Je remarque aussi que la valeur propre associé à la quatrième composante est presque égal a 1 ce qui m’amène a retenir 4 composantes principales

Conclusion :

Les deux premiers critères(KAISER&COUDE) ont mené sur le choix de quatre axes avec 85% d’inertie expliquée.
on va s’interesser a la projection des indidvidus sur le 1er axe factoriel(1,2) car on remarque une cassure importante au niveau du 2 eme et du troisième axes principales

V-REPRESENTATION DES INDIVIDUS

                       plan factoriel(1,2)
fviz_pca_ind(res.pca, geom = "text", col.ind="cos2")+scale_color_gradient2(low = "white",  mid = "blue", high = "red",  midpoint = 0.6) + theme_minimal()

fviz_pca_var(res.pca, col.var = "cos2")+scale_color_gradient2(low = "white", mid= "blue", high = "red", midpoint = 0.6) + theme_minimal()

 fviz_pca_biplot(res.pca,col.var="cos2")+scale_color_gradient2(low = "white", mid= "blue", high = "red", midpoint = 0.6) + theme_minimal()

VI-contribution des individus aux deux premiers axes factoriels :

1-Etude du premier axe

a-interpretation suivant les individus :

contind1=(1/nrow(x))*((acp$scores[,1]/acp$sdev[1])^2)
contind1=contind1[which(contind1>(1/nrow(x)))]
contind1
##     Greece     Turkey    Rumania Yugoslavia 
## 0.04926306 0.44439254 0.04641935 0.17209258

J’ai retenu pour l’interprétation de l’axe 1 les individus de forte contribution. Tous ces individus ont une contribution négative sur l’axe 1 et qui représentent essentiellement les pays relativement pauvres.ils ont un fort taux d’employé dans le domaine agricole.

2-Interprétation par les variables :

contv1=(loadings(acp)[,1])^2
contv1=contv1[which(contv1>(1/ncol(x)))]
contv1
##       Agr       Man        SI       SPS        TC 
## 0.2743570 0.1207529 0.1435801 0.1500856 0.1345589

Cet axe oppose la variable agriculture de contribution négative aux restes des variables qui sont manufacturing, service industrielle, service sociaux, transport et communication (contribution positives).

fviz_pca_contrib(res.pca, choice = "var", axes = 1)
## Warning in fviz_pca_contrib(res.pca, choice = "var", axes = 1): The
## function fviz_pca_contrib() is deprecated. Please use the function
## fviz_contrib() which can handle outputs of PCA, CA and MCA functions.

####conclusion L’axe 1 sépare les pays avec des taux élevés d’employés dans le secteur agricole aux autres pays avec un taux élevés dans les secteurs : industrie et services (effet de taille).

2-Etude du deuxième axe

1-interpretation par les individus:

J’ai retenu pour l’interprétation de l’axe 2 les individus de forte contribution

contind2=(1/nrow(x))*((acp$scores[,2]/acp$sdev[2])^2)
contind2=contind2[which(contind2>(1/nrow(x)))]
contind2
##        Denmark    Netherlands         Sweden       Bulgaria Czechoslovakia 
##     0.08174613     0.07257270     0.04498977     0.04045010     0.12819219 
##      E-Germany        Hungary         Poland        Rumania 
##     0.14307888     0.17841178     0.06554121     0.04651350

L’axe 2 oppose les pays Denmark; Netherlands; Sweden qui ont des forts taux d’activité dans le secteur des services (SPS,SI) et financier (FN) aux pays Bulgaria; Czechoslovakia; E-Germany; Hungary; Poland; Rumania qui présentent des taux élevé d’employé dans le secteur de manufacture et des taux faible dans les autres secteurs.

2-interpretation par variables :

contv2=(loadings(acp)[,2])^2
contv2=contv2[which(contv2>(1/ncol(x)))]
contv2
##       Min       Man        SI       Fin 
## 0.3816857 0.1260631 0.1226205 0.2058417

Cet axe oppose les variables services industriel et finance aux variables Mining et Manufacturing ce qui confirme les interprétations obtenus par les individus.

fviz_pca_contrib(res.pca, choice = "var", axes = 2)
## Warning in fviz_pca_contrib(res.pca, choice = "var", axes = 2): The
## function fviz_pca_contrib() is deprecated. Please use the function
## fviz_contrib() which can handle outputs of PCA, CA and MCA functions.

Conclusion :

L’axe 2 est donc un axe qui discrimine entre les pays avec un taux d’activité fort dans le secteur des services et un taux faible dans le secteur des manufactures et vice versa