L’analyse en composantes principales (ACP) est un outil extrêmement puissant de compression et de synthèse de l’information, très utile lorsque l’on est en présence d’une somme importante de données quantitatives à traiter et interpréter.
Le jeu de données que nous analyserons provient de l’INSEE (données départementale), il est composé de 10 variables initiales qui sont les suivantes :
- Taux.de.chômage.annuel.moyen.2018
- Nb.de.naissances.domicilées.en.2018
- Nb.de.décès.domiciliés.2018
- Nb.de.ménages.fiscaux.2016
- Nb.entreprises.2018
- Rés..principales.HLM.louées.vides.2016
- Taux.de.pauvreté.2016
- Part.des.non.ou.peu.diplômés.dans.la.pop..non.scolarisée.de.15.ans.ou…2016
- Lycée.2018
- Part.des.ménages.ayant.au.moins.1.voiture.2016
1ere ACP
Graphique des contributions
Il y a 10 variables initiales, qui ont été centrées-réduites. Leurs variances sont donc toutes égales à 1, et elles contiennent chacune 1/10ème de l’information.
D’abord, on retient les seules composantes principales dont la contribution excède 1 (en dessous, elles sont moins indicatives que les variables initiales).
Les 2 premières composantes principales ont une variance supérieure à 1. Elles sont donc plus informatives que les variables initiales, et donc des super-variables.
On retient donc les 2 premières composantes principales, parce qu’elles sont nettement plus informatives que les variables initiales et constituent donc des « supervariables ».
Les 2 premières composantes principales « conservent » 59% + 27% = 86 % de l’information initiale. Elles sont plus informatives que les variables initiales et constituent donc des super-variables.
Nous étudierons donc ces deux premièrescomposantes principales.
Tableau d’interprétation
| cp1 | cp2 | cp3 | cp4 | cp5 | cp6 | cp7 | cp8 | cp9 | cp10 | |
|---|---|---|---|---|---|---|---|---|---|---|
| Taux.de.chômage.annuel.moyen.2018 | 0 | -0.9 | -0.21 | 0.34 | -0.11 | 0.16 | -0.03 | 0 | 0.01 | 0 |
| Nb.de.naissances.domicilées.en.2018 | -0.96 | -0.07 | -0.11 | -0.14 | -0.16 | -0.02 | -0.09 | 0.05 | -0.08 | 0.03 |
| Nb.de.décès.domiciliés.2018 | -0.89 | 0.11 | -0.39 | 0.06 | 0.12 | -0.04 | 0.14 | 0.02 | 0.03 | 0.02 |
| Nb.de.ménages.fiscaux.2016 | -0.98 | 0.02 | -0.15 | 0.02 | 0.01 | -0.01 | 0.03 | 0.04 | -0.07 | -0.04 |
| Nb.entreprises.2018 | -0.91 | -0.02 | 0.32 | 0.18 | 0.12 | -0.07 | -0.07 | 0.1 | 0.06 | 0 |
| Rés..principales.HLM.louées.vides.2016 | -0.94 | -0.06 | -0.04 | -0.26 | -0.15 | 0.11 | 0 | -0.02 | 0.11 | -0.01 |
| Taux.de.pauvreté.2016 | 0 | -0.96 | -0.01 | -0.04 | -0.09 | -0.27 | 0.02 | -0.04 | 0.02 | 0 |
| Part.des.non.ou.peu.diplômés.dans.la.pop..non.scolarisée.de.15.ans.ou…2016 | 0.44 | -0.8 | -0.16 | -0.26 | 0.25 | 0.07 | -0.05 | 0.05 | 0 | 0 |
| Lycée.2018 | -0.97 | 0.03 | -0.05 | 0.06 | 0.17 | 0 | -0.1 | -0.15 | -0.01 | 0 |
| Part.des.ménages.ayant.au.moins.1.voiture.2016 | 0.64 | 0.56 | -0.5 | 0.05 | -0.03 | -0.09 | -0.11 | 0.03 | 0.05 | -0.01 |
Premirement on considere significatives les variables qui dans le tableau de corrélation sont supérieures ou égales à 0.7 et les variables inférieurs ou égales à -0.7.
Selon le tableau d’interpréation, les variables Nb.de.naissances.domicilées.en.2018 , Nb.de.décès.domiciliés.2018 , Nb.de.ménages.fiscaux.2016 Nb.entreprises.2018 Rés..principales.HLM.louées.vides.2016 Lycée.2018 sont significativement corrélées de façon négative à la C.P.1 et les variables Taux.de.chômage.annuel.moyen.2018, Taux.de.pauvreté.2016 , Part.des.non.ou.peu.diplômés.dans.la.pop..non.scolarisée.de.15.ans.ou…2016 sont de même corrélées négativement à la CP.2
Expliquer la 1ère composante principale
Pour la C.P. 1, l’analyse du tableau 1 relève 6 variables Nb.de.naissances.domicilées.en.2018 , Nb.de.décès.domiciliés.2018 , Nb.de.ménages.fiscaux.2016 Nb.entreprises.2018 Rés..principales.HLM.louées.vides.2016 Lycée.2018, significativement corrélées (négativement) à cette C.P.
Les variables initiales cités ci-dessus présentent des corrélations négatives importantes avec la c.p. 1. Ceci signifie que la c.p. 1 a tendance à varier en “sens inverse” de ces variables. D’où : valeur forte pour c.p.1 (+) => valeur faible pour les variables ci-dessus (-).
La C.P.1 étant la plus informative on en conclut que :
La principale cause de variabilité dans ce jeu de données symbolisé par des variables plutot tourné économique est une opposition entre variables Nb.de.naissances.domicilées.en.2018 , Nb.de.décès.domiciliés.2018 , Nb.de.ménages.fiscaux.2016 Nb.entreprises.2018 Rés..principales.HLM.louées.vides.2016 Lycée.2018.
Expliquer la 2eme composante principale
Pour la C.P.2, l’analyse du tableau relève 3 variables Taux.de.chômage.annuel.moyen.2018, Taux.de.pauvreté.2016 , Part.des.non.ou.peu.diplômés.dans.la.pop..non.scolarisée.de.15.ans.ou…2016 significativement corrélées négativement à cette C.P.
Les variables initiales cités ci-dessus présentent des corrélations négatives importantes avec la c.p. 2. Ceci signifie que la c.p. 2 a tendance à varier en “sens inverse” de ces variables. D’où : valeur forte pour c.p.1 (+) => valeur faible pour les variables ci-dessus (-).
La C.P.2 étant la deuxieme plus informative on en conclut que :
La deuxieme cause de variabilité dans ce jeu de données symbolisé par des variables plutot tourné économique est une opposition entre les variables Taux.de.chômage.annuel.moyen.2018, Taux.de.pauvreté.2016 , Part.des.non.ou.peu.diplômés.dans.la.pop..non.scolarisée.de.15.ans.ou…2016 surement dû a des outliers notamments les DOM-TOM.
Graphe des composantes principales
Afin de mieux voir cette ACP on se propose de réaliser un graphe des composantes principales afin de pouvoir représenter en 2 dimensions ceux la. L’axe 1 représente la C.P.1. et l’axe 2 répresente la C.P.2.
Ainsi concernant la C.P.1 nous remarquons que Paris ou le Nord ont une C.P.1 avec une valeur significativement très faible. A l’opposé nous retrouvons des départements avec une valeur plus forte comme la Lozère ou la Corse-Du-Sud plus proche du reste des départements et dans la moyenne.
On observe ainsi pour cette premiere C.P que Paris ou le Nord sont caractérisés par un dynamisme beaucoup plus élévée avec notamment un nombre de naissance plus élévés, un nombre de décès plus élévés ou encore des entreprises et des ménages fiscaux beaucoup plus elevés que le reste de la population.
Pour ce qui concerne la C.P.2 on observe que Guadeloupe, Martinique, la Reunion la Guyane et potentiellement Seine-Saint-Denis (On devra réaliser un mapping afin de mieux voir a quelle CP.2 appartient ce département)possédent une valeur significativement très faible. A l’opposé nous retrouvons des départements avec une valeurs fortes proche de la moyenne des autres départements comme la Haute-Savoie par exemple.
On en conclut que dans cette deuxieme C.P les DOM-TOM “tirent vers le bas” cette C.P, les DOM-TOM sont ainsi caractérisés par un taux de chomage, un taux de pauvrete et Part.des.non.ou.peu.diplômés.dans.la.pop..non.scolarisée.de.15.ans.ou…2016 très élevé.
Mapping
On se propose ainsi de réaliser un mapping nous permettant de mieux visionner le voisinage de ces départements et ainsi de pouvoir mieux classer pour une 2eme ACP.
2eme ACP
Afin d’avoir une meilleure ACP on se propose de faire une 2EME ACP. En analysant les deux derniers graphiques on remarque la présence de certains outliers notamment : -Paris -Nord -Seine Saint Denis -Martinique -Guadeloupe -La Réunion -Guyane On se propose donc de les enlever afin d’avoir une meilleure ACP
## The following objects are masked from X (pos = 8):
##
## Code, Libellé, Lycée.2018, Nb.de.décès.domiciliés.2018,
## Nb.de.ménages.fiscaux.2016, Nb.de.naissances.domicilées.en.2018,
## Nb.entreprises.2018,
## Part.des.ménages.ayant.au.moins.1.voiture.2016,
## Part.des.non.ou.peu.diplômés.dans.la.pop..non.scolarisée.de.15.ans.ou...2016,
## Rés..principales.HLM.louées.vides.2016,
## Taux.de.chômage.annuel.moyen.2018, Taux.de.pauvreté.2016
Graphique des contributions
De même on retrouve 10 variables initiales.
Les 2 premières composantes principales ont une variance supérieure à 1. Elles sont donc plus informatives que les variables initiales, et donc des super-variables elles sont donc nettement plus informatives. Celles ci « conservent » 61% + 23% = 84 % de l’information initiale. Elles sont plus informatives que les variables initiales et constituent donc des super-variables.
Tableau d’interpretation
| cp1 | cp2 | cp3 | cp4 | cp5 | cp6 | cp7 | cp8 | cp9 | cp10 | |
|---|---|---|---|---|---|---|---|---|---|---|
| Taux.de.chômage.annuel.moyen.2018 | 0.03 | 0.89 | -0.33 | 0.21 | 0.21 | -0.02 | -0.06 | 0.04 | 0 | 0 |
| Nb.de.naissances.domicilées.en.2018 | -0.98 | 0.03 | 0.04 | -0.03 | -0.05 | -0.16 | -0.07 | 0.02 | -0.08 | 0.02 |
| Nb.de.décès.domiciliés.2018 | -0.91 | 0.11 | -0.27 | -0.19 | 0.06 | 0.11 | 0.07 | -0.15 | 0 | 0.02 |
| Nb.de.ménages.fiscaux.2016 | -0.99 | 0.03 | -0.11 | -0.07 | 0 | 0 | -0.01 | -0.05 | -0.03 | -0.04 |
| Nb.entreprises.2018 | -0.95 | 0.07 | -0.08 | 0.08 | -0.17 | 0.11 | -0.18 | 0.01 | 0.05 | 0 |
| Rés..principales.HLM.louées.vides.2016 | -0.93 | 0.08 | 0.25 | -0.08 | 0.09 | -0.22 | 0.02 | -0.03 | 0.07 | 0 |
| Taux.de.pauvreté.2016 | 0.2 | 0.94 | 0.02 | 0.08 | -0.25 | -0.05 | 0.1 | -0.03 | 0 | 0 |
| Part.des.non.ou.peu.diplômés.dans.la.pop..non.scolarisée.de.15.ans.ou…2016 | 0.63 | 0.51 | 0.13 | -0.56 | 0.02 | 0.02 | -0.09 | 0.01 | 0 | 0 |
| Lycée.2018 | -0.94 | -0.01 | -0.17 | -0.18 | -0.02 | 0.06 | 0.12 | 0.19 | 0.01 | 0 |
| Part.des.ménages.ayant.au.moins.1.voiture.2016 | 0.67 | -0.37 | -0.6 | -0.13 | -0.09 | -0.17 | -0.02 | -0.01 | 0.02 | 0 |
De même on considere significatives les variables qui dans le tableau de corrélation sont supérieures ou égales à 0.7 et les variables inférieurs ou égales à -0.7.
Selon le tableau d’interpréation, les variables Nb.de.naissances.domicilées.en.2018 , Nb.de.décès.domiciliés.2018 , Nb.de.ménages.fiscaux.2016 Nb.entreprises.2018 Rés..principales.HLM.louées.vides.2016 Lycée.2018 sont significativement corrélées de façon négative à la C.P.1 et les variables Taux.de.chômage.annuel.moyen.2018, Taux.de.pauvreté.2016 , sont de même corrélées seulement cela est positive à la CP.2
Expliquer la 1ère composante principale
On ne voit aucun changement entre les 2 ACP pour la 1ere composante principale.
Expliquer la 2eme composante principale
Pour la C.P.2, l’analyse du tableau relève 2 variables Taux.de.chômage.annuel.moyen.2018, Taux.de.pauvreté.2016 , significativement corrélées positivement à cette C.P.
Les variables initiales cités ci-dessus présentent des corrélations positives importantes avec la c.p. 2. Ceci signifie que la c.p. 2 a tendance à varier dans le même sens que ces variables. D’où : valeur forte pour c.p.2 (+) => valeur forte pour les variables ci-dessus (+).
La C.P.2 étant la deuxieme plus informative on en conclut que :
La deuxieme cause de variabilité dans ce jeu de données symbolisé par des variables plutot tourné économique est en adhésion avec les variables Taux.de.chômage.annuel.moyen.2018 et Taux.de.pauvreté.2016.
Graphe des composantes principales
Encore une fois on à l’axe 1 représente la C.P.1. et l’axe 2 répresente la C.P.2.
Ainsi concernant la C.P.1 nous remarquons que premierement contrairement a la premiere ACP ici le graphe est beaucoup plus homogene, un nuage de point représentant la moyenne est assez présent. On retrouve des départements comme la Bouche-Du-Rhône, les Hauts-De-Seine ou le Rhône ayant une C.P.1 avec une valeur significativement très faible. A l’opposé nous retrouvons des départements avec une valeur plus forte comme la Lozère ou la Corse-Du-Sud plus proche du reste des départements et dans la moyenne.
On observe ainsi pour cette premiere C.P les départements cités ci dessus sont les départements de ville très animés comme Lyon,Marseille ou des métropoles du Grand Paris ce sont donc des villes très dynamiques avec notamment un nombre de naissance plus élévés, un nombre de décès plus élévés ou encore des entreprises et des ménages fiscaux beaucoup plus elevés que le reste des autres départements.
Pour ce qui concerne la C.P.2 en retirant les DOM-TOM on remarque que cela a desuite éclairci cette C.P on remarque ainsi que les Pyrénées Orientale ont une valeur très positive contrairement notamment a la Haute-Savoie comme précédent dans la dernière ACP.
On en conclut que dans cette deuxieme C.P que les Pyrénées Orientale sont caractérises par un taux de chomage et un taux de pauvrete très important contrairement a la Haute-Savoie.
Mapping
Pour conclure, on réalise encore un Mapping afin de mieux voir le voisinage et les C.P. On pourrait réaliser une 3eme ACP en enlevant encore quelques outliers.