projet ACP Charlotte salvador
J’ai choisi les donnée que j’ai utiliser lors de mon premier projet j’en est retiré certaine pour qu’il y en est moins de 12
J’ai choisis les variable - Pharmacie - Medecin_generaliste - Boulangerie - Hypermarche supermarche - Taux d activité des 15 à 24 ans 2015 - Diplôme le plus élevé des 15 ans ou non scolarisés 2015 - Diplôme le plus élevé des 15 ans ou non scolarisés 2015 CAP ouBEP - Diplôme le plus élevé parmi les 15 ans ou plus non scolarisés - Diplôme le plus élevé des 15 ans ou non scolarisés 2015 BAC - Diplôme le plus élevé parmi les 15 ans ou plus non scolarisés.1
1er ACP
Graphique des contributions
Le graphique des contribution donne 10 axe on garde que les deux premier car leurs variance sont superieur a 1. Je retient les 2 premières composantes principales, parce qu’elles sont nettement plus informatives que les variables initiales et constituent donc des «super-variables».
Les 2 premières composantes principales conservent 77% + 12% = 89 % de l’information initiale.
Tableau des corrélations - variables & composantes principales
| cp1 | cp2 | cp3 | cp4 | cp5 | cp6 | cp7 | cp8 | cp9 | cp10 | |
|---|---|---|---|---|---|---|---|---|---|---|
| Pharmacie.2017 | -0.98 | 0 | 0.04 | -0.13 | 0.01 | -0.03 | 0.05 | 0.09 | 0.07 | 0.02 |
| Médecin.généraliste.2017 | -0.98 | 0 | 0 | -0.05 | 0.12 | 0.09 | -0.02 | 0.1 | -0.05 | -0.02 |
| Boulangerie.2017 | -0.97 | 0.01 | -0.02 | -0.14 | 0.13 | 0.07 | 0.06 | -0.12 | 0.01 | 0 |
| Hypermarché…Supermarché.2017 | -0.96 | -0.08 | -0.01 | -0.15 | -0.21 | 0.09 | 0.03 | -0.01 | -0.01 | -0.02 |
| Taux.d.activité.des.15.à.24.ans.2015 | 0.57 | -0.61 | -0.5 | -0.23 | 0.02 | -0.03 | -0.03 | 0.01 | 0 | 0 |
| Diplôme.le.plus.élevé.des.15.ans.ou…non.scolarisés.2015…Pas.ou.peu.diplômés.parmi.les.15.ans.ou.plus.non.scolarisés | -0.94 | 0.1 | -0.26 | 0.1 | -0.02 | -0.15 | 0.1 | 0 | -0.04 | 0.01 |
| Diplôme.le.plus.élevé.des.15.ans.ou…non.scolarisés.2015…CAP.ou.BEP | -0.9 | -0.06 | -0.33 | 0.26 | -0.02 | 0.09 | -0.07 | -0.01 | 0.01 | 0.04 |
| diplôme.le.plus.élevé.parmi.les.15.ans.ou.plus.non.scolarisés | -0.98 | -0.03 | -0.07 | 0.12 | 0.02 | -0.07 | -0.06 | -0.02 | 0.03 | -0.06 |
| Diplôme.le.plus.élevé.des.15.ans.ou…non.scolarisés.2015…BAC | -0.92 | -0.12 | 0.28 | -0.16 | -0.02 | -0.1 | -0.12 | -0.03 | -0.02 | 0.03 |
| diplôme.le.plus.élevé.parmi.les.15.ans.ou.plus.non.scolarisés.1 | 0.19 | 0.92 | -0.29 | -0.17 | -0.01 | -0.01 | -0.05 | 0 | 0 | 0 |
Ici se trouve le tableau des correlations ou en rose se trouve les variables sont significativees. On ne considere significatives que les variables qui dans le tableau de corrélation sont supérieures ou egales a 0.7 ou inferieur ou egale a -0.7
Avec se tableau on peut voir que les variables Pharmacie Medecin_generaliste,Boulangerie,Hypermarche supermarche , Diplôme le plus élevé des 15 ans ou non scolarisés 2015 ,Diplôme le plus élevé des 15 ans ou non scolarisés 2015 CAP ouBEP ,Diplôme le plus élevé parmi les 15 ans ou plus non scolarisés,Diplôme le plus élevé des 15 ans ou non scolarisés 2015 BAC sont significativement negativement coréler pour l’ACP1 et que Diplôme le plus élevé parmi les 15 ans ou plus non scolarisés.1 est significativement positivement corélé pour l’ACP2
CP1
Pour la CP. 1 l’analyse du tableau 1 relève plusieur variables Pharmacie Medecin_generaliste,Boulangerie,Hypermarche supermarche , Diplôme le plus élevé des 15 ans ou non scolarisés 2015 ,Diplôme le plus élevé des 15 ans ou non scolarisés 2015 CAP ouBEP ,Diplôme le plus élevé parmi les 15 ans ou plus non scolarisés,Diplôme le plus élevé des 15 ans ou non scolarisés 2015 BAC qui sont significativement corélé negativement
Les variables initiales présentent des corelation négatives importantes avec la CP1 . Ce qui veut dire que la CP1 a tendance a varier en“sens inverse” de ces variables d’ou : valeur forte pour CP1 (+) => valeur faible pour les variables ci-dessus (-)
La C.P.1 étant la plus informative on en conclut que :
La principale cause de variabilité dans ce jeu de données est symbolisé par des variables sur le niveau d’etude et les variable variables Pharmacie, Medecin_generaliste, Boulangerie, Hypermarche supermarche
Pour la CP2, l’analyse du tableau relève 1 variables diplôme le plus élevé parmi les 15 ans ou plus non scolarisés 1 . cette Varibles initiales a des corelation positive importante avec la CP2 ca veut dire qu’elle a tendance varié dans le “bon sens” de ces variables d’ou :valeur forte pour CP2 (-) => Valeur fort pour les variables ci-dessue
La C.P.2 étant la deuxieme plus informative on en conclut que :
La deuxieme cause de variabilité dans ce jeu de données symbolisé par diplôme le plus élevé parmi les 15 ans ou plus non scolarisés
Graphe des composantes principales
Grace au graphique des composante principale on peut mieux voire la CP .
Pour la CP1 on peut voire que Le Nord , Paris et les bouche du rhone on une CP1 avec des trés elever et qui sont trés eloigné des autre region .
On observe donc que pour la CP1 que Le Nord , Paris et les bouche du rhone on beacoup de Pharmacie Medecin_generaliste,Boulangerie,Hypermarche supermarche , Diplôme le plus élevé des 15 ans ou non scolarisés 2015 ,Diplôme le plus élevé des 15 ans ou non scolarisés 2015 CAP ouBEP ,Diplôme le plus élevé parmi les 15 ans ou plus non scolarisés,Diplôme le plus élevé des 15 ans ou non scolarisés 2015 BAC
Pour la C.P.2 on observe que les dom tom et le Gard des valeur significativement superieur se qui les eloigne du reste des autres region . on en conclue donc que dans cette 2eme CP les dom tom et le Gard on plus de diplome elever parmies les parsonne qui ne sont pas scolarisé .
Grace q ce mappin on peut mieux voire qu’elle sont les outliers
2eme acp
Comme il y a dans la premier CP plusieur outliers on refait une ACP ou en enleve les outliers
graphique de contribution
Le graphique des contribution donne 10 axe on garde que les deux premier car leurs variance sont superieur a 1. Je retient les 2 premières composantes principales, parce qu’elles sont nettement plus informatives que les variables initiales et constituent donc des «super-variables».
Les 2 premières composantes principales conservent 79% + 10% = 89 % de l’information initiale. comme pour la premier ACP
Tableau des corrélations - variables & composantes principales
| cp1 | cp2 | cp3 | cp4 | cp5 | cp6 | cp7 | cp8 | cp9 | cp10 | |
|---|---|---|---|---|---|---|---|---|---|---|
| Pharmacie.2017 | -0.98 | -0.02 | 0.01 | 0.1 | -0.01 | -0.06 | 0.05 | 0.1 | 0.07 | 0.02 |
| Médecin.généraliste.2017 | -0.97 | -0.03 | 0 | 0.06 | 0.18 | 0.06 | 0.06 | 0.05 | -0.07 | -0.01 |
| Boulangerie.2017 | -0.96 | -0.08 | -0.11 | 0.02 | 0.16 | -0.09 | -0.13 | -0.03 | 0.02 | 0 |
| Hypermarché…Supermarché.2017 | -0.96 | -0.06 | -0.11 | -0.11 | -0.1 | 0.17 | -0.08 | 0.06 | 0 | -0.02 |
| Taux.d.activité.des.15.à.24.ans.2015 | 0.66 | 0.15 | -0.72 | 0.13 | 0 | 0.03 | 0 | 0.01 | 0 | 0 |
| Diplôme.le.plus.élevé.des.15.ans.ou…non.scolarisés.2015…Pas.ou.peu.diplômés.parmi.les.15.ans.ou.plus.non.scolarisés | -0.95 | -0.09 | -0.17 | -0.05 | -0.15 | -0.17 | 0 | 0.01 | -0.06 | 0.02 |
| Diplôme.le.plus.élevé.des.15.ans.ou…non.scolarisés.2015…CAP.ou.BEP | -0.94 | -0.04 | -0.25 | -0.17 | 0.05 | 0.06 | 0.08 | -0.07 | 0.02 | 0.04 |
| diplôme.le.plus.élevé.parmi.les.15.ans.ou.plus.non.scolarisés | -0.99 | 0.03 | -0.04 | 0.03 | -0.05 | -0.03 | 0.04 | -0.05 | 0.03 | -0.08 |
| Diplôme.le.plus.élevé.des.15.ans.ou…non.scolarisés.2015…BAC | -0.93 | 0.18 | 0.15 | 0.23 | -0.09 | 0.09 | -0.01 | -0.06 | -0.01 | 0.03 |
| diplôme.le.plus.élevé.parmi.les.15.ans.ou.plus.non.scolarisés.1 | 0.23 | -0.97 | -0.05 | 0.08 | -0.02 | 0.03 | 0.01 | -0.01 | 0 | 0 |
Avec se tableau on peut voir que les variables Pharmacie Medecin_generaliste,Boulangerie,Hypermarche supermarche , Diplôme le plus élevé des 15 ans ou non scolarisés 2015 ,Diplôme le plus élevé des 15 ans ou non scolarisés 2015 CAP ouBEP ,Diplôme le plus élevé parmi les 15 ans ou plus non scolarisés,Diplôme le plus élevé des 15 ans ou non scolarisés 2015 BAC sont significativement negativement coréler pour l’ACP1 et que Diplôme le plus élevé parmi les 15 ans ou plus non scolarisés.1 est significativement positivement corélé pour l’ACP2
CP1
Pour la CP. 1 l’analyse du tableau 1 relève plusieur variables Pharmacie Medecin_generaliste,Boulangerie,Hypermarche supermarche , Diplôme le plus élevé des 15 ans ou non scolarisés 2015 ,Diplôme le plus élevé des 15 ans ou non scolarisés 2015 CAP ouBEP ,Diplôme le plus élevé parmi les 15 ans ou plus non scolarisés,Diplôme le plus élevé des 15 ans ou non scolarisés 2015 BAC qui sont significativement corélé negativement
Les variables initiales présentent des corelation négatives importantes avec la CP1 . Ce qui veut dire que la CP1 a tendance a varier en“sens inverse” de ces variables d’ou : valeur forte pour CP1 (+) => valeur faible pour les variables ci-dessus (-)
La C.P.1 étant la plus informative on en conclut que :
La principale cause de variabilité dans ce jeu de données est symbolisé par des variables sur le niveau d’etude et les variable variables Pharmacie, Medecin_generaliste, Boulangerie, Hypermarche supermarche
Pour la CP2, l’analyse du tableau relève 1 variables diplôme le plus élevé parmi les 15 ans ou plus non scolarisés 1 . cette Varibles initiales a des corelation positive importante avec la CP2 ca veut dire qu’elle a tendance varié dans le “bon sens” de ces variables d’ou :valeur forte pour CP2 (-) => Valeur fort pour les variables ci-dessue
La C.P.2 étant la deuxieme plus informative on en conclut que :
La deuxieme cause de variabilité dans ce jeu de données symbolisé par diplôme le plus élevé parmi les 15 ans ou plus non scolarisés
Graphe des composantes principales
Grace au graphique des composante principale on peut mieux voire la CP .
Pour la CP1 on peut voire que l’Aisne , le gard , les pyrénées orientale on une CP1 avec des trés faible et qui sont donc eloigné des autre region .
On observe donc que pour la CP1 que l’Aisne , le gard , les pyrénées orientale on beacoup de Pharmacie Medecin_generaliste ,Boulangerie,Hypermarche supermarche , Diplôme le plus élevé des 15 ans ou non scolarisés 2015 ,Diplôme le plus élevé des 15 ans ou non scolarisés 2015 CAP ouBEP ,Diplôme le plus élevé parmi les 15 ans ou plus non scolarisés,Diplôme le plus élevé des 15 ans ou non scolarisés 2015 BAC
Pour la C.P.2 on observe que les regions sont plutot eloigné mais on trouve l’heraul et le pas de calet significativement negatife et les Hauts-de-seine qui est significativement superier . on en conclue donc que dans cette 2eme CP c’est region on plus de diplome elever parmies les parsonne qui ne sont pas scolarisé .
Pour conclure on realise une nouvelle ACP et comme on vien de le constaté plus haut on pourrait en realiser une autre en retirant les outliers