Le crime accompagne la vie sociale depuis ses tout débuts - il se produit dans toutes les sociétés et quels que soient sa structure, son système ou sa période historique. Sans aucun doute, la criminalité est la conséquence de nombreux problèmes économiques qui évoluent constamment. Peu importe si nous Qu’on le veuille ou non - le crime est une composante constante de notre vie. Le niveau de criminalité est influencé par de nombreux facteurs.
On va essayer de comprendre quels facteurs économiques dominent pour expliquer la variation des taux de criminalité.
On a une base de données de 50 pays:
Une variable qualitative:
9 variables quantitatives:
Homicide_Rate: le taux d’homicide dans chaque Etat de US
Gini_Index: l’indice de Gini(indicateur de l’inégalité de repartition de revenu dans une population)
Unemployment_Rate (%): le taux de chomage
Per_Capita_Income (USD): le revenu médian nominal par habitant
Population: taille de la population de chaque etat
Pop_Density (p/mi^2): la densité de population(nombre des habitants par metre carré)
Edu_Spending (USD): les depenses de chaque Etat en education
Poverty_Rate(%): le taux de pauvreté
Urban_Population (%): la population urbaine en pourcentage
data=read.table(file=file.choose(),header=T,sep=";",row.names = 1)
x<-read.csv("C:/Users/dell/Documents/PCA/copie.csv",sep=";")
attach(data)
nrow(data)
## [1] 50
ncol(data)
## [1] 11
str(data)
## 'data.frame': 50 obs. of 11 variables:
## $ Relegion.dominante : Factor w/ 5 levels "Catholicisme",..: 4 4 4 4 1 4 1 1 4 4 ...
## $ Orientation : Factor w/ 4 levels "midwestern","Northeastern",..: 3 4 4 3 4 4 2 3 3 3 ...
## $ Homicide_Rate : num 7.8 6.4 5.1 7.2 4.4 3.7 2.3 5 5.2 6.1 ...
## $ Gini_Index : num 0.49 0.43 0.46 0.48 0.49 0.46 0.5 0.46 0.49 0.48 ...
## $ Unemployment_Rate.... : num 3 6.2 4.9 3.5 4 2.7 3.6 3.5 3.2 3.5 ...
## $ Per_Capita_Income..USD.: int 42334 59687 43650 42566 62586 56846 74561 51449 49417 45745 ...
## $ Population..P. : int 4898246 735720 7275070 3026412 39747267 5770545 3567871 975033 21646155 10627767 ...
## $ Pop_Density..p.mi.2. : num 96.72 1.29 64.04 58.16 255.15 ...
## $ Edu_Spending..USD. : num 2.93e+09 4.32e+08 5.28e+09 1.42e+09 1.79e+10 ...
## $ Poverty_Rate... : num 0.18 0.1 0.17 0.18 0.15 0.11 0.1 0.12 0.15 0.16 ...
## $ Urban_Population.... : num 0.59 0.66 0.9 0.56 0.95 0.86 0.88 0.83 0.91 0.75 ...
head(data)
## Relegion.dominante Orientation Homicide_Rate Gini_Index
## Alabama Protestantisme évangélique Southern 7.8 0.49
## Alaska Protestantisme évangélique western 6.4 0.43
## Arizona Protestantisme évangélique western 5.1 0.46
## Arkansas Protestantisme évangélique Southern 7.2 0.48
## California Catholicisme western 4.4 0.49
## Colorado Protestantisme évangélique western 3.7 0.46
## Unemployment_Rate.... Per_Capita_Income..USD. Population..P.
## Alabama 3.0 42334 4898246
## Alaska 6.2 59687 735720
## Arizona 4.9 43650 7275070
## Arkansas 3.5 42566 3026412
## California 4.0 62586 39747267
## Colorado 2.7 56846 5770545
## Pop_Density..p.mi.2. Edu_Spending..USD. Poverty_Rate...
## Alabama 96.72 2934153320 0.18
## Alaska 1.29 432231773 0.10
## Arizona 64.04 5277896190 0.17
## Arkansas 58.16 1422088220 0.18
## California 255.15 17923849045 0.15
## Colorado 55.68 2869804733 0.11
## Urban_Population....
## Alabama 0.59
## Alaska 0.66
## Arizona 0.90
## Arkansas 0.56
## California 0.95
## Colorado 0.86
Vu la nature de la base , on va utiliser la méthode d’analyse en composantes principales en considérant les 2 premières variables comme varibales qualitatives supplémentaires et le reste des vavribles comme des variables actives
L’éblouis des valeurs propres nous permet d’étudier l’inertie des composantes principales.
Le diagramme des valeurs propres suggère que les deux premières dimensions de l’ACP résument bien l’ensemble des 11 variables. Plus précisément, on peut voir (tableau ci-dessous) que les pourcentages d’inertie associés aux deux premières dimensions valent respectivement 34.3 % et 30.6 %. Le plan principal de l’ACP permet donc de récupérer 64.9% de l’information contenue dans les 11 variables initiales. (Meme la 3ème composante compte pour la représentaion puisqu’il a une variance supérieure à 1 )
library(FactoMineR)
res.pca=PCA(data,quali.sup =1:2,graph =F)
res.pca$eig
## eigenvalue percentage of variance cumulative percentage of variance
## comp 1 3.08428613 34.2698459 34.26985
## comp 2 2.75034732 30.5594147 64.82926
## comp 3 1.07971610 11.9968456 76.82611
## comp 4 0.77957620 8.6619578 85.48806
## comp 5 0.57005020 6.3338911 91.82195
## comp 6 0.42999278 4.7776976 96.59965
## comp 7 0.24922106 2.7691229 99.36878
## comp 8 0.03491716 0.3879684 99.75674
## comp 9 0.02189305 0.2432561 100.00000
library(ggplot2)
library(grid)
library(factoextra)
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
fviz_screeplot(res.pca)
fviz_pca_var(res.pca,col.var="cos2")+scale_color_gradient2(low="green",mid="blue",high="red",midpoint=0.4)
En regardant le cercle de corrélation on remarque que certaines variables sont fortemenet correlées telles que les variables (Per_Capita_Income (USD), Urban_Population (%) et Pop_Density (p/mi^2) ), (Population, Edu_Spending (USD) et Gini_Index) , (Homicide_Rate,Unemployment_Rate (%) et Poverty_Rate(%)).
res.pca$var$cor[,1:2]
## Dim.1 Dim.2
## Homicide_Rate 0.2699661 0.69265086
## Gini_Index 0.7467405 0.32374427
## Unemployment_Rate.... 0.2321161 0.51903183
## Per_Capita_Income..USD. 0.3952418 -0.80006440
## Population..P. 0.8594646 0.07077736
## Pop_Density..p.mi.2. 0.5096379 -0.51331174
## Edu_Spending..USD. 0.8687606 0.06260234
## Poverty_Rate... 0.1766518 0.92114529
## Urban_Population.... 0.6777374 -0.36789754
La matrice de corrélations montre que Edu_Spending (USD), Urban_Population (%), Gini_Index, Population sont très bien corrolées avec le 1er axe, et que les variables Homicide_Rate, Per_Capita_Income (USD) et Poverty_Rate(%) sont bien corrélées avec le second axe.
R <- cor(data[,-c(1,2)])
library(corrplot)
## corrplot 0.84 loaded
corrplot(R,method="number",type="upper")
On remarque que Population et Edu_Spending (USD) sont très bien corrélées (0.98), Gini_Index et Edu_Spending (USD)(0.52): ces sont les variables fortement corrélees avec le 1er axe.
res.pca$var$contrib[,1:2]
## Dim.1 Dim.2
## Homicide_Rate 2.363000 17.4438046
## Gini_Index 18.079431 3.8108043
## Unemployment_Rate.... 1.746852 9.7949098
## Per_Capita_Income..USD. 5.064902 23.2735350
## Population..P. 23.949771 0.1821383
## Pop_Density..p.mi.2. 8.421100 9.5802061
## Edu_Spending..USD. 24.470653 0.1424930
## Poverty_Rate... 1.011770 30.8509632
## Urban_Population.... 14.892522 4.9211458
Sur le 1er axe: le 1er axe est formé principalement par le variable d’évaluation Edu_Spending (USD)(24.47%) et Population (23.95 %), Gini_Index(14.08%), Urban_P opulation (%)(14.89%)..
rev(sort(round(res.pca$var$contrib[,1],digits = 2)))
## Edu_Spending..USD. Population..P. Gini_Index
## 24.47 23.95 18.08
## Urban_Population.... Pop_Density..p.mi.2. Per_Capita_Income..USD.
## 14.89 8.42 5.06
## Homicide_Rate Unemployment_Rate.... Poverty_Rate...
## 2.36 1.75 1.01
fviz_pca_contrib(res.pca, choice = "var", axes = 1)
## Warning in fviz_pca_contrib(res.pca, choice = "var", axes = 1): The function
## fviz_pca_contrib() is deprecated. Please use the function fviz_contrib() which
## can handle outputs of PCA, CA and MCA functions.
Sur le 2ème axe: le 2ème axe est principalement formé par la variable Poverty_Rate (30.85%) ,Per_Capita_Income (USD) (23.27%), Homicide_Rate (17.44%).
rev(sort(round(res.pca$var$contrib[,2],digits = 2)))
## Poverty_Rate... Per_Capita_Income..USD. Homicide_Rate
## 30.85 23.27 17.44
## Unemployment_Rate.... Pop_Density..p.mi.2. Urban_Population....
## 9.79 9.58 4.92
## Gini_Index Population..P. Edu_Spending..USD.
## 3.81 0.18 0.14
fviz_pca_contrib(res.pca, choice = "var", axes = 2)
## Warning in fviz_pca_contrib(res.pca, choice = "var", axes = 2): The function
## fviz_pca_contrib() is deprecated. Please use the function fviz_contrib() which
## can handle outputs of PCA, CA and MCA functions.
## 6-Représentation des States ( individus
fviz_pca_ind(res.pca,geom=c("point","text"),col.ind="cos2")+scale_color_gradient2(low='green',mid='red',high='blue',midpoint=0.4)
-D’après le graphe des individus, on remarque que quelques states présentent une particularité par rapport aux autres. -Une meilleure représentation qui met en evidence la 1ère variable qualitative supplémentaire : religion dominante
fviz_pca_ind(res.pca, habillage=1,label=T,addEllipses=TRUE, ellipse.level=0.95, alpha.ind=0.5)+theme_gray()
## Too few points to calculate an ellipse
## Too few points to calculate an ellipse
## Too few points to calculate an ellipse
-On remarque que les religion dominantes sonts diffèrentes, on peut alors faire une classification par religion.
-Une autre qui met en evidence la 2ème varible quali.sup :Orientation
fviz_pca_ind(res.pca, habillage=2,label=T,addEllipses=TRUE, ellipse.level=0.95, alpha.ind=0.5)+theme_gray()
-On remarque qu’on peut aussi faire une classification suivant la varibale “orientation” qui veut dire la region dont appartient l’Etat coté qui a été touché par l’accident vasculaire cérébral. On remarque que l’ellipse qui présente la region midwest est contenu dans l’ellipse qui présente la region western, ceci veut dire que la plupart des states dont le taux de criminalité est élevé sont de la region midwest ou bien de deux regions midwest et western.
plotellipses(res.pca)
rev(sort(round(res.pca$ind$contrib[,1],digits = 2)))
## California New York Texas Florida Vermont
## 22.53 11.32 6.73 5.96 4.80
## Maine South Dakota North Dakota New Jersey Illinois
## 4.43 3.74 3.53 3.51 3.45
## Montana Massachusetts Iowa Idaho New Hampshire
## 2.83 2.82 2.35 2.21 1.95
## Connecticut Pennsylvania Utah Nebraska Alaska
## 1.86 1.74 1.65 1.46 1.33
## Wyoming West Virginia Ohio Kansas Wisconsin
## 1.29 1.27 0.71 0.69 0.64
## Hawaii Georgia Arkansas Oklahoma Louisiana
## 0.58 0.51 0.39 0.38 0.35
## Mississippi Minnesota Maryland Michigan North Carolina
## 0.34 0.34 0.31 0.30 0.28
## Virginia Arizona Rhode Island Oregon Indiana
## 0.25 0.24 0.21 0.20 0.15
## Kentucky Delaware Washington South Carolina Colorado
## 0.11 0.11 0.04 0.04 0.04
## Tennessee New Mexico Alabama Nevada Missouri
## 0.02 0.01 0.01 0.00 0.00
fviz_pca_contrib(res.pca, choice = "ind", axes = 1)
## Warning in fviz_pca_contrib(res.pca, choice = "ind", axes = 1): The function
## fviz_pca_contrib() is deprecated. Please use the function fviz_contrib() which
## can handle outputs of PCA, CA and MCA functions.
rev(sort(round(res.pca$ind$contrib[,2],digits = 2)))
## Mississippi New Jersey New Mexico Louisiana Massachusetts
## 10.22 8.40 7.89 7.42 7.05
## Connecticut New Hampshire Kentucky Arkansas Alabama
## 6.29 4.72 4.03 3.95 3.83
## Hawaii West Virginia Rhode Island Maryland Arizona
## 3.20 3.18 3.09 2.24 1.83
## Minnesota South Carolina North Carolina Tennessee Utah
## 1.82 1.71 1.69 1.51 1.49
## Colorado North Dakota Missouri Georgia Vermont
## 1.41 1.35 1.29 1.08 1.07
## Wyoming Iowa Virginia Oklahoma Michigan
## 0.84 0.81 0.77 0.77 0.71
## Nebraska Delaware Washington Texas New York
## 0.62 0.56 0.50 0.50 0.40
## Nevada Wisconsin South Dakota Ohio Indiana
## 0.39 0.35 0.33 0.33 0.13
## Kansas Montana Florida Maine Illinois
## 0.12 0.05 0.05 0.02 0.02
## Oregon Idaho Alaska Pennsylvania California
## 0.01 0.01 0.01 0.00 0.00
fviz_pca_contrib(res.pca, choice = "ind", axes = 2)
## Warning in fviz_pca_contrib(res.pca, choice = "ind", axes = 2): The function
## fviz_pca_contrib() is deprecated. Please use the function fviz_contrib() which
## can handle outputs of PCA, CA and MCA functions.
fviz_pca_biplot(res.pca, geom=c("text","point"))+ theme_grey()