INTRODUCTION

Le crime accompagne la vie sociale depuis ses tout débuts - il se produit dans toutes les sociétés et quels que soient sa structure, son système ou sa période historique. Sans aucun doute, la criminalité est la conséquence de nombreux problèmes économiques qui évoluent constamment. Peu importe si nous Qu’on le veuille ou non - le crime est une composante constante de notre vie. Le niveau de criminalité est influencé par de nombreux facteurs.

OBJECTIF

On va essayer de comprendre quels facteurs économiques dominent pour expliquer la variation des taux de criminalité.

Description de la base

On a une base de données de 50 pays:

data=read.table(file=file.choose(),header=T,sep=";",row.names = 1)
x<-read.csv("C:/Users/dell/Documents/PCA/copie.csv",sep=";")
attach(data)
nrow(data)
## [1] 50
ncol(data)
## [1] 11
str(data)
## 'data.frame':    50 obs. of  11 variables:
##  $ Relegion.dominante     : Factor w/ 5 levels "Catholicisme",..: 4 4 4 4 1 4 1 1 4 4 ...
##  $ Orientation            : Factor w/ 4 levels "midwestern","Northeastern",..: 3 4 4 3 4 4 2 3 3 3 ...
##  $ Homicide_Rate          : num  7.8 6.4 5.1 7.2 4.4 3.7 2.3 5 5.2 6.1 ...
##  $ Gini_Index             : num  0.49 0.43 0.46 0.48 0.49 0.46 0.5 0.46 0.49 0.48 ...
##  $ Unemployment_Rate....  : num  3 6.2 4.9 3.5 4 2.7 3.6 3.5 3.2 3.5 ...
##  $ Per_Capita_Income..USD.: int  42334 59687 43650 42566 62586 56846 74561 51449 49417 45745 ...
##  $ Population..P.         : int  4898246 735720 7275070 3026412 39747267 5770545 3567871 975033 21646155 10627767 ...
##  $ Pop_Density..p.mi.2.   : num  96.72 1.29 64.04 58.16 255.15 ...
##  $ Edu_Spending..USD.     : num  2.93e+09 4.32e+08 5.28e+09 1.42e+09 1.79e+10 ...
##  $ Poverty_Rate...        : num  0.18 0.1 0.17 0.18 0.15 0.11 0.1 0.12 0.15 0.16 ...
##  $ Urban_Population....   : num  0.59 0.66 0.9 0.56 0.95 0.86 0.88 0.83 0.91 0.75 ...
head(data)
##                    Relegion.dominante Orientation Homicide_Rate Gini_Index
## Alabama    Protestantisme évangélique   Southern            7.8       0.49
## Alaska     Protestantisme évangélique     western           6.4       0.43
## Arizona    Protestantisme évangélique     western           5.1       0.46
## Arkansas   Protestantisme évangélique   Southern            7.2       0.48
## California               Catholicisme     western           4.4       0.49
## Colorado   Protestantisme évangélique     western           3.7       0.46
##            Unemployment_Rate.... Per_Capita_Income..USD. Population..P.
## Alabama                      3.0                   42334        4898246
## Alaska                       6.2                   59687         735720
## Arizona                      4.9                   43650        7275070
## Arkansas                     3.5                   42566        3026412
## California                   4.0                   62586       39747267
## Colorado                     2.7                   56846        5770545
##            Pop_Density..p.mi.2. Edu_Spending..USD. Poverty_Rate...
## Alabama                   96.72         2934153320            0.18
## Alaska                     1.29          432231773            0.10
## Arizona                   64.04         5277896190            0.17
## Arkansas                  58.16         1422088220            0.18
## California               255.15        17923849045            0.15
## Colorado                  55.68         2869804733            0.11
##            Urban_Population....
## Alabama                    0.59
## Alaska                     0.66
## Arizona                    0.90
## Arkansas                   0.56
## California                 0.95
## Colorado                   0.86

Analyse en composantes principales :(ACP)

Vu la nature de la base , on va utiliser la méthode d’analyse en composantes principales en considérant les 2 premières variables comme varibales qualitatives supplémentaires et le reste des vavribles comme des variables actives

1- Les valeurs propres (le scree plot)

L’éblouis des valeurs propres nous permet d’étudier l’inertie des composantes principales.
Le diagramme des valeurs propres suggère que les deux premières dimensions de l’ACP résument bien l’ensemble des 11 variables. Plus précisément, on peut voir (tableau ci-dessous) que les pourcentages d’inertie associés aux deux premières dimensions valent respectivement 34.3 % et 30.6 %. Le plan principal de l’ACP permet donc de récupérer 64.9% de l’information contenue dans les 11 variables initiales. (Meme la 3ème composante compte pour la représentaion puisqu’il a une variance supérieure à 1 )

library(FactoMineR)
res.pca=PCA(data,quali.sup =1:2,graph =F)
res.pca$eig
##        eigenvalue percentage of variance cumulative percentage of variance
## comp 1 3.08428613             34.2698459                          34.26985
## comp 2 2.75034732             30.5594147                          64.82926
## comp 3 1.07971610             11.9968456                          76.82611
## comp 4 0.77957620              8.6619578                          85.48806
## comp 5 0.57005020              6.3338911                          91.82195
## comp 6 0.42999278              4.7776976                          96.59965
## comp 7 0.24922106              2.7691229                          99.36878
## comp 8 0.03491716              0.3879684                          99.75674
## comp 9 0.02189305              0.2432561                         100.00000
library(ggplot2)
library(grid)
library(factoextra)
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
fviz_screeplot(res.pca)

2- Cercle de corrélation:

fviz_pca_var(res.pca,col.var="cos2")+scale_color_gradient2(low="green",mid="blue",high="red",midpoint=0.4)

En regardant le cercle de corrélation on remarque que certaines variables sont fortemenet correlées telles que les variables (Per_Capita_Income (USD), Urban_Population (%) et Pop_Density (p/mi^2) ), (Population, Edu_Spending (USD) et Gini_Index) , (Homicide_Rate,Unemployment_Rate (%) et Poverty_Rate(%)).

3-Matrice de corrélation avec les axes:

res.pca$var$cor[,1:2]
##                             Dim.1       Dim.2
## Homicide_Rate           0.2699661  0.69265086
## Gini_Index              0.7467405  0.32374427
## Unemployment_Rate....   0.2321161  0.51903183
## Per_Capita_Income..USD. 0.3952418 -0.80006440
## Population..P.          0.8594646  0.07077736
## Pop_Density..p.mi.2.    0.5096379 -0.51331174
## Edu_Spending..USD.      0.8687606  0.06260234
## Poverty_Rate...         0.1766518  0.92114529
## Urban_Population....    0.6777374 -0.36789754

La matrice de corrélations montre que Edu_Spending (USD), Urban_Population (%), Gini_Index, Population sont très bien corrolées avec le 1er axe, et que les variables Homicide_Rate, Per_Capita_Income (USD) et Poverty_Rate(%) sont bien corrélées avec le second axe.

4-Matrice de corrélation entre les variables:

R <- cor(data[,-c(1,2)])
library(corrplot)
## corrplot 0.84 loaded
corrplot(R,method="number",type="upper")

On remarque que Population et Edu_Spending (USD) sont très bien corrélées (0.98), Gini_Index et Edu_Spending (USD)(0.52): ces sont les variables fortement corrélees avec le 1er axe.

5-contribution des variables

res.pca$var$contrib[,1:2]
##                             Dim.1      Dim.2
## Homicide_Rate            2.363000 17.4438046
## Gini_Index              18.079431  3.8108043
## Unemployment_Rate....    1.746852  9.7949098
## Per_Capita_Income..USD.  5.064902 23.2735350
## Population..P.          23.949771  0.1821383
## Pop_Density..p.mi.2.     8.421100  9.5802061
## Edu_Spending..USD.      24.470653  0.1424930
## Poverty_Rate...          1.011770 30.8509632
## Urban_Population....    14.892522  4.9211458

Sur le 1er axe: le 1er axe est formé principalement par le variable d’évaluation Edu_Spending (USD)(24.47%) et Population (23.95 %), Gini_Index(14.08%), Urban_P opulation (%)(14.89%)..

rev(sort(round(res.pca$var$contrib[,1],digits = 2)))
##      Edu_Spending..USD.          Population..P.              Gini_Index 
##                   24.47                   23.95                   18.08 
##    Urban_Population....    Pop_Density..p.mi.2. Per_Capita_Income..USD. 
##                   14.89                    8.42                    5.06 
##           Homicide_Rate   Unemployment_Rate....         Poverty_Rate... 
##                    2.36                    1.75                    1.01
fviz_pca_contrib(res.pca, choice = "var", axes = 1)
## Warning in fviz_pca_contrib(res.pca, choice = "var", axes = 1): The function
## fviz_pca_contrib() is deprecated. Please use the function fviz_contrib() which
## can handle outputs of PCA, CA and MCA functions.

Sur le 2ème axe: le 2ème axe est principalement formé par la variable Poverty_Rate (30.85%) ,Per_Capita_Income (USD) (23.27%), Homicide_Rate (17.44%).

rev(sort(round(res.pca$var$contrib[,2],digits = 2)))
##         Poverty_Rate... Per_Capita_Income..USD.           Homicide_Rate 
##                   30.85                   23.27                   17.44 
##   Unemployment_Rate....    Pop_Density..p.mi.2.    Urban_Population.... 
##                    9.79                    9.58                    4.92 
##              Gini_Index          Population..P.      Edu_Spending..USD. 
##                    3.81                    0.18                    0.14
fviz_pca_contrib(res.pca, choice = "var", axes = 2)
## Warning in fviz_pca_contrib(res.pca, choice = "var", axes = 2): The function
## fviz_pca_contrib() is deprecated. Please use the function fviz_contrib() which
## can handle outputs of PCA, CA and MCA functions.

## 6-Représentation des States ( individus

fviz_pca_ind(res.pca,geom=c("point","text"),col.ind="cos2")+scale_color_gradient2(low='green',mid='red',high='blue',midpoint=0.4)

-D’après le graphe des individus, on remarque que quelques states présentent une particularité par rapport aux autres. -Une meilleure représentation qui met en evidence la 1ère variable qualitative supplémentaire : religion dominante

fviz_pca_ind(res.pca, habillage=1,label=T,addEllipses=TRUE, ellipse.level=0.95, alpha.ind=0.5)+theme_gray()
## Too few points to calculate an ellipse
## Too few points to calculate an ellipse
## Too few points to calculate an ellipse

-On remarque que les religion dominantes sonts diffèrentes, on peut alors faire une classification par religion.

-Une autre qui met en evidence la 2ème varible quali.sup :Orientation

fviz_pca_ind(res.pca, habillage=2,label=T,addEllipses=TRUE, ellipse.level=0.95, alpha.ind=0.5)+theme_gray()

-On remarque qu’on peut aussi faire une classification suivant la varibale “orientation” qui veut dire la region dont appartient l’Etat coté qui a été touché par l’accident vasculaire cérébral. On remarque que l’ellipse qui présente la region midwest est contenu dans l’ellipse qui présente la region western, ceci veut dire que la plupart des states dont le taux de criminalité est élevé sont de la region midwest ou bien de deux regions midwest et western.

7-les ellipses de confiance:

plotellipses(res.pca)

8-contribution des states:

rev(sort(round(res.pca$ind$contrib[,1],digits = 2)))
##     California       New York          Texas        Florida        Vermont 
##          22.53          11.32           6.73           5.96           4.80 
##          Maine   South Dakota   North Dakota     New Jersey       Illinois 
##           4.43           3.74           3.53           3.51           3.45 
##        Montana  Massachusetts           Iowa          Idaho  New Hampshire 
##           2.83           2.82           2.35           2.21           1.95 
##    Connecticut   Pennsylvania           Utah       Nebraska         Alaska 
##           1.86           1.74           1.65           1.46           1.33 
##        Wyoming  West Virginia           Ohio         Kansas      Wisconsin 
##           1.29           1.27           0.71           0.69           0.64 
##         Hawaii        Georgia       Arkansas       Oklahoma      Louisiana 
##           0.58           0.51           0.39           0.38           0.35 
##    Mississippi      Minnesota       Maryland       Michigan North Carolina 
##           0.34           0.34           0.31           0.30           0.28 
##       Virginia        Arizona   Rhode Island         Oregon        Indiana 
##           0.25           0.24           0.21           0.20           0.15 
##       Kentucky       Delaware     Washington South Carolina       Colorado 
##           0.11           0.11           0.04           0.04           0.04 
##      Tennessee     New Mexico        Alabama         Nevada       Missouri 
##           0.02           0.01           0.01           0.00           0.00
fviz_pca_contrib(res.pca, choice = "ind", axes = 1)
## Warning in fviz_pca_contrib(res.pca, choice = "ind", axes = 1): The function
## fviz_pca_contrib() is deprecated. Please use the function fviz_contrib() which
## can handle outputs of PCA, CA and MCA functions.

rev(sort(round(res.pca$ind$contrib[,2],digits = 2)))
##    Mississippi     New Jersey     New Mexico      Louisiana  Massachusetts 
##          10.22           8.40           7.89           7.42           7.05 
##    Connecticut  New Hampshire       Kentucky       Arkansas        Alabama 
##           6.29           4.72           4.03           3.95           3.83 
##         Hawaii  West Virginia   Rhode Island       Maryland        Arizona 
##           3.20           3.18           3.09           2.24           1.83 
##      Minnesota South Carolina North Carolina      Tennessee           Utah 
##           1.82           1.71           1.69           1.51           1.49 
##       Colorado   North Dakota       Missouri        Georgia        Vermont 
##           1.41           1.35           1.29           1.08           1.07 
##        Wyoming           Iowa       Virginia       Oklahoma       Michigan 
##           0.84           0.81           0.77           0.77           0.71 
##       Nebraska       Delaware     Washington          Texas       New York 
##           0.62           0.56           0.50           0.50           0.40 
##         Nevada      Wisconsin   South Dakota           Ohio        Indiana 
##           0.39           0.35           0.33           0.33           0.13 
##         Kansas        Montana        Florida          Maine       Illinois 
##           0.12           0.05           0.05           0.02           0.02 
##         Oregon          Idaho         Alaska   Pennsylvania     California 
##           0.01           0.01           0.01           0.00           0.00
fviz_pca_contrib(res.pca, choice = "ind", axes = 2)
## Warning in fviz_pca_contrib(res.pca, choice = "ind", axes = 2): The function
## fviz_pca_contrib() is deprecated. Please use the function fviz_contrib() which
## can handle outputs of PCA, CA and MCA functions.

9-Représentation simultanée des states et des variables:

fviz_pca_biplot(res.pca, geom=c("text","point"))+ theme_grey()