Dados
Os dados USArrests
foram utilizados na aula para
realizar a análise.
data("USArrests")
dados <- USArrests
knitr::kable(head(dados, 10)) |>
kableExtra::kable_styling(full_width = TRUE,
bootstrap_options = c("striped", "hover", "condensed", "responsive")
)
|
Murder
|
Assault
|
UrbanPop
|
Rape
|
Alabama
|
13.2
|
236
|
58
|
21.2
|
Alaska
|
10.0
|
263
|
48
|
44.5
|
Arizona
|
8.1
|
294
|
80
|
31.0
|
Arkansas
|
8.8
|
190
|
50
|
19.5
|
California
|
9.0
|
276
|
91
|
40.6
|
Colorado
|
7.9
|
204
|
78
|
38.7
|
Connecticut
|
3.3
|
110
|
77
|
11.1
|
Delaware
|
5.9
|
238
|
72
|
15.8
|
Florida
|
15.4
|
335
|
80
|
31.9
|
Georgia
|
17.4
|
211
|
60
|
25.8
|
De acordo com o chat gpt, o USArrests
é um famoso
conjunto de dados embutido no R, que contém informações sobre os crimes
violentos cometidos nos Estados Unidos nos anos 1970. As colunas
representam estatísticas sobre a taxa de crimes por estado. Cada linha
do conjunto de dados corresponde a um estado dos EUA. Segue o que
representa cada uma das colunas do conjunto de dados:
- Murder: Taxa de homicídios (assassinatos) por
100.000 habitantes.
- Assault: Taxa de agressões (assaltos) por 100.000
habitantes.
- UrbanPop: Percentual da população do estado que
vive em áreas urbanas.
- Rape: Taxa de estupros por 100.000 habitantes.
Análise Exploratória
Cálculo de medidas descritivas
Inicialmente, vamos calcular as medidas descritivas dos dados.
resumo <- summary(dados); resumo
## Murder Assault UrbanPop Rape
## Min. : 0.800 Min. : 45.0 Min. :32.00 Min. : 7.30
## 1st Qu.: 4.075 1st Qu.:109.0 1st Qu.:54.50 1st Qu.:15.07
## Median : 7.250 Median :159.0 Median :66.00 Median :20.10
## Mean : 7.788 Mean :170.8 Mean :65.54 Mean :21.23
## 3rd Qu.:11.250 3rd Qu.:249.0 3rd Qu.:77.75 3rd Qu.:26.18
## Max. :17.400 Max. :337.0 Max. :91.00 Max. :46.00
Agora vamos calcular medidas de variabilidade.
var(dados$Murder); var(dados$Assault); var(dados$UrbanPop); var(dados$Rape) # variâncias
## [1] 18.97047
## [1] 6945.166
## [1] 209.5188
## [1] 87.72916
s1 <- sd(dados$Murder); s1 # desvios padroes
## [1] 4.35551
s2 <- sd(dados$Assault); s2
## [1] 83.33766
s3 <- sd(dados$UrbanPop);s3
## [1] 14.47476
s4 <- sd(dados$Rape); s4
## [1] 9.366385
s1/mean(dados$Murder) # coeficientes de variação
## [1] 0.5592591
s2/mean(dados$Assault)
## [1] 0.4880397
s3/mean(dados$UrbanPop)
## [1] 0.2208539
s4/mean(dados$Rape)
## [1] 0.4411447
Plotagem de gráficos
Agora vamos fazer histogramas para verificar a assimetria dos
dados.
opar <- par(mfrow = c(2, 2))
hist(dados$Murder, main = "Taxa de homicídios", col = "lightgreen")
hist(dados$Assault, main = "Taxa de agressões", col = "red")
hist(dados$UrbanPop, main = "Percentual da população de áreas urbanas", col = "blue")
hist(dados$Rape, main = "Taxa de estupros", col = "orange")

Agora vamos verificar a presença de dados atípicos e de assimetria
por meio de boxplots.
opar <- par(mfrow = c(2, 2))
boxplot(dados$Murder, main = "Taxa de homicidios", col = "lightgreen")
boxplot(dados$Assault, main = "Taxa de agressoes", col = "red")
boxplot(dados$UrbanPop, main = "Percentual da populacao de areas urbanas", col = "blue")
boxplot(dados$Rape, main = "Taxa de estupros", col = "orange")

## Os outliers do boxplot da taxa de estupros é referente aos estados: Alaska e Nevada
Em
busca do estado mais violento e menos violento
Ranqueamento para cada
variável
Homicídios
Vamos ordernar os dados e verificar os 5 estados com maior e menor
taxa de homícidios.
maior <- head(arrange(dados, desc(Murder)), 5)
menor <- head(arrange(dados, Murder), 5)
cat("5 estados com maior taxa de homicídios:\n",
paste(rownames(maior), collapse = "\n"))
## 5 estados com maior taxa de homicídios:
## Georgia
## Mississippi
## Florida
## Louisiana
## South Carolina
cat("5 estados com menor taxa de homicídios:\n",
paste(rownames(menor), collapse = "\n"))
## 5 estados com menor taxa de homicídios:
## North Dakota
## Maine
## New Hampshire
## Iowa
## Vermont
Agressões
Vamos verificar os 5 estados com maior e menor taxa de agressões.
maior <- head(arrange(dados, desc(Assault)), 5)
menor <- head(arrange(dados, Assault), 5)
cat("5 estados com maior taxa de agressões:\n",
paste(rownames(maior), collapse = "\n"))
## 5 estados com maior taxa de agressões:
## North Carolina
## Florida
## Maryland
## Arizona
## New Mexico
cat("5 estados com menor taxa de agressões:\n",
paste(rownames(menor), collapse = "\n"))
## 5 estados com menor taxa de agressões:
## North Dakota
## Hawaii
## Vermont
## Wisconsin
## Iowa
população de áreas hurbanas
Agora vamos verificar quais os 5 estados com maior e menor percentual
da população do estado que vive em áreas hurbanas.
menor <- head(arrange(dados, UrbanPop), 5)
maior <- head(arrange(dados, desc(UrbanPop)), 5)
cat("5 estados com maior percentual da população que vive em áreas hurbanas:\n",
paste(rownames(maior), collapse = "\n"))
## 5 estados com maior percentual da população que vive em áreas hurbanas:
## California
## New Jersey
## Rhode Island
## New York
## Massachusetts
cat("5 estados com menor percentual da população que vive em áreas hurbanas:\n",
paste(rownames(menor), collapse = "\n"))
## 5 estados com menor percentual da população que vive em áreas hurbanas:
## Vermont
## West Virginia
## Mississippi
## North Dakota
## North Carolina
Estupros
Vamos verificar quais os 5 estados com maior e menor taxa de
estupros.
menor <- head(arrange(dados, Rape), 5)
maior <- head(arrange(dados, desc(Rape)), 5)
cat("5 estados com maior taxa de estupros:\n",
paste(rownames(maior), collapse = "\n"))
## 5 estados com maior taxa de estupros:
## Nevada
## Alaska
## California
## Colorado
## Michigan
cat("5 estados com menor taxa de estupros:\n",
paste(rownames(menor), collapse = "\n"))
## 5 estados com menor taxa de estupros:
## North Dakota
## Maine
## Rhode Island
## West Virginia
## New Hampshire
Criando a variável que mede o nível de violência
Vamos iniciar padronizando cada uma das variáveis.
z_murder <- (dados$Murder - mean(dados$Murder))/s1
z_assault <- (dados$Assault - mean(dados$Assault))/s2
z_urbanpop <- (dados$UrbanPop - mean(dados$UrbanPop))/s3
z_rape <- (dados$Rape - mean(dados$Rape))/s4
dados_pad <- cbind(z_murder, z_assault, z_urbanpop, z_rape)
Vamos criar a partir desses dados a variável violencia
por meio da média das variáveis.
violencia <- rowMeans(dados_pad)
dados <- cbind(dados, violencia)
knitr::kable(head(dados, 10)) |>
kableExtra::kable_styling(full_width = TRUE,
bootstrap_options = c("striped", "hover", "condensed", "responsive")
)
|
Murder
|
Assault
|
UrbanPop
|
Rape
|
violencia
|
Alabama
|
13.2
|
236
|
58
|
21.2
|
0.3752701
|
Alaska
|
10.0
|
263
|
48
|
44.5
|
0.7217809
|
Arizona
|
8.1
|
294
|
80
|
31.0
|
0.8980738
|
Arkansas
|
8.8
|
190
|
50
|
19.5
|
-0.1988230
|
California
|
9.0
|
276
|
91
|
40.6
|
1.3419566
|
Colorado
|
7.9
|
204
|
78
|
38.7
|
0.7875874
|
Connecticut
|
3.3
|
110
|
77
|
11.1
|
-0.5123798
|
Delaware
|
5.9
|
238
|
72
|
15.8
|
0.0599280
|
Florida
|
15.4
|
335
|
80
|
31.9
|
1.4640990
|
Georgia
|
17.4
|
211
|
60
|
25.8
|
0.6986703
|
Ordenando os estados com maior e menor nível de violência.
Vamos criar um ranking dos estados mais violentas de acordo com a
variável criada.
menor <- head(arrange(dados, violencia), 5)
maior <- head(arrange(dados, desc(violencia)), 5)
cat("5 estados mais violentos:\n",
paste(rownames(maior), collapse = "\n"))
## 5 estados mais violentos:
## Florida
## Nevada
## California
## Michigan
## New York
cat("5 estados menos violentos:\n",
paste(rownames(menor), collapse = "\n"))
## 5 estados menos violentos:
## Vermont
## North Dakota
## Maine
## West Virginia
## New Hampshire
Como eu não acho razoável fazer uma média (porque estamos atribuindo
o mesmo peso a variáveis que podem impactar em diferentes níveis na
violência do estado), então será feito uma árvore de decisão para saber
quais as variáveis que mais impactaram no nível de violência.
# divisao em treino e teste
set.seed(321)
indice_treino <- sample(1:nrow(dados), size = 0.7 * nrow(dados)) # 70% do bd é para treino
bd_treino <- dados[indice_treino, ]
bd_teste <- dados[-indice_treino, ]
# arvore de decisao
arvore_cart_completa <- rpart(
formula = violencia ~ .,
data = bd_treino,
method = "anova" # regressao
)
# Plotando
rpart.plot(arvore_cart_completa,
type = 0,
extra = 101,
fallen.leaves = TRUE)

# variaveis mais importantes
importancia <- arvore_cart_completa$variable.importance; importancia
## Assault Murder Rape UrbanPop
## 13.695968 10.801362 8.040694 2.385421
As duas variáveis mais importantes foram Assault
e
Murder
. Serão consideradas todas as variáveis na criação da
variável violencia
, atribuindo como peso a contribuição
delas na árvore.
importancia <- importancia/sum(importancia)
violencia <-
z_assault*importancia[1] +
z_murder*importancia[2] +
z_rape*importancia[3] +
z_urbanpop*importancia[4]
dados$violencia <- violencia
knitr::kable(head(dados, 10)) |>
kableExtra::kable_styling(full_width = TRUE,
bootstrap_options = c("striped", "hover", "condensed", "responsive")
)
|
Murder
|
Assault
|
UrbanPop
|
Rape
|
violencia
|
Alabama
|
13.2
|
236
|
58
|
21.2
|
0.6549490
|
Alaska
|
10.0
|
263
|
48
|
44.5
|
1.0803276
|
Arizona
|
8.1
|
294
|
80
|
31.0
|
0.9104438
|
Arkansas
|
8.8
|
190
|
50
|
19.5
|
0.0464966
|
California
|
9.0
|
276
|
91
|
40.6
|
1.1775363
|
Colorado
|
7.9
|
204
|
78
|
38.7
|
0.6525570
|
Connecticut
|
3.3
|
110
|
77
|
11.1
|
-0.7995995
|
Delaware
|
5.9
|
238
|
72
|
15.8
|
0.0793091
|
Florida
|
15.4
|
335
|
80
|
31.9
|
1.6438816
|
Georgia
|
17.4
|
211
|
60
|
25.8
|
0.9580594
|
Essa nova variável violencia
resulta nos seguintes
rankings.
menor <- head(arrange(dados, violencia), 5)
maior <- head(arrange(dados, desc(violencia)), 5)
cat("5 estados mais violentos:\n",
paste(rownames(maior), collapse = "\n"))
## 5 estados mais violentos:
## Florida
## Nevada
## California
## Michigan
## New Mexico
cat("5 estados menos violentos:\n",
paste(rownames(menor), collapse = "\n"))
## 5 estados menos violentos:
## North Dakota
## Vermont
## New Hampshire
## Iowa
## Maine
Análise de Cluster
Agora vamos fazer uma breve análise de cluster para verificar quais
os estados mais semelhantes. Primeiramente calculamos a matriz de
distâncias euclidianas.
dados_num <- as.matrix(dados)
D_E <- dist(dados_num, method = "euclidian")
O vizinho mais próximo
Vamos iniciar com o método do vizinho mais próximo.
# O vizinho mais proximo
m <- hclust(D_E, method = "single")
m$height
## [1] 2.291863 3.842566 3.932045 6.238535 6.641778 7.356842 7.934484
## [8] 8.031794 8.540646 8.766984 9.508521 10.305404 10.579231 10.922844
## [15] 11.071967 11.256321 11.461496 11.528739 11.766781 12.625298 13.045817
## [22] 13.300617 13.897105 14.501039 15.016435 15.068436 15.456981 15.504785
## [29] 16.068275 16.652992 16.816104 17.163838 18.715460 18.854213 19.701654
## [36] 19.920486 20.829570 21.167561 22.853147 23.195718 23.430697 23.643593
## [43] 24.708653 24.923564 25.747428 25.843604 27.556912 37.788912 38.534538
plot(m, cex = 0.7, hang = -1,
main = "Dendograma - O vizinho mais próximo",
xlab = "Estados", ylab = "")

O vizinho mais distante
Agora vamos para o método do vizinho mais distante.
m <- hclust(D_E, method = "complete")
m$height
## [1] 2.291863 3.842566 3.932045 6.238535 6.641778 7.356842
## [7] 8.031794 8.540646 10.860441 11.461496 12.425773 12.625298
## [13] 12.777374 13.045817 13.300617 13.354127 13.897105 14.501039
## [19] 15.416320 15.456981 15.631725 15.890349 16.998284 18.265170
## [25] 19.438594 19.904697 21.167561 22.376177 22.767529 24.895798
## [31] 25.094887 28.636468 29.251698 31.477346 31.621581 32.722227
## [37] 36.739860 36.848995 38.534538 41.491541 48.732526 53.594343
## [43] 57.271719 64.994674 68.775142 87.331230 102.865070 168.629805
## [49] 293.639928
plot(m, cex = 0.7, hang = -1,
main = "Dendograma - O vizinho mais distante",
xlab = "Estados", ylab = "")

Centroide
Agora utilizando o método do centroide.
m <- hclust(D_E, method = "centroid")
m$height
## [1] 2.291863 3.842566 3.932045 6.238535 6.641778 7.356842
## [7] 8.031794 8.540646 8.637018 8.899426 9.611515 9.675119
## [13] 10.364569 9.378527 11.461496 11.480792 11.808084 11.959271
## [19] 12.209114 12.625298 13.045817 13.300617 13.538437 13.897105
## [25] 11.979116 14.501039 15.262767 15.316522 16.477143 16.816104
## [31] 15.146299 17.043967 19.542440 19.969351 16.733851 21.027665
## [37] 21.167561 22.369746 22.804800 21.434675 23.034681 22.596466
## [43] 25.145353 29.478992 34.027865 38.534538 51.321137 54.450146
## [49] 100.090001
plot(m, cex = 0.7, hang = -1,
main = "Dendograma - Centroide",
xlab = "Estados", ylab = "")

Ligação média
E, para finalizar os método de clustering hierárquico vistos em sala,
vamos fazer o método da ligação média.
m <- hclust(D_E, method = "average")
m$height
## [1] 2.291863 3.842566 3.932045 6.238535 6.641778 7.356842
## [7] 8.031794 8.540646 10.184481 10.738637 10.772179 11.461496
## [13] 12.441433 12.625298 12.878910 13.045817 13.300617 13.355529
## [19] 13.897105 14.501039 15.030098 15.125594 15.453392 15.456981
## [25] 16.426042 16.907194 18.423225 18.995012 20.200291 20.600798
## [31] 21.167561 22.599234 23.974017 26.370293 26.715015 27.781761
## [37] 28.012891 28.096690 29.058723 33.118936 38.534538 39.396599
## [43] 41.098395 44.285491 44.845174 54.751110 77.607316 89.237776
## [49] 152.321117
plot(m, cex = 0.7, hang = -1,
main = "Dendograma - Ligação Média",
xlab = "Estados", ylab = "")

K-means
Para a análise de cluster, também podemos utilizar o método do
k-means. Porém, como a plotagem necessita de componentes principais,
então não vamos fazê-la. O número de grupos igual a 2 vem da ideia de
criar o cluster de estados perigosos e o cluster de estados seguros. O
grupo que conter Florida será considerado perigoso (por conta dos
rankings) e o grupo que conter North Dakota será considerado seguro.
set.seed(548254)
km <- kmeans(dados_num, centers = 2)
# Cluster 1
cat("Cluster 1:\n", paste(rownames(dados_num)[km$cluster == 1], collapse = "\n"), "\n\n")
## Cluster 1:
## Connecticut
## Hawaii
## Idaho
## Indiana
## Iowa
## Kansas
## Kentucky
## Maine
## Massachusetts
## Minnesota
## Missouri
## Montana
## Nebraska
## New Hampshire
## New Jersey
## North Dakota
## Ohio
## Oklahoma
## Oregon
## Pennsylvania
## Rhode Island
## South Dakota
## Utah
## Vermont
## Virginia
## Washington
## West Virginia
## Wisconsin
## Wyoming
# Cluster 2
cat("Cluster 2:\n", paste(rownames(dados_num)[km$cluster == 2], collapse = "\n"), "\n\n")
## Cluster 2:
## Alabama
## Alaska
## Arizona
## Arkansas
## California
## Colorado
## Delaware
## Florida
## Georgia
## Illinois
## Louisiana
## Maryland
## Michigan
## Mississippi
## Nevada
## New Mexico
## New York
## North Carolina
## South Carolina
## Tennessee
## Texas
Conclusão
De forma respectiva, os estados mais perigosos para se morar é
Florida
e Nevada
, enquanto os mais seguros são
Vermont
e North Dakota
.
