data("USArrests")
summary(USArrests)
## Murder Assault UrbanPop Rape
## Min. : 0.800 Min. : 45.0 Min. :32.00 Min. : 7.30
## 1st Qu.: 4.075 1st Qu.:109.0 1st Qu.:54.50 1st Qu.:15.07
## Median : 7.250 Median :159.0 Median :66.00 Median :20.10
## Mean : 7.788 Mean :170.8 Mean :65.54 Mean :21.23
## 3rd Qu.:11.250 3rd Qu.:249.0 3rd Qu.:77.75 3rd Qu.:26.18
## Max. :17.400 Max. :337.0 Max. :91.00 Max. :46.00
Área de Seguridad en el Gobierno. Número de delitos por mes.
Visión / Segmentación / Personalización / Contextualización
La información necesaria está completa.
En este caso, el gobierno de cada Estado, los cuales son California, Nevada, New York, Arizona y Colorado que son de los principales estados más poblados y algunos fronterizos, debería invertir en programas de seguridad para disminuir la delincuencia y los arrestos con el objetivo de mejorar la seguridad para su población.
boxplot(USArrests)
Se determinó que hay datos anormales en Rape (Fuera del Limite Superior), pero No se eliminarán al ser muy cercanos a los demás datos
bd1 <- USArrests
bd1 <- as.data.frame(scale(USArrests))
segmentos <- kmeans(bd1, 4)
segmentos
## K-means clustering with 4 clusters of sizes 13, 13, 16, 8
##
## Cluster means:
## Murder Assault UrbanPop Rape
## 1 0.6950701 1.0394414 0.7226370 1.27693964
## 2 -0.9615407 -1.1066010 -0.9301069 -0.96676331
## 3 -0.4894375 -0.3826001 0.5758298 -0.26165379
## 4 1.4118898 0.8743346 -0.8145211 0.01927104
##
## Clustering vector:
## Alabama Alaska Arizona Arkansas California
## 4 1 1 4 1
## Colorado Connecticut Delaware Florida Georgia
## 1 3 3 1 4
## Hawaii Idaho Illinois Indiana Iowa
## 3 2 1 3 2
## Kansas Kentucky Louisiana Maine Maryland
## 3 2 4 2 1
## Massachusetts Michigan Minnesota Mississippi Missouri
## 3 1 2 4 1
## Montana Nebraska Nevada New Hampshire New Jersey
## 2 2 1 2 3
## New Mexico New York North Carolina North Dakota Ohio
## 1 1 4 2 3
## Oklahoma Oregon Pennsylvania Rhode Island South Carolina
## 3 3 3 3 4
## South Dakota Tennessee Texas Utah Vermont
## 2 4 1 3 2
## Virginia Washington West Virginia Wisconsin Wyoming
## 3 3 2 2 3
##
## Within cluster sum of squares by cluster:
## [1] 19.922437 11.952463 16.212213 8.316061
## (between_SS / total_SS = 71.2 %)
##
## Available components:
##
## [1] "cluster" "centers" "totss" "withinss" "tot.withinss"
## [6] "betweenss" "size" "iter" "ifault"
asignacion <- cbind(USArrests, cluster = segmentos$cluster)
head(asignacion,10)
## Murder Assault UrbanPop Rape cluster
## Alabama 13.2 236 58 21.2 4
## Alaska 10.0 263 48 44.5 1
## Arizona 8.1 294 80 31.0 1
## Arkansas 8.8 190 50 19.5 4
## California 9.0 276 91 40.6 1
## Colorado 7.9 204 78 38.7 1
## Connecticut 3.3 110 77 11.1 3
## Delaware 5.9 238 72 15.8 3
## Florida 15.4 335 80 31.9 1
## Georgia 17.4 211 60 25.8 4
write.csv(asignacion,"datos_con_cluster.csv")
# install.packages("factoextra")
library(factoextra)
## Loading required package: ggplot2
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
fviz_cluster(segmentos, data = bd1,
palette=c("red", "blue", "black", "darkgreen"),
ellipse.type = "euclid",
star.plot = T,
repel = T,
ggtheme = theme())
library(cluster)
# install.packages("data.table")
library(data.table)
set.seed(123)
optimizacion <- clusGap(bd1, FUN = kmeans, nstart = 25, K.max = 10, B = 50)
plot(optimizacion, xlab = "Numero de clusters k")
La función de clustering o bien, de segmentación, sirve para agrupar en este caso, los arrestos ocurridos en los diferentes estados de Estados Unidos de acuerdo a ciertas características que tienen en común. En este caso decidimos realizar 4 clusters, y encontramos que los estados más cercanos al eje son en los que que hay una mayor cantidad de crimenes, siendo estos principalmente California, Nevada, New York, Arizona y Colorado. En cambio, los que están mas lejos del eje, son los más seguros o los que menos cantidad de crimenes tienen, tales como West virginia, Vermont y North Dakota.