#file.choose()
bd<-read.csv("/Users/elenavela/Downloads/USArrests.csv")Paso 1. Definir el área del negocio que buscamos
impactar o mejorar y su KPI.
Lo que se busca impactar son los índices de crímenes en diferentes
estados de Estados Unidos de América. Es decir, se busca reducir la
cantidad de crímenes en los estados que más tengan (de acuerdo a la base
de datos).
Paso 2. Seleccionar la plantilla (-s) para crear valor
a partir de los datos de los clientes.
Vision | Segmentacion | Personalización |
Contextualizacion
Paso 3. Generar ideas o conceptos
específicos.
Crear segmentos de los estados, en donde se puedan ver los estados
generalmente más seguros y menos seguros.
Paso 4. Reunir los datos requeridos.
Los datos requeridos se tienen en la base de datos que se ha importado,
lo que se desea ahora hacer son los clusters o los segmentos, y
seguir desde ahí.
Paso 5. Plan de ejecucion.
Se tomará un estado de los más peligrosos como piloto, con el fin de
aplicar estrategías de seguridad para los ciudadanos; igualmente, se
sugiere observar las estrategias ya implementadas en
algunos de los estados más seguros para poder replicar y observar
resultados.
bd2<- bd
rownames(bd2)<-bd2$X
summary(bd2)## X Murder Assault UrbanPop
## Length:50 Min. : 0.800 Min. : 45.0 Min. :32.00
## Class :character 1st Qu.: 4.075 1st Qu.:109.0 1st Qu.:54.50
## Mode :character Median : 7.250 Median :159.0 Median :66.00
## Mean : 7.788 Mean :170.8 Mean :65.54
## 3rd Qu.:11.250 3rd Qu.:249.0 3rd Qu.:77.75
## Max. :17.400 Max. :337.0 Max. :91.00
## Rape
## Min. : 7.30
## 1st Qu.:15.07
## Median :20.10
## Mean :21.23
## 3rd Qu.:26.18
## Max. :46.00
bd3<-bd2
bd3<-subset(bd3,select=-c(X))
summary(bd3)## Murder Assault UrbanPop Rape
## Min. : 0.800 Min. : 45.0 Min. :32.00 Min. : 7.30
## 1st Qu.: 4.075 1st Qu.:109.0 1st Qu.:54.50 1st Qu.:15.07
## Median : 7.250 Median :159.0 Median :66.00 Median :20.10
## Mean : 7.788 Mean :170.8 Mean :65.54 Mean :21.23
## 3rd Qu.:11.250 3rd Qu.:249.0 3rd Qu.:77.75 3rd Qu.:26.18
## Max. :17.400 Max. :337.0 Max. :91.00 Max. :46.00
boxplot(bd3)Se asume que se pueden dejar los valores “fuera de lo normal”
bd4 <- bd3
bd4 <- as.data.frame(scale(bd3))segmentos <- kmeans(bd4, 4)
segmentos## K-means clustering with 4 clusters of sizes 8, 13, 13, 16
##
## Cluster means:
## Murder Assault UrbanPop Rape
## 1 1.4118898 0.8743346 -0.8145211 0.01927104
## 2 0.6950701 1.0394414 0.7226370 1.27693964
## 3 -0.9615407 -1.1066010 -0.9301069 -0.96676331
## 4 -0.4894375 -0.3826001 0.5758298 -0.26165379
##
## Clustering vector:
## Alabama Alaska Arizona Arkansas California
## 1 2 2 1 2
## Colorado Connecticut Delaware Florida Georgia
## 2 4 4 2 1
## Hawaii Idaho Illinois Indiana Iowa
## 4 3 2 4 3
## Kansas Kentucky Louisiana Maine Maryland
## 4 3 1 3 2
## Massachusetts Michigan Minnesota Mississippi Missouri
## 4 2 3 1 2
## Montana Nebraska Nevada New Hampshire New Jersey
## 3 3 2 3 4
## New Mexico New York North Carolina North Dakota Ohio
## 2 2 1 3 4
## Oklahoma Oregon Pennsylvania Rhode Island South Carolina
## 4 4 4 4 1
## South Dakota Tennessee Texas Utah Vermont
## 3 1 2 4 3
## Virginia Washington West Virginia Wisconsin Wyoming
## 4 4 3 3 4
##
## Within cluster sum of squares by cluster:
## [1] 8.316061 19.922437 11.952463 16.212213
## (between_SS / total_SS = 71.2 %)
##
## Available components:
##
## [1] "cluster" "centers" "totss" "withinss" "tot.withinss"
## [6] "betweenss" "size" "iter" "ifault"
asignacion <- cbind(bd3, cluster = segmentos$cluster)
head(asignacion,10)## Murder Assault UrbanPop Rape cluster
## Alabama 13.2 236 58 21.2 1
## Alaska 10.0 263 48 44.5 2
## Arizona 8.1 294 80 31.0 2
## Arkansas 8.8 190 50 19.5 1
## California 9.0 276 91 40.6 2
## Colorado 7.9 204 78 38.7 2
## Connecticut 3.3 110 77 11.1 4
## Delaware 5.9 238 72 15.8 4
## Florida 15.4 335 80 31.9 2
## Georgia 17.4 211 60 25.8 1
write.csv(asignacion,"crimenes_segmentados.csv")#install.packages("factoextra")
library(factoextra)## Loading required package: ggplot2
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
fviz_cluster(segmentos, data = bd4,
palette=c("darkgreen", "red", "black", "blue"),
ellipse.type = "euclid",
star.plot = T,
repel = T,
ggtheme = theme())library(cluster)
library(data.table)
set.seed(123)
optimizacion <- clusGap(bd4, FUN = kmeans, nstart = 25, K.max = 10, B = 50)
plot(optimizacion, xlab = "Numero de clusters k")Este código permite al usuario conocer, de manera segmentada, cuáles son los estados más seguros, e inseguros, de Estados Unidos. Este tipo de resultados pueden resultar de gran ayuda al momento de querer viajar al país vecino.
Primeramente, es necesario eliminar la columna x con el fin de solo tener registros numéricos y facilitar el análisis. Después de normalizar las variables, es posible empezar a segmentar.
Al segmentar los diferentes crímenes, como violaciones, asesinatos, etc., logramos graficar los diferentes segmentos de estados con relación a su seguridad.
Mediante las funciones que permite usar R, pudimos llegar a
diferentes conclusiones sobre la seguridad vista en los estados mediante
el cluster plot:
1. Los estados más seguros se encuentran sobre todo en la zona norte de
Estados Unidos. Incluyen: West Virginia, Vermont, North Dakota and South
Dakota, Idaho, Maine, New Hampshire, Iowa, Wisconsin, y Minnesota.
2. Algunos de los estados más inseguros incluyen: Mississippi, North and
South Carolina, Georgia, California, New York, California, Florida, etc.
Todos los estados podrán verse en el siguiente mapa.
Ahora, con la información obtenida sobre los estados más y menos inseguros, es posible aplicar la herramienta “Generador de Valor de Datos”. Podría tomarse un estado inseguro, como Georgia, y aplicarse nuevas estrategias de seguridad social u otras que ya hayan sido aplicadas en ciertos estados, como en Maine.