En el presente trabajo, se pretende hacer un análisis de un dataset, el cual comprende todos los tipos de crímenes ocurridos en la ciudad de Chicago durante el primer semestre del año 2020, en diferentes períodos e instancias de tiempo, así como también, las diferentes zonas en las que suelen ocurrir este tipo de crímenes. Se espera que este análisis comprenda diferentes dimensiones del problema, teniendo en cuenta las variables presentadas en el data set.
¿Cómo se caracterizó la criminalidad de Chicago durante el primer semestre del año 2020?
# importar el dataset
library(stringr)
setwd("C:/Users/jeank/Google Drive (sanchez.jean@correounivalle.edu.co)/MAESTRÍA INGENIERÍA INDUSTRIAL/SEMESTRE 3/INTELIGENCIA DE NEGOCIOS/2. MODULO 2/4. Proyecto Final")
crimen = read.csv("chicagoCrime2020.csv")
crimen$date = substr(crimen$date, star=1, stop=10)
crimen$date = str_replace_all(crimen$date, "-", "/")
crimen$date = as.Date(crimen$date, format="%Y/%m/%d")
crimen = cbind(crimen, mes = substr(crimen$date, star = 6, stop = 7))
crimen$date = as.factor(crimen$date)
summary(crimen)
## X id case_number date
## Min. : 24279 Min. : 24889 Length:91318 2020-05-31: 1753
## 1st Qu.:1781055 1st Qu.:11974960 Class :character 2020-05-30: 829
## Median :3564740 Median :12010619 Mode :character 2020-01-01: 821
## Mean :3574290 Mean :11973896 2020-06-01: 774
## 3rd Qu.:5376446 3rd Qu.:12046081 2020-02-01: 765
## Max. :7135304 Max. :12085764 2020-02-03: 728
## (Other) :85648
## block iucr primary_type description
## Length:91318 Length:91318 Length:91318 Length:91318
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
##
## location_description arrest domestic beat
## Length:91318 Length:91318 Length:91318 Min. : 111
## Class :character Class :character Class :character 1st Qu.: 612
## Mode :character Mode :character Mode :character Median :1021
## Mean :1136
## 3rd Qu.:1654
## Max. :2535
##
## district ward community_area fbi_code
## Min. : 1.00 Min. : 1.00 Min. : 1.00 Length:91318
## 1st Qu.: 6.00 1st Qu.:10.00 1st Qu.:23.00 Class :character
## Median :10.00 Median :23.00 Median :32.00 Mode :character
## Mean :11.13 Mean :22.86 Mean :37.61
## 3rd Qu.:16.00 3rd Qu.:34.00 3rd Qu.:56.00
## Max. :31.00 Max. :50.00 Max. :77.00
## NA's :2
## x_coordinate y_coordinate year updated_on
## Min. :1092647 Min. :1813897 Min. :2020 Length:91318
## 1st Qu.:1152959 1st Qu.:1857892 1st Qu.:2020 Class :character
## Median :1166541 Median :1890260 Median :2020 Mode :character
## Mean :1164941 Mean :1884924 Mean :2020
## 3rd Qu.:1176618 3rd Qu.:1907957 3rd Qu.:2020
## Max. :1205112 Max. :1951507 Max. :2020
## NA's :751 NA's :751
## latitude longitude location hash
## Min. :41.64 Min. :-87.93 Length:91318 Length:91318
## 1st Qu.:41.77 1st Qu.:-87.71 Class :character Class :character
## Median :41.85 Median :-87.66 Mode :character Mode :character
## Mean :41.84 Mean :-87.67
## 3rd Qu.:41.90 3rd Qu.:-87.63
## Max. :42.02 Max. :-87.52
## NA's :751 NA's :751
## point_date geom mes
## Mode:logical Mode:logical Length:91318
## NA's:91318 NA's:91318 Class :character
## Mode :character
##
##
##
##
Como primer punto, se grafica la frecuencia por tipo de crimen para identificar aquellos que se presentaron en mayor medida a lo largo del año, encontrando que tan solo en 5 de las 32 actividades, se concentra el 67.52% de los crimenes, siendo el robo como la principal con 18.768 casos, seguido por las agresiones con 18.548 en el 202, tal como lo muestra la siguiente tabla y gráfica:
# Frecuencia por tipo de crimen
library(ggplot2)
attach(crimen)
frec = as.data.frame(table(primary_type))
frec = frec[order(frec$Freq, decreasing = T),]
frec
## primary_type Freq
## 30 THEFT 18768
## 3 BATTERY 18548
## 7 CRIMINAL DAMAGE 10781
## 2 ASSAULT 7761
## 10 DECEPTIVE PRACTICE 5797
## 23 OTHER OFFENSE 5656
## 4 BURGLARY 4133
## 18 MOTOR VEHICLE THEFT 3804
## 19 NARCOTICS 3695
## 31 WEAPONS VIOLATION 3173
## 27 ROBBERY 3161
## 9 CRIMINAL TRESPASS 2140
## 21 OFFENSE INVOLVING CHILDREN 888
## 26 PUBLIC PEACE VIOLATION 712
## 8 CRIMINAL SEXUAL ASSAULT 420
## 28 SEX OFFENSE 403
## 14 INTERFERENCE WITH PUBLIC OFFICER 386
## 12 HOMICIDE 280
## 1 ARSON 233
## 6 CRIM SEXUAL ASSAULT 123
## 24 PROSTITUTION 111
## 29 STALKING 70
## 5 CONCEALED CARRY LICENSE VIOLATION 65
## 16 KIDNAPPING 57
## 15 INTIMIDATION 52
## 17 LIQUOR LAW VIOLATION 52
## 20 OBSCENITY 26
## 11 GAMBLING 11
## 22 OTHER NARCOTIC VIOLATION 5
## 25 PUBLIC INDECENCY 4
## 13 HUMAN TRAFFICKING 3
ggplot(frec, aes(x = reorder(frec$primary_type, frec$Freq), y = frec$Freq)) + geom_bar(stat = "identity") + theme(axis.text = element_text(size = 6)) + coord_flip()
detach(crimen)
A partir de la anterior gráfica, se centrará el análisis en aquellos crímenes que representan el pareto:
# Descripcion de los crímenes por frecuencia
library(dplyr)
library(treemap)
attach(crimen)
desc.crimenes = subset(as.data.frame(table(primary_type, description)), select = c(primary_type, description, Freq))
desc.crimenes = filter(desc.crimenes, desc.crimenes$primary_type %in% c("THEFT", "BATTERY", "CRIMINAL DAMAGE", "ASSAULT", "DECEPTIVE PRACTICE"), desc.crimenes$Freq!=0)
treemap(desc.crimenes,
index = c("primary_type","description"), vSize ="Freq",
type = "index", fontsize.labels = 8)
detach(crimen)
Como se puede distinguir en el anterior gráfico, en el caso de robo, las acividades se centran principalmente en robos de dinero por debajo de los USD 500, por encima de los USD 500 y robos a minoristas. Para los casos de agresiones, los casos se presentan en mayor medida en agresiones domésticas y agresiones simples. Para el caso de los actos criminales, las actividades se enfocan en propiedades y vehículos, mientras que para las actividades engañosas y fraudulentas, el número de casos es un poco más homogéneno con respecto a los demás crímenes, sin embargo, las dos actividades que más resaltan son fraudes con tarjetas de crédito y a entidades financieras.
# Top 10 de Comunidades con mayor índice de criminalidad
attach(crimen)
com = subset(as.data.frame(table(community_area)), select =
c(community_area ,Freq))
com = com[order(com$Freq, decreasing = T),]
barplot(com[1:10,]$Freq, las = 1, names = com$community_area[1:10],
main = "Comunidades con mayor criminalidad", col =
c("brown","chartreuse", "darkorange", "deeppink",
"dodgerblue","ivory4", "red", "black", "purple",
"white"))
detach(crimen)
Finalmente, se presenta en la gráfica anterior el top 10 de las comunidades con mayor criminalidad, donde se evidencia que la comunidad 25 es con gran diferencia la de mayor tasa de criminalidad, con un total de 5561 crímenes, mientras las otras 9 comunidades en promedio presentaron 2900 casos en el año. Lo que se mantiene respecto a las tendencias anteriores, es que en cada una de estas comunidades predominan las actividades criminales anteriormente mencionadas, como robo, agresiones y asaltos.
library(ggplot2)
library(dplyr)
attach(crimen)
evol = subset(as.data.frame(table(mes, primary_type)), select = c(mes, primary_type, Freq))
evol = filter(evol, evol$primary_type %in% c("THEFT", "BATTERY", "CRIMINAL DAMAGE", "ASSAULT", "DECEPTIVE PRACTICE"))
ggplot(evol, aes(x = evol$mes, y = evol$Freq, group = evol$primary_type,
color = evol$primary_type)) + geom_line() + geom_point()
detach(crimen)
Como parte de la evolución que se presentó en los crímenes en el período evaluado, se puede evidenciar en la anterior gráfica que se presenta una fuerte tendencia decreciente en los 5 crímenes de mayor impacto, siendo mayo un més muy particular, pues a excepción de las prácticas fraudulentas, las demás actividades presentaron incrementos significativos, sin embargo, para el cierre del semestre la caída fué abrupta.
A manera de conclusión, se pudo evidenciar durante el desarrollo del trabajo, que el plasmar información de manera gráfica facilita el entendimiento del problema que se está abordando, por supuesto, esto implica un desafío importante porque se debe garantizar que los gráficos utilizados sean los correctos, sobre todo cuando se goza de mucha información para analizar como en el presente tema abordado, donde se logra concluir aquellas actividades de mayor incidencia criminal en la ciudad de Chicago, y si bien, éstas se presentan en todas las comunidades, se pueden priorizar aquellas como la número 25, en la cual hay altas tasas, y se podría segmentar un poco más las acciones entendiendo que tipo de robos, agresiones, asaltos oa actividades fraudulentas son las que se presentan en mayor medida.