En el presente trabajo, se pretende hacer un análisis de un dataset, el cual comprende todos los tipos de crímenes ocurridos en la ciudad de Chicago durante el primer semestre del año 2020, en diferentes períodos e instancias de tiempo, así como también, las diferentes zonas en las que suelen ocurrir este tipo de crímenes. Se espera que este análisis comprenda diferentes dimensiones del problema, teniendo en cuenta las variables presentadas en el data set.

¿Cómo se caracterizó la criminalidad de Chicago durante el primer semestre del año 2020?

# importar el dataset
library(stringr)
setwd("C:/Users/jeank/Google Drive (sanchez.jean@correounivalle.edu.co)/MAESTRÍA INGENIERÍA INDUSTRIAL/SEMESTRE 3/INTELIGENCIA DE NEGOCIOS/2. MODULO 2/4. Proyecto Final")
crimen = read.csv("chicagoCrime2020.csv")
crimen$date = substr(crimen$date, star=1, stop=10)
crimen$date = str_replace_all(crimen$date, "-", "/")
crimen$date = as.Date(crimen$date, format="%Y/%m/%d")
crimen = cbind(crimen, mes = substr(crimen$date, star = 6, stop = 7))
crimen$date = as.factor(crimen$date)
summary(crimen)
##        X                 id           case_number                date      
##  Min.   :  24279   Min.   :   24889   Length:91318       2020-05-31: 1753  
##  1st Qu.:1781055   1st Qu.:11974960   Class :character   2020-05-30:  829  
##  Median :3564740   Median :12010619   Mode  :character   2020-01-01:  821  
##  Mean   :3574290   Mean   :11973896                      2020-06-01:  774  
##  3rd Qu.:5376446   3rd Qu.:12046081                      2020-02-01:  765  
##  Max.   :7135304   Max.   :12085764                      2020-02-03:  728  
##                                                          (Other)   :85648  
##     block               iucr           primary_type       description       
##  Length:91318       Length:91318       Length:91318       Length:91318      
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
##                                                                             
##                                                                             
##  location_description    arrest            domestic              beat     
##  Length:91318         Length:91318       Length:91318       Min.   : 111  
##  Class :character     Class :character   Class :character   1st Qu.: 612  
##  Mode  :character     Mode  :character   Mode  :character   Median :1021  
##                                                             Mean   :1136  
##                                                             3rd Qu.:1654  
##                                                             Max.   :2535  
##                                                                           
##     district          ward       community_area    fbi_code        
##  Min.   : 1.00   Min.   : 1.00   Min.   : 1.00   Length:91318      
##  1st Qu.: 6.00   1st Qu.:10.00   1st Qu.:23.00   Class :character  
##  Median :10.00   Median :23.00   Median :32.00   Mode  :character  
##  Mean   :11.13   Mean   :22.86   Mean   :37.61                     
##  3rd Qu.:16.00   3rd Qu.:34.00   3rd Qu.:56.00                     
##  Max.   :31.00   Max.   :50.00   Max.   :77.00                     
##                  NA's   :2                                         
##   x_coordinate      y_coordinate          year       updated_on       
##  Min.   :1092647   Min.   :1813897   Min.   :2020   Length:91318      
##  1st Qu.:1152959   1st Qu.:1857892   1st Qu.:2020   Class :character  
##  Median :1166541   Median :1890260   Median :2020   Mode  :character  
##  Mean   :1164941   Mean   :1884924   Mean   :2020                     
##  3rd Qu.:1176618   3rd Qu.:1907957   3rd Qu.:2020                     
##  Max.   :1205112   Max.   :1951507   Max.   :2020                     
##  NA's   :751       NA's   :751                                        
##     latitude       longitude        location             hash          
##  Min.   :41.64   Min.   :-87.93   Length:91318       Length:91318      
##  1st Qu.:41.77   1st Qu.:-87.71   Class :character   Class :character  
##  Median :41.85   Median :-87.66   Mode  :character   Mode  :character  
##  Mean   :41.84   Mean   :-87.67                                        
##  3rd Qu.:41.90   3rd Qu.:-87.63                                        
##  Max.   :42.02   Max.   :-87.52                                        
##  NA's   :751     NA's   :751                                           
##  point_date       geom             mes           
##  Mode:logical   Mode:logical   Length:91318      
##  NA's:91318     NA's:91318     Class :character  
##                                Mode  :character  
##                                                  
##                                                  
##                                                  
## 

1. ESTADISTICA DESCRIPTIVA DEL PROBLEMA

1.1 FRECUENCIA POR TIPO DE CRIMEN

Como primer punto, se grafica la frecuencia por tipo de crimen para identificar aquellos que se presentaron en mayor medida a lo largo del año, encontrando que tan solo en 5 de las 32 actividades, se concentra el 67.52% de los crimenes, siendo el robo como la principal con 18.768 casos, seguido por las agresiones con 18.548 en el 202, tal como lo muestra la siguiente tabla y gráfica:

# Frecuencia por tipo de crimen
library(ggplot2)

attach(crimen)
frec = as.data.frame(table(primary_type))
frec = frec[order(frec$Freq, decreasing = T),]
frec
##                         primary_type  Freq
## 30                             THEFT 18768
## 3                            BATTERY 18548
## 7                    CRIMINAL DAMAGE 10781
## 2                            ASSAULT  7761
## 10                DECEPTIVE PRACTICE  5797
## 23                     OTHER OFFENSE  5656
## 4                           BURGLARY  4133
## 18               MOTOR VEHICLE THEFT  3804
## 19                         NARCOTICS  3695
## 31                 WEAPONS VIOLATION  3173
## 27                           ROBBERY  3161
## 9                  CRIMINAL TRESPASS  2140
## 21        OFFENSE INVOLVING CHILDREN   888
## 26            PUBLIC PEACE VIOLATION   712
## 8            CRIMINAL SEXUAL ASSAULT   420
## 28                       SEX OFFENSE   403
## 14  INTERFERENCE WITH PUBLIC OFFICER   386
## 12                          HOMICIDE   280
## 1                              ARSON   233
## 6                CRIM SEXUAL ASSAULT   123
## 24                      PROSTITUTION   111
## 29                          STALKING    70
## 5  CONCEALED CARRY LICENSE VIOLATION    65
## 16                        KIDNAPPING    57
## 15                      INTIMIDATION    52
## 17              LIQUOR LAW VIOLATION    52
## 20                         OBSCENITY    26
## 11                          GAMBLING    11
## 22          OTHER NARCOTIC VIOLATION     5
## 25                  PUBLIC INDECENCY     4
## 13                 HUMAN TRAFFICKING     3
ggplot(frec, aes(x = reorder(frec$primary_type, frec$Freq), y = frec$Freq)) + geom_bar(stat = "identity") + theme(axis.text = element_text(size = 6)) + coord_flip()

detach(crimen)

1.2 DESCRIPCION DE LOS CRIMENES

A partir de la anterior gráfica, se centrará el análisis en aquellos crímenes que representan el pareto:

# Descripcion de los crímenes por frecuencia
library(dplyr)
library(treemap)
attach(crimen)
desc.crimenes = subset(as.data.frame(table(primary_type, description)), select = c(primary_type, description, Freq))
desc.crimenes = filter(desc.crimenes, desc.crimenes$primary_type %in% c("THEFT", "BATTERY", "CRIMINAL DAMAGE", "ASSAULT", "DECEPTIVE PRACTICE"), desc.crimenes$Freq!=0)

treemap(desc.crimenes, 
        index = c("primary_type","description"), vSize ="Freq",
        type = "index", fontsize.labels = 8)

detach(crimen)

Como se puede distinguir en el anterior gráfico, en el caso de robo, las acividades se centran principalmente en robos de dinero por debajo de los USD 500, por encima de los USD 500 y robos a minoristas. Para los casos de agresiones, los casos se presentan en mayor medida en agresiones domésticas y agresiones simples. Para el caso de los actos criminales, las actividades se enfocan en propiedades y vehículos, mientras que para las actividades engañosas y fraudulentas, el número de casos es un poco más homogéneno con respecto a los demás crímenes, sin embargo, las dos actividades que más resaltan son fraudes con tarjetas de crédito y a entidades financieras.

1.3 COMUNIDADES DE MAYOR ACTIVIDAD CRIMINAL

# Top 10 de Comunidades con mayor índice de criminalidad

attach(crimen)
com = subset(as.data.frame(table(community_area)), select =
               c(community_area ,Freq))

com = com[order(com$Freq, decreasing = T),]

barplot(com[1:10,]$Freq, las = 1, names = com$community_area[1:10],
        main = "Comunidades con mayor criminalidad", col =
          c("brown","chartreuse", "darkorange", "deeppink",
                   "dodgerblue","ivory4", "red", "black", "purple",
                   "white"))

detach(crimen)

Finalmente, se presenta en la gráfica anterior el top 10 de las comunidades con mayor criminalidad, donde se evidencia que la comunidad 25 es con gran diferencia la de mayor tasa de criminalidad, con un total de 5561 crímenes, mientras las otras 9 comunidades en promedio presentaron 2900 casos en el año. Lo que se mantiene respecto a las tendencias anteriores, es que en cada una de estas comunidades predominan las actividades criminales anteriormente mencionadas, como robo, agresiones y asaltos.

2. EVOLUCION DE LA CRIMINALIDAD

library(ggplot2)
library(dplyr)
attach(crimen)
evol = subset(as.data.frame(table(mes, primary_type)), select = c(mes, primary_type, Freq))
evol = filter(evol, evol$primary_type %in% c("THEFT", "BATTERY", "CRIMINAL DAMAGE", "ASSAULT", "DECEPTIVE PRACTICE"))

ggplot(evol, aes(x = evol$mes, y = evol$Freq, group = evol$primary_type,
           color = evol$primary_type)) + geom_line() + geom_point()

detach(crimen)

Como parte de la evolución que se presentó en los crímenes en el período evaluado, se puede evidenciar en la anterior gráfica que se presenta una fuerte tendencia decreciente en los 5 crímenes de mayor impacto, siendo mayo un més muy particular, pues a excepción de las prácticas fraudulentas, las demás actividades presentaron incrementos significativos, sin embargo, para el cierre del semestre la caída fué abrupta.

3. CONCLUSION

A manera de conclusión, se pudo evidenciar durante el desarrollo del trabajo, que el plasmar información de manera gráfica facilita el entendimiento del problema que se está abordando, por supuesto, esto implica un desafío importante porque se debe garantizar que los gráficos utilizados sean los correctos, sobre todo cuando se goza de mucha información para analizar como en el presente tema abordado, donde se logra concluir aquellas actividades de mayor incidencia criminal en la ciudad de Chicago, y si bien, éstas se presentan en todas las comunidades, se pueden priorizar aquellas como la número 25, en la cual hay altas tasas, y se podría segmentar un poco más las acciones entendiendo que tipo de robos, agresiones, asaltos oa actividades fraudulentas son las que se presentan en mayor medida.