Pronostico de hurtos en la ciudad de Cali

Resumen

Este informe analiza los robos a personas en Cali entre 2020 y septiembre de 2024, con el objetivo de identificar patrones que expliquen el cómo y el porqué de estos delitos. Para ello, se utilizan herramientas como diagramas de barras y de caja para recopilar datos sobre el tipo de arma más utilizada y los grupos más afectados. Además, se emplea el análisis de series temporales para entender el comportamiento de los robos a lo largo del tiempo y hacer predicciones. Este análisis busca proporcionar un entendimiento profundo de la problemática y contribuir a la creación de estrategias de prevención.

Introducción

Una de las preguntas más frecuentes en la sociedad de Santiago de Cali es: ¿Quienes son los más afectados por el hurto en la ciudad? Para dar una respuesta a esta inquietud se elabora este documento donde se realiza un análisis descriptivo de los hurtos en la ciudad de Santiago de Cali, perteneciente al departamento del Valle del Cauca, durante el período de 2020 a septiembre de 2024. Este estudio tiene como objetivo identificar los meses con mayor incidencia de robos, las armas más frecuentemente utilizadas y las principales poblaciones afectadas, considerando adultos y adolescentes, tanto hombres como mujeres. Además, se busca identificar el año con mayor número de hurtos y ofrecer una explicación desde el ámbito social sobre las causas de la tendencia de aumento y posterior disminución de estos delitos.

Mediante el uso de herramientas como la estadística descriptiva y el análisis de series temporales, se analizan los patrones históricos y se proyecta el comportamiento futuro de los hurtos. El análisis de series temporales es una técnica fundamental para identificar tendencias, estacionalidades y ciclos en los datos. Las series de tiempo se dividen en series estacionarias y no estacionarias, siendo crucial que los modelos de predicción, como ARIMA (AutoRegressive Integrated Moving Average), trabajen con series estacionarias para garantizar la precisión de las proyecciones. Una serie es estacionaria si sus propiedades estadísticas, como la media y la varianza, no dependen del tiempo. Para convertir una serie no estacionaria en estacionaria, se pueden aplicar técnicas de diferenciación o transformaciones.

Se utilizarán diferentes test de estacionariedad, como el test de Dickey-Fuller aumentado (ADF), para comprobar la estacionariedad de la serie y determinar si es necesario realizar transformaciones. Una vez validada la estacionariedad, se identificará el orden de los componentes ARIMA (p, d, q), donde p representa el orden autorregresivo, “d” la diferencia para hacer la serie estacionaria y “q” el orden de la media móvil. Este proceso se complementará con el análisis de los residuos para evaluar la calidad del modelo y ajustar su precisión.

La base de datos se dividirá en dos ventanas para predecir los datos ya existentes, permitiendo evaluar la precisión y efectividad del modelo utilizado. Este análisis no solo busca ofrecer una comprensión profunda del fenómeno, sino también contribuir a la creación de estrategias de seguridad y prevención.

Revisión de literatura

Para realizar el análisis descriptivo y la estructuración del documento se decidió tener como guía un trabajo de investigación denominado: “Análisis estadístico del comportamiento delictivo:un estudio de los hurto en Bogotá 2018-2022 “ , en dicho documento se realiza un estudio donde se examina los patrones temporales del hurto calificado en Bogotá durante el periodo de 2018 a 2022, subrayando variables estacionales como horarios, días y áreas más impactadas. Emplea información oficial para detectar tendencias y desarrollar modelos que conecten variables socioeconómicas, como la migración y el desempleo, con la ocurrencia del crimen. Asimismo, examina la relación entre el incremento de robos y aspectos como el índice de precios al consumidor, acceso a la educación y empleo, sugiriendo una estrategia para comprender y minimizar estos delitos.Este artículo facilita la forma en cómo se analizarán los datos para la problemática de los hurtos en la ciudad de Cali y la identificación de tendencias.

Lumieres - Repositorio institucional Universidad de América: Análisis estadístico del comportamiento delictivo: un estudio de los hurtos en Bogotá 2018 - 2022. (s/f). 229.99. Recuperado el 7 de diciembre de 2024

Analisis Empirico

Estadistica Descriptiva

Para el análisis empírico de la variable hurto, el grupo de trabajo optó por utilizar los datos recopilados por la Policía Nacional de Colombia, que se encuentran en su página web de estadísticas delictivas. De esta fuente, se seleccionaron cuatro bases de datos que corresponden al hurto a personas en los años 2020, 2021, 2022, 2023 y hasta septiembre de 2024.

Con esta información, se identificó que, entre 2020 y septiembre de 2024, se registraron 96.324 casos de hurto a personas. Para profundizar en el análisis y determinar el tipo de arma más utilizada durante este periodo, se decidió crear el siguiente diagrama de barras.

Del gráfico se puede ver que, en la mayoría de los casos de hurto, no se empleó ningún tipo de arma, con un total de 44.411 incidentes registrados. En segundo lugar, se determinó que el arma de fuego fue la más utilizada, con 35.018 casos reportados durante el periodo analizado.

Ahora con el fin de analizar en qué mes se reportaron más hurtos durante el periodo analizado se decidió realizar el siguiente gráfico

Del gráfico se puede observar que la cantidad de hurtos es relativamente constante, con un promedio de 8.037 casos por mes. No se evidencia una alta variabilidad entre los meses; sin embargo, enero destaca como el mes con mayor número de hurtos, con un total de 8.650 casos reportados, mientras que abril registró la menor cantidad de incidentes, con 7.373 casos.

Ahora con el fin de analizar en qué año se presentaron más hurtos se realizó el siguiente diagrama de barras:

En el análisis se identificó que 2022 fue el año con mayor cantidad de hurtos reportados, alcanzando un total de 24.422 casos. Le siguió 2023, con un total de 23.115 casos registrados.

Ahora con el fin de analizar qué género es el más afectado por los hurtos en Cali se decidió realizar un diagrama de caja:

El gráfico revela que el robo a hombres es algo más frecuente en comparación con el robo a mujeres. Para los hombres, la mediana es 5 robos diarios, mientras que para las mujeres es de 4 robos diarios. Esto indica que, la frecuencia de los robos que se dan a hombres, en general, es algo más frecuente que para las mujeres, pero además, el máximo de robos ocurridos en un dia se da para los hombres que es de 64 (sucedió el 25 de diciembre de 2023) robos frente a 47(sucedió el 28 de diciembre de 2022) para las mujeres las cuales apuntaron una alta cifra. En el caso de los valores extremos, el 75% de los días con más robos de mujeres no alcanzó el número 9, mientras que para los hombres, el 75% de los días con más robos a hombres no pasó de 12 robos.

Ahora con el fin de analizar la frecuencia en hurtos por tipo de población (adolescentes, menores y adultos) se realizó un diagrama de barras:

El gráfico claramente indica que, de los robos reportados del 2020 a septiembre de 2024, la mayoría afectan a las personas adultas, también es evidente la gran diferencia en la cantidad de hurtos con los adolescentes y los menores . El hecho de que se pueda establecer que las personas adultas son las que padecen con mayor frecuencia los robos se explica, probablemente, por el hecho de ser poseedoras de objetos de valor. Por el contrario , los robos a adolescentes y menores se llevan una proporción bastante baja de los robos reportados probablemente relacionada con su menor exposición o el no reportar los incidentes a la Policía Nacional.

Serie de tiempo.

Mediante el uso de modelos ARIMA se ha podido predecir que los hurtos incrementarán en los siguientes meses, observemos el resultado del modelo:

La zona azul que se encuentra en la serie son las predicciones realizadas, y es que, para los próximos meses se tiene un incremento considerable del hurto en la ciudad de Cali. Esto tiene una clara explicación y es de esperarse puesto que se aproximan temporadas navideñas, aumentará el flujo de personas en ciertos sectores, además, áreas densamente pobladas y con poca planificación urbana pueden ser más propensas para el hurto.

Por último cabe resaltar los factores económicos los cuales juegan un papel crucial. Altos niveles de desempleo, pobreza y desigualdad social son condiciones que históricamente han sido asociadas con un incremento en los delitos, incluido el hurto. En momentos de crisis económica, como los vividos recientemente, es común que los índices de criminalidad aumentan debido a la falta de oportunidades.

Observe que en la tabla anterior hay un aumento significativo entre diciembre y enero, esto tiene una posible explicación en relación a los factores económicos y es que durante diciembre, la demanda laboral crece debido a las festividades y actividades comerciales, lo que impulsa contrataciones temporales en sectores como comercio, servicios y entretenimiento. Sin embargo, en enero, muchas de estas contrataciones concluyen, lo que genera un aumento en las tasas de desempleo. Aunque entre la tasa de desempleo y la cantidad de hurtos no existe una relación directa es posible que el aumento del desempleo en enero contribuye indirectamente a un incremento en los hurtos, especialmente en contextos de vulnerabilidad económica y social. Sin embargo, este fenómeno debe analizarse junto a otros factores que también influyen en los niveles de criminalidad.

Conclusiones

  1. Dentro del periodo de estudio, se identificó que el año más afectado o en donde más se presentaron hurtos fue en el 2022. Son múltiples las razones que pudieron ocasionar este fenómeno entre ellas la pobreza o falta de oportunidades.

  2. Referente a los pronósticos se puede concluir que hay una ligera tendencia al aumento de los robos, en especial el mes de enero del 2025, pronóstico que concuerda con el análisis de los meses en que más se reportaron hurtos durante este periodo. Es por esto que el organismo encargado de la seguridad en la ciudad debe reforzar las medidas preventivas, con el objetivo de prevenir un aumento en la cantidad de hurtos.

  3. Referente al género que más roban se encontró una similitud a la cantidad de hurtos diarios.

  4. En el tiempo estudiado, la gran parte de los robos se realizó sin empleo de armas. No obstante, el uso de armas blancas, de fuego y contundentes constituyó una cantidad relevante de sucesos. Esto enfatiza la importancia de establecer medidas efectivas para regular la puerta de armas como una táctica fundamental para disminuir la frecuencia de robos en la ciudad.

  5. La investigación sobre problemáticas sociales, como la cantidad de hurtos en Cali, requiere el acceso a datos precisos y oportunos. Sin embargo, se pudo evidenciar que en Colombia, el acceso a datos que pueden llegar a explicar esta problemática como por ejemplo tasa de desempleo o incidencia a la pobreza puede ser complejo.Como reto que se tuvo para la recopilación de estos datos está que el portal del DANE no es tan amigable para el caso de la recopilación de microdatos.

Referencias

Anexos

Serie de tiempo

Para el uso correcto del modelo ARIMA es necesario que la serie no sea estacional, estacionaria en media y varianza, determinar si hay autocorrelación en la serie, esto con el fin de identificar parámetros que se usan dentro del modelo.

El ACF (Autocorrelation Function) es una herramienta que muestra cómo se correlaciona una serie temporal con sus valores pasados. Esto ayuda a identificar patrones en la serie temporal, como la estacionalidad y la autocorrelación a distintos rezagos. Observemos el ACF de nuestra serie original.

Se observa una alta correlación y parece ser que no es estacional por lo rápido que decae a las bandas de confianza. Observemos el test de ADF(Augmented Dickey-Fuller Test)se utiliza para determinar si una serie es estacionaria o no. Este test da un p-valor de 0.44 el cual es mayot de 0.05 por lo cual la serie no es estacionaria. Los resultados del ADF se interpretan de la siguiente forma:

  • Si el valor p es bajo (generalmente menor que 0.05), se rechaza la hipótesis nula y se concluye que la serie es estacionaria.

  • Si el valor p es alto (mayor que 0.05), no se puede rechazar la hipótesis nula, lo que indica que la serie tiene una raíz unitaria y no es estacionaria.

Observando el ACF Y ADF se considera diferenciar la serie, esto con el fin de eliminar las correlaciones, volver la serie estacionaria y obtener una serie ruido blanco.

Obteniendo así la serie diferenciada que se aprecia en el siguiente gráfico:

Ahora se realizan nuevamente los test, el ACF obtenido es:

Observe que ningún lag sobrepasa la banda de confianza, sin embargo, el grupo decide trabajar con el lag 4, esto con teniendo en cuenta una reducción de las bandas de confianza. El test ADF obtuvo un p-valor de 0.01 por lo cual la serie es estacionaria. Ahora analicemos el PACF, esto con el fin de determinar el parámetro “p” del modelo ARIMA.

Aunque ningún lag sobrepasa las bandas de confianza el grupo igualmente decide trabajar con el lag 4, ya que es el lag que más cerca se encuentra a la banda de confianza.

Luego de evaluar múltiples modelos el mejor modelo para esta predicción es el modelo ARIMA(4,1,4) el cual se observó en el análisis empírico. Observemos que este modelo:

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(4,1,4)
## Q* = 2.8497, df = 3, p-value = 0.4154
## 
## Model df: 8.   Total lags used: 11

Efectivamente es ruido blanco con un p-valor de 0,41. Esto indica que el modelo ha capturado toda la estructura predecible de los datos (tendencias, estacionalidad, patrones) y genera una “buena” predicción.