Logo de Collision

1 Introducción

Medellín se ha caracterizado por ser una ciudad pujante y resiliente, que a pesar de sus dificultades sociales, económicas y políticas finalizando el siglo XX, ha sabido reinventarse y convertirse en polo de desarrollo para Antioquia y todo el país. Esto ha traído consigo un aumento en la capacidad adquisitiva de muchos ciudadanos de Medellín, quienes demandan más vehículos de transporte privado así como servicios de transporte público y de mercancías, pasando de 201,506 vehículos circulando en la ciudad en 1995 a 1’788,927 en el 2020, lo que representa un aumento del 788 % [1] y la existencia de un vehículo por cada tres habitantes de la ciudad [2].

Esto, por supuesto, se traduce en la existencia de decenas de accidentes viales mes a mes, que comprometen la vida y la integridad de los habitantes de la ciudad, por lo cual se hace indispensable tener una herramienta predictiva que permita proyectar la cantidad de accidentes a futuro en la ciudad, así como conocer el nivel de riesgo que se tiene en cada barrio de la ciudad, de manera que la ciudadanía, las instituciones públicas y privadas y las autoridades puedan tomar acciones al respecto. Así, pensando en esta problemática, surge Collision: una aplicación web que permitirá a los usuarios conocer los datos de accidentalidad vial de Medellín desde agosto de 2014 hasta marzo de 2020, así como un modelo predictivo que estima la cantidad de incidentes viales que ocurrirán en la ciudad de Medellín durante el 2021.

2 Materiales y herramientas empleados

2.1 Materiales principales

Para la realización de este trabajo se empleó la versión 4.05 de \(\Large{\color{blue}{\textsf{R}}}\), un lenguaje de programación que se enfoca en aplicaciones estadísticas, y en particular, se trabajo con él mediante la versión 2021.09.1+372 de \(\Large{\color{#66B2FF}{\textsf{R}}}\) \(\Large{\color{#A0A0A0}{\textsf{Studio}}}\), un entorno integrado de desarrollo que facilita el trabajo con \(\Large{\color{blue}{\textsf{R}}}\).

2.2 Materiales secundarios

Para poder conseguir los resultados que se exhiben en este informe técnico, los siguientes paquetes de \(\Large{\color{blue}{\textsf{R}}}\) resultaron fundamentales:

  • \(\color{red}{\texttt{tidyverse}}\). Versión 1.3.1. Tidyverse es un paquete desarrollado por Hadley Wickham que incluye otros paquetes como \(\texttt{dplyr}\) y \(\texttt{ggplot2}\) que facilitan el manejo, análisis, transformación y creación de gráficos a partir de bases de datos en formato \(\texttt{data frame}\) en \(\color{blue}{\textsf{R}}\).
  • \(\color{red}{\texttt{summarytools}}\). Versión 1.0.0 de julio 28 de 2021. Summarytools es un paquete desarrollado por Dominic Comtois y es empleado para generar resúmenes numéricos, tablas de contingencia y gráficos de resumen rápidamente.
  • \(\color{red}{\texttt{caret}}\). Versión 6.0 - 9.0. Es un paquete que incluye diversas funciones para entrenar y hacer gráficos asociados a modelos de clasificación y regresión.
  • \(\color{red}{\texttt{DT}}\). Versión 0.20. Es un paquete basado en el lenguaje de programación JavaScript y que se especializa en la creación de tablas en \(\color{blue}{\textsf{R}}\).
  • \(\color{red}{\texttt{factoextra}}\). Versión 1.0.7. del primero de abril de 2021. Factoextra es un paquete útil para la creación de gráficos de análisis de datos multivariados y que en este caso resultó útil para hallar gráficamente la cantidad óptima de grupos para realizar la agrupación.
  • \(\color{red}{\texttt{stats}}\). Versión 4.0.5. es un paquete generado por R Core Team (el equipo de desarrolladores que se encarga del mantenimiento de \(\color{blue}{\textsf{R}}\)) y otros desarrolladores voluntarios en todo el mundo y que incluye múltiples aplicaciones estadísticas, incluyendo herramientas para clustering, es decir, para realizar agrupamiento.
  • \(\color{red}{\texttt{shiny}}\). Versión 1.7.1. es un paquete destinado a la creación de páginas web basadas en \(\color{blue}{\textsf{R}}\).
  • \(\color{red}{\texttt{lubridate}}\). Versión 1.8.0 del siete de octubre de 2021. Es un paquete mentenido por Vitalie Spinu especializado en el manejo de objetos cuya tipología está asociada con el tiempo y fechas.
  • \(\color{red}{\texttt{leaflet}}\). Versión 2.0.4.1 del siete de enero de 2021. Es un paquete enfocado en el manejo de mapas basado en los Sistemas de Información Geográfica y un paquete de igual nombre de JavaScript.

3 Exploración y depuración inicial de la base de datos

4 Imputación de barrios faltantes

5 Transformaciones finales

6 Análisis descriptivo

7 Agrupamiento

8 Modelo predictivo

9 Conclusiones

10 Referencias