Introducción
Una vez se ha hecho la depuración de la base de datos y se han realizado las imputaciones, fundementalmente en los barrios, se puede proceder con las transformaciones finales de la tabla de datos de cara al estudio de los diferentes modelos predictivos que van a ser abordados para poder proyectar la accidentalidad en la ciudad de Medellín durante los años 2020 y 2021.
Simplificación de columnas
Para comenzar, se van a eliminar las columnas relacionadas con datos administrativos, como lo son el CBML, la dirección y la dirección encasillada, el número de radicado, el número de la comuna, el expediente y la fecha de accidente secundaria. La justificación de la eliminación de esta última columna se basa en que, al revisar las observaciones, se evidencia que la hora asociada está seis o cinco horas más tarde y generalmente en horarios nocturnos en los que la circulación vehicular es muy reducida en la ciudad, lo que lleva a pensar que el huso horario de esta variable está en la hora de Londres (Greenwich Meridian Time, GMT), toda vez que la primera fecha y hora reportadas presentan un huso horario adecuado y coherente con los horarios y hábitos de la ciudadanía en Medellín, cuyos picos de circulación se dan entre las 8:00 am y las 6:00 pm 8:00 am y las 6:00 pm [6]
Comuna
Como se vio al finalizar el primer proceso de depuración, habían varias decenas de barrios en la base de datos desconocidos, y para no dejar sus campos vacíos ni descartarlos para el modelo predictivo se realizó un proceso de imputación usando el método de los vecinos más cercanos, lo cual puede generar algunas diferencias entre el barrio y su comuna en tanto en algunas observaciones el barrio era desconocido pero no su columna, por lo que se debe proceder a la modifación de las columnas para que estos valores coincidan con ayuda de la información catastral de los barrios y las veredas de Medellín [4].
Fecha y fechas especial.
Ahora bien, la variable que relaciona la fecha en la que el incidente vial ocurrió es de suma importancia ya que lo que se quiere predecir es precisamente la cantidad y tipo de accidentes que ocurren en la ciudad de Medellín en el 2020 y el 2021 a partir de la información anterior, y para poder facilitar esto se va a a extraer información importante de las fechas registradas, como el día, el mes, el año, el número de la semana y el día de la semana en la que se dio el accidente. Adicionalmente, se van a crear varias variables binarias que van a identificar qué accidentes se dieron en fechas que cumplen las siguientes características.
- Festivo. Los días festivos son de importancia ya que en ellos se dan operaciones de retorno de miles de ciudadanos que previamente salieron de la ciudad hacia otros municipios de la región y el país, lo cual podría explicar varios accidentes registrados en la base de datos. También se agregan a nochebuena (24 de diciembre de cada año) y nochevieja (31 de diciembre de cada año).
- Feria de flores. La feria de flores es el evento más icónico de la ciudad de Medellín y uno de los más reconocidos de Colombia, lo cual podría estimular el uso de vehículos para asistir a diferentes eventos de esta feria, así como el tránsito de más personas que llegan de otros lugares del país o del mundo para participar en las actividades de la feria de flores.
- Final de fútbol. La ciudad de Medellín tiene dos equipos de fútbol: el Atlético Nacional y el Deportivo Independiente Medellín, los cuales han participado en varias finales de la categoría A del torneo de fútbol nacional, por lo que es conveniente considerarla ya que por la movilización de miles de personas que desean reunirse con familiares y amigos para disfrutar de la cita deportiva juntos podría explicar una alta cantidad de accidentes.
- Quincena. Se incluyen las quincenas tradicionales, que son el quince y el treinta de cada mes, así como el primero, ya que algunas empresas tienen esquema primero - quince, y también a los días cinco y al veinte de cada mes, puesto que otras empresas y sobre todo la administración pública paga a sus empleados dichos días.
Adicionalmente, para facilitar la manipulación de las fechas, se generan a partir de la fecha reportada en el IPAT las siguientes columnas:
- Día modificado. Componente del día de la fecha en la que se registró en el IPAD la observación de un accidente de tránsito.
- Mes modificado. Componente del mes de la fecha en la que se registró en el IPAD la observación de un accidente de tránsito.
- Año modificado. Componente del año de la fecha en la que se registró en el IPAD la observación de un accidente de tránsito.
- Semana modificada uno. Número de la semana en el año en la que se dio un accidente de tránsito observado, teniendo en cuenta que la primera semana va del primero a siete de enero, la segunda va del ocho al catorce de enero y así sucesivamente sin considerar el día de la semana asociada a cada día.
- Semana modificada dos. Número de la semana del año en la que se dio un accidente de tránsito observado considerando el día en el que comienza el año. Así, si un año comienza el día sabado, entonces el primero y el segundo de enero son la primera semana, pero el tres de enero, siendo lunes, registra una nueva semana, que en este caso es la segunda, y así sucesivamente.
- Día semana. Nombre del día de la semana en la que se dio un accidente de tránsito observado.
- Mes semana. Mes en el que se dio un accidente de tránsito según la fecha formalmente registrada en el IPAT.
- Festivo. Identificación de días asociados a festivos.
- Flores. Identificación de días asociados a la celebración de la Feria de las Flores en la ciudad.
- Fútbol. Identificación de días en los que algún equipo local de fútbol participó en una final de fútbol de la categoría primera del país.
- Quincena. Identificación de días en los que las empresas y las instituciones públicas y privadas pagan a sus empleados formalos sus quincenas.
Tipo de accidente por fecha
Finalmente, para facilitar el estudio de los diferentes tipos de accidente y del diseño de vías, se generan unas bases de datos que agrupan el tipo de accidente sucedido sumando las observaciones que tienen en común aspectos como la fecha, el diseño de la vía o el barrio.