Competencia de modelos RUNT

Problematica e Introducción

El RUNT es un sistema que permite registrar y mantener actualizada, centralizada, autorizada y validada la información de registros de automóviles, conductores, accidentes de transito y demás. Actualmente se cuenta con un conjunto de datos del RUNT que permite conocer el número de vehículos registrados diariamente en un periodo de tiempo comprendido entre el 2012 y el 2017. Sin embargo, la información a partir del año 2017 se desconoce y se sabe que es valiosa puesto que podría servir para optimizar los procesos dentro del tránsito o el ministerio de transporte, estando así preparados para días o meses en los que se presenten una gran cantidad de registros. Teniendo en cuenta esta problemática, un modelo de inteligencia artificial que permita predecir el número de registros de vehículos que se realizaran diariamente en el RUNT, sería una gran herramienta de apoyo. En este trabajo se tomarán los datos disponibles del RUNT desde el año 2012 hasta el año 2017, se definiran algunas variables de interés, se crearán 4 modelos de inteligencia artificial que sirvan para predecir los registros de vehículos del año 2018 y se seleccionara el mejor de ellos basándose en el R^2.

Resultados

Definición de variables.

Debido a que el conjunto de datos original solo presentaba la fecha y la cantidad de registros por día, es necesario definir nuevas variables para el modelo de regresión. A continuación se listaran y explicaran las variables definidas.

Dia: El día en el que se realizo el registro de vehículos.

Mes: El mes en el que se realizo el registro de vehículos.

Año: El año en el que se realizo el registro de los vehículos.

Dia de la semana: El dia de la semana en el que se realizo el registro de vehiculos. Lunes - 0, Domingo - 6.

Estas cuatro variables fueron tomadas de la fecha puesto que esta se utiliza como el índice o identificador único de cada registro, lo que hace que se pierda su información en caso de que no sea descompuesta en día, mes y año. Debido a que no se puede utilizar la variable de unidades para crear nuevas caracteristicas a partir de esta, unicamente se seleccionan caracteristicas relacionadas a la fecha.

Luego de esta definición de variables el conjunto de datos final se presenta en la figura 1.

FIGURA 1
Conjunto de datos con variables descriptivas

Datos de entrenamiento y de prueba

El conjunto de datos se dividió en datos de entrenamiento y de prueba. Esto con el objetivo de validar la eficacia del modelo y evitar sobreajustes. El conjunto de datos de entrenamiento consta de todos los datos desde 2012 hasta 2016 y el conjunto de datos de prueba consta de los datos del año 2017.

Modelos

Se desarrollaron cuatro modelos de regresión y se evaluó su desempeño de cada uno con la métrica del R^2. Además, antes del entrenamiento de cada modelo se realizó una transformación a los datos utilizando una normalización o escalamiento. Esto permite transformar las características para que todas tengan una media de cero y una desviación estándar de uno, lo que evita posibles problemas en las diferentes escalas de las variables y por lo tanto mejora el rendimiento de los algoritmos. Para el escalamiento y luego el entrenamiento del modelo se utilizaron pipelines, los cuales permiten realizar estos dos pasos con solo un método. En la tabla 1 se pueden ver los modelos utilizados y la métrica de R^2 para cada uno de ellos tanto con el conjunto de datos de entrenamiento como de prueba.

Resultados de los modelos

TABLA 1
R2 de los modelos en entrenamiento y pruebas

Los bosques aleatorios se ajustan bastante bien al conjunto de datos de entrenamiento y al conjunto de datos de prueba, por lo que podemos decir que no existe un sobreajuste o subajuste en el modelo y por lo tanto seleccionamos como mejor algoritmo a los bosques aleatorios para predecir el numero de vehiculos registrados en el RUNT diariamente.

En la figura 2 se puede ver el comportamiento original de los registros de vehiculos en el año 2017 y las predicciones arrojadas por el modelo. Como se observa en esta figura, el modelo generaliza muy bien el conjunto de datos y sirve para predecir con exito la cantidad de vehiculos registrados en el RUNT diariamente.

Resultados de los modelos

FIGURA 2
Modelo vs Realidad

También, se presenta en la figura 3 la importancia de las características para el modelo, en donde se puede notar que la característica más relevante y que aporta casi que toda la “fuerza” para predecir el número de vehículos es el dia de la semana en el que se registran.

FIGURA 3
Importancia de las caracteristicas

Predicciones 2018

Las predicciones para el año 2018 se pueden observar en la figura 4.

FIGURA 4
Predicciones para el año 2018

Competencia de modelos RUNT

Darwin Stiven Herrera Cartagena

Jhon Jairo Arenas Astier

Juan Manuel Trujillo Chacon

Mateo Martínez Palacio

2022-07-01