Logo de Collision
Con el dataset ya depurado, se procede a realizar el modelo. El algoritmo que se va a utilizar es el de k vecinos más cercanos, conocido como KNN por sus siglas en inglés (k nearest neighbors). Sin embargo, aún no se sabe cuál es el k más óptimo y además se deben seleccionar ciertas características para el modelo. Por lo que primero, se realiza una búsqueda de cuál es el k y el número de características que hacen que el modelo se desempeñe mejor. Para ello, se entrenan y validan los modelos con una característica escogida hasta 13 y con un \(k=1\) hasta \(k=13\) (para entrenamiento se utilizan los datos de 2014, 2015, 2016 y 2017; y para validación se usan los datos de 2018 y 2019). A estos modelos se les saca el error cuadrático medio en entrenamiento y prueba y la variación entre ambos.
Para predecir los accidentes de choque se utilizarán 4 características y un K=11. Ya que tiene un MSE más equilibrado en entrenamiento y validación y un porcentaje de variación menor a 15%. MSE en entrenamiento=217.3957 y en validación=245.4324, porcentaje de variación=11.4234.
Este modelo utilizará 4 características y un k=6.Con MSE de entrenamiento=13.6848, en validación=13.9533 y un porcentaje de variación=1.9246.
Con la predicción de volcamientos se utilizarán 6 características y un k=12. Con MSE de entrenamiento=5.7122, en validación=6.4358 y un porcentaje de variación=11.2432.
Respecto a caída del ocupante se usarán 6 características y un k=12. Con MSE de entrenamiento=15.1528, en validación=19.4027 y un porcentaje de variación=21.9037.
Ya que según la tabla, los MSE son los mismos y no tienen variación, se puede utilizar cualquier número de características y cualquier k. Por simplicidad, se usará 2 características y un k=1.
Por último, en el caso de otros accidentes, se utilizaran 3 características un k=13. Con MSE de entrenamiento=23.74075, en validación=27.1204 y un porcentaje de variación=12.4615.
A continuación se muestran las características escogidas para los modelos de choque, atropello, volcamiento, caída del ocupante, incendio y otro respectivamente:
Después de entrenar y validar los modelos se muestran los datos predichos vs los datos observados para el conjunto de validación (accidentes en el 2018 y 2019).
Según las gráficas, tanto el modelo de choque como el de incendio son los que mejores se ajustan a los datos (este último debido a que solo ocurre un accidente de incendio por fecha). No obstante, para atropello, volcamiento, caída del ocupante y otro no se ajustan tan bien. ¿Por qué pasa esto? La naturaleza del algoritmo KNN hace que las predicciones tengan un rango limitado por el k. En el caso de estos modelos, el k máximo es 13, por lo que el modelo no alcanza a coger datos como los de los extremos superior e inferior, que son datos atípicos. Aun así, los modelos tienen un comportamiento muy similar al de los datos observados (exceptuando el modelo de otros accidentes, que tiene un comportamiento uniforme), por lo que si se pudiera hacer una definición más exhaustiva del algoritmo (posiblemente teniendo un k máximo mucho más alto), los modelos se ajustarían mucho mejor a los datos observados.
Luego de tener los modelos entrenados y validados se desea mirar qué comportamiento toman para el 2020.
Nota: no se tiene en cuenta el modelo de incendio, ya que para 2020 no hay ningún accidente de este tipo.
El comportamiento que tienen los modelos, según la gráficas, es un resultado esperado según los datos de los años anteriores. Sin embargo, los datos reales muestran una caída a mediados de marzo. Esto claramente se debe a la pandemia ocasionada por el nuevo coronavirus Covid-19, lo cual produjo que el tránsito se redujera y por ende, también el número de accidentes. A los modelos le era imposible saber que un suceso de esta magnitud ocurriera, por ende es normal que para mediados de marzo se proyecte un comportamiento muy diferente al real.