Introducción

Este documento hace parte del trabajo del curso de Analítica Predictiva de la Universidad Nacional de Colombia para la Maestría en Ingeniería y Especialización en Analítica. Para los efectos de tener un proceso que brinde la información necesaria en la etapa de modelamiento es imperativo realizar un minucioso análisis descriptivo que permita observar, analizar, discutir, suponer y generar afirmaciones sobre el estado real de los datos y así, saber cuáles serán los pasos siguientes para el modelamiento.

Analisis Univariado

En el actual gráfico se observa el número promedio de accidentes por gravedad del siniestro. Para esto, se observa que la mayoría de los siniestros que se ocasionan tiene un herido, seguidamente los siniestros que se presentan sólo daños donde hay lecciones en la humanidad de los participantes. Y, finalmente, en el 0.57% (1060) de los siniestros que se presentan estos revisten un grado de fatalidad..

El comportamiento anual de accidentes presenta niveles relativamente estables con una tendencia acumulada creciente.Una posible explicación a esto se podría dar con ocasión del creciente parque automotor de la ciudad; tanto para motos como para carros.

En cuanto a la clase del accidente se observa que en su mayoría (122.305) son siniestros simples (choque) donde no se observan afectaciones a la integridad humana.

Para los dia de la semana según el accidente se evidencia un hecho intuitivo, donde se espera que los menores días de actividad económicas y movilidad se presenten menos incidentes en las vías; sea este el caso del día domingo donde se observan menores incidentes en la vía.

Los días de ocio de las personas así como las temporadas de vacaciones son momentos donde las ciudades en su centro urbano presentan menores niveles de movilidad de las personas, por eso no es de extrañar (sin caer en relaciones espurias) que se presenten menos siniestros viales. Así como en el apartado anterior se observaba que, los domingos son días en los que comparativamente con otros días de la semana se presentan menos accidentes, así lo es para el mes de Enero donde los valores son comparativamente más bajos con el resto de los meses del año.

Entre tanto, la infraestructura vial donde se presentan los siniestros es importante analizarla toda vez que se puede comprender más ampliamente las razones de los siniestros en la ciudad. Para este gráfico se observa que los incidentes se presentan.

Analisis Bivariado

Con este gráfico se observa que la variable clase accidente se puede realizar una reducción de dimensión, pasando de 6 dimensiones a tan solo 2 dimensiones. Estas nuevas dimensiones (Siniestro con Lesiones -SCL- y Siniestro sin Lesión -SSL-) están relacionadas con si hay o no lesiones en el siniestro. Se observa que para la gravedad solo daños el 99.3% de los siniestros fue sin lecciones lo que hace suponer el la mayoría de la clase de choques son menores y no hay lecciones (materiales graves ni sobre las personas). De esta manera, la clase choque se puede convertir SSL* y las demás clases (atropello, caída ocupante, incendio, otro y volcamiento) se pueden convertir en SCL.

Al analizar el periodo del accidente en relación con la clase se puede observar a primera vista disminuciones para atropello y caida ocupante mientras que para las demás clases choque , volcamiento y otro una tendencia creciente. En cuanto a los incidentes con incendios se puede decir que hay cierto nivel de estabilidad.

En este gráfico se observa un fenómeno particular por cuanto para los días domingo si bien los choques son menores en comparación con los otros días; la caida ocupante, atropello y otros presentan valores superiores. Esto puede deberse a un hecho netamente estadístico toda vez que para los domingos se pueden presentar en general menos incidentes en la vía, pero, al realizar una estimación por días esta se puede ver afectada al alza.

Para los meses del año se observa porcentualmente una estabilidad en las clases de accidentes; sobresaliendo eso sí un mayor porcentaje para los choques en todos los meses en general.

Para la infraestructura vial contrastada con la clase de accidente hay varias hechos relevantes:

1. Los atropellos se presentan la mayoría de las veces contra ciclistas (ciclo ruta) y contra peatones (vía peatonal) lo cual hace que estos 2 actores (ciclistas y peatones) sean los más vulnerables en las vías.

2. Las caídas de ocupante se dan con mayor frecuencia en túneles, lotes o predios y en ciclo rutas.

Para las tendencias anuales de la gravedad del accidente: se pueden observar disminuciones de la fatalidad de los mismos (heridos y muertos) lo que puede hablar sobre mejores niveles de educación vial de los actores. Sin embargo, para solo daño se presenta una tendencia creciente. No obstante, se hace imperativo obtener más datos para esto ya que tan solo 4 años no parecen ser suficientes para comprender ampliamente estos fenómenos.

Para este gráfico se puede ver cuál ha sido la tendencia en los últimos años de las clases de accidentes evidenciando crecimiento para volcamiento, incendio, choque y otro; mientras que para atropello y caida ocupante se registran menores incidentes viales. No obstante, los niveles de atropello y caida ocupante son mucho mayores que para volcamiento, esto último podría encender las alarmas en cuanto a los volcamientos de vehículos.

La evidencia en esta gráfica sugiere valores crecientes para la gran mayoría de las categorías. De igual manera, es de resaltar la disminución que se dio para el 2017 de los incidentes en los tramos de vía pasando de un poco más de 36.000 en 2016 a 30.000 en 2017.

Esta gráfica soporta la tesis que se tenia mas arriba donde se observaba que en valores los días domingo se presentan menos accidentes en comparación con los demás días de la semana, esto bajo el supuesto que son días de ocio de las personas y el uso de los medios de transporte son menores. Así mismo, este gráfico muestra que para todos los días con excepción para domingo todos los días tienen valores muy similares.

Para esta gráfica se tiene un hecho particular para el label de incendio donde para algunos meses (5, 6, 11, y 12) no se presentan accidentes donde haya involucrado un accidente. Esto supone entonces que la tendencia que se observa en este gráfico no es tan diciente toda vez que pueden pasar varios meses sin presentar un incendio durante algún siniestro. Entre tanto, para las demás clases de accidentes se observan leves tendencias crecientes.

Quizás con ventanas de tiempo un poco más amplias en años, se podría decir con mayor contundencia que para las diferentes infraestructuras viales se tienen procesos con tendencias crecientes sin mayores cambios estructurales.

Finalmente,para las variables en las cuales se presentan muchos labels se realiza un análisis gráfico diferencial toda vez que para los gráficos que se tienen previamente no eran los apropiados o no arrojaban la información suficiente que ayudará para la etapa de modelamiento.

Este gráfico está evidenciando que los lugares de la ciudad donde se presentan mayores números de autos también son lugares con mayores niveles de choque: La Candelaria, El poblado, Belén, Guayabal, Robledo y demás, son lugares con alta congestión vehicular lo que puede traducir mayores niveles de choques.

Otro de los gráficos que se resaltan dentro del análisis descriptivo son los mapas georeferenciados

En estos mapas se puede evidenciar los cluster en las ciudad con los conteos de los accidentes según la infraestructura vial. Un tema a resaltar con estos mapas es que se considera que algunas latitudes y longitudes no son reales. Como es el caso de que 16.068 de las observaciones se dan en un punto que a nuestro concepto si quiera se puede acceder mediante algún medio de transporte, lo cual hace sospechar que estas medidas latitud y longitud son errores humanos en la digitación.