Introducción

Este documento hace parte del trabajo del curso de Analítica Predictiva de la Universidad Nacional de Colombia para la Maestría en Ingeniería y Especialización en Analítica. El alcance de este documento reportar de manera tecnica el paso a paso que se llevo acabo para la consolidacion del proyecto final del curso Analitica Predictiva.

La manera en que se espera abordar este documento tecnico es la de ir recorriendo las diferentes etapas de todo el proceso del proyecto (exploratory descriptive analysis, preprocesing data, clustering,predictive model y shiny web app) e ir evidenciando aquellos hechos, tesis, supuestos y resultados obtenidos de cada una de estas etapas e ir conectando estos hallazgos con cada uno de los siguientes procesos. En suma, este documento para el lector constituye una hoja de ruta que demarca los diferentes pasos realizadas y como cada uno entrelazado llega a unos resultados finales.

Carga de datos

La primera consideracion a tener en cuenta son las fuentes de datos utilizadas para el proceso. Inicialmente se tenian las fuentes primarias y obligatoris para el proceso: Datos de Accidentalidad Georeferenciada para el periodo 2014-2018. Son con estos datos que se realiza la etapa de exploracion asi como el clustering. Posteriormente en la etapa de modelado se tienen en cuenta otros datos que fueron incluidos, pero, para efectos practicos se describiran cuando se haga mencion a la parte de los modelos predictivos. Por los pronto solo se evidencieran los datos iniciales.

X DIA PERIODO CLASE DIRECCION DIRECCION_ENC CBML TIPO_GEOCOD GRAVEDAD BARRIO COMUNA DISENO DIA_NOMBRE MES LONGITUD LATITUD FECHA
1 1 2014 choque cr 63 cl 94 cr 063 094 000 00000 no ubicada solo danos tramo de via miercoles 1 -75.70382 6.221806 2014-01-01 19:00:00
2 1 2014 choque cl 30 cr 66 b cl 030 066 b 000 00000 1602 malla vial solo danos rosales belen interseccion miercoles 1 -75.58727 6.231716 2014-01-01 07:40:00
3 1 2014 choque cr 52 cl 97 cr 052 097 000 00000 0402 malla vial solo danos san isidro aranjuez interseccion miercoles 1 -75.56253 6.289907 2014-01-01 05:30:00
4 1 2014 choque tv 78 cl 65 tv 078 065 000 00000 0519 malla vial solo danos el progreso castilla tramo de via miercoles 1 -75.57365 6.275473 2014-01-01 13:50:00
5 1 2014 otro cr 63 cl 50 cr 063 050 000 00000 1101 malla vial solo danos carlos e. restrepo laureles estadio tramo de via miercoles 1 -75.57697 6.255457 2014-01-01 07:25:00
6 1 2014 choque cr 57 cl 51 cr 057 051 000 00000 1006 malla vial solo danos san benito la candelaria tramo de via miercoles 1 -75.57481 6.254322 2014-01-01 04:15:00

La primera etapa del proceso que se comenzo a construir fue el exploratory descriptive analysis del cual se derivaron varios analisis relevantes. Uno de ellos que para la variable barrio no se tienen todos los datos, cerca del 8.6% de los datos totales son vacios como se evidencia a continuacion:

BARRIO FRECUENCIA PROPORCION
19766 0.086
la candelaria 5101 0.022
caribe 4436 0.019
campo amor 4147 0.018
perpetuo socorro 4122 0.018
los conquistadores 3756 0.016
barrio colon 3630 0.016
guayaquil 3513 0.015
san benito 3437 0.015
santa fe 3376 0.015

Como se puede bservar, 19766 observaciones, no tienen el barrio asociado donde ocurrio el siniestro. Entendiendo esto como una cantidad imporante de los datos, se procede a realizar una imputación por distancia acorde a la latitud y longitud de esos registros vs los centroides de estás dos variables de los registros que si poseen información.

Antes de esto, se valida la completitud de las columnas de latitud y longitud de los datos.

LATITUD LONGITUD
na_values 0.00000 0.00000
avg 6.24840 -75.58750
std 0.02787 0.03950
min_value 6.15193 -75.70382
max_value 6.34341 -75.47344

No obstante, al indagar un poco mas sobre los diferentes labels para barrio se observó que hay algunos otros barrio que estan etiquetados con numeros (0, 6001, 7001, 9004 y 9086). Al investigar si estos hacian alucion quizas al codigo postal del barrio estos numeros no equievalen a ningun condigo postal. De esta manera y en adelante, se procede a excluir estos datos del analisis de clustering y del eda.

BARRIO N_ACCIDENTES LNG LAT
6001 39 -75.63489 6.275228
7001 11 -75.61529 6.221771
0 5 -75.65716 6.172951
9004 2 -75.55018 6.212052
9086 2 -75.52790 6.200256

Centroides de los barrios conocidos

Una vez se realiza la exlusion de los dato mencionados se puede observar que, no hay valores extremos o atípicos dentro de la longitud y latitud, al igual que no hay valores nulos por lo que se puede proceder con la estrategia planteada de extraer el centroide de cada barrio de acuerdo a los accidentes, e imputar los valores de los barrios de acuerdo a la cercania del registro del accidente con los centroides de los barrios. Para esto, se usara la distancia de harvesine entre dos puntos.

BARRIO N_ACCIDENTES LNG LAT
la candelaria 5101 -75.56578 6.248704
caribe 4436 -75.57446 6.268025
campo amor 4147 -75.58192 6.214046
perpetuo socorro 4122 -75.57427 6.233385
los conquistadores 3756 -75.58306 6.240020
barrio colon 3630 -75.56921 6.243275
guayaquil 3513 -75.57357 6.246122
san benito 3437 -75.57384 6.253888
santa fe 3376 -75.57825 6.223634
carlos e. restrepo 2987 -75.58015 6.256308
villa nueva 2908 -75.56299 6.253410
terminal de transporte 2906 -75.57280 6.276299
san diego 2860 -75.56941 6.233526
naranjal 2709 -75.58253 6.248620
castilla 2599 -75.57047 6.289639

A continuacion, se visualizaran los centroides de los barrios de acuerdo a los registros de los accidentes.

Lo primero que se observa en los centroides de los barrios, es que hay 2 barrios, específicamente los cercanos a San Felix y otros hacia el oriente del área metropolitana que se encuentran muy lejos de la densidad de accidentes. Por otro lado, hay otros 14 barrios cercanos a San Antonio de Prado, lo cual ya se encuentra cerca del borde del área metropolitana, con lo cual hace cuestionar la calidad y la validez de estos datos. Sin bien estos corregimientos hacen parte del municipio de Medellin hace razonable que se detenga un poco para indagar sobre estos mismo.

Ahora, teniendo la tabla de referencia de la latitud y la longitud para los barrios conocidos, se usa la fórmula del semiverseno para calcular la distancia espacial entre los centroides de los barrios conocidos y las coordenadas de los registros que no tienen barrio. Una vez computada estás distancias, se toma las coordenadas con menor distancia y se asigna ese barrio.

En el proximo mapa se logra visualizar que la mayoria de las asignaciones corresponden al barrio la oculta , el cual es un barrio de San Antonio de Prado. Lo que hace dudar bastante sobre calidad del barrio como una variable que se deba tener en cuenta para el modelo.

BARRIO N_RECORDS PROPORTION
la oculta 19251 97.1046658
la aguacatala 224 1.1298865
suburbano chacaltaya 139 0.7011349
media luna 37 0.1866330
auc1 28 0.1412358
piedras blancas represa 19 0.0958386
alejandro echavarria 12 0.0605296
suburbano el llano 12 0.0605296
eduardo santos 9 0.0453972
los cerros el vergel 8 0.0403531
ocho de marzo 8 0.0403531

Además de esto, se observa que el punto donde ubica los resultados para la oculta es una amplia zona boscosa lo cual hace suponer que al tratar de imputar los barrios faltantes bajo esta metodologia careceria de todo sustento creible que haga al menos pensar que en esta zona tan apartada, distante y por su posicion geografica puedan si quiera transitar vehiculo. De otra manera, si se quisiera obviar este hecho es inverosimil que se presente una tasa de incidentes viales tan alto (19251)

En consecuencia, considerando la calidad del análisis, ésta imputación está altamente sesgada por la zona de los accidentes, lo cual se considera innecesario proceder con los barrios imputados con la oculta, con lo cual solo se toma en cuenta la imputación para el 3% restante

Centroides de las comunas conocidas

Después del Exploratory Descriptive Analysis, se evidenció que el problema de los barrios se extiende de igual forma a las comunas, pero viendo el mapa anterior donde el promedio de estos registros se encuentran en las afueras del área metropolitana, no es de extrañarse que estos faltantes o registros nulos se refieran al mismo caso. Sin embargo, hubo un porcentaje pequeño que si podía registrarse en el área, como fue el caso del 1.2% del subconjunto de datos (registros sin barrio). Volvemos a repetir los mismos pasos anteriores para hacer imputación, sin embargo, antes vamos a visualizar el promedio de la latitud y longitud y ubicarlo en un mapa.

COMUNA N_VALUES
el poblado 17149
19736
castilla 21209
laureles estadio 23850
la candelaria 43715
alejandro echavarria 1
alfonso lopez 1
altavista 1
antonio narino 1
barrio colon 1

Debido a que se aplica el mismo metodo de imputacion de barrio para comuna, este evidencia la ubicacion del mismo que se hayó para barrio. En consecuencia, y debido a que la clusterización se va hacer a nivel de barrio, se va dejar este campo vacio para los registros que no se tienen datos

Clustering de barrios de acuerdo a la accidentalidad

Antes de proceder a realizar el agrupamiento de los barrios en función de la accidentalidad, se debe hacer una exploración rápida de los accidentes en función del tiempo, para validar si el agrupamiento se debe hacer también en función del tiempo, como el año, o sobre todo el conjunto de datos sin discriminar el tiempo.

Como se ve en el siguiente gráfico, el número de accidentes por año es muy estable a lo largo de los 5 años del análisis.

Tan para el analisis mensual como para el anual se observa que los días domingo se presentan menos accidentes en comparación con los demás días de la semana, esto bajo el supuesto que son días de ocio de las personas y el uso de los medios de transporte son menores. Así mismo, estos gráficos muestran que para todos los días con excepción para domingo todos los días tienen valores muy similares en cuanto al comportamiento anual y mensual.