Este documento hace parte del trabajo del curso de Analítica Predictiva de la Universidad Nacional de Colombia para la Maestría en Ingeniería y Especialización en Analítica. El alcance de este documento reportar de manera tecnica el paso a paso que se llevo acabo para la consolidacion del proyecto final del curso Analitica Predictiva.
La manera en que se espera abordar este documento tecnico es la de ir recorriendo las diferentes etapas de todo el proceso del proyecto (exploratory descriptive analysis, preprocesing data, clustering,predictive model y shiny web app) e ir evidenciando aquellos hechos, tesis, supuestos y resultados obtenidos de cada una de estas etapas e ir conectando estos hallazgos con cada uno de los siguientes procesos. En suma, este documento para el lector constituye una hoja de ruta que demarca los diferentes pasos realizadas y como cada uno entrelazado llega a unos resultados finales.
La primera consideracion a tener en cuenta son las fuentes de datos utilizadas para el proceso. Inicialmente se tenian las fuentes primarias y obligatoris para el proceso: Datos de Accidentalidad Georeferenciada para el periodo 2014-2018. Son con estos datos que se realiza la etapa de exploracion asi como el clustering. Posteriormente en la etapa de modelado se tienen en cuenta otros datos que fueron incluidos, pero, para efectos practicos se describiran cuando se haga mencion a la parte de los modelos predictivos. Por los pronto solo se evidencieran los datos iniciales.
| X | DIA | PERIODO | CLASE | DIRECCION | DIRECCION_ENC | CBML | TIPO_GEOCOD | GRAVEDAD | BARRIO | COMUNA | DISENO | DIA_NOMBRE | MES | LONGITUD | LATITUD | FECHA |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | 1 | 2014 | choque | cr 63 cl 94 | cr 063 094 000 00000 | no ubicada | solo danos | tramo de via | miercoles | 1 | -75.70382 | 6.221806 | 2014-01-01 19:00:00 | |||
| 2 | 1 | 2014 | choque | cl 30 cr 66 b | cl 030 066 b 000 00000 | 1602 | malla vial | solo danos | rosales | belen | interseccion | miercoles | 1 | -75.58727 | 6.231716 | 2014-01-01 07:40:00 |
| 3 | 1 | 2014 | choque | cr 52 cl 97 | cr 052 097 000 00000 | 0402 | malla vial | solo danos | san isidro | aranjuez | interseccion | miercoles | 1 | -75.56253 | 6.289907 | 2014-01-01 05:30:00 |
| 4 | 1 | 2014 | choque | tv 78 cl 65 | tv 078 065 000 00000 | 0519 | malla vial | solo danos | el progreso | castilla | tramo de via | miercoles | 1 | -75.57365 | 6.275473 | 2014-01-01 13:50:00 |
| 5 | 1 | 2014 | otro | cr 63 cl 50 | cr 063 050 000 00000 | 1101 | malla vial | solo danos | carlos e. restrepo | laureles estadio | tramo de via | miercoles | 1 | -75.57697 | 6.255457 | 2014-01-01 07:25:00 |
| 6 | 1 | 2014 | choque | cr 57 cl 51 | cr 057 051 000 00000 | 1006 | malla vial | solo danos | san benito | la candelaria | tramo de via | miercoles | 1 | -75.57481 | 6.254322 | 2014-01-01 04:15:00 |
La primera etapa del proceso que se comenzo a construir fue el exploratory descriptive analysis del cual se derivaron varios analisis relevantes. Uno de ellos que para la variable barrio no se tienen todos los datos, cerca del 8.6% de los datos totales son vacios como se evidencia a continuacion:
| BARRIO | FRECUENCIA | PROPORCION |
|---|---|---|
| 19766 | 0.086 | |
| la candelaria | 5101 | 0.022 |
| caribe | 4436 | 0.019 |
| campo amor | 4147 | 0.018 |
| perpetuo socorro | 4122 | 0.018 |
| los conquistadores | 3756 | 0.016 |
| barrio colon | 3630 | 0.016 |
| guayaquil | 3513 | 0.015 |
| san benito | 3437 | 0.015 |
| santa fe | 3376 | 0.015 |
Como se puede bservar, 19766 observaciones, no tienen el barrio asociado donde ocurrio el siniestro. Entendiendo esto como una cantidad imporante de los datos, se procede a realizar una imputación por distancia acorde a la latitud y longitud de esos registros vs los centroides de estás dos variables de los registros que si poseen información.
Antes de esto, se valida la completitud de las columnas de latitud y longitud de los datos.
| LATITUD | LONGITUD | |
|---|---|---|
| na_values | 0.00000 | 0.00000 |
| avg | 6.24840 | -75.58750 |
| std | 0.02787 | 0.03950 |
| min_value | 6.15193 | -75.70382 |
| max_value | 6.34341 | -75.47344 |
No obstante, al indagar un poco mas sobre los diferentes labels para barrio se observó que hay algunos otros barrio que estan etiquetados con numeros (0, 6001, 7001, 9004 y 9086). Al investigar si estos hacian alucion quizas al codigo postal del barrio estos numeros no equievalen a ningun condigo postal. De esta manera y en adelante, se procede a excluir estos datos del analisis de clustering y del eda.
| BARRIO | N_ACCIDENTES | LNG | LAT |
|---|---|---|---|
| 6001 | 39 | -75.63489 | 6.275228 |
| 7001 | 11 | -75.61529 | 6.221771 |
| 0 | 5 | -75.65716 | 6.172951 |
| 9004 | 2 | -75.55018 | 6.212052 |
| 9086 | 2 | -75.52790 | 6.200256 |
Una vez se realiza la exlusion de los dato mencionados se puede observar que, no hay valores extremos o atípicos dentro de la longitud y latitud, al igual que no hay valores nulos por lo que se puede proceder con la estrategia planteada de extraer el centroide de cada barrio de acuerdo a los accidentes, e imputar los valores de los barrios de acuerdo a la cercania del registro del accidente con los centroides de los barrios. Para esto, se usara la distancia de harvesine entre dos puntos.
| BARRIO | N_ACCIDENTES | LNG | LAT |
|---|---|---|---|
| la candelaria | 5101 | -75.56578 | 6.248704 |
| caribe | 4436 | -75.57446 | 6.268025 |
| campo amor | 4147 | -75.58192 | 6.214046 |
| perpetuo socorro | 4122 | -75.57427 | 6.233385 |
| los conquistadores | 3756 | -75.58306 | 6.240020 |
| barrio colon | 3630 | -75.56921 | 6.243275 |
| guayaquil | 3513 | -75.57357 | 6.246122 |
| san benito | 3437 | -75.57384 | 6.253888 |
| santa fe | 3376 | -75.57825 | 6.223634 |
| carlos e. restrepo | 2987 | -75.58015 | 6.256308 |
| villa nueva | 2908 | -75.56299 | 6.253410 |
| terminal de transporte | 2906 | -75.57280 | 6.276299 |
| san diego | 2860 | -75.56941 | 6.233526 |
| naranjal | 2709 | -75.58253 | 6.248620 |
| castilla | 2599 | -75.57047 | 6.289639 |
A continuacion, se visualizaran los centroides de los barrios de acuerdo a los registros de los accidentes.
Lo primero que se observa en los centroides de los barrios, es que hay 2 barrios, específicamente los cercanos a San Felix y otros hacia el oriente del área metropolitana que se encuentran muy lejos de la densidad de accidentes. Por otro lado, hay otros 14 barrios cercanos a San Antonio de Prado, lo cual ya se encuentra cerca del borde del área metropolitana, con lo cual hace cuestionar la calidad y la validez de estos datos. Sin bien estos corregimientos hacen parte del municipio de Medellin hace razonable que se detenga un poco para indagar sobre estos mismo.
Ahora, teniendo la tabla de referencia de la latitud y la longitud para los barrios conocidos, se usa la fórmula del semiverseno para calcular la distancia espacial entre los centroides de los barrios conocidos y las coordenadas de los registros que no tienen barrio. Una vez computada estás distancias, se toma las coordenadas con menor distancia y se asigna ese barrio.
En el proximo mapa se logra visualizar que la mayoria de las asignaciones corresponden al barrio la oculta , el cual es un barrio de San Antonio de Prado. Lo que hace dudar bastante sobre calidad del barrio como una variable que se deba tener en cuenta para el modelo.
| BARRIO | N_RECORDS | PROPORTION |
|---|---|---|
| la oculta | 19251 | 97.1046658 |
| la aguacatala | 224 | 1.1298865 |
| suburbano chacaltaya | 139 | 0.7011349 |
| media luna | 37 | 0.1866330 |
| auc1 | 28 | 0.1412358 |
| piedras blancas represa | 19 | 0.0958386 |
| alejandro echavarria | 12 | 0.0605296 |
| suburbano el llano | 12 | 0.0605296 |
| eduardo santos | 9 | 0.0453972 |
| los cerros el vergel | 8 | 0.0403531 |
| ocho de marzo | 8 | 0.0403531 |
Además de esto, se observa que el punto donde ubica los resultados para la oculta es una amplia zona boscosa lo cual hace suponer que al tratar de imputar los barrios faltantes bajo esta metodologia careceria de todo sustento creible que haga al menos pensar que en esta zona tan apartada, distante y por su posicion geografica puedan si quiera transitar vehiculo. De otra manera, si se quisiera obviar este hecho es inverosimil que se presente una tasa de incidentes viales tan alto (19251)
En consecuencia, considerando la calidad del análisis, ésta imputación está altamente sesgada por la zona de los accidentes, lo cual se considera innecesario proceder con los barrios imputados con la oculta, con lo cual solo se toma en cuenta la imputación para el 3% restante
Después del Exploratory Descriptive Analysis, se evidenció que el problema de los barrios se extiende de igual forma a las comunas, pero viendo el mapa anterior donde el promedio de estos registros se encuentran en las afueras del área metropolitana, no es de extrañarse que estos faltantes o registros nulos se refieran al mismo caso. Sin embargo, hubo un porcentaje pequeño que si podía registrarse en el área, como fue el caso del 1.2% del subconjunto de datos (registros sin barrio). Volvemos a repetir los mismos pasos anteriores para hacer imputación, sin embargo, antes vamos a visualizar el promedio de la latitud y longitud y ubicarlo en un mapa.
| COMUNA | N_VALUES |
|---|---|
| el poblado | 17149 |
| 19736 | |
| castilla | 21209 |
| laureles estadio | 23850 |
| la candelaria | 43715 |
| alejandro echavarria | 1 |
| alfonso lopez | 1 |
| altavista | 1 |
| antonio narino | 1 |
| barrio colon | 1 |
Debido a que se aplica el mismo metodo de imputacion de barrio para comuna, este evidencia la ubicacion del mismo que se hayó para barrio. En consecuencia, y debido a que la clusterización se va hacer a nivel de barrio, se va dejar este campo vacio para los registros que no se tienen datos
Antes de proceder a realizar el agrupamiento de los barrios en función de la accidentalidad, se debe hacer una exploración rápida de los accidentes en función del tiempo, para validar si el agrupamiento se debe hacer también en función del tiempo, como el año, o sobre todo el conjunto de datos sin discriminar el tiempo.
Como se ve en el siguiente gráfico, el número de accidentes por año es muy estable a lo largo de los 5 años del análisis.
Tan para el analisis mensual como para el anual se observa que los días domingo se presentan menos accidentes en comparación con los demás días de la semana, esto bajo el supuesto que son días de ocio de las personas y el uso de los medios de transporte son menores. Así mismo, estos gráficos muestran que para todos los días con excepción para domingo todos los días tienen valores muy similares en cuanto al comportamiento anual y mensual.