2024-11-26
Meléndez, A. Gregory J1 grego1286@hotmail.com & Zamora, T. Jesús D2. info.thowinsson@gmail.com
Barranquilla-Colombia.
Esta investigación analiza la accidentalidad en Barranquilla (2018-2024) mediante la aplicación de análisis discriminante y de clúster a un extenso conjunto de datos proporcionados por fuentes oficiales. El estudio tiene como objetivo identificar las características distintivas entre diferentes tipos de accidentes y agrupar incidentes similares para revelar patrones subyacentes significativos. Adaptando metodologías estadísticas previamente empleadas en el análisis financiero empresarial y la evaluación de la eficiencia exportadora en contextos similares, se explorarán las variables temporales, geográficas y de tipología de los accidentes. Se espera que los resultados de este estudio contribuyan a una comprensión más profunda de la dinámica de la accidentalidad en la ciudad, proporcionando una base empírica sólida para el diseño y la implementación de estrategias de prevención y mitigación más efectivas y focalizadas.
Palabras Clave: Accidentalidad vial, Barranquilla, Análisis discriminante, Análisis de clúster, Patrones de accidentes, Seguridad vial, Estadística aplicada.
This research explores traffic accidents in Barranquilla (2018-2024) by employing discriminant and cluster analysis on a comprehensive dataset from official sources. The study aims to identify the distinguishing features among different types of accidents and group similar incidents to reveal underlying significant patterns. By adapting statistical methodologies previously used in business financial analysis and the evaluation of export efficiency in comparable settings, the temporal, geographical, and typological variables of accidents will be examined. The findings of this study are expected to contribute to a deeper understanding of the accident dynamics in the city, providing a solid empirical basis for the design and implementation of more effective and targeted prevention and mitigation strategies.
Key Words: Traffic accidents, Barranquilla, Discriminant analysis, Cluster analysis, Accident patterns, Road safety, Applied statistics.
La accidentalidad vial representa un desafío significativo para la seguridad pública y el desarrollo sostenible de los centros urbanos a nivel global, siendo Barranquilla, una de las metrópolis más importantes de Colombia, sensible a esta problemática. Los siniestros de tránsito no solo amenazan la integridad física y la vida de las personas, sino que también generan sustanciales repercusiones económicas derivadas de los costos sanitarios, la disminución de la productividad y los daños a la infraestructura. La presente investigación se centra en el análisis exhaustivo de la accidentalidad en Barranquilla durante el periodo comprendido entre 2018 y 2024, utilizando técnicas avanzadas de análisis multivariado como el análisis discriminante y el análisis de clúster.
El objetivo central es discernir patrones inherentes a los datos de accidentalidad y definir perfiles característicos de los incidentes, con la meta de ofrecer información crucial que respalde la formulación e implementación de intervenciones preventivas y correctivas más eficientes y dirigidas a las particularidades del contexto local. A través de la identificación de factores diferenciadores entre tipos de accidentes y la agrupación de eventos con características similares, este estudio aspira a enriquecer la comprensión integral de este fenómeno en la ciudad.
La presente investigación se fundamenta en un dataset detallado que comprende 25,610 registros y 11 variables, gentilmente proporcionado por la Alcaldía de Barranquilla y la plataforma Datos Abiertos Colombia3. Este conjunto de datos documenta los accidentes de tránsito ocurridos en la jurisdicción de Barranquilla entre los años 2018 y 2024. Las variables incluidas abarcan dimensiones temporales (fecha, hora, año, mes, día de la semana), la clasificación y la gravedad del siniestro (con una predominancia de casos catalogados como “Solo daños”), la geolocalización específica del incidente, y el recuento de personas heridas y fallecidas en el lugar (variables con una proporción considerable de valores faltantes). Adicionalmente, se registra la cantidad de accidentes por evento, siendo mayoritariamente un solo accidente por registro.
El análisis estadístico se llevará a cabo mediante la aplicación de las siguientes técnicas multivariadas:
Análisis Discriminante: Para determinar las variables que permiten discriminar estadísticamente entre distintos grupos de accidentes definidos por su tipo o gravedad, se adaptará la metodología empleada en la investigación titulada “Aplicación de análisis discriminante para evaluar el mejoramiento de los indicadores financieros en las empresas del sector alimento de Barranquilla-Colombia” 4. Este enfoque permitirá identificar los predictores significativos que distinguen entre las categorías de accidentes presentes en el dataset.
Análisis de Clúster: Con el propósito de identificar agrupaciones naturales de accidentes basados en la similitud de sus características, se implementará una adaptación del método descrito en el estudio “Método Combinado Análisis de Conglomerado y Análisis Discriminante Multivariado para Identificar y Evaluar Perfiles de Eficiencia Financiera en Empresas Exportadoras” 5. Esta técnica posibilitará la identificación de tipologías de accidentes recurrentes en Barranquilla, caracterizadas por combinaciones específicas de variables temporales, geográficas o relacionadas con los actores viales involucrados.
La integración de los resultados obtenidos a través del análisis discriminante y de clúster se espera que proporcione una visión comprehensiva y detallada de la estructura de la accidentalidad en Barranquilla, lo que a su vez facilitará la formulación de recomendaciones basadas en evidencia para la mejora de las políticas y estrategias de seguridad vial en la ciudad.
# A tibble: 7 × 9
AÑO_ACCIDENTE Total_Accidentes Total_Heridos Total_Muertos
<dbl> <int> <dbl> <dbl>
1 2018 5898 2541 41
2 2019 5645 2217 38
3 2020 3281 1543 38
4 2021 4700 2089 27
5 2022 3683 2745 49
6 2023 1662 2511 49
7 2024 741 1047 19
# ℹ 5 more variables: Promedio_Accidentes_Diario <dbl>,
# Promedio_Heridos_Diario <dbl>, Promedio_Muertos_Diario <dbl>,
# Max_Heridos <dbl>, Max_Muertos <dbl>
Día con Mayor Número de Accidentes por Año:
# A tibble: 7 × 5
AÑO_ACCIDENTE DIA_ACCIDENTE Total_Accidentes Total_Heridos Total_Muertos
<dbl> <chr> <int> <dbl> <dbl>
1 2018 Wed 936 342 8
2 2019 Tue 920 333 2
3 2020 Tue 540 240 5
4 2021 Tue 754 319 4
5 2022 Sat 569 421 5
6 2023 Wed 248 379 7
7 2024 Sat 118 163 2
Día con Mayor Número de Heridos por Año:
# A tibble: 7 × 5
AÑO_ACCIDENTE DIA_ACCIDENTE Total_Accidentes Total_Heridos Total_Muertos
<dbl> <chr> <int> <dbl> <dbl>
1 2018 Mon 869 408 3
2 2019 Mon 831 396 8
3 2020 Fri 482 263 6
4 2021 Mon 690 326 5
5 2022 Mon 544 491 13
6 2023 Mon 241 391 4
7 2024 Sat 118 163 2
Día con Mayor Número de Muertos por Año:
# A tibble: 11 × 5
AÑO_ACCIDENTE DIA_ACCIDENTE Total_Accidentes Total_Heridos Total_Muertos
<dbl> <chr> <int> <dbl> <dbl>
1 2018 Thu 892 379 9
2 2019 Sun 542 300 10
3 2020 Sun 281 177 9
4 2021 Mon 690 326 5
5 2021 Sat 672 297 5
6 2022 Mon 544 491 13
7 2023 Fri 245 340 8
8 2023 Sat 233 328 8
9 2023 Sun 236 373 8
10 2023 Thu 234 348 8
11 2024 Sun 96 154 7
Hora con Mayor Número de Accidentes:
# A tibble: 2 × 4
HORA_ACCIDENTE Total_Accidentes Total_Heridos Total_Muertos
<chr> <int> <dbl> <dbl>
1 03:00:00:pm 408 168 3
2 04:00:00:pm 408 190 3
Hora con Mayor Número de Heridos:
# A tibble: 1 × 4
HORA_ACCIDENTE Total_Accidentes Total_Heridos Total_Muertos
<chr> <int> <dbl> <dbl>
1 07:00:00:am 321 269 2
Hora con Mayor Número de Muertos:
# A tibble: 2 × 4
HORA_ACCIDENTE Total_Accidentes Total_Heridos Total_Muertos
<chr> <int> <dbl> <dbl>
1 03:00:00:am 50 60 6
2 05:00:00:pm 384 143 6
Call:
lda(Gravedad ~ CLASE_ACCIDENTE + HERIDOS + MUERTOS, data = dataset)
Prior probabilities of groups:
Con heridos Con muertos Solo daños
0.386606794 0.009839906 0.603553299
Group means:
CLASE_ACCIDENTECaida Ocupante CLASE_ACCIDENTEChoque
Con heridos 0.01898798 0.8359762
Con muertos 0.02380952 0.6230159
Solo daños 0.00000000 0.9953419
CLASE_ACCIDENTEIncendio CLASE_ACCIDENTEOtro
Con heridos 0.0001009999 0.008382992
Con muertos 0.0000000000 0.031746032
Solo daños 0.0007763473 0.002070259
CLASE_ACCIDENTEVolcamiento HERIDOS MUERTOS
Con heridos 0.008685991 1.4686395 0.000000
Con muertos 0.011904762 0.6031746 1.035714
Solo daños 0.001811477 0.0000000 0.000000
Coefficients of linear discriminants:
LD1 LD2
CLASE_ACCIDENTECaida Ocupante -0.03050518 -0.2561710
CLASE_ACCIDENTEChoque -0.13472868 1.6101050
CLASE_ACCIDENTEIncendio -0.15155269 2.1518551
CLASE_ACCIDENTEOtro 0.10057652 0.5319631
CLASE_ACCIDENTEVolcamiento -0.02225938 1.1755456
HERIDOS -0.04769334 -1.3121942
MUERTOS 54.34496040 0.4586330
Proportion of trace:
LD1 LD2
0.9651 0.0349
Gravedad
predictions Con heridos Con muertos Solo daños
Con heridos 9900 0 0
Con muertos 0 252 0
Solo daños 1 0 15457
[1] "Precision: 0.999960952752831"
En este caso, se está analizando la variable Gravedad en función de las variables CLASE_ACCIDENTE, HERIDOS y MUERTOS utilizando el conjunto de datos dataset.
Prior probabilities of groups:
Muestra la probabilidad a priori de cada grupo en la variable Gravedad. Estas probabilidades se basan en la frecuencia de cada grupo en el conjunto de datos. En este caso, tenemos tres grupos:
Esto nos indica que la mayoría de los accidentes registrados resultaron en solo daños materiales, seguidos por accidentes con heridos. Los accidentes con muertos son relativamente menos frecuentes en este conjunto de datos.
Choque: Es la clase de accidente más frecuente en todos los grupos, especialmente en el grupo “Solo daños” (99.5%). En los grupos “Con heridos” y “Con muertos” también tiene una alta frecuencia (83.6% y 62.3% respectivamente).
Caída Ocupante: Tiene mayor presencia en los grupos “Con heridos” (18.9%) y “Con muertos” (23.8%) que en “Solo daños” (0%).
Volcamiento: Se observa una mayor proporción en el grupo “Con muertos” (11.9%) en comparación con “Con heridos” (8.7%) y “Solo daños” (1.8%).
Incendio y Otros: Tienen una baja frecuencia en todos los grupos.
El grupo “Con heridos” tiene una media de heridos mayor (1.47) que los otros grupos. Los grupos “Con muertos” y “Solo daños” tienen medias de heridos de 0.6 y 0 respectivamente.
El grupo “Con muertos” tiene una media de muertos mayor (1.04), lo cual es lógico. Los grupos “Con heridos” y “Solo daños” tienen medias de muertos de 0.
Estos coeficientes indican el peso de cada variable predictora en la discriminación entre los grupos de gravedad de accidentes (“Con heridos”, “Con muertos” y “Solo daños”).
LD1: La variable MUERTOS tiene un coeficiente extremadamente alto (54.34) en la primera función discriminante (LD1), lo que indica que es la variable más importante para discriminar entre los grupos. Un valor positivo alto de MUERTOS aumenta el valor de LD1, lo que sugiere que esta función discrimina principalmente entre accidentes con muertos y accidentes sin muertos. Las demás variables tienen coeficientes relativamente bajos en LD1.
LD2: La variable CLASE_ACCIDENTEChoque tiene el coeficiente más alto (1.61) en la segunda función discriminante (LD2), seguida de CLASE_ACCIDENTEVolcamiento (1.18) y CLASE_ACCIDENTEIncendio (2.15). Esto sugiere que LD2 discrimina principalmente entre diferentes tipos de accidentes, especialmente choques.
Proportion of trace: Indica la proporción de la varianza total explicada por cada función discriminante. En este caso, LD1 explica el 96.51% de la varianza, mientras que LD2 explica solo el 3.49%. Esto confirma que LD1 es la función discriminante más importante para separar los grupos.
LD1 = (-0.03050518) * CLASE_ACCIDENTECaida Ocupante + (-0.13472868) * CLASE_ACCIDENTEChoque + (-0.15155269) * CLASE_ACCIDENTEIncendio + (0.10057652) * CLASE_ACCIDENTEOtro + (-0.02225938) * CLASE_ACCIDENTEVolcamiento + (-0.04769334) * HERIDOS + (54.34496040) * MUERTOS
Método del codo: La idea principal es buscar un punto en la gráfica donde la disminución de la suma de cuadrados dentro de los grupos se vuelve menos pronunciada, formando una especie de “codo”. Este punto sugiere un buen número de clústeres, ya que agregar más clústeres no mejora significativamente la homogeneidad dentro de los grupos.
En esta gráfica: El “codo” parece estar en k=4. A partir de este punto, la disminución de la suma de cuadrados es menos pronunciada.
Columnas:
FECHA_ACCIDENTE: Fecha del accidente. Todos los registros mostrados son del 1 de enero de 2024.
HORA_ACCIDENTE: Hora del accidente. Se registran diferentes horas del día.
GRAVEDAD_ACCIDENTE: Indica si el accidente tuvo heridos o solo daños materiales. En este caso, todos los accidentes tienen heridos.
CLASE_ACCIDENTE: Tipo de accidente. Se observan “Choque” y “Atropello”.
SITIO_EXACTO_ACCIDENTE: Ubicación exacta del accidente, con calles y carreras.
HERIDOS: Número de heridos en el accidente. Varía de 1 a 2 en los registros analizados.
MUERTOS: Número de muertos en el accidente. Afortunadamente, no hay muertos en estos registros.
CANTIDAD_ACCIDENTES: Parece ser un contador de accidentes, que siempre es 1 en estos registros. Podría ser útil si hubiera registros con valores mayores a 1, indicando múltiples accidentes en el mismo lugar y hora.
AÑO_ACCIDENTE: Año del accidente. Todos los registros son de 2024.
Esta gráfica muestra la distribución de accidentes de transito según el número de heridos y muertos, categorizados en 3 clústeres (representados por colores/formas diferentes). Se utilizo el metódo k-means para la formación de clústeres.
Análisis e interpretación:
Clúster 1 (verde): Agrupa accidentes con un número bajo de heridos (entre 0 y 5 aproximadamente) y ningún muerto. Podrían ser accidentes leves o con daños materiales únicamente.
Clúster 2 (naranja): Representa accidentes con un número bajo de heridos (similar al clúster 1) pero con algunos muertos (entre 1 y 2). Estos accidentes, aunque no tengan muchos heridos, son más graves debido a la presencia de fallecidos.
Clúster 3 (morado): Agrupa accidentes con un número muy bajo de heridos (cercano a 0) y ningún muerto. Podría tratarse de accidentes con daños materiales únicamente o con heridos leves que no requirieron atención médica.
Observaciones:
Los clústeres 1 y 2 se separan claramente en el eje de “Número de Muertos”, lo que indica que la presencia de fallecidos es un factor determinante en la formación de estos grupos.
Superposición: Existe cierta superposición entre los clústeres 1 y 3 en el eje de “Número de Heridos”, lo que sugiere que algunos accidentes con pocos heridos podrían ser clasificados en cualquiera de estos dos grupos.
Este estudio nos ha permitido comprender mejor la accidentalidad en Barranquilla a través del análisis de datos históricos. Se utilizaron dos técnicas estadísticas, análisis discriminante y análisis de clúster, para identificar patrones y características que diferencian los accidentes de tráfico.
El análisis discriminante reveló que la presencia de muertos es el factor más importante para discriminar entre los diferentes niveles de gravedad de los accidentes, seguido por el tipo de accidente. El análisis de clúster, por otro lado, nos permitió agrupar los accidentes en categorías basadas en sus similitudes, revelando patrones en la distribución de heridos y muertos.
Recopilar datos más detallados: Incluir información sobre el tipo de vehículo, la edad del conductor, las condiciones climáticas y la condición de la malla vial podría mejorar la precisión de los modelos y la interpretación de los resultados.
Implementar medidas preventivas: Diseñar estrategias de prevención específicas para los tipos de accidentes más comunes y las zonas de mayor riesgo, teniendo en cuenta los patrones identificados en el análisis de clúster.
Profundizar el análisis: Explorar otras técnicas de análisis de datos y considerar la posibilidad de desarrollar modelos predictivos para anticipar la ocurrencia de accidentes y optimizar la asignación de recursos.
Este estudio representa un primer paso hacia una mejor comprensión de la accidentalidad en Barranquilla. La información generada puede ser utilizada por las autoridades locales y otros actores involucrados para desarrollar estrategias más efectivas de prevención y respuesta, con el objetivo final de reducir la accidentalidad y mejorar la seguridad vial en la ciudad.
Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2010). Multivariate data analysis (7th ed.). Pearson Prentice Hall.
Johnson, R. A., & Wichern, D. W. (2007). Applied multivariate statistical analysis (6th ed.). Pearson Prentice Hall.
Everitt, B. S., Landau, S., Leese, M., & Stahl, D. (2011). Cluster analysis (5th ed.). Wiley.
Hastie, T., Tibshirani, R., & Friedman, J. (2009). The elements of statistical learning (2nd ed.). Springer
Díaz, R. Martín., González, A. Ángel, L., Henao, P. Alvin., Díaz, M. Martín
Base de datos Accidente Barranquilla: Recuperado de Datos Abiertos - clic aquí
R Script: Recuperado de Google Drive - clic aquí
Base de datos Accidente Barranquilla.csv: Recuperado de Google Drive - clic aquí
Gregory Jesus Meléndez Alvarez. Economista, Especialista en estadística aplicada y Magíster en estadística aplicada↩︎
Jesús David Zamora Thowinsson. Economista y Administrador Pública, Especialista en estadística aplicada, Candidato Magíster Scientiarum en gerencia empresarial, Magíster en estadística aplicada↩︎
https://www.barranquilla.gov.co/transito/institucional/indicadores↩︎
https://scielo.conicyt.cl/scielo.php?script=sci_arttext&pid=S0718-33052012000300006↩︎
https://scielo.conicyt.cl/scielo.php?script=sci_arttext&pid=S0718-07642018000500227&lng=es&nrm=iso↩︎