El presente análisis se centra en el estudio de los accidentes de tránsito en el distrito de Barranquilla, basado en la información proporcionada por la Alcaldía Distrital de Barranquilla. Los datos utilizados corresponden a los informes policiales de accidentes de tránsito (IPAT), los cuales recopilan información detallada sobre cada incidente, como la ubicación, fecha, hora, tipo de accidente, y otras variables relevantes.
La base de datos “Accidentalidad en Barranquilla” contiene registros de accidentes de tránsito ocurridos en el distrito y ha sido actualizada por última vez el 17 de julio de 2024. Es importante mencionar que la información de la vigencia actual es preliminar y está sujeta a cambios. Este análisis tiene como objetivo proporcionar una descripción detallada de los datos, explorar patrones en la accidentalidad, identificar valores atípicos y faltantes, y aplicar técnicas de imputación para mejorar la calidad del análisis. A través de técnicas estadísticas y visualización de datos, se buscará entender mejor las características de los accidentes y su evolución a lo largo del tiempo, así como factores asociados que puedan influir en la ocurrencia de estos eventos.
| FECHA_ACCIDENTE | HORA_ACCIDENTE | GRAVEDAD_ACCIDENTE | CLASE_ACCIDENTE | SITIO_EXACTO_ACCIDENTE | CANT_HERIDOS_EN_SITIO_ACCIDENTE | CANT_MUERTOS_EN _SITIO_ACCIDENTE | CANTIDAD_ACCIDENTES | AÑO_ACCIDENTE | MES_ACCIDENTE | DIA_ACCIDENTE |
|---|---|---|---|---|---|---|---|---|---|---|
| 2018-01-01 | 01:30:00:am | Con heridos | Atropello | CL 87 9H 24 | 1 | NA | 1 | 2018 | January | Mon |
| 2018-01-01 | 02:00:00:pm | Solo daños | Choque | CL 110 CR 46 | NA | NA | 1 | 2018 | January | Mon |
| 2018-01-01 | 04:00:00:am | Solo daños | Choque | AV CIRCUNVALAR CR 9G | NA | NA | 1 | 2018 | January | Mon |
| 2018-01-01 | 04:30:00:am | Solo daños | Choque | CLLE 72 CRA 29 | NA | NA | 1 | 2018 | January | Mon |
| 2018-01-01 | 05:20:00:pm | Solo daños | Choque | VIA 40 CALLE 75 | NA | NA | 1 | 2018 | January | Mon |
| 2018-01-01 | 06:00:00:pm | Con heridos | Choque | CR 8 CL 41 | 3 | NA | 1 | 2018 | January | Mon |
A continuación, se presentan las distintas variables contenidas y proximanente analizadas que pertencen al conjunto de datos.
| Varible | Descripción |
|---|---|
| FECHA_ACCIDENTE | Fecha del accidente |
| HORA_ACCIDENTE | Hora del accidente |
| GRAVEDAD_ACCIDENTE | Gravedad del accidente |
| CLASE_ACCIDENTE | Clase de accidente |
| SITIO_EXACTO_ACCIDENTE | Sitio exacto del accidente |
| CANT_HERIDOS_EN_SITIO_ACCIDENTE | Cantidad de heridos en el sitio del accidente |
| CANT_MUERTOS_EN_SITIO_ACCIDENTE | Cantidad de muertos en el sitio del accidente |
| CANTIDAD_ACCIDENTES | Cantidad de accidentes |
| AÑO_ACCIDENTE | Año del accidente |
| MES_ACCIDENTE | Mes del accidente |
| DIA_ACCIDENTE | Día del accidente |
summary(Data)
## FECHA_ACCIDENTE HORA_ACCIDENTE GRAVEDAD_ACCIDENTE
## Min. :2018-01-01 00:00:00.00 Length:25610 Length:25610
## 1st Qu.:2019-02-02 00:00:00.00 Class :character Class :character
## Median :2020-04-23 12:00:00.00 Mode :character Mode :character
## Mean :2020-07-31 19:57:36.05
## 3rd Qu.:2021-12-13 00:00:00.00
## Max. :2024-06-30 00:00:00.00
##
## CLASE_ACCIDENTE SITIO_EXACTO_ACCIDENTE CANT_HERIDOS_EN _SITIO_ACCIDENTE
## Length:25610 Length:25610 Min. : 1.000
## Class :character Class :character 1st Qu.: 1.000
## Mode :character Mode :character Median : 1.000
## Mean : 1.472
## 3rd Qu.: 2.000
## Max. :42.000
## NA's :15626
## CANT_MUERTOS_EN _SITIO_ACCIDENTE CANTIDAD_ACCIDENTES AÑO_ACCIDENTE
## Min. :1.000 Min. :1 Min. :2018
## 1st Qu.:1.000 1st Qu.:1 1st Qu.:2019
## Median :1.000 Median :1 Median :2020
## Mean :1.036 Mean :1 Mean :2020
## 3rd Qu.:1.000 3rd Qu.:1 3rd Qu.:2021
## Max. :2.000 Max. :2 Max. :2024
## NA's :25358
## MES_ACCIDENTE DIA_ACCIDENTE
## Length:25610 Length:25610
## Class :character Class :character
## Mode :character Mode :character
##
##
##
##
summary(Data$`CANT_HERIDOS_EN _SITIO_ACCIDENTE`)
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 1.000 1.000 1.000 1.472 2.000 42.000 15626
summary(Data$`CANT_MUERTOS_EN _SITIO_ACCIDENTE`)
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 1.000 1.000 1.000 1.036 1.000 2.000 25358
summary(Data$CANTIDAD_ACCIDENTES)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1 1 1 1 1 2
summary(Data$AÑO_ACCIDENTE)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2018 2019 2020 2020 2021 2024
table(Data$GRAVEDAD_ACCIDENTE)
##
## Con heridos Con muertos Solo daños
## 9901 252 15457
table(Data$CLASE_ACCIDENTE)
##
## Atropello Caida Ocupante Choque Incendio Otro
## 1344 194 23819 13 123
## Volcamiento
## 117
table(Data$MES_ACCIDENTE)
##
## April August December February January July June March
## 2010 1918 2189 2477 2349 1932 2103 2446
## May November October September
## 2121 1995 2090 1980
table(Data$DIA_ACCIDENTE)
##
## Fri Mon Sat Sun Thu Tue Wed
## 3920 3774 3735 2577 3756 4009 3839
Nótese que las variables que expresaban la fecha, hora y sitio exacto del accidente se observan directamente en el resumen del conjunto de datos y no en esta sección debido a la cantidad de categorías que estas tendría dada su especificidad.
## [1] 252
## [1] 1662
## [1] 772
## [1] 0
## [1] 3735
##
## Atropello Caida Ocupante Choque Incendio Otro
## 1344 194 23819 13 123
## Volcamiento
## 117
##
## Con heridos Con muertos Solo daños
## 9901 252 15457
##
## April August December February January July June March
## 2010 1918 2189 2477 2349 1932 2103 2446
## May November October September
## 2121 1995 2090 1980
A partir del análisis de los gráficos y del summary de la base de datos, se puede concluir que las variables con datos faltantes son únicamente las correspondientes a la cantidad de muertos y la cantidad de heridos en el sitio del accidente. El primer gráfico muestra que la variable CANT_MUERTOS_EN_SITIO_ACCIDENTE presenta casi un 100% de datos faltantes, mientras que CANT_HERIDOS_EN_SITIO_ACCIDENTE tiene alrededor del 50% de datos faltantes. Esto indica que en muchos registros no se cuenta con información sobre el número de heridos o muertos en el sitio del accidente, lo cual podría deberse a la falta de reporte, a que no ocurrieron heridos o muertos en esos casos específicos, o a errores en el registro de los datos.
El “Missingness Map” confirma que el 85% de los datos en el conjunto de datos son observados, mientras que el 15% de los datos faltantes se distribuyen principalmente en estas dos variables, reforzando que el resto de las variables, como la fecha del accidente, la gravedad del accidente, el tipo de accidente, entre otras, no presentan problemas de datos faltantes. Esto sugiere que la base de datos tiene una integridad adecuada en la mayoría de las variables, permitiendo confiar en el análisis para esas dimensiones específicas.
Dada la alta proporción de datos faltantes en CANT_MUERTOS_EN_SITIO_ACCIDENTE, que ronda el 100%, su utilidad en el análisis podría ser limitada. En este caso, se recomienda considerar la posibilidad de eliminar esta variable del análisis o aplicar técnicas de manejo de valores faltantes con precaución, ya que la imputación podría introducir sesgos significativos debido a la falta de datos representativos. Por otro lado, para la variable CANT_HERIDOS_EN_SITIO_ACCIDENTE, que tiene aproximadamente un 50% de datos faltantes, se podrían aplicar técnicas de imputación de datos más robustas, como la imputación múltiple o el uso de modelos predictivos, si se considera que esta información es crucial para el análisis.
En el análisis de la base de datos, se identificó que la variable “CANT_MUERTOS_EN _SITIO_ACCIDENTE” (correspondiente a la cantidad de personas que murieron en el sitio del accidente) presenta casi un 100% de datos faltantes. Dado que la falta de datos en esta variable es extremadamente alta, se concluye que mantenerla en el análisis podría introducir sesgos significativos y reducir la calidad del análisis. Por lo tanto, se decide eliminar esta variable del análisis principal, ya que su utilidad en el modelo es limitada en su estado actual. No obstante, debido a que la información sobre el número de muertos en el sitio del accidente es relevante para comprender la gravedad de los accidentes de tráfico, se recomienda explorar la posibilidad de complementar esta variable con datos de otras fuentes o bases de datos, si es posible, para enriquecer el análisis futuro.
En cuanto a la variable CANT_HERIDOS_EN _SITIO_ACCIDENTE, que tiene aproximadamente un 50% de datos faltantes, se optará por utilizar un método robusto de imputación para tratar los valores faltantes, dado que esta información es crucial para el análisis. El método de imputación seleccionado será el Predictive Mean Matching (PMM), ya que es un método robusto que permite preservar la distribución original de la variable y evitar la imputación de valores fuera de rango, manteniendo así la integridad y representatividad de los datos imputados. El uso de PMM es particularmente adecuado en situaciones donde los valores faltantes son continuos y se desea mantener la consistencia de los datos imputados con los valores observados.
Data <- subset(Data, select = -`CANT_MUERTOS_EN _SITIO_ACCIDENTE`)
| FECHA_ACCIDENTE | HORA_ACCIDENTE | GRAVEDAD_ACCIDENTE | CLASE_ACCIDENTE | SITIO_EXACTO_ACCIDENTE | CANT_HERIDOS_EN_SITIO_ACCIDENTE | CANTIDAD_ACCIDENTES | AÑO_ACCIDENTE | MES_ACCIDENTE | DIA_ACCIDENTE |
|---|---|---|---|---|---|---|---|---|---|
| 2018-01-01 | 01:30:00:am | Con heridos | Atropello | CL 87 9H 24 | 1 | 1 | 2018 | January | Mon |
| 2018-01-01 | 02:00:00:pm | Solo daños | Choque | CL 110 CR 46 | NA | 1 | 2018 | January | Mon |
| 2018-01-01 | 04:00:00:am | Solo daños | Choque | AV CIRCUNVALAR CR 9G | NA | 1 | 2018 | January | Mon |
| 2018-01-01 | 04:30:00:am | Solo daños | Choque | CLLE 72 CRA 29 | NA | 1 | 2018 | January | Mon |
| 2018-01-01 | 05:20:00:pm | Solo daños | Choque | VIA 40 CALLE 75 | NA | 1 | 2018 | January | Mon |
| 2018-01-01 | 06:00:00:pm | Con heridos | Choque | CR 8 CL 41 | 3 | 1 | 2018 | January | Mon |
En el análisis de los datos, se identificó que algunas variables numéricas presentan valores que se repiten constantemente. Estas variables, aunque numéricas en apariencia, en realidad representan categorías discretas que indican diferentes niveles o clasificaciones (por ejemplo, la gravedad del accidente, el tipo de accidente, o el sitio exacto del accidente). Debido a esta naturaleza categórica, resulta más apropiado tratarlas como factores en lugar de como variables numéricas continuas. Realizar imputación en variables categóricas no es recomendable, ya que puede distorsionar la distribución y la interpretación de los datos. Además, la imputación no aportaría valor adicional al análisis en este contexto, pues los valores faltantes en categorías discretas no afectan de manera significativa la calidad del análisis cuando se manejan adecuadamente como factores. Por lo tanto, se procederá a convertir estas variables numéricas a factores para reflejar correctamente su naturaleza categórica y facilitar un análisis más preciso y representativo de los datos.
| FECHA_ACCIDENTE | HORA_ACCIDENTE | GRAVEDAD_ACCIDENTE | CLASE_ACCIDENTE | SITIO_EXACTO_ACCIDENTE | Cant_Heridos | CANTIDAD_ACCIDENTES | AÑO_ACCIDENTE | MES_ACCIDENTE | DIA_ACCIDENTE |
|---|---|---|---|---|---|---|---|---|---|
| 2018-01-01 | 01:30:00:am | Con heridos | Atropello | CL 87 9H 24 | 1 | 1 | 2018 | January | Mon |
| 2018-01-01 | 02:00:00:pm | Solo daños | Choque | CL 110 CR 46 | NA | 1 | 2018 | January | Mon |
| 2018-01-01 | 04:00:00:am | Solo daños | Choque | AV CIRCUNVALAR CR 9G | NA | 1 | 2018 | January | Mon |
| 2018-01-01 | 04:30:00:am | Solo daños | Choque | CLLE 72 CRA 29 | NA | 1 | 2018 | January | Mon |
| 2018-01-01 | 05:20:00:pm | Solo daños | Choque | VIA 40 CALLE 75 | NA | 1 | 2018 | January | Mon |
| 2018-01-01 | 06:00:00:pm | Con heridos | Choque | CR 8 CL 41 | 3 | 1 | 2018 | January | Mon |
Al analizar las gráficas, se observan varios patrones importantes en los datos de accidentalidad. La gráfica de la distribución de la cantidad de heridos muestra que la mayoría de los accidentes reportan una baja cantidad de heridos, con un predominio de valores en 1 y 2 heridos por accidente. A medida que la cantidad de heridos aumenta, la frecuencia disminuye drásticamente, lo que indica una distribución sesgada hacia la izquierda. Este comportamiento es típico en los datos de accidentes, donde los eventos con un alto número de heridos son mucho menos frecuentes. Es importante destacar la alta frecuencia de valores faltantes (“NA”) en la gráfica, lo que indica una cantidad significativa de datos no reportados o no registrados en la variable de cantidad de heridos. En la gráfica de la distribución de la gravedad del accidente, se observa que la mayoría de los accidentes se clasifican como “solo daños”, seguidos de “con heridos”, mientras que los accidentes “con muertos” son significativamente menos frecuentes. Esto también es consistente con los datos de accidentes de tráfico, donde los incidentes fatales suelen ser más raros en comparación con aquellos que solo resultan en daños materiales o heridos. En general, ambas gráficas reflejan patrones esperados en los datos de accidentes y subrayan la importancia de considerar la distribución de los datos y los valores faltantes al interpretar los resultados.
En este análisis de datos de accidentalidad en Barranquilla, se abordaron diferentes aspectos relacionados con la calidad de los datos y la forma en que deben ser tratados para obtener información útil y precisa. Primero, se decidió eliminar una variable con casi el 100% de datos faltantes, ya que su falta de información limita su relevancia para el análisis. Además, se identificó que varias variables numéricas, como la cantidad de heridos y la gravedad del accidente, en realidad representan categorías discretas y, por lo tanto, fueron convertidas a factores para reflejar mejor su naturaleza. Se determinó que la imputación de datos no sería útil en este contexto debido a la repetición constante de valores en estas variables, y se justificó esta decisión. Las gráficas generadas ayudaron a visualizar la distribución de estas variables categóricas y confirmaron patrones esperados en los datos de accidentes de tráfico. En resumen, este trabajo proporcionó un enfoque claro y justificado para la limpieza y el tratamiento de datos, mejorando la precisión y utilidad del análisis al tomar decisiones basadas en la naturaleza de los datos y su contexto.