Introducción

El presente análisis se centra en el estudio de los accidentes de tránsito en el distrito de Barranquilla, basado en la información proporcionada por la Alcaldía Distrital de Barranquilla. Los datos utilizados corresponden a los informes policiales de accidentes de tránsito (IPAT), los cuales recopilan información detallada sobre cada incidente, como la ubicación, fecha, hora, tipo de accidente, y otras variables relevantes.

La base de datos “Accidentalidad en Barranquilla” contiene registros de accidentes de tránsito ocurridos en el distrito y ha sido actualizada por última vez el 17 de julio de 2024. Es importante mencionar que la información de la vigencia actual es preliminar y está sujeta a cambios. Este análisis tiene como objetivo proporcionar una descripción detallada de los datos, explorar patrones en la accidentalidad, identificar valores atípicos y faltantes, y aplicar técnicas de imputación para mejorar la calidad del análisis. A través de técnicas estadísticas y visualización de datos, se buscará entender mejor las características de los accidentes y su evolución a lo largo del tiempo, así como factores asociados que puedan influir en la ocurrencia de estos eventos.

Primeras filas del conjunto de datos
FECHA_ACCIDENTE HORA_ACCIDENTE GRAVEDAD_ACCIDENTE CLASE_ACCIDENTE SITIO_EXACTO_ACCIDENTE CANT_HERIDOS_EN_SITIO_ACCIDENTE CANT_MUERTOS_EN _SITIO_ACCIDENTE CANTIDAD_ACCIDENTES AÑO_ACCIDENTE MES_ACCIDENTE DIA_ACCIDENTE
2018-01-01 01:30:00:am Con heridos Atropello CL 87 9H 24 1 NA 1 2018 January Mon
2018-01-01 02:00:00:pm Solo daños Choque CL 110 CR 46 NA NA 1 2018 January Mon
2018-01-01 04:00:00:am Solo daños Choque AV CIRCUNVALAR CR 9G NA NA 1 2018 January Mon
2018-01-01 04:30:00:am Solo daños Choque CLLE 72 CRA 29 NA NA 1 2018 January Mon
2018-01-01 05:20:00:pm Solo daños Choque VIA 40 CALLE 75 NA NA 1 2018 January Mon
2018-01-01 06:00:00:pm Con heridos Choque CR 8 CL 41 3 NA 1 2018 January Mon

Variables del dataset

A continuación, se presentan las distintas variables contenidas y proximanente analizadas que pertencen al conjunto de datos.

Varible Descripción
FECHA_ACCIDENTE Fecha del accidente
HORA_ACCIDENTE Hora del accidente
GRAVEDAD_ACCIDENTE Gravedad del accidente
CLASE_ACCIDENTE Clase de accidente
SITIO_EXACTO_ACCIDENTE Sitio exacto del accidente
CANT_HERIDOS_EN_SITIO_ACCIDENTE Cantidad de heridos en el sitio del accidente
CANT_MUERTOS_EN_SITIO_ACCIDENTE Cantidad de muertos en el sitio del accidente
CANTIDAD_ACCIDENTES Cantidad de accidentes
AÑO_ACCIDENTE Año del accidente
MES_ACCIDENTE Mes del accidente
DIA_ACCIDENTE Día del accidente
summary(Data)
##  FECHA_ACCIDENTE                  HORA_ACCIDENTE     GRAVEDAD_ACCIDENTE
##  Min.   :2018-01-01 00:00:00.00   Length:25610       Length:25610      
##  1st Qu.:2019-02-02 00:00:00.00   Class :character   Class :character  
##  Median :2020-04-23 12:00:00.00   Mode  :character   Mode  :character  
##  Mean   :2020-07-31 19:57:36.05                                        
##  3rd Qu.:2021-12-13 00:00:00.00                                        
##  Max.   :2024-06-30 00:00:00.00                                        
##                                                                        
##  CLASE_ACCIDENTE    SITIO_EXACTO_ACCIDENTE CANT_HERIDOS_EN _SITIO_ACCIDENTE
##  Length:25610       Length:25610           Min.   : 1.000                  
##  Class :character   Class :character       1st Qu.: 1.000                  
##  Mode  :character   Mode  :character       Median : 1.000                  
##                                            Mean   : 1.472                  
##                                            3rd Qu.: 2.000                  
##                                            Max.   :42.000                  
##                                            NA's   :15626                   
##  CANT_MUERTOS_EN _SITIO_ACCIDENTE CANTIDAD_ACCIDENTES AÑO_ACCIDENTE 
##  Min.   :1.000                    Min.   :1           Min.   :2018  
##  1st Qu.:1.000                    1st Qu.:1           1st Qu.:2019  
##  Median :1.000                    Median :1           Median :2020  
##  Mean   :1.036                    Mean   :1           Mean   :2020  
##  3rd Qu.:1.000                    3rd Qu.:1           3rd Qu.:2021  
##  Max.   :2.000                    Max.   :2           Max.   :2024  
##  NA's   :25358                                                      
##  MES_ACCIDENTE      DIA_ACCIDENTE     
##  Length:25610       Length:25610      
##  Class :character   Class :character  
##  Mode  :character   Mode  :character  
##                                       
##                                       
##                                       
## 

Resumen por variable

summary(Data$`CANT_HERIDOS_EN _SITIO_ACCIDENTE`)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   1.000   1.000   1.000   1.472   2.000  42.000   15626
summary(Data$`CANT_MUERTOS_EN _SITIO_ACCIDENTE`)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   1.000   1.000   1.000   1.036   1.000   2.000   25358
summary(Data$CANTIDAD_ACCIDENTES)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##       1       1       1       1       1       2
summary(Data$AÑO_ACCIDENTE)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    2018    2019    2020    2020    2021    2024
table(Data$GRAVEDAD_ACCIDENTE)
## 
## Con heridos Con muertos  Solo daños 
##        9901         252       15457
table(Data$CLASE_ACCIDENTE)
## 
##      Atropello Caida Ocupante         Choque       Incendio           Otro 
##           1344            194          23819             13            123 
##    Volcamiento 
##            117
table(Data$MES_ACCIDENTE)
## 
##     April    August  December  February   January      July      June     March 
##      2010      1918      2189      2477      2349      1932      2103      2446 
##       May  November   October September 
##      2121      1995      2090      1980
table(Data$DIA_ACCIDENTE)
## 
##  Fri  Mon  Sat  Sun  Thu  Tue  Wed 
## 3920 3774 3735 2577 3756 4009 3839

Nótese que las variables que expresaban la fecha, hora y sitio exacto del accidente se observan directamente en el resumen del conjunto de datos y no en esta sección debido a la cantidad de categorías que estas tendría dada su especificidad.

Aplicación de filtros

Accidentes con gravedad “fatal”.

## [1] 252

Accidentes ocurridos en el año 2023

## [1] 1662

Accidentes con más de 5 heridos

## [1] 772

Accidentes durante el mes de diciembre

## [1] 0

Accidentes durante el día sábado

## [1] 3735

Exploración usando la función “Table()”

Clase de accidente

## 
##      Atropello Caida Ocupante         Choque       Incendio           Otro 
##           1344            194          23819             13            123 
##    Volcamiento 
##            117

Gravedad de accidente

## 
## Con heridos Con muertos  Solo daños 
##        9901         252       15457

Mes del accidente

## 
##     April    August  December  February   January      July      June     March 
##      2010      1918      2189      2477      2349      1932      2103      2446 
##       May  November   October September 
##      2121      1995      2090      1980

Identificación de valores faltantes (NA)

A partir del análisis de los gráficos y del summary de la base de datos, se puede concluir que las variables con datos faltantes son únicamente las correspondientes a la cantidad de muertos y la cantidad de heridos en el sitio del accidente. El primer gráfico muestra que la variable CANT_MUERTOS_EN_SITIO_ACCIDENTE presenta casi un 100% de datos faltantes, mientras que CANT_HERIDOS_EN_SITIO_ACCIDENTE tiene alrededor del 50% de datos faltantes. Esto indica que en muchos registros no se cuenta con información sobre el número de heridos o muertos en el sitio del accidente, lo cual podría deberse a la falta de reporte, a que no ocurrieron heridos o muertos en esos casos específicos, o a errores en el registro de los datos.

El “Missingness Map” confirma que el 85% de los datos en el conjunto de datos son observados, mientras que el 15% de los datos faltantes se distribuyen principalmente en estas dos variables, reforzando que el resto de las variables, como la fecha del accidente, la gravedad del accidente, el tipo de accidente, entre otras, no presentan problemas de datos faltantes. Esto sugiere que la base de datos tiene una integridad adecuada en la mayoría de las variables, permitiendo confiar en el análisis para esas dimensiones específicas.

Dada la alta proporción de datos faltantes en CANT_MUERTOS_EN_SITIO_ACCIDENTE, que ronda el 100%, su utilidad en el análisis podría ser limitada. En este caso, se recomienda considerar la posibilidad de eliminar esta variable del análisis o aplicar técnicas de manejo de valores faltantes con precaución, ya que la imputación podría introducir sesgos significativos debido a la falta de datos representativos. Por otro lado, para la variable CANT_HERIDOS_EN_SITIO_ACCIDENTE, que tiene aproximadamente un 50% de datos faltantes, se podrían aplicar técnicas de imputación de datos más robustas, como la imputación múltiple o el uso de modelos predictivos, si se considera que esta información es crucial para el análisis.

Decisión sobre los datos faltantes

En el análisis de la base de datos, se identificó que la variable “CANT_MUERTOS_EN _SITIO_ACCIDENTE” (correspondiente a la cantidad de personas que murieron en el sitio del accidente) presenta casi un 100% de datos faltantes. Dado que la falta de datos en esta variable es extremadamente alta, se concluye que mantenerla en el análisis podría introducir sesgos significativos y reducir la calidad del análisis. Por lo tanto, se decide eliminar esta variable del análisis principal, ya que su utilidad en el modelo es limitada en su estado actual. No obstante, debido a que la información sobre el número de muertos en el sitio del accidente es relevante para comprender la gravedad de los accidentes de tráfico, se recomienda explorar la posibilidad de complementar esta variable con datos de otras fuentes o bases de datos, si es posible, para enriquecer el análisis futuro.

En cuanto a la variable CANT_HERIDOS_EN _SITIO_ACCIDENTE, que tiene aproximadamente un 50% de datos faltantes, se optará por utilizar un método robusto de imputación para tratar los valores faltantes, dado que esta información es crucial para el análisis. El método de imputación seleccionado será el Predictive Mean Matching (PMM), ya que es un método robusto que permite preservar la distribución original de la variable y evitar la imputación de valores fuera de rango, manteniendo así la integridad y representatividad de los datos imputados. El uso de PMM es particularmente adecuado en situaciones donde los valores faltantes son continuos y se desea mantener la consistencia de los datos imputados con los valores observados.

Eliminación de la variable

Data <- subset(Data, select = -`CANT_MUERTOS_EN _SITIO_ACCIDENTE`)
Primeras filas del conjunto de datos luego de la eliminación
FECHA_ACCIDENTE HORA_ACCIDENTE GRAVEDAD_ACCIDENTE CLASE_ACCIDENTE SITIO_EXACTO_ACCIDENTE CANT_HERIDOS_EN_SITIO_ACCIDENTE CANTIDAD_ACCIDENTES AÑO_ACCIDENTE MES_ACCIDENTE DIA_ACCIDENTE
2018-01-01 01:30:00:am Con heridos Atropello CL 87 9H 24 1 1 2018 January Mon
2018-01-01 02:00:00:pm Solo daños Choque CL 110 CR 46 NA 1 2018 January Mon
2018-01-01 04:00:00:am Solo daños Choque AV CIRCUNVALAR CR 9G NA 1 2018 January Mon
2018-01-01 04:30:00:am Solo daños Choque CLLE 72 CRA 29 NA 1 2018 January Mon
2018-01-01 05:20:00:pm Solo daños Choque VIA 40 CALLE 75 NA 1 2018 January Mon
2018-01-01 06:00:00:pm Con heridos Choque CR 8 CL 41 3 1 2018 January Mon

Imputación de datos

En el análisis de los datos, se identificó que algunas variables numéricas presentan valores que se repiten constantemente. Estas variables, aunque numéricas en apariencia, en realidad representan categorías discretas que indican diferentes niveles o clasificaciones (por ejemplo, la gravedad del accidente, el tipo de accidente, o el sitio exacto del accidente). Debido a esta naturaleza categórica, resulta más apropiado tratarlas como factores en lugar de como variables numéricas continuas. Realizar imputación en variables categóricas no es recomendable, ya que puede distorsionar la distribución y la interpretación de los datos. Además, la imputación no aportaría valor adicional al análisis en este contexto, pues los valores faltantes en categorías discretas no afectan de manera significativa la calidad del análisis cuando se manejan adecuadamente como factores. Por lo tanto, se procederá a convertir estas variables numéricas a factores para reflejar correctamente su naturaleza categórica y facilitar un análisis más preciso y representativo de los datos.

Primeras filas del conjunto de datos después de la eliminación y conversión a factores
FECHA_ACCIDENTE HORA_ACCIDENTE GRAVEDAD_ACCIDENTE CLASE_ACCIDENTE SITIO_EXACTO_ACCIDENTE Cant_Heridos CANTIDAD_ACCIDENTES AÑO_ACCIDENTE MES_ACCIDENTE DIA_ACCIDENTE
2018-01-01 01:30:00:am Con heridos Atropello CL 87 9H 24 1 1 2018 January Mon
2018-01-01 02:00:00:pm Solo daños Choque CL 110 CR 46 NA 1 2018 January Mon
2018-01-01 04:00:00:am Solo daños Choque AV CIRCUNVALAR CR 9G NA 1 2018 January Mon
2018-01-01 04:30:00:am Solo daños Choque CLLE 72 CRA 29 NA 1 2018 January Mon
2018-01-01 05:20:00:pm Solo daños Choque VIA 40 CALLE 75 NA 1 2018 January Mon
2018-01-01 06:00:00:pm Con heridos Choque CR 8 CL 41 3 1 2018 January Mon

Al analizar las gráficas, se observan varios patrones importantes en los datos de accidentalidad. La gráfica de la distribución de la cantidad de heridos muestra que la mayoría de los accidentes reportan una baja cantidad de heridos, con un predominio de valores en 1 y 2 heridos por accidente. A medida que la cantidad de heridos aumenta, la frecuencia disminuye drásticamente, lo que indica una distribución sesgada hacia la izquierda. Este comportamiento es típico en los datos de accidentes, donde los eventos con un alto número de heridos son mucho menos frecuentes. Es importante destacar la alta frecuencia de valores faltantes (“NA”) en la gráfica, lo que indica una cantidad significativa de datos no reportados o no registrados en la variable de cantidad de heridos. En la gráfica de la distribución de la gravedad del accidente, se observa que la mayoría de los accidentes se clasifican como “solo daños”, seguidos de “con heridos”, mientras que los accidentes “con muertos” son significativamente menos frecuentes. Esto también es consistente con los datos de accidentes de tráfico, donde los incidentes fatales suelen ser más raros en comparación con aquellos que solo resultan en daños materiales o heridos. En general, ambas gráficas reflejan patrones esperados en los datos de accidentes y subrayan la importancia de considerar la distribución de los datos y los valores faltantes al interpretar los resultados.

Conclusión

En este análisis de datos de accidentalidad en Barranquilla, se abordaron diferentes aspectos relacionados con la calidad de los datos y la forma en que deben ser tratados para obtener información útil y precisa. Primero, se decidió eliminar una variable con casi el 100% de datos faltantes, ya que su falta de información limita su relevancia para el análisis. Además, se identificó que varias variables numéricas, como la cantidad de heridos y la gravedad del accidente, en realidad representan categorías discretas y, por lo tanto, fueron convertidas a factores para reflejar mejor su naturaleza. Se determinó que la imputación de datos no sería útil en este contexto debido a la repetición constante de valores en estas variables, y se justificó esta decisión. Las gráficas generadas ayudaron a visualizar la distribución de estas variables categóricas y confirmaron patrones esperados en los datos de accidentes de tráfico. En resumen, este trabajo proporcionó un enfoque claro y justificado para la limpieza y el tratamiento de datos, mejorando la precisión y utilidad del análisis al tomar decisiones basadas en la naturaleza de los datos y su contexto.