Introducción

Este informe presenta un análisis exploratorio de la base de datos correspondiente a los comparendos registrados en la ciudad de Barranquilla durante los meses de abril y mayo de 2010. El estudio tiene como propósito examinar el comportamiento de las infracciones de tránsito, identificar los tipos de vehículos con mayor participación en los registros y describir algunas características generales de los infractores.

Para llevar a cabo el procesamiento, depuración, análisis y representación gráfica de la información, se utilizó el lenguaje de programación R junto con diversas librerías especializadas en el manejo y visualización de datos. Los resultados obtenidos permiten comprender de manera general la distribución y comportamiento de los comparendos registrados en el período evaluado.

Diccionario de Variables

En la siguiente tabla se describen las variables que componen la base de datos y su correspondiente tipo de dato. Esta información permite comprender la estructura del conjunto de datos y facilita la identificación de las variables numéricas y categóricas empleadas en el análisis posterior.

Clases y descripcion de cada variable en el dataset
Variable Clase Descripcion
No. MANDAMIENTO DE PAGO character Numero del mandamiento de pago
FECHA MANDAMIENTO DE PAGO character Fecha del mandamiento de pago
EJECUTADO character Estado del comparendo
TIPO DE IDENTIFICACION character Tipo de identificacion del infractor
No. IDENTIFICACION numeric Numero de identificacion del infractor
SEXO character Sexo del infractor
COD. INFRACCION numeric Codigo de la infraccion
COMPARENDO character Numero del comparendo
FECHA DE COMPARENDO numeric Fecha en que se hizo el comparendo
FECHA POSIXct, POSIXt Fecha en formato caracter
AÑO numeric Ano de la infraccion
DIA numeric Dia de la infraccion
MES numeric Mes de la infraccion
NOMBRE DEL MES character Nombre del mes de la infraccion
PACA DE VEHICULO character Placa del vehiculo
TIPO DE VEHICULO character Tipo de vehiculo
VALOR_A_PAGAR numeric Valor monetario a pagar

Control de Calidad de los Datos

Previo al desarrollo del análisis exploratorio, se evaluó la integridad y calidad de la información registrada en la base de datos para identificar posibles inconsistencias, valores faltantes o errores en los registros.

Valores faltantes: Ninguna variable critica tiene NA significativos.

Variables categoricas incosistentes: Se identifico que la columna SEXO incluye categorias incorrectas como “EMPRESA” y “CEDULA NUEVA”.

Formatos de variables: Se convirtieron fechas a formato Date y el valor_a_pagar a formato numerico.

Librerías Utilizadas

Para realizar este informe se hizo uso de las siguientes librerias:

knitr: Es una libreria que convierte los resultados de R en formatos bonitos dentro de los documentos Markdown, HTML, word o PDF.

readr: Forma parde del tidyverse y ayuda a importar datos desde archivos de texto (CSV, TSV, etc)

dplyr: Una de las librerias más importantes del tidyverse, sirve para manipular y transformar datos de manera eficiente.

ggplot2: Libreria para visualización de datos basada en la gramatica de los gráficos.

tidyverse: Conjunto de paquetes diseñados para trabajar juntos de manera coherente en el flujo de analisis de datos (lectura, manipulación, visualización).

Consultas a la base de datos

Comparendos por mes

Identificar y analizar la cantidad de comparendos registrados en cada mes del año, con el fin de determinar los períodos con mayor y menor incidencia de infracciones y observar posibles patrones de comportamiento a lo largo del tiempo.

Conteo por tipo de infracción

En esta consulta se muestran la cantidad de comparendos registrados según el tipo de infracción cometida, puede consultar las tarifas actualizadas en la ciudad de Barranquilla aqui. En el gráfico se logra observar una clara desigualdad en la distribución de infracciones, siendo el codigo 64 la que presenta mayoria de casos y el cual corresponde a infracciones por exceso de velocidad.

Cantidad de comparendos por tipo de vehiculo

Identificar y analizar la cantidad de comparendos asociados a cada tipo de vehículo registrado en la base de datos, con el fin de determinar cuáles presentan una mayor participación en las infracciones y evaluar su distribución dentro del total de comparendos.

Concluciones

Limitaciones del análisis

La base de datos cubre solamente dos meses del año 2010, lo que genera un limitante para un analisis completo