#importacion de datos 


BD_Comparendos_keren <- read_excel("C:/Users/keren/Downloads/BD_Comparendos_keren.xlsx")

Introducción

En el presente informe se realiza un análisis exploratorio de la base de datos de comparendos registrados en la ciudad de Barranquilla durante los meses de abril y mayo del año 2010. La información contiene datos relacionados con los infractores, las infracciones cometidas, el tipo de vehículo involucrado y el valor económico asociado a cada comparendo.

El propósito de este análisis es describir las principales características de los registros mediante herramientas de visualización y estadística descriptiva implementadas en el lenguaje R. Para ello, se realizarán consultas que permitan identificar los tipos de infracción más frecuentes, la distribución de comparendos por mes, sexo y tipo de vehículo, así como algunas características generales de la base de datos.

Los resultados obtenidos permitirán comprender mejor el comportamiento de las infracciones registradas durante el periodo analizado y evidenciar posibles patrones presentes en la información.

1.1 Contenido de la Base de Datos

A continuación se muestran las variables contenidas en la base de datos utilizada para el análisis.

names(BD_Comparendos_keren)
##  [1] "No. MANDAMIENTO DE PAGO"   "FECHA MANDAMIENTO DE PAGO"
##  [3] "EJECUTADO"                 "TIPO DE IDENTIFICACION"   
##  [5] "No. IDENTIFICACION"        "SEXO"                     
##  [7] "COD. INFRACCION"           "COMPARENDO"               
##  [9] "FECHA DE COMPARENDO"       "FECHA"                    
## [11] "AÑO"                       "DIA"                      
## [13] "MES"                       "NOMBRE DEL MES"           
## [15] "PACA DE VEHICULO"          "TIPO DE VEHICULO"         
## [17] "VALOR_A_PAGAR"

1.2 Control de calidad de los datos

Antes de realizar el análisis, se verifico la integridad de los datos teniendo en cuenta las siguientes caracteristicas:

Valores faltantes: Ninguna variable critica tiene NA significativos.

Variables categoricas incosistentes: Se identifico que la columna SEXO incluye categorias incorrectas como “EMPRESA” y “CEDULA NUEVA”.

Formatos de variables: Se convirtieron fechas a formato Date y el valor_a_pagar a formato numerico.

1.3 Librerías utilizadas

Para el desarrollo de este informe se utilizaron las siguientes librerías del lenguaje R:

  • readxl: permite importar archivos de Excel (.xlsx) al entorno de trabajo de R.

  • dplyr: facilita la manipulación, transformación y consulta de los datos mediante funciones intuitivas y eficientes.

  • ggplot2: utilizada para la creación de gráficos estadísticos y visualizaciones de alta calidad.

  • knitr: permite integrar código R y resultados dentro de documentos dinámicos como HTML, PDF o Word.

  • scales: proporciona herramientas para mejorar el formato de ejes, porcentajes y etiquetas en las visualizaciones.

Estas librerías permiten realizar procesos de importación, limpieza, análisis y visualización de datos de manera eficiente, contribuyendo a la elaboración del análisis exploratorio presentado en este informe.

2 Consultas a la base de datos

2.1 Total de registros

Se realiza la consulta del total de registros en la base de datos importada con el fin de verificar la integridad de los datos, es decir, que todos se hayan importado correctamente. Del mismo modo ayuda a contextualizar los resultados obtenidos y comprender la magnitud del analisis realizado. En este caso, el analisis se realizó 2.120 comparendos registrados entre abril y mayo del año 2010.

nrow(BD_Comparendos_keren)
## [1] 2120

2.2 Comparendos por SEXO

En la distribución de comparendos por sexo se observa que las mujeres registran la mayor cantidad de infracciones con 945 casos (44,6%), seguidas por los hombres con 615 casos (29,0%). También aparecen las categorías EMPRESA y CÉDULA NUEVA, que representan el 22,3% y 4,2% respectivamente, evidenciando posibles inconsistencias en la clasificación de la variable SEXO.

sexo <- BD_Comparendos_keren %>%
  count(SEXO)

sexo
## # A tibble: 4 × 2
##   SEXO             n
##   <chr>        <int>
## 1 CÉDULA NUEVA    88
## 2 EMPRESA        472
## 3 HOMBRE         615
## 4 MUJER          945
sexo <- sexo %>%
  mutate(
    porcentaje = round(n / sum(n) * 100, 1),
    etiqueta = paste0(porcentaje, "%")
  )

ggplot(sexo,
       aes(x = reorder(SEXO, -n),
           y = n,
           fill = n)) +

  geom_col() +

  geom_text(
    aes(label = etiqueta),
    vjust = -0.4,
    size = 5
  ) +

  scale_fill_gradient(
    low = "#D8B4FE",
    high = "#4C1D95"
  ) +

  labs(
    title = "Casos de comparendos por sexo",
    x = "Sexo",
    y = "Cantidad de comparendos"
  ) +

  theme_minimal() +

  theme(
    legend.position = "none",
    plot.title = element_text(
      hjust = 0.5,
      face = "bold",
      size = 16
    ),
    axis.title.x = element_text(face = "bold"),
    axis.title.y = element_text(face = "bold")
  )

2.3 Comparendos por Mes

El análisis de los comparendos por mes muestra que mayo registra la mayor cantidad de infracciones con 1.408 casos (66,4%), mientras que abril registra 712 casos (33,6%). Esto indica que durante mayo se presentó una actividad sancionatoria considerablemente superior a la observada en abril.

mes <- BD_Comparendos_keren %>%
  count(`NOMBRE DEL MES`) %>%
  arrange(desc(n)) %>%
  mutate(
    porcentaje = round(n / sum(n) * 100, 1),
    etiqueta = paste0(porcentaje, "%")
  )

mes
## # A tibble: 2 × 4
##   `NOMBRE DEL MES`     n porcentaje etiqueta
##   <chr>            <int>      <dbl> <chr>   
## 1 Mayo              1408       66.4 66.4%   
## 2 Abril              712       33.6 33.6%
ggplot(mes,
       aes(x = reorder(`NOMBRE DEL MES`, -n),
           y = n,
           fill = n)) +

  geom_col() +

  geom_text(
    aes(label = etiqueta),
    vjust = -0.4,
    size = 5
  ) +

  scale_fill_gradient(
    low = "#D8B4FE",
    high = "#4C1D95"
  ) +

  labs(
    title = "Casos de comparendos por mes",
    x = "Mes",
    y = "Cantidad de comparendos"
  ) +

  theme_minimal() +

  theme(
    legend.position = "none",
    plot.title = element_text(
      hjust = 0.5,
      face = "bold",
      size = 16
    ),
    axis.title.x = element_text(face = "bold"),
    axis.title.y = element_text(face = "bold")
  )

2.4 Tipo de Infracción cometidas por Hombres

El gráfico muestra que el código de infracción 64 es el más frecuente entre los hombres, con 487 comparendos registrados. Le siguen los códigos 77, 67 y 76 con una cantidad significativamente menor de casos. Esto indica que la mayor parte de las infracciones cometidas por hombres se concentra en un único tipo de infracción, representado por el código 64.

hombres <- BD_Comparendos_keren %>%
  filter(SEXO == "HOMBRE")

infracciones_hombres <- hombres %>%
  count(`COD. INFRACCION`) %>%
  arrange(desc(n))

ggplot(infracciones_hombres,
       aes(x = reorder(as.factor(`COD. INFRACCION`), -n),
           y = n,
           fill = n)) +

  geom_col(width = 0.7) +

  geom_text(
    aes(label = n),
    vjust = -0.4,
    size = 4,
    fontface = "bold"
  ) +

  scale_fill_gradient(
    low = "#93C5FD",
    high = "#1E3A8A"
  ) +

  labs(
    title = "Cantidad de comparendos por código de infracción en hombres",
    x = "Código de infracción",
    y = "Cantidad de comparendos"
  ) +

  theme_minimal() +

  theme(
    legend.position = "none",
    plot.title = element_text(
      hjust = 0.5,
      face = "bold",
      size = 16
    ),
    axis.title.x = element_text(face = "bold"),
    axis.title.y = element_text(face = "bold")
  )

2.5Cantidad de comparendos por tipo de vehiculo

En este grafico pastel se muestra la distribución de comparendos por tipo de vehiculo, se puede observar que hay una alta concentración de infracciones en los automoviles, lo que puede implicar un mayor numero de carros circulando en la ciudad.

BD_Comparendos_keren %>%
  count(`TIPO DE VEHICULO`) %>%
  mutate(
    porcentaje = round(100 * n / sum(n), 1),
    etiqueta = paste0(`TIPO DE VEHICULO`, " (", porcentaje, "%)")
  ) %>%
  ggplot(aes(x = "", y = porcentaje, fill = `TIPO DE VEHICULO`)) +
  geom_col(width = 1, color = "white") +
  coord_polar(theta = "y") +

  scale_fill_manual(values = c(
  
    "#FB8C00",
    "#FFB74D",
    "#FFE0B2"
  )) +

  geom_text(
    aes(label = paste0(porcentaje, "%")),
    position = position_stack(vjust = 0.5),
    color = "white",
    size = 4
  ) +

  labs(
    title = "Distribución de comparendos por tipo de vehículo",
    fill = "Tipo de vehículo"
  ) +

  theme_void() +

  theme(
    plot.title = element_text(
      face = "bold",
      color = "black",
      size = 15,
      hjust = 0.5
    ),
    legend.title = element_text(
      color = "black",
      face = "bold"
    ),
    legend.text = element_text(
      color = "black"
    )
  )

Conclusiones

A partir del análisis realizado sobre los registros de comparendos en la ciudad de Barranquilla durante el año 2010, se identificaron patrones relevantes en cuanto a la distribución de las infracciones de tránsito.

En primer lugar, el análisis por sexo mostró que las mujeres registran la mayor cantidad de comparendos dentro de la base de datos, seguidas por los hombres. Sin embargo, se observó la presencia de categorías como “EMPRESA” y “CÉDULA NUEVA” dentro de la variable SEXO, lo que evidencia inconsistencias en la clasificación de los datos.

Respecto a la distribución temporal, se encontró que el mes de mayo concentra una mayor cantidad de comparendos en comparación con abril, lo que indica un incremento significativo en los registros de infracciones durante dicho período.

En cuanto a los conductores hombres, el código de infracción 64 presentó la mayor frecuencia de comparendos, concentrando la gran mayoría de los casos registrados. Esto evidencia que un tipo específico de infracción predomina sobre los demás dentro de esta población.

Finalmente, el análisis por tipo de vehículo mostró que los automóviles representan la mayor proporción de comparendos registrados. Este comportamiento puede estar asociado a una mayor presencia y circulación de este tipo de vehículos en la ciudad, aumentando así la probabilidad de cometer infracciones de tránsito.

En general, los resultados permiten identificar tendencias importantes en los registros de comparendos y constituyen una base para futuros análisis relacionados con la movilidad, el comportamiento de los conductores y las estrategias de control del tránsito en la ciudad de Barranquilla.