Trabajo Final Machine Learning
Introducción:
Este análisis forma parte de la evaluación final del módulo Machine
Learning. La idea es llevar adelante un análisis de los siniestros en la
Ciudad de Buenos Aires utilizando la técnica de Regresión Logística para
su clasificación. Este trabajo se encuentra disponible en mi blog personal
Objetivo:
Visualizar espacialmente los siniestros considerados de gravedad
ocurridos en la Ciudad Autónoma de Buenos Aires utilizando como fuente
los datos abiertos publicados por el municipio.
Analizar y modelar bajo la lógica de clasificación mediante regresión
logística la naturaleza de los accidentes de transito y su mortalidad
durante el período 2019-2023.
Metodología:
Para llevar adelante los objetivos planteados y, considerando que lo
que se busca es encontrar un modelo de clasificación se utilizará el
conjunto de técnicas específicas de regresión logística. Esta técnica se
utiliza para clasificar una variable respuesta que, en este caso será
dicotómica. Para ello, resultará de gran utilidad los resultados y el
análisis de las estadísticas del modelo problematizando el grado de
mortalidad en los siniestros acontecidos en CABA.
Fuentes de datos:
A los fines de los ideas planteadas, trabajaremos con los datos
de siniestros ocurridos durante el período 2019-2023. Según las
notas metodológicas, las categorías de la variable “gravedad” varian
en:
GRAVE: Toda persona que cuya lesión exige la hospitalización de al
menos 24 hs o una atención especializada, como fracturas, conmoción,
shock grave y laceraciones importantes. MORTAL: Víctima que fallece
dentro de los 30 días de producido el siniestro vial por causas directa
o indirectamente atribuibles al hecho. SD: Sin datos sobre la gravedad
de las lesiones provocadas. A efectos analíticos, los casos sin datos se
corresponden con una alta probabilidad a casos leves.
Procederemos a considerar sólamente los casos declarados como
“graves” o “mortales” a efectos de entrenar un modelo que permita
clasificarlos.
Instalamos librerias
rm(list = ls())
options(scipen = 999)
###################################################################################
# Instalamos librerías de trabajo
if (!require("pacman")) install.packages("pacman")
pacman::p_load("lubridate",
"tidyverse",
"leaflet",
"sf",
"tidymodels",
"spatialsample",
"themis",
"ggmap",
"showtext",
"ggtext")
###################################################################################
Limpieza y transformación
A los fines de abordar las distintas formas de analizar los datos
generaremos dos datasets, uno espacial para mapear los sucesos y otro
dataset sin generar geometrías espaciales para construir el modelo. Se
advierte que, debido a los filtros aplicados, el dataset espacial cuenta
con 1507 casos, mientras que el dataset sin considerar geometrías
espaciales contiene 1844 sinisetros.
Levantamos los datos y realizamos una limpieza y recodificación de
las variables de interés haciendo hincapié en la variable objetivo que
es “gravedad” la cual en una primera vista, tiene datos en mayúsculas y
minúsculas en un claro error de ingreso de datos. Tambien procedemos a
recodificar la variable hora (hh) según los momentos del día.
siniestros_geo <- read.csv("data/siniestros_viales_hechos.csv", sep = ";") %>%
filter(!latitud %in% c("SD", "","sd"),
!gravedad %in% c("SD","sd")) %>%
mutate(longitud = as.numeric(longitud),
latitud = as.numeric(latitud),
hh = as.numeric(hh),
"HoraRec" = case_when(hh >= 0 & hh < 6 ~ "Madrugada",
hh >= 6 & hh < 12 ~ "Mañana",
hh >= 12 & hh < 18 ~ "Tarde",
TRUE ~ "Noche" ),
gravedad = case_when(gravedad %in% c("GRAVE","grave") ~ "Grave",
gravedad == "MORTAL" ~ "Mortal"))%>%
filter(!is.na(latitud)) %>%
st_as_sf(coords =c("longitud", "latitud"), crs = 4326) %>%
select(!c(direccion_normalizada,fecha,calle, altura, cruce, otra_direccion, hora, comuna, tipo_de_calle, geocodificacion_caba,tipo_de_dato, participantes))
siniestros <- read.csv("data/siniestros_viales_hechos.csv", sep = ";") %>%
filter(!gravedad %in% c("SD","sd")) %>%
mutate(longitud = as.numeric(longitud),
latitud = as.numeric(latitud),
hh = as.numeric(hh),
"HoraRec" = case_when(hh >= 0 & hh < 6 ~ "Madrugada",
hh >= 6 & hh < 12 ~ "Mañana",
hh >= 12 & hh < 18 ~ "Tarde",
TRUE ~ "Noche" ),
gravedad = case_when(gravedad %in% c("GRAVE","grave") ~ "Grave",
gravedad == "MORTAL" ~ "Mortal"))%>%
select(!c(direccion_normalizada,fecha,calle, altura, cruce, otra_direccion, hora, comuna, tipo_de_calle, geocodificacion_caba,tipo_de_dato, participantes))
comunas <- st_read("data/comunas.geoson",
crs = 4326)
## Reading layer `comunas' from data source
## `C:\Users\Guille\Documents\Proyectos\FLACSO\Machine Learning\tp final\data\comunas.geoson'
## using driver `GeoJSON'
## Simple feature collection with 15 features and 6 fields
## Geometry type: MULTIPOLYGON
## Dimension: XY
## Bounding box: xmin: -58.53152 ymin: -34.70529 xmax: -58.33516 ymax: -34.52649
## Geodetic CRS: WGS 84
tabla_1 <- siniestros %>%
group_by(aaaa, gravedad) %>%
summarise(tot = n()) %>%
mutate(porcentaje = round(tot/sum(tot),4)) %>%
mutate(Total_Acum = cumsum(tot)) %>%
mutate(Porcentaje_Acum = cumsum(porcentaje))
ggplot(tabla_1, aes(x = aaaa, y = tot, fill = gravedad))+
geom_col(position = "dodge")+
geom_text(aes(label = percent(porcentaje)), vjust = -0.5, check_overlap = TRUE, position = position_dodge(width = .9), size = 3)+
scale_fill_manual(values = c("#f55951","#000000"))+
theme_minimal()+
labs(
title = "<span style = 'color:#272643;'> Evolución anual de siniestros: <span style = 'color:#f55951;'> Graves <span style = 'color:#543c52;'> - <span style = 'color:#000000;'> Mortales",
subtitle = "",
caption = "<b>Fuente</b>: ReNaBaP",
x = "Año",
y = "Barrios Populares"
)+
theme(
legend.position = "none",
plot.title = element_markdown(face = "bold", size = 15),
plot.caption = element_markdown(size = 12),
)

ggplot()+
geom_sf(data=comunas)+
geom_sf(data=siniestros_geo, aes(color=gravedad), alpha=0.75, show.legend = TRUE)+
scale_color_manual(values = c("#f55951","#000000"))+
theme_minimal()+
theme_void()+
labs(
title = "<span style = 'color:#272643;'> Siniestros viales - CABA 2019-2023",
caption = "<b>Fuente</b>: Datos Abiertos CABA",
y = "",
x = ""
)+
theme(
plot.title = element_markdown(size = 20, hjust = 0.5),
plot.caption= element_markdown(size = 12),
legend.position = "top",
legend.title = element_blank(),
legend.box.margin = margin(11, 16, 6, 6)
)+
facet_wrap(~aaaa, nrow = 1)+
guides(fill=guide_legend(nrow=1,byrow=TRUE))
Al
aplicar filtros vinculados a eliminar registros sin georeferenciación,
el año 2019 sólo contiene casos mortales. Los años siguientes contienen
una mayor cantidad de casos de gravedad manteniendo ciertos patrones
para los siniestros fatales.
A continuación, se muestra un mapa interactivo para visualizar la
totalidad de casos registrados en el dataset con geometrías
espaciales.
factpal <- colorFactor(palette = c("#f55951","#000000"),
levels = siniestros_geo$gravedad)
oceanIcons <- iconList(
ship = makeIcon(
"https://upload.wikimedia.org/wikipedia/commons/thumb/9/9a/Medical_hospital_emergency_beds.svg/240px-Medical_hospital_emergency_beds.svg.png",
"https://upload.wikimedia.org/wikipedia/commons/thumb/9/9a/Medical_hospital_emergency_beds.svg/240px-Medical_hospital_emergency_beds.svg.png",
18,
18
),
pirate = makeIcon(
"https://upload.wikimedia.org/wikipedia/commons/thumb/c/c3/Maki2-danger-24.svg/240px-Maki2-danger-24.svg.png",
"https://upload.wikimedia.org/wikipedia/commons/thumb/c/c3/Maki2-danger-24.svg/24px-Maki2-danger-24.svg.png",
24,
24
)
)
mapa_interactivo <- leaflet() %>%
addTiles() %>%
addMarkers(data = siniestros_geo, icon = ~oceanIcons, clusterOptions = markerClusterOptions(),popup = ~ glue::glue("<b>Estado</b>:{gravedad}<br/>
<b>Año:</b>{aaaa}<br/>
<b>Cantidad de Víctimas:</b>{n_victimas}<br/>
<b>Hora:</b>{hh}<br/>"))
mapa_interactivo
Modelado
En primer lugar procedemos a la confección de set de entrenamientos y
testeos considerando 0.8 como proporción y tomando el dataseet que no
contiene coordenadas geográficas.
#seteo la semilla
set.seed(123)
#divido los datos
sini_split <- initial_split(siniestros, prop = 0.80, strata = gravedad) #estratificamos segun las clases
sini_train <- training(sini_split)
sini_test <- testing(sini_split)
Folds con validación cruzada
set.seed(234)
sini_folds <- vfold_cv(sini_train, strata = gravedad)
sini_folds
sini_train
sini_test
sini_train %>%
count(gravedad)
sini_test %>%
count(gravedad)
Se verifica que las proporciones correspondientes a la distribución
de las categorías de la variable “gravedad” se conservan.
Receta
El siguiente paso es determinar la receta del modelo tomano
“gravedad” como la variable a calsificar.
logistic_recipe <-
recipe(formula = gravedad ~ ., data = sini_train) %>%
update_role(id_hecho, new_role = "id") %>%
step_unknown(all_nominal_predictors()) %>%
step_other(all_nominal_predictors(), threshold = 0.03) %>%
step_downsample(gravedad)
Modelización
Especificamos el modelo, en este caso, una regresión logística.
logistic_spec <- logistic_reg()
Workflow
Agregamos al Workflow la receta y la especificación del modelo.
log_workflow <- workflow() %>%
add_recipe(logistic_recipe) %>%
add_model(logistic_spec)
Entrenamiento del algoritmo
Con la función fit_resamples() procedemos a hacer el ajuste
correspondiente.
doParallel::registerDoParallel()
set.seed(7443)
logistic_rs <-
fit_resamples(log_workflow,
resamples = sini_folds,
control = control_resamples(save_pred = TRUE)
)
Predicción
En esta etapa con la función last_fit vamos a seleccionar el mejor
modelo para predecir en el set de datos de TEST.
final_fitted <- last_fit(log_workflow, sini_split)
final_fitted
Métricas
final_fitted %>%
collect_metrics()
Las métricas del modelo final arrojan cifras aceptables para la
precisión (78 %) y valores buenos para el área bajo la curva ROC.
Tambien muestra valores bajos para brier_class
Predicciones del modelo
final_fitted %>%
collect_predictions()
Matriz de confusión
Para finalizar y completar la consigna, vamos a crear una matriz de
confusión con las predicciones para contrastarla con los casos
reales.
final_fitted %>%
collect_predictions() %>%
conf_mat(gravedad, .pred_class)
## Truth
## Prediction Grave Mortal
## Grave 155 16
## Mortal 47 66
Como podemos ver la diagonal principal contiene la mayoría de los
casos, dejando en valores bajos los falsos positivos y los falsos
negativos.
Conclusión
A partir del empleo de técnicas de modelado, pudimos arribar una
problemática severa de la movilidad urbana como lo son los siniestros.
Con datos abiertos y técnicas de visualización y regresión logística
construimos un modelo que, a pesar de la escasa cantidad de datos,
obtuvo cifras de precisión considerables.
