Actividad 4: Datos Waze

CONTEXTO DEL CASO

El presente análisis se enfoca en el estudio de los eventos reportados por los usuarios a través de la aplicación Waze. Esta plataforma de navegación colaborativa proporciona datos valiosos sobre las condiciones del tráfico en tiempo real, incluyendo reportes de peligros, congestión, accidentes y cierres de vías. La información recopilada es esencial para la planificación urbana y la gestión eficiente del tráfico, permitiendo a las autoridades tomar decisiones informadas para mejorar la movilidad y la seguridad vial.

Objetivo

El objetivo de este análisis es estudiar la distribución espacial y temporal de los eventos reportados en Waze, centrándonos en un día específico (el día 26). Se evaluarán y visualizarán los eventos en un mapa interactivo, analizando patrones temporales y espaciales. El uso de herramientas de análisis espacial en R, como leaflet para la visualización geoespacial y spatstat para la densidad y distribución de puntos, permitirá crear mapas de calor que resalten las áreas con mayor incidencia de eventos. A lo largo del análisis se integrarán diversos gráficos y mapas que facilitarán la interpretación de los datos y contribuirán a mejorar la planificación y gestión del tráfico. Eventos a considerar:

  • Peligro
  • Cierre de vías
  • Accidente
  • Congestión

1. ANÁLISIS EXPLORATORIO Y LIMPIEZA

En esta sección se realizará la carga de la base de datos y su análisis respectivo de filtrado y limpieza.

## tibble [5,070 × 19] (S3: tbl_df/tbl/data.frame)
##  $ id                      : num [1:5070] 16 17 18 20 21 ...
##  $ waze_json_trama_id      : num [1:5070] 14 14 14 15 15 ...
##  $ country                 : chr [1:5070] "CO" "CO" ...
##  $ reportRating            : num [1:5070] 2 3 0 2 3 ...
##  $ reportByMunicipalityUser: logi [1:5070] FALSE FALSE FALSE ...
##  $ confidence              : num [1:5070] 1 4 4 1 4 ...
##  $ reliability             : num [1:5070] 8 10 10 8 10 ...
##  $ type                    : chr [1:5070] "HAZARD" "HAZARD" ...
##  $ uuid                    : chr [1:5070] "74a153fa-6ccd-4d6b-a94b-db01a88b002d" "b91961a4-e32c-4770-b2a0-551d7add5669" ...
##  $ roadType                : num [1:5070] 3 3 3 3 3 ...
##  $ magvar                  : num [1:5070] 96 153 27 96 153 ...
##  $ subtype                 : chr [1:5070] "HAZARD_ON_SHOULDER_CAR_STOPPED" "HAZARD_ON_SHOULDER_CAR_STOPPED" ...
##  $ street                  : chr [1:5070] NA "Variante Cajicá / RD45A Ramal A >(S)" ...
##  $ location_x              : num [1:5070] -7.4e+07 -7.4e+07 ...
##  $ location_y              : num [1:5070] 4938376 2733202 ...
##  $ pubMillis               : num [1:5070] 1.73e+12 1.73e+12 ...
##  $ creation_Date           : chr [1:5070] "2024-09-26 01:53:49.600" "2024-09-26 01:53:49.600" ...
##  $ fecha                   : Date[1:5070], format: "2024-09-26" "2024-09-26" ...
##  $ tipo_evento             : chr [1:5070] "PELIGRO" "PELIGRO" ...

La anterior revisión nos permite reconocer que la base de datos tiene un total de 5070 registros y 19 variables, se realizará la verificación de datos faltantes.

1.1 Datos faltantes

Tabla 1. Datos Faltantes por Variable
Variable Datos Faltantes
id 0
waze_json_trama_id 0
country 0
reportRating 0
reportByMunicipalityUser 0
confidence 0
reliability 0
type 0
uuid 0
roadType 0
magvar 0
subtype 858
street 260
location_x 0
location_y 0
pubMillis 0
creation_Date 0
fecha 0
tipo_evento 0

De acuerdo con la tabla 1 se puede apreciar que existen datos faltantes para las variables subtype y street, la primera variable “subtype” da más información sobre el tipo de evento y “street” especifica la dirección dónde este ocurre, teniendo en cuenta que la variables de observación es Type y su ubicación en lat/long. Considerando que las variables subtipo y calle son para un análisis más detallado se conservará la actual base de datos.

1.2 Preparación datos

Teniendo en cuenta el ejercicio original se realiza un filtrado de datos teneindo en cuenta las fechas del día 26-09-2024, con el fin de analizar los eventos registrados durante este día, de los cuales se obtuvo un total de 1804 observaciones.

## tibble [1,804 × 18] (S3: tbl_df/tbl/data.frame)
##  $ id                      : num [1:1804] 16 17 18 20 21 ...
##  $ waze_json_trama_id      : num [1:1804] 14 14 14 15 15 ...
##  $ country                 : chr [1:1804] "CO" "CO" ...
##  $ reportRating            : num [1:1804] 2 3 0 2 3 ...
##  $ reportByMunicipalityUser: logi [1:1804] FALSE FALSE FALSE ...
##  $ confidence              : num [1:1804] 1 4 4 1 4 ...
##  $ reliability             : num [1:1804] 8 10 10 8 10 ...
##  $ type                    : chr [1:1804] "HAZARD" "HAZARD" ...
##  $ roadType                : num [1:1804] 3 3 3 3 3 ...
##  $ magvar                  : num [1:1804] 96 153 27 96 153 ...
##  $ subtype                 : chr [1:1804] "HAZARD_ON_SHOULDER_CAR_STOPPED" "HAZARD_ON_SHOULDER_CAR_STOPPED" ...
##  $ street                  : chr [1:1804] NA "Variante Cajicá / RD45A Ramal A >(S)" ...
##  $ location_x              : num [1:1804] -7.4e+07 -7.4e+07 ...
##  $ location_y              : num [1:1804] 4938376 2733202 ...
##  $ pubMillis               : num [1:1804] 1.73e+12 1.73e+12 ...
##  $ creation_Date           : POSIXct[1:1804], format: "2024-09-26 01:53:49" "2024-09-26 01:53:49" ...
##  $ fecha                   : Date[1:1804], format: "2024-09-26" "2024-09-26" ...
##  $ tipo_evento             : chr [1:1804] "PELIGRO" "PELIGRO" ...

Adicionalmente se realiza el ajuste de formato de las coordenadas geográficas lat/long que permita su correcta visualización en los mapas interactivos a emplear.

1.3 Exploración descriptiva

El anterior gráfico permite conocer la distribución de los eventos estudiados, donde se observa que la congestión es el evento más reportado durante el día con 960, seguido de los reportes de vía cerrada (657), peliggro (148) y finalmente accidentes con 39 reportes.

2. ANÁLISIS GEOESTADÍSTICO

Posterior realizamos el análisis de geoestadistica para conocer la distribución geográfica de los eventos, se realizará el análisis de acuerdo con la frecuencia de los mismo de Congestión hasta accidentes.

2.1 Evento Congestión

Test de Cuadrantes: se puede observar un agrupamiento en zonas críticas del municipio de Cajica-Cundinamarca, donde se identifican zonas con alta densidad de eventos (especialmente en cuadrantes centrales y nororientales) entre las que se destcan la zona de la Universidad Militar Nueva Granada (201) que podría estar asociado al tráfico de estudiantes de la universidad y los servicios de transporte que se pueden prestar en el sector, tambiém se evidencia que la conexión de la vía Chía con la variante Cájica tiene 223 eventos, que podrían asociarse a un cuello de botella para ingresar al municipio de Cajica, en contraste encontramos otros cuadrantes sin eventos, los cuales podrían estar asociados a zonas menos pobladas.

Función K de Ripley: esta función nos permite la confirmación estadística del agrupamiento, las curvas observadas (K_iso, K_trans, K_bord) se sitúan consistentemente por encima de la línea teórica (K_pois), evidenciando que los eventos están más cercanos entre sí de lo esperado que en un patrón aleatorio, esto implica la existencia de clústeres signifcativos de congestión principalmente en la zonas identificadas en el test de cuadrantes.

Existencia de clústeres significativos de congestión, especialmente en las zonas ya identificadas por el test de cuadrantes.

2.2 Evento cierre de vias

Los resultados anteriores nos revelan un patrón de concentración excepcional en los cierres viales, caracterizado por una focalización extrema considerando que solo dos de los 16 cuadrantes concentran el 100% de los reportes, por lo tanto, el resto de los cuadrantes no contienen reportes, lo que sugiere una distribución espacial desigual, la cantidad de reportes (636) puede sugerir un punto de congestión recurrente debido a obras prolongadas en ese sector. (corredor vial de alta incidencia)

La función K de Ripley muestra una confirmación estadística del agrupamiento, las curvas empíricas (K_iso, K_trans, K_bord) son significativamente superiores a K_pois (p < 0.01), se pueden apreciar curvas con angulos bastantes cerrados, lo que sugiere una baja densidad global y una alta concentración local, por lo tanto, los cierres viales presentan una distribución espacial fuertemente clusterizada y focalizada.

2.3 Evento peligro

Los resultados obtenidos permiten determinar que existe una distribución moderadamente agrupada, con mayor densidad en los cuadrantes surorientales, donde se registran 28, 25 y 34 eventos, los cuadrantes periféricos, especialmente en los extremos, presentan valores nulos o mínimos, lo que evidencia una distribución no uniforme, indicando una baja densidad de eventos en la perisferia. Los puntos calientes sugieren condiciones viales que pueden ser de alto riesgo, entre las que se puede observar la autopista norte, vía sopo, la cual presenta una alta accidentalidad, por lo tanto, estas condiciones suelen ser recurrentes

Estadadisticamente la función K de Ripley indica un agrupamiento significativo, considerando que Las curvas empíricas (K_iso, K_trans, K_bord) se ubican consistentemente por encima de la curva teórica (K_pois), validando un patrón espacial no aleatorio.

2.4 Evento accidentes

Por último, para accidentes, el test de cuadrantes muestra una distribución en solo dos cuadrantes, uno extremo con 34 eventos y otro central con 2 eventos registrados, esto indica que el patrón de accidentes esta asociado a zonas muy especificas y no existe una dispersión amplia d elos mismos, por ejemplo, se puede observar que los dos eventos relacionados se encuentran cerca a la zona de la universidad Militar nueva Granda, donde se pueden presentar actividades de recogida o dejada de pasajeros, lo que puede aumentar la tasa de accidentalidad al realizar estas actividades en una vía rápida, mientras que la otra zona se concentra dentro de un área urbana.

La función K de Ripley complementa esta observación mostrando que las curvas empíricas (K_iso, K_trans) se sitúan sistemáticamente por encima de la curva teórica K_pois, lo que confirma que la disposición de los eventos no responde a un patrón aleatorio, sin embargo la curva de K_bord se encuentra ligeramente similar y pode debajo de la K_pois, lo que sugiere que los eventos están más separados de lo esperado.

CONCLUSIONES

Congestión: Los resultados de ambos métodos (cuadrantes + K de Ripley) confirman que la congestión no se distribuye aleatoriamente, sino que se concentra en puntos críticos vinculados, es decir, que estos siguen un patrón vinculado a la infraestructura vial o el comportamiento de movilidad urabano, algunos factores como las vías principale sy la intersección a vías más pequeñas repercuten en la variable congestión así como las horas pico y alta densidad de vehiculos.

Vías cerradas: Los resultados de los métodos empleados (cuadrantes + K de Ripley) confirman que la congestión se concentra en puntos o nodos críticos, los cuales son intersecciones de las avenidas principales en este caso la vía Chia-Cajica, otro factor identificado se puede resaltar y es proyectos de infraestructura en ejecución que causan obras prolongadas y cierres de vias.

Peligro: Los resultados de ambos métodos (cuadrantes + K de Ripley) indican que los resportes se concentran en tres cudrantes no contiguos, lo que puede sugerir su enfoque a zonas con alta densidad vehicular con intersecciones riesgosas (vías rapidas o conexiones) que sugieran frenadas instantaneas. es importante intervenir estas zonas para la gestión del tráfico en tiempo real y mitigar el impacto de los riesgos.

accidentes: los resultados de ambos métodos (cuadrantes + K de Ripley) sugieren que estos eventos se encuentran concentrados de una manera no aleatoria, sin embargo se puede observar que K_bord es menor que K_pois lo que puede sugerir que estos eventos aunque no sean aleatorios se encuentran distantes entre sí, generando una inhibición espacial, es decir, que tienden a evitar proximidad entre los eventos analizados.