Trabajando con datos y mapas

Herramientas y técnicas de código abierto para visualizar datos en mapas personalizados

En la ciencia de datos, existe un área que trabaja con datos geoespaciales y especialmente en la generación de visualizaciones de mapas. Estos gráficos nos permiten comprender las métricas en distintas regiones geográficas.

“Recolectando y analizando datos hace lo invisible visible”

Melinda Gates

Creación de mapas con R

En R, es posible generar mapas utilizando los paquetes: ggplot2, leaflet,. Antes de adentrarnos en este paquete, es interesante conocer el funcionamiento del sistema de gráficos en R. Este sistema está conformado por:

  1. Paquetes gráficos.
  2. Sistemas gráficos.
  3. Motor de dispositivos gráficos.
  4. Paquetes de dispositivos gráficos.

Figura 1: Sistema de gráficos en R

El paquete ggplot2 permite elaborar gráficos a partir de un proceso de acumulación de capas. Tiene cierto grado de complejidad, pero permite obtener resultados muy profesionales.

Ventajas de crear mapas con R frente a hacerlo con software GIS

Las soluciones más comunes para generar mapas involucran software GIS como QGIS o ArcMap. Y entonces, ¿qué ventajas nos ofrece R frente al software GIS para generar nuestros mapas? Algunas de ellas son:

  • R es un software libre, lo que lo hace accesible para todos.
  • Los elementos de un mapa se pueden agregar o eliminar con facilidad.
  • Podemos reutilizar código rápidamente para generar el mismo tipo de mapa pero con otros datos.
  • Podemos automatizar rápidamente la creación de multitud de mapas.
  • Tiene un lenguaje interactivo, estructuras de datos, disponibilidad de gráficos, una comunidad desarrollada y la ventaja de agregar más funcionalidades a través de un ecosistema enorme de paquetes.

Código extraído de la investigación de Sara Acevedo

Es útil representar nuestros datos ambientales (en este proyecto: número de aves) de una forma simple y rápida. A continuación, se presenta el paso a paso de un proyecto de estudio que consta en la creación de un mapa de Santiago de Chile, en el cual se visualizan los puntos de mayor concentración de aves. Cabe resaltar que esta visualización se complementa con una capa de puntos sobre el mapa y su respectiva leyenda.

Librerias utilizadas

Se recomienda descargar las librerías en RStudio.

library(tidyverse) # Limpieza de datos
library(ggmap) # Mapas
library(sf)  # Dataframe a espacial
library(ggspatial) # Mapas
library(osmdata) # Mapa
library(vembedr)

knitr::opts_chunk$set(echo = TRUE)

Etapas

1. Cargar el bounding box de la ciudad a mapear.

Un bounding box (bbox) es un área definida por dos longitudes y dos latitudes, en el cuál el estandar es:

  • bbox = left, bottom, right, top
  • bbox = Longitud mínima, Latitud mínima, Longitud máxima, Latitud máxima.
stgo_bbox <- getbb("Santiago")

2. Crear el mapa desde Open Stret Map usando ggmap.

map <- get_stamenmap(
  bbox = c(
    left = stgo_bbox[1, 1],
    bottom = stgo_bbox[2, 1],
    right = stgo_bbox[1, 2],
    top = stgo_bbox[2, 2]
  ),
  zoom = 12,
  maptype = "terrain"
)

3. Crear un dataset de ejemplo ficticio, usando tribble.

En este proceso se ubicarán las variables latitud y longitud (para la geolocalización de puntos), así como el número de aves.

lugares_stgo <- tribble(
  ~ "lng", ~ "lat", ~ "numero_aves",
  -70.51861,
  -33.38371,
  21,
  -70.71982,
  -33.51318,
  33,
  -70.65768,
  -33.42345,
  12,
  -70.55768,
  -33.56177,
  15,
  -70.67279,
  -33.50156,
  52
)

Estos datos ahora son transformados a un objeto sf. Revisar siempre el CRS en esta etapa del proyecto.

4. El siguiente código representa el “coordinate reference system” de las coordenadas del dataframe original.

lugares_stgo_sf <-
  st_as_sf(lugares_stgo, coords = c("lng", "lat"), crs = 4326)

5. Por medio de ggmap() + geom_sf() graficar los puntos, incluyendo en aes(color) el número de aves para generar una leyenda.

mapa_urbano <- ggmap(map) +
  geom_sf(
    data = lugares_stgo_sf,
    aes(color = numero_aves),
    size = 3,
    inherit.aes = FALSE
  ) +
  labs(x = "", y = "", color = "número\nde aves") +
  annotation_scale(location = "br",
                   bar_cols = c("grey20", "white")) +
  ggtitle("Santiago de Chile") +
  annotation_north_arrow(
    location = "tl",
    which_north = "true",
    style = north_arrow_nautical(fill = c("grey40", "white"),
                                 line_col = "grey20")
  )
## Coordinate system already present. Adding new coordinate system, which will replace the existing one.
mapa_urbano

Siguientes pasos

A partir de este proyecto, se recomienda realizar proyectos similares de geolocalización en mapas, utilizando el lenguaje de programación Python.

Diferencias entre R y Python

Lenguaje R Lenguaje Python
De propósito general Lenguaje open source
Fácil de escribir y mantener tiene curva de aprendizaje
Flexibilidad y fácil lectura Usado para visualizaciones de datos
Dirigido principalmente a Machine Learning Dirigido principalmente hacia Ciencia de Datos

En Python, existen dos bibliotecas geoespaciales muy populares:

  1. Geopandas: extiende Pandas para permitir operaciones espaciales en tipos geométricos.

  2. Geoplot: una biblioteca de gráficos geoespaciales de alto nivel.

La segunda biblioteca es especialmente útil, ya que se basa en otras bibliotecas geoespaciales y permite simplificar la codificación. Entre otras bibliotecas, también se incluyen: cartopy, que a su vez aprovecha Cython, NumPy, GEOS, Shapely, pyshp, PROJ, Six y quizás algunos otros como mapclassify, según las funciones que se necesite usar.

Temas a revisar para próximos proyectos

En la siguiente lista se encuentran los términos más utilizados en el trabajo con datos geoespaciales:

  1. shapefile: formato de archivo de datos utilizado para representar elementos en un mapa.
  2. geometría: un vector que se utiliza para representar puntos, polígonos y otras formas o ubicaciones geométricas.
  3. polígono: un área.
  4. mapa base: la configuración de fondo de un mapa.
  5. proyección: representa una superficie 3D en 2D, utilizando un sistema de referencia de coordenadas.
  6. mapa de colores: elección de una paleta de colores para renderizar datos.
  7. cartograma: deformar el área relativa de los polígonos para representar niveles de datos.

No olvides practicar 😊

