1. Visión general de datos espaciales en R

¡En breves palabras!

¿Qué es un dato espacial?

Un dato espacial o georreferenciado dispone de una característica o atributo que lo hace único y mediante el cual se puede ubicar en algún lugar de la Tierra.

Al tener los datos espaciales ciertas particularidades únicas, la estadística destina una rama completa para su estudio, la cual además de solventar el análisis, debe abordar la forma en la que se puede representar y transformar la información goegráfica.

Originalmente, R no disponia de librerías para procesar datos espaciales, no obstante, en las dos últimas décadas progresivamente expertos y entusiastas en la estadística espacial han trabajado para que R pueda procesar, visualizar y modelar este tipo de datos, puesto que necesitan de una gran capacidad computacional.

¿Dónde se encuentran los datos espaciales?

En las dos últimas décadas, cada minuto se generan miles de millones de datos, los cuales paulatinamente han incorporado atributos geográficos. Por ejemplo, cuando hacemos una compra, posteamos un tweet, hacemos una denuncia delictiva o si se dispone de sensores que miden el clima; todas estas acciones en su mayoría generan información que está sujeta a una dirección o a un par de coordenadas geográficas (latitud y longitud), a esto se le llama ubicación geográfica.

¿Cuál es su uso?

Por medio de la información georreferenciada se puede conocer el lugar específico o parcial en el que sucedio un evento de interés, y así ofrecer campañas publicitarias, desarrollar operativos policiales, conocer el clima de una área determinada para cosechar o sembrar, entre otras cosas más. Por esto, la información geográfica es una herramienta potente para la toma de decisiones tanto en el sector público como privado.

¿En qué áreas se puede aplicar?

En Ecuador, los servicios financieros, la agricultura, la pesca, la ecología, la salud, la climatología y la criminología, entre otros muchos sectores más han y están aprovechado la información georreferenciada.

¿Por qué utilizar R para el manejo de datos espaciales?

Historicamente el proceso de datos espaciales estaba cubierto por software de paga y hardware sofisticados, que no eran fácilmente accesibles. Sin embargo, en la actualidad es posible descargar paquetes espaciales de alto rendimiento y ejecutarlos sobre una computadora que tenga al menos 4 Gb de RAM.

El primer software que permitió a gran esacala que el análisis de datos espaciales sea accecible fue QGIS, que es un Sistema de Información Georreferenciada (SIG) de forma nativa y funciona bajo una Interfaz de Gráficas de Usuario (GUI), lo cual desalienta la reproductividad en los trabajos de ciencia de datos o estadísticos, aunque esto puede ser solventado por medio de integración de código por medio de R.

R a diferencia de los SIG nativos que prefieren un GUI, trabaja sobre un Interfaz de Línea de Comandos (CLI), lo que se permite procesos automáticos, reproducibles y personalizables.

Además de R, otros software como C++, Python o Java pueden manejar, procesar, visualizar y modelar datos espaciales, no obstante, R y Python permiten con mayor facilidad integrarse con ArcGis, QGIS e incluso con herramientas de Google.

Según Lovelace, Nowosad y Muenchow (2021), R en particular es superior a otros software dado que tiene algunas librerías únicas en su clase para modelar, además de la versatilidad para desarrollar estudios estadísticos. Sin embargo, si se desea mejorar la rapidez de compilación es aconcejable utilizar C++ o en su defecto se podría utilizar librerías que permiten acceder a C++ desde R (Rccp), y en el caso de aprendizaje profundo con datos espaciales puede que Python sea superior.

Finalmente, el utilizar R, tal como otros lenguajes de programación en general conlleva una gran variedad de ventajas pero también de desventajas. La principal desventaja, es que la curva de aprendizaje es pronunciada pero esto es opacado y considerado como irrelevante dado que permite desarrollar análisis y visualizaciones personalizables, transparentes y reproducibles.

¿Qué es la Geocomputación?

El término geocomputación es relativamente joven y se remonta a la primera conferencia sobre el tema en 1996, donde se mencionó que “la geocomputación se trata de utilizar los diferentes tipos de datos geográficos y de desarrollar herramientas geográficas relevantes dentro del contexto general de un enfoque científico” (Openshaw y Abrahart, 2000).

La geocomputación está estrechamente relacionada con otros términos que incluyen: la Ciencia de la Información Geográfica (GIScience), la Geoinformática, la Ciencia de la Información Espacial, la Ingeniería de Geoinformación (Longley, 2015) y la Ciencia de Datos Geográficos (GDS). Cada término mencionado comparte el énfasis en un enfoque “científico” que implica que sean reproducibles y comprobables, sosteniendo como base las definiciones de SIG, aunque sus orígenes y principales campos de aplicación difieren.

Por ejemplo, la GDS enfatiza las habilidades de ‘ciencia de datos’ y ‘grandes conjuntos de datos’, mientras que la geoinformática tiende a enfocarse en estructuras de datos. Pero las superposiciones entre los términos son más grandes que las diferencias entre ellos y usamos la geocomputación como un sinónimo aproximado que los encapsula a todos, puesto que todos buscan usar datos geográficos para trabajos científicos aplicados. Sin embargo, a diferencia de los primeros usuarios del término, no pretendemos dar a entender que existe un campo académico cohesionado llamado “Geocomputación”. En cambio, definimos el término de la siguiente manera: “es el trabajar con datos geográficos de forma computacional, enfocándonos en el código”.

Finalmente, la geocomputación es un término reciente pero está influenciado por viejas ideas. Puede verse como parte de la geografía, que tiene una historia de más de 2000 años (Talbert, 2014 ) y una extensión de los Sistemas de Información Geográfica (SIG) que surgió en la década de 1960 (Coppock y Rhind, 1991; Neteler y Mitasova, 2008).

Bibliografía para profundizar

Libro citado:

https://eujournal.org/files/journals/1/books/JeanFrancoisMas.pdf.

Introducción hacia los datos espaciales:

Paquetes para tratamiento de datos espaciales:

Aplicaciones de datos espaciales:

https://rpubs.com/daniballari/Celec_metodos_geoestadisticos_r.
http://132.72.155.230:3838/r/.
https://www.redalyc.org/pdf/3832/383239099001.pdf. Correlación espacial.

Lecturas extras:

2. Una breve historia de la estadística espacial

¡La estadística espacial está cerca!

¿Quién es Jonh Snow?

Es considerado como el padre de la epidemiología, ya que fue el primer médico y estadístico que utilizó el concepto de clusters espaciales al analizar datos del cólera en Inglaterra, puesto que todos los que tomaban agua cerca de una bomba general tenìan mayor propensión a tener cólera.

Waldo R. Tobler (1969) dice que: “Todos los lugares están relacionados, pero los lugares cercanos están más relacionados que los lugares lejanos.”

3. Datos espaciales

Los fenómenos espaciales generalmente pueden ser representados por medio de objetos discretos con límites claros (ej. mapas), o en fenómenos continuos que se puede observar en todas partes pero con límites naturales (ej. imágenes satelitales).

En el caso de los objetos espaciales discretos, estos pueden referirse a un río, un país, una ciudad o un sitio de investigación cualquiera.

Este tipo de objetos espaciales se represeta por medio de datos vectoriales, los cuales al unirse entre varios constituyen geometrías, que pueden representar las fronteras de los países del mundo, las provincias del Ecuador o puntos donde suceden determinados sucesos, que para caracterizarlos hacen referencia a nombres de los países, representan el tamaño de alguna población, la edad promedio, el índice de desigualdad; valores que son características y que se les demoninan “atributos”.

4. Modelo de datos vectoriales

Representan al mundo por medio de puntos, líneas y polígonos; geometrías que están construidos por pares de coordenadas (x, y).

Puntos

Son los objetos más simples de datos espaciales vectoriales y son representados por un par de coordenadas (x,y), y pueden contar con n atributos asociados. Por ejemplo, un punto puede represetar el lugar donde se realizó una compra y contener otros atributos más como: la hora, el día, el monto monetario o el sector de una compra.

Adicionalmente, se puede agrupar a todos los puntos como conjunto de puntos, es decir, multipuntos. Por ejemplo, se puede unir las cafeterías representadas por puntos, pasando a obtener un poligono o área de cafeterías, resultando en información agregada.

Líneas

Son las geometrías que resultan de la unión secuancial u ordenada de puntos o coordenadas (nodos), al unir varias de estas se obtienen polilíneas; con las cuales es posible representar ríos o carreteras.

Polígonos

Hace referencia al conjunto de polilíneas cerradas dado que ahora el último punto de la línea se conecta con el primer punto. Esta geometría es considerada como la más compleja de todas, dado que contiene a los anteriores elementos.

En el caso de que se dispongan de varios poligonos, estos pueden considerarse también como una geometría, lo cual se denomina multipolígonos, con lo que podemos construir mapas.

5. Proyección de poligonos en el mapas

## Creamos el poligono donde y es la latitud y x es la longitud 
POLIGONO <- data.frame(
  x = c(-78.493957, -78.492162, -78.488182, -78.485296,-78.4865284, -78.4875284, -78.490855, -78.4921097),
  y = c(-0.211751, -0.206055, -0.205250, -0.208694, -0.2093347, -0.2093347, -0.210689, -0.2101194))
 
## utilizamos librerías espaciales para contruir un poligono espacial (librería: sp)
PuntosPoligono1Poligono <- Polygon(POLIGONO)

## Construimos una lista de poligonos para generar una geometría
PuntosPoligono1PoligonoLista <- Polygons(list(PuntosPoligono1Poligono), "Poligono aletorio de HURTOS")

## Llegamos ha un SpatialPolygons
SpatialData <-  SpatialPolygons(list(PuntosPoligono1PoligonoLista))

## Utilizamos la librería sf para estructurar los datos espaciales como un DataFrame
ShpDataFrame <- st_as_sf(SpatialData)

## Utilizamos la librería leaflet para proyectar los puntos en mapas
leaflet() %>%
  addTiles() %>%
  addPolygons(data = ShpDataFrame, 
              color = "green",
              fillOpacity  = 0.08) %>%
  addMarkers(lng= -78.488945, 
             lat= -0.208713, 
             popup= "Se venden Poliburguers")

6. ¿Qué hace que los datos vectoriales sean un objeto espacial?

Para que un dato vectorial pueda ser considerado como espacial necesita tener un Sistema de Referencia de Coordenadas (CRS). El CRS nos sirve para representar un mundo que es tridimensional en un espacio bidimencional.

Sin embargo, aún con esta transformación, existen algunas propiedades de la superficie 3D que la 2D las pierde. Por ejemplo, el área, la distancia, la forma y la dirección se distorsionan al crear un mapa 2D.

Listado de sistemas de coordenadas

https://spatialreference.org/ref/.

SRID - Spatial Reference System Identifier - Sistema de Referencia Espacial

EPSG - European Petroleum Survey Group - Grupo Europeo de Estudios del Petróleo

Utilizaremos el WGS 84 - World Geodetic System 1984 - Sistema geodésico mundial 1984 - EPSG 4326.

https://epsg.io/4326 https://epsg.io/32617 https://epsg.org/ https://bookdown.org/martinmontaneb/CienciaDeDatosParaCuriosos/datos-espaciales-en-r.html https://spatialreference.org/ref/epsg/wgs-84/ Más detalle acerca de los CRS https://mappinggis.com/2016/04/los-codigos-epsg-srid-vinculacion-postgis/

7. Áreas espaciales

Geoestadística (fijo)

Este tipo área es seleccionada por criterio del investigador y se caracteriza por ser continua; ya que su principal interés es la interpolación.

Para comprender más el concepto de área espacial fija, supongamos que se busca realizar una interpolación espacial de la producción de banano en un terreno A, para realizar esto se necesita obtener información de distintos puntos del terreno y posteriormente realizar predicciones sobre las áreas de interés, que incluso pueden ser lugares sin cultivar. Dentro de las medidas a estudiarse puede destacar el clima, que puede ser medido a través de sensores o mediciones alternativas; cuyos puntos de levantamiento son decididos por el investigador, ya sea por criterio experto o preferentemente por medio de algún esquema de muestreo probabilístico.

Por otra parte, si quisiéramos utilizar los datos del terreno A para conjeturar sobre el terreno b se tiene que considerar si las características entre ambos son lo suficiente comunes para que sea posible usar la información de otra área, pues de preferencia sería necesario levantar información propia sobre el nuevo lugar.

Lattices (enmallados, fijo)

Esta área también puede ser elegida por el investigador, es discreta (por ejemplo, mapas) y está espaciada de forma regular o irregularmente. Algunos ejemplos de datos lattices son: la tasa de criminalidad por provincias, la tasa de accidentalidad en sitios de una ciudad, la producción de caña o de banano por manzanas. Los ejemplos anteriores son discretas y corresponden a agregaciones espaciales más que a un conjunto de puntos del espacio. Por lo tanto, cabe mencionar que la interpolación espacial puede ser carente de sentido con este tipo de datos.

Patrones Espaciales (aleatorio)

Este tipo de datos espaciales son discretos o continuos y su levantamiento no depende del investigador.

Ejemplos: Localización de nidos de pájaros en una región dada, lugares donde se cometen crimenes, localización de compras, tamaño y longitud de árboles, entre otros eventos aleatorios.

Una vez se ha seleccionado los sitios donde medir las variables aleatorias, en general, el propósito de análisis de los patrones espaciales es determinar si la distribución del objeto de interés dentro de la región es aleatoria, agregada o uniforme.

Análisis de datos espaciales con R

Ricardo Robayo Martínez

Sociedad Ecuatoriana de Estadística