La estadística espacial es una rama de la estadística que se enfoca en el análisis de fenómenos geográficos y su distribución en el espacio. A diferencia de la estadística clásica, que generalmente se preocupa por la relación entre variables independientes de la ubicación, la estadística espacial incorpora la dimensión espacial en su análisis, proporcionando herramientas para entender y modelar las dependencias espaciales y la variabilidad en los datos geográficos.
En este contexto, el concepto fundamental es el de autocorrelación espacial, que mide el grado de dependencia entre observaciones geográficas cercanas. En otras palabras, examina si: los valores de una variable en una ubicación están correlacionados con los valores de la misma variable en ubicaciones cercanas.
Este concepto es fundamental en geografía y ciencias espaciales porque muchos fenómenos naturales y sociales exhiben patrones espaciales, donde la proximidad influye en la similitud, o disimilitud.
En términos de resultados, podemos encontrar:
Autocorrelación Espacial Positiva: Se presenta cuando las ubicaciones cercanas tienden a tener valores similares. Esto implica que un alto valor en una ubicación está asociado con altos valores en ubicaciones vecinas, y un bajo valor está asociado con bajos valores en vecindades. Este patrón indica agrupamientos o clústeres espaciales de valores similares.
Autocorrelación Espacial Negativa: Ocurre cuando las ubicaciones cercanas tienden a tener valores disimilares. En este caso, un alto valor en una ubicación está asociado con bajos valores en ubicaciones vecinas, y viceversa. Este patrón sugiere una dispersión espacial o una alternancia sistemática de valores altos y bajos.
Ausencia de Autocorrelación Espacial: Se da cuando no hay un patrón discernible de asociación espacial entre los valores de la variable. Esto significa que los valores de la variable en ubicaciones cercanas no están correlacionados de manera significativa, sugiriendo una distribución aleatoria en el espacio.
En la figura se muestra los resultados posibles de la autocorrelación asociado al patro espacial.
El concepto de autocorrelación esta estrechamente relacionado con La primera ley de Tobler, enunciada por el geógrafo Waldo Tobler en 1970, establece que “todo está relacionado con todo lo demás, pero las cosas más cercanas están más relacionadas que las distantes”. Esta ley subraya la importancia de la proximidad en la relación entre observaciones espaciales, y es el fundamento teórico detrás de la autocorrelación espacial.
El Índice Global de Moran es una medida que evalúa la autocorrelación
espacial en todo el espacio de estudio, proporcionando una única
estadística que resume el grado de autocorrelación para el conjunto de
datos completo. La fórmula del Índice Global de Moran es: \[
I = \frac{N}{W} \frac{\sum_{i} \sum_{j} w_{ij} (x_i - \bar{x})(x_j -
\bar{x})}{\sum_{i} (x_i - \bar{x})^2}
\] donde: \(( N )\) es el número
de ubicaciones,
\(( W )\) es la suma de todos los pesos
espaciales \(( w_{ij} )\),
\(( x_i )\) es el valor de la variable
en la ubicación \(i\),
\(( \bar{x} )\) es el valor medio de la
variable, \(( w_{ij})\) es el peso
espacial entre las ubicaciones \(i\) y
\(j\).
Sabemos que Indice Golbal de Moran, provee un índice que evalua la autocorrelación espacial en todo el territorio. Sin embargo, a menudo existe interés por proporcionar una medida de similaridad entre cada área cercana. El índice local de asociación espacial, mas conocido como LISA (local indicators of spatial association)(Anselin, 1995) es un indicador que proporciona el alcance de la agrupación espacial significativa de valores similares alrededor de cada observación.
De este modo, el Índice Local de Moran, también conocido como \(I_i\) de Moran, evalúa la autocorrelación espacial en una escala local, permitiendo identificar agrupamientos espaciales y puntos calientes o fríos específicos dentro del área de estudio. La fórmula del Índice Local de Moran es:
\[ I_i = \frac{\sum_{j} w_{ij} (x_j - \bar{x})}{S_0} \cdot (x_i - \bar{x}) \]
donde: \(( x_i)\) es el valor de la
variable en la ubicación $( i ),$( {x} )$ es el valor medio de la
variable,$( w_{ij} )$ es el peso espacial entre las ubicaciones \(( i )\) y \(( j
)\),
\(( S_0 )\) es la suma de todos los
pesos espaciales \(( w_{ij})\).
Existen otros indicadores que complementan el índice local de Moran.
Para mayor profundidad sobre estos conceptos, se sugiere la lectura de
La autocorrelación espacial y el desarrollo de la geografía cuantitativa. Siabato & Manrique. Revista colombiana de Geografía.
Spatial statistics for data science: Theory and Practice with R. Moraga Paula. CRC Press.
Comenzaremos con la ejecución de las siguientes librerias.
library(spData)
## To access larger datasets in this package, install the spDataLarge
## package with: `install.packages('spDataLarge',
## repos='https://nowosad.github.io/drat/', type='source')`
library(sf)
## Linking to GEOS 3.11.2, GDAL 3.8.2, PROJ 9.3.1; sf_use_s2() is TRUE
library(mapview)
La base de datos corresponde a un archivo shape con información censal (Censo 2017) de la Región Metropolitana, agregada a nivel de manzana censal.
map <- st_read("zona_censal/zona_censal_info_shape.shp", options = "ENCODING=ISO-8859-1")
## options: ENCODING=ISO-8859-1
## Reading layer `zona_censal_info_shape' from data source
## `C:\Users\cesco\OneDrive\Escritorio\Estadística espacial\zona_censal\zona_censal_info_shape.shp'
## using driver `ESRI Shapefile'
## Simple feature collection with 1865 features and 26 fields
## Geometry type: POLYGON
## Dimension: XY
## Bounding box: xmin: -71.27263 ymin: -34.03867 xmax: -70.29771 ymax: -33.06787
## CRS: NA
st_crs(map) <- 4326
El nombre de los campos en la base de datos, se muestra a continuación.
names(map)
## [1] "tasa_1" "REGION" "NOM_REGION" "PROVINCIA" "NOM_PROVIN"
## [6] "COMUNA" "NOM_COMUNA" "URBANO" "DISTRITO" "ZONA"
## [11] "GEOCODIGO" "Shape_Leng" "Shape_Area" "region_1" "provinci_1"
## [16] "comuna_1" "personas" "honbres" "mujeres" "X0_5A"
## [21] "X6_14A" "X15_64A" "X65_YMAS" "inmigrante" "pueblo_ori"
## [26] "tasa" "geometry"
Para este ejercicio, utilizaremos la variable
“inmigrante”, que podemos visualizar cartográficamente
mediante la función mapview(). Esta visualización
corresponde a un gráfico dinámico que también incluye un conjunto de
mapas base.
mapview(map, zcol = "inmigrante")