El Análisis Exploratorio de Datos Espaciales (ESDA) puede entenderse como una extensión del análisis exploratorio tradicional, con la diferencia de que incorpora explícitamente la dimensión geográfica de los datos.
Mientras que el EDA se enfoca en describir cómo se distribuyen los datos, identificar valores extremos y analizar relaciones entre variables, el ESDA añade una perspectiva clave: analizar cómo estos comportamientos se distribuyen en el territorio. Es decir, no solo interesa cuánto varía una variable, sino también si existe algún patrón en su localización.
En este sentido, el ESDA permite responder preguntas como si ciertas regiones presentan comportamientos similares, si existen concentraciones geográficas de valores altos o bajos, o si los datos se distribuyen de manera aleatoria en el espacio.
| Característica | EDA | ESDA |
|---|---|---|
| Enfoque | Análisis de distribución, tendencia central y detección de valores atípicos | Identificación de patrones espaciales, clústeres y desigualdades regionales |
| Herramientas principales | Histogramas, boxplots y gráficos de dispersión | Mapas coropléticos, Índice de Moran y matrices de pesos espaciales |
| Tipo de datos requerido | Datos estructurados en formato tabular | Datos tabulares complementados con información geográfica (coordenadas o shapefiles) |
| Pregunta clave | ¿Cómo se comportan los datos en términos estadísticos? | ¿Cómo se distribuyen los datos en el espacio y qué patrones geográficos presentan? |
La autocorrelación espacial hace referencia al grado de relación entre los valores de una variable en distintas ubicaciones geográficas cercanas.
Cuando existe autocorrelación positiva, las regiones próximas tienden a mostrar valores similares. Por el contrario, una autocorrelación negativa indica que las regiones vecinas presentan comportamientos opuestos.
En el contexto del análisis de negocios, este concepto resulta especialmente útil, ya que muchas variables económicas no son independientes en el espacio. Factores como la cercanía a mercados, la infraestructura compartida o la integración industrial pueden generar dinámicas regionales comunes.
En el caso de las exportaciones, analizar la autocorrelación espacial permite identificar si los estados con alto desempeño exportador tienden a agruparse o si, por el contrario, funcionan como polos aislados.
Una diferencia importante entre ambos enfoques es el nivel de análisis. La autocorrelación global resume el comportamiento espacial de toda la variable en un solo indicador, como el Índice de Moran, permitiendo evaluar si existe dependencia espacial en términos generales.
Por otro lado, la autocorrelación local se centra en cada unidad geográfica de manera individual, lo que permite detectar zonas específicas donde se forman agrupamientos o donde existen valores atípicos en relación con sus vecinos.
Otra diferencia clave es que el análisis global puede ocultar patrones regionales relevantes. Es posible que no exista autocorrelación significativa a nivel nacional, pero sí en ciertas regiones particulares, lo cual solo puede identificarse mediante indicadores locales.
El ESDA aporta valor en distintas etapas del análisis de datos.
En la analítica descriptiva, permite complementar estadísticas tradicionales con mapas que muestran desigualdades territoriales. En la analítica predictiva, ayuda a identificar si la ubicación geográfica debe considerarse como un factor relevante dentro de los modelos. Finalmente, en la analítica prescriptiva, facilita la toma de decisiones al identificar regiones estratégicas donde enfocar recursos o intervenciones.
Aplicado al caso de las exportaciones, el ESDA permite entender no solo qué estados exportan más, sino también cómo se distribuye ese desempeño en el territorio y si existen dinámicas regionales compartidas.
install_if_missing <- function(pkg) {
if (!requireNamespace(pkg, quietly = TRUE)) {
install.packages(pkg, quiet = TRUE, dependencies = TRUE)
}
}
pkgs <- c(
"readxl", "dplyr", "tidyr", "ggplot2", "sf", "spdep",
"RColorBrewer", "viridis", "patchwork", "knitr", "geodata", "tmap"
)
invisible(lapply(pkgs, install_if_missing))
suppressPackageStartupMessages({
library(readxl)
library(dplyr)
library(tidyr)
library(ggplot2)
library(sf)
library(spdep)
library(RColorBrewer)
library(viridis)
library(patchwork)
library(knitr)
library(geodata)
library(tmap)
})
Se importó la base inegi_mx_state_exports.xlsx, la cual
contiene información estatal sobre exportaciones reales, variables
económicas estructurales y otros indicadores relevantes para explicar el
desempeño exportador en México.
Para este análisis, se tomó como variable principal
real_exports_2024, ya que representa el nivel más reciente
de exportaciones reales disponible a nivel estatal.
Además, se seleccionaron cinco variables explicativas que pueden ayudar a entender las diferencias en el desempeño exportador entre entidades federativas.
# file.choose()
data_path <- "C:\\Users\\fabia\\Downloads\\inegi_mx_state_exports.xlsx"
exports <- read_excel(data_path, sheet = "exports")
data_raw <- read_excel(data_path, sheet = "data")
fdi <- read_excel(data_path, sheet = "fdi")
glossary <- read_excel(data_path, sheet = "glossary")
cat("Dimensiones de exports:", nrow(exports), "filas x", ncol(exports), "columnas\n")
## Dimensiones de exports: 32 filas x 12 columnas
cat("Dimensiones de data:", nrow(data_raw), "filas x", ncol(data_raw), "columnas\n")
## Dimensiones de data: 320 filas x 16 columnas
cat("Dimensiones de fdi:", nrow(fdi), "filas x", ncol(fdi), "columnas\n")
## Dimensiones de fdi: 32 filas x 13 columnas
cat("\nColumnas de exports:\n")
##
## Columnas de exports:
print(names(exports))
## [1] "state" "region" "real_exports_2016"
## [4] "real_exports_2017" "real_exports_2018" "real_exports_2019"
## [7] "real_exports_2020" "real_exports_2021" "real_exports_2022"
## [10] "real_exports_2023" "real_exports_2024" "real_exports_2025"
cat("\nColumnas de data:\n")
##
## Columnas de data:
print(names(data_raw))
## [1] "state" "year"
## [3] "region" "pop_density"
## [5] "gdp_per_capita_2018" "lq_primary"
## [7] "lq_secondary" "lq_tertiary"
## [9] "average_daily_salary" "real_public_investment_pc"
## [11] "border_economic_activity" "crime_rate"
## [13] "college_education" "exchange_rate"
## [15] "border_distance" "inpc"
| Variable | Justificación |
|---|---|
gdp_per_capita_2018 |
Refleja el nivel general de desarrollo económico y productividad estatal. |
average_daily_salary |
Representa condiciones del mercado laboral y diferencias potenciales de productividad. |
real_public_investment_pc |
Aproxima el papel de la inversión pública en infraestructura y competitividad. |
border_economic_activity |
Captura la cercanía funcional al comercio transfronterizo con Estados Unidos. |
college_education |
Sirve como proxy de capital humano y disponibilidad de mano de obra calificada. |
En conjunto, estas variables permiten capturar dimensiones económicas, territoriales y sociales que pueden influir en la capacidad exportadora de los estados.