1. Marco Teórico

1.1 ¿Qué es el Análisis Exploratorio de Datos Espaciales (ESDA)?

El Análisis Exploratorio de Datos Espaciales (ESDA) puede entenderse como una extensión del análisis exploratorio tradicional, con la diferencia de que incorpora explícitamente la dimensión geográfica de los datos.

Mientras que el EDA se enfoca en describir cómo se distribuyen los datos, identificar valores extremos y analizar relaciones entre variables, el ESDA añade una perspectiva clave: analizar cómo estos comportamientos se distribuyen en el territorio. Es decir, no solo interesa cuánto varía una variable, sino también si existe algún patrón en su localización.

En este sentido, el ESDA permite responder preguntas como si ciertas regiones presentan comportamientos similares, si existen concentraciones geográficas de valores altos o bajos, o si los datos se distribuyen de manera aleatoria en el espacio.

Comparación entre EDA y ESDA

Característica	EDA	ESDA
Enfoque	Análisis de distribución, tendencia central y detección de valores atípicos	Identificación de patrones espaciales, clústeres y desigualdades regionales
Herramientas principales	Histogramas, boxplots y gráficos de dispersión	Mapas coropléticos, Índice de Moran y matrices de pesos espaciales
Tipo de datos requerido	Datos estructurados en formato tabular	Datos tabulares complementados con información geográfica (coordenadas o shapefiles)
Pregunta clave	¿Cómo se comportan los datos en términos estadísticos?	¿Cómo se distribuyen los datos en el espacio y qué patrones geográficos presentan?

1.2 Autocorrelación espacial y su relevancia en el análisis de negocios

La autocorrelación espacial hace referencia al grado de relación entre los valores de una variable en distintas ubicaciones geográficas cercanas.

Cuando existe autocorrelación positiva, las regiones próximas tienden a mostrar valores similares. Por el contrario, una autocorrelación negativa indica que las regiones vecinas presentan comportamientos opuestos.

En el contexto del análisis de negocios, este concepto resulta especialmente útil, ya que muchas variables económicas no son independientes en el espacio. Factores como la cercanía a mercados, la infraestructura compartida o la integración industrial pueden generar dinámicas regionales comunes.

En el caso de las exportaciones, analizar la autocorrelación espacial permite identificar si los estados con alto desempeño exportador tienden a agruparse o si, por el contrario, funcionan como polos aislados.

1.3 Diferencias entre autocorrelación global y local

Una diferencia importante entre ambos enfoques es el nivel de análisis. La autocorrelación global resume el comportamiento espacial de toda la variable en un solo indicador, como el Índice de Moran, permitiendo evaluar si existe dependencia espacial en términos generales.

Por otro lado, la autocorrelación local se centra en cada unidad geográfica de manera individual, lo que permite detectar zonas específicas donde se forman agrupamientos o donde existen valores atípicos en relación con sus vecinos.

Otra diferencia clave es que el análisis global puede ocultar patrones regionales relevantes. Es posible que no exista autocorrelación significativa a nivel nacional, pero sí en ciertas regiones particulares, lo cual solo puede identificarse mediante indicadores locales.

1.4 Aporte del ESDA a la analítica

El ESDA aporta valor en distintas etapas del análisis de datos.

En la analítica descriptiva, permite complementar estadísticas tradicionales con mapas que muestran desigualdades territoriales. En la analítica predictiva, ayuda a identificar si la ubicación geográfica debe considerarse como un factor relevante dentro de los modelos. Finalmente, en la analítica prescriptiva, facilita la toma de decisiones al identificar regiones estratégicas donde enfocar recursos o intervenciones.

Aplicado al caso de las exportaciones, el ESDA permite entender no solo qué estados exportan más, sino también cómo se distribuye ese desempeño en el territorio y si existen dinámicas regionales compartidas.

2. Configuración del Entorno

install_if_missing <- function(pkg) {
  if (!requireNamespace(pkg, quietly = TRUE)) {
    install.packages(pkg, quiet = TRUE, dependencies = TRUE)
  }
}

pkgs <- c(
  "readxl", "dplyr", "tidyr", "ggplot2", "sf", "spdep",
  "RColorBrewer", "viridis", "patchwork", "knitr", "geodata", "tmap"
)

invisible(lapply(pkgs, install_if_missing))

suppressPackageStartupMessages({
  library(readxl)
  library(dplyr)
  library(tidyr)
  library(ggplot2)
  library(sf)
  library(spdep)
  library(RColorBrewer)
  library(viridis)
  library(patchwork)
  library(knitr)
  library(geodata)
  library(tmap)
})

3. Importación de Datos y Selección de Variables

Se importó la base inegi_mx_state_exports.xlsx, la cual contiene información estatal sobre exportaciones reales, variables económicas estructurales y otros indicadores relevantes para explicar el desempeño exportador en México.

Para este análisis, se tomó como variable principal real_exports_2024, ya que representa el nivel más reciente de exportaciones reales disponible a nivel estatal.

Además, se seleccionaron cinco variables explicativas que pueden ayudar a entender las diferencias en el desempeño exportador entre entidades federativas.

# file.choose()

data_path <- "C:\\Users\\fabia\\Downloads\\inegi_mx_state_exports.xlsx"

exports  <- read_excel(data_path, sheet = "exports")
data_raw <- read_excel(data_path, sheet = "data")
fdi      <- read_excel(data_path, sheet = "fdi")
glossary <- read_excel(data_path, sheet = "glossary")

cat("Dimensiones de exports:", nrow(exports), "filas x", ncol(exports), "columnas\n")

## Dimensiones de exports: 32 filas x 12 columnas

cat("Dimensiones de data:", nrow(data_raw), "filas x", ncol(data_raw), "columnas\n")

## Dimensiones de data: 320 filas x 16 columnas

cat("Dimensiones de fdi:", nrow(fdi), "filas x", ncol(fdi), "columnas\n")

## Dimensiones de fdi: 32 filas x 13 columnas

cat("\nColumnas de exports:\n")

## 
## Columnas de exports:

print(names(exports))

##  [1] "state"             "region"            "real_exports_2016"
##  [4] "real_exports_2017" "real_exports_2018" "real_exports_2019"
##  [7] "real_exports_2020" "real_exports_2021" "real_exports_2022"
## [10] "real_exports_2023" "real_exports_2024" "real_exports_2025"

cat("\nColumnas de data:\n")

## 
## Columnas de data:

print(names(data_raw))

##  [1] "state"                     "year"                     
##  [3] "region"                    "pop_density"              
##  [5] "gdp_per_capita_2018"       "lq_primary"               
##  [7] "lq_secondary"              "lq_tertiary"              
##  [9] "average_daily_salary"      "real_public_investment_pc"
## [11] "border_economic_activity"  "crime_rate"               
## [13] "college_education"         "exchange_rate"            
## [15] "border_distance"           "inpc"

Variable	Justificación
`gdp_per_capita_2018`	Refleja el nivel general de desarrollo económico y productividad estatal.
`average_daily_salary`	Representa condiciones del mercado laboral y diferencias potenciales de productividad.
`real_public_investment_pc`	Aproxima el papel de la inversión pública en infraestructura y competitividad.
`border_economic_activity`	Captura la cercanía funcional al comercio transfronterizo con Estados Unidos.
`college_education`	Sirve como proxy de capital humano y disponibilidad de mano de obra calificada.

En conjunto, estas variables permiten capturar dimensiones económicas, territoriales y sociales que pueden influir en la capacidad exportadora de los estados.

Assignment 1: Exploratory Spatial Data Analysis (ESDA) - Exports

Equipo 3

2026-04-10