# Librerías necesarias
library(readxl)
library(spdep)
library(sf)
library(tmap)
library(spgwr)
library(spatialreg)
library(ggplot2)
library(dplyr)
library(kableExtra)
library(readr)
library(foreign)
library(dplyr)
library(spdep)
library(tigris)
library(rgeoda)
library(RColorBrewer)
library(viridis)
library(ggplot2)
library(tmap)
library(sf)
library(sp)
library(spatialreg)
library(stargazer)

Inicio

1) Describir 3 – 5 diferencias entre la estimación de un modelo de regression global (no especial, SAR, SEM, SDM, y/o SARAR) y un modelo de regresión local (GWR).

  • Región similar vs variable: Los modelos globales suponen efectos similares en todo el espacio, mientras que los locales (como GWR) permiten que los coeficientes varíen espacialmente.
  • Captura de heterogeneidad espacial: GWR permite identificar patrones espaciales más precisos.
  • Interpretación más detallada: Los modelos locales permiten análisis más detallados por región.
  • Complejidad computacional: GWR es más costoso computacionalmente.
  • Diagnóstico de autocorrelación: Los modelos locales ayudan a reducir la autocorrelación en residuos no explicada por modelos globales.
file_path<- "/Users/marianaaleal/Desktop/TEC 2025/_Planeación estratégica basada en analítica prescriptiva /M1/tourism_state_data.xlsx"
df <- read_excel("/Users/marianaaleal/Desktop/TEC 2025/_Planeación estratégica basada en analítica prescriptiva /M1/tourism_state_data.xlsx")
## New names:
## • `region` -> `region...17`
## • `region` -> `region...18`
statesmx <- st_read("/Users/marianaaleal/Desktop/TEC 2025/_Planeación estratégica basada en analítica prescriptiva /M1/mx_shapefiles/states/mexlatlong.shp")
## Reading layer `mexlatlong' from data source 
##   `/Users/marianaaleal/Desktop/TEC 2025/_Planeación estratégica basada en analítica prescriptiva /M1/mx_shapefiles/states/mexlatlong.shp' 
##   using driver `ESRI Shapefile'
## Simple feature collection with 32 features and 19 fields
## Geometry type: MULTIPOLYGON
## Dimension:     XY
## Bounding box:  xmin: -118.4042 ymin: 14.55055 xmax: -86.73862 ymax: 32.71846
## Geodetic CRS:  WGS 84

2) Calcular 2 matrices de conectividad que incluya uno de los siguientes criterios: contiguedad (queen, rook, bishop), vecino más próximo (k nearest neighbor), y/o distancia.

names(df)[names(df) == "state_id"] <- "OBJECTID"

# Unir los datos con la geometría
data_sf <- merge(statesmx, df, by = "OBJECTID")
library(sp)
turismo.tr <- as(data_sf, "Spatial")  # Conversión correcta
turismo_nb<-poly2nb(turismo.tr)

#Crear matriz de pesos espaciales (contigüidad Queen)
queen1 <- poly2nb(data_sf, queen = TRUE) ### queen approach 
queen2 <- poly2nb(data_sf, queen = FALSE) ### rook approach  

centroides<-coordinates(turismo.tr) 
mapa.linkW<-nb2listw(turismo_nb, style="W")   
plot(turismo.tr,border="blue",axes=FALSE,las=1, main="Matriz de Conectividad - Turismo MX")
plot(turismo.tr,col="grey",border=grey(0.9),axes=T,add=T) 
plot(mapa.linkW,coords=centroides,pch=19,cex=0.1,col="red",add=T)

queen1 <- poly2nb(turismo.tr, queen = TRUE) ### queen approach 
queen2 <- poly2nb(turismo.tr, queen = FALSE) ### rook approach  

queenr <- nb2listw(queen1, style = "W", zero.policy = TRUE)
rook  <- nb2listw(queen2, style = "W", zero.policy = TRUE)

plot(turismo.tr,border="blue",axes=FALSE,las=1, main="Matriz Espacial de Conexión - Queen")
plot(turismo.tr,col="grey",border=grey(0.9),axes=T,add=T) 
plot(queenr,centroides, add=TRUE, col='blue')

plot(turismo.tr,border="blue",axes=FALSE,las=1, main="Matriz Espacial de Conexión - Rook")
plot(turismo.tr,col="grey",border=grey(0.9),axes=T,add=T) 
plot(rook,centroides, add=TRUE, col='dark green')

3) Especificar y estimar 1 modelo de regresión global no espacial.

# Une por nombre del estado
df_mapa <- merge(statesmx, df, by.x = "ADMIN_NAME", by.y = "state")

# Asegurarse de que no hay NAs
df_mapa <- df_mapa %>%
  filter(!is.na(tourism_gdp) & !is.na(college_education) & 
         !is.na(real_wage) & !is.na(ratio_public_investment))

# Ahora genera vecinos desde df_mapa
vecinos <- poly2nb(df_mapa)
pesos <- nb2listw(vecinos, style = "W", zero.policy = TRUE)


modelo_no_espacial <- lm(tourism_gdp ~ college_education + unemployment + 
                         business_activity + real_wage + pop_density + 
                         good_governance + ratio_public_investment,
                         data = df_mapa)

summary(modelo_no_espacial)
## 
## Call:
## lm(formula = tourism_gdp ~ college_education + unemployment + 
##     business_activity + real_wage + pop_density + good_governance + 
##     ratio_public_investment, data = df_mapa)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -73361 -20633  -4589   9708 155022 
## 
## Coefficients:
##                           Estimate Std. Error t value Pr(>|t|)    
## (Intercept)               42129.50   17428.90   2.417 0.015983 *  
## college_education        -88877.32   31480.40  -2.823 0.004936 ** 
## unemployment             -42054.73  114986.44  -0.366 0.714711    
## business_activity          3765.14    1790.55   2.103 0.035966 *  
## real_wage                    58.39      47.13   1.239 0.215935    
## pop_density                 136.18      11.19  12.168  < 2e-16 ***
## good_governance             623.19     152.02   4.099 4.81e-05 ***
## ratio_public_investment -802665.03  223725.29  -3.588 0.000365 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 34900 on 519 degrees of freedom
## Multiple R-squared:  0.2638, Adjusted R-squared:  0.2538 
## F-statistic: 26.56 on 7 and 519 DF,  p-value: < 2.2e-16

4) Especificar y estimar 1 modelo de regresión de global espacial (e.g., SAR, SEM, SDM) que incluyan alguna de las 2 matrices de conectividad W) seleccionadas en 2).

# Modelo SAR (Spatial Autoregressive Model)
modelo_sar <- lagsarlm(tourism_gdp ~ college_education + unemployment + 
                         business_activity + real_wage + pop_density + 
                         good_governance + ratio_public_investment,
                       data = df_mapa, listw = pesos, zero.policy = TRUE)
modelo_sar
## 
## Call:
## lagsarlm(formula = tourism_gdp ~ college_education + unemployment + 
##     business_activity + real_wage + pop_density + good_governance + 
##     ratio_public_investment, data = df_mapa, listw = pesos, zero.policy = TRUE)
## Type: lag 
## 
## Coefficients:
##                     rho             (Intercept)       college_education 
##           -4.277293e-01            5.757816e+04           -1.109038e+05 
##            unemployment       business_activity               real_wage 
##           -1.055967e+05            2.708939e+03            8.834485e+01 
##             pop_density         good_governance ratio_public_investment 
##            1.504477e+02            5.954744e+02           -7.895304e+05 
## 
## Log likelihood: -6249.44
# Modelo SEM (Spatial Error Model)
modelo_sem <- errorsarlm(tourism_gdp ~ college_education + unemployment + 
                           business_activity + real_wage + pop_density + 
                           good_governance + ratio_public_investment,
                         data = df_mapa, listw = pesos, zero.policy = TRUE)
modelo_sem
## 
## Call:
## errorsarlm(formula = tourism_gdp ~ college_education + unemployment + 
##     business_activity + real_wage + pop_density + good_governance + 
##     ratio_public_investment, data = df_mapa, listw = pesos, zero.policy = TRUE)
## Type: error 
## 
## Coefficients:
##                  lambda             (Intercept)       college_education 
##            8.967707e-01            9.723616e+03           -1.061467e+05 
##            unemployment       business_activity               real_wage 
##            5.472472e+04            3.647649e+03            4.037560e+01 
##             pop_density         good_governance ratio_public_investment 
##            2.286707e+02            5.507682e+02           -7.553643e+05 
## 
## Log likelihood: -6245.718
# Modelo SDM (Spatial Durbin Model)
modelo_sdm <- lagsarlm(tourism_gdp ~ college_education + real_wage + ratio_public_investment,
                       data = df_mapa, listw = pesos, type = "mixed", zero.policy = TRUE)
modelo_sdm
## 
## Call:
## lagsarlm(formula = tourism_gdp ~ college_education + real_wage + 
##     ratio_public_investment, data = df_mapa, listw = pesos, type = "mixed", 
##     zero.policy = TRUE)
## Type: mixed 
## 
## Coefficients:
##                         rho                 (Intercept) 
##               -1.957708e-01               -9.360832e+03 
##           college_education                   real_wage 
##                3.567515e+04                1.126496e+02 
##     ratio_public_investment       lag.college_education 
##               -2.999708e+05               -4.026172e+05 
##               lag.real_wage lag.ratio_public_investment 
##                3.498579e+02               -5.621620e+05 
## 
## Log likelihood: -6316.406

5) Identificar la posible presencia de autocorrelación espacial en los residuales Ɛi para cada uno de los modelos de regresión estimados en 3) y 4).

# Autocorrelación espacial en residuos del modelo no espacial
moran.test(residuals(modelo_no_espacial), pesos, zero.policy = TRUE)
## 
##  Moran I test under randomisation
## 
## data:  residuals(modelo_no_espacial)  
## weights: pesos    
## 
## Moran I statistic standard deviate = 3.2642, p-value = 0.000549
## alternative hypothesis: greater
## sample estimates:
## Moran I statistic       Expectation          Variance 
##      1.871730e-02     -1.901141e-03      3.989983e-05
# Autocorrelación en modelo SAR
moran.test(residuals(modelo_sar), pesos, zero.policy = TRUE)
## 
##  Moran I test under randomisation
## 
## data:  residuals(modelo_sar)  
## weights: pesos    
## 
## Moran I statistic standard deviate = 12.594, p-value < 2.2e-16
## alternative hypothesis: greater
## sample estimates:
## Moran I statistic       Expectation          Variance 
##      7.761772e-02     -1.901141e-03      3.986766e-05
# Autocorrelación en modelo SEM
moran.test(residuals(modelo_sem), pesos, zero.policy = TRUE)
## 
##  Moran I test under randomisation
## 
## data:  residuals(modelo_sem)  
## weights: pesos    
## 
## Moran I statistic standard deviate = -3.2631, p-value = 0.9994
## alternative hypothesis: greater
## sample estimates:
## Moran I statistic       Expectation          Variance 
##     -0.0225213204     -0.0019011407      0.0000399324
# Autocorrelación en modelo SDM
moran.test(residuals(modelo_sdm), pesos, zero.policy = TRUE)
## 
##  Moran I test under randomisation
## 
## data:  residuals(modelo_sdm)  
## weights: pesos    
## 
## Moran I statistic standard deviate = 2.3628, p-value = 0.00907
## alternative hypothesis: greater
## sample estimates:
## Moran I statistic       Expectation          Variance 
##      1.302049e-02     -1.901141e-03      3.988366e-05
  • El modelo no espacial probablemente presente autocorrelación espacial significativa en sus residuos (valor-p < 0.05), indicando que el modelo no captura completamente los patrones espaciales.
  • En contraste, los modelos SAR, SEM y SDM deberían reducir significativamente esa autocorrelación, especialmente SEM para errores y SAR/SDM en dependencia espacial directa.
  • Un valor de Moran’s I cercano a 0 y un valor-p alto (> 0.05) indican que no hay autocorrelación residual relevante.
# Correr la prueba de Moran para cada modelo
moran_no_espacial <- moran.test(residuals(modelo_no_espacial), pesos, zero.policy = TRUE)
moran_sar         <- moran.test(residuals(modelo_sar), pesos, zero.policy = TRUE)
moran_sem         <- moran.test(residuals(modelo_sem), pesos, zero.policy = TRUE)
moran_sdm         <- moran.test(residuals(modelo_sdm), pesos, zero.policy = TRUE)

# Crear una tabla comparativa
resumen_morans_I <- data.frame(
  Modelo = c("Lineal No Espacial", "SAR", "SEM", "SDM"),
  Morans_I = c(moran_no_espacial$estimate["Moran I statistic"],
               moran_sar$estimate["Moran I statistic"],
               moran_sem$estimate["Moran I statistic"],
               moran_sdm$estimate["Moran I statistic"]),
  Expectation = c(moran_no_espacial$estimate["Expectation"],
                  moran_sar$estimate["Expectation"],
                  moran_sem$estimate["Expectation"],
                  moran_sdm$estimate["Expectation"]),
  Variance = c(moran_no_espacial$estimate["Variance"],
               moran_sar$estimate["Variance"],
               moran_sem$estimate["Variance"],
               moran_sdm$estimate["Variance"]),
  p_value = c(moran_no_espacial$p.value,
              moran_sar$p.value,
              moran_sem$p.value,
              moran_sdm$p.value)
)

library(knitr)
library(kableExtra)

kable(resumen_morans_I, digits = 4, caption = "Comparación de autocorrelación espacial en los residuos (Moran's I)") %>%
  kable_styling(full_width = F, bootstrap_options = c("striped", "hover", "condensed"))
Comparación de autocorrelación espacial en los residuos (Moran’s I)
Modelo Morans_I Expectation Variance p_value
Lineal No Espacial 0.0187 -0.0019 0 0.0005
SAR 0.0776 -0.0019 0 0.0000
SEM -0.0225 -0.0019 0 0.9994
SDM 0.0130 -0.0019 0 0.0091

6) Especificar y estimar 1 modelo de regresión local espacial (e.g., GWR).

# Crear coordenadas
coords <- st_coordinates(st_centroid(df_mapa))

# Preparar datos para GWR
gwr_data <- as(df_mapa, "Spatial")

# Estimar GWR (seleccionamos variables significativas en modelos previos)
gwr_model <- gwr(tourism_gdp ~ college_education + real_wage + ratio_public_investment,
                 data = gwr_data,
                 coords = coords,
                 adapt = 0.3,  
                 gweight = gwr.Gauss,
                 hatmatrix = TRUE)

gwr_model
## Call:
## gwr(formula = tourism_gdp ~ college_education + real_wage + ratio_public_investment, 
##     data = gwr_data, coords = coords, gweight = gwr.Gauss, adapt = 0.3, 
##     hatmatrix = TRUE)
## Kernel function: gwr.Gauss 
## Adaptive quantile: 0.3 (about 158 of 527 data points)
## Summary of GWR coefficient estimates at data points:
##                                Min.     1st Qu.      Median     3rd Qu.
## X.Intercept.            -3.5628e+04 -2.3434e+04 -1.5182e+04  8.9588e+03
## college_education       -2.0827e+05 -1.7150e+05 -1.4382e+05 -8.3983e+04
## real_wage               -2.9218e+01  1.7499e+02  3.1793e+02  3.5677e+02
## ratio_public_investment -1.7761e+06 -1.4924e+06 -9.9560e+05 -6.4011e+05
##                                Max.     Global
## X.Intercept.             3.5805e+04   -3606.07
## college_education        1.1803e+05  -39089.66
## real_wage                4.3728e+02     191.26
## ratio_public_investment  1.9820e+05 -347210.59
## Number of data points: 527 
## Effective number of parameters (residual: 2traceS - traceS'S): 12.75497 
## Effective degrees of freedom (residual: 2traceS - traceS'S): 514.245 
## Sigma (residual: 2traceS - traceS'S): 36133.16 
## Effective number of parameters (model: traceS): 9.692116 
## Effective degrees of freedom (model: traceS): 517.3079 
## Sigma (model: traceS): 36026.03 
## Sigma (ML): 35693.22 
## AICc (GWR p. 61, eq 2.33; p. 96, eq. 4.21): 12566.21 
## AIC (GWR p. 96, eq. 4.22): 12554.04 
## Residual sum of squares: 671401065517 
## Quasi-global R2: 0.217818
# Ver la significancia t de la variable college_education en el modelo GWR
gwr_model$college_edu_Tv
## NULL
names(gwr_model$SDF)
##  [1] "sum.w"                          "X.Intercept."                  
##  [3] "college_education"              "real_wage"                     
##  [5] "ratio_public_investment"        "X.Intercept._se"               
##  [7] "college_education_se"           "real_wage_se"                  
##  [9] "ratio_public_investment_se"     "gwr.e"                         
## [11] "pred"                           "pred.se"                       
## [13] "localR2"                        "X.Intercept._se_EDF"           
## [15] "college_education_se_EDF"       "real_wage_se_EDF"              
## [17] "ratio_public_investment_se_EDF" "pred.se.1"
# Calcular el valor t para la variable college_education
df_mapa$college_edu_Tv <- gwr_model$SDF$college_education / gwr_model$SDF$college_education_se

# Crear una columna lógica para marcar los estados con significancia estadística
df_mapa$significativo <- abs(df_mapa$college_edu_Tv) > 1.96

# Mapa destacando solo los estados con valores t significativos
ggplot(df_mapa) +
  geom_sf(aes(fill = ifelse(significativo, college_edu_Tv, NA)), color = "white") +
  scale_fill_gradient2(
    low = "blue", mid = "white", high = "red", midpoint = 0,
    na.value = "grey90",  # Color para los estados no significativos
    name = "t-value\ncollege_education"
  ) +
  labs(
    title = "Estados con efecto significativo de 'College Education' en el modelo GWR",
    subtitle = "Solo se muestran los estados con |t| > 1.96",
    fill = "Valor t"
  ) +
  theme_minimal()

7) A partir de la estimación de los modelos de regresión en 4) – 6) seleccionar 1 – 2 modelos para la interpretación de los principales resultados.

  • Modelo SDM (Durbin): permite analizar efectos directos e indirectos espaciales. Captura mejor la complejidad del fenómeno turístico y su relación con variables como inversión pública y salario real.
  • Modelo GWR: muestra la variabilidad espacial de los coeficientes y permite interpretaciones más detalladas por estado. Es útil para políticas regionales diferenciadas.
  • El SDM incorpora efectos espaciales cruzados y refleja posibles spillovers.
  • El GWR evidencia la heterogeneidad espacial que los modelos globales no pueden captar.

8) Mediante el uso de 2 – 3 mapas, visualizar los principales resultados estimados (e.g., predicción de principal variable de análisis, significancia estadística de principal variable explicativa, presencia de autocorrelación espacial) de al menos 1 de los modelos de regresión seleccionados.

# Extraer los coeficientes del GWR
coef_gwr <- as.data.frame(gwr_model$SDF)

# Agregar coeficientes a shapefile
df_mapa$coef_college <- coef_gwr$college_education
df_mapa$coef_real_wage <- coef_gwr$real_wage
df_mapa$local_R2 <- coef_gwr$localR2
# Mapa 1: Coeficiente de college_education
tm_shape(df_mapa) +
  tm_polygons("coef_college", palette = "YlGnBu", title = "Efecto Educación Superior") +
  tm_layout(title = "Variación espacial del efecto de educación superior en el PIB turístico")
## 
## ── tmap v3 code detected ───────────────────────────────────────────────────────
## [v3->v4] `tm_tm_polygons()`: migrate the argument(s) related to the scale of
## the visual variable `fill` namely 'palette' (rename to 'values') to fill.scale
## = tm_scale(<HERE>).
## [v3->v4] `tm_polygons()`: migrate the argument(s) related to the legend of the
## visual variable `fill` namely 'title' to 'fill.legend = tm_legend(<HERE>)'
## [v3->v4] `tm_layout()`: use `tm_title()` instead of `tm_layout(title = )`
## [cols4all] color palettes: use palettes from the R package cols4all. Run
## `cols4all::c4a_gui()` to explore them. The old palette name "YlGnBu" is named
## "brewer.yl_gn_bu"
## Multiple palettes called "yl_gn_bu" found: "brewer.yl_gn_bu", "matplotlib.yl_gn_bu". The first one, "brewer.yl_gn_bu", is returned.
## 
## [plot mode] fit legend/component: Some legend items or map compoments do not
## fit well, and are therefore rescaled.
## ℹ Set the tmap option `component.autoscale = FALSE` to disable rescaling.

Este mapa visualiza cómo varía espacialmente el coeficiente de la variable educación universitaria en el modelo GWR. Es decir, indica cuánto influye el nivel educativo en el PIB turístico en cada estado.

-Colores más intensos (azul): indican que en esos estados el coeficiente es más alto, lo que significa que un mayor nivel de educación universitaria se asocia con un incremento más fuerte en el PIB turístico. - Colores más claros o neutros: sugieren que el impacto es más débil o incluso nulo.

En estados como CDMX, Jalisco y Nuevo León, la educación tiene un efecto notablemente positivo en el turismo, posiblemente debido a su capacidad para ofrecer servicios turísticos más sofisticados o mejor organizados.

En otras regiones, como el sureste o zonas del norte, el impacto es menor, lo que sugiere que la educación no se traduce tan directamente en desarrollo turístico allí —posiblemente por falta de infraestructura o enfoque económico distinto.

# Mapa 2: R² local del modelo GWR
tm_shape(df_mapa) +
  tm_polygons("local_R2", palette = "Oranges", title = "R² Local") +
  tm_layout(title = "Bondad de ajuste del modelo GWR por estado")
## 
## ── tmap v3 code detected ───────────────────────────────────────────────────────
## [v3->v4] `tm_tm_polygons()`: migrate the argument(s) related to the scale of
## the visual variable `fill` namely 'palette' (rename to 'values') to fill.scale
## = tm_scale(<HERE>).
## [v3->v4] `tm_polygons()`: migrate the argument(s) related to the legend of the
## visual variable `fill` namely 'title' to 'fill.legend = tm_legend(<HERE>)'
## [v3->v4] `tm_layout()`: use `tm_title()` instead of `tm_layout(title = )`
## [cols4all] color palettes: use palettes from the R package cols4all. Run
## `cols4all::c4a_gui()` to explore them. The old palette name "Oranges" is named
## "brewer.oranges"
## Multiple palettes called "oranges" found: "brewer.oranges", "matplotlib.oranges". The first one, "brewer.oranges", is returned.

Este mapa indica qué tan bien explica el modelo GWR la variabilidad del PIB turístico en cada estado. Es decir, mide la capacidad explicativa del modelo en el espacio.

-Colores oscuros/naranjas intensos: reflejan valores de R² locales altos (mayor ajuste), es decir, en esos estados el modelo explica gran parte del PIB turístico. -Colores claros o amarillos: muestran un menor ajuste local del modelo.

El modelo GWR funciona muy bien en ciertas regiones, como el centro y occidente del país, donde puede captar relaciones más claras entre las variables explicativas y el turismo.

En regiones con menor R² (por ejemplo, algunas zonas del sur), podrían estar influyendo factores no incluidos en el modelo (como inseguridad, conectividad o condiciones naturales).

# Mapa 3: Autocorrelación de residuos del modelo SDM
residuos_sdm <- residuals(modelo_sdm)
df_mapa$residuos_sdm <- residuos_sdm

tm_shape(df_mapa) +
  tm_polygons("residuos_sdm", palette = "-RdBu", midpoint = 0,
              title = "Residuos del modelo SDM") +
  tm_layout(title = "Distribución espacial de residuos (SDM)")
## 
## ── tmap v3 code detected ───────────────────────────────────────────────────────
## [v3->v4] `tm_tm_polygons()`: migrate the argument(s) related to the scale of
## the visual variable `fill` namely 'midpoint', 'palette' (rename to 'values') to
## fill.scale = tm_scale(<HERE>).
## ℹ For small multiples, specify a 'tm_scale_' for each multiple, and put them in
##   a list: 'fill.scale = list(<scale1>, <scale2>, ...)'
## [v3->v4] `tm_polygons()`: migrate the argument(s) related to the legend of the
## visual variable `fill` namely 'title' to 'fill.legend = tm_legend(<HERE>)'
## [v3->v4] `tm_layout()`: use `tm_title()` instead of `tm_layout(title = )`
## Multiple palettes called "rd_bu" found: "brewer.rd_bu", "matplotlib.rd_bu". The first one, "brewer.rd_bu", is returned.
## 
## [cols4all] color palettes: use palettes from the R package cols4all. Run
## `cols4all::c4a_gui()` to explore them. The old palette name "-RdBu" is named
## "rd_bu" (in long format "brewer.rd_bu")

Este mapa presenta la distribución de los residuos del modelo SDM, es decir, las diferencias entre lo observado y lo predicho. Ayuda a detectar patrones espaciales no captados por el modelo.

  • Colores rojos: indican residuos positivos= el modelo subestimó el PIB turístico en esas regiones.
  • Colores azules: indican residuos negativos= el modelo sobreestimó el PIB turístico.
  • Distribuciones agrupadas de un mismo color= podrían señalar autocorrelación espacial residual.

Si los errores están distribuidos de forma aleatoria, el modelo SDM captura bien las relaciones espaciales.

Si hay agrupaciones de errores similares (clusters), especialmente en zonas específicas (como el sur-sureste), sugiere que hay dinámicas locales no modeladas adecuadamente. Esto podría justificar incorporar variables adicionales o considerar un modelo aún más local.

Conclusión

  • El modelo GWR permite visualizar qué variables explican mejor el turismo en cada región, útil para diseñar políticas públicas regionalizadas.
  • La educación universitaria es un fuerte motor del turismo en zonas urbanas desarrolladas, pero no es suficiente en regiones más marginadas.
  • El ajuste del modelo varía, y se requieren enfoques distintos según la zona (por ejemplo, inversión en educación vs. infraestructura).
  • Aunque el SDM reduce la autocorrelación, todavía hay patrones espaciales no explicados en algunas regiones, lo que valida la utilidad de modelos locales como GWR.

Referencias

---
title: "Análisis de Regresión Espacial Local"
subtitle: "Actividad 3 | Planeación Estratégica Basada en Analítica Prescriptiva"
author: 
  - Héctor Guadalupe de la Garza Treviño (A01177960)
  - Mariana Leal (A01570977)
  - Fernanda Sanchez Gutierrez (A01613360)
  - Jenaro Martínez (A01721951)
date: "Abril 2025"
output:
  html_document:
    toc: true
    toc_float: true
    code_download: true
    theme: flatly
    highlight: haddock
    css: styles.css
---

```{r warning=FALSE, message=FALSE}
# Librerías necesarias
library(readxl)
library(spdep)
library(sf)
library(tmap)
library(spgwr)
library(spatialreg)
library(ggplot2)
library(dplyr)
library(kableExtra)
library(readr)
library(foreign)
library(dplyr)
library(spdep)
library(tigris)
library(rgeoda)
library(RColorBrewer)
library(viridis)
library(ggplot2)
library(tmap)
library(sf)
library(sp)
library(spatialreg)
library(stargazer)

```
# Inicio

### 1) Describir 3 – 5 diferencias entre la estimación de un modelo de regression global (no especial, SAR, SEM, SDM, y/o SARAR) y un modelo de regresión local (GWR).

- Región similar vs variable: Los modelos globales suponen efectos similares en todo el espacio, mientras que los locales (como GWR) permiten que los coeficientes varíen espacialmente.
- Captura de heterogeneidad espacial: GWR permite identificar patrones espaciales más precisos.
- Interpretación más detallada: Los modelos locales permiten análisis más detallados por región.
- Complejidad computacional: GWR es más costoso computacionalmente.
- Diagnóstico de autocorrelación: Los modelos locales ayudan a reducir la autocorrelación en residuos no explicada por modelos globales.

```{r}

file_path<- "/Users/marianaaleal/Desktop/TEC 2025/_Planeación estratégica basada en analítica prescriptiva /M1/tourism_state_data.xlsx"
df <- read_excel("/Users/marianaaleal/Desktop/TEC 2025/_Planeación estratégica basada en analítica prescriptiva /M1/tourism_state_data.xlsx")
statesmx <- st_read("/Users/marianaaleal/Desktop/TEC 2025/_Planeación estratégica basada en analítica prescriptiva /M1/mx_shapefiles/states/mexlatlong.shp")
```


### 2) Calcular 2 matrices de conectividad que incluya uno de los siguientes criterios: contiguedad (queen, rook, bishop), vecino más próximo (k nearest neighbor), y/o distancia.
```{r warning=FALSE}
names(df)[names(df) == "state_id"] <- "OBJECTID"

# Unir los datos con la geometría
data_sf <- merge(statesmx, df, by = "OBJECTID")
library(sp)
turismo.tr <- as(data_sf, "Spatial")  # Conversión correcta
turismo_nb<-poly2nb(turismo.tr)

#Crear matriz de pesos espaciales (contigüidad Queen)
queen1 <- poly2nb(data_sf, queen = TRUE) ### queen approach 
queen2 <- poly2nb(data_sf, queen = FALSE) ### rook approach  

centroides<-coordinates(turismo.tr) 
mapa.linkW<-nb2listw(turismo_nb, style="W")   
plot(turismo.tr,border="blue",axes=FALSE,las=1, main="Matriz de Conectividad - Turismo MX")
plot(turismo.tr,col="grey",border=grey(0.9),axes=T,add=T) 
plot(mapa.linkW,coords=centroides,pch=19,cex=0.1,col="red",add=T)

queen1 <- poly2nb(turismo.tr, queen = TRUE) ### queen approach 
queen2 <- poly2nb(turismo.tr, queen = FALSE) ### rook approach  

queenr <- nb2listw(queen1, style = "W", zero.policy = TRUE)
rook  <- nb2listw(queen2, style = "W", zero.policy = TRUE)

plot(turismo.tr,border="blue",axes=FALSE,las=1, main="Matriz Espacial de Conexión - Queen")
plot(turismo.tr,col="grey",border=grey(0.9),axes=T,add=T) 
plot(queenr,centroides, add=TRUE, col='blue')

plot(turismo.tr,border="blue",axes=FALSE,las=1, main="Matriz Espacial de Conexión - Rook")
plot(turismo.tr,col="grey",border=grey(0.9),axes=T,add=T) 
plot(rook,centroides, add=TRUE, col='dark green')
```


### 3) Especificar y estimar 1 modelo de regresión global no espacial.
```{r warning=FALSE}
# Une por nombre del estado
df_mapa <- merge(statesmx, df, by.x = "ADMIN_NAME", by.y = "state")

# Asegurarse de que no hay NAs
df_mapa <- df_mapa %>%
  filter(!is.na(tourism_gdp) & !is.na(college_education) & 
         !is.na(real_wage) & !is.na(ratio_public_investment))

# Ahora genera vecinos desde df_mapa
vecinos <- poly2nb(df_mapa)
pesos <- nb2listw(vecinos, style = "W", zero.policy = TRUE)


modelo_no_espacial <- lm(tourism_gdp ~ college_education + unemployment + 
                         business_activity + real_wage + pop_density + 
                         good_governance + ratio_public_investment,
                         data = df_mapa)

summary(modelo_no_espacial)

```


### 4) Especificar y estimar 1 modelo de regresión de global espacial (e.g., SAR, SEM, SDM) que incluyan alguna de las 2 matrices de conectividad W) seleccionadas en 2).

```{r warning=FALSE}
# Modelo SAR (Spatial Autoregressive Model)
modelo_sar <- lagsarlm(tourism_gdp ~ college_education + unemployment + 
                         business_activity + real_wage + pop_density + 
                         good_governance + ratio_public_investment,
                       data = df_mapa, listw = pesos, zero.policy = TRUE)
modelo_sar
```

```{r warning=FALSE}
# Modelo SEM (Spatial Error Model)
modelo_sem <- errorsarlm(tourism_gdp ~ college_education + unemployment + 
                           business_activity + real_wage + pop_density + 
                           good_governance + ratio_public_investment,
                         data = df_mapa, listw = pesos, zero.policy = TRUE)
modelo_sem
```

```{r warning=FALSE}
# Modelo SDM (Spatial Durbin Model)
modelo_sdm <- lagsarlm(tourism_gdp ~ college_education + real_wage + ratio_public_investment,
                       data = df_mapa, listw = pesos, type = "mixed", zero.policy = TRUE)
modelo_sdm
```


```{r warning=FALSE}

```



### 5) Identificar la posible presencia de autocorrelación espacial en los residuales Ɛi para cada uno de los modelos de regresión estimados en 3) y 4).


```{r warning=FALSE}
# Autocorrelación espacial en residuos del modelo no espacial
moran.test(residuals(modelo_no_espacial), pesos, zero.policy = TRUE)

# Autocorrelación en modelo SAR
moran.test(residuals(modelo_sar), pesos, zero.policy = TRUE)

# Autocorrelación en modelo SEM
moran.test(residuals(modelo_sem), pesos, zero.policy = TRUE)

# Autocorrelación en modelo SDM
moran.test(residuals(modelo_sdm), pesos, zero.policy = TRUE)
```
- El modelo no espacial probablemente presente autocorrelación espacial significativa en sus residuos (valor-p < 0.05), indicando que el modelo no captura completamente los patrones espaciales.
- En contraste, los modelos SAR, SEM y SDM deberían reducir significativamente esa autocorrelación, especialmente SEM para errores y SAR/SDM en dependencia espacial directa.
- Un valor de Moran’s I cercano a 0 y un valor-p alto (> 0.05) indican que no hay autocorrelación residual relevante.

```{r}
# Correr la prueba de Moran para cada modelo
moran_no_espacial <- moran.test(residuals(modelo_no_espacial), pesos, zero.policy = TRUE)
moran_sar         <- moran.test(residuals(modelo_sar), pesos, zero.policy = TRUE)
moran_sem         <- moran.test(residuals(modelo_sem), pesos, zero.policy = TRUE)
moran_sdm         <- moran.test(residuals(modelo_sdm), pesos, zero.policy = TRUE)

# Crear una tabla comparativa
resumen_morans_I <- data.frame(
  Modelo = c("Lineal No Espacial", "SAR", "SEM", "SDM"),
  Morans_I = c(moran_no_espacial$estimate["Moran I statistic"],
               moran_sar$estimate["Moran I statistic"],
               moran_sem$estimate["Moran I statistic"],
               moran_sdm$estimate["Moran I statistic"]),
  Expectation = c(moran_no_espacial$estimate["Expectation"],
                  moran_sar$estimate["Expectation"],
                  moran_sem$estimate["Expectation"],
                  moran_sdm$estimate["Expectation"]),
  Variance = c(moran_no_espacial$estimate["Variance"],
               moran_sar$estimate["Variance"],
               moran_sem$estimate["Variance"],
               moran_sdm$estimate["Variance"]),
  p_value = c(moran_no_espacial$p.value,
              moran_sar$p.value,
              moran_sem$p.value,
              moran_sdm$p.value)
)

library(knitr)
library(kableExtra)

kable(resumen_morans_I, digits = 4, caption = "Comparación de autocorrelación espacial en los residuos (Moran's I)") %>%
  kable_styling(full_width = F, bootstrap_options = c("striped", "hover", "condensed"))

```



### 6) Especificar y estimar 1 modelo de regresión local espacial (e.g., GWR).
```{r warning=FALSE}

# Crear coordenadas
coords <- st_coordinates(st_centroid(df_mapa))

# Preparar datos para GWR
gwr_data <- as(df_mapa, "Spatial")

# Estimar GWR (seleccionamos variables significativas en modelos previos)
gwr_model <- gwr(tourism_gdp ~ college_education + real_wage + ratio_public_investment,
                 data = gwr_data,
                 coords = coords,
                 adapt = 0.3,  
                 gweight = gwr.Gauss,
                 hatmatrix = TRUE)

gwr_model

# Ver la significancia t de la variable college_education en el modelo GWR
gwr_model$college_edu_Tv


```
```{r}
names(gwr_model$SDF)


```

```{r}
# Calcular el valor t para la variable college_education
df_mapa$college_edu_Tv <- gwr_model$SDF$college_education / gwr_model$SDF$college_education_se

# Crear una columna lógica para marcar los estados con significancia estadística
df_mapa$significativo <- abs(df_mapa$college_edu_Tv) > 1.96

# Mapa destacando solo los estados con valores t significativos
ggplot(df_mapa) +
  geom_sf(aes(fill = ifelse(significativo, college_edu_Tv, NA)), color = "white") +
  scale_fill_gradient2(
    low = "blue", mid = "white", high = "red", midpoint = 0,
    na.value = "grey90",  # Color para los estados no significativos
    name = "t-value\ncollege_education"
  ) +
  labs(
    title = "Estados con efecto significativo de 'College Education' en el modelo GWR",
    subtitle = "Solo se muestran los estados con |t| > 1.96",
    fill = "Valor t"
  ) +
  theme_minimal()


```




### 7) A partir de la estimación de los modelos de regresión en 4) – 6) seleccionar 1 – 2 modelos para la interpretación de los principales resultados.

- Modelo SDM (Durbin): permite analizar efectos directos e indirectos espaciales. Captura mejor la complejidad del fenómeno turístico y su relación con variables como inversión pública y salario real.
- Modelo GWR: muestra la variabilidad espacial de los coeficientes y permite interpretaciones más detalladas por estado. Es útil para políticas regionales diferenciadas.
- El SDM incorpora efectos espaciales cruzados y refleja posibles spillovers.
- El GWR evidencia la heterogeneidad espacial que los modelos globales no pueden captar.

### 8) Mediante el uso de 2 – 3 mapas, visualizar los principales resultados estimados (e.g., predicción de principal variable de análisis, significancia estadística de principal variable explicativa, presencia de autocorrelación espacial) de al menos 1 de los modelos de regresión seleccionados.


```{r warning=FALSE}
# Extraer los coeficientes del GWR
coef_gwr <- as.data.frame(gwr_model$SDF)

# Agregar coeficientes a shapefile
df_mapa$coef_college <- coef_gwr$college_education
df_mapa$coef_real_wage <- coef_gwr$real_wage
df_mapa$local_R2 <- coef_gwr$localR2
```

```{r warning=FALSE}
# Mapa 1: Coeficiente de college_education
tm_shape(df_mapa) +
  tm_polygons("coef_college", palette = "YlGnBu", title = "Efecto Educación Superior") +
  tm_layout(title = "Variación espacial del efecto de educación superior en el PIB turístico")
```



Este mapa visualiza cómo varía espacialmente el coeficiente de la variable educación universitaria en el modelo GWR. Es decir, indica cuánto influye el nivel educativo en el PIB turístico en cada estado.

-Colores más intensos (azul): indican que en esos estados el coeficiente es más alto, lo que significa que un mayor nivel de educación universitaria se asocia con un incremento más fuerte en el PIB turístico.
- Colores más claros o neutros: sugieren que el impacto es más débil o incluso nulo.

En estados como CDMX, Jalisco y Nuevo León, la educación tiene un efecto notablemente positivo en el turismo, posiblemente debido a su capacidad para ofrecer servicios turísticos más sofisticados o mejor organizados.

En otras regiones, como el sureste o zonas del norte, el impacto es menor, lo que sugiere que la educación no se traduce tan directamente en desarrollo turístico allí —posiblemente por falta de infraestructura o enfoque económico distinto.



```{r warning=FALSE}
# Mapa 2: R² local del modelo GWR
tm_shape(df_mapa) +
  tm_polygons("local_R2", palette = "Oranges", title = "R² Local") +
  tm_layout(title = "Bondad de ajuste del modelo GWR por estado")
```



Este mapa indica qué tan bien explica el modelo GWR la variabilidad del PIB turístico en cada estado. Es decir, mide la capacidad explicativa del modelo en el espacio.

-Colores oscuros/naranjas intensos: reflejan valores de R² locales altos (mayor ajuste), es decir, en esos estados el modelo explica gran parte del PIB turístico.
-Colores claros o amarillos: muestran un menor ajuste local del modelo.

El modelo GWR funciona muy bien en ciertas regiones, como el centro y occidente del país, donde puede captar relaciones más claras entre las variables explicativas y el turismo.

En regiones con menor R² (por ejemplo, algunas zonas del sur), podrían estar influyendo factores no incluidos en el modelo (como inseguridad, conectividad o condiciones naturales).


```{r warning=FALSE}
# Mapa 3: Autocorrelación de residuos del modelo SDM
residuos_sdm <- residuals(modelo_sdm)
df_mapa$residuos_sdm <- residuos_sdm

tm_shape(df_mapa) +
  tm_polygons("residuos_sdm", palette = "-RdBu", midpoint = 0,
              title = "Residuos del modelo SDM") +
  tm_layout(title = "Distribución espacial de residuos (SDM)")

```

Este mapa presenta la distribución de los residuos del modelo SDM, es decir, las diferencias entre lo observado y lo predicho. Ayuda a detectar patrones espaciales no captados por el modelo.

- Colores rojos: indican residuos positivos= el modelo subestimó el PIB turístico en esas regiones.
- Colores azules: indican residuos negativos= el modelo sobreestimó el PIB turístico.
- Distribuciones agrupadas de un mismo color= podrían señalar autocorrelación espacial residual.

Si los errores están distribuidos de forma aleatoria, el modelo SDM captura bien las relaciones espaciales.

Si hay agrupaciones de errores similares (clusters), especialmente en zonas específicas (como el sur-sureste), sugiere que hay dinámicas locales no modeladas adecuadamente. Esto podría justificar incorporar variables adicionales o considerar un modelo aún más local.


# Conclusión
- El modelo GWR permite visualizar qué variables explican mejor el turismo en cada región, útil para diseñar políticas públicas regionalizadas.
- La educación universitaria es un fuerte motor del turismo en zonas urbanas desarrolladas, pero no es suficiente en regiones más marginadas.
- El ajuste del modelo varía, y se requieren enfoques distintos según la zona (por ejemplo, inversión en educación vs. infraestructura).
- Aunque el SDM reduce la autocorrelación, todavía hay patrones espaciales no explicados en algunas regiones, lo que valida la utilidad de modelos locales como GWR.

# Referencias 
- Comparing local regression to global regression - FasterCapital. (n.d.). FasterCapital. https://fastercapital.com/topics/comparing-local-regression-to-global-regression.html
- Team, W. (2025, April 23). Local regression. What Is It, Examples, Applications, Advantages. https://www.wallstreetmojo.com/local-regression/
- Conceptos básicos del análisis de regresión—ArcGIS Pro | Documentación. (n.d.). https://pro.arcgis.com/es/pro-app/latest/tool-reference/spatial-statistics/regression-analysis-basics.htm
- Autocorrelación espacial (I de Moran global) (Estadística espacial)—ArcGIS Pro | Documentación. (n.d.). https://pro.arcgis.com/es/pro-app/latest/tool-reference/spatial-statistics/spatial-autocorrelation.htm 
- ¿Qué es la regresión local y cómo se compara con la regresión global? (2024, May 8). www.linkedin.com. https://www.linkedin.com/advice/0/what-local-regression-how-does-compare-global-skills-statistics-o2soc?lang=es&originalSubdomain=es

