Solucion Taller 3 - Analisis de autocorrelacion espacial para los datos de Delincuencia y datos sociodemográficos de Cincinnati en 2008 - Datos Lattice

Autor: Gilbert Fabian Rodriguez Rodriguez
Fecha: 12/12/2025

1. Descripcion del conjunto de datos

El conjunto de datos utilizado comprende 457 unidades espaciales, correspondientes a bloques censales de los vecindarios Clifton, Walnut Hills, Evanston y Avondale en Cincinnati, Ohio, durante los últimos seis meses de 2008. Reúne 89 variables con información detallada sobre las características sociodemográficas y de vivienda de cada bloque, incluyendo identificadores espaciales, tamaño y área del polígono, total de población, distribución por sexo y grupos de edad, composición racial desagregada y ajustada, así como indicadores sobre hogares, número y tipo de unidades habitacionales, ocupación, tamaño promedio del hogar y densidad poblacional.

Adicionalmente, el dataset incorpora variables de criminalidad para tres tipos de delitos: burglary, assault y theft, expresadas tanto como conteos absolutos como mediante variables dummy que indican la presencia o ausencia de incidentes. Este conjunto de información permite realizar análisis espaciales avanzados, entre ellos el cálculo del índice de Moran, para evaluar la autocorrelación espacial de los delitos y explorar su relación con las características sociodemográficas y del entorno urbano.

2. Localizacion del area de estudio

El conjunto de datos analizado proviene de cuatro vecindarios de la ciudad de Cincinnati —Clifton, Walnut Hills, Evanston y Avondale— ubicados en el condado de Hamilton, Ohio (Estados Unidos). Las 457 observaciones corresponden a bloques censales individuales dentro de estas áreas y contienen información sociodemográfica y delictiva registrada durante los últimos seis meses de 2008. Cada registro representa un bloque censal específico en el cual se midieron variables asociadas a población, vivienda y criminalidad.

Figura 1. Mapa de Cincinati

## Reading layer `cincinnati' from data source 
##   `D:\15.UNAL_Estadistica\EstadisticaEspacialAplicada\Datos_Lattice\walnuthills_updated\cincinnati.shp' 
##   using driver `ESRI Shapefile'
## Simple feature collection with 457 features and 72 fields
## Geometry type: POLYGON
## Dimension:     XY
## Bounding box:  xmin: 1392544 ymin: 410976.5 xmax: 1412557 ymax: 427152.4
## Projected CRS: Lambert_Conformal_Conic

3. Calculo de los centroides

Con el propósito de definir la estructura de vecindad entre las unidades espaciales del área de Cincinnati y establecer un criterio de proximidad adecuado para la construcción de la matriz de pesos espaciales, se procedió a estimar el centroide geométrico de cada polígono que conforma el lattice. Esta estimación resulta fundamental para aplicar métodos basados en distancia mínima —como el vecino más cercano o el esquema de k-nearest neighbors—, ya que proporciona un punto representativo por unidad espacial que permite calcular de manera consistente las distancias euclidianas y, en consecuencia, determinar la configuración de vecindad que alimentará los modelos de dependencia espacial.

3.1 Estimacion de matrices de pesos espaciales para la variable dependiente

Posteriormente se procedió a la estimación de las estructuras de vecindad empleando diversos criterios comúnmente utilizados en el análisis espacial de datos lattice. Se consideraron los esquemas de contigüidad tipo Reina, Torre y Alfil, junto con métodos basados en proximidad geométrica, entre ellos el criterio de k-nearest neighbors—utilizando 𝑘=4 para garantizar una conectividad adecuada del grafo espacial—y el criterio de distancia mínima. A partir de cada uno de estos enfoques se construyeron las correspondientes matrices de pesos espaciales, las cuales permiten modelar la intensidad de interacción entre unidades territoriales adyacentes y constituyen la base para el análisis de dependencia espacial.

El trabajo se estructuró en dos componentes analíticos complementarios. En la primera etapa se consideró como variable dependiente la tasa de burglary (robo) y se aplicaron los distintos criterios de vecindad previamente descritos exclusivamente sobre dicha variable, con el propósito de caracterizar su estructura de autocorrelación espacial y evaluar la presencia de patrones tipo alto-alto o bajo-bajo en el territorio. En la segunda etapa se ajustó un modelo de regresión de tipo Poisson para explicar la variabilidad del delito de robo a partir de un conjunto de covariables y, a partir de la matriz de pesos espaciales del criterio reina, se calcularon los vectores propios de Moran, los cuales constituyen un conjunto de componentes espaciales derivados de la descomposición espectral de la matriz de conectividad y permiten capturar patrones de autocorrelación espacial a distintas escalas, tanto globales como locales. Una vez estimado el modelo, se analizaron los residuales para los cuales también se construyeron matrices de pesos espaciales utilizando los mismos criterios de vecindad, lo que permitió evaluar si persistía estructura espacial residual no explicada por el modelo. Esta estrategia conjunta posibilitó calcular y comparar el índice de Morán en ambas fases, diferenciando la autocorrelación espacial propia de la variable dependiente respecto de la que permanece después de controlar estadísticamente los efectos explicativos del modelo de regresión.

## Testing variable 1
## Testing variable 2
## Testing variable 3
## Testing variable 4
## Testing variable 5
## Testing variable 6
## Testing variable 7
## Testing variable 8
## Testing variable 9
## Testing variable 10
## Testing variable 11
## Testing variable 12
## Procedure stopped (alpha criteria): pvalue for variable 12 is 0.056000 (> 0.050000)

Los resultados obtenidos para la variable dependiente burglary, a partir de la estimación de diferentes esquemas de vecindad, permiten identificar patrones consistentes en la estructura de autocorrelación espacial. Bajo el criterio de contigüidad tipo Reina, el índice de Moran tomó un valor de 0.1161, lo que evidencia una autocorrelación espacial positiva, es decir, una tendencia a que las zonas con altos niveles de robo se agrupen espacialmente con áreas vecinas que presentan valores igualmente elevados. El p-valor, prácticamente igual a cero, respalda el rechazo de la hipótesis nula de ausencia de autocorrelación, lo cual confirma la presencia de dependencia espacial en los datos cuando se emplea esta matriz de pesos.

Una interpretación similar se observa al utilizar la matriz de pesos basada en el criterio Torre. En este caso, el índice de Moran alcanzó un valor de 0.1104 y el p-valor fue de 0.0008958, lo que vuelve a indicar evidencia estadísticamente significativa de autocorrelación espacial positiva, ahora asociada específicamente con la estructura de vecindad definida por el criterio Torre. Esta coherencia entre ambos criterios refuerza la conclusión de que la variable de robo exhibe una configuración espacialmente dependiente.

Al aplicar el criterio Alfil, la magnitud del índice de Moran se redujo respecto a los valores anteriores, lo que indica que la intensidad de autocorrelación positiva es más débil bajo esta estructura de vecindad. No obstante, el p-valor permaneció por debajo del nivel de significancia del 5%, por lo que aún se rechaza la hipótesis nula y se mantiene la conclusión de dependencia espacial, aunque con menor fuerza relativa en comparación con los criterios Reina y Torre.

Cuando se empleó un esquema de proximidad basado en k-vecinos más cercanos, con𝑘=4, el índice de Moran alcanzó un valor de 0.099, nuevamente positivo y de magnitud comparable a los resultados obtenidos con los criterios de Reina y Torre. El p-valor continuó siendo pequeño y menor al nivel de significancia, lo que permite concluir que la variable de robo conserva una estructura de autocorrelación espacial positiva bajo este enfoque de vecindad, aunque la magnitud del estadístico, al igual que en el criterio Alfil, no es tan fuerte como en los casos de contigüidad más estricta.

Vecindad mediante criterio reina

## 
##  Moran I test under randomisation
## 
## data:  datos$BURGLARY  
## weights: lw_queen    
## 
## Moran I statistic standard deviate = 3.7617, p-value = 8.438e-05
## alternative hypothesis: greater
## sample estimates:
## Moran I statistic       Expectation          Variance 
##      0.1161609416     -0.0026315789      0.0009972645

Vecindad mediante criterio torre

## 
##  Moran I test under randomisation
## 
## data:  datos$BURGLARY  
## weights: lw_rook  
## n reduced by no-neighbour observations  
## 
## Moran I statistic standard deviate = 3.1228, p-value = 0.0008958
## alternative hypothesis: greater
## sample estimates:
## Moran I statistic       Expectation          Variance 
##       0.110480308      -0.002638522       0.001312185

Vecindad mediante criterio alfil

## 
##  Moran I test under randomisation
## 
## data:  datos$BURGLARY  
## weights: lw_bishop  
## n reduced by no-neighbour observations  
## 
## Moran I statistic standard deviate = 1.3317, p-value = 0.09148
## alternative hypothesis: greater
## sample estimates:
## Moran I statistic       Expectation          Variance 
##       0.079431752      -0.003436426       0.003872315

Vecindad mediante criterio k vecinos mas cercanos

## 
##  Moran I test under randomisation
## 
## data:  datos$BURGLARY  
## weights: lw_knn4    
## 
## Moran I statistic standard deviate = 3.0942, p-value = 0.0009866
## alternative hypothesis: greater
## sample estimates:
## Moran I statistic       Expectation          Variance 
##       0.099461341      -0.002631579       0.001088633

3.2 Estimacion de mejor matriz de pesos espaciales mediante metodo de Monte Carlo para la variable dependiente

Con el propósito de emplear un procedimiento más robusto para la estimación del índice de Moran y reducir la dependencia de los supuestos inherentes al contraste paramétrico, aunque a costa de un incremento sustancial en el costo computacional, se optó por implementar un esquema de simulación Monte Carlo con 99.999 permutaciones. A partir de este enfoque se recalcularon las matrices de pesos espaciales bajo los criterios de vecindad de Reina, Torre, Alfil, distancia mínima y k vecinos más cercanos, generando para cada estructura de dependencia la distribución empírica del estadístico bajo la hipótesis nula de ausencia de autocorrelación espacial. Posteriormente, y mediante rutinas que permitieron identificar el criterio de vecindad asociado al p-valor más reducido, se determinó que la estructura basada en el criterio torre presentó la señal más intensa de autocorrelación espacial, con un índice de Moran de 0.1140 y un p-valor de 0.002, por lo que fue seleccionada como la matriz de pesos espaciales que captura con mayor claridad el patrón de dependencia espacial presente en los datos.

## 
## Ejecutando Monte Carlo para: queen 
## 
## Ejecutando Monte Carlo para: rook 
## 
## Ejecutando Monte Carlo para: bishop 
## 
## Ejecutando Monte Carlo para: knn4

Resultados del indice de Moran mediante estimacion de monte carlo

##     name      I_obs    p_mc
## 1  queen 0.11616094 0.00122
## 2   rook 0.11048031 0.00395
## 4   knn4 0.09946134 0.00454
## 3 bishop 0.07943175 0.05648

## 
## La matriz con mayor autocorrelación espacial (p_mc más pequeño) es: queen

4. Ajuste por minimos cuadrados ordinarios al modelo de regresion Poisson

En esta etapa del análisis —correspondiente al segundo componente del estudio— se ajustó un modelo de regresión Poisson con el objetivo de explicar la variabilidad de la variable dependiente robos a partir de la covariable dicotómica que identifica si la persona encuestada declaró poseer una profesión o carrera universitaria, junto con el vector propio de Morán estimado a partir de la matriz de pesos espaciales construida bajo el criterio de vecindad tipo Reina. Ambos predictores fueron incorporados para capturar la estructura espacial subyacente y, de forma simultánea, atenuar la presencia de autocorrelación espacial en los errores del modelo, garantizando un ajuste estadísticamente consistente con la naturaleza espacial del fenómeno.

El proceso de selección del modelo se implementó mediante el algoritmo stepwise basado en el criterio de información de Akaike (AIC), lo que permitió evaluar de manera iterativa el aporte explicativo marginal de cada covariable y depurar el conjunto inicial según la contribución de cada una a la reducción del AIC. Esta estrategia condujo a la identificación de un modelo parsimonioso cuyos parámetros estimados resultaron significativos al 95%, configurando un ajuste adecuado para los propósitos del estudio.

A partir del modelo final se obtuvieron los residuales, los cuales se utilizaron como insumo para continuar con la fase metodológica destinada a la estimación de matrices de pesos espaciales, primero mediante el enfoque de aproximación normal y posteriormente recurriendo al esquema de permutaciones de Monte Carlo, con el fin de evaluar la presencia de autocorrelación espacial residual y verificar la idoneidad del ajuste.

## 
## Call:
## glm(formula = formula_MEM, family = poisson(link = "log"), data = datos2_MEM, 
##     offset = log(POPULATION))
## 
## Coefficients:
##               Estimate Std. Error z value Pr(>|z|)    
## (Intercept) -5.1980256  0.1031033 -50.416  < 2e-16 ***
## F1_RACE     -0.0009274  0.0002920  -3.176 0.001495 ** 
## MEM2         0.1582573  0.0592441   2.671 0.007556 ** 
## MEM70        0.1130520  0.0463750   2.438 0.014778 *  
## MEM134       0.1530486  0.0476086   3.215 0.001306 ** 
## MEM26        0.2543370  0.0898857   2.830 0.004661 ** 
## MEM22        0.2461674  0.0869195   2.832 0.004624 ** 
## MEM86       -0.1859166  0.0693943  -2.679 0.007381 ** 
## MEM23        0.2748696  0.0971824   2.828 0.004678 ** 
## MEM36       -0.1027242  0.0521108  -1.971 0.048694 *  
## MEM37       -0.2088314  0.0589997  -3.540 0.000401 ***
## MEM29        0.1579229  0.0627068   2.518 0.011788 *  
## MEM114      -0.1442351  0.0752951  -1.916 0.055416 .  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for poisson family taken to be 1)
## 
##     Null deviance: 423.01  on 380  degrees of freedom
## Residual deviance: 331.28  on 368  degrees of freedom
## AIC: 631.58
## 
## Number of Fisher Scoring iterations: 6

4.1 Estimacion de matriz de pesos espaciales para los residuales por aproximacion normal

A partir de la estimación de las matrices de pesos espaciales bajo los criterios de Reina, Torre, Alfil, k-vecinos más cercanos, distancia mínima y Alfil modificado, y utilizando los residuales del modelo de regresión poisson, se procedió a calcular el índice de Moran mediante el enfoque de aproximación normal. Los resultados obtenidos permiten establecer una interpretación consistente en la mayoría de los casos. Para el criterio de Reina, el valor-p asociado al estadístico de Moran fue de 0.9927, cifra considerablemente superior al umbral de significancia del 5%. En consecuencia, no se rechaza la hipótesis nula de ausencia de autocorrelación espacial en los residuales, lo que implica que, bajo esta matriz de pesos espaciales, los errores del modelo pueden considerarse espacialmente independientes. Un comportamiento análogo se evidencia para los criterios de Torre, k-vecinos más cercanos, distancia mínima y Alfil modificado, ya que todos producen valores-p igualmente elevados que conducen a la misma conclusión inferencial.

No obstante, el criterio de Alfil presenta un resultado discrepante respecto a los demás. Este esquema de vecindad, al ser menos restrictivo en la definición de contigüidad, genera una matriz de pesos que permite capturar interacciones espaciales más amplias y, como consecuencia, produce un índice de Moran que sugiere la presencia de autocorrelación espacial residual. Esta diferencia evidencia que, bajo dicho criterio de vecindad, los residuales mantienen dependencia espacial significativa, en contraste con lo observado en los otros esquemas de pesos espaciales

## $QUEEN
## 
##  Moran I test under randomisation
## 
## data:  residuales  
## weights: lw_queen    
## 
## Moran I statistic standard deviate = -2.4437, p-value = 0.9927
## alternative hypothesis: greater
## sample estimates:
## Moran I statistic       Expectation          Variance 
##      -0.081345789      -0.002631579       0.001037571 
## 
## 
## $ROOK
## 
##  Moran I test under randomisation
## 
## data:  residuales  
## weights: lw_rook  
## n reduced by no-neighbour observations  
## 
## Moran I statistic standard deviate = -2.4701, p-value = 0.9932
## alternative hypothesis: greater
## sample estimates:
## Moran I statistic       Expectation          Variance 
##      -0.093910587      -0.002638522       0.001365379 
## 
## 
## $BISHOP
## 
##  Moran I test under randomisation
## 
## data:  residuales  
## weights: lw_bishop  
## n reduced by no-neighbour observations  
## 
## Moran I statistic standard deviate = -0.48318, p-value = 0.6855
## alternative hypothesis: greater
## sample estimates:
## Moran I statistic       Expectation          Variance 
##      -0.034300675      -0.003436426       0.004080282 
## 
## 
## $KNN4
## 
##  Moran I test under randomisation
## 
## data:  residuales  
## weights: lw_knn4    
## 
## Moran I statistic standard deviate = -2.088, p-value = 0.9816
## alternative hypothesis: greater
## sample estimates:
## Moran I statistic       Expectation          Variance 
##      -0.072716644      -0.002631579       0.001126611 
## 
## 
## $DIST
## 
##  Moran I test under randomisation
## 
## data:  residuales  
## weights: lw_dist    
## 
## Moran I statistic standard deviate = -1.1286, p-value = 0.8705
## alternative hypothesis: greater
## sample estimates:
## Moran I statistic       Expectation          Variance 
##     -0.0165303357     -0.0026315789      0.0001516496

4.2 Estimacion de mejor matriz de pesos espaciales para los residuales por metodo de montecarlo

Posteriormente, tras obtener los resultados iniciales, se aplicó el procedimiento de inferencia mediante permutaciones Monte Carlo sobre los residuales del modelo con el fin de identificar la matriz de pesos espaciales que presentara la menor evidencia de autocorrelación residual bajo los distintos criterios de vecindad. Para ello se empleó un número máximo de 999 999 permutaciones, lo que permitió estimar de manera robusta la distribución empírica del estadístico de Moran y, en consecuencia, evaluar con mayor precisión la significancia del patrón espacial de los errores. A partir de este proceso se determinó que la matriz derivada del criterio Torre es la que exhibe la menor autocorrelación espacial residual, coherente con la expectativa teórica derivada del ajuste previo del modelo de regresión lineal multivariado, en el cual se asume que los residuales deberían aproximarse a un comportamiento espacialmente independiente.

## 
## Ejecutando Monte Carlo (residuales) para: queen 
## 
## Ejecutando Monte Carlo (residuales) para: rook 
## 
## Ejecutando Monte Carlo (residuales) para: bishop 
## 
## Ejecutando Monte Carlo (residuales) para: knn4

Eleccion de la mejor matriz de pesos espaciales mediante el metodo de montecarlo

##     name       I_obs    p_mc
## 3 bishop -0.03430068 0.74252
## 4   knn4 -0.07271664 0.98555
## 2   rook -0.09391059 0.99459
## 1  queen -0.08134579 0.99486

## 
## La matriz con mayor p_mc (más compatible con ausencia de autocorrelación) es: queen

Con el propósito de representar de manera exploratoria la estructura de dependencia espacial tanto de la variable BURGLARY como de los residuales provenientes del modelo de regresión lineal multivariado, se procedió a construir el BoxMap, una herramienta fundamental del análisis espacial en datos tipo lattice. Este mapa permite identificar visualmente los patrones locales de autocorrelación espacial, clasificando cada unidad geográfica según su pertenencia a conglomerados espaciales (local clusters) del tipo High–High, Low–Low, High–Low o Low–High, definidos a partir de los valores estandarizados y de su rezago espacial bajo la matriz de pesos W.

En el caso de la variable BURGLARY sin haber removido previamente la autocorrelación espacial, el BoxMap revela la presencia de varias regiones donde se conforman conglomerados espaciales claramente definidos, particularmente agrupaciones High–High en zonas de Cincinnati que presentan concentraciones elevadas de robos y que, simultáneamente, están rodeadas de vecindarios que exhiben niveles igualmente altos. Este comportamiento es coherente con la noción de dependencia espacial positiva, en la que el riesgo o incidencia del fenómeno parece “propagarse” a través del sistema de vecindad, sugiriendo que el contexto geográfico inmediato influye significativamente sobre la intensidad local del delito.

Por su parte, el Moran Scatterplot complementa la evidencia obtenida mediante el BoxMap, ya que la pendiente positiva de la recta ajustada se ubica principalmente en el primer cuadrante y alcanza parcialmente el tercer cuadrante. Esta configuración confirma la existencia de asociaciones espaciales del tipo High–High y Low–Low, pues indica que las áreas con altos niveles de BURGLARY tienden a estar rodeadas por unidades vecinas con valores igualmente altos, mientras que las áreas con valores bajos se encuentran dentro de entornos con niveles también bajos. La presencia simultánea de ambos patrones constituye un indicio robusto de autocorrelación espacial positiva, coherente con el valor del índice global de Moran estimado.

En conjunto, tanto el BoxMap como el Moran Scatterplot proporcionan una evidencia convergente de que la variable BURGLARY presenta una estructura espacial no aleatoria caracterizada por la formación de conglomerados homogéneos, lo cual respalda la existencia de dependencia espacial y justifica la necesidad de incorporar técnicas formales de modelamiento espacial en el análisis.

En relación con el BoxMap asociado al Índice de Morán calculado sobre los residuales, se observa una disminución sustancial de los conglomerados espaciales del tipo alto-alto, es decir, aquellas unidades espaciales con niveles elevados de robos rodeadas por vecinos con valores igualmente altos. Esta reducción indica que, tras el ajuste del modelo, la estructura de dependencia espacial presente en la variable original ha sido removida de manera adecuada. En su lugar predominan polígonos clasificados con tonalidades grises, lo que corresponde a categorías no significativas dentro de la tipología del BoxMap y sugiere la ausencia de patrones espaciales sistemáticos en los residuales. Este comportamiento es coherente con lo esperado en un análisis de autocorrelación espacial de errores, dado que un modelo correctamente especificado debería producir un Índice de Morán cercano a cero, reflejando independencia espacial residual y ausencia de estructura espacial remanente.

Finalmente, al examinar el diagrama de dispersión del Índice de Morán calculado para los residuales, se aprecia que el coeficiente estimado es prácticamente igual a cero, lo que indica ausencia de dependencia espacial remanente. Esta interpretación se refuerza con el p-valor de 0.996 obtenido bajo el criterio de vecindad tipo reina (queen), el cual evidencia que no existe soporte estadístico para rechazar la hipótesis nula de independencia espacial. En consecuencia, los residuales no presentan autocorrelación espacial significativa, lo que sugiere que el modelo logra capturar adecuadamente la estructura espacial de la variable de interés.