Tercer Parcial. 2025-II
Estadística Espacial
Datos de Área
En el presente trabajo se realizará un análisis de los datos correspondientes a la ciudad de Chicago, utilizando las variables del año 2014 disponibles en GeoDa Center. La ciudad de chicago tiene 77 areas de estudio
El estudio modelará dos variables de respuesta:
Regresión continua:
Tasa de pobreza por cada área
\[ \frac{\text{Número de pobres 2014}}{\text{Población total}} \]
Dado que la variable se encuentra acotada en el intervalo \([0,1]\), inicialmente se consideró el ajuste de un modelo Beta. Sin embargo, tras evaluar diferentes especificaciones, se observó que el modelo con distribución normal proporcionó un mejor desempeño y estimaciones más estables. Por lo tanto, en el presente análisis se presentan únicamente los resultados obtenidos con dicho modelo.
Regresión conteo:
Número de desempleados: Número de personas desempleadas en 2014 por área.
Funciones implementadas
Función clasificación descriptiva de los datos:
Para la detección de valores atípicos en las variables espaciales se implementó una función basada en la metodología de diagramas de caja. Esta función, denominada boxmap, clasifica los valores de la variable de interés en cinco categorías:
Muy Baja (outlier): valores inferiores al límite inferior, definido como \(Q_{1}-1.5*IQR\).
Baja: valores entre el límite inferior y el primer cuartil \((Q_{1})\).
Media: valores comprendidos entre el primer cuartil \(Q_{1}\) y el tercer cuartil \(Q_{3}\).
Alta: valores entre el tercer cuartil \(Q_{3}\). y el límite superior, definido como \(Q_{3}+1.5*IQR\).
Muy Alta (outlier): valores superiores al límite superior. \(Q_{3}+1.5*IQR\)
Donde \(Q_{1}\) y \(Q_{3}\) corresponden al primer y tercer cuartil, respectivamente, e \(IQR= Q_3-Q_1\) representa el rango intercuartílico.
Determinación de la matriz \(W\) óptima
Se implementó una función destinada a identificar la matriz de pesos espaciales \(W\) que produce el p-valor más bajo en el test de Moran. El objetivo es seleccionar la configuración de vecindad que maximiza la detección de autocorrelación espacial en la variable de respuesta. Un p-valor reducido indica que la matriz \(W\) seleccionada resulta particularmente adecuada para capturar la estructura espacial subyacente que influye en la distribución de la variable analizada.
Se implementó una función destinada a identificar la matriz de pesos espaciales \(W\) que produce el p-valor más bajo en el test de Moran. El objetivo es seleccionar la configuración de vecindad que maximiza la detección de autocorrelación espacial en la variable de respuesta. Un p-valor reducido indica que la matriz \(W\) seleccionada resulta particularmente adecuada para capturar la estructura espacial subyacente que influye en la distribución de la variable analizada.
Regresión datos continuos: Tasa de pobreza
Estadística Descriptiva
Como se observa en la Figura 1 de manera descriptiva, las mayores concentraciones de pobreza se localizan principalmente en las zonas centrales y en el sureste de Chicago, donde se registran las tasas más elevadas. En contraste, las áreas con menores tasas de pobreza se encuentran en la zona norte de la ciudad. Asimismo, en el suroeste se identifican valores atípicos asociados a tasas altas de pobreza, mientras que en el sur de Chicago se evidencia una presencia marcada de outliers que reflejan concentraciones extremas de esta condición socioeconómica.
Matriz de adyacencia (W)
Characteristics of weights list object:
Neighbour list object:
Number of regions: 77
Number of nonzero links: 362
Percentage nonzero weights: 6.105583
Average number of links: 4.701299
Weights style: B
Weights constants summary:
n nn S0 S1 S2
B 77 5929 362 724 7496
Como se describe en la Sección Sección 4.2, la función implementada permite seleccionar la configuración de vecindad que maximiza la detección de autocorrelación espacial. En este análisis, la matriz de pesos espaciales que cumplió con el criterio de optimización corresponde a una Torre Binaria de Primer orden, la cual resultó ser la más adecuada para capturar la estructura espacial subyacente de la variable estudiada mostrada en la Figura 2
Test Global de Morgan
| Estadistico | Expectation | Varianza | Valor p | |
|---|---|---|---|---|
| Prueba de moran | 0.5022671 | -0.0131579 | 0.0050979 | 0 |
Test local de LISA
- en la Figura 3 podemos observar clusterings en el norte para baja tasa de
Modelo de regresión tasa de pobreza
Para explicar el tasa de pobreza se aplicaron las siguientes variables:
Estatus económico
Ingreso promedio per-cápita
Tasa de adultos sin diploma de educación secundaria (2014)
\[ \frac{\text{Número de adultos sin diploma de escuela secundaria en 2014}}{\text{Personas con 21 años o más}} \]
- Tasa de desocupación
\[ \frac{\text{Número Personas sin empleo en 2014}}{\text{Número de personas en la fuerza laboral en 2014}} \]
- Tasa de crimen general
Modelo SAR
\[ \mathbf{y} = \rho \mathbf{W} \mathbf{y} + \mathbf{X} \beta + \mathbf{\varepsilon}, \quad \text{donde } \mathbf{\varepsilon} \sim N(0, \sigma^2 \mathbf{I}) \]
- \(\mathbf{y}\): Variable dependiente (vector \(n \times 1\)).
- \(\rho\): Coeficiente de autocorrelación espacial.
- \(\mathbf{W}\): Matriz de pesos espaciales (\(n \times n\)).
- \(\mathbf{X}\): Matriz de variables explicativas (\(n \times k\)).
- \(\beta\): Coeficientes de las variables independientes.
Al momento correr el modelo SAR el test de moran global nos arrojó
p-valor ≈ 1.1e-06: lo que significa que rechazamos la hipótesis nula de ausencia de autocorrelación espacial en los residuos.
El Estadistico de Morgan Global dió = 0.325 muy por encima de 0
¿Qué quiere decir?
El modelo lineal no logra capturar completamente la estructura espacial presente en los datos, lo que sugiere la existencia de factores espaciales no observados que influyen en la distribución de la pobreza. En consecuencia, resulta probable que un enfoque más adecuado consista en emplear un modelo que incorpore explícitamente un componente espacial para representar de forma más precisa dichas dependencias.
Modelo SEM
El modelo SEM captura autocorrelación espacial en los errores:
\[ \mathbf{y} = \mathbf{X}\beta + \mathbf{u}, \quad \text{donde } \mathbf{u} = \lambda \mathbf{W} \mathbf{u} + \mathbf{\varepsilon}, \quad \mathbf{\varepsilon} \sim N(0, \sigma^2 \mathbf{I}) \]
- \(\mathbf{y}\): Variable dependiente (\(n \times 1\)).
- \(\mathbf{X}\): Matriz de variables explicativas (\(n \times k\)).
- \(\beta\): Coeficientes de las variables independientes (\(k \times 1\)).
- \(\lambda\): Coeficiente de autocorrelación espacial en errores.
- \(\mathbf{W}\): Matriz de pesos espaciales (\(n \times n\)).
- \(\mathbf{\varepsilon}\): Error aleatorio no espacial.
Call:errorsarlm(formula = pov_rate ~ SESave + PerCInc14 + rate_noedu +
rate_unemp + PropCrRt, data = comarea_sf, listw = mejor_W)
Residuals:
Min 1Q Median 3Q Max
-0.10477989 -0.02153697 -0.00077274 0.01573123 0.08590725
Type: error
Coefficients: (asymptotic standard errors)
Estimate Std. Error z value Pr(>|z|)
(Intercept) 6.3695e-01 8.0584e-02 7.9042 2.665e-15
SESave -9.8067e-03 1.1454e-03 -8.5618 < 2.2e-16
PerCInc14 1.7532e-08 1.8098e-08 0.9688 0.3327
rate_noedu 3.6043e-01 7.9808e-02 4.5163 6.294e-06
rate_unemp 5.1158e-01 1.0476e-01 4.8832 1.044e-06
PropCrRt 3.1823e-01 3.1658e-01 1.0052 0.3148
Lambda: 0.14551, LR test value: 22.792, p-value: 1.8054e-06
Asymptotic standard error: 0.015873
z-value: 9.1671, p-value: < 2.22e-16
Wald statistic: 84.037, p-value: < 2.22e-16
Log likelihood: 137.7711 for error model
ML residual variance (sigma squared): 0.0014172, (sigma: 0.037646)
Number of observations: 77
Number of parameters estimated: 8
AIC: -259.54, (AIC for lm: -238.75)
El modelo de error espacial ajustado para la tasa de pobreza evidencia la presencia de autocorrelación espacial en los residuos, confirmada por el parámetro \(\lambda = 0.1455\), cuyo valor es estadísticamente significativo (\(p < 2.22 \times 10^{-16}\)). El test de razón de verosimilitud (LR = 22.79, \(p \approx 1.8 \times 10^{-6}\)) respalda la incorporación del componente espacial, indicando que el modelo SAR error ofrece un ajuste superior al modelo lineal clásico.
En cuanto a los coeficientes, se observa que el índice socioeconómico agregado (Estatus económico) presenta una relación negativa y significativa con la tasa de pobreza (\(\hat{\beta} = -0.0098\), \(p < 2.2 \times 10^{-16}\)), mientras que la Tasa de adultos sin diploma de educación secundaria y la tasa de desocupación muestran asociaciones positivas y significativas con la variable respuesta. Por el contrario, el ingreso per cápita y la tasa de criminalidad no presentan efectos estadísticamente relevantes dentro de este modelo.
El logaritmo de la verosimilitud (\(\ell = 137.77\)) y el AIC reducido (-259.54 frente a -238.75 del modelo lineal) refuerzan la superioridad del ajuste espacial frente al modelo clásico, sugiriendo que la inclusión de un componente de error espacial permite capturar de manera más adecuada la estructura de dependencia presente en los datos de pobreza de Chicago.
Validación de supuestos
Autocorrelación espacial:
| Prueba | Estadístico | Expectación | Varianza | Valor.p | |
|---|---|---|---|---|---|
| Moran I statistic | Moran I | 0.04215 | -0.01316 | 0.00509 | 0.21913 |
| Geary C statistic | Geary's C | 0.88046 | 1.00000 | 0.00805 | 0.09140 |
| Global G statistic | Getis-Ord G | 0.06161 | 0.06186 | 0.00000 | 0.55778 |
Los índices globales calculados sobre los residuos del modelo SEM indican ausencia de autocorrelación espacial significativa. El estadístico de Moran I \(I = 0.0422\), \(p \approx 0.219\) se encuentra próximo a cero y su p-valor no permite rechazar la hipótesis de aleatoriedad espacial. De forma consistente, el índice de Geary’s C \(C = 0.8805\), \(p \approx 0.091\) se aproxima al valor esperado de 1, lo que respalda la ausencia de dependencia espacial en los residuos. Finalmente, el estadístico Getis-Ord G \(G = 0.0616\), \(p \approx 0.558\)$ no muestra evidencia de agrupamientos de valores extremos (hotspots o coldspots). En conjunto, estos resultados sugieren que el modelo SEM ha capturado adecuadamente la estructura espacial global presente en los datos, dejando residuos con comportamiento cercano al aleatorio.
Dado que ninguno de los índices globales de autocorrelación espacial presentó evidencia estadísticamente significativa, puede inferirse que los residuos no exhiben dependencia espacial remanente. Esto sugiere que el modelo SEM logró capturar de manera adecuada la estructura de tendencia espacial presente en los datos originales. El análisis LISA aplicado a los residuos del modelo SEM no evidencia la presencia de patrones de autocorrelación espacial local relevantes, sugiriendo una distribución aleatoria sin formación clara de clústeres significativos.
Normalidad en los errores
Shapiro-Wilk normality test
data: resid_sem
W = 0.98242, p-value = 0.366
Multicolinealidad
| Variable | VIF |
|---|---|
| Estatus económico | 2.786 |
| Ingreso promedio per-cápita | 1.434 |
| Tasa de adultos sin diploma de educación secundaria | 1.501 |
| Tasa de desocupación | 2.991 |
| Tasa de crimen general | 1.440 |
Todos los VIF están muy por debajo del umbral de 5, lo que indica que no existe evidencia de multicolinealidad problemática entre las variables explicativas.
Predicciones
[1] 0.0376461
El error promedio de predicción es bajo en comparación con el rango total de la variable y también es relativamente pequeño frente al valor medio de la tasa de pobreza. Esto sugiere que el modelo SEM logra capturar adecuadamente la variabilidad espacial y explicar la variable de interés, ajustándose bien a los datos.
| Estadístico | Valor |
|---|---|
| Mínimo | 0.0245 |
| 1er Cuartil | 0.1445 |
| Mediana | 0.2095 |
| Media | 0.2335 |
| 3er Cuartil | 0.3286 |
| Máximo | 0.6277 |
Regresión datos de conteo: Número de personas desempleadas en 2014
Estadística descriptiva
La mayor parte de las áreas se encuentran en categorías Media y Alta, lo que sugiere una distribución relativamente homogénea con zonas focalizadas de mayor desempleo.
Los polígonos en color azul oscuro corresponden a outliers altos, donde el número de desempleados excede el límite superior de 1.5×IQR, indicando concentraciones atípicas de desempleo.
Las áreas en naranja claro (Baja) representan regiones con valores significativamente menores al primer cuartil, mientras que no se observan outliers bajos en esta clasificación.
Posible patrón espacial:
Se observan clústeres de valores altos en el sur y sureste de la ciudad, lo cual coincide con patrones socioeconómicos documentados en estudios de segregación urbana en Chicago.
Las zonas con menor número de desempleados se concentran hacia el norte y algunas áreas céntricas, reflejando heterogeneidad socioespacial.
Matriz de adyacencia (W)
En este análisis, la matriz de pesos espaciales seleccionada para modelar la variable Número de desempleados correspondió a una configuración de Gabriel binaria. Esta estructura de vecindad permitió capturar de manera más eficiente la dependencia espacial presente en los datos, al reflejar conexiones directas entre áreas geográficas que comparten proximidad y relaciones significativas en términos de desempleo. La elección de esta matriz resultó ser la más adecuada para representar la estructura espacial subyacente de la variable analizada.
# Test Global de Moran usando la mejor_W
moran_mejorW <- moran.test(comarea_sf$Unemp14, mejor_W)Test Global de Moran
| Estadistico | Expectation | Varianza | Valor p | |
|---|---|---|---|---|
| Prueba de moran | 0.209755 | -0.013156 | 0.0056675 | 0.0015 |
El Índice Global de Moran aplicado al Número de desempleados con la matriz de pesos espaciales mejor_W produjo un valor de \(I = 0.2098\), con una expectativa bajo aleatorización de \(E[I] = -0.0132\) y una varianza estimada de \(Var[I] = 0.0057\). El estadístico presentó una desviación estándar de \(2.961\) y un p-valor = 0.0015, indicando que la hipótesis nula de ausencia de autocorrelación espacial se rechaza al 1% de significancia.
En términos espaciales, el valor positivo de \(I\) refleja la existencia de agrupamiento espacial de valores similares en el número de desempleados entre áreas vecinas. La significancia estadística respalda que la distribución observada no es aleatoria, sino que sigue una estructura espacial subyacente donde zonas con altos niveles de desempleo tienden a concentrarse entre sí, al igual que las áreas con bajos niveles de desempleo. Este hallazgo confirma la pertinencia de incluir explícitamente un componente espacial al modelar esta variable.
Test local de LISA
No se observa patrones espaciales locales.
Modelo de regresión número de desempleados
Dado que el Número de desempleados corresponde a una variable de conteo, se implementará una estrategia de aproximación en dos etapas. En la primera etapa, la variable será modelada bajo una distribución Poisson, adecuada para el tratamiento de datos discretos no negativos. En la segunda etapa, los residuos obtenidos del modelo inicial se incorporarán en un modelo espacial, con el fin de capturar la dependencia espacial no explicada por la estructura de conteo.
Variables del modelo
El análisis utiliza como variable respuesta el número de personas desempleadas en 2014 (Unemp14). Las variables explicativas incluyen indicadores socioeconómicos, educativos y demográficos:
- PerCInc14: ingreso per cápita promedio en 2014.
- Pov14: número de personas en condición de pobreza en 2014.
- Pov50P: proporción de personas con ingresos por debajo del 50% de la línea de pobreza.
- NoHS14: número de adultos sin diploma de educación secundaria en 2014.
- ClgGrad14: número de personas con título universitario en 2014.
- Wht14P: proporción de población blanca en 2014.
- Blk14P: proporción de población afroamericana en 2014.
- Hisp14P: proporción de población hispana en 2014.
- SESave: índice socioeconómico agregado.
- HISave: índice de heterogeneidad étnica agregado.
- COIave: índice compuesto de oportunidades en la comunidad.
Estas variables permiten capturar las condiciones socioeconómicas, educativas y de composición étnica que pueden influir en la distribución espacial del desempleo.
Primera fase
Se implementará un modelo lineal generalizado (GLM) empleando una variable de respuesta de tipo conteo, lo que permite modelar adecuadamente la naturaleza discreta y no negativa del Número de desempleados. Este enfoque utiliza la distribución Poisson como base y un enlace logarítmico para capturar la relación entre la media de la variable respuesta y los predictores explicativos.
\[ Y_i \sim \text{Poisson}(\mu_i), \quad Y_i \in \{0,1,2,\dots\} \]
donde:
- \(Y_i\): número de eventos (en este caso, número de desempleados en el área \(i\)).
- \(\mu_i = \mathbb{E}[Y_i]\): media del conteo para el área \(i\).
El enlace logarítmico relaciona la media con los predictores:
\[ \log(\mu_i) = \beta_0 + \beta_1 X_{i1} + \beta_2 X_{i2} + \cdots + \beta_p X_{ip} \]
Equivalente a:
\[ \mu_i = \exp\left(\beta_0 + \beta_1 X_{i1} + \beta_2 X_{i2} + \cdots + \beta_p X_{ip}\right) \]
Componentes del modelo con distribución Poisson
- Componente aleatorio: \(Y_i \sim \text{Poisson}(\mu_i)\)
- Componente sistemático: combinación lineal de los predictores \(X_{ij}\)
- Función de enlace: logaritmo natural \(g(\mu)=\log(\mu)\)
Call:
glm(formula = formula_unemp, family = poisson(link = "log"),
data = comarea_sf)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.771e+00 7.972e-02 -34.755 < 2e-16 ***
PerCInc14 -1.245e-07 2.626e-08 -4.741 2.13e-06 ***
Pov14 -2.524e-06 9.195e-07 -2.745 0.00605 **
Pov50P -2.854e-02 2.141e-03 -13.331 < 2e-16 ***
NoHS14 -6.671e-06 1.570e-06 -4.250 2.14e-05 ***
ClgGrad14 6.116e-06 9.691e-07 6.311 2.78e-10 ***
Wht14P -4.944e-03 2.935e-04 -16.849 < 2e-16 ***
Blk14P 3.162e-03 3.020e-04 10.470 < 2e-16 ***
Hisp14P 7.828e-04 2.434e-04 3.217 0.00130 **
SESave -6.058e-04 1.027e-03 -0.590 0.55535
HISave 1.034e-02 8.714e-04 11.872 < 2e-16 ***
COIave -3.045e-01 1.872e-02 -16.270 < 2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 28923.6 on 76 degrees of freedom
Residual deviance: 4921.6 on 65 degrees of freedom
AIC: 5669.7
Number of Fisher Scoring iterations: 4
El modelo lineal generalizado con distribución Poisson ajustado para el número de personas desempleadas en 2014 evidencia que la mayoría de los predictores presentan relaciones estadísticamente significativas con la variable de respuesta.
Los resultados muestran que el ingreso promedio per cápita en 2014, el número de personas en condición de pobreza, la proporción de individuos con ingresos por debajo del 50% de la línea de pobreza y la tasa de adultos sin diploma de educación secundaria presentan coeficientes negativos, indicando que un aumento en estos indicadores está asociado a una disminución en el número de desempleados cuando las demás variables se mantienen constantes.
En contraste, el número de personas con título universitario, la proporción de población afroamericana, la proporción de población hispana y el índice de heterogeneidad étnica agregado presentan efectos positivos y altamente significativos, sugiriendo que incrementos en estas variables se asocian con un mayor número de desempleados.
El índice socioeconómico agregado no muestra un efecto significativo dentro del modelo, mientras que el índice de oportunidades comunitarias evidencia una relación negativa, indicando que mejores condiciones de oportunidad comunitaria tienden a asociarse con menores niveles de desempleo.
En términos de ajuste global, la deviance residual (4921.6) muestra una reducción sustancial respecto a la deviance nula (28923.6), lo cual indica que el modelo captura una parte importante de la variabilidad observada. El valor de AIC = 5669.7 respalda la adecuación del ajuste bajo la familia Poisson.
Moran I test under randomisation
data: resid_glm
weights: mejor_W
Moran I statistic standard deviate = 3.3324, p-value = 0.0004305
alternative hypothesis: greater
sample estimates:
Moran I statistic Expectation Variance
0.241710439 -0.013157895 0.005849513
Test de moran primera fase
En la primera etapa, donde se ajustó únicamente el modelo lineal generalizado (MLG) con distribución Poisson sin incluir componentes espaciales, se evaluó la presencia de autocorrelación espacial en los residuos mediante el Índice Global de Moran.El estadístico obtenido (\(I = 0.242\)) es positivo y significativamente diferente de cero (p ≈ 0.00043), lo que indica que los residuos presentan agrupamiento espacial en lugar de distribuirse de manera aleatoria.Este resultado sugiere que el MLG Poisson, en su especificación inicial, no captura completamente la estructura espacial de los datos. Por tanto, se evidencia la necesidad de incorporar explícitamente una componente espacial en el modelo para corregir la dependencia entre áreas y mejorar la estimación de los efectos.
Segunda fase
Modelo SEM
El modelo SEM captura autocorrelación espacial en los errores:
\[ \mathbf{y} = \mathbf{X}\beta + \mathbf{u}, \quad \text{donde } \mathbf{u} = \lambda \mathbf{W} \mathbf{u} + \mathbf{\varepsilon}, \quad \mathbf{\varepsilon} \sim N(0, \sigma^2 \mathbf{I}) \]
- \(\mathbf{y}\): Variable dependiente (\(n \times 1\)).
- \(\mathbf{X}\): Matriz de variables explicativas (\(n \times k\)).
- \(\beta\): Coeficientes de las variables independientes (\(k \times 1\)).
- \(\lambda\): Coeficiente de autocorrelación espacial en errores.
- \(\mathbf{W}\): Matriz de pesos espaciales (\(n \times n\)).
- \(\mathbf{\varepsilon}\): Error aleatorio no espacial.
En la segunda fase del procedimiento en dos etapas, se emplea un modelo de error espacial (SEM) donde los residuos del modelo Poisson obtenido en la primera fase se utilizan como variable dependiente. En esta etapa, la especificación incluye únicamente un intercepto, sin predictores adicionales, lo que permite aislar y modelar exclusivamente la estructura de autocorrelación espacial residual que no fue capturada por el modelo lineal generalizado inicial.
Este enfoque tiene como objetivo corregir la dependencia espacial en los errores mediante la incorporación explícita de la matriz de pesos espaciales, permitiendo obtener estimaciones más eficientes y consistentes de los parámetros del modelo combinado.
Call:errorsarlm(formula = resid_glm ~ 1, data = resid_data, listw = mejor_W,
method = "eigen")
Residuals:
Min 1Q Median 3Q Max
-18.01752 -5.11540 -0.58264 4.05229 17.23098
Type: error
Coefficients: (asymptotic standard errors)
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.3255 1.4930 -0.8878 0.3747
Lambda: 0.11168, LR test value: 9.4839, p-value: 0.0020729
Asymptotic standard error: 0.028561
z-value: 3.9102, p-value: 9.2208e-05
Wald statistic: 15.29, p-value: 9.2208e-05
Log likelihood: -263.7375 for error model
ML residual variance (sigma squared): 52.016, (sigma: 7.2122)
Number of observations: 77
Number of parameters estimated: 3
AIC: 533.48, (AIC for lm: 540.96)
El ajuste del modelo de error espacial (SEM) sobre los residuos del modelo Poisson confirma la presencia de una estructura de dependencia espacial no capturada en la primera fase.
El parámetro de autocorrelación \(\lambda = 0.112\) resulta positivo y estadísticamente significativo \((p < 0.001)\), tanto en el test de Wald como en el LR test), indicando que los errores del MLG Poisson presentan correlación espacial entre áreas vecinas. Esto valida la necesidad de incorporar un componente espacial para modelar correctamente la variabilidad no explicada.
El intercepto no es significativo \((p ≈ 0.375)\), lo cual es esperable, ya que en esta segunda fase solo se está ajustando la estructura espacial de los residuos y no se incluyen covariables.
La mejora en el AIC (533.48 frente a 540.96 del modelo sin componente espacial) sugiere que el SEM ofrece un ajuste superior al modelo base de residuos independientes, reforzando que la combinación del MLG Poisson con un modelo de error espacial en dos etapas es adecuada para capturar la dinámica de los conteos de desempleo en el contexto analizado.
Validación de supuestos
Autocorrelación espacial
| Prueba | Estadístico | Expectación | Varianza | Valor.p | |
|---|---|---|---|---|---|
| Moran I statistic | Moran I | 0.02102 | -0.01316 | 0.00588 | 0.32786 |
| Geary C statistic | Geary's C | 0.98633 | 1.00000 | 0.00743 | 0.43701 |
| Global G statistic | Getis-Ord G | 0.05724 | 0.05468 | 0.00000 | 0.04287 |
Los índices globales de autocorrelación espacial calculados para los residuos del modelo de desempleo muestran que ninguna de las pruebas principales detecta una dependencia espacial significativa en los errores.
El Moran I obtuvo un valor de 0.021 (p ≈ 0.328), muy cercano a cero y no significativo, lo que sugiere ausencia de patrones espaciales globales en los residuos,
El Geary’s C arrojó un valor de 0.986 (p ≈ 0.437), cercano a 1, lo que refuerza la hipótesis de aleatoriedad espacial y falta de autocorrelación.
El Getis-Ord G fue el único estadístico que mostró un valor ligeramente significativo (p ≈ 0.043), indicando la posible presencia de agrupamientos localizados de valores altos o bajos de los residuos, aunque el efecto global sigue siendo bajo.
En términos prácticos, la ausencia de patrones espaciales residuales sugiere que el SEM logró capturar la estructura de dependencia espacial presente en los datos de la desempleo.
Los resultados del índice local de Moran aplicado a los residuos corregidos del SEM no muestran evidencia de patrones espaciales significativos, lo cual es consistente con los resultados previos antes de implementar el proceso en dos fases.
Shapiro-Wilk normality test
data: resid_corr_sem
W = 0.98158, p-value = 0.3284
Normalidad en los errores
El test de Shapiro-Wilk aplicado a los residuos corregidos del modelo SEM para los datos de desempleo arroja un estadístico W=0.9816W = 0.9816W=0.9816 con un p-valor = 0.3284.
Dado que el p-valor es considerablemente mayor que 0.05, no se rechaza la hipótesis nula de normalidad. Esto indica que los residuos del modelo de desempleo no presentan desviaciones significativas respecto a una distribución normal, lo cual es coherente con uno de los supuestos fundamentales del modelo de error espacial: que los errores sean aproximadamente normales.
En el contexto del proceso de dos fases (GLM Poisson + SEM), este resultado respalda la validez de la etapa espacial al mostrar que, tras la corrección, los errores se comportan de manera adecuada para la inferencia estadística.
Predicciones
[1] 419.7931
[1] 420.8241
El error de predicción representa aproximadamente un 17.7% de la media:
\[ \frac{434}{2454} \approx 0.177 \]
Esto indica que el modelo tiene un desempeño razonable, capturando la tendencia general de los datos de desempleo, aunque con cierta variabilidad residual que podría explicarse por factores no incluidos en el modelo.
| Estadístico | Valor |
|---|---|
| Mínimo | 175 |
| 1er Cuartil | 1095 |
| Mediana | 2074 |
| Media | 2454 |
| 3er Cuartil | 3445 |
| Máximo | 9219 |
Conclusiones
Dependencia espacial en la pobreza
El análisis inicial evidenció una autocorrelación espacial significativa en la tasa de pobreza, lo que justificó el uso de un modelo de error espacial (SEM). Tras el ajuste, los índices globales de autocorrelación sobre los residuos no mostraron significancia estadística, indicando que el modelo capturó adecuadamente la estructura espacial presente en los datos. Entre los factores explicativos, el estatus económico agregado y la proporción de adultos sin educación secundaria resultaron ser determinantes en la distribución de la pobreza, en concordancia con hallazgos previos en estudios urbanos.
Desempleo como variable de conteo
El número de desempleados presentó una fuerte autocorrelación espacial global (Moran I significativo), lo que sugiere la existencia de concentraciones territoriales de desempleo. Dada su naturaleza de conteo, se optó por un modelo lineal generalizado con distribución Poisson en una primera fase, seguido de un modelo de error espacial aplicado a los residuos (enfoque de dos fases). Los resultados indicaron que variables como el ingreso promedio per-cápita, la proporción de población negra y el índice de aislamiento hispano tienen efectos significativos en la magnitud del desempleo en las áreas de estudio.
Comparación entre pobreza y desempleo
Si bien ambas variables presentaron dependencia espacial, los patrones observados difieren. La pobreza se asocia principalmente con indicadores socioeconómicos generales como la educación y el estatus económico, mientras que el desempleo refleja una relación más estrecha con variables demográficas y de segregación racial. En ambos casos, los modelos espaciales permitieron corregir la autocorrelación de los residuos, mostrando un ajuste adecuado a la estructura espacial subyacente.
Implicaciones para políticas públicas
La detección de agrupamientos espaciales de pobreza y desempleo proporciona información clave para la focalización de políticas públicas. Los resultados sugieren que las estrategias para reducir la pobreza deben priorizar el fortalecimiento educativo y la mejora de las condiciones socioeconómicas generales, mientras que las acciones para combatir el desempleo requieren abordar las desigualdades raciales y garantizar un acceso equitativo a las oportunidades laborales.