Un concepto central en la exposición es el de autocorreación espacial.
Vecino: Dos áreas serán vecinas si dos áreas de una partición comparten un borde de longitud no nula.
La siguiente figura ilustra algunos conceptos:
library(spdep)
library(RColorBrewer)
library(classInt)
library(maptools)
setwd("~/Documents/Consultorias&Cursos/DataLectures/SpatialData")
pr <- readShapePoly("PuertoRico_SPCS.shp")
pr.nb <- read.gal("PuertoRico.txt")
pr.listw <- nb2listw(pr.nb, style="B")
# Plotting Spatal connectivity
cent <- coordinates(pr)
plot(pr, lwd=1.5,sub = "Partición de las municipalidades de Puerto Rico.
\nLas líneas en rojo denotan la red topológica que \n
conecta los centroides de las municipalidades con bordes comunes.")
plot(pr.nb, cent, add=T, col="red")
Consideremos el coeficiente de correlación \(r\) para dos variables \(X\) y \(Y\):
\[\begin{equation} r = \frac{\sum_{i = 1}^{n}1(x_i-\bar{x})(y_i-\bar{y})/n}{\sqrt{\sum_{i = 1}^{n}(x_i-\bar{x})^2/n}\sqrt{\sum_{i = 1}^{n}(y_i-\bar{y})^2/n}}\label{eq:001} \end{equation}\]donde \(1\) es la frecuencia de la observación \(i\); \(x_i\) y \(y_i\) son los valores de las parejas de dos variables para la observación \(i\). \(\bar{x}\) y \(\bar{y}\) son los promedios de las variables. El numerador es un término de covarianza; el denominador es el producto de las desviaciones estándar de dos variables; y la división para \(n\) se puede reemplazar por \(n-1\) para eliminar el sesgo en muestras pequeñas.
Consideremos ahora el MC muestral para una variable \(Y\):
\[\begin{equation} MC = \frac{\sum_{i = 1}^{n}\sum_{j = 1}^{n}c_{ij}(y_i-\bar{y})(y_j-\bar{y})/\sum_{i = 1}^{n}\sum_{j = 1}^{n}c_{ij}}{\sqrt{\sum_{i = 1}^{n}(y_i-\bar{y})^2/n}\sqrt{\sum_{i = 1}^{n}(y_i-\bar{y})^2/n}}\label{eq:002} \end{equation}\]donde \(c_{ij}\) es el valor correspondiente (0 o 1) en la matriz \(\mathbf{C}\). La frecuencia \(c_{ij}\) en \(\eqref{eq:002}\) reemplaza la frecuencia denotada por \(1\) en \(\eqref{eq:001}\).
Justo como \(n\) cuenta el número de 1s en el numerador de \(\eqref{eq:001}\), \(\sum_{i = 1}^{n}\sum_{j = 1}^{n}c_{ij}\) cuenta el número de 1s en \(\eqref{eq:002}\).
Recuerda, la autocorrelación se refiere a la correlación dentro de una misma variable, por lo que se aprecia el cambio de \(x_i\) y \(\bar{x}\) por \(y_i\) y \(\bar{y}\) entre las ecuaciones \(\eqref{eq:001}\) y \(\eqref{eq:002}\) respectivamente.
La ecuación \(\eqref{eq:002}\) suele presentarse en la siguiente forma simplificada:
\[\begin{equation} MC = \frac{n}{\sum_{i = 1}^{n}\sum_{j = 1}^{n}c_{ij}}\frac{\sum_{i = 1}^{n}\sum_{j = 1}^{n}c_{ij}(y_i-\bar{y})(y_j-\bar{y})}{\sum_{i = 1}^{n}(y_i-\bar{y})^2}\label{eq:003} \end{equation}\]pero su relación con \(\eqref{eq:001}\) es menos notoria.
El rango del MC no es \([-1,1]\) (este intervalo puede contraerse, pero usualmente se expande), y el valor central, que denota cero autocorrelación espacial es \(-1/(n-1)\) en lugar de \(0\).
El MC para un teselado regualar (por ejemplo, los pixeles de una imagen) convergen asintóticamente al intervalo \([-1,1]\) cuando hay un número creciente de cuadrados.
Una partición irregular (por ejemplo, las provincias de Ecuador) no necesariamente tienen la propiedad de convergencia anterior.
El valor central converge asintóticamente a \(0\) a mayor número de posiciones.
La varianza (para variables normales o no normales simétricas) de MC (para valores \(n\geq25\) cuando es simétrica y \(n\geq100\) cuando no) es aproximadamente1 (Griffith (2010)):
La cual es análoga a la varianza del coeficiente de Pearson transormado \(1/(n-3)\). El \(2\) aparece en el numerador porque el cálculo involucra a \(c_{ij}\) y \(c_{ji}\).
El gráfico de Moran es un diagrama de dos dimensiones que usa coordenadas cartesianas para mostrar parejas de valores de modo que se resuma la relación entre obervaciones que comprenden un conjunto de datos georreferenciados.
el cual se refiere a las parejas ordenadas \((z_i,\sum_{j = 1}^{n}c_{ij}z_j)\). En otras palabras:
La línea de tendencia de este gráfico es el MC no estandarizado (esto es, la pendiente necesita ser dividida para \(\sum_{i = 1}^{n}\sum_{j = 1}^{n}c_{ij}\))
(wr <- poly2nb(SpP, queen=FALSE))
## Neighbour list object:
## Number of regions: 9
## Number of nonzero links: 24
## Percentage nonzero weights: 29.62963
## Average number of links: 2.666667
(wm <- nb2mat(wr, style='B', zero.policy = TRUE))
## [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9]
## s1 0 0 1 0 1 1 0 1 0
## s2 0 0 1 0 1 0 0 0 0
## s3 1 1 0 1 0 0 0 0 0
## s4 0 0 1 0 0 1 0 0 0
## s5 1 1 0 0 0 0 1 0 0
## s6 1 0 0 1 0 0 0 0 1
## s7 0 0 0 0 1 0 0 1 0
## s8 1 0 0 0 0 0 1 0 1
## s9 0 0 0 0 0 1 0 1 0
## attr(,"call")
## nb2mat(neighbours = wr, style = "B", zero.policy = TRUE)
plot(SpP, col='gray', border='blue')
xy <- coordinates(SpP)
plot(wr, xy, col='red', lwd=2, add=TRUE)
# Creo lista de vecinos
wrl <- nb2listw(wr, style="B")
# Número de vecinos por área
i <- rowSums(wm)
vals <- i/sum(i)
moran.plot(vals,wrl)
Este trabajo explota la distribución espacial del éxito innovador de las empresas en Ecuador entre 2012 y 2014. Los datos cuentan con una muestra de 6275 empresas con representatividad provincial. Los resultados muestran que existe influencia espacial en el éxito innovador. Asimismo, el modelo planteado siguiere políticas orientadas a la innovación con fuentes externas y re estructurar la dinámica de las fuentes internas y de otras fuentes.
Wang et al. (2018) construye modelos econométricos espaciales estáticos y dinámicos para analizar las relaciones entre el desempeño regional de la innovación. Su estudio empírico se centra en 31 regiones de China entre el 2006 y el 2015 y tiene por objetivo el análisis de la relación espacial en el rendimiento innovador espacial del sistema Industria-Universidad-Instituciones de Investigación (IUR por sus siglas en inglés)
Moreno, Paci, and Usai (2005) también exploran la distribución espacial de las actividades vinculadas a la innovación, pero su principal objetivo es el estudio de spillovers tecnológicos. Para este objetivo usan la función \(I_i = RD_i^{\delta_1}Z_{1i}^{\delta_2}e_i\) donde \(I\) es el output innovador, \(RD\) es el gasto en investigación y desarrollo, \(Z_1\) es un vector de controles y \(e\) es un error estocástico. \(i\) indexa las 138 regiones de 17 países de Europa entre 1978 y 1997
Los modelos autorregresivos simultáneos o SAR (por sus siglas en inglés) son modelos de la forma(Baltagi, Song, and Koh (2003),Millo, Piras, and others (2012),Millo (2014)):
\[\begin{equation}\label{eqsar} y = \rho Wy + X\beta + \epsilon \end{equation}\]El modelo SEM es un modelo de la forma (Baltagi, Song, and Koh (2003),Millo, Piras, and others (2012),Millo (2014)):
\[\begin{equation}\label{eqsem} y = X\beta +u \end{equation}\]donde \(u = \lambda Wu+e\). \(u\) se considera como una variable no observada y podría estar anidada en \(e\). Se podría, por lo tanto, que la variable latente \(u\) siga un proceso autorregresivo espacial.
Un modelo que se puede considerar como una extensión del modelo SEM es el modelo espacial de Durbin:
\[\begin{equation}\label{eqdur} y = \alpha + \rho Wy +X\beta + WX\theta+e \end{equation}\]La Encuesta Nacional de Actividades de Innovación (AI) 2012-2014 contiene una muestra total de 6275 empresas cuyo diseño muestral permite una estimación confiable de indicadores con desagregación provincial y sector económico (Minas y canteras, Manufactura, Servicios, Comercio).
Las variables utilizadas en este estudio son
Densidad del porcentaje de éxito en innovación por provincia
Distribución espacial del porcentaje de éxito en innovación por provincia
Gráfico de Moran del porcentaje de éxito en innovación por provincia
Resultados de los modelos: mínimos cuadrados ordinarios (OLS), modelo espacial autorregresivo (SAR, ), modelo con error espacial (SEM, ) y Modelo de Durbin Espacial (SDM, )
| OLS | SAR | SEM | SDM | |||||
|---|---|---|---|---|---|---|---|---|
| Estimador | p-valor | Estimador | p-valor | Estimador | p-valor | Estimador | p-valor | |
| Intercepto | 0.320 | 0.000 | 0.057 | 0.405 | 0.278 | 0.001 | 0.594 | 0.000 |
| Interna | -0.731 | 0.055 | -0.537 | 0.029 | -0.369 | 0.109 | -0.683 | 0.000 |
| Externa | 0.301 | 0.088 | 0.234 | 0.042 | 0.163 | 0.136 | 0.268 | 0.002 |
| Otros | 0.060 | 0.007 | 0.055 | 0.000 | 0.054 | 0.000 | 0.040 | 0.000 |
| Interna x Otros | 0.060 | 0.125 | 0.042 | 0.104 | 0.024 | 0.316 | 0.063 | 0.002 |
| Externa x Otros | -0.038 | 0.098 | -0.028 | 0.063 | -0.018 | 0.202 | -0.038 | 0.001 |
| Lag Interna | -1.221 | 0.015 | ||||||
| Lag Externa | 0.495 | 0.026 | ||||||
| Lag Otros | -0.061 | 0.031 | ||||||
| Lag Interna x Otros | 0.160 | 0.002 | ||||||
| Lag Externa x Otros | -0.084 | 0.007 | ||||||
| Lag Error () | 0.786 | 0.002 | ||||||
| Lag Éxito () | 0.639 | 0.007 | -0.102 | 0.754 | ||||
| AIC | -21.504 | -26.885 | -29.307 | -40.375 | ||||
| N | 23 |
Impactos de los modelos SAR y SDM
| SAR | SDM | |||||
|---|---|---|---|---|---|---|
| Direct | Indirect | Total | Direct | Indirect | Total | |
| Interna | -0.614 | -0.875 | -1.488 | -0.658 | -1.069 | -1.727 |
| Externa | 0.267 | 0.381 | 0.648 | 0.258 | 0.434 | 0.693 |
| Otros | 0.063 | 0.089 | 0.152 | 0.042 | -0.061 | -0.019 |
| Interna x Otros | 0.048 | 0.068 | 0.116 | 0.059 | 0.143 | 0.202 |
| Externa x Otros | -0.032 | -0.046 | -0.078 | -0.036 | -0.075 | -0.110 |
Las innovaciones internas tienen un efecto negativo en el éxito innovador. En primer lugar, en promedio, duplicar la innovación interna de \(0.1\) a \(0.2\) lleva a una disminución de \(0.17\) en el éxito innovador. En segundo lugar, en promedio, duplicar la innovación externa de \(0.05\) a \(0.1\) lleva a un aumento de \(0.033\) en el éxito innovador. Finalmente, en promedio, duplicar la innovación en otros rubros de \(0.38\) a \(0.76\) lleva a una disminución de \(0.0018\) en el éxito innovador. Estos resultados demuestran que la política de innovación podría dirigirse a la innovación externa por ser el único efecto positivo que se ha encontrado en los datos analizados.
Se ha encontrado que el componente espacial es significativo en el éxito innovador. Esto implica que existen spillovers en la innovación. La cercanía geográfica de las empresas es significativa tanto desde un puntos de vista descriptivo como desde la modelización
En modelo estimado sugiere que se debe enfocar la política de innovación hacia el componente externo. Sin embargo, al mismo tiempo sugiere que la dinámica de innovación de las fuentes internas y de otros rubros en la innovación que actualmente persisten deben ser mitigados.
Baltagi, Badi H, Seuck Heun Song, and Won Koh. 2003. “Testing Panel Data Regression Models with Spatial Error Correlation.” Journal of Econometrics 117 (1). Elsevier: 123–50.
Cliff, AD, and J Keith Ord. 1981. Spatial Processes: Models and Applications. London: Pion.
Cliff, Andrew D, and J Keith Ord. 1973. “Spatial Autocorrelation, Monographs in Spatial Environmental Systems Analysis.” London: Pion Limited.
Geary, Robert C. 1954. “The Contiguity Ratio and Statistical Mapping.” The Incorporated Statistician 5 (3). JSTOR: 115–46.
Griffith, Daniel A. 2010. “The Moran Coefficient for Non-Normal Data.” Journal of Statistical Planning and Inference 140 (11). Elsevier: 2980–90.
Millo, Giovanni. 2014. “Maximum Likelihood Estimation of Spatially and Serially Correlated Panels with Random Effects.” Computational Statistics & Data Analysis 71. Elsevier: 914–33.
Millo, Giovanni, Gianfranco Piras, and others. 2012. “Splm: Spatial Panel Data Models in R.” Journal of Statistical Software 47 (1): 1–38.
Moran, Patrick AP. 1948. “The Interpretation of Statistical Maps.” Journal of the Royal Statistical Society. Series B (Methodological) 10 (2). JSTOR: 243–51.
Moreno, Rosina, Raffaele Paci, and Stefano Usai. 2005. “Spatial Spillovers and Innovation Activity in European Regions.” Environment and Planning A 37 (10). SAGE Publications Sage UK: London, England: 1793–1812.
Wang, Xu, Hong Fang, Fang Zhang, and Siran Fang. 2018. “The Spatial Analysis of Regional Innovation Performance and Industry-University-Research Institution Collaborative Innovation—An Empirical Study of Chinese Provincial Data.” Sustainability 10 (4): 1–16. https://ideas.repec.org/a/gam/jsusta/v10y2018i4p1243-d141871.html.
A. Cliff and Ord (1981) desarrollan una fórmula exacta (pero complicada) para la varianza de MC bajo supuestos de normalidad.↩