Com base em duas estatísticas de autocorrelação espacial local, G de Getis-Ord e I de Moran, populares no campo da Estatística e Econometria Espacial, este relatório analisa padrões locais de associação espacial envolvendo conflitos distribuídos entre 42 países na África, entre os anos de 1966 e 19781. Tais indicadores, os quais integram o método ESDA (Exploratory Spatial Data Analysis), permitem identificar observações atípicas (outliers), similaridade (spatial clusters) e instabilidade espacial (Anselin, 1995).
A abordagem adotada é útil para analisar processos difusos no espaço, relacionados a instabilidade e interdependência espacial. Anselin (1995) argumenta que análises exclusivamente globais, tipo Moran’s I e Geary’s I, não são capazes de identificar corretamente padrões locais de associação espacial. Por isso, sugere que estatísticas complementares, baseadas na ESDA, deveriam preceder a especificação de modelos econométricos, envitando, com isso, erros de especificação envolvendo a heterogeneidade e autocorrelação espacial (Anselin e Griffith, 1988).
De modo geral, ambos indicadores são computados a partir de três
medidas: variância, covariância e a matriz de ponderação espacial \(W\). Esta matriz quadrada é responsável
pela conectividade entre observações (regiões ou países, como neste
caso). A distribuição dos pesos \(w_{ij} \in
W\) (o subscrito \(ij\)
corresponde ao vizinho \(j\) da região
\(i\)) e a configuração do arranjo
espacial, são importantes para a performace das estatísticas locais. A
matriz utilizada neste exercício, baseia-se no critério de contiguidade
de primeira ordem, com pesos normalizados na linha. O pacote
spData, em R, disponibiliza uma lista de
vizinhos envolvendo os 42 países Africanos. As estatísticas locais,
G de Getis-Ord e I de Moran, por sua vez, são
computadas com auxílio do pacote spdep.
Além disso, dotados das seguintes propriedades:
são capazes de indicar a extensão, o grau e a significância do agrupamento local relativo a valores similares em torno de uma observação; e
a soma total dos LISAs guarda uma proporcionalidade com o indicador de autocorrelação espacial global correspondente.
Os indicadores G de Getis-Ord e I de Moran são classificados por Anselin (1995) como Local Indicator of Spatial Association.
Getis e Ord (1992) formularam primeiramente uma medida de autocorrelação espacial global para uma variável positiva. Uma matriz de distância de corte binária (cut-off) foi utilizada como critério de ponderação do produto cruzado da variável positiva, tal que: se uma região \(j\) estiver dentro do raio da distância, então, \(w_{ij}(d)=1\); caso contrário, \(w_{ij}(d)=0\). Formalmente, a estatística global G de Getis-Ord é definida como: \[\begin{equation} \tag{1} G = \frac{\sum_{i} \sum_{j} w_{ij}(d) y_i y_j }{\sum_{i} \sum_{j} y_i y_j}, \ \ \ i \neq j. \end{equation}\]
Em que, \(y_{i(j)}\) é o valor da variável positiva observada na região \(i (j)\) e \(w_{ij}(d)\) é o elemento da matriz distância de corte. Note-se que o produto cruzado presente tanto no numerado quanto denomidor, faz com que a estatística seja definida positiva. Em outra versão, Getis e Ord (1995) relaxaram essa limitação, tornando a estatística mais flexível, podendo assumir valores não positivos.
A inferência da estatística se baseia na distribuição normal padrão: \[\begin{equation} \tag{2} Z(G) = \frac{G - E(G)}{EP(G)} \end{equation}\]
Em que, \(E(G)\) e \(EP(G)\) são os respectivos, valor esperado e erro padrãos. A hipótese nula é de dispersão no espaço. Sua rejeição implica em concentração geográfica dos dados amostrais. Almeida (2012) argumenta que, a não rejeição de \(H_0\) não implica automaticamente em ausência de autocorrelação espacial; é possível que valores da variável de interesse estejam autocorrelacionados negativamente. De todo modo, um valor positivo e significante de \(Z(G)\), indica que uma região com alto valor de \(y_i\), está cercada por regiões similares (hot spots). Em contraste, um valor negativo e significante de \(Z(G)\), indica que uma região onde \(y_i\) é baixo, tem nas vizinhanças outras regiões com um valor \(y_j\) baixo também (cold spots).
Posteriormente, Ord e Getis (1995) redefiniram a estatística para analisar padrões locais de associação espacial. A estatística local agora admite valores positivos, negativos e nulos, uma vez que é mensurada como um desvio espacialmente ponderado em relação ao erro padrão. A redefinição de Ord e Getis (1995) pode ser representada por:
\[\begin{equation} \tag{3} G_i = \frac{\sum_j w_{ij} y_j - W_i \bar{y}_i }{s_i \{[(N-1)S_{1i} - W_i^2]/(N-2) \}^{1/2}}, \ \ \ i \neq j. \end{equation}\]
Em que, \(W_i = \sum_{j \neq i} w_{ij}\), \(\bar{y}_i = \sum_j y_j / (N-1)\), \(s_i^2=[\sum_j y_j^2 / (N-1)]-[\bar{y}_i]^2\) e \(S_{1i} = \sum_{j \neq i} w_{ij}^2\).
A interpretação da estatística \(G_i\) de Getis-Ord local, assemelha-se à sua contrapartida global, tal que: um \(G_i\) acima da média, indica um padrão tipo hot spots; e um \(G_i\) abaixo da média, indica um padrão tipo cold spots.
A restrição \(i \neq j\) indica que apenas os vizinhos de \(i\) serão usados no cômputo da Eq.(3), a qual admite outras especificações de vizinhança, não somente a matriz binária baseada no raio da distância de corte. Ord e Getis (1995) consideram duas estatísticas locais, \(G_i\) e \(G_i^*\). A diferença está no número de observações utilizadas no cômputo do denominador da Eq.(3). Se não incluir a própria região \(i\), então a estatística é computada conforme as Eq.(3). Caso inclua \(i\), então a estatística é obtida da seguinte forma: \[\begin{equation} \tag{4} G_i^* = \frac{\sum_j w_{ij} y_j - W_i \bar{y}_i}{s_i \{[(N.S_{1i*} - W_{i*}^2]/(N-1) \}^{1/2}},\ \ \ \forall \ j. \end{equation}\]
Em que, \(W_{i*} = W_i + w_{ii}\) e \(S_{1i*} = \sum_j w_{ij}^2 \forall j\). Nas estatísticas (3) e (4), \(\bar{y}\) e \(s^2\) denotam a média e a variância, respectivamente.
Observe que única diferença da Eq.(4) para Eq.(3), está no denominador, cujo somatório não restrito inclui a região \(i\).
A estatística I de Moran local é certamente a mais popular entre estudos aplicados. Ao contrário da estatística G de Getis-Ord, restrita a valores positivos, a estatística I de Moran faz o cômputo da autocorrelação espacial, a partir de uma variável de interesse medida como desvios em relação à média (scores). Isso permite uma representação mais ampla dos padrões locais de associação espacial.
Começamos a formalização pela estatística I de Moran global, definida como: \[\begin{equation} \tag{5} I = \frac{N}{S_0} \frac{\sum_{i} \sum_{j} w_{ij}(d) z_i z_j}{\sum_{i} z_i^2}, \ \ \ i=1,...,N. \end{equation}\] Em que, \(N\) é o números de observações (regiões), \(z_{i(j)}\) denota o valor da variável de interesse que entra na forma de scores, \(w_{ij}(d)\) é o elemento da matriz de peso espacial \(W\), \(S_0=\sum_{i} \sum_{j} w_{ij}\) é o somatório das linhas e colunas.
Note-se que o númerado da Eq.(5) é uma medida de autocovariância espacial, ao passo que o denominador é uma variância; como resultado, tem-se um coeficiente de autocorrelação espacial. Além disso, o primeiro termo é um mecanismo de normalização, pois se a matriz \(W\) for normalizada na linha, então o somatório duplo equivale a \(N\).
A hipótese nula é de aleatoriedade espacial. Cliff e Ord (1981) demonstram que o I de Moran tem um valor esperado igual a \(E[I]=-1/(N-1)\). Se o valor \(I\) for estatisticamente diferente do valor esperado, então \(H_0\) deve ser rejeitada, indicando presença de autocorrelação espacial global. \(I\) pode ser positivo ou negativo. Se for positivo e significante, então há enviência de similaridade espacial, isto é, uma região com alto (baixo) valor de \(y_i\), está cercada por regiões com \(y_j\) alto (baixo). Um \(I\) negativo e significante, revela a existência de dissimilaridade espacial. Assim, uma região com \(y_i\) alto (baixo), está cercada por regiões de baixo (alto) valor \(y_j\).
Com base nas propriedades LISA, Anselin (1995) propôs uma derivação para o cômputo da autocorrelação espacial local. O I de Moran local é representado pelo autor da seguinte forma: \[\begin{equation} \tag{5} I_i = z_i \sum_j w_{ij}(d) z_j, \ \ \ i=1,...,N. \end{equation}\]
Anselin (1995) demonstra a existência de um fator de proporcionalidade que estabelece a conexão com a estatística global. Além disso, sob o pressuposto de normalidade, define o valor esperado \(E[I_i]=-w_i/(N-1)\) e variância \(\mbox{Var}[I_i]\).2
A estatística (5) permite a indicação de bolsões, outliers e regimes de intabilidade no espaço (Anselin, 1995). Ela está integrada ao diagrama de dispesão I de Moran (Anselin, 1993a), que classifica os padrões em quatro regumes espaciais, quais sejam:
A inferência das estatísticas (4) e (5) segue os passos de Anselin (1995). Assim, uma probabilidade é extraída da distribuição normal, \(p_n\), enquanto outra é gerada por meio de radomização condicional, \(p_r\) (10.000 permutações).
O primeiro passo da análise empírica consiste em carregar os pacotes
library(spData)
library(spdep)
library(rmarkdown)
A fonte de dados afcon, com a distribuição espacial dos
índices de conflitos na Africa, pode ser acessada com a função
data("afcon"), enquanto a função head é usada
para ler os dados.
head(afcon, 10)
## x y totcon name id
## TS 9.556491 34.11685 1363 TUNISIA 2040
## AG 2.631669 28.16258 1421 ALGERIA 2039
## MO -6.316814 31.88583 1861 MOROCCO 2038
## LY 18.022672 27.04399 2355 LIBYA 2041
## EG 29.774473 26.56703 5246 EGYPT 2043
## MR -10.332211 20.25840 811 MAURITANIA 2005
## ML -3.524146 17.34901 299 MALI 2002
## NG 9.396251 17.42365 358 NIGER 2006
## CD 18.663061 15.35592 895 CHAD 2018
## SU 30.041358 13.83742 4751 SUDAN 2042
Em que, [x,y] é o centroide de cada país definido pelas
coordenadas geográficas, totcon é o total de conflitos no
período 1966-78, name é o nome do país e id é
uma variável de identificação.
Uma matriz de contiguidade de primeira ordem \(W\) normalizada na linha foi computada po
meio da lista de vizinhança paper.nb. Os resultados são
sumarizados a seguir:
waf_queen <- nb2listw(neighbours = paper.nb, style = "W")
summary(waf_queen)
## Characteristics of weights list object:
## Neighbour list object:
## Number of regions: 42
## Number of nonzero links: 182
## Percentage nonzero weights: 10.31746
## Average number of links: 4.333333
## Link number distribution:
##
## 1 2 3 4 5 6 7 8 9
## 2 7 8 7 6 5 3 3 1
## 2 least connected regions:
## GA LT with 1 link
## 1 most connected region:
## CG with 9 links
##
## Weights style: W
## Weights constants summary:
## n nn S0 S1 S2
## W 42 1764 42 22.31775 181.4445
Cabe tecer alguns cometários. Do total de ligações possíveis (1722), 10,3% são pesos não nulos. Existem duas regiões com uma ligação, e uma região com nove ligações; 4,3 é a média de ligações.
Agora são computadas as estatísticas de autocorrelação espacial global. Começando pelo G de Getis-Ord.
globalG.test(x = afcon$totcon, listw = waf_queen, alternative = "two.sided")
## Warning in globalG.test(x = afcon$totcon, listw = waf_queen, alternative =
## "two.sided"): Binary weights recommended (especially for distance bands)
##
## Getis-Ord global G statistic
##
## data: afcon$totcon
## weights: waf_queen
##
## standard deviate = 4.1902, p-value = 2.787e-05
## alternative hypothesis: two.sided
## sample estimates:
## Global G statistic Expectation Variance
## 3.457798e-02 2.439024e-02 5.911251e-06
Estatística I de Moran global
moran.test(x = afcon$totcon, listw = waf_queen, randomisation=TRUE)
##
## Moran I test under randomisation
##
## data: afcon$totcon
## weights: waf_queen
##
## Moran I statistic standard deviate = 4.3485, p-value = 6.854e-06
## alternative hypothesis: greater
## sample estimates:
## Moran I statistic Expectation Variance
## 0.41679563 -0.02439024 0.01029358
Por padrão, as funções globalG.test e
moran.test admitem que a variância seja computada por meio
de randomização. Alterando para randomisation=FALSE, a
inferência é realizada pela distribuição normal. A diferença entre
métodos é insignificante. Assim, ao nível de significância de 5%, os
resultados estatísticos mostram que a hipótese nula de aleatoriedade
espacial deve ser rejeitada. Dito de outra forma, há uma baixa
probabilidade p-value de que os conflitos na Africa não
sejam autocorrelacionados espacialmente.
As funções localG_perm e localmoran_perm
foram usadas no cômputo das estatísticas \(G_i^*\) de Geary local e \(I_i\) de Moran local, respectivamente. Em
conformidade com a Eq. (4), a opção
fix_i_in_Gstar_permutations = TRUE indica que \(w_{ii} > 0\) foi incluído na ponderação.
A opção nsim = 999 indica que foram realizadas 999
permutações de Monte Carlo.
resLG <- localG_perm(x = afcon$totcon, listw = waf_queen, nsim = 999, alternative = "two.sided", fix_i_in_Gstar_permutations = TRUE)
resLM <- localmoran_perm(x = afcon$totcon, listw = waf_queen, nsim = 999)
df <- data.frame(Regiao=afcon$name,G=round(resLG[1:42],4),Var_G=round(attr(resLG, "internals")[,3],4),Pr_G=round(attr(resLG, "internals")[,7],4), Cluster_G=attr(resLG,"cluster"), I=round(resLM[,1],4), Var_I=round(resLM[,3],4), Pr_I=round(resLM[,5],4), Cluster_I=attr(resLM, "quadr")[,3], row.names = NULL)
Além das estatísticas G e I, a Tabela 1 exibe a variância, probabilidade de rejeição da hipótese nula, o regime espacial. Como já mencionado, a estatística G local admite apenas dois regimes, Low e High.
Tabela 1: Estatísticas de autocorrelação espacial local dos conflitos na Africa
paged_table(df)
Limitando o nível de significância a 5%, os resultados da Tabela mostram que:
O EGYPT, SUDAN, ETHIOPIA, KENYA e UGANDA, apresentam uma taxa de conflitos, estatisticamente significante e superior à média. Estes países que compartilham fronteira comum no Norte e Leste do continente africano, formam um cluster High-High, sob enfoque da estatística I de Moran local. Esse padrão correspondente ao regime High, segundo análise da estatística G Ord-Getis local.
Os países SENEGAL, BURKINA FASO e RWANDA, apresentam valores significantes e abaixo da média, somente quando a análise é dirigida G Ord-Getis local.
moran.plot(x=afcon$totcon, listw = waf_queen)
De modo geral, os resultados empíricos apresentados neste exercício, atendem as propriedades LISA estabelecidas em Anselin (1995). Simulações de Monte Carlo usadas na inferência das \(G_i^*\) de Geary local e \(I_i\) de Moran local, corroboram os resultados de Anselin (1995), para o qual a alta incidência de conflitos ocorreu de forma localizada, especificamente em cinco países africanos: EGYPT, SUDAN, ETHIOPIA, KENYA e UGANDA.
Almeida, E. Econometria Espacial Aplicada. Campinas, SP: Editora Alínea, 2012.
Anselin, L. and Griffith, D. A. (1988). Do Spatial Effects Really Matter in Regression Analysis? Paperes of The Regional Science Association, 65, 11-34.
Anselin, L. (1995). Local Indicators of Spatial Association - LISA. Geographical Analysis, 27, 93-115.
Getis, A. and Ord, J. K. (1992). The Analysis of Spatial Association by Use of Distance Statistics. Geographical Analysis, 24, 189-206.
Ord, J. K. and Getis, A. (1995). Local spatial autocorrelation statistics: distributional issues and an application. Geographical Analysis, 27, 286-306.