1 Introdução

Com base em duas estatísticas de autocorrelação espacial local, G de Getis-Ord e I de Moran, populares no campo da Estatística e Econometria Espacial, este relatório analisa padrões locais de associação espacial envolvendo conflitos distribuídos entre 42 países na África, entre os anos de 1966 e 1978¹. Tais indicadores, os quais integram o método ESDA (Exploratory Spatial Data Analysis), permitem identificar observações atípicas (outliers), similaridade (spatial clusters) e instabilidade espacial (Anselin, 1995).

A abordagem adotada é útil para analisar processos difusos no espaço, relacionados a instabilidade e interdependência espacial. Anselin (1995) argumenta que análises exclusivamente globais, tipo Moran’s I e Geary’s I, não são capazes de identificar corretamente padrões locais de associação espacial. Por isso, sugere que estatísticas complementares, baseadas na ESDA, deveriam preceder a especificação de modelos econométricos, envitando, com isso, erros de especificação envolvendo a heterogeneidade e autocorrelação espacial (Anselin e Griffith, 1988).

De modo geral, ambos indicadores são computados a partir de três medidas: variância, covariância e a matriz de ponderação espacial \(W\). Esta matriz quadrada é responsável pela conectividade entre observações (regiões ou países, como neste caso). A distribuição dos pesos \(w_{ij} \in W\) (o subscrito \(ij\) corresponde ao vizinho \(j\) da região \(i\)) e a configuração do arranjo espacial, são importantes para a performace das estatísticas locais. A matriz utilizada neste exercício, baseia-se no critério de contiguidade de primeira ordem, com pesos normalizados na linha. O pacote spData, em R, disponibiliza uma lista de vizinhos envolvendo os 42 países Africanos. As estatísticas locais, G de Getis-Ord e I de Moran, por sua vez, são computadas com auxílio do pacote spdep.

Além disso, dotados das seguintes propriedades:

são capazes de indicar a extensão, o grau e a significância do agrupamento local relativo a valores similares em torno de uma observação; e
a soma total dos LISAs guarda uma proporcionalidade com o indicador de autocorrelação espacial global correspondente.

Os indicadores G de Getis-Ord e I de Moran são classificados por Anselin (1995) como Local Indicator of Spatial Association.

2 Autocorrelação espacial local univariada

2.1 G de Getis-Ord

Getis e Ord (1992) formularam primeiramente uma medida de autocorrelação espacial global para uma variável positiva. Uma matriz de distância de corte binária (cut-off) foi utilizada como critério de ponderação do produto cruzado da variável positiva, tal que: se uma região \(j\) estiver dentro do raio da distância, então, \(w_{ij}(d)=1\); caso contrário, \(w_{ij}(d)=0\). Formalmente, a estatística global G de Getis-Ord é definida como: \[\begin{equation} \tag{1} G = \frac{\sum_{i} \sum_{j} w_{ij}(d) y_i y_j }{\sum_{i} \sum_{j} y_i y_j}, \ \ \ i \neq j. \end{equation}\]

Em que, \(y_{i(j)}\) é o valor da variável positiva observada na região \(i (j)\) e \(w_{ij}(d)\) é o elemento da matriz distância de corte. Note-se que o produto cruzado presente tanto no numerado quanto denomidor, faz com que a estatística seja definida positiva. Em outra versão, Getis e Ord (1995) relaxaram essa limitação, tornando a estatística mais flexível, podendo assumir valores não positivos.

A inferência da estatística se baseia na distribuição normal padrão: \[\begin{equation} \tag{2} Z(G) = \frac{G - E(G)}{EP(G)} \end{equation}\]

Em que, \(E(G)\) e \(EP(G)\) são os respectivos, valor esperado e erro padrãos. A hipótese nula é de dispersão no espaço. Sua rejeição implica em concentração geográfica dos dados amostrais. Almeida (2012) argumenta que, a não rejeição de \(H_0\) não implica automaticamente em ausência de autocorrelação espacial; é possível que valores da variável de interesse estejam autocorrelacionados negativamente. De todo modo, um valor positivo e significante de \(Z(G)\), indica que uma região com alto valor de \(y_i\), está cercada por regiões similares (hot spots). Em contraste, um valor negativo e significante de \(Z(G)\), indica que uma região onde \(y_i\) é baixo, tem nas vizinhanças outras regiões com um valor \(y_j\) baixo também (cold spots).

Posteriormente, Ord e Getis (1995) redefiniram a estatística para analisar padrões locais de associação espacial. A estatística local agora admite valores positivos, negativos e nulos, uma vez que é mensurada como um desvio espacialmente ponderado em relação ao erro padrão. A redefinição de Ord e Getis (1995) pode ser representada por:

\[\begin{equation} \tag{3} G_i = \frac{\sum_j w_{ij} y_j - W_i \bar{y}_i }{s_i \{[(N-1)S_{1i} - W_i^2]/(N-2) \}^{1/2}}, \ \ \ i \neq j. \end{equation}\]

Em que, \(W_i = \sum_{j \neq i} w_{ij}\), \(\bar{y}_i = \sum_j y_j / (N-1)\), \(s_i^2=[\sum_j y_j^2 / (N-1)]-[\bar{y}_i]^2\) e \(S_{1i} = \sum_{j \neq i} w_{ij}^2\).

A interpretação da estatística \(G_i\) de Getis-Ord local, assemelha-se à sua contrapartida global, tal que: um \(G_i\) acima da média, indica um padrão tipo hot spots; e um \(G_i\) abaixo da média, indica um padrão tipo cold spots.

A restrição \(i \neq j\) indica que apenas os vizinhos de \(i\) serão usados no cômputo da Eq.(3), a qual admite outras especificações de vizinhança, não somente a matriz binária baseada no raio da distância de corte. Ord e Getis (1995) consideram duas estatísticas locais, \(G_i\) e \(G_i^*\). A diferença está no número de observações utilizadas no cômputo do denominador da Eq.(3). Se não incluir a própria região \(i\), então a estatística é computada conforme as Eq.(3). Caso inclua \(i\), então a estatística é obtida da seguinte forma: \[\begin{equation} \tag{4} G_i^* = \frac{\sum_j w_{ij} y_j - W_i \bar{y}_i}{s_i \{[(N.S_{1i*} - W_{i*}^2]/(N-1) \}^{1/2}},\ \ \ \forall \ j. \end{equation}\]

Em que, \(W_{i*} = W_i + w_{ii}\) e \(S_{1i*} = \sum_j w_{ij}^2 \forall j\). Nas estatísticas (3) e (4), \(\bar{y}\) e \(s^2\) denotam a média e a variância, respectivamente.

Observe que única diferença da Eq.(4) para Eq.(3), está no denominador, cujo somatório não restrito inclui a região \(i\).

2.2 I de Moran local

A estatística I de Moran local é certamente a mais popular entre estudos aplicados. Ao contrário da estatística G de Getis-Ord, restrita a valores positivos, a estatística I de Moran faz o cômputo da autocorrelação espacial, a partir de uma variável de interesse medida como desvios em relação à média (scores). Isso permite uma representação mais ampla dos padrões locais de associação espacial.

Começamos a formalização pela estatística I de Moran global, definida como: \[\begin{equation} \tag{5} I = \frac{N}{S_0} \frac{\sum_{i} \sum_{j} w_{ij}(d) z_i z_j}{\sum_{i} z_i^2}, \ \ \ i=1,...,N. \end{equation}\] Em que, \(N\) é o números de observações (regiões), \(z_{i(j)}\) denota o valor da variável de interesse que entra na forma de scores, \(w_{ij}(d)\) é o elemento da matriz de peso espacial \(W\), \(S_0=\sum_{i} \sum_{j} w_{ij}\) é o somatório das linhas e colunas.

Note-se que o númerado da Eq.(5) é uma medida de autocovariância espacial, ao passo que o denominador é uma variância; como resultado, tem-se um coeficiente de autocorrelação espacial. Além disso, o primeiro termo é um mecanismo de normalização, pois se a matriz \(W\) for normalizada na linha, então o somatório duplo equivale a \(N\).

A hipótese nula é de aleatoriedade espacial. Cliff e Ord (1981) demonstram que o I de Moran tem um valor esperado igual a \(E[I]=-1/(N-1)\). Se o valor \(I\) for estatisticamente diferente do valor esperado, então \(H_0\) deve ser rejeitada, indicando presença de autocorrelação espacial global. \(I\) pode ser positivo ou negativo. Se for positivo e significante, então há enviência de similaridade espacial, isto é, uma região com alto (baixo) valor de \(y_i\), está cercada por regiões com \(y_j\) alto (baixo). Um \(I\) negativo e significante, revela a existência de dissimilaridade espacial. Assim, uma região com \(y_i\) alto (baixo), está cercada por regiões de baixo (alto) valor \(y_j\).

Com base nas propriedades LISA, Anselin (1995) propôs uma derivação para o cômputo da autocorrelação espacial local. O I de Moran local é representado pelo autor da seguinte forma: \[\begin{equation} \tag{5} I_i = z_i \sum_j w_{ij}(d) z_j, \ \ \ i=1,...,N. \end{equation}\]

Anselin (1995) demonstra a existência de um fator de proporcionalidade que estabelece a conexão com a estatística global. Além disso, sob o pressuposto de normalidade, define o valor esperado \(E[I_i]=-w_i/(N-1)\) e variância \(\mbox{Var}[I_i]\).²

A estatística (5) permite a indicação de bolsões, outliers e regimes de intabilidade no espaço (Anselin, 1995). Ela está integrada ao diagrama de dispesão I de Moran (Anselin, 1993a), que classifica os padrões em quatro regumes espaciais, quais sejam:

High-High: regiões com alto valor de \(y_i\), estão cercadas por regiões com \(y_j\) alto.
Low-High: uma região com baixo valor \(y_i\), está cercada por regiões de alto valor \(y_j\).
Low-Low: regiões com baixo valor de \(y_i\), estão cercadas por outras com \(y_j\) baixo também.
High-Low: uma região com alto valor \(y_i\), está cercada por regiões de baixo valor \(y_j\).

A inferência das estatísticas (4) e (5) segue os passos de Anselin (1995). Assim, uma probabilidade é extraída da distribuição normal, \(p_n\), enquanto outra é gerada por meio de radomização condicional, \(p_r\) (10.000 permutações).

3 Análise espacial dos conflitos na Africa

O primeiro passo da análise empírica consiste em carregar os pacotes

library(spData)
library(spdep)
library(rmarkdown)

A fonte de dados afcon, com a distribuição espacial dos índices de conflitos na Africa, pode ser acessada com a função data("afcon"), enquanto a função head é usada para ler os dados.

head(afcon, 10)

##             x        y totcon       name   id
## TS   9.556491 34.11685   1363    TUNISIA 2040
## AG   2.631669 28.16258   1421    ALGERIA 2039
## MO  -6.316814 31.88583   1861    MOROCCO 2038
## LY  18.022672 27.04399   2355      LIBYA 2041
## EG  29.774473 26.56703   5246      EGYPT 2043
## MR -10.332211 20.25840    811 MAURITANIA 2005
## ML  -3.524146 17.34901    299       MALI 2002
## NG   9.396251 17.42365    358      NIGER 2006
## CD  18.663061 15.35592    895       CHAD 2018
## SU  30.041358 13.83742   4751      SUDAN 2042

Em que, [x,y] é o centroide de cada país definido pelas coordenadas geográficas, totcon é o total de conflitos no período 1966-78, name é o nome do país e id é uma variável de identificação.

3.1 Matriz \(W\)

Uma matriz de contiguidade de primeira ordem \(W\) normalizada na linha foi computada po meio da lista de vizinhança paper.nb. Os resultados são sumarizados a seguir:

waf_queen <- nb2listw(neighbours = paper.nb, style = "W")
summary(waf_queen)

## Characteristics of weights list object:
## Neighbour list object:
## Number of regions: 42 
## Number of nonzero links: 182 
## Percentage nonzero weights: 10.31746 
## Average number of links: 4.333333 
## Link number distribution:
## 
## 1 2 3 4 5 6 7 8 9 
## 2 7 8 7 6 5 3 3 1 
## 2 least connected regions:
## GA LT with 1 link
## 1 most connected region:
## CG with 9 links
## 
## Weights style: W 
## Weights constants summary:
##    n   nn S0       S1       S2
## W 42 1764 42 22.31775 181.4445

Cabe tecer alguns cometários. Do total de ligações possíveis (1722), 10,3% são pesos não nulos. Existem duas regiões com uma ligação, e uma região com nove ligações; 4,3 é a média de ligações.

3.2 Estatísticas globais

Agora são computadas as estatísticas de autocorrelação espacial global. Começando pelo G de Getis-Ord.

globalG.test(x = afcon$totcon, listw = waf_queen, alternative = "two.sided")

## Warning in globalG.test(x = afcon$totcon, listw = waf_queen, alternative =
## "two.sided"): Binary weights recommended (especially for distance bands)

## 
##  Getis-Ord global G statistic
## 
## data:  afcon$totcon 
## weights: waf_queen   
## 
## standard deviate = 4.1902, p-value = 2.787e-05
## alternative hypothesis: two.sided
## sample estimates:
## Global G statistic        Expectation           Variance 
##       3.457798e-02       2.439024e-02       5.911251e-06

Estatística I de Moran global

moran.test(x = afcon$totcon, listw = waf_queen, randomisation=TRUE)

## 
##  Moran I test under randomisation
## 
## data:  afcon$totcon  
## weights: waf_queen    
## 
## Moran I statistic standard deviate = 4.3485, p-value = 6.854e-06
## alternative hypothesis: greater
## sample estimates:
## Moran I statistic       Expectation          Variance 
##        0.41679563       -0.02439024        0.01029358

Por padrão, as funções globalG.test e moran.test admitem que a variância seja computada por meio de randomização. Alterando para randomisation=FALSE, a inferência é realizada pela distribuição normal. A diferença entre métodos é insignificante. Assim, ao nível de significância de 5%, os resultados estatísticos mostram que a hipótese nula de aleatoriedade espacial deve ser rejeitada. Dito de outra forma, há uma baixa probabilidade p-value de que os conflitos na Africa não sejam autocorrelacionados espacialmente.

3.3 Estatísticas LISA

As funções localG_perm e localmoran_perm foram usadas no cômputo das estatísticas \(G_i^*\) de Geary local e \(I_i\) de Moran local, respectivamente. Em conformidade com a Eq. (4), a opção fix_i_in_Gstar_permutations = TRUE indica que \(w_{ii} > 0\) foi incluído na ponderação. A opção nsim = 999 indica que foram realizadas 999 permutações de Monte Carlo.

resLG <- localG_perm(x = afcon$totcon, listw = waf_queen, nsim = 999, alternative = "two.sided", fix_i_in_Gstar_permutations = TRUE)
resLM <- localmoran_perm(x = afcon$totcon, listw = waf_queen, nsim = 999)
df <- data.frame(Regiao=afcon$name,G=round(resLG[1:42],4),Var_G=round(attr(resLG, "internals")[,3],4),Pr_G=round(attr(resLG, "internals")[,7],4), Cluster_G=attr(resLG,"cluster"), I=round(resLM[,1],4), Var_I=round(resLM[,3],4), Pr_I=round(resLM[,5],4), Cluster_I=attr(resLM, "quadr")[,3], row.names = NULL)

Além das estatísticas G e I, a Tabela 1 exibe a variância, probabilidade de rejeição da hipótese nula, o regime espacial. Como já mencionado, a estatística G local admite apenas dois regimes, Low e High.

Tabela 1: Estatísticas de autocorrelação espacial local dos conflitos na Africa

paged_table(df)

Limitando o nível de significância a 5%, os resultados da Tabela mostram que:

O EGYPT, SUDAN, ETHIOPIA, KENYA e UGANDA, apresentam uma taxa de conflitos, estatisticamente significante e superior à média. Estes países que compartilham fronteira comum no Norte e Leste do continente africano, formam um cluster High-High, sob enfoque da estatística I de Moran local. Esse padrão correspondente ao regime High, segundo análise da estatística G Ord-Getis local.
Os países SENEGAL, BURKINA FASO e RWANDA, apresentam valores significantes e abaixo da média, somente quando a análise é dirigida G Ord-Getis local.

moran.plot(x=afcon$totcon, listw = waf_queen)

4 Comentários finais

De modo geral, os resultados empíricos apresentados neste exercício, atendem as propriedades LISA estabelecidas em Anselin (1995). Simulações de Monte Carlo usadas na inferência das \(G_i^*\) de Geary local e \(I_i\) de Moran local, corroboram os resultados de Anselin (1995), para o qual a alta incidência de conflitos ocorreu de forma localizada, especificamente em cinco países africanos: EGYPT, SUDAN, ETHIOPIA, KENYA e UGANDA.

5 Referências

Almeida, E. Econometria Espacial Aplicada. Campinas, SP: Editora Alínea, 2012.

Anselin, L. and Griffith, D. A. (1988). Do Spatial Effects Really Matter in Regression Analysis? Paperes of The Regional Science Association, 65, 11-34.

Anselin, L. (1995). Local Indicators of Spatial Association - LISA. Geographical Analysis, 27, 93-115.

Getis, A. and Ord, J. K. (1992). The Analysis of Spatial Association by Use of Distance Statistics. Geographical Analysis, 24, 189-206.

Ord, J. K. and Getis, A. (1995). Local spatial autocorrelation statistics: distributional issues and an application. Geographical Analysis, 27, 286-306.

A fonte de dados e arquivos originais foram elaborados por Luc Anselin, do Laboratório de Análise Espacial, Departamento de Economia Agrícola e de Consumo, Universidade de Illinois, Urbana-Champaign.↩︎
Para mais detalhes, consulte Anselin (1995).↩︎

Análise de autocorrelação espacial local

Prof. Dr. André Luiz Ferreira e Silva

2024-03-29