Hellenic Spatial Statistics Lab - A Spatial Statistics Primer

From Classical to Spatial Statistics: Spatial Autocorrelation, #2 tutorial

Authors

Doukissas Leonidas

Pantazis Panagiotis

Psycharis Yannis

Politis Konstantinos

Συσχέτιση, Συνδιακύμανση και Χωρική Αυτοσυσχέτιση

Στην ανάλυση δεδομένων συχνά ρωτάμε:

«Όταν μεγαλώνει μια μεταβλητή, μεγαλώνει και μια άλλη; Κι αν ναι, αυτό συμβαίνει και στον χώρο, δηλαδή σε γειτονικές περιοχές;»

Για να απαντήσουμε θα χρησιμοποιήσουμε 3 βασικές έννοιες την συνδιακύμανση, την συσχέτιση και την χωρική αυτοσυσχέτιση:

  • Η Συνδιακύμανση: μετράει αν δύο μεταβλητές κινούνται μαζί (μεγαλώνουν/μικραίνουν ταυτόχρονα).

  • Η Συσχέτιση: κανονικοποιεί τη συνδιακύμανση ώστε να δίνει μια καθαρή τιμή από –1 έως +1.

  • Η Χωρική αυτοσυσχέτιση: επεκτείνει την ιδέα αυτή στον χώρο, ρωτώντας: «μοιάζουν οι τιμές μιας περιοχής με αυτές των γειτόνων της;»


Σύντομη θεωρία

  • Συνδιακύμανση δύο μεταβλητών (X,Y): \[ \operatorname{Cov}(X,Y)=\frac{1}{n-1}\sum (X_i-\bar X)(Y_i-\bar Y) \]

  • Συσχέτιση (Pearson): \[ r_{XY}=\frac{\operatorname{Cov}(X,Y)}{s_X s_Y} \] (χωρίς μονάδες, πάντα στο διάστημα ([-1,1])).

  • Moran’s (I): δείχνει συνολικά αν οι τιμές είναι χωρικά ομαδοποιημένες.

Εισαγωγή

Συχνά ρωτάμε: «Όταν αυξάνεται μια μεταβλητή, αυξάνεται κι άλλη;» Και στον χώρο: «Μοιάζουν οι τιμές μιας περιοχής με των γειτόνων της;»

Σύντομη θεωρία

Συνδιακύμανση δύο μεταβλητών (X,Y) (δειγματική): \[ \operatorname{Cov}(X,Y)=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar X)(Y_i-\bar Y). \]

Συσχέτιση (Pearson): \[ r_{XY}=\frac{\operatorname{Cov}(X,Y)}{s_X\,s_Y},\quad s_X=\sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar X)^2}. \]

Moran’s (I) (global): \[ I=\frac{n}{\sum_{i}\sum_{j}w_{ij}}\cdot \frac{\sum_{i}\sum_{j}w_{ij}(x_i-\bar x)(x_j-\bar x)}{\sum_{i}(x_i-\bar x)^2}. \]

1) Αριθμητικό παράδειγμα

1.1 Συσχέτιση vs Συνδιακύμανση

Έστω: \[ X=(2,4,6,8),\quad Y=(1,3,5,7),\quad n=4. \]

Μέσοι: \[ \bar X=\frac{2+4+6+8}{4}=5,\qquad \bar Y=\frac{1+3+5+7}{4}=4. \]

Αποκλίσεις: \[ X-\bar X=(-3,-1,1,3),\qquad Y-\bar Y=(-3,-1,1,3). \]

Άθροισμα γινομένων αποκλίσεων: \[ (-3)(-3)+(-1)(-1)+(1)(1)+(3)(3)=20. \]

Συνδιακύμανση: \[ \operatorname{Cov}(X,Y)=\frac{20}{n-1}=\frac{20}{3}\approx 6.67. \]

Τυπικές αποκλίσεις: \[ s_X=s_Y=\sqrt{\frac{(-3)^2+(-1)^2+1^2+3^2}{3}}=\sqrt{\frac{20}{3}}. \]

Συσχέτιση: \[ r_{XY}=\frac{\operatorname{Cov}(X,Y)}{s_X s_Y} =\frac{\tfrac{20}{3}}{\sqrt{\tfrac{20}{3}}\sqrt{\tfrac{20}{3}}}=1. \]

Ερμηνεία: τέλεια θετική γραμμική σχέση.

X <- c(2,4,6,8)
Y <- c(1,3,5,7)

# υπολογισμοί
mx <- mean(X); my <- mean(Y)
sx <- sd(X);   sy <- sd(Y)
cov_xy <- cov(X,Y)
r_xy <- cor(X,Y)

# εκτύπωση αποτελεσμάτων
print(list(mean_X=mx, mean_Y=my, sd_X=sx, sd_Y=sy, cov_XY=cov_xy, cor_XY=r_xy))
$mean_X
[1] 5

$mean_Y
[1] 4

$sd_X
[1] 2.581989

$sd_Y
[1] 2.581989

$cov_XY
[1] 6.666667

$cor_XY
[1] 1
# γράφημα
plot(X, Y, pch=19, xlab="X", ylab="Y", main="Scatter X–Y")
abline(lm(Y ~ X), lwd=2)
grid()
Figure 1: Διάγραμμα διασποράς X–Y και ευθεία παλινδρόμησης

1.2 Χωρική αυτοσυσχέτιση (Moran’s (I)) — «σκακιέρα»

Θεωρούμε 4 χωρικές μονάδες σε πλέγμα (2) με γειτνίαση τύπου rook (γειτονιά μόνο μέσω κοινής πλευράς).
Αναθέτουμε τιμές ώστε οι αποκλίσεις από τον μέσο να είναι εναλλάξ () (μοτίβο «σκακιέρας»): \[ x=(3.5,\,6.5,\,6.5,\,3.5), \qquad \bar x=5. \] Άρα οι αποκλίσεις είναι: \[ z=x-\bar x=(-1.5,\,+1.5,\,+1.5,\,-1.5). \]

Δομή γειτνίασης (rook). Κάθε κελί έχει 2 γείτονες. Με κατευθυνόμενα ζεύγη προκύπτουν συνολικά: \[ W=\sum_{i}\sum_{j} w_{ij}=8. \] (Σημείωση: σε μη κατευθυνόμενη μορφή τα μοναδικά ζεύγη είναι 4, αλλά εδώ μετράμε i -> j και j -> i ξεχωριστά.)

Αριθμητής Moran’s (I). Σε κάθε γειτονικό ζεύγος οι αποκλίσεις έχουν αντίθετο πρόσημο, άρα \[ (x_i-\bar x)(x_j-\bar x)=(-1.5)\cdot(1.5)=-2.25. \] Με (W=8) κατευθυνόμενα ζεύγη: \[ \sum_i\sum_j w_{ij}(x_i-\bar x)(x_j-\bar x)=8\times(-2.25)=-18. \]

Παρονομαστής Moran’s (I). Το άθροισμα τετραγώνων αποκλίσεων είναι: \[ \sum_i (x_i-\bar x)^2 =1.5^2+1.5^2+1.5^2+1.5^2 =4\times 2.25 =9. \]

Τελικός υπολογισμός. Με (n=4) και (W=8): \[ I=\frac{n}{W}\cdot \frac{\sum_i\sum_j w_{ij}(x_i-\bar x)(x_j-\bar x)} {\sum_i (x_i-\bar x)^2} =\frac{4}{8}\cdot\frac{-18}{9} =\frac{4}{8}\cdot(-2) =-1. \]

Ερμηνεία. Το (I=-1) δηλώνει ισχυρή αρνητική χωρική αυτοσυσχέτιση: κάθε μονάδα περιβάλλεται από «αντίθετες» τιμές (τυπικό μοτίβο «σκακιέρας»), οπότε τα γινόμενα αποκλίσεων μεταξύ γειτόνων είναι συστηματικά αρνητικά και μεγιστοποιούν την αρνητικότητα του δείκτη.

# Δεδομένα
x <- c(3.5, 6.5, 6.5, 3.5)   # κελιά με σειρά: (1,1),(1,2),(2,1),(2,2)
n <- length(x)
xbar <- mean(x)
z <- x - xbar                 # αποκλίσεις από τον μέσο: (-1.5, 1.5, 1.5, -1.5)

# Rook γειτνίαση (κατευθυνόμενη)
W <- matrix(0, n, n)
W[1,2] <- W[2,1] <- 1  # (1,1) <-> (1,2)
W[1,3] <- W[3,1] <- 1  # (1,1) <-> (2,1)
W[2,4] <- W[4,2] <- 1  # (1,2) <-> (2,2)
W[3,4] <- W[4,3] <- 1  # (2,1) <-> (2,2)
Wsum <- sum(W)         # = 8

# Moran's I
num <- as.numeric(t(z) %*% W %*% z)  # -18
den <- sum(z^2)                      # 9
I <- (n / Wsum) * (num / den)        # -1

# Συντεταγμένες κελιών (κεντρικά σημεία)
# Διάταξη: (row, col): (1,1) κάτω-αριστερά, (1,2) κάτω-δεξιά, (2,1) πάνω-αριστερά, (2,2) πάνω-δεξιά
centers <- data.frame(
  id = 1:4,
  row = c(1,1,2,2),
  col = c(1,2,1,2)
)
centers$x <- centers$col
centers$y <- centers$row

# Χρώματα: αρνητική απόκλιση = ανοιχτό, θετική = πιο σκούρο
cols <- ifelse(z > 0, "grey70", "grey95")

# Πλοτ
plot(NA, xlim=c(0.5,2.5), ylim=c(0.5,2.5), xaxs="i", yaxs="i",
     xlab="", ylab="", xaxt="n", yaxt="n", bty="n",
     main="Rook 2×2 — Σκακιέρα, W=8, Moran’s I = -1")

# Σχεδίαση κελιών (τετράγωνα 1x1)
for (i in 1:4) {
  x0 <- centers$x[i] - 0.5; x1 <- centers$x[i] + 0.5
  y0 <- centers$y[i] - 0.5; y1 <- centers$y[i] + 0.5
  rect(x0, y0, x1, y1, col=cols[i], border="grey40", lwd=2)
}

# Γείτονες (rook) ως γραμμές
segments(centers$x[1], centers$y[1], centers$x[2], centers$y[2], lwd=2) # κάτω οριζόντιο
segments(centers$x[1], centers$y[1], centers$x[3], centers$y[3], lwd=2) # αριστερό κάθετο
segments(centers$x[2], centers$y[2], centers$x[4], centers$y[4], lwd=2) # δεξί κάθετο
segments(centers$x[3], centers$y[3], centers$x[4], centers$y[4], lwd=2) # πάνω οριζόντιο

# Labels: τιμή και απόκλιση
text(centers$x, centers$y + 0.15, labels = sprintf("x=%.1f", x), cex=1.0)
text(centers$x, centers$y - 0.15, labels = sprintf("z=%.1f", z), cex=0.9)

# Πλαίσιο και βοηθητικό grid
box()
grid(nx=2, ny=2, lty="dotted")

# Εκτύπωση αριθμητικών αποτελεσμάτων στο console
print(list(
  x = x,
  xbar = xbar,
  deviations = z,
  Wsum = Wsum,
  numerator = num,
  denominator = den,
  Moran_I = I
))
$x
[1] 3.5 6.5 6.5 3.5

$xbar
[1] 5

$deviations
[1] -1.5  1.5  1.5 -1.5

$Wsum
[1] 8

$numerator
[1] -18

$denominator
[1] 9

$Moran_I
[1] -1
Figure 2: Πλέγμα 2×2 με rook γειτνίαση — τιμές, αποκλίσεις και Moran’s I

Ενδεικτική βιβλιογραφία

  • Anselin, L. (1988). Spatial Econometrics: Methods and Models. Dordrecht: Kluwer.

  • Anselin, L. (1995). Local Indicators of Spatial Association—LISA. Geographical Analysis, 27(2), 93–115.

  • Bivand, R. S., Pebesma, E., & Gómez-Rubio, V. (2013). Applied Spatial Data Analysis with R (2nd ed.). New York: Springer.

  • Cliff, A. D., & Ord, J. K. (1981). Spatial Processes: Models & Applications. London: Pion.

  • Cressie, N. (1993). Statistics for Spatial Data (rev. ed.). New York: Wiley.

  • Getis, A., & Ord, J. K. (1992). The analysis of spatial association by use of distance statistics. Geographical Analysis, 24(3), 189–206.

  • LeSage, J. P., & Pace, R. K. (2009). Introduction to Spatial Econometrics. Boca Raton: CRC Press.

  • Moran, P. A. P. (1950). Notes on continuous stochastic phenomena. Biometrika, 37(1/2), 17–23.

  • Ord, J. K., & Getis, A. (1995). Local spatial autocorrelation statistics: distributional issues and an application. Geographical Analysis, 27(4), 286–306.

Άδεια / Αναδημοσίευση

© 2025 Doukissas Leonidas, Pantazis Panagiotis, Psycharis Yannis, Politis Konstantinos.

Κείμενο: Διατίθεται με άδεια Creative Commons CC BY 4.0.
Μπορείτε να αναδιανείμετε και να προσαρμόσετε, με αναφορά στους δημιουργούς.
Άδεια: https://creativecommons.org/licenses/by/4.0/

Κώδικας R: MIT License (ελεύθερη χρήση, τροποποίηση, αναδιανομή με αναφορά).
Άδεια: https://opensource.org/licenses/MIT

Δεδομένα/Εικόνες τρίτων: Παραμένουν στις αρχικές τους άδειες.
Για χρήσεις πέραν των παραπάνω, επικοινωνήστε: .

Προτεινόμενη αναφορά:
Doukissas, L., Pantazis, P., Psycharis, Y., & Politis, K. (2025). Hellenic Spatial Statistics Lab – HSSL. RPubs. Διαθέσιμο στο: https://rpubs.com/LeonidasD/1338607