S využitím databázy Databaza.csv, ktorá obsahuje
počty obyvateľov slovenských obcí podľa okresu a mesiaca v roku
2024.
Pri ďalšej práci budeme používať knižnice
library(zoo)
library(tseries)
library(lmtest)
library(sandwich)
library(car)
library(dplyr)
library(tidyr)
rm(list = ls())
1. Úvod a údaje
Údaje o počte obyvateľov sú uložené v súbore
Databaza.csv.
Každý riadok predstavuje jednu obec, stĺpce:
Okres – názov okresu,
Obec – názov obce,
2024M01 … 2024M12 – počet obyvateľov v
danom mesiaci roku 2024.
Súbor predpokladáme uložený v podpriečinku
udaje v pracovnom priečinku (aby boli
údaje oddelené od zvyšku projektu).
1.1 Úvod do problému, stanovenie hypotéz
Rozhodli sme sa sledovať vývoj počtu obyvateľov v
čase vo vybranej obci.
Konkrétne budeme modelovať mesačný počet obyvateľov v
obci
„Bratislava - mestská časť Staré Mesto“ v závislosti od
času (index mesiaca).
Označme:
- \(Y_t\): počet obyvateľov v mesiaci
\(t\),
- \(t\): časový index (1 = január
2024, 2 = február 2024, …, 12 = december 2024).
Naša pracovná hypotéza:
- predpokladáme, že počet obyvateľov sa v priebehu roka mierne
mení (napr. vplyvom migrácie),
- očakávame hladký vývoj v čase, teda silnú
autokoreláciu, t. j. počet obyvateľov v mesiaci \(t\) je veľmi podobný počtu v mesiaci \(t-1\),
- očakávame kladný trendový koeficient (\(\beta_1 > 0\)), ak počet obyvateľov má
mierne rastúcu tendenciu.
1.2 Príprava databázy, úprava údajov
Databáza je v tzv. „wide“ tvare (mesiace v stĺpcoch). Pre časovú
analýzu jednej obce je výhodnejšie mať údaje v „long“ tvare: každý
riadok = jedna obec v jednom mesiaci.
Najskôr načítame údaje, potom vyberieme jednu obec a preklopíme
mesačné stĺpce do časového radu.
# načítanie databázy
udaje <- read.csv("Databaza.csv",
sep = ";",
dec = ",",
header = TRUE,
check.names = FALSE)
# vyberieme jednu konkrétnu obec (možeš zmeniť na inú)
udajeMesto <- udaje[udaje$Obec == "Bratislava - mestská časť Staré Mesto", ]
# preklopenie z wide na long (mesiace do riadkov)
udajeMesto_long <- udajeMesto %>%
pivot_longer(
cols = dplyr::starts_with("2024M"),
names_to = "RokMesiac",
values_to = "Pocet_obyvatelov"
) %>%
arrange(RokMesiac) %>%
mutate(
Rok = as.numeric(substr(RokMesiac, 1, 4)),
Mes = as.numeric(substr(RokMesiac, 6, 7)),
Time = dplyr::row_number() # 1 = január, 12 = december
)
udajeMesto_long
2. Lineárna regresia v základnom tvare
Ide o odhad rovnice
\[
\text{Pocet\_obyvatelov}_t = \beta_0 + \beta_1 \text{Time}_t + e_t,
\]
kde:
- \(\text{Pocet\_obyvatelov}_t\) –
počet obyvateľov vo vybranom mesiaci,
- \(\text{Time}_t\) – index mesiaca
(1–12),
- \(e_t\) – náhodná zložka
(rezíduum).
library(ggplot2)
# lineárny trendový model
model <- lm(Pocet_obyvatelov ~ Time, data = udajeMesto_long)
summary(model)
Call:
lm(formula = Pocet_obyvatelov ~ Time, data = udajeMesto_long)
Residuals:
Min 1Q Median 3Q Max
-26.232 -12.214 1.946 12.539 23.684
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 47339.47 10.96 4318.14 < 2e-16 ***
Time 24.44 1.49 16.41 1.47e-08 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 17.81 on 10 degrees of freedom
Multiple R-squared: 0.9642, Adjusted R-squared: 0.9606
F-statistic: 269.2 on 1 and 10 DF, p-value: 1.472e-08
3. Autokorelácia rezíduí
V tejto časti sa pozrieme na ďalší dôležitý predpoklad klasického
lineárneho regresného modelu – nezávislosť rezíduí. V
časových radoch (ako je náš mesačný počet obyvateľov) sa často stáva, že
chyba v čase \(t\) je systematicky
spätá s chybou v čase \(t-1\), čo
nazývame autokoreláciou rezíduí.
3.1 Čo je autokorelácia rezíduí?
Autokorelácia rezíduí je situácia, keď platí:
\[
\operatorname{Corr}(e_t, e_{t-k}) \neq 0 \quad \text{pre niektoré } k
\neq 0.
\]
Najčastejšie sa skúma autokorelácia prvého rádu:
\[
e_t = \rho e_{t-1} + \nu_t,\quad |\rho| < 1.
\]
3.2 Dôsledky autokorelácie rezíduí
- odhady koeficientov \(\hat{\beta}\)
sú nestranné,
- ale neefektívne,
- štandardné chyby sú skreslené (často podhodnotené), teda p-hodnoty
sa javia menšie,
- t- a F-testy sú potom skreslené.
3.3 Detekcia autokorelácie
ACF graf (Autocorrelation Function)
Táto funkcia priraďuje odhad korelácie, ktorá je medzi jednotlivými
rezíduami v aktuálnom období a období posunutom (Lag) o \(k\) období späť.
acf(res, lag.max = 4, main = "Autokorelačná funkcia rezíduí")

Na tomto grafe je modrou prerušovanou čiarou vyjadrený aj 95 %
interval spoľahlivosti pre hodnotu autokorelačného koeficientu s
príslušným posunom. Ak sa niektorý stĺpec nachádza mimo tohto pásma,
naznačuje to štatisticky významnú autokoreláciu pri
danom posune.
Durbin–Watsonov test
Durbin–Watsonov koeficient (DW) je vypočítaný z rezíduí podľa
vzorca
\[
DW = \frac{\sum_{t=2}^{n} (e_t - e_{t-1})^{2}}{\sum_{t=1}^{n} e_t^{2}}
\]
kde \(n\) je počet pozorovaní. Medzi
koeficientom autokorelácie dvoch susedných rezíduí a DW platí približný
vzťah
\[
\hat{\rho} \approx 1 - \frac{DW}{2}.
\]
Hodnoty:
- blízke nule → silná pozitívna
autokorelácia,
- blízke 4 → silná negatívna
autokorelácia,
- okolo 2 → žiadny výrazný problém s
autokoreláciou.
V praxi sa často používa intuitívne pravidlo: ak sa DW nachádza v
intervale približne 1,8 až 2,2, problém autokorelácie
väčšinou nepovažujeme za vážny.
library(lmtest)
dwtest(model)
Durbin-Watson test
data: model
DW = 2.4468, p-value = 0.6766
alternative hypothesis: true autocorrelation is greater than 0
DW test má isté obmedzenia – regresory nesmú byť časovo posunuté a
nesmú obsahovať oneskorené pozorovania vysvetľovanej veličiny ako
regresory. Tieto obmedzenia neplatia pre Breusch–Godfreyov test.
Breusch–Godfreyov test (BG test)
Čo test testuje
BG test je formálnym testom autokorelácie (sériovej
korelácie) rezíduí:
\[
u_t = \rho_1 u_{t-1} + \rho_2 u_{t-2} + \cdots + \rho_p u_{t-p} +
\varepsilon_t.
\]
Testuje, či sú rezíduá korelované v čase až do rádu \(p\), čo je typické pre časové rady.
Na rozdiel od DW testu:
- testuje autokoreláciu s vyšším posunom (lag 1, 2,
3, …),
- funguje aj pri modeloch s oneskorenou vysvetľovanou
premennou ako regresorom,
- pracuje s nekonštantnými regresormi (trend, dummy premenné
atď.).
Hypotézy
Pre test autokorelácie až do rádu \(p\):
Ako funguje BG test
- Odhadneme pôvodnú regresiu (u nás trendový model) a získame rezíduá
\(e_t\).
- Spustíme pomocnú regresiu: \[
e_t
= \alpha_0 + \alpha_1 x_{1t} + \cdots + \alpha_k x_{kt}
+ \rho_1 e_{t-1} + \cdots + \rho_p e_{t-p} + v_t,
\] kde \(x_{jt}\) sú pôvodné
regresory.
- Z tejto regresie vypočítame: \[
\text{BG} = (n - p) R^2_{\text{aux}}
\]
- Pod \(H_0\) platí približne: \[
\text{BG} \sim \chi^2_p.
\]
Interpretácia
- Veľká hodnota testovej štatistiky BG (malá
p-hodnota) → zamietame \(H_0\)
→ autokorelácia prítomná.
- Malá hodnota BG (veľká p-hodnota) → nezamietneme
\(H_0\) → nie je dôkaz
autokorelácie.
Praktický výpočet v R
Breusch-Godfrey test for serial correlation of order up to 1
data: model
LM test = 0.70926, df = 1, p-value = 0.3997
V našich údajoch (mesačný počet obyvateľov vo vybranej obci v roku
2024) sa ukáže, či BG test potvrdí alebo vyvráti prítomnosť
autokorelácie prvého rádu. Aj keď pri krátkom časovom rade (len 12
mesiacov) nebýva test príliš silný, pre demonštračné
účely použijeme aj postup odstránenia dôsledkov autokorelácie
pomocou dynamizácie modelu.
Ako riešiť autokoreláciu
Odstraňovanie problému autokorelácie rezíduí
Odhad Koyckovho modelu v R
Najjednoduchšia implementácia pre naše údaje:
udajeMesto_long <- udajeMesto_long %>%
arrange(Time) %>%
mutate(
Pocet_obyvatelov_lag1 = dplyr::lag(Pocet_obyvatelov)
)
model_koyck <- lm(Pocet_obyvatelov ~ Time + Pocet_obyvatelov_lag1,
data = udajeMesto_long)
summary(model_koyck)
Call:
lm(formula = Pocet_obyvatelov ~ Time + Pocet_obyvatelov_lag1,
data = udajeMesto_long)
Residuals:
Min 1Q Median 3Q Max
-24.591 -16.219 2.003 13.554 23.918
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 58792.7569 15755.3637 3.732 0.00577 **
Time 30.9479 8.3103 3.724 0.00584 **
Pocet_obyvatelov_lag1 -0.2422 0.3330 -0.727 0.48779
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 18.75 on 8 degrees of freedom
(1 observation deleted due to missingness)
Multiple R-squared: 0.9609, Adjusted R-squared: 0.9512
F-statistic: 98.4 on 2 and 8 DF, p-value: 2.329e-06
Durbin-Watson test
data: model_koyck
DW = 2.2885, p-value = 0.5587
alternative hypothesis: true autocorrelation is greater than 0
V dynamizovanom modeli vystupuje aj oneskorená hodnota vysvetľovanej
premennej (Pocet_obyvatelov_lag1). Ak je jej koeficient
kladný a menší ako 1, interpretujeme to tak, že
časť úrovne z minulého mesiaca sa prenáša do aktuálneho
mesiaca (zotrvačnosť). Pri hodnotení kvality modelu je vhodné
porovnať napríklad Adjusted R-squared pôvodného a
dynamického modelu, prípadne znova overiť autokoreláciu rezíduí (DW, BG
test).
Newey–West robustné štandardné chyby
Ešte jednou možnosťou, ako reagovať na prítomnosť autokorelácie (a
heteroskedasticity), je použiť robustné štandardné
chyby podľa Newey–Westa. Tie nemenia samotné odhady
koeficientov, ale korigujú odhady smerodajných odchýlok.
library(sandwich)
library(lmtest)
coeftest(model, vcov = NeweyWest(model))
t test of coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.7339e+04 6.5101e+00 7271.681 < 2.2e-16 ***
Time 2.4441e+01 7.7275e-01 31.628 2.347e-11 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
4. Záver
Na jednoduchom príklade mesačného počtu obyvateľov vo vybranej
slovenskej obci v roku 2024 sme ukázali:
- ako odhadnúť trendový model v čase,
- ako graficky a štatisticky testovať autokoreláciu
rezíduí (ACF, Durbin–Watson, BG test),
- ako možno model dynamizovať pomocou
Koyckovej rovnice,
- a ako využiť Newey–Westove robustné štandardné
chyby.
Autokorelácia rezíduí a z nej vyplývajúca potreba dynamizácie modelov
má v ekonometrii veľký význam. Tu sme uviedli len základné prístupy – k
zložitejším patrí napríklad Almonov model distribuovaného oneskorenia,
metóda Cochran–Orcutt alebo všeobecnejšie ARIMA modely,
ktoré sa používajú pri dlhších časových radoch.
