# Najprv inštalácia balíkov (iba raz)
install.packages("zoo")
trying URL 'http://rspm/default/__linux__/focal/latest/src/contrib/zoo_1.8-14.tar.gz'
Content type 'application/x-gzip' length 1018553 bytes (994 KB)
==================================================
downloaded 994 KB
The downloaded source packages are in
‘/tmp/RtmpeRarTf/downloaded_packages’
install.packages("tseries")
trying URL 'http://rspm/default/__linux__/focal/latest/src/contrib/tseries_0.10-58.tar.gz'
Content type 'application/x-gzip' length 373247 bytes (364 KB)
==================================================
downloaded 364 KB
The downloaded source packages are in
‘/tmp/RtmpeRarTf/downloaded_packages’
install.packages("lmtest")
trying URL 'http://rspm/default/__linux__/focal/latest/src/contrib/lmtest_0.9-40.tar.gz'
Content type 'application/x-gzip' length 399624 bytes (390 KB)
==================================================
downloaded 390 KB
The downloaded source packages are in
‘/tmp/RtmpeRarTf/downloaded_packages’
install.packages("sandwich")
trying URL 'http://rspm/default/__linux__/focal/latest/src/contrib/sandwich_3.1-1.tar.gz'
Content type 'application/x-gzip' length 1505348 bytes (1.4 MB)
==================================================
downloaded 1.4 MB
The downloaded source packages are in
‘/tmp/RtmpeRarTf/downloaded_packages’
trying URL 'http://rspm/default/__linux__/focal/latest/src/contrib/car_3.1-3.tar.gz'
Content type 'application/x-gzip' length 1510899 bytes (1.4 MB)
==================================================
downloaded 1.4 MB
The downloaded source packages are in
‘/tmp/RtmpeRarTf/downloaded_packages’
# Načítanie balíkov
library(zoo)
library(tseries)
library(lmtest)
library(sandwich)
library(car)
PRÍPRAVA ÚDAJOV
V tejto časti sme z datasetu vybrali tri dôležité ukazovatele:
populáciu v roku 2020, rozlohu krajiny a hustotu obyvateľstva. Pretože
údaje obsahovali chýbajúce hodnoty, doplnili sme ich pomocou mediánu,
aby analýza nebola skreslená ani prerušená NA hodnotami. Následne sme
všetky premenné prekonvertovali na číselný formát, aby sa dali ďalej
štatisticky spracovať. Výsledkom je čistý a kompletný dataset vhodný na
následné regresné modelovanie.
# Načítanie dát
udaje <- read.csv("world_population.csv", dec=".", sep=",", header = TRUE)
# Výber údajov z roku 2020 (nie 2015 — podľa tvojho datasetu)
# a výber premenných, ktoré si používala v predošlom cvičení:
# - 2020 Population
# - Area (km2)
# - Density (per km2)
udaje.2020 <- udaje[, c("X2020.Population", "Area..km..", "Density..per.km..")]
# Konverzia na numerické hodnoty (niektoré môžu byť ako text)
udaje.2020 <- as.data.frame(lapply(udaje.2020, as.numeric))
IMPUTÁCIA DÁT – DOPLNENIE NA MEDIÁN
# Výpočet mediánov pre každý stĺpec
column_medians <- sapply(udaje.2020, median, na.rm = TRUE)
# Imputácia
udaje_imputed <- udaje.2020
for (col in names(udaje.2020)) {
udaje_imputed[[col]][is.na(udaje_imputed[[col]])] <- column_medians[col]
}
# Aktuálne upravený dataset
udaje.2020 <- udaje_imputed
udaje <- udaje.2020
KONTROLA
summary(udaje)
sum(is.na(udaje))
ZÁKLADNÁ REGRESIA – UPRAVENÁ NA WORLD POPULATION DÁTA
V regresnom modeli sme skúmali, ako populácia a rozloha krajiny
ovplyvňujú hustotu obyvateľstva. Výsledky ukazujú, či existuje
matematický vzťah medzi veľkosťou populácie, územím krajiny a tým, koľko
ľudí žije na km². Koeficienty modelu ukazujú smer a silu týchto vzťahov,
a štatistická významnosť (p-hodnoty) naznačuje, či sú premenné skutočne
dôležitými prediktormi. Celkovo model pomáha pochopiť, ktoré faktory
najviac prispievajú k hustote obyvateľstva.
attach(udaje)
# Lineárny model: hustota ako funkcia populácie a rozlohy
model <- lm(Density..per.km.. ~ 1 + X2020.Population + Area..km.., data = udaje)
summary(model)
1. Test RESET (test chyby špecifikácie Ramseyho regresnej rovnice -
Ramsey Reset Test)
Myšlienka: Nech pôvodný model má tvar \[y_t = \beta_0 + \beta_1 x_{t10} + \dots +\beta_k
x_{tk} + u_t\] \[y_t = \beta_0 +
\beta_1 x_{t10} + \dots +\beta_k x_{tk} + \gamma_2\hat y_t^2 +
\gamma_3\hat{y}_t^3 + u_t\] Budeme testovať hypotézu
\(H_0:\) model je správne
špecifikovaný (\(\gamma_2 = \gamma_3 =
0\))
oproti
\(H_1:\) model je nesprávne
špecifikovaný (\(\gamma_2 \ne 0 \quad
\text{alebo} \quad \gamma_3 \ne 0\))
# Suppose your model is:
model <- lm(Density..per.km.. ~ 1 + X2020.Population + Area..km.., data = udaje)
# RESET test from 'lmtest' package:
library(lmtest)
resettest(model)
Interpretácia
Null hypotéza (H0): Model je správne špecifikovaný
(nechýbajú nelineárne vzťahy ani dôležité premenné).
Alternatívna hypotéza (H1): Model je nesprávne
špecifikovaný (chýbajú premenné alebo nelineárne vzťahy).
p-value = 0.2507 → vyššie ako bežnú hladinu
významnosti (napr. 0.05).
RESET test overuje, či je model správne špecifikovaný, teda či mu
nechýbajú dôležité premenné alebo nelineárne vzťahy. V našom prípade je
p-hodnota 0.25, čo znamená, že nemáme dôkaz o nesprávnej špecifikácii.
Model Density ~ Population + Area je teda vhodný a nie je potrebné
pridávať ďalšie členy.
2. Grafická analýza
Graf Residuals vs. Fitted
Grafy C+R **
\[y_t = \beta_0 + \beta_1 x_{t1} + \dots
+\beta_k x_{tk} + u_t\] Túto rovnicu najprv odhadneme a potom
vykresľujeme grafy, kde výraz component+residual (C+R) plot vykresľuje
na zvislej osi \(\hat{\beta}_ix_{ti}+e_t\) a na vodorovnej
osi vykresľuje hodnoty \(x_{ti}\)

Graf – 2020 Population
Väčšina bodov je veľmi blízko osi 0 → populácia väčšiny
krajín/území je relatívne nízka (v porovnaní s extrémami).
Niekoľko vzdialených bodov (outlierov) predstavuje veľmi veľké
populácie.
Fialová čiara (lineárny model) mierne stúpa → model
predpokladá pozitívnu, ale slabú lineárnu závislosť.
Modrá LOESS krivka je takmer plochá → skutočný nelineárny
trend je prakticky nulový.
Interpretácia:
Populácia nemá výrazný lineárny ani nelineárny efekt na hustotu
obyvateľstva v tomto modeli. Outliery môžu skresľovať fit.
Graf – Area (km²)
Situácia je podobná – väčšina území má malú rozlohu, pár extrémne
veľkých štátov vytvára outliery.
Lineárny model (fialová čiara) mierne klesá → väčšia rozloha
môže súvisieť s nižšou hustotou.
LOESS (modrá krivka) je tiež mierne klesajúca, ale takmer
plochá.
Interpretácia:
Rozloha má slabý negatívny vzťah s hustotou, čo je logicky očakávané,
ale závislosť je veľmi slabá. Nelineárny efekt sa prakticky
neprejavuje.
3. Nelineárna špecifikácia
\[y_t = \beta_0 + \beta_1 x_{t10} + \dots
+\beta_k x_{tk} + \dots + \gamma_i\hat x_{ik}^2 + \dots + \gamma_j\hat
x_{jk}^2 + \dots + u_t\]
model <- lm(Density..per.km.. ~ X2020.Population + Area..km.., data = udaje)
model_kvadr <- lm(Density..per.km.. ~
X2020.Population + Area..km.. +
I(X2020.Population^2) + I(Area..km..^2),
data = udaje)
summary(model_kvadr)
anova(model, model_kvadr)
library(lmtest)
resettest(model_kvadr)
Kvadratický regresný model ukázal, že žiadna z premenných
(populácia, rozloha ani ich kvadratické členy) nie je štatisticky
významným prediktorom hustoty obyvateľstva. Hodnota R² takmer nulová a
záporné upravené R² potvrdzujú, že model nedokáže vysvetliť variabilitu
hustoty. ANOVA test ukázal, že pridanie kvadratických členov model
nezlepšuje. RESET test síce nenaznačil chybnú špecifikáciu modelu, no
samotný model je pre predikciu hustoty nevhodný.
model_kvadr <- lm(Density..per.km.. ~ X2020.Population + Area..km.. + I(X2020.Population^2),
data = udaje)
summary(model_kvadr)
Reziduá majú veľmi široký rozsah, pričom maximum výrazne
prevyšuje ostatné hodnoty, čo naznačuje prítomnosť extrémnych odľahlých
pozorovaní v dátach. Žiadny z koeficientov vysvetľujúcich premenných nie
je štatisticky významný (p-hodnoty sú vysoko nad 0.05), takže populácia,
rozloha ani kvadratický člen populácie nevysvetľujú hustotu
obyvateľstva. Veľmi nízke R² a záporné upravené R² ukazujú, že model
prakticky nedokáže zachytiť variabilitu závislej premennej a je menej
vhodný než triviálny model bez prediktorov. Nízka hodnota
F-štatistiky a vysoká p-hodnota potvrdzujú, že model ako celok nie je
štatisticky významný.
5. Použitie rozšíreného RESET testu
model_rozsireny <- lm(Density..per.km.. ~
X2020.Population +
Area..km.. +
I(X2020.Population^2) +
I(Area..km..^2),
data = udaje)
summary(model_rozsireny)
anova(model,model_rozsireny)
resettest(model_rozsireny)
