# Najprv inštalácia balíkov (iba raz)
install.packages("zoo")
trying URL 'http://rspm/default/__linux__/focal/latest/src/contrib/zoo_1.8-14.tar.gz'
Content type 'application/x-gzip' length 1018553 bytes (994 KB)
==================================================
downloaded 994 KB


The downloaded source packages are in
    ‘/tmp/RtmpeRarTf/downloaded_packages’
install.packages("tseries")
trying URL 'http://rspm/default/__linux__/focal/latest/src/contrib/tseries_0.10-58.tar.gz'
Content type 'application/x-gzip' length 373247 bytes (364 KB)
==================================================
downloaded 364 KB


The downloaded source packages are in
    ‘/tmp/RtmpeRarTf/downloaded_packages’
install.packages("lmtest")
trying URL 'http://rspm/default/__linux__/focal/latest/src/contrib/lmtest_0.9-40.tar.gz'
Content type 'application/x-gzip' length 399624 bytes (390 KB)
==================================================
downloaded 390 KB


The downloaded source packages are in
    ‘/tmp/RtmpeRarTf/downloaded_packages’
install.packages("sandwich")
trying URL 'http://rspm/default/__linux__/focal/latest/src/contrib/sandwich_3.1-1.tar.gz'
Content type 'application/x-gzip' length 1505348 bytes (1.4 MB)
==================================================
downloaded 1.4 MB


The downloaded source packages are in
    ‘/tmp/RtmpeRarTf/downloaded_packages’
install.packages("car")
trying URL 'http://rspm/default/__linux__/focal/latest/src/contrib/car_3.1-3.tar.gz'
Content type 'application/x-gzip' length 1510899 bytes (1.4 MB)
==================================================
downloaded 1.4 MB


The downloaded source packages are in
    ‘/tmp/RtmpeRarTf/downloaded_packages’
# Načítanie balíkov
library(zoo)
library(tseries)
library(lmtest)
library(sandwich)
library(car)

PRÍPRAVA ÚDAJOV

V tejto časti sme z datasetu vybrali tri dôležité ukazovatele: populáciu v roku 2020, rozlohu krajiny a hustotu obyvateľstva. Pretože údaje obsahovali chýbajúce hodnoty, doplnili sme ich pomocou mediánu, aby analýza nebola skreslená ani prerušená NA hodnotami. Následne sme všetky premenné prekonvertovali na číselný formát, aby sa dali ďalej štatisticky spracovať. Výsledkom je čistý a kompletný dataset vhodný na následné regresné modelovanie.

# Načítanie dát
udaje <- read.csv("world_population.csv", dec=".", sep=",", header = TRUE)

# Výber údajov z roku 2020 (nie 2015 — podľa tvojho datasetu)
# a výber premenných, ktoré si používala v predošlom cvičení:
# - 2020 Population
# - Area (km2)
# - Density (per km2)

udaje.2020 <- udaje[, c("X2020.Population", "Area..km..", "Density..per.km..")]

# Konverzia na numerické hodnoty (niektoré môžu byť ako text)
udaje.2020 <- as.data.frame(lapply(udaje.2020, as.numeric))

IMPUTÁCIA DÁT – DOPLNENIE NA MEDIÁN

# Výpočet mediánov pre každý stĺpec
column_medians <- sapply(udaje.2020, median, na.rm = TRUE)

# Imputácia
udaje_imputed <- udaje.2020
for (col in names(udaje.2020)) {
  udaje_imputed[[col]][is.na(udaje_imputed[[col]])] <- column_medians[col]
}

# Aktuálne upravený dataset
udaje.2020 <- udaje_imputed
udaje <- udaje.2020

KONTROLA

summary(udaje)
sum(is.na(udaje))

ZÁKLADNÁ REGRESIA – UPRAVENÁ NA WORLD POPULATION DÁTA

V regresnom modeli sme skúmali, ako populácia a rozloha krajiny ovplyvňujú hustotu obyvateľstva. Výsledky ukazujú, či existuje matematický vzťah medzi veľkosťou populácie, územím krajiny a tým, koľko ľudí žije na km². Koeficienty modelu ukazujú smer a silu týchto vzťahov, a štatistická významnosť (p-hodnoty) naznačuje, či sú premenné skutočne dôležitými prediktormi. Celkovo model pomáha pochopiť, ktoré faktory najviac prispievajú k hustote obyvateľstva.

attach(udaje)

# Lineárny model: hustota ako funkcia populácie a rozlohy
model <- lm(Density..per.km.. ~ 1 + X2020.Population + Area..km.., data = udaje)

summary(model)

1. Test RESET (test chyby špecifikácie Ramseyho regresnej rovnice - Ramsey Reset Test)

Myšlienka: Nech pôvodný model má tvar \[y_t = \beta_0 + \beta_1 x_{t10} + \dots +\beta_k x_{tk} + u_t\] \[y_t = \beta_0 + \beta_1 x_{t10} + \dots +\beta_k x_{tk} + \gamma_2\hat y_t^2 + \gamma_3\hat{y}_t^3 + u_t\] Budeme testovať hypotézu

\(H_0:\) model je správne špecifikovaný (\(\gamma_2 = \gamma_3 = 0\))

oproti

\(H_1:\) model je nesprávne špecifikovaný (\(\gamma_2 \ne 0 \quad \text{alebo} \quad \gamma_3 \ne 0\))

# Suppose your model is:
model <- lm(Density..per.km.. ~ 1 + X2020.Population + Area..km.., data = udaje)


# RESET test from 'lmtest' package:
library(lmtest)
resettest(model)

Interpretácia

Null hypotéza (H0): Model je správne špecifikovaný (nechýbajú nelineárne vzťahy ani dôležité premenné).

Alternatívna hypotéza (H1): Model je nesprávne špecifikovaný (chýbajú premenné alebo nelineárne vzťahy).

p-value = 0.2507 → vyššie ako bežnú hladinu významnosti (napr. 0.05).

RESET test overuje, či je model správne špecifikovaný, teda či mu nechýbajú dôležité premenné alebo nelineárne vzťahy. V našom prípade je p-hodnota 0.25, čo znamená, že nemáme dôkaz o nesprávnej špecifikácii. Model Density ~ Population + Area je teda vhodný a nie je potrebné pridávať ďalšie členy.

2. Grafická analýza

Graf Residuals vs. Fitted

plot(model, which = 1)

Grafy C+R **

\[y_t = \beta_0 + \beta_1 x_{t1} + \dots +\beta_k x_{tk} + u_t\] Túto rovnicu najprv odhadneme a potom vykresľujeme grafy, kde výraz component+residual (C+R) plot vykresľuje na zvislej osi \(\hat{\beta}_ix_{ti}+e_t\) a na vodorovnej osi vykresľuje hodnoty \(x_{ti}\)

car::crPlots(model)

Graf – 2020 Population

Väčšina bodov je veľmi blízko osi 0 → populácia väčšiny krajín/území je relatívne nízka (v porovnaní s extrémami).

Niekoľko vzdialených bodov (outlierov) predstavuje veľmi veľké populácie.

Fialová čiara (lineárny model) mierne stúpa → model predpokladá pozitívnu, ale slabú lineárnu závislosť.

Modrá LOESS krivka je takmer plochá → skutočný nelineárny trend je prakticky nulový.

Interpretácia:

Populácia nemá výrazný lineárny ani nelineárny efekt na hustotu obyvateľstva v tomto modeli. Outliery môžu skresľovať fit.

Graf – Area (km²)

Situácia je podobná – väčšina území má malú rozlohu, pár extrémne veľkých štátov vytvára outliery.

Lineárny model (fialová čiara) mierne klesá → väčšia rozloha môže súvisieť s nižšou hustotou.

LOESS (modrá krivka) je tiež mierne klesajúca, ale takmer plochá.

Interpretácia:

Rozloha má slabý negatívny vzťah s hustotou, čo je logicky očakávané, ale závislosť je veľmi slabá. Nelineárny efekt sa prakticky neprejavuje.

3. Nelineárna špecifikácia

\[y_t = \beta_0 + \beta_1 x_{t10} + \dots +\beta_k x_{tk} + \dots + \gamma_i\hat x_{ik}^2 + \dots + \gamma_j\hat x_{jk}^2 + \dots + u_t\]


model <- lm(Density..per.km.. ~ X2020.Population + Area..km.., data = udaje)

model_kvadr <- lm(Density..per.km.. ~ 
                    X2020.Population + Area..km.. +
                    I(X2020.Population^2) + I(Area..km..^2),
                  data = udaje)

summary(model_kvadr)

anova(model, model_kvadr)

library(lmtest)
resettest(model_kvadr)

Kvadratický regresný model ukázal, že žiadna z premenných (populácia, rozloha ani ich kvadratické členy) nie je štatisticky významným prediktorom hustoty obyvateľstva. Hodnota R² takmer nulová a záporné upravené R² potvrdzujú, že model nedokáže vysvetliť variabilitu hustoty. ANOVA test ukázal, že pridanie kvadratických členov model nezlepšuje. RESET test síce nenaznačil chybnú špecifikáciu modelu, no samotný model je pre predikciu hustoty nevhodný.

model_kvadr <- lm(Density..per.km.. ~ X2020.Population + Area..km.. + I(X2020.Population^2), 
                  data = udaje)

summary(model_kvadr)

Reziduá majú veľmi široký rozsah, pričom maximum výrazne prevyšuje ostatné hodnoty, čo naznačuje prítomnosť extrémnych odľahlých pozorovaní v dátach. Žiadny z koeficientov vysvetľujúcich premenných nie je štatisticky významný (p-hodnoty sú vysoko nad 0.05), takže populácia, rozloha ani kvadratický člen populácie nevysvetľujú hustotu obyvateľstva. Veľmi nízke R² a záporné upravené R² ukazujú, že model prakticky nedokáže zachytiť variabilitu závislej premennej a je menej vhodný než triviálny model bez prediktorov. Nízka hodnota F-štatistiky a vysoká p-hodnota potvrdzujú, že model ako celok nie je štatisticky významný.

5. Použitie rozšíreného RESET testu

model_rozsireny <- lm(Density..per.km.. ~ 
                        X2020.Population + 
                        Area..km.. + 
                        I(X2020.Population^2) + 
                        I(Area..km..^2),
                      data = udaje)

summary(model_rozsireny)
anova(model,model_rozsireny)
resettest(model_rozsireny)

6. Transformácia pomocou dummy premennej a lineárnej lomenej funkcie

  1. zlom v autonómnom člene \(\beta_0\) a to nasledovnou špecifikáciou \[y_t = \beta_0 + \beta_D D+ \beta_1 x_{t1} + \dots +\beta_k x_{tk} + u_t\] čo interpretujeme ako posun regresnej priamky (regresnej nadroviny) o \(\beta_D\) jednotiek pozdĺž zvislej osi a to len v pozorovaniach, ak je splnená podmienka \(D_t = 1\)
  2. zlom v sklone regresnej priamky (nadroviny) a to len v pozorovaniach, ak je splnená podmienka \(D_t = 1\), čo dosiahneme nasledovnou špecifikáciou \[y_t = \beta_0 + \beta_1 x_{t1} + \dots + \beta_{i}x_{ti} + \beta_{Di}D_tx_{ti}+ \dots + \beta_k x_{tk} + u_t\] kde teda sklon priamky pozdĺž premenne \(x_{ti}\) je \(\beta_i\) ale len v prípade \(D_t=0\), inak je ten sklon rovný \(\beta_i+\beta_{D_i}\).
# Dummy premenná podľa populácie – nízka vs. vysoká populácia 
udaje$DUM <- ifelse(udaje$X2020.Population < median(udaje$X2020.Population, na.rm = TRUE), 
                    0, 1)

# Lineárny model s dummy premennou
modelD_auto <- lm(Density..per.km.. ~ DUM + X2020.Population + Area..km.., data = udaje)

summary(modelD_auto)

Model ukazuje, že žiadna z premenných – ani dummy premenná, populácia či rozloha – nie je štatisticky významným prediktorom hustoty obyvateľstva. Hodnoty R² aj upraveného R² sú takmer nulové, čo znamená, že model nedokáže vysvetliť variabilitu dát. Intercept je jediný významný parameter, čo naznačuje, že vysvetľujúce premenné neprispievajú k predikcii nad rámec priemernej hodnoty. Celkovo model ako celok opäť nie je štatisticky významný, čo potvrdzuje aj vysoká p-hodnota F-štatistiky.

# Príklad: predikcia Density na základe Population a Area
modelD_sklon <- lm(Density..per.km.. ~ X2020.Population + Area..km.., data=udaje)
summary(modelD_sklon)

Model sa snažil predikovať hustotu obyvateľstva (Density..per.km..) na základe populácie (X2020.Population) a rozlohy (Area..km..). Hodnoty koeficientov ukazujú, že ani populácia, ani rozloha nemajú štatisticky významný vplyv na hustotu (p-hodnoty 0.981 a 0.387, teda veľmi vysoko). Nízke R-squared (0.004) znamená, že model vysvetľuje len veľmi malú časť variability hustoty, prakticky zanedbateľnú. Celkovo teda tento lineárny model nie je vhodný na predikciu hustoty obyvateľstva z týchto premenných.

anova(model, modelD_sklon)
resettest(modelD_sklon)

V kombinácii s predchádzajúcim summary(), kde model vysvetľoval len zanedbateľnú časť variability (R² ≈ 0.004), to znamená: model je lineárne správne špecifikovaný, ale je prakticky nepoužiteľný, pretože prediktory populácia a rozloha veľmi nevysvetľujú hustotu.

7. Box-Coxov transformačný test

library(MASS)
boxcox(model)

Z tohto grafu vyplýva, že najpravdepodobnejšia hodnota parametra λ bola úspešne odhadnutá pomocou metódy maximálnej vierohodnosti (MLE). Interval spoľahlivosti okolo tejto hodnoty nám ukazuje, v akom rozsahu sa s vysokou istotou (napr. 95 %) nachádza skutočný parameter. To znamená, že model je dobre prispôsobený dátam a máme kvantifikovanú mieru neistoty ohľadne odhadu λ.

# Transformácia závislej premennej (napr. mocnina 1.8)
model_lambda <- lm(I((`Density..per.km..`^1.8 - 1)/1.8) ~ `X2020.Population` + `Area..km..`, data = udaje)

# Výpis výsledkov modelu
summary(model_lambda)

# RESET test pre kontrolu špecifikácie modelu
library(lmtest)
resettest(model_lambda)

fRESET test s p-hodnotou 0.5505 naznačuje, že lineárny tvar modelu je štatisticky správne špecifikovaný a nie je dôkaz potreby nelineárnych transformácií prediktorov.

