Úvod do problému, stanovenie hypotéz
Rozhodla som sa modelovať priemernú teplotu (Temperature…C.) v
závislosti od troch vysvetľujúcich premenných – atmosférického tlaku
(Air.Pressure..hPa.), rýchlosti vetra (Wind.Speed..m.s.) a množstva
zrážok (Precipitation..mm.) v roku 2020. Cieľom analýzy je zistiť, či
tieto meteorologické faktory majú štatisticky významný vplyv na vývoj
teploty a či medzi nimi existuje lineárny vzťah.
Hypotéza predpokladá, že všetky tri vysvetľujúce premenné majú určitý
vplyv na priemernú teplotu. Očakávame, že vyšší atmosférický tlak bude
súvisieť s nižšou teplotou, teda jeho vplyv bude negatívny. Podobne aj
vyššia rýchlosť vetra by mohla viesť k poklesu teploty, pretože vietor
prispieva k ochladzovaniu vzduchu. Naopak, vyššie množstvo zrážok môže
byť spojené s vyššou teplotou, najmä počas teplejších období roka, keď
sú zrážky časté v dôsledku búrkovej činnosti, a preto v tomto prípade
predpokladáme pozitívny vplyv.
Nulová hypotéza (H0) hovorí, že žiadna z vysvetľujúcich premenných
nemá štatisticky významný vplyv na teplotu. Alternatívna hypotéza (H1)
predpokladá, že aspoň jedna z vysvetľujúcich premenných má na teplotu
štatisticky významný vplyv.
Príprava databázy, čistenie a úprava údajov
udaje <- read.csv2("Temperature_2020.csv",header=TRUE,sep=";",dec=",",fileEncoding = "Windows-1250")
head(udaje)
colnames(udaje)
[1] "Year"
[2] "Month"
[3] "Air.Pressure..hPa."
[4] "Temperature...C."
[5] "Potential.Temperature..K."
[6] "Dew.Point...C."
[7] "Relative.Humidity...."
[8] "Saturated.Vapour.Pressure..hPa."
[9] "Actual.Vapour.Pressure..hPa."
[10] "Vapour.Pressure.Deficit..hPa."
[11] "Specific.Humidity..g.kg."
[12] "Water.Vapour.Concentration..g.m.."
[13] "Air.Density..kg.m.."
[14] "Wind.Speed..m.s."
[15] "Max.Wind.Speed..m.s."
[16] "Wind.Direction...."
[17] "Precipitation..mm."
[18] "Rain.Duration...."
[19] "Solar.Radiation..W.m.."
[20] "PAR..µmol.m.s."
[21] "Max.PAR..µmol.m.s."
[22] "Soil.Temperature...C."
udaje.2020 <- udaje[udaje$Year==2020,c("Temperature...C.","Air.Pressure..hPa.","Wind.Speed..m.s.","Precipitation..mm.")]
column_medians <- sapply(udaje.2020, median, na.rm = TRUE)
udaje_imputed <- udaje.2020
for (col in names(udaje.2020)) {
udaje_imputed[[col]][is.na(udaje_imputed[[col]])] <- column_medians[col]
}
udaje.2020 <- udaje_imputed
num_plots <- length(names(udaje.2020))
par(mfrow = c(2, 2))
par(mar = c(4, 4, 2, 1))
for (col in names(udaje.2020)) {
boxplot(udaje.2020[[col]], main = col, xlab = "Value", col = "lightblue")
}
mtext("Boxploty jednotlivých premenných (2020)", outer = TRUE, cex = 1.4, font = 2)
par(mfrow = c(1, 1))

Lineárna regresia
model <- lm(Temperature...C. ~ +1 + Air.Pressure..hPa. + Wind.Speed..m.s. + Precipitation..mm.,data=udaje.2020)
#print("Odhadnuté koeficienty sú: ")
# print(model$coefficients)
#print("Odhadnuté rezíduá: ")
#print(model$residuals)
#print("Vyrovnané hodnoty vysvetľovanej premennej sú: ")
#print(model$fitted.values)
#print("matica model$xlevels: ")
#print(model.matrix(model))
#X <- model.matrix(model)
#diag(X %*% solve(t(X) %*% X) %*% t(X))
summary(model)
Call:
lm(formula = Temperature...C. ~ +1 + Air.Pressure..hPa. + Wind.Speed..m.s. +
Precipitation..mm., data = udaje.2020)
Residuals:
Min 1Q Median 3Q Max
-7.5810 -3.4298 -0.7333 2.6382 11.0651
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -150.8686 471.8850 -0.320 0.757
Air.Pressure..hPa. 0.1579 0.4735 0.333 0.747
Wind.Speed..m.s. 0.2610 4.6864 0.056 0.957
Precipitation..mm. 412.2386 256.3898 1.608 0.147
Residual standard error: 6.04 on 8 degrees of freedom
Multiple R-squared: 0.3015, Adjusted R-squared: 0.03954
F-statistic: 1.151 on 3 and 8 DF, p-value: 0.3862
par(mfrow = c(2, 2))
plot(model)
mtext("Diagnostické grafy regresného modelu", outer = TRUE, cex = 1.2, font = 2)
par(mfrow = c(1, 1))

Residuals vs. Fitted
Interpretácia grafu
Na grafe „Residuals vs Fitted“ vidíme, že väčšina rezíduí sa pohybuje
okolo nulovej osi bez výrazného systematického vzoru. To znamená, že
model je dobre centrovaný a nemá tendenciu systematicky nadhodnocovať
alebo podhodnocovať predikcie. Rozptyl rezíduí je pomerne rovnomerný
naprieč rozsahom prispôsobených hodnôt, čo podporuje predpoklad
homoskedasticity, teda konštantnej variability chýb. Červená hladká
čiara je mierne zakrivená, čo môže naznačovať, že vzťah medzi premennými
nie je úplne lineárny. Niekoľko bodov, ako napríklad 7 a 8, sa odchyľuje
od zvyšku, čo môže naznačovať prítomnosť odľahlých pozorovaní, ktoré by
mohli mať určitý vplyv na model.
Q-Q Residuals
Interpretácia grafu
Q-Q graf porovnáva teoretické kvantily normálneho rozdelenia so
skutočnými štandardizovanými rezíduami. Väčšina bodov leží blízko
priamky, čo naznačuje, že rozdelenie rezíduí sa približuje normálnemu
rozdeleniu. V strednej časti grafu je zhoda veľmi dobrá, zatiaľ čo v
krajných častiach možno vidieť mierne odchýlky – najmä vpravo hore a
vľavo dole. Tieto drobné rozdiely môžu naznačovať prítomnosť niekoľkých
extrémnych hodnôt alebo mierne ťažšie chvosty rozdelenia. Celkovo však
možno konštatovať, že predpoklad normality je v zásade splnený.
Scale-Location
Interpretácia grafu
Na grafe Scale-Location sú body rozložené rovnomerne pozdĺž osi X bez
zreteľného tvaru lievika. To naznačuje, že rozptyl štandardizovaných
rezíduí je približne konštantný, teda model spĺňa predpoklad
homoskedasticity. Červená hladká čiara je relatívne plochá s len miernym
poklesom, čo potvrdzuje stabilitu rozptylu naprieč rôznymi úrovňami
prispôsobených hodnôt. Niektoré pozorovania sa síce nachádzajú mierne
vyššie, ale nejde o extrémne odchýlky. Model teda nevykazuje významné
problémy s heteroskedasticitou.
Residuals vs Leverage
Interpretácia grafu
Graf „Residuals vs Leverage“ ukazuje, ako jednotlivé pozorovania
ovplyvňujú odhadnutý regresný model. Väčšina bodov má nízke hodnoty
pákového efektu (leverage), čo znamená, že tieto pozorovania majú iba
malý vplyv na výsledný model. Štandardizované rezíduá sa pohybujú
prevažne v intervale od −2 do +2, čo je v bežnom rozsahu. Niektoré
pozorovania, ako napríklad 7, 8 a 12, majú mierne vyššie hodnoty
pákového efektu, ale žiadne z nich neprekračuje hranice Cookovej
vzdialenosti (0,5 alebo 1,0). To naznačuje, že žiadne pozorovanie
neovplyvňuje model neprimerane silno. Celkovo je model stabilný a
nevykazuje prítomnosť extrémne vplyvných bodov.
# normality tests
residuals <- residuals(model)
jb_test <- jarque.bera.test(residuals)
jb_test
Jarque Bera Test
data: residuals
X-squared = 0.81517, df = 2, p-value = 0.6653
# outlier test (see p-value for Bonferroni correction)
outlier_test <- outlierTest(model)
outlier_test
No Studentized residuals with Bonferroni p < 0.05
Largest |rstudent|:
Keďže sa nepreukázala prítomnosť štatisticky významných odľahlých
hodnôt (najväčšie studentizované rezíduum má hodnotu 2.72, pričom
Bonferroni korigovaná p-hodnota = 0.359 > 0.05), nie je potrebné
eliminovať žiadne pozorovania ani transformovať premenné. Jarque-Bera
test normality rezíduí (X² = 0.815, p = 0.665) zároveň naznačuje, že
rezíduá majú približne normálne rozdelenie. Z uvedeného vyplýva, že
model je z hľadiska prítomnosti odľahlých hodnôt a normality rezíduí
stabilný.
Conclusion
Na základe vykonanej analýzy môžeme konštatovať, že ani jedna z
vysvetľujúcich premenných – Air.Pressure..hPa., Wind.Speed..m.s. a
Precipitation..mm. – nemá štatisticky významný vplyv na priemernú
teplotu v roku 2020. Hoci premenná Precipitation..mm. vykazuje
najsilnejší, avšak stále nie štatisticky významný pozitívny vplyv,
celkový model má nízku vysvetľovaciu schopnosť, čo naznačuje, že na
vývoj teploty vplývajú aj iné faktory, ktoré neboli v modeli
zahrnuté.
Rezíduá modelu sú približne normálne rozdelené, čo potvrdil aj
Jarque-Bera test (p-hodnota = 0,6653). Diagnostické grafy neodhalili
výrazné nelinearity ani prítomnosť heteroskedasticity. Identifikovaný
bol jeden potenciálny odľahlý bod (pozorovanie č. 7), ktorý však po
Bonferroniho korekcii nepredstavuje štatisticky významný vplyv na
stabilitu modelu.
Celkovo môžeme povedať, že vytvorený lineárny model poskytuje
základný pohľad na vzťahy medzi vybranými meteorologickými premennými a
teplotou, avšak jeho vysvetľovacia schopnosť je obmedzená a pre lepšie
pochopenie dynamiky teploty by bolo vhodné model rozšíriť o ďalšie
relevantné faktory, ako napríklad vlhkosť vzduchu, ročné obdobie či
geografické charakteristiky meraného územia.
Heteroskedasticita
Prítomnosť heteroskedasticity (nekonštantného rozptylu náhodnej
zložky) môže spôsobiť nespoľahlivé vyhodnocovanie t-testov významnosti
regresných koeficientov. Preto ju treba detegovať (vizuálne aj pomocou
testov) a v prípade jej výskytu sa ju pokúsiť odstrániť.
V našom prípade heteroskedasticitu posudzujeme pomocou grafov
zobrazujúcich závislosť štvorcov rezíduí od premenných Temperature…C. a
Air.Pressure..hPa. Porovnávame dva modely – pôvodný (model) a upravovaný
(model2), ktorý obsahuje zlogaritmizovanú premennú Temperature…C. s
cieľom znížiť prípadnú heteroskedasticitu.
library(ggplot2)
library(patchwork) # install.packages("patchwork")
p1 <- ggplot(udaje.2020, aes(x = Temperature...C., y = resid(model)^2)) +
geom_point(alpha = 0.6) +
geom_smooth(method = "loess", se = FALSE, color = "red") +
labs(x = "Temperature (°C)",
y = "Squared Residuals",
title = "Sqiared Residuals vs Temperature") +
theme_minimal()
p2 <- ggplot(udaje.2020, aes(x = Air.Pressure..hPa., y = resid(model)^2)) +
geom_point(alpha = 0.6) +
geom_smooth(method = "loess", se = FALSE, color = "red") +
labs(x = "Air Pressure (hPa)",
y = "Squared Residuals",
title = "Squared Residuals vs Air Pressure") +
theme_minimal()
# Combine side by side
p1 + p2

Na grafe Squared Residuals vs Temperature je vidieť, že červená
vyhladená krivka má mierne kolísavý tvar. Pri nižších hodnotách
Temperature…C. sú štvorce rezíduí rozptýlené rovnomerne, zatiaľ čo pri
vyšších teplotách rozptyl rezíduí narastá. To naznačuje, že s rastúcou
teplotou sa variabilita chýb mierne zvyšuje, čo môže poukazovať na slabú
heteroskedasticitu.
Na grafe Squared Residuals vs Air Pressure má červená krivka tvar
vlny – rozptyl rezíduí je najvyšší približne pri tlaku okolo 990 hPa a
nižší pri extrémnejších hodnotách. Tento priebeh naznačuje, že
Air.Pressure..hPa. môže mať vplyv na zmenu rozptylu rezíduí, no celkovo
ide len o mierne známky heteroskedasticity, nie o výrazné porušenie
predpokladov modelu.
a teraz model so zlogaritmizovanou premennou
Temperature…C..
library(ggplot2)
library(patchwork) # install.packages("patchwork")
p1 <- ggplot(udaje.2020, aes(x = log(Temperature...C.), y = resid(model2)^2)) +
geom_point(alpha = 0.6) +
geom_smooth(method = "loess", se = FALSE, color = "red") +
labs(x = "log(Temperature (°C))",
y = "Squared Residuals",
title = "Residuals vs log(Temperature)") +
theme_minimal()
p2 <- ggplot(udaje.2020, aes(x = Air.Pressure..hPa., y = resid(model2)^2)) +
geom_point(alpha = 0.6) +
geom_smooth(method = "loess", se = FALSE, color = "red") +
labs(x = "Air Pressure (hPa)",
y = "Squared Residuals",
title = "Residuals vs Air Pressure") +
theme_minimal()
# Combine side by side
p1 + p2

Po logaritmickej transformácii premennej Temperature…C. sa červená
vyhladená krivka na grafe Residuals vs log(Temperature) stáva
plynulejšou a bez výrazného trendu. Rozptyl rezíduí je rovnomernejší v
celom rozsahu hodnôt, čo naznačuje, že logaritmická transformácia
pomohla zmierniť heteroskedasticitu spojenú s teplotou.
Na grafe Residuals vs Air Pressure zostáva priebeh červenej krivky
podobný ako v pôvodnom modeli – je viditeľné mierne kolísanie rozptylu
rezíduí, najmä okolo hodnoty 990 hPa. To znamená, že tlak vzduchu môže
aj naďalej prispievať k malej miere heteroskedasticity.
Celkovo však nový model (model2) vykazuje lepšiu stabilitu rozptylu
rezíduí a naznačuje, že transformácia premennej Temperature…C. mala
pozitívny efekt na zníženie heteroskedasticity v modeli.
Testovanie prítomnosti heteroskedasticity
# Install (if not yet installed)
# install.packages("lmtest")
# Load the package
library(lmtest)
# Run the Breusch–Pagan test
bptest(model)
studentized Breusch-Pagan test
data: model
BP = 2.1093, df = 3, p-value = 0.55
# Install (if not yet installed)
# install.packages("lmtest")
# Load the package
library(lmtest)
# Run the Breusch–Pagan test
bptest(model2)
studentized Breusch-Pagan test
data: model2
BP = 2.0944, df = 3, p-value = 0.553
Keďže p-hodnota je výrazne vyššia ako bežná hladina významnosti
(0.05), nezamietame nulovú hypotézu o homoskedasticite. To znamená, že v
našom modeli nie je prítomná heteroskedasticita – rozptyl rezíduí sa
javí ako konštantný.
Na základe vizuálneho posúdenia grafov a výsledkov Breusch–Paganovho
testu (p-hodnota = 0.55 pre model a 0.553 pre model2) môžeme
konštatovať, že heteroskedasticita v rezíduách nie je prítomná. Preto
nie je potrebné aplikovať Whiteovu korekciu ani ďalšie úpravy
modelu.
