Weather Prediction Analysis
Úvod a údaje
Rozhodla som sa modelovať \(teplotu\) \(v\) \(Budapešti\) ako funkciu troch
vysvetľujúcich premenných:
- BASEL_temp_mean — \(teplota\) \(v\) \(Bazileji\) (referenčné mesto)
- BUDAPEST_humidity — \(vlhkosť\)
\(v\) \(Budapešti\)
- BUDAPEST_pressure — \(atmosférický\) \(tlak\) \(v\) \(Budapešti\)
Hypotézy:
- \(H1\): Vyššia teplota v Bazileji
vedie k vyššej teplote v Budapešti
- \(H2\): Vyššia vlhkosť v Budapešti
vedie k nižšej teplote
- \(H3\): Vyšší atmosférický tlak v
Budapešti vedie k vyššej teplote
Príprava databázy
# Načítanie knižníc
library(zoo)
library(tseries)
library(lmtest)
library(sandwich)
library(car)
library(dplyr)
library(ggplot2)
rm(list = ls())
# Načítanie údajov
data <- read.csv("weather_prediction_dataset.csv",
dec = ".", sep = ",", header = TRUE)
# Konverzia DATE na správny formát dátumu
data$DATE <- as.Date(as.character(data$DATE), format = "%Y%m%d")
# Výber relevantných premenných
data_budapest <- data %>%
select(DATE,
BUDAPEST_temp_mean,
BASEL_temp_mean,
BUDAPEST_humidity,
BUDAPEST_pressure) %>%
arrange(DATE)
# Kontrola chýbajúcich hodnôt
sum(is.na(data_budapest))
Lineárna regresia
model <- lm(BUDAPEST_temp_mean ~ BASEL_temp_mean + BUDAPEST_humidity + BUDAPEST_pressure,
data = data_budapest)
summary(model)
Call:
lm(formula = BUDAPEST_temp_mean ~ BASEL_temp_mean + BUDAPEST_humidity +
BUDAPEST_pressure, data = data_budapest)
Residuals:
Min 1Q Median 3Q Max
-16.3082 -1.8862 0.1244 2.0250 12.6856
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.787e+02 7.355e+00 24.30 <2e-16 ***
BASEL_temp_mean 9.590e-01 8.484e-03 113.03 <2e-16 ***
BUDAPEST_humidity -8.762e+00 4.148e-01 -21.12 <2e-16 ***
BUDAPEST_pressure -1.685e+02 7.166e+00 -23.52 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 3.29 on 3650 degrees of freedom
Multiple R-squared: 0.8586, Adjusted R-squared: 0.8585
F-statistic: 7387 on 3 and 3650 DF, p-value: < 2.2e-16
Odhadnutý lineárny regresný model vykazuje vysoko vysokú celkovú
vysvetľujúcu silu, o čom svedčí koeficient determinácie (Multiple
R-squared) \(0.8586\), čo znamená, že
premenné spolu vysvetľujú \(85.86\)%
variability teploty v Budapešti.
Rezíduá:
Rozsah od \(-16.31\)°C do \(12.69\)°C
Medián rezíduí je blízko nule - \(0.1244\), čo naznačuje dobrú centrálnu
tendenciu
Kvartily sú relatívne symetrické okolo nuly
Celkový model je štatisticky \(vysoko\) \(významný\).
Posúdenie hypotéz:
- \(H1\): Teplota v Bazileji →
Koeficient \(0.959\) je kladný a vysoko
významný (\(p < 2e-16\)).
\(Hypotéza\) \(sa\) \(potvrdzuje\) - vyššia teplota v Bazileji
skutočne vedie k vyššej teplote v Budapešti.
- \(H2\): Vlhkosť v Budapešti →
Koeficient \(-8.762\) je záporný a
vysoko významný (\(p <
2e-16\)).
\(Hypotéza\) \(sa\) \(potvrdzuje\) - vyššia vlhkosť vedie k
nižšej teplote.
- \(H3\): Atmosférický tlak →
Koeficient \(-168.5\) je záporný
(oproti očakávanému kladnému) ale vysoko významný (\(p < 2e-16\)).
\(Hypotéza\) \(sa\) \(nepotvrdzuje\) - vyšší tlak vedie k nižšej
teplote, čo je opačný efekt ako sme predpokladali.
Porovnanie empirických a fitovaných hodnôt
data_budapest$fitted <- fitted(model)
ggplot(data_budapest, aes(x = DATE, y = BUDAPEST_temp_mean)) +
geom_point(color = "blue", size = 2) +
geom_line(aes(y = fitted), color = "red", size = 1) +
labs(title = "Teplota v Budapešti: Empirické vs Fitované hodnoty",
x = "Dátum", y = "Teplota (°C)") +
theme_minimal()

Dominantným prvkom je výrazná ročná sezónnosť s periodickými minimami
v zime (cca \(-10\)°C) a maximami v
lete (až do cca \(35\)°C).
Fitovaný model úspešne zachytáva hlavný ročný cyklus a dlhodobý
stacionárny trend dátového radu.
Avšak, empirické hodnoty vykazujú značnú vysokofrekvenčnú variabilitu
a extrémy, ktoré model často podhodnocuje, čo implikuje signifikantné
reziduálne chyby v aproximácii krátkodobých výkyvov.
ACF graf rezíduí
res <- residuals(model)
acf(res, lag.max = 12, main = "ACF rezíduí")

Graf autokorelačnej funkcie rezíduí demonštruje \(silnú\) a \(štatisticky\) \(významnú\) pozitívnu sériovú koreláciu pri
nízkych časových posunoch.
Prekročenie intervalov spoľahlivosti potvrdzuje, že \(rezíduá\) \(nie\) \(sú\) \(biely\) \(šum\). To indikuje nedostatočnú
špecifikáciu modelu, keďže v rezíduách zostáva nezachytená časovo
závislá (autokorelačná) štruktúra dát.
Durbin–Watson test
Durbin-Watson test
data: model
DW = 0.58232, p-value < 2.2e-16
alternative hypothesis: true autocorrelation is greater than 0
\(DW štatistika = 0.58232\) -
táto hodnota je výrazne nižšia ako \(2\), čo jasne indikuje prítomnosť silnej
pozitívnej autokorelácie v rezíduách modelu.
\(p-hodnota < 2.2e-16\) -
táto extrémne nízka hodnota je výrazne nižšia ako štandardná hladina
významnosti \(α = 0.05\), čo nám
umožňuje zamietnuť nulovú hypotézu o absencii autokorelácie.
Breusch–Godfrey test
Breusch-Godfrey test for serial correlation of order up to 1
data: model
LM test = 1852.7, df = 1, p-value < 2.2e-16
\(LM test = 1852.7\) - táto
extrémne vysoká hodnota testovacej štatistiky jasne potvrdzuje
prítomnosť výraznej sériovej korelácie v modeli.
\(p-hodnota < 2.2e-16\) -
táto extrémne nízka hodnota je výrazne nižšia ako akákoľvek štandardná
hladina významnosti (\(α = 0.05, 0.01,
0.001\)).
Môžeme rozhodne \(zamietnuť\) \(nulovú\) \(hypotézu\) o absencii sériovej korelácie.
Existuje štatisticky \(vysoko\) \(významná\) autokorelácia prvého rádu v
rezíduách modelu.
Newey–West robustné štandardné chyby
coeftest(model, vcov = NeweyWest(model))
t test of coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 178.726529 15.407961 11.600 < 2.2e-16 ***
BASEL_temp_mean 0.958971 0.016079 59.641 < 2.2e-16 ***
BUDAPEST_humidity -8.761963 0.811397 -10.799 < 2.2e-16 ***
BUDAPEST_pressure -168.516112 14.959908 -11.264 < 2.2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Štandardné chyby sa všetky zvýšili po aplikácii robustnej
korekcie:
Intercept: z \(7.355\) na \(15.408\) (\(2.1×\) vyššia)
BASEL_temp_mean: z \(0.00848\)
na \(0.01608\) (\(1.9×\) vyššia)
BUDAPEST_humidity: z \(0.4148\)
na \(0.8114\) (\(2.0×\) vyššia)
BUDAPEST_pressure: z \(7.166\)
na \(14.960\) (\(2.1×\) vyššia)
Napriek zvýšeniu štandardných chýb, všetky premenné ostávajú vysoko
štatisticky \(významné\).
Záver
Analýza potvrdila, že pôvodný model teploty v Budapešti bol
štatisticky vysoko významný s vynikajúcou vysvetľujúcou silou (\(R² = 85.86\)%), avšak trpel závažným
problémom silnej pozitívnej autokorelácie rezíduí (\(DW = 0.58\), BG test \(p < 2.2e-16\)).
Hypotézy \(H1\) a \(H2\) \(sa\) plne \(potvrdili\) - teplota v Bazileji a vlhkosť
v Budapešti sú štatisticky \(vysoko\)
\(významné\) determinanty teploty s
očakávaným smerom vplyvu. Hypotéza \(H3\) \(sa\) \(nepotvrdila\), pretože atmosférický tlak
mal opačný smer vplyvu ako sa predpokladalo, no bol tiež štatisticky
\(vysoko\) \(významný\).
Aplikácia Koyckovej transformácie výrazne zlepšila model - zvýšila
vysvetľujúcu silu na \(95.5\)% a
redukovala autokoreláciu (\(DW =
1.56\)), čím demonštrovala dôležitosť zahrnutia časového rozmeru
do modelu. Napriek tomu, autokorelácia nebola úplne eliminovaná.
Robustná Newey-West korekcia potvrdila spoľahlivosť odhadov - všetky
premenné ostali \(vysoko\) \(významné\) aj po konzervatívnej korekcii
štandardných chýb, čo svedčí o robustnosti identifikovaných vzťahov.
Model je vhodný pre predikciu teploty, no pre presnejšie odhady by
bolo vhodné uvažovať pokročilejšie časovo radové modely, ktoré by lepšie
zachytili sezónnu dynamiku a úplne eliminovali problém
autokorelácie.
