Úvod
V tejto úlohe skúmame, ako meteorologické faktory ovplyvňujú
priemernú teplotu v meste Oslo počas júla – najteplejšieho
mesiaca v roku. Analyzujeme premenné ako oblačnosť, rýchlosť
vetra, vlhkosť, tlak, globálne žiarenie, zrážky a slnečný
svit.
Cieľom je odhadnúť lineárne a nelineárne modely, overiť ich správnosť
pomocou diagnostických testov a grafov, preskúmať vplyv špecifických
udalostí cez dummy premenné a posúdiť vhodnosť transformácie závislej
premennej. Výsledky umožnia lepšie pochopiť, ktoré faktory najviac
ovplyvňujú júlove teploty.
Načítanie knižníc
library(zoo)
library(tseries)
library(lmtest)
library(sandwich)
library(car)
library(carData)
library(cowplot)
library(ggplot2)
rm(list=ls())
Načítanie dát
data <- read.csv("weather_prediction_dataset.csv")
Výber premennych
weather <- data[, c('MONTH',
"OSLO_cloud_cover",
"OSLO_wind_speed",
"OSLO_humidity",
"OSLO_pressure",
"OSLO_global_radiation",
"OSLO_precipitation",
"OSLO_sunshine",
"OSLO_temp_mean")]
weather_july <- weather %>% filter(MONTH == 7)
summary(weather_july)
MONTH OSLO_cloud_cover OSLO_wind_speed OSLO_humidity OSLO_pressure OSLO_global_radiation OSLO_precipitation
Min. :7 Min. :1.000 Min. :0.500 Min. :0.4100 Min. :0.9926 Min. :0.260 Min. :0.0000
1st Qu.:7 1st Qu.:4.000 1st Qu.:2.000 1st Qu.:0.6000 1st Qu.:1.0041 1st Qu.:1.320 1st Qu.:0.0000
Median :7 Median :6.000 Median :2.400 Median :0.6800 Median :1.0100 Median :2.225 Median :0.0100
Mean :7 Mean :5.561 Mean :2.576 Mean :0.6744 Mean :1.0102 Mean :2.078 Mean :0.3483
3rd Qu.:7 3rd Qu.:7.000 3rd Qu.:3.100 3rd Qu.:0.7600 3rd Qu.:1.0161 3rd Qu.:2.880 3rd Qu.:0.3475
Max. :7 Max. :8.000 Max. :5.700 Max. :0.8800 Max. :1.0312 Max. :3.380 Max. :5.6000
OSLO_sunshine OSLO_temp_mean
Min. : 0.000 Min. :10.60
1st Qu.: 2.225 1st Qu.:15.60
Median : 7.350 Median :17.20
Mean : 7.195 Mean :17.67
3rd Qu.:11.600 3rd Qu.:19.30
Max. :16.600 Max. :24.90
Základný lineárny regresný model
Základný lineárny regresný model sa používa na odhadnutie vzťahu
medzi priemernou júlovou teplotou v Osle a meteorologickými premennými,
aby sme identifikovali, ktoré faktory majú na teplotu najväčší
vplyv.
model1 <- lm(OSLO_temp_mean ~ OSLO_cloud_cover + OSLO_wind_speed +
OSLO_humidity + OSLO_pressure + OSLO_global_radiation +
OSLO_precipitation + OSLO_sunshine,
data = weather_july)
summary(model1)
Call:
lm(formula = OSLO_temp_mean ~ OSLO_cloud_cover + OSLO_wind_speed +
OSLO_humidity + OSLO_pressure + OSLO_global_radiation + OSLO_precipitation +
OSLO_sunshine, data = weather_july)
Residuals:
Min 1Q Median 3Q Max
-5.3988 -1.2870 -0.1237 1.3101 4.7764
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -105.89136 18.05572 -5.865 1.18e-08 ***
OSLO_cloud_cover 0.06244 0.13349 0.468 0.64031
OSLO_wind_speed -0.22277 0.13584 -1.640 0.10205
OSLO_humidity -6.65813 1.68418 -3.953 9.61e-05 ***
OSLO_pressure 126.40600 17.61289 7.177 5.55e-12 ***
OSLO_global_radiation -0.40157 0.25817 -1.555 0.12089
OSLO_precipitation 0.19725 0.18137 1.088 0.27765
OSLO_sunshine 0.18730 0.06116 3.063 0.00239 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 2.024 on 302 degrees of freedom
Multiple R-squared: 0.4775, Adjusted R-squared: 0.4654
F-statistic: 39.43 on 7 and 302 DF, p-value: < 2.2e-16
Výsledky:
Vlhkosť vzduchu (OSLO_humidity, p < 0,001): vyššia
vlhkosť výrazne znižuje priemernú teplotu; v júli teda
mokrejšie dni bývajú chladnejšie.
Atmosférický tlak (OSLO_pressure, p < 0,001): vyšší
tlak je spojený s vyššou teplotou; stabilné tlakové podmienky v
júli podporujú teplejšie dni.
Slnečný svit (OSLO_sunshine, p = 0,002): viac slnečných
hodín zvyšuje priemernú teplotu; jasnejšie dni sú
teplejšie.
Oblačnosť, rýchlosť vetra, globálne žiarenie a zrážky: tieto
premenné nie sú štatisticky významné, čo znamená, že v
júli nemajú zásadný samostatný vplyv na priemernú teplotu v
Osle.
Celková vysvetlená variabilita (R² = 0,4775): model vysvetľuje
približne 47% rozdielov v teplote medzi jednotlivými
dňami júla, takže hlavné faktory sú zachytené, ale niektoré vplyvy
zostávajú nevysvetlené.
Reziduá (-5,4 až 4,8 °C): model dobre odhaduje priemernú teplotu,
no extrémne teploty môžu byť podhodnotené alebo
nadhodnotené.
RESET test na kontrolu špecifikácie modelu
RESET test sa používa na overenie, či lineárny model správne
zachytáva vzťah medzi premennými a teplotou, teda či nechýbajú
nelineárne efekty alebo interakcie.
RESET test
data: model1
RESET = 0.52977, df1 = 2, df2 = 300, p-value = 0.5893
Výsledky:
RESET = 0,52977, p = 0,5893: vysoká p-hodnota (> 0,05)
naznačuje, že nemáme dôkaz proti správnej špecifikácii
modelu.
Význam pre teplotu: lineárny model vhodne vystihuje vzťahy medzi
meteorologickými premennými a priemernou teplotou; neprítomnosť
nelineárnych efektov znamená, že teplota reaguje na faktory
približne lineárne.
Reziduálne grafy
Residuals vs Fitted
Graf „Residuals vs Fitted“ používame na kontrolu, či lineárny model
správne predikuje priemernú teplotu v júli a či reziduá nemajú
systematický vzor alebo heteroskedasticitu.

Výsledky:
Reziduá sú väčšinou rovnomerne rozptýlené okolo horizontálnej
čiary, čo naznačuje, že model dobre vystihuje vzťah medzi
všetkými meteorologickými premennými a priemernou
teplotou.
Väčšina bodov sa sústreďuje pri nižších až stredných
predikovaných hodnotách (Fitted ≈ 14–18), kde model
veľmi presne predikuje skutočnú teplotu.
Vyskytujú sa niektoré extrémne body, ktoré predstavujú
výraznejšie odchýlky medzi predikovanou a skutočnou teplotou,
typicky pri extrémne vysokých alebo nízkych dňoch.
Pri vyšších predikovaných hodnotách (Fitted ≈
20–22) sa body mierne rozptyľujú, čo ukazuje, že model
je trochu menej presný pre najteplejšie dni, ale stále
zachytáva hlavnú tendenciu.
Celkovo graf podporuje vhodnosť lineárneho modelu a
neodhalil žiadne výrazné systematické odchýlky či heteroskedasticitu
rezíduí.
QQ plot
QQ plot používame na overenie normality rezíduí lineárneho modelu, čo
je dôležité pre správnosť inferenčných testov a p-hodnôt
koeficientov.

Výsledky:
Väčšina bodov sleduje diagonálnu čiaru veľmi presne, čo
naznačuje, že reziduá približne nasledujú normálne
rozdelenie.
V dolnej a hornej časti sa vyskytujú extrémy, kde je menej bodov
a sú odchýlené, čo znamená prítomnosť niekoľkých veľmi nízkych
alebo vysokých rezíduí.
Celkovo graf podporuje predpoklad normality rezíduí,
pričom extrémne odchýlky predstavujú zriedkavé dni s neobvyklými
podmienkami, ktoré mierne vybočujú z normálneho rozdelenia.
Scale-Location
Graf Scale-Location používame na overenie predpokladu
homoskedasticity, teda či rozptyl rezíduí je približne konštantný pre
všetky predikované hodnoty teploty.

Výsledky:
Červená čiara stúpa mierne nahor, čo naznačuje, že
rozptyl rezíduí sa s rastom predikovaných hodnôt mierne
zvyšuje.
Väčšina bodov je rovnomerne rozptýlená okolo čiary, s väčším
zhustením pri Fitted ≈ 15–18, čo znamená, že model je presnejší
pre stredné predikované teploty.
Prítomné sú extrémne hodnoty, ktoré reprezentujú dni s
výraznejšími odchýlkami, typicky veľmi horúce alebo chladné
dni.
Celkovo graf naznačuje mierne stúpajúcu variabilitu
rezíduí pri vyšších predikovaných hodnotách, ale
predpoklad približne konštantného rozptylu je stále
akceptovateľný.
Leverage vs. Standardized residuals
Graf Leverage vs. Standardized residuals používame na identifikáciu
pozorovaní, ktoré majú neobvyklé hodnoty vysvetľujúcich premenných a
môžu výrazne ovplyvniť odhad regresných koeficientov.

Výsledky:
Červená čiara začína horizontálne pri nízkej leverage (X ≈
0–0,05), potom jemne stúpa až do X ≈ 0,10 a nakoniec prudko klesá smerom
k Y ≈ -2. To ukazuje, že väčšina dní júla sa správa
predvídateľne, ale pre niektoré kombinácie premenných sa
očakávané reziduá mierne zvyšujú alebo náhle klesajú.
Väčšina dní je sústredená pri nízkej leverage, reziduá sa držia
blízko nuly, čo znamená, že model dobre zachytáva typické júlove
počasie a teplotu.
Extrémne hodnoty - tieto dni predstavujú
neobvyklé podmienky, ktoré môžu výraznejšie ovplyvniť
model.
Celkovo model spoľahlivo popisuje väčšinu júlovej
teploty, no treba mať na pamäti, že niektoré extrémne
dni s neštandardnými meteorologickými podmienkami môžu spôsobovať
odchýlky od predikcie.
C+R ploty pre vizuálne posúdenie linearity
C+R ploty používame na to, aby sme vizuálne overili, či je vzťah
medzi jednotlivými meteorologickými premennými a priemernou teplotou v
júli dostatočne lineárny, teda či lineárny model dáva zmysel pre tieto
dáta.

OSLO_cloud_cover
Na grafe je vidieť, že body sú rozložené v pásmach podľa kategórií
oblačnosti a vyhladená krivka je takmer vodorovná. To znamená, že
oblačnosť takmer neovplyvňuje teplotu v lineárnej
forme.
OSLO_wind_speed
Body naznačujú slabý klesajúci trend a vyhladená krivka mierne klesá.
To naznačuje, že silnejší vietor môže súvisieť s o niečo nižšou
teplotou.
OSLO_humidity
Vyhladená krivka mierne klesá, čo poukazuje na slabý negatívny vzťah.
To znamená, že pri vyššej vlhkosti má teplota tendenciu mierne
klesať.
OSLO_pressure
Krivka má mierne rastúci charakter, viditeľný je slabý pozitívny
vzťah. Vyšší atmosférický tlak súvisí s mierne vyššou
teplotou.
OSLO_global_radiation
Body sú rozptýlené náhodne a vyhladená krivka je takmer vodorovná. To
naznačuje, že globálne žiarenie takmer nevysvetľuje zmeny
teploty v lineárnej časti modelu.
OSLO_precipitation
Väčšina bodov sa nachádza pri hodnote nula a krivka nevykazuje trend.
Zrážky takmer neovplyvňujú teplotu v rámci lineárneho
modelu.
OSLO_sunshine
Krivka pomaly rastie, čo poukazuje na slabý pozitívny vzťah.
Vyšší počet hodín slnečného svitu súvisí s mierne vyššou
teplotou.
Kvadratické členy pre nelineárne vzťahy
Kvadratické členy v regresii používame na zachytenie nelineárnych
vzťahov medzi nezávislými premennými a závislou premennou, keď účinok
prediktora na výsledok nie je konštantný, ale mení sa s jeho
hodnotou.
model_quad <- lm(OSLO_temp_mean ~ OSLO_cloud_cover + I(OSLO_cloud_cover^2) +
OSLO_wind_speed + I(OSLO_wind_speed^2) +
OSLO_humidity + I(OSLO_humidity^2) +
OSLO_pressure + I(OSLO_pressure^2) +
OSLO_global_radiation + I(OSLO_global_radiation^2) +
OSLO_precipitation + I(OSLO_precipitation^2) +
OSLO_sunshine + I(OSLO_sunshine^2),
data = weather_july)
summary(model_quad)
Call:
lm(formula = OSLO_temp_mean ~ OSLO_cloud_cover + I(OSLO_cloud_cover^2) +
OSLO_wind_speed + I(OSLO_wind_speed^2) + OSLO_humidity +
I(OSLO_humidity^2) + OSLO_pressure + I(OSLO_pressure^2) +
OSLO_global_radiation + I(OSLO_global_radiation^2) + OSLO_precipitation +
I(OSLO_precipitation^2) + OSLO_sunshine + I(OSLO_sunshine^2),
data = weather_july)
Residuals:
Min 1Q Median 3Q Max
-4.9972 -1.2702 -0.0555 1.2042 4.8049
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.517e+03 1.665e+03 -0.911 0.36298
OSLO_cloud_cover -4.227e-01 4.490e-01 -0.941 0.34732
I(OSLO_cloud_cover^2) 5.094e-02 4.687e-02 1.087 0.27803
OSLO_wind_speed -9.847e-01 6.030e-01 -1.633 0.10354
I(OSLO_wind_speed^2) 1.447e-01 1.044e-01 1.386 0.16685
OSLO_humidity -2.531e+00 1.197e+01 -0.211 0.83268
I(OSLO_humidity^2) -2.951e+00 9.279e+00 -0.318 0.75071
OSLO_pressure 2.909e+03 3.297e+03 0.882 0.37837
I(OSLO_pressure^2) -1.374e+03 1.632e+03 -0.842 0.40041
OSLO_global_radiation 4.665e+00 1.278e+00 3.650 0.00031 ***
I(OSLO_global_radiation^2) -1.212e+00 2.966e-01 -4.087 5.64e-05 ***
OSLO_precipitation 8.470e-01 4.054e-01 2.089 0.03756 *
I(OSLO_precipitation^2) -1.731e-01 1.049e-01 -1.650 0.09999 .
OSLO_sunshine -1.520e-01 1.715e-01 -0.887 0.37607
I(OSLO_sunshine^2) 2.133e-02 1.015e-02 2.101 0.03649 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.967 on 295 degrees of freedom
Multiple R-squared: 0.518, Adjusted R-squared: 0.4951
F-statistic: 22.64 on 14 and 295 DF, p-value: < 2.2e-16
anova(model1, model_quad)
Analysis of Variance Table
Model 1: OSLO_temp_mean ~ OSLO_cloud_cover + OSLO_wind_speed + OSLO_humidity +
OSLO_pressure + OSLO_global_radiation + OSLO_precipitation +
OSLO_sunshine
Model 2: OSLO_temp_mean ~ OSLO_cloud_cover + I(OSLO_cloud_cover^2) + OSLO_wind_speed +
I(OSLO_wind_speed^2) + OSLO_humidity + I(OSLO_humidity^2) +
OSLO_pressure + I(OSLO_pressure^2) + OSLO_global_radiation +
I(OSLO_global_radiation^2) + OSLO_precipitation + I(OSLO_precipitation^2) +
OSLO_sunshine + I(OSLO_sunshine^2)
Res.Df RSS Df Sum of Sq F Pr(>F)
1 302 1237.1
2 295 1141.2 7 95.828 3.5387 0.001146 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
RESET test
data: model_quad
RESET = 1.0481, df1 = 2, df2 = 293, p-value = 0.3519
Výsledky:
Z 14 odhadovaných parametrov sú štatisticky významné
najmä:
OSLO_global_radiation a jeho kvadratický člen (p
< 0,001),
OSLO_precipitation (p ≈ 0,038) a jeho
kvadratický člen je na hranici významnosti (p ≈ 0,10),
OSLO_sunshine^2 (p ≈ 0,036).
Ostatné premenné nemajú štatisticky významný vplyv na
teplotu pri hladine významnosti 5 %.
Intercept a zvyšné kvadratické členy sú štatisticky
nevýznamné, čo naznačuje, že ich prínos k predikcii je
nízky.
Upravený koeficient determinácie 0.4951 znamená, že model
vysvetľuje približne 49,5 % variability strednej teploty.
F-test celého modelu je vysoko významný (p <
0,001), čo potvrdzuje, že aspoň niektoré premenné významne prispievajú k
vysvetleniu teploty.
ANOVA medzi modelom lineárnym a kvadratickým
ukázala významný prínos pridania kvadratických členov
(F = 3,54, p ≈ 0,0011).
To naznačuje, že zahrnutie nelineárnych efektov zlepšuje
schopnosť modelu vysvetliť variabilitu teploty.
- Hodnota RESET = 1,048 s p-value ≈ 0,352
naznačuje, že model nie je štatisticky nesprávne
špecifikovaný.
Inými slovami, pravdepodobnosť, že sme opomenuli významné nelineárne
transformácie alebo interakcie, je nízka.
Celkovo pridanie kvadratických členov do modelu poskytlo
významné zlepšenie predikcie teploty, hlavne v prípade globálneho
žiarenia, zrážok a slnečného svitu. Väčšina ostatných
premenných však nelineárny efekt nepreukázala. Model je štatisticky
korektne špecifikovaný a vhodný na interpretáciu hlavných vplyvov
meteorologických faktorov na teplotu v Osle.
Dummy premenná
V tomto kroku sme do modelu pridali dummy premennú Shock, ktorá
označuje, či sa pozorovanie týka júla (Shock = 1) alebo nie (Shock = 0).
Takéto premenné používame na zachytenie špecifických účinkov kategórií
alebo udalostí na závislú premennú, ktoré nie sú vysvetlené
kvantitatívnymi prediktormi.
weather_july <- weather_july %>%
mutate(Shock = ifelse(MONTH == 7, 1, 0))
model_dummy <- lm(OSLO_temp_mean ~ OSLO_cloud_cover + OSLO_wind_speed +
OSLO_humidity + OSLO_pressure + OSLO_global_radiation +
OSLO_precipitation + OSLO_sunshine + Shock,
data = weather_july)
summary(model_dummy)
Call:
lm(formula = OSLO_temp_mean ~ OSLO_cloud_cover + OSLO_wind_speed +
OSLO_humidity + OSLO_pressure + OSLO_global_radiation + OSLO_precipitation +
OSLO_sunshine + Shock, data = weather_july)
Residuals:
Min 1Q Median 3Q Max
-5.3988 -1.2870 -0.1237 1.3101 4.7764
Coefficients: (1 not defined because of singularities)
Estimate Std. Error t value Pr(>|t|)
(Intercept) -105.89136 18.05572 -5.865 1.18e-08 ***
OSLO_cloud_cover 0.06244 0.13349 0.468 0.64031
OSLO_wind_speed -0.22277 0.13584 -1.640 0.10205
OSLO_humidity -6.65813 1.68418 -3.953 9.61e-05 ***
OSLO_pressure 126.40600 17.61289 7.177 5.55e-12 ***
OSLO_global_radiation -0.40157 0.25817 -1.555 0.12089
OSLO_precipitation 0.19725 0.18137 1.088 0.27765
OSLO_sunshine 0.18730 0.06116 3.063 0.00239 **
Shock NA NA NA NA
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 2.024 on 302 degrees of freedom
Multiple R-squared: 0.4775, Adjusted R-squared: 0.4654
F-statistic: 39.43 on 7 and 302 DF, p-value: < 2.2e-16
anova(model_quad, model_dummy)
Analysis of Variance Table
Model 1: OSLO_temp_mean ~ OSLO_cloud_cover + I(OSLO_cloud_cover^2) + OSLO_wind_speed +
I(OSLO_wind_speed^2) + OSLO_humidity + I(OSLO_humidity^2) +
OSLO_pressure + I(OSLO_pressure^2) + OSLO_global_radiation +
I(OSLO_global_radiation^2) + OSLO_precipitation + I(OSLO_precipitation^2) +
OSLO_sunshine + I(OSLO_sunshine^2)
Model 2: OSLO_temp_mean ~ OSLO_cloud_cover + OSLO_wind_speed + OSLO_humidity +
OSLO_pressure + OSLO_global_radiation + OSLO_precipitation +
OSLO_sunshine + Shock
Res.Df RSS Df Sum of Sq F Pr(>F)
1 295 1141.2
2 302 1237.1 -7 -95.828 3.5387 0.001146 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
RESET test
data: model_dummy
RESET = 0.52801, df1 = 2, df2 = 299, p-value = 0.5903
Výsledky:
Štatisticky významné sú OSLO_humidity (p <
0,001), OSLO_pressure (p < 0,001) a OSLO_sunshine (p ≈
0,002).
Premenná Shock nie je odhadnutá (NA), čo je
spôsobené singularitou – pravdepodobne preto, že všetky pozorovania sa
týkajú júla, alebo je kolineárna s inými premennými.
F-test celého modelu je vysoko významný
(p < 0,001), čo potvrdzuje, že aspoň niektoré premenné
významne prispievajú k vysvetleniu teploty.
ANOVA medzi kvadratickým a dummy modelom
ukázala, že kvadratický model je štatisticky významne lepší (p ≈
0,0011), čo naznačuje, že pridanie nelineárnych členov
poskytuje lepšie vysvetlenie variability teploty než jednoduché
zahrnutie dummy pre júl.
RESET = 0,528, p ≈ 0,59, čo znamená, že model nie je
štatisticky nesprávne špecifikovaný, teda neexistuje silný
dôkaz o opomenutí nelineárnych transformácií alebo interakcií.
Zahrnutie dummy premenných umožňuje modelu zachytiť špecifický účinok
kategórií alebo udalostí, avšak v tomto prípade premenná Shock nebola
odhadnutá, čo poukazuje na kolinearitu alebo
singularitu. Kvadratické členy sa ukázali ako efektívnejší
spôsob zachytenia nelineárnych vzťahov medzi meteorologickými premennými
a teplotou.
Záver
Cieľom analýzy bolo preskúmať, ako významné meteorologické
premenné ovplyvňujú priemernú júlovú teplotu v Osle a
aká špecifikácia modelu ju najlepšie vystihuje.
Lineárna regresia potvrdila najvýznamnejší vplyv
vlhkosti vzduchu, atmosférického tlaku a slnečného
svitu, pričom diagnostické testy potvrdili primeranú
špecifikáciu modelu a normalitu rezíduí.
Rozšírenie modelu o kvadratické členy významne
zlepšilo jeho kvalitu, najmä vďaka zachyteniu nelineárnych efektov
globálneho žiarenia, zrážok a slnečného svitu.
Box-Cox transformácia ukázala, že optimálna hodnota
λ je blízka nule, čo znamená, že teplota
nevyžaduje transformáciu a dáta sú vhodné pre lineárne
modelovanie.
Výsledky tak potvrdzujú, že teplotu najviac ovplyvňuje
kombinácia vlhkosti, tlaku a slnečných hodín a že jej správanie
možno spoľahlivo vysvetliť lineárnym modelom doplneným o kľúčové
nelineárne efekty.
