Úvod

V tejto úlohe skúmame, ako meteorologické faktory ovplyvňujú priemernú teplotu v meste Oslo počas júla – najteplejšieho mesiaca v roku. Analyzujeme premenné ako oblačnosť, rýchlosť vetra, vlhkosť, tlak, globálne žiarenie, zrážky a slnečný svit.

Cieľom je odhadnúť lineárne a nelineárne modely, overiť ich správnosť pomocou diagnostických testov a grafov, preskúmať vplyv špecifických udalostí cez dummy premenné a posúdiť vhodnosť transformácie závislej premennej. Výsledky umožnia lepšie pochopiť, ktoré faktory najviac ovplyvňujú júlove teploty.

Načítanie knižníc

library(zoo)
library(tseries)
library(lmtest)
library(sandwich)
library(car)
library(carData)
library(cowplot)
library(ggplot2)
rm(list=ls())

Načítanie dát

data <- read.csv("weather_prediction_dataset.csv")

Výber premennych

weather <- data[, c('MONTH',
                    "OSLO_cloud_cover", 
                    "OSLO_wind_speed", 
                    "OSLO_humidity",
                    "OSLO_pressure", 
                    "OSLO_global_radiation", 
                    "OSLO_precipitation", 
                    "OSLO_sunshine", 
                    "OSLO_temp_mean")]

weather_july <- weather %>% filter(MONTH == 7)

summary(weather_july)
     MONTH   OSLO_cloud_cover OSLO_wind_speed OSLO_humidity    OSLO_pressure    OSLO_global_radiation OSLO_precipitation
 Min.   :7   Min.   :1.000    Min.   :0.500   Min.   :0.4100   Min.   :0.9926   Min.   :0.260         Min.   :0.0000    
 1st Qu.:7   1st Qu.:4.000    1st Qu.:2.000   1st Qu.:0.6000   1st Qu.:1.0041   1st Qu.:1.320         1st Qu.:0.0000    
 Median :7   Median :6.000    Median :2.400   Median :0.6800   Median :1.0100   Median :2.225         Median :0.0100    
 Mean   :7   Mean   :5.561    Mean   :2.576   Mean   :0.6744   Mean   :1.0102   Mean   :2.078         Mean   :0.3483    
 3rd Qu.:7   3rd Qu.:7.000    3rd Qu.:3.100   3rd Qu.:0.7600   3rd Qu.:1.0161   3rd Qu.:2.880         3rd Qu.:0.3475    
 Max.   :7   Max.   :8.000    Max.   :5.700   Max.   :0.8800   Max.   :1.0312   Max.   :3.380         Max.   :5.6000    
 OSLO_sunshine    OSLO_temp_mean 
 Min.   : 0.000   Min.   :10.60  
 1st Qu.: 2.225   1st Qu.:15.60  
 Median : 7.350   Median :17.20  
 Mean   : 7.195   Mean   :17.67  
 3rd Qu.:11.600   3rd Qu.:19.30  
 Max.   :16.600   Max.   :24.90  

Základný lineárny regresný model

Základný lineárny regresný model sa používa na odhadnutie vzťahu medzi priemernou júlovou teplotou v Osle a meteorologickými premennými, aby sme identifikovali, ktoré faktory majú na teplotu najväčší vplyv.

model1 <- lm(OSLO_temp_mean ~ OSLO_cloud_cover + OSLO_wind_speed +
               OSLO_humidity + OSLO_pressure + OSLO_global_radiation +
               OSLO_precipitation + OSLO_sunshine,
             data = weather_july)
summary(model1)

Call:
lm(formula = OSLO_temp_mean ~ OSLO_cloud_cover + OSLO_wind_speed + 
    OSLO_humidity + OSLO_pressure + OSLO_global_radiation + OSLO_precipitation + 
    OSLO_sunshine, data = weather_july)

Residuals:
    Min      1Q  Median      3Q     Max 
-5.3988 -1.2870 -0.1237  1.3101  4.7764 

Coefficients:
                        Estimate Std. Error t value Pr(>|t|)    
(Intercept)           -105.89136   18.05572  -5.865 1.18e-08 ***
OSLO_cloud_cover         0.06244    0.13349   0.468  0.64031    
OSLO_wind_speed         -0.22277    0.13584  -1.640  0.10205    
OSLO_humidity           -6.65813    1.68418  -3.953 9.61e-05 ***
OSLO_pressure          126.40600   17.61289   7.177 5.55e-12 ***
OSLO_global_radiation   -0.40157    0.25817  -1.555  0.12089    
OSLO_precipitation       0.19725    0.18137   1.088  0.27765    
OSLO_sunshine            0.18730    0.06116   3.063  0.00239 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.024 on 302 degrees of freedom
Multiple R-squared:  0.4775,    Adjusted R-squared:  0.4654 
F-statistic: 39.43 on 7 and 302 DF,  p-value: < 2.2e-16

Výsledky:

  • Vlhkosť vzduchu (OSLO_humidity, p < 0,001): vyššia vlhkosť výrazne znižuje priemernú teplotu; v júli teda mokrejšie dni bývajú chladnejšie.

  • Atmosférický tlak (OSLO_pressure, p < 0,001): vyšší tlak je spojený s vyššou teplotou; stabilné tlakové podmienky v júli podporujú teplejšie dni.

  • Slnečný svit (OSLO_sunshine, p = 0,002): viac slnečných hodín zvyšuje priemernú teplotu; jasnejšie dni sú teplejšie.

  • Oblačnosť, rýchlosť vetra, globálne žiarenie a zrážky: tieto premenné nie sú štatisticky významné, čo znamená, že v júli nemajú zásadný samostatný vplyv na priemernú teplotu v Osle.

  • Celková vysvetlená variabilita (R² = 0,4775): model vysvetľuje približne 47% rozdielov v teplote medzi jednotlivými dňami júla, takže hlavné faktory sú zachytené, ale niektoré vplyvy zostávajú nevysvetlené.

  • Reziduá (-5,4 až 4,8 °C): model dobre odhaduje priemernú teplotu, no extrémne teploty môžu byť podhodnotené alebo nadhodnotené.

RESET test na kontrolu špecifikácie modelu

RESET test sa používa na overenie, či lineárny model správne zachytáva vzťah medzi premennými a teplotou, teda či nechýbajú nelineárne efekty alebo interakcie.

resettest(model1)

    RESET test

data:  model1
RESET = 0.52977, df1 = 2, df2 = 300, p-value = 0.5893

Výsledky:

  • RESET = 0,52977, p = 0,5893: vysoká p-hodnota (> 0,05) naznačuje, že nemáme dôkaz proti správnej špecifikácii modelu.

  • Význam pre teplotu: lineárny model vhodne vystihuje vzťahy medzi meteorologickými premennými a priemernou teplotou; neprítomnosť nelineárnych efektov znamená, že teplota reaguje na faktory približne lineárne.

Reziduálne grafy

Residuals vs Fitted

Graf „Residuals vs Fitted“ používame na kontrolu, či lineárny model správne predikuje priemernú teplotu v júli a či reziduá nemajú systematický vzor alebo heteroskedasticitu.

plot(model1, which = 1) 

Výsledky:

  • Reziduá sú väčšinou rovnomerne rozptýlené okolo horizontálnej čiary, čo naznačuje, že model dobre vystihuje vzťah medzi všetkými meteorologickými premennými a priemernou teplotou.

  • Väčšina bodov sa sústreďuje pri nižších až stredných predikovaných hodnotách (Fitted ≈ 14–18), kde model veľmi presne predikuje skutočnú teplotu.

  • Vyskytujú sa niektoré extrémne body, ktoré predstavujú výraznejšie odchýlky medzi predikovanou a skutočnou teplotou, typicky pri extrémne vysokých alebo nízkych dňoch.

  • Pri vyšších predikovaných hodnotách (Fitted ≈ 20–22) sa body mierne rozptyľujú, čo ukazuje, že model je trochu menej presný pre najteplejšie dni, ale stále zachytáva hlavnú tendenciu.

Celkovo graf podporuje vhodnosť lineárneho modelu a neodhalil žiadne výrazné systematické odchýlky či heteroskedasticitu rezíduí.

QQ plot

QQ plot používame na overenie normality rezíduí lineárneho modelu, čo je dôležité pre správnosť inferenčných testov a p-hodnôt koeficientov.

plot(model1, which = 2)

Výsledky:

  • Väčšina bodov sleduje diagonálnu čiaru veľmi presne, čo naznačuje, že reziduá približne nasledujú normálne rozdelenie.

  • V dolnej a hornej časti sa vyskytujú extrémy, kde je menej bodov a sú odchýlené, čo znamená prítomnosť niekoľkých veľmi nízkych alebo vysokých rezíduí.

Celkovo graf podporuje predpoklad normality rezíduí, pričom extrémne odchýlky predstavujú zriedkavé dni s neobvyklými podmienkami, ktoré mierne vybočujú z normálneho rozdelenia.

Scale-Location

Graf Scale-Location používame na overenie predpokladu homoskedasticity, teda či rozptyl rezíduí je približne konštantný pre všetky predikované hodnoty teploty.

plot(model1, which = 3) 

Výsledky:

  • Červená čiara stúpa mierne nahor, čo naznačuje, že rozptyl rezíduí sa s rastom predikovaných hodnôt mierne zvyšuje.

  • Väčšina bodov je rovnomerne rozptýlená okolo čiary, s väčším zhustením pri Fitted ≈ 15–18, čo znamená, že model je presnejší pre stredné predikované teploty.

  • Prítomné sú extrémne hodnoty, ktoré reprezentujú dni s výraznejšími odchýlkami, typicky veľmi horúce alebo chladné dni.

Celkovo graf naznačuje mierne stúpajúcu variabilitu rezíduí pri vyšších predikovaných hodnotách, ale predpoklad približne konštantného rozptylu je stále akceptovateľný.

Leverage vs. Standardized residuals

Graf Leverage vs. Standardized residuals používame na identifikáciu pozorovaní, ktoré majú neobvyklé hodnoty vysvetľujúcich premenných a môžu výrazne ovplyvniť odhad regresných koeficientov.

plot(model1, which = 5) 

Výsledky:

  • Červená čiara začína horizontálne pri nízkej leverage (X ≈ 0–0,05), potom jemne stúpa až do X ≈ 0,10 a nakoniec prudko klesá smerom k Y ≈ -2. To ukazuje, že väčšina dní júla sa správa predvídateľne, ale pre niektoré kombinácie premenných sa očakávané reziduá mierne zvyšujú alebo náhle klesajú.

  • Väčšina dní je sústredená pri nízkej leverage, reziduá sa držia blízko nuly, čo znamená, že model dobre zachytáva typické júlove počasie a teplotu.

  • Extrémne hodnoty - tieto dni predstavujú neobvyklé podmienky, ktoré môžu výraznejšie ovplyvniť model.

Celkovo model spoľahlivo popisuje väčšinu júlovej teploty, no treba mať na pamäti, že niektoré extrémne dni s neštandardnými meteorologickými podmienkami môžu spôsobovať odchýlky od predikcie.

C+R ploty pre vizuálne posúdenie linearity

C+R ploty používame na to, aby sme vizuálne overili, či je vzťah medzi jednotlivými meteorologickými premennými a priemernou teplotou v júli dostatočne lineárny, teda či lineárny model dáva zmysel pre tieto dáta.

crPlots(model1)

OSLO_cloud_cover

Na grafe je vidieť, že body sú rozložené v pásmach podľa kategórií oblačnosti a vyhladená krivka je takmer vodorovná. To znamená, že oblačnosť takmer neovplyvňuje teplotu v lineárnej forme.

OSLO_wind_speed

Body naznačujú slabý klesajúci trend a vyhladená krivka mierne klesá. To naznačuje, že silnejší vietor môže súvisieť s o niečo nižšou teplotou.

OSLO_humidity

Vyhladená krivka mierne klesá, čo poukazuje na slabý negatívny vzťah. To znamená, že pri vyššej vlhkosti má teplota tendenciu mierne klesať.

OSLO_pressure

Krivka má mierne rastúci charakter, viditeľný je slabý pozitívny vzťah. Vyšší atmosférický tlak súvisí s mierne vyššou teplotou.

OSLO_global_radiation

Body sú rozptýlené náhodne a vyhladená krivka je takmer vodorovná. To naznačuje, že globálne žiarenie takmer nevysvetľuje zmeny teploty v lineárnej časti modelu.

OSLO_precipitation

Väčšina bodov sa nachádza pri hodnote nula a krivka nevykazuje trend. Zrážky takmer neovplyvňujú teplotu v rámci lineárneho modelu.

OSLO_sunshine

Krivka pomaly rastie, čo poukazuje na slabý pozitívny vzťah. Vyšší počet hodín slnečného svitu súvisí s mierne vyššou teplotou.

Kvadratické členy pre nelineárne vzťahy

Kvadratické členy v regresii používame na zachytenie nelineárnych vzťahov medzi nezávislými premennými a závislou premennou, keď účinok prediktora na výsledok nie je konštantný, ale mení sa s jeho hodnotou.

model_quad <- lm(OSLO_temp_mean ~ OSLO_cloud_cover + I(OSLO_cloud_cover^2) +
                   OSLO_wind_speed + I(OSLO_wind_speed^2) +
                   OSLO_humidity + I(OSLO_humidity^2) +
                   OSLO_pressure + I(OSLO_pressure^2) +
                   OSLO_global_radiation + I(OSLO_global_radiation^2) +
                   OSLO_precipitation + I(OSLO_precipitation^2) +
                   OSLO_sunshine + I(OSLO_sunshine^2),
                 data = weather_july)
summary(model_quad)

Call:
lm(formula = OSLO_temp_mean ~ OSLO_cloud_cover + I(OSLO_cloud_cover^2) + 
    OSLO_wind_speed + I(OSLO_wind_speed^2) + OSLO_humidity + 
    I(OSLO_humidity^2) + OSLO_pressure + I(OSLO_pressure^2) + 
    OSLO_global_radiation + I(OSLO_global_radiation^2) + OSLO_precipitation + 
    I(OSLO_precipitation^2) + OSLO_sunshine + I(OSLO_sunshine^2), 
    data = weather_july)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.9972 -1.2702 -0.0555  1.2042  4.8049 

Coefficients:
                             Estimate Std. Error t value Pr(>|t|)    
(Intercept)                -1.517e+03  1.665e+03  -0.911  0.36298    
OSLO_cloud_cover           -4.227e-01  4.490e-01  -0.941  0.34732    
I(OSLO_cloud_cover^2)       5.094e-02  4.687e-02   1.087  0.27803    
OSLO_wind_speed            -9.847e-01  6.030e-01  -1.633  0.10354    
I(OSLO_wind_speed^2)        1.447e-01  1.044e-01   1.386  0.16685    
OSLO_humidity              -2.531e+00  1.197e+01  -0.211  0.83268    
I(OSLO_humidity^2)         -2.951e+00  9.279e+00  -0.318  0.75071    
OSLO_pressure               2.909e+03  3.297e+03   0.882  0.37837    
I(OSLO_pressure^2)         -1.374e+03  1.632e+03  -0.842  0.40041    
OSLO_global_radiation       4.665e+00  1.278e+00   3.650  0.00031 ***
I(OSLO_global_radiation^2) -1.212e+00  2.966e-01  -4.087 5.64e-05 ***
OSLO_precipitation          8.470e-01  4.054e-01   2.089  0.03756 *  
I(OSLO_precipitation^2)    -1.731e-01  1.049e-01  -1.650  0.09999 .  
OSLO_sunshine              -1.520e-01  1.715e-01  -0.887  0.37607    
I(OSLO_sunshine^2)          2.133e-02  1.015e-02   2.101  0.03649 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.967 on 295 degrees of freedom
Multiple R-squared:  0.518, Adjusted R-squared:  0.4951 
F-statistic: 22.64 on 14 and 295 DF,  p-value: < 2.2e-16
anova(model1, model_quad)
Analysis of Variance Table

Model 1: OSLO_temp_mean ~ OSLO_cloud_cover + OSLO_wind_speed + OSLO_humidity + 
    OSLO_pressure + OSLO_global_radiation + OSLO_precipitation + 
    OSLO_sunshine
Model 2: OSLO_temp_mean ~ OSLO_cloud_cover + I(OSLO_cloud_cover^2) + OSLO_wind_speed + 
    I(OSLO_wind_speed^2) + OSLO_humidity + I(OSLO_humidity^2) + 
    OSLO_pressure + I(OSLO_pressure^2) + OSLO_global_radiation + 
    I(OSLO_global_radiation^2) + OSLO_precipitation + I(OSLO_precipitation^2) + 
    OSLO_sunshine + I(OSLO_sunshine^2)
  Res.Df    RSS Df Sum of Sq      F   Pr(>F)   
1    302 1237.1                                
2    295 1141.2  7    95.828 3.5387 0.001146 **
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
resettest(model_quad)

    RESET test

data:  model_quad
RESET = 1.0481, df1 = 2, df2 = 293, p-value = 0.3519

Výsledky:

Z 14 odhadovaných parametrov sú štatisticky významné najmä:

  • OSLO_global_radiation a jeho kvadratický člen (p < 0,001),

  • OSLO_precipitation (p ≈ 0,038) a jeho kvadratický člen je na hranici významnosti (p ≈ 0,10),

  • OSLO_sunshine^2 (p ≈ 0,036).

Ostatné premenné nemajú štatisticky významný vplyv na teplotu pri hladine významnosti 5 %.

Intercept a zvyšné kvadratické členy sú štatisticky nevýznamné, čo naznačuje, že ich prínos k predikcii je nízky.

  • Upravený koeficient determinácie 0.4951 znamená, že model vysvetľuje približne 49,5 % variability strednej teploty.

  • F-test celého modelu je vysoko významný (p < 0,001), čo potvrdzuje, že aspoň niektoré premenné významne prispievajú k vysvetleniu teploty.

  • ANOVA medzi modelom lineárnym a kvadratickým ukázala významný prínos pridania kvadratických členov (F = 3,54, p ≈ 0,0011).

To naznačuje, že zahrnutie nelineárnych efektov zlepšuje schopnosť modelu vysvetliť variabilitu teploty.

  • Hodnota RESET = 1,048 s p-value ≈ 0,352 naznačuje, že model nie je štatisticky nesprávne špecifikovaný.

Inými slovami, pravdepodobnosť, že sme opomenuli významné nelineárne transformácie alebo interakcie, je nízka.

Celkovo pridanie kvadratických členov do modelu poskytlo významné zlepšenie predikcie teploty, hlavne v prípade globálneho žiarenia, zrážok a slnečného svitu. Väčšina ostatných premenných však nelineárny efekt nepreukázala. Model je štatisticky korektne špecifikovaný a vhodný na interpretáciu hlavných vplyvov meteorologických faktorov na teplotu v Osle.

Dummy premenná

V tomto kroku sme do modelu pridali dummy premennú Shock, ktorá označuje, či sa pozorovanie týka júla (Shock = 1) alebo nie (Shock = 0). Takéto premenné používame na zachytenie špecifických účinkov kategórií alebo udalostí na závislú premennú, ktoré nie sú vysvetlené kvantitatívnymi prediktormi.

weather_july <- weather_july %>%
  mutate(Shock = ifelse(MONTH == 7, 1, 0)) 

model_dummy <- lm(OSLO_temp_mean ~ OSLO_cloud_cover + OSLO_wind_speed +
                    OSLO_humidity + OSLO_pressure + OSLO_global_radiation +
                    OSLO_precipitation + OSLO_sunshine + Shock,
                  data = weather_july)
summary(model_dummy)

Call:
lm(formula = OSLO_temp_mean ~ OSLO_cloud_cover + OSLO_wind_speed + 
    OSLO_humidity + OSLO_pressure + OSLO_global_radiation + OSLO_precipitation + 
    OSLO_sunshine + Shock, data = weather_july)

Residuals:
    Min      1Q  Median      3Q     Max 
-5.3988 -1.2870 -0.1237  1.3101  4.7764 

Coefficients: (1 not defined because of singularities)
                        Estimate Std. Error t value Pr(>|t|)    
(Intercept)           -105.89136   18.05572  -5.865 1.18e-08 ***
OSLO_cloud_cover         0.06244    0.13349   0.468  0.64031    
OSLO_wind_speed         -0.22277    0.13584  -1.640  0.10205    
OSLO_humidity           -6.65813    1.68418  -3.953 9.61e-05 ***
OSLO_pressure          126.40600   17.61289   7.177 5.55e-12 ***
OSLO_global_radiation   -0.40157    0.25817  -1.555  0.12089    
OSLO_precipitation       0.19725    0.18137   1.088  0.27765    
OSLO_sunshine            0.18730    0.06116   3.063  0.00239 ** 
Shock                         NA         NA      NA       NA    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.024 on 302 degrees of freedom
Multiple R-squared:  0.4775,    Adjusted R-squared:  0.4654 
F-statistic: 39.43 on 7 and 302 DF,  p-value: < 2.2e-16
anova(model_quad, model_dummy)
Analysis of Variance Table

Model 1: OSLO_temp_mean ~ OSLO_cloud_cover + I(OSLO_cloud_cover^2) + OSLO_wind_speed + 
    I(OSLO_wind_speed^2) + OSLO_humidity + I(OSLO_humidity^2) + 
    OSLO_pressure + I(OSLO_pressure^2) + OSLO_global_radiation + 
    I(OSLO_global_radiation^2) + OSLO_precipitation + I(OSLO_precipitation^2) + 
    OSLO_sunshine + I(OSLO_sunshine^2)
Model 2: OSLO_temp_mean ~ OSLO_cloud_cover + OSLO_wind_speed + OSLO_humidity + 
    OSLO_pressure + OSLO_global_radiation + OSLO_precipitation + 
    OSLO_sunshine + Shock
  Res.Df    RSS Df Sum of Sq      F   Pr(>F)   
1    295 1141.2                                
2    302 1237.1 -7   -95.828 3.5387 0.001146 **
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
resettest(model_dummy)

    RESET test

data:  model_dummy
RESET = 0.52801, df1 = 2, df2 = 299, p-value = 0.5903

Výsledky:

  • Štatisticky významné sú OSLO_humidity (p < 0,001), OSLO_pressure (p < 0,001) a OSLO_sunshine (p ≈ 0,002).

  • Premenná Shock nie je odhadnutá (NA), čo je spôsobené singularitou – pravdepodobne preto, že všetky pozorovania sa týkajú júla, alebo je kolineárna s inými premennými.

  • F-test celého modelu je vysoko významný (p < 0,001), čo potvrdzuje, že aspoň niektoré premenné významne prispievajú k vysvetleniu teploty.

  • ANOVA medzi kvadratickým a dummy modelom ukázala, že kvadratický model je štatisticky významne lepší (p ≈ 0,0011), čo naznačuje, že pridanie nelineárnych členov poskytuje lepšie vysvetlenie variability teploty než jednoduché zahrnutie dummy pre júl.

  • RESET = 0,528, p ≈ 0,59, čo znamená, že model nie je štatisticky nesprávne špecifikovaný, teda neexistuje silný dôkaz o opomenutí nelineárnych transformácií alebo interakcií.

Zahrnutie dummy premenných umožňuje modelu zachytiť špecifický účinok kategórií alebo udalostí, avšak v tomto prípade premenná Shock nebola odhadnutá, čo poukazuje na kolinearitu alebo singularitu. Kvadratické členy sa ukázali ako efektívnejší spôsob zachytenia nelineárnych vzťahov medzi meteorologickými premennými a teplotou.

Box-Cox transformácia

Box-Cox transformáciu používame na to, aby sme našli takú mocninovú transformáciu závislej premennej, ktorá čo najlepšie zlepší normalitu reziduí, homoskedasticitu a celkovú špecifikáciu regresného modelu, čím sa zvyšuje spoľahlivosť odhadov.

boxcox(model1, lambda = seq(-2, 2, 0.1))

Výsledky:

  • Najvyšší bod krivky je približne pri λ ≈ –0,05.

To znamená, že práve táto transformácia najviac zlepšuje vlastnosti modelu.

  • 95% intervalová páska ukazuje rozsah λ, ktoré sú štatisticky prijateľné -> graf ju pretína v bodoch λ ≈ –0,6 a λ ≈ 0,45.

To znamená, že všetky hodnoty λ v rozmedzí –0,6 až 0,45 sú akceptovateľné, ale najlepší (optimálny) je λ ≈ –0,05.

Pretože optimálny λ je blízko nule, znamená to, že teplota takmer nepotrebuje transformáciu. Správanie teploty v dátach je takmer lineárne a stabilné, takže Box-Cox nepotvrdil potrebu zásadnej transformácie.

Záver

Cieľom analýzy bolo preskúmať, ako významné meteorologické premenné ovplyvňujú priemernú júlovú teplotu v Osle a aká špecifikácia modelu ju najlepšie vystihuje.

Lineárna regresia potvrdila najvýznamnejší vplyv vlhkosti vzduchu, atmosférického tlaku a slnečného svitu, pričom diagnostické testy potvrdili primeranú špecifikáciu modelu a normalitu rezíduí.

Rozšírenie modelu o kvadratické členy významne zlepšilo jeho kvalitu, najmä vďaka zachyteniu nelineárnych efektov globálneho žiarenia, zrážok a slnečného svitu.

Box-Cox transformácia ukázala, že optimálna hodnota λ je blízka nule, čo znamená, že teplota nevyžaduje transformáciu a dáta sú vhodné pre lineárne modelovanie.

Výsledky tak potvrdzujú, že teplotu najviac ovplyvňuje kombinácia vlhkosti, tlaku a slnečných hodín a že jej správanie možno spoľahlivo vysvetliť lineárnym modelom doplneným o kľúčové nelineárne efekty.

