1 Úvod

Modelovanie a analýza vývoja počasia zohrávajú dôležitú úlohu v meteorológii, klimatológii aj v praktickom plánovaní činností závislých od poveternostných podmienok. Základné meteorologické veličiny, ako sú teplota vzduchu, atmosférický tlak, rýchlosť vetra a množstvo zrážok, významne ovplyvňujú prírodné procesy, hospodárske aktivity aj každodenný život obyvateľstva. Skúmanie ich vzájomných vzťahov umožňuje lepšie pochopiť sezónnu dynamiku počasia a rozdiely medzi jednotlivými obdobiami roka.

Cieľom tejto práce je analyzovať vybrané meteorologické ukazovatele a identifikovať vzťahy a vzorce v ich správaní počas roka 2020.

2 Údaje

Použité údaje pochádzajú z verejne dostupnej databázy Kaggle s názvom Weather Long-Term Time Series Forecasting, dostupnej na: https://www.kaggle.com/datasets/alistairking/weather-long-term-time-series-forecasting/data.

Databáza obsahuje meteorologické ukazovatele merané na meteorologickej stanici Max Planck Institute a vzťahuje sa výlučne na rok 2020. Pre potreby tejto práce boli využité mesačné priemery štyroch základných klimatických premenných: teploty vzduchu (°C), atmosférického tlaku (hPa), rýchlosti vetra (m/s) a úhrnu zrážok (mm). Každý riadok databázy reprezentuje jeden mesiac roka 2020, čo umožňuje analyzovať sezónne rozdiely a porovnávať mesiace na základe ich priemerných poveternostných charakteristík.

2.1 Základné štatistiky

Table 2.1: Základná štatistická charakteristika meteorologických premenných (2020)
Statistic Temperature…C. Air.Pressure..hPa. Wind.Speed..m.s. Precipitation..mm.
Min. 3.295800 982.2628 1.023300 0.0009000
1st Qu. 5.664975 986.7344 1.864725 0.0041000
Median 10.631900 990.2680 1.963050 0.0089000
Mean 10.807467 989.9888 1.989608 0.0118417
3rd Qu. 15.898075 991.9806 2.192775 0.0206250
Max. 20.756100 997.4662 2.792700 0.0234000

Základná štatistika ukazuje, že priemerná teplota v roku 2020 dosiahla približne 10,8 °C, pričom minimálne hodnoty boli okolo 3,3 °C a maximálne približne 20,8 °C. Medián teploty (10,6 °C) je veľmi blízky priemeru, čo naznačuje pomerne symetrické rozdelenie teplôt počas roka. Atmosférický tlak sa pohyboval v intervale približne 982 až 997 hPa, s priemernou hodnotou okolo 990 hPa a relatívne úzkym interkvartilovým rozpätím, čo poukazuje na jeho vysokú stabilitu. Rýchlosť vetra mala priemernú hodnotu približne 2,0 m/s a tiež vykazovala nízku variabilitu, keď väčšina hodnôt ležala blízko mediánu. Zrážky dosahovali veľmi nízke denné úhrny – priemerná hodnota bola len okolo 0,012 mm, pričom medián je ešte nižší. To naznačuje, že počas väčšiny roka 2020 prevažovali suché alebo len mierne zrážkové podmienky.

2.2 Grafy

2.2.1 Scatter plot

Graf znázorňuje vzťah medzi tlakom vzduchu (hPa) a teplotou (°C) počas jednotlivých mesiacov roku 2020. Farebné body na grafe predstavujú jednotlivé mesiace roka. Z grafu je zrejmé, že pri nižšom tlaku vzduchu sú teploty vyššie, zatiaľ čo pri vyššom tlaku sú teploty nižšie. To poukazuje na negatívnu koreláciu medzi týmito premennými. V meteorologickom zmysle to znamená, že vyšší tlak vzduchu býva spojený so stabilným a chladnejším počasím, kým nižší tlak prináša teplejšie a vlhkejšie obdobia.

2.2.2 Boxplot

Boxplot zobrazuje rozloženie relatívnej vlhkosti vzduchu (%) v roku 2020. Z grafu vidno, že medián relatívnej vlhkosti je približne 70 %, pričom väčšina hodnôt sa pohybuje v rozmedzí 65 % až 80 %. Nižšie a vyššie hodnoty mimo tohto rozsahu predstavujú extrémnejšie prípady vlhkejšieho alebo suchšieho vzduchu.

3 Výskumné hypotézy

Rozhodla som sa modelovať priemernú teplotu (Temperature…C.) v závislosti od troch meteorologických premenných: atmosférického tlaku (Air.Pressure..hPa.), rýchlosti vetra (Wind.Speed..m.s.) a množstva zrážok (Precipitation..mm.) za rok 2020. Cieľom je zistiť, či tieto faktory štatisticky ovplyvňujú teplotu.

Predpokladáme, že vyšší tlak aj vyššia rýchlosť vetra môžu súvisieť s nižšou teplotou (negatívny vplyv), zatiaľ čo množstvo zrážok môže mať mierne pozitívny vplyv, keďže zrážky sa často viažu na teplejšie obdobia. Nulová hypotéza (H0): žiadna z premenných nemá významný vplyv na teplotu. Alternatívna hypotéza (H1): aspoň jedna premenná teplotu štatisticky ovplyvňuje.

3.1 Boxploty jednotlivých premenných

Boxploty znázorňujú rozdelenie štyroch meteorologických premenných počas roka 2020 a poukazujú na ich celkovo stabilný charakter. Teplota vzduchu (Temperature…C.) má pomerne symetrické rozdelenie, s mediánom približne v strede intervalu a bez výrazných odľahlých hodnôt, čo naznačuje plynulé sezónne zmeny teploty. Atmosférický tlak (Air.Pressure..hPa.) vykazuje úzke rozpätie hodnôt a vysokú koncentráciu pozorovaní okolo mediánu, bez extrémov, čo svedčí o stabilných tlakových podmienkach počas roka. Pri rýchlosti vetra (Wind.Speed..m.s.) sa objavujú jednotlivé mierne odľahlé hodnoty na nižšej aj vyššej úrovni, ktoré však zodpovedajú reálnym meteorologickým situáciám. Väčšina hodnôt je sústredená v úzkom intervale okolo mediánu, čo naznačuje nízku variabilitu veterných podmienok. Zrážky (Precipitation..mm.) majú viac asymetrické rozdelenie s mediánom bližšie k dolnej hranici, čo naznačuje, že väčšinu času boli zrážkové úhrny nízke, pričom vyššie hodnoty sa vyskytovali len občas. Celkovo boxploty potvrdzujú, že premenné nevykazujú extrémnu variabilitu a sú vhodné na ďalšiu štatistickú analýzu.

3.2 Lineárna regresia

Diagnostické grafy regresného modelu

Figure 3.1: Diagnostické grafy regresného modelu

3.2.1 Grafové interpretácie rezíduí

3.2.1.1 Residuals vs. Fitted

Na grafe Residuals vs Fitted vidíme, že reziduá sú rozmiestnené náhodne okolo nulovej línie, čo naznačuje, že model systematicky nepreceňuje ani nepodceňuje odhady. Mierne zakrivenie červenej krivky môže poukazovať na slabú nelinearitu, ale vzhľadom na malý počet pozorovaní ide o minimálny problém. Niekoľko bodov je mierne odchýlených, ale nič zásadné nenasvedčuje porušeniu predpokladov modelu.

3.2.1.2 Q-Q Residuals

Na Q–Q grafe vidíme, že body sa pomerne dobre približujú referenčnej priamke, najmä v strednej časti rozdelenia. V krajných kvantiloch sú síce viditeľné menšie odchýlky, ale ide o bežný jav pri malom počte pozorovaní. Celkovo graf naznačuje, že reziduá sa približne riadia normálnym rozdelením a predpoklad normality nie je výrazne porušený.

3.2.1.3 Scale-Location

Na grafe Scale–Location vidíme, že body sú rozmiestnené pomerne rovnomerne a nevytvárajú tvar lievika, čo naznačuje približne konštantný rozptyl rezíduí. Červená krivka je len mierne klesajúca, takže neukazuje na výraznú heteroskedasticitu. Celkovo graf neindikuje vážne porušenie predpokladu konštantnej variability chýb.

3.2.1.4 Residuals vs Leverage

Na grafe Residuals vs Leverage vidíme, že všetky pozorovania majú nízky až stredný pákový efekt a žiadne nepresahuje hranice Cookovej vzdialenosti. Bodové odchýlky sú malé a štandardizované reziduá zostávajú v bežnom intervale. Graf teda nenaznačuje prítomnosť vplyvných pozorovaní ani ohrozenie stability modelu.

3.3 Heteroskedasticita

Skúmanie heteroskedasticity

Figure 3.2: Skúmanie heteroskedasticity

Na grafe Squared Residuals vs Temperature je zrejmé, že rozptyl štvorcov rezíduí sa mení v závislosti od teploty. Pri nižších a stredných hodnotách teploty sú rezíduá relatívne stabilné a málo rozptýlené, zatiaľ čo pri vyšších teplotách dochádza k nárastu variability. Tento rast rozptylu naznačuje, že chyba modelu nie je konštantná v celom rozsahu teploty, čo poukazuje na prítomnosť miernej heteroskedasticity viazanej na vyššie teplotné hodnoty.

Na grafe Squared Residuals vs Air Pressure má vyhladená červená krivka výraznejší vlnovitý tvar. Rozptyl rezíduí je najvyšší približne pri tlaku okolo 990 hPa, zatiaľ čo pri nižších aj vyšších hodnotách tlaku je variabilita menšia. Tento nelineárny priebeh naznačuje, že atmosférický tlak môže ovplyvňovať veľkosť chýb modelu, avšak ide len o mierne a lokálne zmeny rozptylu. Celkovo grafy poukazujú skôr na slabé náznaky heteroskedasticity než na závažné porušenie predpokladov lineárneho regresného modelu.

3.3.1 Testovanie prítomnosti heteroskedasticity

## 
##  studentized Breusch-Pagan test
## 
## data:  model
## BP = 2.1093, df = 3, p-value = 0.55

Keďže p-hodnota Breusch–Paganovho testu (0.55) je výrazne vyššia než hladina významnosti 0.05, nulovú hypotézu o homoskedasticite nezamietame. Test teda nepreukazuje prítomnosť heteroskedasticity a rozptyl rezíduí môžeme považovať za konštantný. V spojení s vizuálnymi diagnostickými grafmi môžeme konštatovať, že model nevykazuje heteroskedasticitu, takže nie je potrebné uplatniť Whiteovu korekciu ani iné úpravy.

4 Špecifikácia modelu

4.1 Grafická analýza

4.1.1 Graf Residuals vs. Fitted

Na grafe „Residuals vs Fitted“ vidíme, že červená vyhladená krivka má výrazné zakrivenie – rezíduá pri nižších fitted hodnotách klesajú, v strednej časti rastú a pri najvyšších hodnotách opäť klesajú. Tento systematický priebeh naznačuje, že rezíduá nie sú rozmiestnené náhodne okolo nulovej línie, čo porušuje predpoklad linearity. Zároveň možno pozorovať, že niektoré body (napr. pozorovania 2, 8 a 12) sa výraznejšie odchyľujú od nulovej línie, čo môže prispievať k zakriveniu trendu. Celkovo graf naznačuje, že lineárny model nemusí úplne vystihovať vzťah medzi teplotou a vysvetľujúcimi premennými a bolo by vhodné zvážiť nelineárnu špecifikáciu modelu alebo doplnenie ďalších premenných.

4.1.2 Grafy C+R **

Component + Residual grafy ukazujú zreteľné nelineárne vzorce. Ružová vyhladená krivka sa pri oboch premenných (Air.Pressure..hPa. a Wind.Speed..m.s.) výrazne odchyľuje od modrej lineárnej priamky, čo naznačuje, že lineárny tvar vzťahu nie je postačujúci. Tento tvar kriviek naznačuje prítomnosť nelineárnych efektov, ktoré súčasný lineárny model nezachytáva, a preto by mohlo byť vhodné zvážiť doplnenie modelu o nelineárne členy (napr. kvadratické termíny).

5 Zhluková analýza

My predstavíme zhlukovú analýzu pri analýze údajov pochádzajúcich z meraní meteorologických premenných, konkrétne teploty vzduchu, atmosférického tlaku, rýchlosti vetra a úhrnu zrážok. Budeme využívať údaje za rok 2020. V Tab. 1. uvádzame celú nami používanú databázu.

Table 1.

Z tabuľky vidíme mesačné priemery meteorologických premenných v roku 2020. Teplota vzduchu postupne rastie od zimných mesiacov k letným, kde dosahuje maximum okolo 20–21 °C, a následne opäť klesá. Atmosférický tlak sa pohybuje v pomerne úzkom intervale okolo 986–996 hPa, bez extrémnych výkyvov. Rýchlosť vetra je väčšinou mierna, približne medzi 1,0 a 2,8 m/s, pričom vyššie hodnoty sa vyskytujú v niektorých prechodných obdobiach. Úhrn zrážok je celkovo nízky, no medzi mesiacmi kolíše, čo poukazuje na striedanie suchších a vlhších období počas roka.

Obr. 1.

Tentokrát odľahlé hodnoty nevylúčime, nakoľko predstavujú skutočné namerané pozorovania a sú súčasťou reálnych podmienok merania.

  1. Teplota vzduchu (Temperature…C.): Rozdelenie teplôt je pomerne symetrické, bez extrémnych odľahlých bodov. Medián sa nachádza približne uprostred intervalu a teploty sú rozptýlené rovnomerne. Hodnoty nevykazujú výrazné anomálie.

  2. Atmosférický tlak (Air.Pressure..hPa.): Atmosférický tlak má mierne asymetrické rozdelenie, no bez odľahlých pozorovaní. Väčšina hodnôt sa sústreďuje okolo mediánu a variabilita je primeraná. Údaje pôsobia stabilne a bez extrémnych výkyvov.

  3. Rýchlosť vetra (Wind.Speed..m.s.): Pri rýchlosti vetra sa vyskytujú dva zreteľné odľahlé body – jeden veľmi nízky a jeden veľmi vysoký. Tieto hodnoty však predstavujú reálne namerané situácie (napr. náhle zosilnenie vetra alebo bezvetrie), preto ich ponechávame v analýze. Ostatné hodnoty sú sústredené v úzkom intervale okolo mediánu, čo naznačuje nízku variabilitu väčšiny meraní.

  4. Úhrn zrážok (Precipitation..mm.): Zrážky vykazujú širšie rozptyl než ostatné premenné, čo je typické pre túto veličinu, keďže zrážky môžu byť veľmi variabilné. Rozdelenie je bez odľahlých bodov a medián sa nachádza v spodnej časti boxu, čo naznačuje, že väčšina meraní mala relatívne nízke úhrny zrážok.

5.1 Princíp hierarchického zhlukovania (Wardova metóda)

Obr. 2.

Dendrogram zobrazuje výsledok hierarchického zhlukovania mesiacov pomocou Wardovej metódy. Pri zvolenej reznej výške (červená prerušovaná čiara) možno identifikovať tri klastre, čo naznačuje, že mesiace sa prirodzene delia do troch skupín s podobnými meteorologickými charakteristikami. Mesiace v rámci jedného klastru sú si navzájom podobnejšie než mesiace patriace do iných klastrov, zatiaľ čo vyššia výška spojenia medzi klastrami signalizuje výraznejšie rozdiely v poveternostných podmienkach medzi skupinami.

Tab.2.

Tabuľka zobrazuje priradenie jednotlivých pozorovaní (mesiacov) do troch klastrov. Prvý klaster združuje pozorovania 1, 4, 5 a 7, druhý klaster pozorovania 2, 6, 8 a 9 a tretí klaster pozorovania 3 a 10. Rozdelenie potvrdzuje výsledky hierarchického zhlukovania a naznačuje, že mesiace v rámci jedného klastru majú podobné meteorologické charakteristiky, zatiaľ čo medzi klastrami sa tieto charakteristiky výraznejšie líšia.

5.2 Deskriptívne štatistiky výsledkov

Na základe Tab. 3 možno vyhodnotiť separačnú silu jednotlivých premenných vo vytvorených klastroch nasledovne: Premenná Precipitation..mm. má najvyšší podiel medzi-klastrového rozptylu (Prop_Between ≈ 0.80), čo znamená, že veľmi dobre odlišuje jednotlivé klastre – zrážky sú teda jedným z najsilnejších faktorov, podľa ktorých sa mesiace prirodzene zoskupujú. Podobne aj Wind.Speed..m.s. vykazuje vysokú hodnotu Prop_Between (≈ 0.65), čo naznačuje, že rýchlosť vetra sa medzi klastrami významne líši a predstavuje dobrý separátor. Premenná Air.Pressure..hPa. má strednú separačnú schopnosť (≈ 0.58), čo znamená, že tlak vzduchu prispieva k odlišovaniu klastrov, ale už menej výrazne ako predchádzajúce dve premenné. Najslabším separátorom je Temperature…C., ktorej podiel medzi-klastrového rozptylu je najnižší (≈ 0.29). Znamená to, že teplota sa síce medzi mesiacmi líši, ale nie dostatočne na to, aby zásadne prispievala k vytváraniu odlišných klastrov. Najviac k rozlíšeniu klastrov prispievajú zrážky a rýchlosť vetra, zatiaľ čo teplota má v tomto type analýzy iba slabý separačný efekt.

Tab. 3.

Tab. 4. Centroidy - priemerné hodnoty sledovaných premenných

Prvý klaster má mierne nadpriemernú teplotu, najvyšší priemerný atmosférický tlak (≈ 993.8 hPa) a strednú úroveň rýchlosti vetra. Druhý klaster je charakterizovaný najvyššou priemernou teplotou (≈ 14.8 °C), nízkym tlakom a najnižšou rýchlosťou vetra spomedzi všetkých klastrov. Tretí klaster má najnižšie priemerné teploty, najnižší atmosférický tlak a zároveň najvyššiu priemernú rýchlosť vetra, čo naznačuje odlišné poveternostné podmienky oproti zvyšným dvom klastrom. Z toho vyplýva, že najdôležitejším rozlišovacím faktorom medzi klastrami je teplota, zatiaľ čo tlak vzduchu a rýchlosť vetra dopĺňajú charakteristiku jednotlivých skupín.

5.3 Záver

Predložená analýza sa zaoberá zoskupovaním jednotlivých mesiacov roka na základe ich priemerných meteorologických charakteristík – konkrétne teploty vzduchu, atmosférického tlaku, rýchlosti vetra a množstva zrážok. Na základe týchto premenných boli mesiace rozdelené do troch klastrov, pričom každý klaster predstavuje odlišný typ poveternostných podmienok. Takto získaná klasifikácia umožňuje lepšie pochopiť sezónne rozdiely v počasí, identifikovať mesiace s podobnými klimatickými profilmi a môže slúžiť ako podklad pri plánovaní aktivít závislých od počasia – napríklad pri energetickom plánovaní, poľnohospodárstve či hodnotení klimatických trendov.

6 Multikolinearita

6.1 Korelačná matica

##                    Temperature...C. Air.Pressure..hPa. Wind.Speed..m.s.
## Temperature...C.              1.000             -0.172           -0.227
## Air.Pressure..hPa.           -0.172              1.000            0.074
## Wind.Speed..m.s.             -0.227              0.074            1.000

V našom prípade nevidíme dve premenné, ktoré by boli silne korelované. Hodnoty korelačných koeficientov medzi jednotlivými premennými sú nízke a pohybujú sa len v intervale približne od −0,23 do 0,07. Teplota má len slabú negatívnu koreláciu s atmosférickým tlakom a rýchlosťou vetra, zatiaľ čo vzťah medzi tlakom a rýchlosťou vetra je prakticky zanedbateľný. To naznačuje, že medzi vysvetľujúcimi premennými nie je prítomná výrazná multikolinearita a každá z nich prináša do modelu samostatnú informáciu.


Scatterplotová matica ukazuje, že medzi premennými Temperature, Air Pressure a Wind Speed neexistujú výrazné lineárne vzťahy. Body sú vo všetkých dvojiciach rozptýlené bez jasného rastúceho alebo klesajúceho trendu, čo naznačuje slabú až zanedbateľnú koreláciu. Pri vzťahu teploty a tlaku možno pozorovať miernu tendenciu vyšších teplôt pri nižších hodnotách tlaku, avšak tento vzťah nie je jednoznačný ani lineárny. Podobne ani rýchlosť vetra neprejavuje systematickú závislosť od teploty či tlaku. Celkovo graf potvrdzuje, že premenné sú medzi sebou len slabo prepojené a každá z nich do modelu prispieva samostatnou informáciou bez výrazného rizika multikolinearity.


6.2 VIF

## Air.Pressure..hPa.   Wind.Speed..m.s. 
##           1.005536           1.005536

Intuitívnym kritériom, ktoré signalizuje prítomnosť multikolinearity, je podmienka VIF > 5 (prísne kritérium) alebo VIF > 10 (menej prísne kritérium). V našom prípade to nespĺňa žiadna z vysvetľujúcich premenných, keďže hodnoty VIF pre Air.Pressure..hPa. aj Wind.Speed..m.s. sú približne 1.01. Takéto nízke hodnoty naznačujú praktickú nezávislosť premenných a potvrdzujú, že multikolinearita v modeli nepredstavuje problém.


6.3 Condition Number

Ak Conditional number je

  • < 10 → nízka multikolinearita,
  • 10–30 → mierna,
  • 30–100 → silná,
  • 100 → veľmi vážna
## [1] 2385.004

Keďže v našom prípade Condition Number dosahuje hodnotu približne 2385, čo výrazne presahuje hranicu 100, ide o jasný signál veľmi závažnej multikolinearity. To znamená, že vysvetľujúce premenné sú silne lineárne závislé, čo môže viesť k nestabilným odhadom regresných koeficientov, veľkým štandardným chybám a zníženej spoľahlivosti štatistických testov, aj keď samotný model môže mať prijateľnú mieru prispôsobenia.


6.4 Zhrnutie

Analýza sa zamerala na vzťah medzi teplotou, tlakom vzduchu a rýchlosťou vetra. Regresné modely ukázali veľmi slabú schopnosť vysvetliť zmeny teploty. Multikolinearita, ktorá síce nezavádza bias, ale zvyšuje štandardné odchýlky koeficientov, bola overená pomocou VIF a Condition Number. Obe metriky potvrdili, že v týchto údajoch multikolinearita nepredstavuje problém.


7 Literatúra

Kaggle (2020). Weather Long-Term Time Series Forecasting. Dostupné na: https://www.kaggle.com/datasets/alistairking/weather-long-term-time-series-forecasting/data