Analýza meteorologických ukazovateľov
Úvod do problému a stanovenie hypotézy
Cieľom analýzy je modelovať strednú dennú teplotu v Bazileji
(BASEL_temp_mean) na základe viacerých meteorologických premenných:
oblačnosť (BASEL_cloud_cover),
vlhkosť (BASEL_humidity),
tlak vzduchu (BASEL_pressure),
globálne žiarenie (BASEL_global_radiation),
zrážky (BASEL_precipitation),
slnečný svit (BASEL_sunshine) a minimálnu a maximálnu teplotu
(BASEL_temp_min, BASEL_temp_max).
Pracovná hypotéza predpokladá, že tieto premenné významne ovplyvňujú
strednú teplotu – napríklad vyššie globálne žiarenie alebo slnečný svit
by mali viesť k vyšším teplotám, zatiaľ čo väčšia oblačnosť môže teplotu
znižovať. Cieľom analýzy je overiť túto hypotézu pomocou lineárneho
regresného modelu, posúdiť význam jednotlivých premenných a
skontrolovať, či model spĺňa predpoklady lineárnej regresie, ako sú
normalita rezíduí a konštantný rozptyl (homoskedasticita).
Na začiatku analýzy budeme najprv načítať potrebné knižnice,
vyčistíme pracovné prostredie, načítame súbor
weather_prediction_dataset.csv, vyberieme kľúčové stĺpce a doplníme
chýbajúce hodnoty mediánom, aby boli údaje pripravené na ďalšie
spracovanie.
Načítanie knižníc
library(zoo)
library(tseries)
library(lmtest)
library(sandwich)
library(car)
library(ggplot2)
library(cowplot)
Vyčistenie pracovného prostredia
Načítanie údajov
udaje <- read.csv("weather_prediction_dataset.csv")
Výber potrebných stĺpcov
weather_data <- udaje[, c("BASEL_cloud_cover", "BASEL_humidity", "BASEL_pressure",
"BASEL_global_radiation", "BASEL_precipitation", "BASEL_sunshine",
"BASEL_temp_mean", "BASEL_temp_min", "BASEL_temp_max")]
Imputácia chýbajúcich hodnôt mediánom
median_hodnoty <- sapply(weather_data, median, na.rm = TRUE)
weather_data_imputed <- weather_data
for (col in names(weather_data)) {
weather_data_imputed[[col]][is.na(weather_data[[col]])] <- median_hodnoty[col]
}
weather_data <- weather_data_imputed
Boxploty pre vizuálnu kontrolu
Poskytnú nám rýchly prehľad o variabilite a rozsahu dát pred samotným
modelovaním.
num_plots <- length(names(weather_data))
par(mfrow = c(3, 3))
par(mar = c(4, 4, 2, 1))
for (col in names(weather_data)) {
boxplot(weather_data[[col]], main = col, xlab = "Hodnota", col = "lightblue")
}
par(mfrow = c(1, 1))

Lineárna regresia: závislá premenná BASEL_temp_mean
model <- lm(BASEL_temp_mean ~ BASEL_cloud_cover + BASEL_humidity + BASEL_pressure +
BASEL_global_radiation + BASEL_precipitation + BASEL_sunshine +
BASEL_temp_min + BASEL_temp_max, data = weather_data)
summary(model)
Call:
lm(formula = BASEL_temp_mean ~ BASEL_cloud_cover + BASEL_humidity +
BASEL_pressure + BASEL_global_radiation + BASEL_precipitation +
BASEL_sunshine + BASEL_temp_min + BASEL_temp_max, data = weather_data)
Residuals:
Min 1Q Median 3Q Max
-2.6986 -0.3519 0.0137 0.3576 2.6206
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.490728 1.310306 -1.138 0.255323
BASEL_cloud_cover 0.043206 0.007690 5.618 2.07e-08 ***
BASEL_humidity -1.508743 0.127840 -11.802 < 2e-16 ***
BASEL_pressure 2.345408 1.279865 1.833 0.066952 .
BASEL_global_radiation 0.090704 0.027478 3.301 0.000973 ***
BASEL_precipitation -0.028120 0.019019 -1.479 0.139343
BASEL_sunshine 0.007200 0.006625 1.087 0.277165
BASEL_temp_min 0.498117 0.004798 103.822 < 2e-16 ***
BASEL_temp_max 0.475467 0.004462 106.549 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.5475 on 3645 degrees of freedom
Multiple R-squared: 0.9946, Adjusted R-squared: 0.9945
F-statistic: 8.329e+04 on 8 and 3645 DF, p-value: < 2.2e-16
Pre lineárnu regresiu s BASEL_temp_mean ako závislou premennou model
ukazuje veľmi dobrú zhody s dátami. Koeficienty naznačujú, že niektoré
premenné majú silný vplyv na strednú teplotu.
Najdôležitejšie faktory sú:
Minimálna a maximálna teplota – hlavní prediktori s extrémne
vysokými t-hodnotami a p-hodnotami < 2e-16.
Vlhkosť – výrazne znižuje strednú teplotu (-1,51, t =
-11,8).
Oblačnosť a globálne žiarenie – mierny pozitívny efekt a
štatisticky významné.
Premenné ako tlak, zrážky alebo slnečný svit sa v tomto modeli
neprejavili ako významné.
Reziduá sú väčšinou malé (min = -2,6986, max = 2,6206, štandardná
chyba = 0,5475), čo naznačuje dobrú presnosť predikcie.
Hodnota R-squared = 0,9946 ukazuje, že model vysvetľuje takmer všetku
variabilitu strednej teploty, a vysoká F-statistika potvrdzuje celkovú
štatistickú významnosť modelu.
Celkovo model veľmi dobre zachytáva vzťahy medzi meteorologickými
premennými a strednou teplotou v Bazileji, pričom najdôležitejšie
faktory sú jasne identifikovateľné a zodpovedajú očakávanému fyzikálnemu
kontextu.
Diagnostické grafy
par(mfrow = c(2, 2))
plot(model)
par(mfrow = c(1, 1))

Residuals vs Fitted
Účel: Overiť, či má lineárny vzťah medzi premennými a či má
reziduá konštantný rozptyl.
Na tomto grafe je červená čiara ideálne rovná a body sú náhodne
rozmiestnené okolo nej. To znamená, že predpoklad linearity je splnený –
medzi premennými existuje vhodný lineárny vzťah a model je dobre
špecifikovaný.
Q-Q Residuals
Účel: Overiť, či sú reziduá normálne rozdelené.
Na tomto grafe body takmer dokonale sledujú diagonálnu čiaru. To
znamená, že reziduá sú normálne rozdelené. Tento dôležitý predpoklad pre
štatistické testovanie je splnený.
Scale-Location
Účel: Tiež overuje predpoklad homoskedasticity (konštantný
rozptyl reziduí). Je to podobné ako prvý graf, ale zobrazuje odmocninu
štandardizovaných reziduí.
Na tomto grafe sú body veľmi rozťahané a odchádzajú od čiary,
ktorá nie je dokonale rovná. To znamená, že dochádza k
heteroskedasticite – rozptyl reziduí nie je konštantný. To je hlavný
problém modelu, ktorý môže spôsobiť nespoľahlivosť štatistických
testov.
Residuals vs Leverage
Účel: Identifikovať vplyvné body (outliery), ktoré môžu neúmerne
ovplyvňovať výsledky regresie.
Na tomto grafe sú body sústredené v ľavej časti a červená čiara
sa mierne vlní. To znamená, že väčšina pozorovaní má nízku vplyvnosť, čo
je dobré, no niektoré body môžu mierne ovplyvňovať model. Nevidia sa
však extrémne vplyvné odľahlé hodnoty.
Jarque Bera test na normalitu rezíduí
residuals <- residuals(model)
jb_test <- jarque.bera.test(residuals)
jb_test
Jarque Bera Test
data: residuals
X-squared = 113.49, df = 2, p-value < 2.2e-16
Test Jarque-Bera sme použili na overenie, či sú reziduá modelu
normálne rozdelené. Tento test skúma rozdiel medzi tvarom rozdelenia
reziduí a teoretickým normálnym rozdelením pomocou dvoch ukazovateľov –
šikmosti (skewness) a špicatosti (kurtosis).
Výsledky:
X-squared = 113.49,
df = 2,
p-hodnota < 2.2e-16.
To znamená, že test zamieta nulovú hypotézu o normálnom rozdelení
reziduí. Napriek tomu, že Q-Q graf vizuálne naznačoval takmer normálne
rozdelenie, test ukazuje, že existujú drobné odchýlky — pravdepodobne
spôsobené veľkým počtom pozorovaní, kde aj malé rozdiely vedú k
štatistickej významnosti.
Reziduá nie sú úplne normálne rozdelené, hoci odchýlky nie sú výrazné
a model zostáva spoľahlivý na predikčné účely.
Test na odľahlé hodnoty
outlier_test <- outlierTest(model)
outlier_test
Pri teste na odľahlé hodnoty (outliery) sme použili štandardizované
reziduá (rstudent), aby sme identifikovali pozorovania s extrémnymi
hodnotami, ktoré môžu ovplyvniť stabilitu modelu.
Najvýraznejšie odľahlé hodnoty:
pozorovanie 1815 (rstudent = -4.96, Bonferroni p =
0.0027),
pozorovanie 713 (rstudent = 4.81, Bonferroni p =
0.0056),
pozorovanie 1273 (rstudent = -4.38, Bonferroni p =
0.0454).
Tieto hodnoty prekračujú bežný limit ±3, čo znamená, že ide o
potenciálne problematické pozorovania.
Záverom možno povedať, že niekoľko pozorovaní má vysoký vplyv a môžu
mierne skresľovať odhady parametrov
Grafy pre kontrolu heteroskedasticity
p1 <- ggplot(weather_data, aes(x = BASEL_pressure, y = resid(model)^2)) +
geom_point(alpha = 0.6) +
geom_smooth(method = "loess", se = FALSE, color = "darkred") +
labs(x = "BASEL_pressure", y = "Štvorce rezíduí", title = "Rezíduá^2 vs Tlak") +
theme_minimal()
p2 <- ggplot(weather_data, aes(x = BASEL_humidity, y = resid(model)^2)) +
geom_point(alpha = 0.6) +
geom_smooth(method = "loess", se = FALSE, color = "darkred") +
labs(x = "BASEL_humidity", y = "Štvorce rezíduí", title = "Rezíduá^2 vs Vlhkosť") +
theme_minimal()
plot_grid(p1, p2)

Tieto grafy zobrazujú vzťah medzi štvorcami rezíduí a vybranými
nezávislými premennými (tlakom a vlhkosťou). Ich cieľom je zistiť, či sa
rozptyl rezíduí mení v závislosti od hodnôt týchto premenných – teda či
sa v modeli prejavuje heteroskedasticita.
Rezíduá² vs Tlak
Väčšina bodov sa sústreďuje v spodnej časti grafu, prevažne medzi
hodnotami 0 až 2 na osi Y.
Červená čiara je len mierne zvlnená – na niektorých miestach sa
nepatrne dvíha a opäť klesá, no celkovo zostáva pomerne rovná.
Takýto priebeh naznačuje, že rozptyl rezíduí je relatívne
stabilný a výrazná heteroskedasticita sa neprejavuje.
Rezíduá² vs Vlhkosť
Body sú rozložené pomerne rovnomerne, väčšina z nich sa nachádza
v spodnej časti grafu.
Červená čiara je takmer rovná, bez výrazného zakrivenia, čo
svedčí o konštantnom rozptyle rezíduí.
Niekoľko bodov sa síce odchyľuje smerom nahor, ale tieto odchýlky
sú minimálne a nemajú zásadný vplyv na stabilitu rozptylu.
Na základe týchto grafov môžeme konštatovať, že model nevykazuje
výrazné známky heteroskedasticity – rozptyl chýb je relatívne konštantný
naprieč rôznymi hodnotami tlaku aj vlhkosti.
Breusch-Pagan test na heteroskedasticitu
Tento test sa používa na formálne overenie, či je rozptyl rezíduí
konštantný (homoskedasticita), alebo sa mení v závislosti od hodnôt
nezávislých premenných (heteroskedasticita).
studentized Breusch-Pagan test
data: model
BP = 248.6, df = 8, p-value < 2.2e-16
Keďže p-hodnota je výrazne menšia ako 0.05, zamietame nulovú hypotézu
o homoskedasticite. To znamená, že rozptyl rezíduí nie je konštantný a v
modeli sa vyskytuje heteroskedasticita.
Aj napriek tomu, že vizuálna kontrola grafov neukázala výrazné
porušenie predpokladov, štatistický test potvrdzuje, že variabilita
rezíduí sa mení v závislosti od niektorých premenných.
Model nespĺňa predpoklad konštantného rozptylu chýb. Tento problém
môžeme riešiť napríklad použitím robustných štandardných chýb, ktoré
korigujú dôsledky heteroskedasticity bez nutnosti meniť samotný
model.
library(lmtest)
library(sandwich)
Výpočet robustných štandardných chýb
robust_summary <- coeftest(model, vcov = vcovHC(model, type = "HC1"))
robust_summary
t test of coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.4907281 1.3517456 -1.1028 0.270179
BASEL_cloud_cover 0.0432057 0.0075177 5.7472 9.816e-09 ***
BASEL_humidity -1.5087434 0.1343456 -11.2303 < 2.2e-16 ***
BASEL_pressure 2.3454082 1.3187298 1.7785 0.075399 .
BASEL_global_radiation 0.0907036 0.0290459 3.1228 0.001806 **
BASEL_precipitation -0.0281202 0.0231747 -1.2134 0.225057
BASEL_sunshine 0.0072004 0.0065787 1.0945 0.273805
BASEL_temp_min 0.4981170 0.0055186 90.2609 < 2.2e-16 ***
BASEL_temp_max 0.4754666 0.0051496 92.3314 < 2.2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Z tabuľky výsledkov vyplýva:
Koeficienty odhadnuté pôvodným modelom sa nemenia, takže veľkosť
a smer vplyvu jednotlivých premenných zostávajú rovnaké,
Štandardné chyby sa mierne upravili, čo ovplyvnilo hodnoty t a
p-hodnoty.
Najsilnejšie a štatisticky významné premenné zostávajú:
Minimálna a maximálna teplota (p < 2.2e-16, extrémne vysoké
t-hodnoty),
Vlhkosť (p < 2.2e-16, negatívny efekt),
Oblačnosť a globálne žiarenie (p < 0.01).
Premenné ako tlak, zrážky a slnečný svit sa stále neprejavili ako
významné, hoci tlak je teraz mierne bližšie k hranici významnosti (p =
0.075).
Použitie robustných štandardných chýb zabezpečilo spoľahlivejšiu
interpretáciu modelu aj napriek prítomnosti heteroskedasticity. Model
naďalej vysvetľuje väčšinu variability strednej teploty a dôležité
vzťahy medzi premennými sú jasne identifikovateľné.
