knitr::opts_chunk$set(
    echo = TRUE,
    message = FALSE,
    warning = FALSE
)

Moja vybraná databáza

Pre spracovanie som si vybrala databázu European Cities Weather Prediction Dataset z Kaggle.

Databáza obsahuje historické údaje o počasí z európskych miest. Každý záznam obsahuje dátum merania a rôzne meteorologické parametre. Údaje sú zoradené chronologicky podľa dátumu, čo umožňuje sledovať zmeny teploty v priebehu času.

Táto databáza je vhodná na vizualizáciu, tvorbu grafov a výpočet základných štatistík, ktoré ukazujú vývoj teploty v európskych mestách. Plánujem ju využiť na ďalšie spracovanie a analýzu trendov teploty v Európských mestach.

# Načítanie knižníc
library(tidyverse)
library(lubridate)
library(corrplot)
library(ggplot2)
library(kableExtra)
library(htmltools)

Načítame databázu

udaje <- read_csv("weather_prediction_dataset.csv")

Vyberieme len potrebné stĺpce

udaje_vybrane <- udaje %>%
  select(DATE, BASEL_temp_mean, BUDAPEST_temp_mean, DUSSELDORF_temp_mean)

Zobrazenie prvých 10 riadkov

# Prevod čísla YYYYMMDD na Date
udaje_vybrane$DATE <- as.Date(as.character(udaje_vybrane$DATE), format="%Y%m%d")
head(udaje_vybrane$DATE)
[1] "2000-01-01" "2000-01-02" "2000-01-03" "2000-01-04" "2000-01-05" "2000-01-06"
head(udaje_vybrane, 10) %>%
  kable(
    caption = "Ukážka prvých 10 riadkov vybraných teplôt európskych miest",
    col.names = c("Dátum", "Basel (°C)", "Budapešť (°C)", "Düsseldorf (°C)")
  ) %>%
  kable_styling(
    full_width = FALSE,
    bootstrap_options = c("striped", "hover", "condensed")
  )
Ukážka prvých 10 riadkov vybraných teplôt európskych miest
Dátum Basel (°C) Budapešť (°C) Düsseldorf (°C)
2000-01-01 2.9 -4.9 4.2
2000-01-02 3.6 -3.6 6.5
2000-01-03 2.2 -0.8 7.7
2000-01-04 3.9 -1.0 7.8
2000-01-05 6.0 0.2 5.2
2000-01-06 4.2 -0.9 7.6
2000-01-07 4.7 -2.8 6.6
2000-01-08 5.6 -1.2 6.6
2000-01-09 4.6 -1.4 2.5
2000-01-10 2.4 0.0 1.1

Výpočet základných štatistík

Nižšie ukážem základné štatistické charakteristiky priemernej teploty pre tri vybrané mestá – Basel, Budapešť a Düsseldorf vo forme troch tabuliek umiestnených vedľa seba.

# Štatistika Basel
s_basel <- udaje_vybrane %>%
summarise(
   Priemer = mean(BASEL_temp_mean, na.rm = TRUE),
   Minimum = min(BASEL_temp_mean, na.rm = TRUE),
   Maximum = max(BASEL_temp_mean, na.rm = TRUE)
)
 
# ️Štatistika Budapešť
s_budapest <- udaje_vybrane %>%
summarise(
   Priemer = mean(BUDAPEST_temp_mean, na.rm = TRUE),
   Minimum = min(BUDAPEST_temp_mean, na.rm = TRUE),
   Maximum = max(BUDAPEST_temp_mean, na.rm = TRUE)
)
# Štatistika Düsseldorf
s_dusseldorf <- udaje_vybrane %>%
summarise(
   Priemer = mean(DUSSELDORF_temp_mean, na.rm = TRUE),
   Minimum = min(DUSSELDORF_temp_mean, na.rm = TRUE),
   Maximum = max(DUSSELDORF_temp_mean, na.rm = TRUE)
)
 
b_tab <- s_basel %>%
kable(caption = "Základné štatistiky - Basel") %>%
kable_styling(full_width = FALSE, bootstrap_options = c("striped", "hover")) %>%
as.character() 
bp_tab <- s_budapest %>%
kable(caption = "Základné štatistiky - Budapešť") %>%
kable_styling(full_width = FALSE, bootstrap_options = c("striped", "hover")) %>%
as.character()
d_tab <- s_dusseldorf %>%
kable(caption = "Základné štatistiky - Düsseldorf") %>%
kable_styling(full_width = FALSE, bootstrap_options = c("striped", "hover")) %>%
as.character()
 
browsable(
tags$div(style="display:flex; gap:20px; align-items:flex-start;",
          HTML(b_tab),
          HTML(bp_tab),
          HTML(d_tab)
)
)
Základné štatistiky - Basel
Priemer Minimum Maximum
11.0228 -9.3 29
Základné štatistiky - Budapešť
Priemer Minimum Maximum
12.17485 -9.8 33.1
Základné štatistiky - Düsseldorf
Priemer Minimum Maximum
11.14201 -11.1 29.2

Vývoj priemernej teploty v troch mestách


udaje_long <- udaje_vybrane %>%
  pivot_longer(
    cols = c(BASEL_temp_mean, BUDAPEST_temp_mean, DUSSELDORF_temp_mean),
    names_to = "Mesto",
    values_to = "Priemerna_teplota"
  )

udaje_long$Mesto <- recode(udaje_long$Mesto,
                           "BASEL_temp_mean" = "Basel",
                           "BUDAPEST_temp_mean" = "Budapešť",
                           "DUSSELDORF_temp_mean" = "Düsseldorf")

ggplot(udaje_long, aes(x = DATE, y = Priemerna_teplota, color = Mesto)) +
  geom_line(size = 1) +
  theme_minimal() +
  labs(
    title = "Vývoj priemernej teploty v troch mestách",
    x = "Dátum",
    y = "Priemerná teplota (°C)",
    color = "Mesto"
  ) +
scale_color_manual(values = c("Basel" = "blue", "Budapešť" = "red", "Düsseldorf" = "yellow"))

Tu zobrazený graf vývoja priemernej dennej teploty v troch vybraných mestách – Basel, Budapešť a Düsseldorf – za obdobie, pre ktoré sú k dispozícii merania v databáze.

Každé mesto je reprezentované samostatnou farebnou čiarou, čo umožňuje prehľadné porovnanie teplotných trendov a zmien v čase.

Priemerná a extrémna denná teplota v Düsseldorfe

dusseldorf <- udaje %>%
  select(DATE, DUSSELDORF_temp_min, DUSSELDORF_temp_mean, DUSSELDORF_temp_max) %>%
  mutate(DATE = as.Date(as.character(DATE), format="%Y%m%d"))

dusseldorf_points <- dusseldorf %>%
  filter(row_number() %% 30 == 1)

ggplot(dusseldorf, aes(x = DATE)) +
  geom_line(aes(y = DUSSELDORF_temp_mean), color="lightgreen", size=1) +
  geom_point(data = dusseldorf_points, aes(y = DUSSELDORF_temp_min), color="darkgreen", size=1.5) +
  geom_point(data = dusseldorf_points, aes(y = DUSSELDORF_temp_max), color="red", size=1.5) +
  theme_minimal() +
  labs(
    title = "Priemerná a extrémna denná teplota v Düsseldorfe",
    x = "Dátum",
    y = "Teplota (°C)"
  )

Tento graf zobrazuje priemernú dennú teplotu v Düsseldorfe spolu s minimálnymi a maximálnymi hodnotami.

Svetlozelená čiara ukazuje priemernú teplotu a body označujú extrémy iba raz za 30 dní.

Takáto vizualizácia umožňuje prehľadnejšie sledovanie trendov a variabilitu teploty v čase bez zahltenia grafu príliš veľkým množstvom bodov.

Korelačná matica - Budapešť

budapest_data <- udaje %>%
  select(BUDAPEST_temp_max, BUDAPEST_humidity, BUDAPEST_pressure, 
         BUDAPEST_sunshine, BUDAPEST_global_radiation, BUDAPEST_precipitation, 
         )

cor_matrix_budapest <- cor(budapest_data, use = "complete.obs")

library(corrplot)
corrplot(cor_matrix_budapest, method = "color", type = "upper", 
         tl.col = "black", tl.srt = 45, addCoef.col = "black",
         title = "Korelačná matica - Budapešť", mar = c(0,0,2,0))

Korelačná matica zobrazuje vzťahy medzi vybranými meteorologickými premennými v meste Budapešť: maximálnou teplotou vzduchu, vlhkosťou, tlakom, slnečným svitom, globálnou radiáciou a množstvom zrážok. Medzi jednotlivými premennými možno pozorovať niekoľko výrazných korelácií:

Maximálna teplota (BUDAPEST_temp_max) má silnú pozitívnu koreláciu so slnečným svitom (r = 0.65) a globálnou radiáciou (r = 0.79). To znamená, že s rastúcim množstvom slnečného žiarenia a dĺžkou slnečného svitu rastie aj teplota.

Medzi teplotou a vlhkosťou sa nachádza negatívna korelácia (r = -0.55), čo naznačuje, že počas vlhkých dní bývajú teploty spravidla nižšie.

Tlak vzduchu vykazuje len slabé vzťahy s ostatnými premennými (hodnoty okolo 0.1–0.2), čo znamená, že tlak má na dennú teplotu a ostatné ukazovatele iba malý vplyv.

Slnečný svit a globálna radiácia sú medzi sebou veľmi silno pozitívne korelované (r = 0.89), čo je očakávané, keďže oba faktory súvisia s intenzitou slnečného žiarenia.

Zrážky (BUDAPEST_precipitation) majú slabé až mierne negatívne korelácie s väčšinou ostatných ukazovateľov (napr. s teplotou r = -0.01, s radiáciou r = -0.16), čo potvrdzuje, že počas daždivých dní býva menej slnka a teploty sú nižšie.

Celkovo matica potvrdzuje očakávané vzťahy medzi meteorologickými ukazovateľmi – vyššie teploty sú spojené s vyššou intenzitou slnečného žiarenia, zatiaľ čo zvýšená vlhkosť a zrážky prispievajú k ich poklesu.

