knitr::opts_chunk$set(
echo = TRUE,
message = FALSE,
warning = FALSE
)
Moja vybraná databáza
Pre spracovanie som si vybrala databázu European
Cities Weather Prediction Dataset z Kaggle.
Databáza obsahuje historické údaje o počasí z európskych miest. Každý
záznam obsahuje dátum merania a rôzne meteorologické parametre. Údaje sú
zoradené chronologicky podľa dátumu, čo umožňuje sledovať zmeny teploty
v priebehu času.
Táto databáza je vhodná na vizualizáciu, tvorbu grafov a výpočet
základných štatistík, ktoré ukazujú vývoj teploty v európskych mestách.
Plánujem ju využiť na ďalšie spracovanie a analýzu trendov teploty v
Európských mestach.
# Načítanie knižníc
library(tidyverse)
library(lubridate)
library(corrplot)
library(ggplot2)
library(kableExtra)
library(htmltools)
Načítame databázu
udaje <- read_csv("weather_prediction_dataset.csv")
Vyberieme len potrebné stĺpce
udaje_vybrane <- udaje %>%
select(DATE, BASEL_temp_mean, BUDAPEST_temp_mean, DUSSELDORF_temp_mean)
Zobrazenie prvých 10 riadkov
# Prevod čísla YYYYMMDD na Date
udaje_vybrane$DATE <- as.Date(as.character(udaje_vybrane$DATE), format="%Y%m%d")
head(udaje_vybrane$DATE)
[1] "2000-01-01" "2000-01-02" "2000-01-03" "2000-01-04" "2000-01-05" "2000-01-06"
head(udaje_vybrane, 10) %>%
kable(
caption = "Ukážka prvých 10 riadkov vybraných teplôt európskych miest",
col.names = c("Dátum", "Basel (°C)", "Budapešť (°C)", "Düsseldorf (°C)")
) %>%
kable_styling(
full_width = FALSE,
bootstrap_options = c("striped", "hover", "condensed")
)
Ukážka prvých 10 riadkov vybraných teplôt európskych miest
| Dátum |
Basel (°C) |
Budapešť (°C) |
Düsseldorf (°C) |
| 2000-01-01 |
2.9 |
-4.9 |
4.2 |
| 2000-01-02 |
3.6 |
-3.6 |
6.5 |
| 2000-01-03 |
2.2 |
-0.8 |
7.7 |
| 2000-01-04 |
3.9 |
-1.0 |
7.8 |
| 2000-01-05 |
6.0 |
0.2 |
5.2 |
| 2000-01-06 |
4.2 |
-0.9 |
7.6 |
| 2000-01-07 |
4.7 |
-2.8 |
6.6 |
| 2000-01-08 |
5.6 |
-1.2 |
6.6 |
| 2000-01-09 |
4.6 |
-1.4 |
2.5 |
| 2000-01-10 |
2.4 |
0.0 |
1.1 |
Výpočet základných štatistík
Nižšie ukážem základné štatistické charakteristiky priemernej teploty
pre tri vybrané mestá – Basel, Budapešť a Düsseldorf vo forme troch
tabuliek umiestnených vedľa seba.
# Štatistika Basel
s_basel <- udaje_vybrane %>%
summarise(
Priemer = mean(BASEL_temp_mean, na.rm = TRUE),
Minimum = min(BASEL_temp_mean, na.rm = TRUE),
Maximum = max(BASEL_temp_mean, na.rm = TRUE)
)
# ️Štatistika Budapešť
s_budapest <- udaje_vybrane %>%
summarise(
Priemer = mean(BUDAPEST_temp_mean, na.rm = TRUE),
Minimum = min(BUDAPEST_temp_mean, na.rm = TRUE),
Maximum = max(BUDAPEST_temp_mean, na.rm = TRUE)
)
# Štatistika Düsseldorf
s_dusseldorf <- udaje_vybrane %>%
summarise(
Priemer = mean(DUSSELDORF_temp_mean, na.rm = TRUE),
Minimum = min(DUSSELDORF_temp_mean, na.rm = TRUE),
Maximum = max(DUSSELDORF_temp_mean, na.rm = TRUE)
)
b_tab <- s_basel %>%
kable(caption = "Základné štatistiky - Basel") %>%
kable_styling(full_width = FALSE, bootstrap_options = c("striped", "hover")) %>%
as.character()
bp_tab <- s_budapest %>%
kable(caption = "Základné štatistiky - Budapešť") %>%
kable_styling(full_width = FALSE, bootstrap_options = c("striped", "hover")) %>%
as.character()
d_tab <- s_dusseldorf %>%
kable(caption = "Základné štatistiky - Düsseldorf") %>%
kable_styling(full_width = FALSE, bootstrap_options = c("striped", "hover")) %>%
as.character()
browsable(
tags$div(style="display:flex; gap:20px; align-items:flex-start;",
HTML(b_tab),
HTML(bp_tab),
HTML(d_tab)
)
)
Základné štatistiky - Basel
| Priemer |
Minimum |
Maximum |
| 11.0228 |
-9.3 |
29 |
Základné štatistiky - Budapešť
| Priemer |
Minimum |
Maximum |
| 12.17485 |
-9.8 |
33.1 |
Základné štatistiky - Düsseldorf
| Priemer |
Minimum |
Maximum |
| 11.14201 |
-11.1 |
29.2 |
Vývoj priemernej teploty v troch mestách
udaje_long <- udaje_vybrane %>%
pivot_longer(
cols = c(BASEL_temp_mean, BUDAPEST_temp_mean, DUSSELDORF_temp_mean),
names_to = "Mesto",
values_to = "Priemerna_teplota"
)
udaje_long$Mesto <- recode(udaje_long$Mesto,
"BASEL_temp_mean" = "Basel",
"BUDAPEST_temp_mean" = "Budapešť",
"DUSSELDORF_temp_mean" = "Düsseldorf")
ggplot(udaje_long, aes(x = DATE, y = Priemerna_teplota, color = Mesto)) +
geom_line(size = 1) +
theme_minimal() +
labs(
title = "Vývoj priemernej teploty v troch mestách",
x = "Dátum",
y = "Priemerná teplota (°C)",
color = "Mesto"
) +
scale_color_manual(values = c("Basel" = "blue", "Budapešť" = "red", "Düsseldorf" = "yellow"))

Tu zobrazený graf vývoja priemernej dennej teploty v troch vybraných
mestách – Basel, Budapešť a Düsseldorf – za obdobie, pre ktoré sú k
dispozícii merania v databáze.
Každé mesto je reprezentované samostatnou farebnou čiarou, čo
umožňuje prehľadné porovnanie teplotných trendov a zmien v čase.
Priemerná a extrémna denná teplota v Düsseldorfe
dusseldorf <- udaje %>%
select(DATE, DUSSELDORF_temp_min, DUSSELDORF_temp_mean, DUSSELDORF_temp_max) %>%
mutate(DATE = as.Date(as.character(DATE), format="%Y%m%d"))
dusseldorf_points <- dusseldorf %>%
filter(row_number() %% 30 == 1)
ggplot(dusseldorf, aes(x = DATE)) +
geom_line(aes(y = DUSSELDORF_temp_mean), color="lightgreen", size=1) +
geom_point(data = dusseldorf_points, aes(y = DUSSELDORF_temp_min), color="darkgreen", size=1.5) +
geom_point(data = dusseldorf_points, aes(y = DUSSELDORF_temp_max), color="red", size=1.5) +
theme_minimal() +
labs(
title = "Priemerná a extrémna denná teplota v Düsseldorfe",
x = "Dátum",
y = "Teplota (°C)"
)

Tento graf zobrazuje priemernú dennú teplotu v Düsseldorfe spolu s
minimálnymi a maximálnymi hodnotami.
Svetlozelená čiara ukazuje priemernú teplotu a body označujú extrémy
iba raz za 30 dní.
Takáto vizualizácia umožňuje prehľadnejšie sledovanie trendov a
variabilitu teploty v čase bez zahltenia grafu príliš veľkým množstvom
bodov.
Korelačná matica - Budapešť
budapest_data <- udaje %>%
select(BUDAPEST_temp_max, BUDAPEST_humidity, BUDAPEST_pressure,
BUDAPEST_sunshine, BUDAPEST_global_radiation, BUDAPEST_precipitation,
)
cor_matrix_budapest <- cor(budapest_data, use = "complete.obs")
library(corrplot)
corrplot(cor_matrix_budapest, method = "color", type = "upper",
tl.col = "black", tl.srt = 45, addCoef.col = "black",
title = "Korelačná matica - Budapešť", mar = c(0,0,2,0))

Korelačná matica zobrazuje vzťahy medzi vybranými meteorologickými
premennými v meste Budapešť: maximálnou teplotou vzduchu, vlhkosťou,
tlakom, slnečným svitom, globálnou radiáciou a množstvom zrážok. Medzi
jednotlivými premennými možno pozorovať niekoľko výrazných
korelácií:
Maximálna teplota (BUDAPEST_temp_max) má silnú pozitívnu koreláciu so
slnečným svitom (r = 0.65) a globálnou radiáciou (r = 0.79). To znamená,
že s rastúcim množstvom slnečného žiarenia a dĺžkou slnečného svitu
rastie aj teplota.
Medzi teplotou a vlhkosťou sa nachádza negatívna korelácia (r =
-0.55), čo naznačuje, že počas vlhkých dní bývajú teploty spravidla
nižšie.
Tlak vzduchu vykazuje len slabé vzťahy s ostatnými premennými
(hodnoty okolo 0.1–0.2), čo znamená, že tlak má na dennú teplotu a
ostatné ukazovatele iba malý vplyv.
Slnečný svit a globálna radiácia sú medzi sebou veľmi silno pozitívne
korelované (r = 0.89), čo je očakávané, keďže oba faktory súvisia s
intenzitou slnečného žiarenia.
Zrážky (BUDAPEST_precipitation) majú slabé až mierne negatívne
korelácie s väčšinou ostatných ukazovateľov (napr. s teplotou r = -0.01,
s radiáciou r = -0.16), čo potvrdzuje, že počas daždivých dní býva menej
slnka a teploty sú nižšie.
Celkovo matica potvrdzuje očakávané vzťahy medzi meteorologickými
ukazovateľmi – vyššie teploty sú spojené s vyššou intenzitou slnečného
žiarenia, zatiaľ čo zvýšená vlhkosť a zrážky prispievajú k ich
poklesu.
---
title: "Úloha_3-4"
author: "Bc. Krystyna Vasylyna"
date: "Oktober 2025"
output:
  html_notebook:
    toc: true
    toc_float: true
    theme: united
    highlight: tango
  pdf_document:
    toc: true
  html_document:
    toc: true
    df_print: paged
editor_options:
  markdown:
    wrap: 72
---
```{r}
knitr::opts_chunk$set(
    echo = TRUE,
    message = FALSE,
    warning = FALSE
)
```

## Moja vybraná databáza

Pre spracovanie som si vybrala databázu 
[European Cities Weather Prediction Dataset](https://www.kaggle.com/datasets/orvile/european-cities-weather-prediction-dataset/data) z Kaggle. 

Databáza obsahuje historické údaje o počasí z európskych miest. 
Každý záznam obsahuje dátum merania a rôzne meteorologické parametre.
Údaje sú zoradené chronologicky podľa dátumu, čo umožňuje sledovať zmeny teploty v priebehu času.

Táto databáza je vhodná na vizualizáciu, tvorbu grafov a výpočet základných štatistík, ktoré ukazujú vývoj teploty v európskych mestách. 
Plánujem ju využiť na ďalšie spracovanie a analýzu trendov teploty v Európských mestach.

```{r}
# Načítanie knižníc

library(tidyverse)
library(lubridate)
library(corrplot)
library(ggplot2)
library(kableExtra)
library(htmltools)
```

## Načítame databázu

```{r}
udaje <- read_csv("weather_prediction_dataset.csv")
```

### Vyberieme len potrebné stĺpce

```{r}
udaje_vybrane <- udaje %>%
  select(DATE, BASEL_temp_mean, BUDAPEST_temp_mean, DUSSELDORF_temp_mean)
```

### Zobrazenie prvých 10 riadkov

```{r}
# Prevod čísla YYYYMMDD na Date
udaje_vybrane$DATE <- as.Date(as.character(udaje_vybrane$DATE), format="%Y%m%d")
head(udaje_vybrane$DATE)
head(udaje_vybrane, 10) %>%
  kable(
    caption = "Ukážka prvých 10 riadkov vybraných teplôt európskych miest",
    col.names = c("Dátum", "Basel (°C)", "Budapešť (°C)", "Düsseldorf (°C)")
  ) %>%
  kable_styling(
    full_width = FALSE,
    bootstrap_options = c("striped", "hover", "condensed")
  )
```

## Výpočet základných štatistík

Nižšie ukážem základné štatistické charakteristiky priemernej teploty pre tri vybrané mestá – Basel, Budapešť a Düsseldorf vo forme troch tabuliek umiestnených vedľa seba.

```{r}
# Štatistika Basel
s_basel <- udaje_vybrane %>%
summarise(
   Priemer = mean(BASEL_temp_mean, na.rm = TRUE),
   Minimum = min(BASEL_temp_mean, na.rm = TRUE),
   Maximum = max(BASEL_temp_mean, na.rm = TRUE)
)
 
# ️Štatistika Budapešť
s_budapest <- udaje_vybrane %>%
summarise(
   Priemer = mean(BUDAPEST_temp_mean, na.rm = TRUE),
   Minimum = min(BUDAPEST_temp_mean, na.rm = TRUE),
   Maximum = max(BUDAPEST_temp_mean, na.rm = TRUE)
)
# Štatistika Düsseldorf
s_dusseldorf <- udaje_vybrane %>%
summarise(
   Priemer = mean(DUSSELDORF_temp_mean, na.rm = TRUE),
   Minimum = min(DUSSELDORF_temp_mean, na.rm = TRUE),
   Maximum = max(DUSSELDORF_temp_mean, na.rm = TRUE)
)
 
b_tab <- s_basel %>%
kable(caption = "Základné štatistiky - Basel") %>%
kable_styling(full_width = FALSE, bootstrap_options = c("striped", "hover")) %>%
as.character() 
bp_tab <- s_budapest %>%
kable(caption = "Základné štatistiky - Budapešť") %>%
kable_styling(full_width = FALSE, bootstrap_options = c("striped", "hover")) %>%
as.character()
d_tab <- s_dusseldorf %>%
kable(caption = "Základné štatistiky - Düsseldorf") %>%
kable_styling(full_width = FALSE, bootstrap_options = c("striped", "hover")) %>%
as.character()
 
browsable(
tags$div(style="display:flex; gap:20px; align-items:flex-start;",
          HTML(b_tab),
          HTML(bp_tab),
          HTML(d_tab)
)
)
```

## Vývoj priemernej teploty v troch mestách

```{r}

udaje_long <- udaje_vybrane %>%
  pivot_longer(
    cols = c(BASEL_temp_mean, BUDAPEST_temp_mean, DUSSELDORF_temp_mean),
    names_to = "Mesto",
    values_to = "Priemerna_teplota"
  )

udaje_long$Mesto <- recode(udaje_long$Mesto,
                           "BASEL_temp_mean" = "Basel",
                           "BUDAPEST_temp_mean" = "Budapešť",
                           "DUSSELDORF_temp_mean" = "Düsseldorf")

ggplot(udaje_long, aes(x = DATE, y = Priemerna_teplota, color = Mesto)) +
  geom_line(size = 1) +
  theme_minimal() +
  labs(
    title = "Vývoj priemernej teploty v troch mestách",
    x = "Dátum",
    y = "Priemerná teplota (°C)",
    color = "Mesto"
  ) +
scale_color_manual(values = c("Basel" = "blue", "Budapešť" = "red", "Düsseldorf" = "yellow"))
```
Tu zobrazený graf vývoja priemernej dennej teploty v troch vybraných mestách – Basel, Budapešť a Düsseldorf – za obdobie, pre ktoré sú k dispozícii merania v databáze. 

Každé mesto je reprezentované samostatnou farebnou čiarou, čo umožňuje prehľadné porovnanie teplotných trendov a zmien v čase.

## Priemerná a extrémna denná teplota v Düsseldorfe

```{r}
dusseldorf <- udaje %>%
  select(DATE, DUSSELDORF_temp_min, DUSSELDORF_temp_mean, DUSSELDORF_temp_max) %>%
  mutate(DATE = as.Date(as.character(DATE), format="%Y%m%d"))

dusseldorf_points <- dusseldorf %>%
  filter(row_number() %% 30 == 1)

ggplot(dusseldorf, aes(x = DATE)) +
  geom_line(aes(y = DUSSELDORF_temp_mean), color="lightgreen", size=1) +
  geom_point(data = dusseldorf_points, aes(y = DUSSELDORF_temp_min), color="darkgreen", size=1.5) +
  geom_point(data = dusseldorf_points, aes(y = DUSSELDORF_temp_max), color="red", size=1.5) +
  theme_minimal() +
  labs(
    title = "Priemerná a extrémna denná teplota v Düsseldorfe",
    x = "Dátum",
    y = "Teplota (°C)"
  )
```

Tento graf zobrazuje priemernú dennú teplotu v Düsseldorfe spolu s minimálnymi a maximálnymi hodnotami. 

Svetlozelená čiara ukazuje priemernú teplotu a body označujú extrémy iba raz za 30 dní. 

Takáto vizualizácia umožňuje prehľadnejšie sledovanie trendov a variabilitu teploty v čase bez zahltenia grafu príliš veľkým množstvom bodov.

## Korelačná matica - Budapešť

```{r}
budapest_data <- udaje %>%
  select(BUDAPEST_temp_max, BUDAPEST_humidity, BUDAPEST_pressure, 
         BUDAPEST_sunshine, BUDAPEST_global_radiation, BUDAPEST_precipitation, 
         )

cor_matrix_budapest <- cor(budapest_data, use = "complete.obs")

library(corrplot)
corrplot(cor_matrix_budapest, method = "color", type = "upper", 
         tl.col = "black", tl.srt = 45, addCoef.col = "black",
         title = "Korelačná matica - Budapešť", mar = c(0,0,2,0))
```
Korelačná matica zobrazuje vzťahy medzi vybranými meteorologickými premennými v meste Budapešť: maximálnou teplotou vzduchu, vlhkosťou, tlakom, slnečným svitom, globálnou radiáciou a množstvom zrážok.
Medzi jednotlivými premennými možno pozorovať niekoľko výrazných korelácií:

Maximálna teplota (BUDAPEST_temp_max) má silnú pozitívnu koreláciu so slnečným svitom (r = 0.65) a globálnou radiáciou (r = 0.79). To znamená, že s rastúcim množstvom slnečného žiarenia a dĺžkou slnečného svitu rastie aj teplota.

Medzi teplotou a vlhkosťou sa nachádza negatívna korelácia (r = -0.55), čo naznačuje, že počas vlhkých dní bývajú teploty spravidla nižšie.

Tlak vzduchu vykazuje len slabé vzťahy s ostatnými premennými (hodnoty okolo 0.1–0.2), čo znamená, že tlak má na dennú teplotu a ostatné ukazovatele iba malý vplyv.

Slnečný svit a globálna radiácia sú medzi sebou veľmi silno pozitívne korelované (r = 0.89), čo je očakávané, keďže oba faktory súvisia s intenzitou slnečného žiarenia.

Zrážky (BUDAPEST_precipitation) majú slabé až mierne negatívne korelácie s väčšinou ostatných ukazovateľov (napr. s teplotou r = -0.01, s radiáciou r = -0.16), čo potvrdzuje, že počas daždivých dní býva menej slnka a teploty sú nižšie.

Celkovo matica potvrdzuje očakávané vzťahy medzi meteorologickými ukazovateľmi – vyššie teploty sú spojené s vyššou intenzitou slnečného žiarenia, zatiaľ čo zvýšená vlhkosť a zrážky prispievajú k ich poklesu.