Analýza teplôt vybraných miest - rok 2000

Úvod

Predkladaná analýza sa zameriava na skúmanie teplotných údajov 9 vybraných európskych miest za rok 2000. Sledované premenné zahŕňajú priemernú, maximálnu a minimálnu teplotu, ktoré charakterizujú teplotné pomery jednotlivých miest.

Cieľom analýzy je identifikovať teplotné rozdiely medzi mestami, porovnať ich teplotné profily a zoskupiť mestá podľa podobnosti teplotných podmienok.

Načítanie knižníc a príprava údajov

library(tidyverse)
library(ggplot2)
library(dplyr)
library(cluster)
library(factoextra)

# Načítanie údajov
df <- read.csv("weather_prediction_dataset.csv")

# Transformácia stĺpca DATE na dátum
df$DATE <- as.Date(as.character(df$DATE), format = "%Y%m%d")

# Výber údajov len za rok 2000
df_2000 <- df %>%
  filter(format(DATE, "%Y") == "2000")

# Výber 9 miest (bez Budapešti)
vybrate_mesta <- c('BASEL', 'DE_BILT', 'DRESDEN', 'HEATHROW', 
                   'MUENCHEN', 'OSLO', 'ROMA', 'STOCKHOLM', 'TOURS')

Priemer za rok pre každé mesto

Na základe údajov za rok 2000 sme vypočítali priemerné hodnoty teplotných ukazovateľov pre jednotlivé mestá.

# Získanie všetkých teplotných stĺpcov pre vybrané mestá
teplotne_stlpce <- character()
for(mesto in vybrate_mesta) {
  teplotne_stlpce <- c(teplotne_stlpce, 
                       grep(paste0(mesto, "_temp_"), names(df_2000), value = TRUE))
}

# Výber iba teplotných údajov
df_teploty <- df_2000[, c("DATE", "MONTH", teplotne_stlpce)]

# Výpočet priemerných hodnôt pre každé mesto
priemerne_teploty <- df_teploty %>%
  summarise(across(contains("_temp_mean"), ~ round(mean(., na.rm = TRUE), 2))) %>%
  pivot_longer(everything(), names_to = "Mesto", values_to = "Priemerna_teplota") %>%
  mutate(Mesto = str_remove(Mesto, "_temp_mean")) %>%
  arrange(desc(Priemerna_teplota))

maximalne_teploty <- df_teploty %>%
  summarise(across(contains("_temp_max"), ~ round(mean(., na.rm = TRUE), 2))) %>%
  pivot_longer(everything(), names_to = "Mesto", values_to = "Maximalna_teplota") %>%
  mutate(Mesto = str_remove(Mesto, "_temp_max"))

minimalne_teploty <- df_teploty %>%
  summarise(across(contains("_temp_min"), ~ round(mean(., na.rm = TRUE), 2))) %>%
  pivot_longer(everything(), names_to = "Mesto", values_to = "Minimalna_teplota") %>%
  mutate(Mesto = str_remove(Mesto, "_temp_min"))

# Spojenie všetkých údajov
data_mesta <- priemerne_teploty %>%
  left_join(maximalne_teploty, by = "Mesto") %>%
  left_join(minimalne_teploty, by = "Mesto")

print(data_mesta)

Analýza priemerov ukazuje, že Roma má najvyššie priemerné, maximálne aj minimálne teploty, zatiaľ čo Oslo má najnižšie hodnoty vo všetkých troch kategóriách.

Korelačná matica

Korelačná matica vypočítaná pre teplotné ukazovatele ukazuje vzťahy medzi nimi.

# Výber iba priemerných teplôt pre koreláciu
teplotne_data <- df_teploty %>%
  select(contains('_temp_mean'))

# Výpočet korelačnej matice
cor_matrix <- cor(teplotne_data, use = "complete.obs")
cor_matrix_rounded <- round(cor_matrix, 2)

# Pomenovanie riadkov a stĺpcov
mesta_nazvy <- str_remove(colnames(teplotne_data), "_temp_mean")
rownames(cor_matrix_rounded) <- mesta_nazvy
colnames(cor_matrix_rounded) <- mesta_nazvy

print(cor_matrix_rounded)
          BASEL DE_BILT DRESDEN HEATHROW MUENCHEN OSLO ROMA STOCKHOLM TOURS
BASEL      1.00    0.92    0.93     0.89     0.97 0.85 0.88      0.85  0.92
DE_BILT    0.92    1.00    0.91     0.92     0.90 0.86 0.81      0.85  0.91
DRESDEN    0.93    0.91    1.00     0.84     0.96 0.86 0.84      0.87  0.85
HEATHROW   0.89    0.92    0.84     1.00     0.86 0.84 0.81      0.82  0.94
MUENCHEN   0.97    0.90    0.96     0.86     1.00 0.84 0.86      0.84  0.88
OSLO       0.85    0.86    0.86     0.84     0.84 1.00 0.85      0.95  0.83
ROMA       0.88    0.81    0.84     0.81     0.86 0.85 1.00      0.86  0.84
STOCKHOLM  0.85    0.85    0.87     0.82     0.84 0.95 0.86      1.00  0.83
TOURS      0.92    0.91    0.85     0.94     0.88 0.83 0.84      0.83  1.00

Z matice vyplýva, že teploty medzi mestami sú vysoko kladne korelované. Najvyššia korelácia je medzi MUENCHEN a BASEL (r = 0.97), čo naznačuje veľmi podobné teplotné trendy. Naopak, najnižšia korelácia je medzi ROMA a DE_BILT a ROMA a HEATHROW (r = 0.81), čo odráža rozdielne geografické polohy.

Matica vzdialenosti medzi mestami

Matica vzdialeností ukazuje, do akej miery sa teplotné profily miest navzájom líšia.

# Výpočet euklidovskej vzdialenosti
dist_matrix <- dist(t(teplotne_data), method = "euclidean")
dist_matrix <- as.matrix(dist_matrix)
dist_matrix_rounded <- round(dist_matrix, 2)

rownames(dist_matrix_rounded) <- mesta_nazvy
colnames(dist_matrix_rounded) <- mesta_nazvy

print(dist_matrix_rounded)
           BASEL DE_BILT DRESDEN HEATHROW MUENCHEN   OSLO   ROMA STOCKHOLM  TOURS
BASEL       0.00   52.74   56.86    57.21    42.23 102.87  97.71     92.97  48.77
DE_BILT    52.74    0.00   61.45    42.84    63.19  88.58 119.56     80.74  52.74
DRESDEN    56.86   61.45    0.00    80.73    40.92  88.36 126.13     78.54  81.05
HEATHROW   57.21   42.84   80.73     0.00    76.04 100.74 109.37     92.47  40.42
MUENCHEN   42.23   63.19   40.92    76.04     0.00  93.43 122.21     85.83  73.99
OSLO      102.87   88.58   88.36   100.74    93.43   0.00 168.71     42.12 111.55
ROMA       97.71  119.56  126.13   109.37   122.21 168.71   0.00    155.18  95.23
STOCKHOLM  92.97   80.74   78.54    92.47    85.83  42.12 155.18      0.00 101.64
TOURS      48.77   52.74   81.05    40.42    73.99 111.55  95.23    101.64   0.00

Najväčšia vzdialenosť je medzi Romou a Oslom (168.71), čo potvrdzuje výrazné teplotné rozdiely medzi týmito mestami. Naopak, najmenšia vzdialenosť je medzi HEATHROW a TOURS (40.42), čo naznačuje veľmi podobné teplotné podmienky.

Hierarchické zhlukovanie (Wardova metóda)

Na základe dendrogramu hierarchického zhlukovania možno pozorovať nasledujúce:

# Z-škálovanie údajov
data_scaled <- scale(teplotne_data)

# Hierarchické zhlukovanie
hc <- hclust(dist(t(data_scaled), method = "euclidean"), method = "ward.D2")

# Vizualizácia dendrogramu
plot(hc, labels = mesta_nazvy, main = "Hierarchické zhlukovanie teplôt - Wardova metóda (2000)", cex = 0.8)
rect.hclust(hc, k = 4, border = "red")

Príslušnosť miest do klastrov

clusters <- cutree(hc, k = 4)
city_data$cluster <- as.factor(clusters)

print(city_data[, c("Mesto", "cluster")])

Mestá sa rozdeľujú do 4 hlavných klastrov:

  • Klaster 1: BASEL, DRESDEN, MUENCHEN - stredoeurópske vnútrozemské mestá s kontinentálnym vplyvom

  • Klaster 2: DE_BILT, HEATHROW, TOURS - západoeurópske mestá s oceánskym a prímorským vplyvom

  • Klaster 3: OSLO, STOCKHOLM - severské mestá s chladnejším podnebím

  • Klaster 4: ROMA - jediné stredomorské mesto s výrazne teplejším podnebím

Deskriptívne štatistiky výsledkov

Vnútro- a medziklastrová variabilita

data_matrix <- as.matrix(teplotne_data)

# Celková variabilita (TSS)
celkova_stredna_hodnota <- mean(data_matrix)
tss <- sum((data_matrix - celkova_stredna_hodnota)^2)

# Vnútroklastrová variabilita (WSS)
wss <- 0
for(k in 1:4) {
  cluster_indices <- which(clusters == k)
  if(length(cluster_indices) > 0) {
    cluster_data <- data_matrix[, cluster_indices, drop = FALSE]
    cluster_stredna_hodnota <- mean(cluster_data)
    wss <- wss + sum((cluster_data - cluster_stredna_hodnota)^2)
  }
}

bss <- tss - wss
prop_between <- bss / tss

variabilita <- data.frame(
  Celkova_variancia = round(tss, 2),
  Vnutroklastrová_variancia = round(wss, 2),
  Medziklastrová_variancia = round(bss, 2),
  Podiel_medzi = round(prop_between, 3)
)

print(variabilita)

Na základe výsledkov môžeme konštatovať, že celková variabilita teplotných údajov je 149046.4. Z tejto celkovej variability je 14821.29 (9.9%) vysvetlených rozdelením miest do klastrov, zatiaľčo 134225.1 (90.1%) variability zostáva v rámci jednotlivých klastrov.

Podiel medziklastrovej variability 0.099 naznačuje, že zhlukovanie vysvetľuje približne 10% celkovej variability údajov. Táto hodnota je typická pre klimatologické údaje, kde mestá v rámci tej istej geografickej oblasti majú podobné teplotné trendy, no stále existujú výrazné rozdiely spôsobené lokálnymi vplyvmi, nadmorskou výškou a inými faktormi.

Relatívne nízka medziklastrová variabilita potvrdzuje, že európske mestá majú do určitej miery podobné teplotné profily, no identifikované klastre napriek tomu zachytávajú významné regionálne rozdiely v teplotných pomeroch.

Centroidy klastrov

# Vytvorenie kompletného data frame s klástrami
clusters <- cutree(hc, k = 4)

final_data <- data.frame(
  Mesto = c("BASEL", "DE_BILT", "DRESDEN", "HEATHROW", "MUENCHEN", "OSLO", "ROMA", "STOCKHOLM", "TOURS"),
  Klaster = as.factor(clusters)
) %>%
  left_join(data_mesta, by = "Mesto")

# Výpočet centroidov
centroids <- final_data %>%
  group_by(Klaster) %>%
  summarise(
    Pocet_miest = n(),
    Priemerna_teplota = round(mean(Priemerna_teplota), 2),
    Maximalna_teplota = round(mean(Maximalna_teplota), 2),
    Minimalna_teplota = round(mean(Minimalna_teplota), 2),
    .groups = 'drop'
  )

print(centroids)

Na základe centroidov klastrov môžeme pozorovať charakteristiky jednotlivých klastrov:

  • Klaster 1 (3 mestá): Priemerná teplota 10.98°C, maximálna 15.22°C, minimálna 7.17°C - stredoeurópske vnútrozemské mestá so strednými teplotami

  • Klaster 2 (3 mestá): Priemerná teplota 11.60°C, maximálna 15.42°C, minimálna 7.72°C - západoeurópske mestá s mierne vyššími teplotami vďaka oceánskemu vplyvu

  • Klaster 3 (2 mestá): Priemerná teplota 8.15°C, maximálna 11.48°C, minimálna 5.24°C - severské mestá s výrazne nižšími teplotami

  • Klaster 4 (1 mesto): Priemerná teplota 15.82°C, maximálna 21.90°C, minimálna 11.47°C - stredomorské mesto s najvyššími teplotami

Rozdiely medzi klastrami sú výrazné - medzi najteplejším a najchladnejším klastrom je rozdiel 7.67°C v priemernej teplote. Klastre dobre odrážajú geografickú polohu a klimatické pomery jednotlivých miest.

Záver

Na základe vykonanej analýzy teplotných údajov 9 vybraných európskych miest za rok 2000 možno konštatovať, že identifikované klastre dobre odrážajú geografickú a klimatickú rozmanitosť Európy.

Zhluková analýza úspešne rozdelila mestá do 4 homogénnych skupín podľa ich teplotných charakteristík. Najvýraznejšie rozdiely sú medzi stredomorským klimatom (Roma) a severskými oblasťami (Oslo, Stockholm), pričom rozdiel v priemerných teplotách dosahuje takmer 8°C. Stredoeurópske a západoeurópske mestá tvoria dve samostatné skupiny so podobnými, no mierne odlišnými teplotnými profilmi.

Hodnota medziklastrovej variability 9.9% naznačuje, že napriek určitej podobnosti teplotných trendov medzi európskymi mestami, identifikované klastre zachytávajú významné regionálne rozdiely. Tieto výsledky poskytujú cenný vhľad do klimatických pomerov Európy a môžu slúžiť ako podklad pre ďalšie klimatologické štúdie alebo regionálne plánovanie.

