Analýza teplôt vybraných miest - rok 2000
Úvod
Predkladaná analýza sa zameriava na skúmanie teplotných údajov
9 vybraných európskych miest za rok
2000. Sledované premenné zahŕňajú priemernú, maximálnu
a minimálnu teplotu, ktoré charakterizujú teplotné pomery jednotlivých
miest.
Cieľom analýzy je identifikovať teplotné rozdiely medzi mestami,
porovnať ich teplotné profily a zoskupiť mestá podľa podobnosti
teplotných podmienok.
Načítanie knižníc a príprava údajov
library(tidyverse)
library(ggplot2)
library(dplyr)
library(cluster)
library(factoextra)
# Načítanie údajov
df <- read.csv("weather_prediction_dataset.csv")
# Transformácia stĺpca DATE na dátum
df$DATE <- as.Date(as.character(df$DATE), format = "%Y%m%d")
# Výber údajov len za rok 2000
df_2000 <- df %>%
filter(format(DATE, "%Y") == "2000")
# Výber 9 miest (bez Budapešti)
vybrate_mesta <- c('BASEL', 'DE_BILT', 'DRESDEN', 'HEATHROW',
'MUENCHEN', 'OSLO', 'ROMA', 'STOCKHOLM', 'TOURS')
Priemer za rok pre každé mesto
Na základe údajov za rok 2000 sme vypočítali priemerné hodnoty
teplotných ukazovateľov pre jednotlivé mestá.
# Získanie všetkých teplotných stĺpcov pre vybrané mestá
teplotne_stlpce <- character()
for(mesto in vybrate_mesta) {
teplotne_stlpce <- c(teplotne_stlpce,
grep(paste0(mesto, "_temp_"), names(df_2000), value = TRUE))
}
# Výber iba teplotných údajov
df_teploty <- df_2000[, c("DATE", "MONTH", teplotne_stlpce)]
# Výpočet priemerných hodnôt pre každé mesto
priemerne_teploty <- df_teploty %>%
summarise(across(contains("_temp_mean"), ~ round(mean(., na.rm = TRUE), 2))) %>%
pivot_longer(everything(), names_to = "Mesto", values_to = "Priemerna_teplota") %>%
mutate(Mesto = str_remove(Mesto, "_temp_mean")) %>%
arrange(desc(Priemerna_teplota))
maximalne_teploty <- df_teploty %>%
summarise(across(contains("_temp_max"), ~ round(mean(., na.rm = TRUE), 2))) %>%
pivot_longer(everything(), names_to = "Mesto", values_to = "Maximalna_teplota") %>%
mutate(Mesto = str_remove(Mesto, "_temp_max"))
minimalne_teploty <- df_teploty %>%
summarise(across(contains("_temp_min"), ~ round(mean(., na.rm = TRUE), 2))) %>%
pivot_longer(everything(), names_to = "Mesto", values_to = "Minimalna_teplota") %>%
mutate(Mesto = str_remove(Mesto, "_temp_min"))
# Spojenie všetkých údajov
data_mesta <- priemerne_teploty %>%
left_join(maximalne_teploty, by = "Mesto") %>%
left_join(minimalne_teploty, by = "Mesto")
print(data_mesta)
Analýza priemerov ukazuje, že Roma má najvyššie
priemerné, maximálne aj minimálne teploty, zatiaľ čo
Oslo má najnižšie hodnoty vo všetkých troch
kategóriách.
Korelačná matica
Korelačná matica vypočítaná pre teplotné ukazovatele ukazuje vzťahy
medzi nimi.
# Výber iba priemerných teplôt pre koreláciu
teplotne_data <- df_teploty %>%
select(contains('_temp_mean'))
# Výpočet korelačnej matice
cor_matrix <- cor(teplotne_data, use = "complete.obs")
cor_matrix_rounded <- round(cor_matrix, 2)
# Pomenovanie riadkov a stĺpcov
mesta_nazvy <- str_remove(colnames(teplotne_data), "_temp_mean")
rownames(cor_matrix_rounded) <- mesta_nazvy
colnames(cor_matrix_rounded) <- mesta_nazvy
print(cor_matrix_rounded)
BASEL DE_BILT DRESDEN HEATHROW MUENCHEN OSLO ROMA STOCKHOLM TOURS
BASEL 1.00 0.92 0.93 0.89 0.97 0.85 0.88 0.85 0.92
DE_BILT 0.92 1.00 0.91 0.92 0.90 0.86 0.81 0.85 0.91
DRESDEN 0.93 0.91 1.00 0.84 0.96 0.86 0.84 0.87 0.85
HEATHROW 0.89 0.92 0.84 1.00 0.86 0.84 0.81 0.82 0.94
MUENCHEN 0.97 0.90 0.96 0.86 1.00 0.84 0.86 0.84 0.88
OSLO 0.85 0.86 0.86 0.84 0.84 1.00 0.85 0.95 0.83
ROMA 0.88 0.81 0.84 0.81 0.86 0.85 1.00 0.86 0.84
STOCKHOLM 0.85 0.85 0.87 0.82 0.84 0.95 0.86 1.00 0.83
TOURS 0.92 0.91 0.85 0.94 0.88 0.83 0.84 0.83 1.00
Z matice vyplýva, že teploty medzi mestami sú vysoko kladne
korelované. Najvyššia korelácia je medzi MUENCHEN a
BASEL (r = 0.97), čo naznačuje veľmi podobné teplotné trendy.
Naopak, najnižšia korelácia je medzi ROMA a DE_BILT a
ROMA a HEATHROW (r = 0.81), čo odráža rozdielne
geografické polohy.
Matica vzdialenosti medzi mestami
Matica vzdialeností ukazuje, do akej miery sa teplotné profily miest
navzájom líšia.
# Výpočet euklidovskej vzdialenosti
dist_matrix <- dist(t(teplotne_data), method = "euclidean")
dist_matrix <- as.matrix(dist_matrix)
dist_matrix_rounded <- round(dist_matrix, 2)
rownames(dist_matrix_rounded) <- mesta_nazvy
colnames(dist_matrix_rounded) <- mesta_nazvy
print(dist_matrix_rounded)
BASEL DE_BILT DRESDEN HEATHROW MUENCHEN OSLO ROMA STOCKHOLM TOURS
BASEL 0.00 52.74 56.86 57.21 42.23 102.87 97.71 92.97 48.77
DE_BILT 52.74 0.00 61.45 42.84 63.19 88.58 119.56 80.74 52.74
DRESDEN 56.86 61.45 0.00 80.73 40.92 88.36 126.13 78.54 81.05
HEATHROW 57.21 42.84 80.73 0.00 76.04 100.74 109.37 92.47 40.42
MUENCHEN 42.23 63.19 40.92 76.04 0.00 93.43 122.21 85.83 73.99
OSLO 102.87 88.58 88.36 100.74 93.43 0.00 168.71 42.12 111.55
ROMA 97.71 119.56 126.13 109.37 122.21 168.71 0.00 155.18 95.23
STOCKHOLM 92.97 80.74 78.54 92.47 85.83 42.12 155.18 0.00 101.64
TOURS 48.77 52.74 81.05 40.42 73.99 111.55 95.23 101.64 0.00
Najväčšia vzdialenosť je medzi Romou a Oslom
(168.71), čo potvrdzuje výrazné teplotné rozdiely medzi týmito mestami.
Naopak, najmenšia vzdialenosť je medzi HEATHROW a TOURS
(40.42), čo naznačuje veľmi podobné teplotné podmienky.
Hierarchické zhlukovanie (Wardova metóda)
Na základe dendrogramu hierarchického zhlukovania možno pozorovať
nasledujúce:
# Z-škálovanie údajov
data_scaled <- scale(teplotne_data)
# Hierarchické zhlukovanie
hc <- hclust(dist(t(data_scaled), method = "euclidean"), method = "ward.D2")
# Vizualizácia dendrogramu
plot(hc, labels = mesta_nazvy, main = "Hierarchické zhlukovanie teplôt - Wardova metóda (2000)", cex = 0.8)
rect.hclust(hc, k = 4, border = "red")

Príslušnosť miest do klastrov
clusters <- cutree(hc, k = 4)
city_data$cluster <- as.factor(clusters)
print(city_data[, c("Mesto", "cluster")])
Mestá sa rozdeľujú do 4 hlavných klastrov:
Klaster 1: BASEL, DRESDEN, MUENCHEN -
stredoeurópske vnútrozemské mestá s kontinentálnym vplyvom
Klaster 2: DE_BILT, HEATHROW, TOURS -
západoeurópske mestá s oceánskym a prímorským vplyvom
Klaster 3: OSLO, STOCKHOLM - severské mestá s
chladnejším podnebím
Klaster 4: ROMA - jediné stredomorské mesto s
výrazne teplejším podnebím
Deskriptívne štatistiky výsledkov
Vnútro- a medziklastrová variabilita
data_matrix <- as.matrix(teplotne_data)
# Celková variabilita (TSS)
celkova_stredna_hodnota <- mean(data_matrix)
tss <- sum((data_matrix - celkova_stredna_hodnota)^2)
# Vnútroklastrová variabilita (WSS)
wss <- 0
for(k in 1:4) {
cluster_indices <- which(clusters == k)
if(length(cluster_indices) > 0) {
cluster_data <- data_matrix[, cluster_indices, drop = FALSE]
cluster_stredna_hodnota <- mean(cluster_data)
wss <- wss + sum((cluster_data - cluster_stredna_hodnota)^2)
}
}
bss <- tss - wss
prop_between <- bss / tss
variabilita <- data.frame(
Celkova_variancia = round(tss, 2),
Vnutroklastrová_variancia = round(wss, 2),
Medziklastrová_variancia = round(bss, 2),
Podiel_medzi = round(prop_between, 3)
)
print(variabilita)
Na základe výsledkov môžeme konštatovať, že celková variabilita
teplotných údajov je 149046.4. Z tejto celkovej variability je 14821.29
(9.9%) vysvetlených rozdelením miest do klastrov,
zatiaľčo 134225.1 (90.1%) variability zostáva v rámci
jednotlivých klastrov.
Podiel medziklastrovej variability 0.099 naznačuje, že zhlukovanie
vysvetľuje približne 10% celkovej variability údajov. Táto hodnota je
typická pre klimatologické údaje, kde mestá v rámci tej istej
geografickej oblasti majú podobné teplotné trendy, no stále existujú
výrazné rozdiely spôsobené lokálnymi vplyvmi, nadmorskou výškou a inými
faktormi.
Relatívne nízka medziklastrová variabilita potvrdzuje, že európske
mestá majú do určitej miery podobné teplotné profily, no identifikované
klastre napriek tomu zachytávajú významné regionálne rozdiely v
teplotných pomeroch.
Centroidy klastrov
# Vytvorenie kompletného data frame s klástrami
clusters <- cutree(hc, k = 4)
final_data <- data.frame(
Mesto = c("BASEL", "DE_BILT", "DRESDEN", "HEATHROW", "MUENCHEN", "OSLO", "ROMA", "STOCKHOLM", "TOURS"),
Klaster = as.factor(clusters)
) %>%
left_join(data_mesta, by = "Mesto")
# Výpočet centroidov
centroids <- final_data %>%
group_by(Klaster) %>%
summarise(
Pocet_miest = n(),
Priemerna_teplota = round(mean(Priemerna_teplota), 2),
Maximalna_teplota = round(mean(Maximalna_teplota), 2),
Minimalna_teplota = round(mean(Minimalna_teplota), 2),
.groups = 'drop'
)
print(centroids)
Na základe centroidov klastrov môžeme pozorovať charakteristiky
jednotlivých klastrov:
Klaster 1 (3 mestá): Priemerná teplota 10.98°C,
maximálna 15.22°C, minimálna 7.17°C - stredoeurópske vnútrozemské mestá
so strednými teplotami
Klaster 2 (3 mestá): Priemerná teplota 11.60°C,
maximálna 15.42°C, minimálna 7.72°C - západoeurópske mestá s mierne
vyššími teplotami vďaka oceánskemu vplyvu
Klaster 3 (2 mestá): Priemerná teplota 8.15°C,
maximálna 11.48°C, minimálna 5.24°C - severské mestá s výrazne nižšími
teplotami
Klaster 4 (1 mesto): Priemerná teplota 15.82°C,
maximálna 21.90°C, minimálna 11.47°C - stredomorské mesto s najvyššími
teplotami
Rozdiely medzi klastrami sú výrazné - medzi najteplejším a
najchladnejším klastrom je rozdiel 7.67°C v priemernej teplote. Klastre
dobre odrážajú geografickú polohu a klimatické pomery jednotlivých
miest.
Záver
Na základe vykonanej analýzy teplotných údajov 9
vybraných európskych miest za rok 2000 možno
konštatovať, že identifikované klastre dobre odrážajú geografickú a
klimatickú rozmanitosť Európy.
Zhluková analýza úspešne rozdelila mestá do 4
homogénnych skupín podľa ich teplotných charakteristík. Najvýraznejšie
rozdiely sú medzi stredomorským klimatom (Roma) a severskými oblasťami
(Oslo, Stockholm), pričom rozdiel v priemerných teplotách dosahuje
takmer 8°C. Stredoeurópske a západoeurópske mestá
tvoria dve samostatné skupiny so podobnými, no mierne odlišnými
teplotnými profilmi.
Hodnota medziklastrovej variability 9.9% naznačuje,
že napriek určitej podobnosti teplotných trendov medzi európskymi
mestami, identifikované klastre zachytávajú významné regionálne
rozdiely. Tieto výsledky poskytujú cenný vhľad do klimatických pomerov
Európy a môžu slúžiť ako podklad pre ďalšie klimatologické štúdie alebo
regionálne plánovanie.
