Cieľ a čiastkové ciele projektu

Hlavným cieľom projektu je zhodnotiť, ako si krajiny EÚ stoja v oblasti udržateľnosti miest, a identifikovať skupiny krajín s podobným alebo odlišným profilom. Analýza vychádza z indikátorov SDG 11 (Sustainable Cities and Communities) za rok 2023, ktoré zachytávajú environmentálnu, sociálnu aj infraštruktúrnu dimenziu udržateľnosti — od recyklácie a kvality ovzdušia až po dostupnosť bývania a bezpečnosť.

Čiastkové ciele:

Popis dát

Dataset zahŕňa všetkých 27 členských štátov EÚ za rok 2023, pričom každá krajina tvorí jedno pozorovanie. Údaje boli stiahnuté z verejne dostupnej databázy Eurostat, sekcia Sustainable Development Goals. Na popis udržateľnosti miest sme vybrali osem premenných, ktoré pokrývajú tri hlavné oblasti — environmentálnu záťaž, sociálne podmienky a dopravnú infraštruktúru.

Ukážka prvých riadkov datasetu
geo housing_deprivation noise_exposure traffic_deaths pm25_deaths recycling_rate public_transport crime_exposure housing_cost_overburden iso
Austria 4.5 20 402 2608 62.8 23.1 7 12.5 AT
Austria 4.5 20 402 2608 62.8 23.1 7 11.3 AT
Austria 4.5 20 402 2608 62.8 23.1 7 11.6 AT
Austria 4.5 20 402 2608 62.8 23.1 7 12.2 AT
Austria 4.5 20 402 2608 62.8 23.1 7 10.7 AT
Austria 4.5 20 402 2608 62.8 23.1 7 9.9 AT

Stĺpec geo obsahuje názov krajiny, iso jej dvojpísmenový ISO kód. Premenná housing_deprivation vyjadruje podiel obyvateľov žijúcich v závažne nevyhovujúcich bytových podmienkach v percentách. noise_exposure zachytáva podiel domácností vystavených nadmernému hluku. traffic_deaths je absolútny počet usmrtených v cestnej doprave a pm25_deaths počet predčasných úmrtí spôsobených znečistením ovzdušia časticami PM2.5. recycling_rate predstavuje mieru recyklácie komunálneho odpadu v percentách. public_transport udáva podiel autobusov a vlakov na osobnej doprave. crime_exposure meria podiel obyvateľov, ktorí vo svojom okolí vnímajú kriminalitu alebo vandalizmus. housing_cost_overburden zachytáva podiel mestských domácností preťažených nákladmi na bývanie.

Premenné traffic_deaths a pm25_deaths sú absolútne počty závisiace od veľkosti krajiny — väčšia krajina bude mať prirodzene vyššie hodnoty. Z tohto dôvodu ich pred analytickými metódami logaritmicky transformujeme.

Chýbajúce hodnoty

Pred samotnou analýzou overíme, či dataset neobsahuje chýbajúce hodnoty. Ich prítomnosť by mohla ovplyvniť výsledky viacrozmerných metód, preto je táto kontrola dôležitým krokom prípravy dát.

Vyhodnotenie chýbajúcich hodnôt v datasete
Ukazovateľ Hodnota
Celkový počet hodnôt 2072
Počet chýbajúcich hodnôt 0
Podiel chýbajúcich hodnôt 0 %
Prehľad chýbajúcich hodnôt podľa premenných
Premenná Počet_NA % chýbajúcich Stav
housing_deprivation 0 0 ✓ Kompletné
noise_exposure 0 0 ✓ Kompletné
traffic_deaths 0 0 ✓ Kompletné
pm25_deaths 0 0 ✓ Kompletné
recycling_rate 0 0 ✓ Kompletné
public_transport 0 0 ✓ Kompletné
crime_exposure 0 0 ✓ Kompletné
housing_cost_overburden 0 0 ✓ Kompletné
## Dataset je kompletný – žiadne chýbajúce hodnoty.

Na základe tabuľky sme zistili, že dataset neobsahuje žiadne chýbajúce hodnoty, preto môžeme ďalej pokračovať v analýze.

Transformácia dát

Väčšina premenných je vyjadrená v percentách a nevyžaduje ďalšie úpravy. Výnimkou sú traffic_deaths a pm25_deaths, ktoré sú absolútnymi počtami — väčšia krajina bude mať prirodzene vyššie hodnoty len vďaka veľkosti populácie, nie nevyhnutne horšej situácii. Na elimináciu tohto efektu aplikujeme logaritmickú transformáciu log1p, ktorá hodnoty priblíži k symetrickému rozdeleniu. Ostatné premenné transformáciu nevyžadujú.

Efekt logaritmickej transformácie na šikmosť premenných
Premenná Šikmosť PRED Šikmosť PO log
traffic_deaths 1.502 -0.282
pm25_deaths 2.132 -0.509

Pred použitím PCA a zhlukovej analýzy sme premenné štandardizovali. Keďže premenné majú rôzne rozsahy hodnôt, bez štandardizácie by tie s väčšími číslami neúmerne ovplyvňovali výsledky — štandardizácia zabezpečí, že každá premenná vstupuje do analýzy s rovnakou váhou.

Základne informácie o krajinách

V tejto časti prezentujeme dáta pomocou grafov a tabuliek, ktoré pomáhajú pochopiť základné rozdiely medzi krajinami. Na vizualizáciu sme použili horizontálne stĺpcové grafy s farebným gradientom — zelená signalizuje priaznivé hodnoty, červená problematické. V závere je zobrazená korelačná matica, ktorá nám ukazuje vzájomné vzťahy medzi premennými.

Prehľad základných štatistík

Najprv sa pozrieme na základnú popisnú štatistiku — priemer, minimum, maximum a smerodajnú odchýlku pre každú premennú. Tieto ukazovatele nám poskytnú prehľad o tom, aké hodnoty sú v EÚ typické a pri ktorých premenných sú rozdiely medzi krajinami najvýraznejšie.

Základná popisná štatistika vybraných ukazovateľov (EU27, 2023)
Premenná Priemer Minimum Maximum Smerodajná odchýlka
housing_deprivation 3.90 0.5 11.6 2.60
noise_exposure 17.20 6.7 31.3 7.39
traffic_deaths 767.90 16.0 3154.0 941.83
pm25_deaths 6972.81 34.0 43083.0 9935.27
recycling_rate 40.99 12.4 68.7 15.60
public_transport 16.90 7.9 24.5 3.40
crime_exposure 8.51 1.4 20.9 4.69
housing_cost_overburden 10.03 1.4 44.6 7.00

Priemerná miera recyklácie v EÚ mierne presahuje 40 %, avšak variabilita medzi krajinami je značná. Podobne výrazné rozdiely vidíme pri bytovej deprivácii — priemerná hodnota sa zdá nízka, no niektoré krajiny dosahujú násobne vyššie hodnoty. Vysoká smerodajná odchýlka pri traffic_deaths a pm25_deaths odráža predovšetkým rozdielnu veľkosť krajín, čo ďalej zdôvodňuje ich logaritmickú transformáciu. Celkovo je dataset heterogénny — krajiny EÚ sa od seba v sledovaných oblastiach výrazne líšia.

Miera recyklácie podľa krajín

Prvý graf zobrazuje mieru recyklácie komunálneho odpadu. Tento ukazovateľ vyjadruje, aký podiel odpadu krajina efektívne spracuje a zhodnotí — je to kľúčová charakteristika toho, ako ďaleko má krajina k obehovému hospodárstvu.

Na čele rebríčka sa nachádzajú Nemecko, Rakúsko a Slovinsko, kde sú systémy triedenia a spracovania odpadu dlhodobo dobre rozvinuté. Na opačnom konci skóre stoja Rumunsko, Bulharsko a Cyprus. Rozdiel medzi najlepšie a najhoršie hodnotenou krajinou je výrazný a naznačuje, že prístupy k odpadovému hospodárstvu sa v rámci EÚ výrazne líšia.

Závažná bytová deprivácia podľa krajín

Ďalším sledovaným ukazovateľom je miera závažnej bytovej deprivácie, ktorá vyjadruje podiel obyvateľstva žijúceho v nevyhovujúcich bytových podmienkach — napríklad v preplnenom, vlhkom alebo štrukturálne poškodenom byte. Nižšia hodnota indikuje priaznivejšiu situáciu.

Najvyššiu mieru bytovej deprivácie vykazuje Lotyšsko s hodnotou 11,6 %, nasledované Rumunskom (9,6 %) a Gréckom (6,9 %). Tieto krajiny sa od zvyšku EÚ výrazne odlišujú. Na opačnom konci rebríčka sa nachádzajú Malta (0,5 %), Fínsko (1 %) a Cyprus (1,2 %), kde je situácia výrazne priaznivejšia. Porovnaním s predchádzajúcim grafom recyklácie si možno všimnúť, že krajiny s vysokou mierou recyklácie majú zároveň tendenciu vykazovať nízku bytovú depriváciu — čo naznačuje, že za oboma ukazovateľmi sa môže skrývať ten istý hlbší faktor, napríklad celková ekonomická a sociálna vyspelosť krajiny.

Vystavenie kriminalite podľa krajín

Ďalším sledovaným ukazovateľom je podiel obyvateľstva, ktoré vníma vo svojom okolí kriminalitu alebo vandalizmus. Ide o subjektívny ukazovateľ bezpečnosti — nie o objektívnu štatistiku trestných činov — čo je z pohľadu kvality života v mestách rovnako dôležitá informácia.

Najvyššie hodnoty vykazuje Grécko s 20,9 %, nasledované Holandskom (16,7 %) a Bulharskom (15,6 %). Najnižšie hodnoty dosahujú Chorvátsko (1,4 %), Litva (2,7 %) a Poľsko (2,8 %). Výsledky môžu na prvý pohľad prekvapovať — napríklad Fínsko či Nemecko, ktoré sú považované za bezpečné krajiny, sa umiestnili relatívne vysoko. Vysvetlením je subjektívna povaha ukazovateľa — nejde o objektívnu štatistiku trestných činov, ale o to, koľko ľudí kriminalitu vo svojom okolí vníma. Vnímanie bezpečnosti je teda ovplyvnené nielen reálnou situáciou, ale aj kultúrnymi a sociálnymi faktormi.

Hluk

Ďalším sledovaným ukazovateľom je podiel obyvateľstva vystaveného nadmernému hluku z dopravy v okolí svojho bydliska. Hluk patrí medzi významné faktory ovplyvňujúce kvalitu života v mestách a jeho dlhodobé pôsobenie môže mať negatívne dôsledky na zdravie obyvateľov.

Najvyššie hodnoty vystavenia nadmernému hluku dosahujú Malta (31,3 %), Luxembursko (30,2 %) a Portugalsko (28,7 %). Zaujímavé je, že tieto krajiny sú relatívne malé a hustejšie osídlené, čo môže vysvetľovať vyššiu hlukovú záťaž. Naopak, najnižšie hodnoty vykazuje Chorvátsko (6,7 %), Slovensko (8,6 %) a Bulharsko (8,7 %).

Verejná doprava

Nasledujúci graf zobrazuje podiel autobusov a vlakov na celkovej osobnej doprave. Vyšší podiel verejnej dopravy signalizuje menšiu závislosť od individuálnej automobilovej dopravy, čo je z pohľadu udržateľnosti miest žiaduce — znižuje emisie, hluk aj dopravné preťaženie.

Na čele rebríčka sa nachádza Maďarsko (24,5 %), Rakúsko (23,1 %) a Slovensko (21,7 %), kde verejná doprava tvorí výrazný podiel osobnej mobility. Naopak, najnižšie hodnoty dosahuje Litva (7,9 %), Bulharsko (11,2 %) a Portugalsko (11,8 %), kde obyvatelia výrazne preferujú individuálnu automobilovú dopravu.

Dopravné úmrtia

Graf zobrazuje absolútny počet úmrtí v cestnej doprave. Keďže ide o absolútne počty, je dôležité mať na pamäti, že väčšie krajiny budú prirodzene dosahovať vyššie hodnoty. Tento ukazovateľ teda nevypovedá priamo o bezpečnosti dopravy v krajine, ale o celkovom rozsahu dopravných nehôd — čo je aj dôvod jeho logaritmickej transformácie v analytických metódach.

Najvyšší absolútny počet úmrtí v cestnej doprave vykazuje Francúzsko (3 154), nasledované Talianskom (3 039) a Nemeckom (2 839). Najnižšie hodnoty dosahujú Malta (16), Luxembursko (26) a Cyprus (34). Ako už bolo spomenuté, tieto rozdiely odrážajú predovšetkým veľkosť krajiny, nie bezpečnostnú situáciu na cestách.

Úmrtia vplyvom PM2.5

Posledným sledovaným ukazovateľom je počet predčasných úmrtí spôsobených dlhodobým vystavením znečisteniu ovzdušia časticami PM2.5. Tieto mikroskopické častice pochádzajú predovšetkým z dopravy, priemyslu a spaľovania a ich vdychovanie má preukázateľne negatívny vplyv na zdravie. Rovnako ako pri dopravných úmrtiach, aj tu ide o absolútne počty závisiace od veľkosti krajiny.

Najvyšší počet predčasných úmrtí vplyvom znečistenia časticami PM2.5 dosahuje Taliansko s výrazným odstupom (43 083), nasledované Poľskom (25 268) a Nemeckom (21 640). Na opačnom konci sú Fínsko (34), Estónsko (46) a Luxembursko (66). Rovnako ako pri dopravných úmrtiach, aj tu platí, že absolútne hodnoty sú silne ovplyvnené veľkosťou a hustotou zaľudnenia krajiny

Preťaženie nákladmi na bývanie v mestách

Posledný graf tejto sekcie sleduje finančnú dostupnosť bývania v mestách. Konkrétne ide o podiel domácností, ktorých náklady na bývanie presahujú 40 % disponibilného príjmu — takéto domácnosti označujeme ako preťažené nákladmi na bývanie.

Najvyššie preťaženie nákladmi na bývanie vykazuje Grécko, ktoré sa od ostatných krajín výrazne odlišuje. Na druhom mieste je Dánsko, za ním Nemecko. Rumunsko sa nachádza v strede rebríčka. Najnižšie hodnoty dosahujú Cyprus, Malta a Chorvátsko. Preťaženie nákladmi na bývanie je z pohľadu udržateľnosti miest závažný indikátor — domácnosti, ktoré vydávajú neúmernú časť príjmu na bývanie, majú menej zdrojov na zdravie, vzdelávanie aj úspory.

Korelačná matica

Na záver zobrazujeme korelačnú maticu, ktorej cieľom je zachytiť vzájomné vzťahy medzi premennými. Silné korelácie môžu naznačovať, že niektoré premenné merajú podobný jav, zatiaľ čo nízke korelácie signalizujú nezávislé dimenzie udržateľnosti. Do matice vstupujú logaritmické verzie absolútnych počtov.

Najvýraznejšia pozitívna korelácia sa objavuje medzi logaritmickými verziami dopravných úmrtí a úmrtí vplyvom PM2.5 (0.86), čo je logické — obe premenné odrážajú dopravnú a priemyselnú aktivitu krajiny a prirodzene rastú s veľkosťou krajiny. Prekvapivá je silná pozitívna korelácia medzi kriminalitou a hlukom (0.57) — krajiny s vyšším vnímaním kriminality majú zároveň vyššiu hlukovú záťaž, čo môže naznačovať spoločný faktor hustoty urbanizácie. Bytová deprivácia mierne pozitívne koreluje s dopravnými a PM2.5 úmrtiami, čo môže súvisieť s tým, že ekonomicky slabšie krajiny majú zároveň horšiu dopravnú bezpečnosť aj kvalitu ovzdušia. Recyklácia a verejná doprava vykazujú len slabé väzby s ostatnými premennými, čo naznačuje, že tieto ukazovatele zachytávajú relatívne samostatnú dimenziu udržateľnosti — investície do zelenej infraštruktúry a mobility.

PCA

V tejto časti aplikujeme analýzu hlavných komponentov (PCA) na vybrané ukazovatele udržateľnosti miest. Cieľom je zistiť, či je možné osem pôvodných premenných zhrnúť do menšieho počtu hlavných komponentov, ktoré vystihujú najdôležitejšie dimenzie rozdielov medzi krajinami. Premenné boli pred výpočtom štandardizované.

Určenie počtu komponentov

Tabuľka zobrazuje podiel celkovej variability, ktorý vysvetľuje každý hlavný komponent. Na základe týchto hodnôt rozhodneme, koľko komponentov má zmysel ponechať a ďalej interpretovať.

## Importance of components:
##                           PC1    PC2    PC3    PC4    PC5     PC6    PC7
## Standard deviation     1.5291 1.3363 1.1198 0.9541 0.8584 0.76622 0.5153
## Proportion of Variance 0.2923 0.2232 0.1567 0.1138 0.0921 0.07339 0.0332
## Cumulative Proportion  0.2923 0.5155 0.6722 0.7860 0.8781 0.95152 0.9847
##                            PC8
## Standard deviation     0.34965
## Proportion of Variance 0.01528
## Cumulative Proportion  1.00000

Prvý komponent vysvetľuje 29,2 % celkovej variability a dominuje v zachytávaní rozdielov medzi krajinami. Druhý komponent pridáva ďalších 22,3 % a tretí 15,7 %. Spolu prvé tri komponenty vysvetľujú 67,2 % variability, čo znamená, že väčšinu informácie obsiahnutej v ôsmich pôvodných premenných je možné zachytiť pomocou týchto troch dimenzií.

Krivka scree plotu klesá relatívne plynulo bez výrazného zlomu, čo naznačuje, že variabilita je rozložená rovnomernejšie medzi komponentmi. Najvýraznejší pokles nastáva medzi prvým a druhým komponentom, po treťom komponente sa krivka začína postupne vyrovnávať. Na základe toho je rozumné pracovať s prvými tromi komponentmi, ktoré spolu vysvetľujú 67,2 % variability. Pre grafické zobrazenie budeme pracovať s prvými dvoma komponentmi, ktoré umožňujú prehľadnú dvojrozmernú vizualizáciu.

Interpretácia komponentov

Po výbere komponentov analyzujeme ich obsah — teda ktoré premenné na ne najviac pôsobia a akú dimenziu udržateľnosti zachytávajú.

Komponentové záťaže premenných pre prvé tri komponenty
PC1 PC2 PC3
housing_deprivation -0.313 -0.375 -0.350
noise_exposure 0.009 0.570 0.007
log_traffic_deaths -0.568 -0.151 0.207
log_pm25_deaths -0.566 -0.208 0.128
recycling_rate 0.073 0.061 0.685
public_transport 0.018 -0.130 0.577
crime_exposure -0.345 0.555 -0.118
housing_cost_overburden -0.366 0.374 0.056

Prvý komponent má najvyššie záťaže pri premenných log_traffic_deaths (-0.568), log_pm25_deaths (-0.566) a housing_cost_overburden (-0.366) — môžeme ho označiť ako environmentálno-zdravotná a sociálna záťaž. Záporné záťaže znamenajú, že krajiny s vyšším skóre na tomto komponente majú nižšie hodnoty týchto premenných, teda menšiu environmentálnu záťaž a nižšie náklady na bývanie. Druhý komponent je najviac ovplyvnený premennými noise_exposure (0.570), crime_exposure (0.555) a housing_cost_overburden (0.374) — zachytáva teda mestskú záťaž a vnímanie bezpečnosti. Krajiny s vysokým skóre na tomto komponente čelia vyššiemu hluku aj vyššiemu vnímaniu kriminality, čo môže súvisieť s vysokou hustotou urbanizácie. Tretí komponent je výrazne spojený s recycling_rate (0.685) a public_transport (0.577) — môžeme ho interpretovať ako zelená infraštruktúra a mobilita. Tento komponent odlišuje krajiny s rozvinutými systémami recyklácie a verejnej dopravy od tých, kde tieto oblasti zaostávajú. Celkovo PCA potvrdzuje, že udržateľnosť miest je viacrozmerný fenomén — krajiny sa od seba líšia v niekoľkých relatívne nezávislých dimenziách.

Podľa grafu môžeme vidieť, že predčasné úmrtia spôsobené znečistením ovzdušia a úmrtia v cestnej doprave smerujú takmer rovnakým smerom — krajiny s vysokými hodnotami v týchto ukazovateľoch sú si teda navzájom podobné. Ide prevažne o väčšie a hustejšie osídlené krajiny s vyššou priemyselnou a dopravnou aktivitou. Naopak, miera recyklácie a podiel verejnej dopravy smerujú opačným smerom — krajiny, ktoré dobre recyklujú a majú rozvinutú verejnú dopravu, majú zároveň tendenciu mať nižšiu environmentálnu záťaž. Tieto dva skupiny ukazovateľov teda opisujú dva protikladné typy krajín.

Hluk a vnímanie kriminality smerujú nahor — ich vplyv sa prejavuje predovšetkým pozdĺž vertikálnej osi grafu. Krajiny v hornej časti grafu teda trpia súčasne vyšším hlukom aj vyšším vnímaním kriminality, čo môže byť dôsledkom vysokej hustoty mestského osídlenia. Bytová deprivácia smeruje nadol a doľava — krajiny s vážnymi problémami v oblasti bývania majú zároveň tendenciu čeliť vyššej environmentálnej záťaži, čo naznačuje prepojenie sociálnych a environmentálnych problémov.

Každý bod na grafe predstavuje jednu krajinu — čím bližšie sú dve krajiny k sebe, tým podobnejší profil udržateľnosti majú. Krajiny v ľavej časti grafu (Francúzsko, Taliansko, Nemecko, Poľsko) majú vyššie hodnoty dopravných a emisných úmrtí, čo zodpovedá ich väčšej veľkosti. Grécko vyčnieva vľavo hore — kombinuje vysokú environmentálnu záťaž s vysokým vnímaním kriminality a hlukom. Na pravej strane sa nachádzajú menšie krajiny ako Luxembursko, Malta a Cyprus, ktoré majú nižšiu environmentálnu záťaž. Krajiny v dolnej časti grafu ako Chorvátsko, Lotyšsko a Poľsko majú nižšie hodnoty hluku a kriminality. Slovinsko, Švédsko a Rakúsko sa nachádzajú v strednej oblasti grafu, čo naznačuje vyvážený profil udržateľnosti naprieč sledovanými dimenziami.

Zhluková analýza

Pred samotným zhukovaním je potrebné určiť optimálny počet skupín, na ktoré využijeme lakťovú a silhouette metódu.

Lakťová krivka vykazuje najvýraznejší pokles pri prechode z jedného na dva zhluky a následne na tri zhluky, po ktorých sa tempo poklesu spomaľuje. Na základe toho volíme k = 3 ako rozumný kompromis medzi jednoduchosťou interpretácie a kvalitou rozdelenia. Silhouette metóda v tomto prípade neposkytuje jednoznačné odporúčanie, keďže hodnota rastie priebežne až do k = 10 — preto sa pri výbere počtu zhlukov opierame predovšetkým o lakťovú metódu.

K-means

Prvou metódou je K-means zhlukovanie. Algoritmus iteratívne priradí každú krajinu k jednému z troch zhlukov tak, aby bola vnútrozhluková variabilita minimálna — krajiny v jednej skupine sú si čo najpodobnejšie a skupiny sú navzájom čo najodlišnejšie.

Veľkosti zhlukov K-means
Zhluk Počet krajín
1 8
2 9
3 9

Zhluky sú od seba dobre oddelené, čo naznačuje, že krajiny v rámci jednej skupiny sú si skutočne podobné. Červená skupina zahŕňa prevažne veľké západoeurópske krajiny ako Nemecko, Francúzsko, Španielsko a Grécko. Zelená skupina tvorí krajiny strednej a východnej Európy ako Poľsko, Rumunsko, Lotyšsko a Chorvátsko. Modrá skupina združuje menšie krajiny ako Luxembursko, Malta, Cyprus a pobaltské štáty. Podrobnejší popis charakteristík každej skupiny je uvedený v profilovej tabuľke nižšie.

Profily zhlukov K-means
Zhluk Byt. deprivácia Hluk Doprav. úmrtia PM2.5 úmrtia Recyklácia Verej. doprava Kriminalita Nákl. bývanie
1 3.91 21.38 1340.12 9460.50 41.34 15.18 13.94 17.58
2 5.64 12.59 947.89 11411.22 40.82 19.34 5.00 10.28
3 2.16 18.13 105.78 409.44 40.83 15.99 7.27 8.71

Zhluk 1 sa vyznačuje najvyšším priemerom hluku (21.38 %) a vysokými absolútnymi počtami dopravných úmrtí (1 340), čo odráža väčšiu dopravnú záťaž týchto krajín. Miera recyklácie je pritom relatívne dobrá (41.34 %) a bytová deprivácia mierna (3.91 %). Ide teda o krajiny s vyššou environmentálnou záťažou, ktoré sú však sociálne relatívne stabilné.

Zhluk 2 je charakteristický výrazne najvyšším počtom predčasných úmrtí vplyvom PM2.5 (11 411) a najvyššou mierou bytovej deprivácie (5.64 %). Na druhej strane tu krajiny dosahujú najvyšší podiel verejnej dopravy (19.34 %) a najnižšie vnímanie kriminality (5.00 %). Tento zhluk tvorí prevažne krajiny strednej a východnej Európy, kde pretrvávajú sociálne problémy, no systémy verejnej dopravy sú relatívne dobre rozvinuté.

Zhluk 3 dosahuje najpríznivejšie hodnoty — najnižšiu bytovú depriváciu (2.16 %), najnižší počet dopravných úmrtí (105.78) aj predčasných úmrtí vplyvom PM2.5 (409.44). Sú to prevažne menšie krajiny s nižšou priemyselnou a dopravnou aktivitou, kde je environmentálna záťaž najmenšia.

PAM

Druhou metódou je PAM. Na rozdiel od K-means, ktorý tvorí zhluky okolo abstraktných centroidov, PAM ich formuje okolo reálnych pozorovaní — tzv. medioidov. Vďaka tomu je metóda robustnejšia voči odľahlým hodnotám.

Veľkosti zhlukov PAM
Zhluk Počet krajín
1 14
2 7
3 5

GVýsledky PAM sú konzistentné s výsledkami K-means — krajiny sa zoskupili do troch podobných skupín s porovnateľným rozložením v priestore hlavných komponentov. Táto zhoda dvoch metodologicky odlišných prístupov zvyšuje dôveryhodnosť identifikovaného rozdelenia.

Profily zhlukov PAM
Zhluk Byt. deprivácia Hluk Doprav. úmrtia PM2.5 úmrtia Recyklácia Verej. doprava Kriminalita Nákl. bývanie
1 4.58 12.71 690.29 7742.57 44.16 18.04 5.90 11.41
2 4.23 22.39 1460.00 10392.00 39.27 14.54 14.16 17.77
3 1.56 22.58 64.00 186.00 34.48 17.02 8.04 5.48

Zhluk 1 vykazuje strednú bytovú depriváciu (4.58 %), relatívne nízky hluk (12.71 %) a dobrú mieru recyklácie (44.16 %). Ide o skupinu krajín s vyváženým profilom udržateľnosti.

Zhluk 2 sa vyznačuje najvyšším hlukom (22.39 %), najvyššími dopravnými úmrtiami (1 460) a najvyššími nákladmi na bývanie (17.77 %). Sú to prevažne väčšie a hustejšie osídlené krajiny s vyššou environmentálnou záťažou.

Zhluk 3 dosahuje najnižšiu bytovú depriváciu (1.56 %), najnižšie dopravné úmrtia (64) aj PM2.5 úmrtia (186), čo naznačuje najpriaznivejší profil udržateľnosti spomedzi všetkých troch skupín. Nižšia miera recyklácie (34.48 %) však naznačuje priestor na zlepšenie v oblasti odpadového hospodárstva.

Hierarchické zhlukovanie

Treťou metódou je hierarchické zhlukovanie, ktoré pristupuje k problému odlišne. Namiesto vopred určeného počtu skupín postupne spája krajiny od najpodobnejších po najodlišnejšie. Výsledkom je dendrogram — stromová štruktúra zachytávajúca hierarchiu podobností medzi krajinami.

Kophenetická korelácia hierarchických metód
Metóda Kophenetická.korelácia
complete 0.669
average 0.797
single 0.716
ward.D2 0.515

Kophenetická korelácia meria, ako verne dendrogram odzrkadľuje skutočné vzdialenosti medzi krajinami — čím vyššia hodnota, tým lepšia zhoda. Z tabuľky vyplýva, že najvyššiu kophenetickú koreláciu dosahuje metóda average (0.797), nasledovaná metódou single (0.716) a complete (0.669). Najnižšiu hodnotu vykazuje metóda ward.D2 (0.515). Pre ďalšiu analýzu sme preto zvolili metódu average, ktorá najvernejšie zachováva pôvodné vzdialenosti medzi krajinami.

Prvá skupina obsahuje len Grécko, ktoré sa od ostatných krajín odlišuje natoľko, že tvorí samostatný zhluk — spája sa so zvyškom až pri najvyššej výške (okolo 6), čo naznačuje jeho výnimočné postavenie v dátach.

Druhá skupina zahŕňa Cyprus, Maltu, Fínsko a Luxembursko — tieto krajiny sú si navzájom veľmi podobné a spájajú sa už pri nízkej výške.

Tretia skupina tvorí najväčší zhluk a zahŕňa všetky ostatné krajiny EÚ. V rámci tejto skupiny vidíme ďalšie podskupiny — napríklad Nemecko, Holandsko, Španielsko a Francúzsko sa zoskupujú spolu, podobne ako pobaltské štáty Litva a Lotyšsko.

Výsledok hierarchického zhlukovania sa čiastočne líši od K-means a PAM — Grécko tu tvorí samostatnú skupinu, čo naznačuje jeho výnimočný profil udržateľnosti v porovnaní s ostatnými krajinami.

Graf hierarchického zhlukovania potvrdzuje to, čo sme videli v dendrograme — rozdelenie je výrazne nevyvážené. Červená skupina tvorí dominantný zhluk zahŕňajúci väčšinu krajín EÚ, zelená skupina predstavuje malú skupinu niekoľkých krajín a modrá skupina obsahuje jedinú krajinu — Grécko, ktoré sa nachádza úplne vľavo hore a výrazne sa odlišuje od ostatných. Práve táto nevyváženosť je dôvodom, prečo pri záverečnej interpretácii uprednostňujeme výsledky K-means a PAM, ktoré poskytujú zmysluplnejšie a vyváženejšie rozdelenie krajín.

Všetky tri metódy potvrdili, že krajiny EÚ sa dajú zmysluplne rozdeliť do skupín podľa profilu udržateľnosti. K-means a PAM dospeli k podobným výsledkom — tri vyvážené skupiny s jasne odlíšiteľnými charakteristikami. Hierarchické zhlukovanie slúžilo ako doplnková kontrola, avšak jeho výsledok bol nevyvážený — Grécko tvorilo samostatnú skupinu a väčšina krajín skončila v jednom veľkom zhluku, čo komplikuje praktickú interpretáciu. Za finálne rozdelenie preto považujeme výsledok K-means, ktorý poskytuje najzmysluplnejšie a najlepšie interpretovateľné skupiny krajín.

Finálne zhluky podľa metódy K-means

Krajiny v jednotlivých zhlukoch K-means
Zhluk Krajiny
1 Belgium, Bulgaria, France, Germany, Greece, Netherlands, Portugal, Spain
2 Austria, Croatia, Czechia, Hungary, Italy, Latvia, Poland, Romania, Slovakia
3 Cyprus, Denmark, Estonia, Finland, Lithuania, Luxembourg, Malta, Slovenia, Sweden

Zhluk 1 (Belgicko, Bulharsko, Francúzsko, Nemecko, Grécko, Holandsko, Portugalsko, Španielsko): Tento zhluk tvorí skupina krajín s vyššou dopravnou záťažou, vyšším hlukom a najvyššími nákladmi na bývanie. Väčšina z nich patrí medzi väčšie a hustejšie osídlené štáty, kde vysoká urbanizácia a priemyselná aktivita prinášajú väčšiu environmentálnu záťaž.

Zhluk 2 (Rakúsko, Chorvátsko, Česko, Maďarsko, Taliansko, Lotyšsko, Poľsko, Rumunsko, Slovensko): Tento zhluk zahŕňa krajiny s najvyššou bytovou depriváciou a vysokými hodnotami PM2.5 úmrtí. Na druhej strane dosahujú najvyšší podiel verejnej dopravy, čo naznačuje relatívne dobre rozvinuté systémy hromadnej dopravy.

Zhluk 3 (Cyprus, Dánsko, Estónsko, Fínsko, Litva, Luxembursko, Malta, Slovinsko, Švédsko): Tretí zhluk tvorí prevažne menšie krajiny s najpriaznivejším profilom udržateľnosti — najnižšou bytovou depriváciou, najnižšími dopravnými úmrtiami aj predčasnými úmrtiami vplyvom PM2.5. Nižšia miera recyklácie však naznačuje priestor na zlepšenie v tejto oblasti.

Zhluková analýza rozdelila krajiny EÚ do troch skupín podľa ich profilu udržateľnosti miest. Dôležité je, že skupiny nevznikli na základe geografického členenia, ale čisto z dát — a napriek tomu vykazujú geografickú konzistenciu, čo potvrdzuje robustnosť výsledkov.

Faktorová analýza

Overenie podmienok

Pred samotnou faktorovou analýzou overíme, či sú dáta na jej použitie vhodné. Aplikujeme KMO test a Bartlettov test sférickosti.

KMO test – vhodnosť dát pre faktorovú analýzu
Ukazovateľ Hodnota
KMO index (celkový) 0.521
Interpretácia Hraničný (≥ 0.5)
Bartlettov test sférickosti
Ukazovateľ Hodnota
Chi-square 60.191
Stupne voľnosti 28
p-hodnota < 0.001

KMO index dosiahol hodnotu 0.521, čo sa pohybuje na hranici akceptovateľnosti — dáta sú teda pre faktorovú analýzu použiteľné, no s určitou opatrnosťou. Nízka hodnota KMO naznačuje, že korelácie medzi premennými nie sú silne podmienené spoločnými faktormi, čo môže ovplyvniť jasnosť výsledkov. Bartlettov test sférickosti dosiahol hodnotu Chi-square 60.191 s p-hodnotou nižšou ako 0.001. To znamená, že korelačná matica sa štatisticky významne líši od jednotkovej matice — medzi premennými teda existujú korelácie a faktorová analýza má zmysel.

Určenie počtu faktorov

Rovnako ako pri PCA, aj tu musíme určiť počet faktorov, ktoré má zmysel ponechať. Vychádzame z tabuľky vlastných čísel a scree plotu.

Vlastné čísla a vysvetlená variabilita faktorov
Faktor Vlastné.číslo Vysvetlená.variabilita…. Kumulatívna.variabilita….
1 2.497 31.2 31.2
2 1.702 21.3 52.5
3 1.252 15.7 68.2
4 0.875 10.9 79.1
5 0.699 8.7 87.8
6 0.585 7.3 95.1
7 0.272 3.4 98.5
8 0.118 1.5 100.0

PZ tabuľky vlastných čísel vyplýva, že Kaiserovo kritérium (vlastné číslo > 1) spĺňajú tri faktory. Prvý faktor vysvetľuje 31.2 % variability, druhý 21.3 % a tretí 15.7 %. Spolu tieto tri faktory vysvetľujú 68.2 % celkovej variability, čo znamená, že väčšinu informácie obsiahnutej v ôsmich pôvodných premenných je možné zachytiť pomocou troch latentných dimenzií. Scree plot tento záver potvrdzuje — krivka klesá najstrmšie pri prvých troch faktoroch a pri štvrtom faktore sa dostáva pod červenú čiaru predstavujúcu Kaiserovo kritérium. Faktory štyri až osem majú vlastné číslo nižšie ako 1 a neprinášajú dostatočný analytický prínos. Do faktorovej analýzy teda vstupujú tri faktory.

Výsledky faktorovej analýzy

Faktorovú analýzu sme realizovali s rotáciou Varimax, ktorá transformuje faktory tak, aby každá premenná mala vysokú záťaž ideálne len na jednom faktore. Výsledky sú vďaka tomu výrazne ľahšie interpretovateľné.

Faktorové záťaže po rotácii Varimax (|záťaž| > 0.5 = signifikantná)
Faktor 1 Faktor 2 Faktor 3
housing_deprivation 0.412 -0.264 0.471
noise_exposure -0.152 0.518 -0.163
log_traffic_deaths 0.987 0.077 -0.119
log_pm25_deaths 0.878 -0.005 0.081
recycling_rate 0.026 -0.027 -0.492
public_transport 0.030 -0.160 -0.167
crime_exposure 0.215 0.958 0.174
housing_cost_overburden 0.360 0.470 0.354
Vysvetlená variabilita faktorov po rotácii Varimax
ML1 ML2 ML3
SS loadings 2.116 1.509 0.695
Proportion Var 0.265 0.189 0.087
Cumulative Var 0.265 0.453 0.540
Proportion Explained 0.490 0.349 0.161
Cumulative Proportion 0.490 0.839 1.000

Tabuľka faktorových záťaží ukazuje, ktoré premenné sa viažu ku ktorému faktoru. Záťaže nad 0.5 alebo pod -0.5 považujeme za signifikantné.

Prvý faktor má výrazné záťaže pri log_traffic_deaths (0.987) a log_pm25_deaths (0.878) — zachytáva teda dimenziu absolútnej environmentálnej záťaže z dopravy a znečistenia ovzdušia. Keďže ide o absolútne počty, tento faktor do veľkej miery odráža aj veľkosť krajiny.

Druhý faktor dominuje pri crime_exposure (0.958) a noise_exposure (0.518) — zachytáva subjektívne vnímanie bezpečnosti a hlukovú záťaž, čo môže súvisieť s hustotou mestského osídlenia.

Tretí faktor má jedinú signifikantnú záťaž pri recycling_rate (-0.492), ktorá je síce tesne pod hranicou 0.5, ale naznačuje, že tento faktor súvisí s mierou recyklácie. Záporné znamienko znamená, že krajiny s vysokým skóre na tomto faktore majú nižšiu mieru recyklácie.

Treba poznamenať, že výsledky faktorovej analýzy nie sú úplne čisté — niektoré premenné ako housing_deprivation a housing_cost_overburden nemajú výraznú záťaž na žiadnom faktore, čo môže súvisieť s hraničnou hodnotou KMO indexu.

Interpretácia faktorov

Graf vizualizuje faktorové záťaže zo predchádzajúcej tabuľky. Červené čiary označujú hranicu signifikancie ±0.5 — stĺpce, ktoré ju presahujú, indikujú, že daná premenná patrí k tomu faktoru. Z grafu je zrejmé, že počet dopravných úmrtí a predčasných úmrtí vplyvom PM2.5 majú výrazne červené stĺpce presahujúce hranicu 0.5 doprava — jednoznačne patria k prvému faktoru. Vnímanie kriminality má dominantný modrý stĺpec — patrí k druhému faktoru, pričom aj hluk má pri druhom faktore záťaž blízko hranice signifikancie. Miera recyklácie má zelený stĺpec smerujúci doľava, čo naznačuje negatívnu väzbu na tretí faktor. Ostatné premenné — bytová deprivácia, náklady na bývanie a verejná doprava — nemajú výrazné záťaže pri žiadnom faktore, čo potvrdzuje záver z predchádzajúcej tabuľky, že tieto premenné sa do faktorovej štruktúry nezapadajú jednoznačne.

Faktor 1 – Absolútna environmentálna záťaž: Tento faktor je dominantne spojený s počtom dopravných úmrtí (0.987) a predčasných úmrtí vplyvom PM2.5 (0.878). Zachytáva celkovú environmentálnu záťaž krajiny, ktorá súvisí nielen s kvalitou dopravnej infraštruktúry a priemyselnou aktivitou, ale aj s veľkosťou krajiny — väčšie krajiny majú prirodzene vyššie absolútne počty.

Faktor 2 – Mestská záťaž a vnímanie bezpečnosti: Tento faktor dominuje pri vnímaní kriminality (0.958) a čiastočne pri hluku (0.518). Zachytáva subjektívnu kvalitu života v mestskom prostredí — krajiny s vysokým skóre na tomto faktore majú obyvateľov, ktorí vo svojom okolí vnímajú viac kriminality aj hluku, čo môže súvisieť s vyššou hustotou urbanizácie.

Faktor 3 – Recyklácia a odpadové hospodárstvo: Tretí faktor je spojený predovšetkým s mierou recyklácie (-0.492). Záporná záťaž znamená, že krajiny s vysokým skóre na tomto faktore majú nižšiu mieru recyklácie. Väzba na verejnú dopravu je slabá a nesignifikantná.

Treba poznamenať, že premenné ako bytová deprivácia, náklady na bývanie a verejná doprava sa do faktorovej štruktúry nezaradili jednoznačne, čo môže byť dôsledkom hraničnej hodnoty KMO indexu. Výsledky faktorovej analýzy teda potvrdzujú existenciu troch dimenzií udržateľnosti, avšak nie všetky premenné sú v tejto štruktúre rovnako dobre zachytené.

Záver a odporúčania

Projekt sa zameral na porovnanie všetkých 27 členských štátov EÚ v oblasti udržateľnosti miest na základe ôsmich indikátorov SDG 11 za rok 2023.

Popisná analýza odhalila výrazné rozdiely medzi krajinami. V miere recyklácie vedú Nemecko, Rakúsko a Slovinsko, zatiaľ čo najvyššiu bytovú depriváciu vykazuje Lotyšsko, Rumunsko a Grécko. Najvyššie preťaženie nákladmi na bývanie dosahuje Grécko, nasledované Dánskom a Nemeckom. Najvyššiu hlukovú záťaž majú Malta, Luxembursko a Portugalsko.

PCA odhalila, že rozdiely medzi krajinami možno vysvetliť prostredníctvom troch hlavných dimenzií: absolútna environmentálna záťaž z dopravy a znečistenia, mestská záťaž a vnímanie bezpečnosti a zelená infraštruktúra a recyklácia. Zhluková analýza rozdelila krajiny do troch skupín — krajiny s vysokou dopravnou záťažou a nákladmi na bývanie, krajiny s rozvinutou verejnou dopravou a vyššou bytovou depriváciou a krajiny s nízkou environmentálnou záťažou — pričom K-means aj PAM poskytli konzistentné výsledky.

Faktorová analýza potvrdila existenciu troch dimenzií udržateľnosti, avšak s hraničnou hodnotou KMO indexu (0.521), čo naznačuje, že vzťahy medzi premennými nie sú silne podmienené spoločnými faktormi. Nie všetky premenné sa do faktorovej štruktúry zaradili jednoznačne — predovšetkým bytová deprivácia, náklady na bývanie a verejná doprava.

Na základe výsledkov odporúčame zamerať sa na podporu investícií do recyklačnej infraštruktúry najmä v krajinách ako Rumunsko, Malta a Cyprus, ktoré výrazne zaostávajú. Krajinám s vysokou bytovou depriváciou ako Lotyšsko a Rumunsko odporúčame cielenú podporu z fondov EÚ v oblasti dostupného bývania. Grécko by malo prioritne riešiť problém preťaženia nákladmi na bývanie, ktorý je v rámci EÚ najvýraznejší.