1 Wstęp

1.1 Problem badawczy

W analizie regionalnej bardzo często chcemy odpowiedzieć na pytanie: które województwa „radzą sobie najlepiej”, a które wymagają wsparcia – ale nie da się tego wiarygodnie opisać jednym wskaźnikiem. Zamiast tego korzysta się z zestawu miar cząstkowych (np. dochody, inwestycje, wynagrodzenia, edukacja, rynek pracy, mieszkalnictwo). Problem badawczy w niniejszym projekcie brzmi:

  1. Jak wygląda ranking województw w ujęciu wielowymiarowym (na podstawie 11 wskaźników)?
  2. Czy wnioski są spójne, gdy użyjemy różnych metod MSA (Hellwig/TMR, PCA, analiza skupień)?
  3. Czy można wskazać grupy województw o podobnym profilu (klastry) oraz zinterpretować je ekonomicznie?

1.2 Cel i zakres pracy

Celem projektu jest:

  • przygotowanie danych i zmiennych do analizy wielowymiarowej,
  • wyznaczenie miernika syntetycznego i rankingu województw metodą Hellwiga (TMR),
  • redukcja wymiaru i interpretacja „ukrytych wymiarów” metodą PCA,
  • wyodrębnienie klastrów województw (metoda hierarchiczna i niehierarchiczna),
  • porównanie zgodności wyników (stabilność rankingu i grup).

Analiza ma charakter przekrojowy (jeden moment w czasie) i obejmuje 16 województw opisanych 11 zmiennymi.

1.3 Uzasadnienie zastosowania MSA

Metody MSA są tu uzasadnione, bo:

  • pozwalają zbudować jedną miarę syntetyczną z wielu wskaźników (ranking),
  • pozwalają zobaczyć, które zmienne „najmocniej różnicują” województwa (PCA),
  • umożliwiają wyodrębnienie grup podobnych regionów (klastry), co ma sens decyzyjny.

Uwaga (ważne w interpretacji): część zmiennych ma charakter „w liczbach bezwzględnych” (np. dochody województwa, wydatki inwestycyjne, liczba bezrobotnych). To może wzmacniać tzw. efekt skali (większe województwa mają większe wartości). W części „Ograniczenia” wskazujemy, że alternatywnie warto rozważyć wskaźniki per capita.

2 Charakterystyka danych i zmiennych

2.1 Źródło danych

Dane wczytujemy z pliku dane_do_analizy.csv (zintegrowany zbiór). Dane pochodzą z GUS/BDL, raportów urzędowych itp.

2.1.1 wczytanie danych

2.2 Dobór zmiennych diagnostycznych

W analizie wykorzystano 11 zmiennych diagnostycznych (wskaźników). Dla porządku grupujemy je tematycznie.

Zestaw zmiennych diagnostycznych i ich charakter
Obszar Charakter Zmienna Krótki_opis
Edukacja Stymulanta absolwenci_uczelni_wyz Liczba/udział absolwentów (im więcej, tym korzystniej)
Rynek pracy Destymulanta Bezrobocie Liczba bezrobotnych (im mniej, tym lepiej)
Rynek mieszkaniowy Destymulanta Cena_za_1m2 Cena 1 m² mieszkania (koszt – im mniej, tym lepiej)
Finanse i rozwój Stymulanta dochody_woj Dochody województwa (wyższe = większy potencjał)
Demografia Stymulanta gestosc_zaludnienia Gęstość zaludnienia (proxy urbanizacji/rynku)
Zdrowie Stymulanta ilosc_lekarzy Liczba lekarzy (dostępność usług zdrowotnych)
Warunki mieszkaniowe Stymulanta pow_na_mieszkanca Powierzchnia na mieszkańca (komfort mieszkaniowy)
Wynagrodzenia Stymulanta Wyn_brutto Średnie wynagrodzenie brutto (siła nabywcza)
Ceny Destymulanta wskaznik_cen_ogolem Wskaźnik cen ogółem (presja cenowa – im mniej, tym lepiej)
Inwestycje Stymulanta Wydatki_inw_woj Wydatki inwestycyjne województwa (aktywność rozwojowa)
Wyniki edukacyjne Stymulanta zdawalnosc_matur Zdawalność matur (kapitał ludzki)

2.3 Podział na stymulanty / destymulanty / nominanty

W analizie przyjmujemy klasyczny podział:

  • stymulanta: wyższa wartość oznacza korzystniejszą sytuację,
  • destymulanta: wyższa wartość oznacza gorszą sytuację,
  • nominanta: najlepsza jest wartość „pośrednia” (nie wydzielono nominant).
Klasyfikacja zmiennych w badaniu
Zmienna Typ
absolwenci_uczelni_wyz stymulanta
Bezrobocie destymulanta
Cena_za_1m2 destymulanta
dochody_woj stymulanta
gestosc_zaludnienia stymulanta
ilosc_lekarzy stymulanta
pow_na_mieszkanca stymulanta
Wyn_brutto stymulanta
wskaznik_cen_ogolem destymulanta
Wydatki_inw_woj stymulanta
zdawalnosc_matur stymulanta

3 Wyniki analizy empirycznej

3.1 Analiza PCA

W PCA chcemy sprawdzić:

  • ile głównych wymiarów wystarcza, aby opisać zróżnicowanie województw,
  • które zmienne najsilniej budują te wymiary,
  • jak województwa układają się w przestrzeni PC1–PC2.

3.1.1 wybór zmiennych numerycznych

## 'data.frame':    16 obs. of  11 variables:
##  $ absolwenci_uczelni_wyz: num  98 62 86 28 68 107 107 54 58 63 ...
##  $ Bezrobocie            : num  20513 22410 23382 4294 21280 ...
##  $ Cena_za_1m2           : num  481437 342826 422103 320802 374485 ...
##  $ dochody_woj           : num  2.66e+09 1.93e+09 1.77e+09 9.48e+08 2.00e+09 ...
##  $ gestosc_zaludnienia   : num  143.8 110.4 79.5 69.3 128.8 ...
##  $ ilosc_lekarzy         : num  50.2 40.1 53.6 31 57.8 49.5 59.2 36.1 38.1 52.8 ...
##  $ pow_na_mieszkanca     : num  33 29.4 32.5 31.1 33.2 32 34.5 32.8 30 33.5 ...
##  $ Wyn_brutto            : num  8867 7711 7771 7887 8096 ...
##  $ wskaznik_cen_ogolem   : num  103 104 103 104 103 ...
##  $ Wydatki_inw_woj       : num  6.29e+08 4.78e+08 4.46e+08 3.11e+08 4.59e+08 ...
##  $ zdawalnosc_matur      : num  82.6 82.8 83.1 83.1 83.4 87 85.5 81 84.1 82.4 ...

3.1.2 ujednolicenie kierunku (destymulanty → stymulanty)

Żeby później łatwiej porównywać PCA i Hellwiga, wprowadzamy przekształcenie destymulant:

\[ x' = \max(x) - x \]

Przekształcenie destymulant dało poniższe wyniki:

##  absolwenci_uczelni_wyz   Bezrobocie     Cena_za_1m2      dochody_woj       
##  Min.   : 28.00         Min.   :    0   Min.   :     0   Min.   :9.401e+08  
##  1st Qu.: 52.00         1st Qu.:23237   1st Qu.:272050   1st Qu.:1.239e+09  
##  Median : 65.50         Median :28074   Median :335408   Median :1.967e+09  
##  Mean   : 68.69         Mean   :26286   Mean   :294962   Mean   :2.234e+09  
##  3rd Qu.: 86.50         3rd Qu.:31332   3rd Qu.:373000   3rd Qu.:2.710e+09  
##  Max.   :107.00         Max.   :40620   Max.   :401174   Max.   :6.757e+09  
##  gestosc_zaludnienia ilosc_lekarzy   pow_na_mieszkanca   Wyn_brutto   
##  Min.   : 55.80      Min.   :31.00   Min.   :28.60     Min.   : 7515  
##  1st Qu.: 77.33      1st Qu.:38.48   1st Qu.:31.18     1st Qu.: 7747  
##  Median :113.00      Median :44.40   Median :31.95     Median : 7923  
##  Mean   :124.61      Mean   :45.07   Mean   :31.82     Mean   : 8164  
##  3rd Qu.:132.55      3rd Qu.:52.35   3rd Qu.:32.85     3rd Qu.: 8558  
##  Max.   :347.90      Max.   :59.20   Max.   :34.50     Max.   :10019  
##  wskaznik_cen_ogolem Wydatki_inw_woj     zdawalnosc_matur
##  Min.   :0.0000      Min.   :2.759e+08   Min.   :81.00   
##  1st Qu.:0.4000      1st Qu.:4.393e+08   1st Qu.:82.78   
##  Median :0.7000      Median :5.414e+08   Median :83.10   
##  Mean   :0.8625      Mean   :6.306e+08   Mean   :83.64   
##  3rd Qu.:1.4250      3rd Qu.:6.977e+08   3rd Qu.:84.33   
##  Max.   :1.6000      Max.   :1.906e+09   Max.   :87.00

3.1.3 PCA ze standaryzacją

Standaryzacja jest konieczna, bo zmienne są w różnych jednostkach (PLN, liczby, % itd.).

pca <- prcomp(X_pca, center = TRUE, scale. = TRUE)
print(pca)
## Standard deviations (1, .., p=11):
##  [1] 2.48278322 1.26291916 0.94289428 0.91119366 0.77898985 0.63959767
##  [7] 0.53452977 0.37526114 0.22365341 0.15817011 0.06330219
## 
## Rotation (n x k) = (11 x 11):
##                               PC1          PC2          PC3          PC4
## absolwenci_uczelni_wyz -0.3377896 -0.158915623  0.003518841  0.086851567
## Bezrobocie              0.3233261 -0.008072819 -0.436841426  0.183868383
## Cena_za_1m2             0.3559270 -0.002834928 -0.095608731  0.210937547
## dochody_woj            -0.3798345  0.086534800  0.031323551 -0.192461911
## gestosc_zaludnienia    -0.2260258  0.269361273 -0.349084820  0.677971497
## ilosc_lekarzy          -0.2986773 -0.374819484  0.045995368  0.361907016
## pow_na_mieszkanca      -0.2357096 -0.487632996 -0.396136831 -0.006748306
## Wyn_brutto             -0.3632235 -0.030862258 -0.179280319 -0.083937151
## wskaznik_cen_ogolem     0.1243531 -0.584409351  0.495155509  0.242077615
## Wydatki_inw_woj        -0.3560924  0.115927783 -0.004761379 -0.273933326
## zdawalnosc_matur       -0.2008695  0.400533702  0.490705346  0.381783871
##                                PC5         PC6         PC7          PC8
## absolwenci_uczelni_wyz  0.37641250  0.59677699 -0.09140977  0.313030749
## Bezrobocie              0.38908097 -0.23196817  0.29974502 -0.003876864
## Cena_za_1m2            -0.52017455 -0.04469105 -0.03982827  0.016062632
## dochody_woj            -0.23629610 -0.02645062  0.20014384  0.226484791
## gestosc_zaludnienia    -0.27111382  0.21844207  0.18426660  0.153895532
## ilosc_lekarzy          -0.10818974 -0.07935760 -0.45617120 -0.536195360
## pow_na_mieszkanca       0.06156906 -0.49358114 -0.15237464  0.422060278
## Wyn_brutto              0.13900846 -0.05539680  0.55145668 -0.559397302
## wskaznik_cen_ogolem    -0.12869513  0.02335504  0.52674743  0.148685116
## Wydatki_inw_woj        -0.40616837 -0.19235593  0.11113003  0.095905106
## zdawalnosc_matur        0.30109005 -0.49909827 -0.03117278  0.129956841
##                                PC9        PC10        PC11
## absolwenci_uczelni_wyz  0.10044530  0.19255706 -0.44916342
## Bezrobocie              0.59712551  0.11987373 -0.06908790
## Cena_za_1m2            -0.14718791  0.50348155 -0.51970292
## dochody_woj             0.25542854  0.63973440  0.43338496
## gestosc_zaludnienia    -0.09311447 -0.25498239  0.20568738
## ilosc_lekarzy           0.33296201  0.09249840  0.06473057
## pow_na_mieszkanca      -0.31673212 -0.02056253 -0.01330727
## Wyn_brutto             -0.35315120  0.13305235 -0.21468266
## wskaznik_cen_ogolem     0.07207950 -0.12308204  0.04689156
## Wydatki_inw_woj         0.43873080 -0.40419209 -0.45312209
## zdawalnosc_matur       -0.06476624  0.12482046 -0.18784013

3.1.3.1 Interpretacja

  • W PCA zawsze otrzymujemy tyle składowych, ile zmiennych (tu: 11), ale do opisu danych zwykle wystarcza 2–3.
  • Odchylenia standardowe składowych (z print(pca)) mówią, jak „ważna” jest dana składowa.

3.1.4 wartości własne i wyjaśniona wariancja

PCA: wartości własne i wyjaśniona wariancja (pierwsze 6 składowych)
Składowa Wartość_własna Udział_wariancji Skumulowany_udział
PC1 6.164 0.560 0.560
PC2 1.595 0.145 0.705
PC3 0.889 0.081 0.786
PC4 0.830 0.075 0.862
PC5 0.607 0.055 0.917
PC6 0.409 0.037 0.954

3.1.4.1 Interpretacja

  • PC1 wyjaśnia ok. 56% wariancji, PC2 ok. 14.5%.
  • Łącznie PC1+PC2 wyjaśniają ok. 70.5%, co jest dobrą redukcją wymiaru (z 11 zmiennych do 2 osi).
  • Zgodnie z kryterium Kaisera (λ>1), zachowujemy składowe o wartości własnej >1:
kaiser_k <- sum(eigenvalues > 1)
kaiser_k
## [1] 2

Wynik sugeruje zachowanie 2 składowych, ale do wykresów i klastrów najczęściej wybiera się 2 (łatwa wizualizacja) lub 3 (więcej informacji).

3.1.5 ładunki (loadings) i interpretacja PC1–PC2

PCA: ładunki (loadings) dla PC1–PC3
PC1 PC2 PC3
absolwenci_uczelni_wyz -0.338 -0.159 0.004
Bezrobocie 0.323 -0.008 -0.437
Cena_za_1m2 0.356 -0.003 -0.096
dochody_woj -0.380 0.087 0.031
gestosc_zaludnienia -0.226 0.269 -0.349
ilosc_lekarzy -0.299 -0.375 0.046
pow_na_mieszkanca -0.236 -0.488 -0.396
Wyn_brutto -0.363 -0.031 -0.179
wskaznik_cen_ogolem 0.124 -0.584 0.495
Wydatki_inw_woj -0.356 0.116 -0.005
zdawalnosc_matur -0.201 0.401 0.491

Aby ułatwić interpretację, wypisujemy zmienne o największych (bezwzględnych) ładunkach:

PC1: największe dodatnie ładunki
Zmienna Ladunek
Cena_za_1m2 0.356
Bezrobocie 0.323
wskaznik_cen_ogolem 0.124
zdawalnosc_matur -0.201
gestosc_zaludnienia -0.226
PC1: największe ujemne ładunki
Zmienna Ladunek
dochody_woj -0.380
Wyn_brutto -0.363
Wydatki_inw_woj -0.356
absolwenci_uczelni_wyz -0.338
ilosc_lekarzy -0.299
PC2: największe dodatnie ładunki
Zmienna Ladunek
zdawalnosc_matur 0.401
gestosc_zaludnienia 0.269
Wydatki_inw_woj 0.116
dochody_woj 0.087
Cena_za_1m2 -0.003
PC2: największe ujemne ładunki
Zmienna Ladunek
wskaznik_cen_ogolem -0.584
pow_na_mieszkanca -0.488
ilosc_lekarzy -0.375
absolwenci_uczelni_wyz -0.159
Wyn_brutto -0.031

3.1.5.1 Interpretacja PC1 (najważniejszy wymiar)

Na podstawie ładunków widzimy, że PC1 jest najsilniej związana z:

  • dochodami województw, wynagrodzeniami brutto, wydatkami inwestycyjnymi województw oraz częściowo z absolwentami uczelni wyższych i ilością lekarzy na 10 tys. mieszkańców (czyli potencjał ekonomiczny i instytucjonalny),
  • jednocześnie (w naszych danych) w PC1 ujawnia się też efekt kosztów/rynku (np. relacja do średniej ceny za 1 m2 mieszkania i bezrobocia) – co często wynika z tego, że duże/metropolitalne województwa mają zarówno wysokie dochody, jak i wysokie koszty życia oraz większe liczby absolutne.

W praktyce PC1 można nazwać roboczo: „ogólny potencjał ekonomiczny / skala województwa”.

3.1.5.2 Interpretacja PC2 (drugi wymiar)

PC2 wnosi dodatkową informację (ok. 14.5%). Drugi „profil”, niezależny od skali – np. różnice w warunkach mieszkaniowych/usługach vs presja cenowa/edukacja (dokładnie widać to po ładunkach PC2).

3.1.6 scores i ranking wg PC1

Ranking województw wg wartości PC1
Nazwa PC1
WARMIŃSKO-MAZURSKIE 2.916
LUBUSKIE 2.819
OPOLSKIE 2.438
ŚWIĘTOKRZYSKIE 1.590
KUJAWSKO-POMORSKIE 1.373
ZACHODNIOPOMORSKIE 1.212
PODLASKIE 0.828
PODKARPACKIE 0.504
LUBELSKIE 0.107
WIELKOPOLSKIE 0.032
ŁÓDZKIE -0.156
POMORSKIE -0.622
DOLNOŚLĄSKIE -1.366
ŚLĄSKIE -1.748
MAŁOPOLSKIE -2.881
MAZOWIECKIE -7.043

3.1.7 Co stoi za wysokim i niskim PC1? (profil skrajnych województw)

Dla bardziej „konkretnej” interpretacji pokazujemy profile kilku województw skrajnych (najwyższe i najniższe PC1).

  • wartości > 0 oznaczają wynik powyżej średniej (po standaryzacji),
  • wartości < 0 oznaczają wynik poniżej średniej.

Pokazujemy tylko zmienne, które mają największe ładunki w PC1 (czyli najsilniej budują ten wymiar).

PCA: profile (Z-score) województw skrajnych wg PC1 (zmienne kluczowe)
Nazwa Cena_za_1m2 Bezrobocie wskaznik_cen_ogolem zdawalnosc_matur gestosc_zaludnienia dochody_woj Wyn_brutto Wydatki_inw_woj absolwenci_uczelni_wyz ilosc_lekarzy
LUBUSKIE 0.92 1.52 -1.60 -0.37 -0.76 -0.92 -0.42 -0.81 -1.72 -1.59
MAŁOPOLSKIE -1.74 -0.30 -1.23 2.26 1.38 0.45 0.99 -0.02 1.62 0.50
MAZOWIECKIE -2.56 -2.78 -0.49 1.25 0.41 3.22 2.81 3.25 1.62 1.60
OPOLSKIE 0.88 1.13 1.37 -1.78 -0.35 -0.92 -0.31 -0.90 -0.62 -1.02
ŚLĄSKIE 0.66 -0.02 -0.86 0.44 3.05 0.75 0.56 0.96 0.01 0.81
WARMIŃSKO-MAZURSKIE 0.81 0.54 1.19 0.51 -0.94 -0.70 -0.96 -0.90 -1.00 -1.45

3.1.7.1 Interpretacja rankingu PC1

  • Województwa o najwyższym PC1 (np. WARMIŃSKO-MAZURSKIE, LUBUSKIE) mają najwyższe wartości syntetycznego wymiaru PC1.
  • Najniższe PC1 (np. MAZOWIECKIE) wskazuje województwa najsłabsze w tym wymiarze.

3.1.8 wykres PCA (PC1 vs PC2)

3.1.8.1 Interpretacja wykresu PCA

  • Punkty położone blisko siebie oznaczają województwa o podobnym profilu zmiennych.
  • Skrajne położenie (np. bardzo duże PC1) wskazuje „odstające” województwa – jest to województwo Mazowieckie (dominacja metropolitalna).
  • Oś PC2 różnicuje województwa „w poprzek” PC1 – czyli regiony o podobnej skali mogą się różnić strukturą (np. warunki mieszkaniowe, presja cenowa, edukacja).

3.2 Porządkowanie liniowe – metoda Hellwiga (TMR)

W metodzie Hellwiga budujemy jedną miarę syntetyczną na bazie odległości od wzorca (obiektu idealnego). To metoda „wzorcowa” – łatwa interpretacyjnie: im bliżej ideału, tym lepiej.

3.2.1 destymulanty → stymulanty

X_h <- X_num
for(v in dest){
  X_h[[v]] <- max(X_h[[v]], na.rm=TRUE) - X_h[[v]]
}

3.2.2 standaryzacja

Z <- scale(X_h)

3.2.3 wzorzec (pattern) i odległość od wzorca

Ranking województw wg Hellwiga (TMR)
Nazwa TMR
ŚLĄSKIE 0.453
MAZOWIECKIE 0.384
MAŁOPOLSKIE 0.360
DOLNOŚLĄSKIE 0.352
ŁÓDZKIE 0.293
POMORSKIE 0.272
WIELKOPOLSKIE 0.259
LUBELSKIE 0.228
ŚWIĘTOKRZYSKIE 0.202
PODLASKIE 0.193
ZACHODNIOPOMORSKIE 0.179
PODKARPACKIE 0.157
KUJAWSKO-POMORSKIE 0.146
OPOLSKIE 0.122
WARMIŃSKO-MAZURSKIE 0.063
LUBUSKIE 0.048

3.2.4 Co „ciągnie” województwa w górę i w dół? (profil skrajnych TMR)

Poniżej zestawiamy kilka województw o najwyższych i najniższych wartościach TMR oraz ich wartości znormalizowane (Z-score) dla wszystkich zmiennych.

  • wartości > 0 oznaczają poziom powyżej średniej,
  • wartości < 0 oznaczają poziom poniżej średniej.
Hellwig: profile (Z-score) liderów i outsiderów TMR
Nazwa absolwenci_uczelni_wyz Bezrobocie Cena_za_1m2 dochody_woj gestosc_zaludnienia ilosc_lekarzy pow_na_mieszkanca Wyn_brutto wskaznik_cen_ogolem Wydatki_inw_woj zdawalnosc_matur
LUBUSKIE -1.72 1.52 0.92 -0.92 -0.76 -1.59 -0.46 -0.42 -1.60 -0.81 -0.37
MAŁOPOLSKIE 1.62 -0.30 -1.74 0.45 1.38 0.50 0.11 0.99 -1.23 -0.02 2.26
MAZOWIECKIE 1.62 -2.78 -2.56 3.22 0.41 1.60 1.71 2.81 -0.49 3.25 1.25
OPOLSKIE -0.62 1.13 0.88 -0.92 -0.35 -1.02 0.62 -0.31 1.37 -0.90 -1.78
ŚLĄSKIE 0.01 -0.02 0.66 0.75 3.05 0.81 0.05 0.56 -0.86 0.96 0.44
WARMIŃSKO-MAZURSKIE -1.00 0.54 0.81 -0.70 -0.94 -1.45 -2.06 -0.96 1.19 -0.90 0.51

Województwa wysoko w rankingu mają dodatnie odchylenia w kluczowych stymulantach (dochody, wynagrodzenia, inwestycje), a po transformacji destymulant – również korzystniejsze wartości w kosztach/obciążeniach.

3.2.5 Interpretacja rankingu Hellwiga

Wartości TMR można interpretować jako syntetyczny poziom rozwoju (w sensie wielowymiarowym):

  • Liderzy (najwyższe TMR): ŚLĄSKIE, MAZOWIECKIE, MAŁOPOLSKIE, DOLNOŚLĄSKIE, ŁÓDZKIE.
  • „Środek stawki”: województwa o umiarkowanych wartościach TMR (zwykle zrównoważony profil, ale bez skrajnie wysokich wartości).
  • Najsłabsze (najniższe TMR): PODKARPACKIE, KUJAWSKO-POMORSKIE, OPOLSKIE, WARMIŃSKO-MAZURSKIE, LUBUSKIE.

Województwa wysoko w rankingu zwykle charakteryzują się wyższymi dochodami, inwestycjami i wynagrodzeniami, a jednocześnie (po transformacji destymulant) niższymi kosztami/obciążeniami.

3.2.6 Wykres: ranking Hellwiga

3.2.7 Klasy rozwoju (niski / średni / wysoki / bardzo wysoki)

Dzielimy województwa na klasy na podstawie średniej i odchylenia standardowego TMR.

Hellwig: klasy rozwoju (podział mean ± sd)
Nazwa TMR Klasa
ŚLĄSKIE 0.453 bardzo wysoki
MAZOWIECKIE 0.384 bardzo wysoki
MAŁOPOLSKIE 0.360 bardzo wysoki
DOLNOŚLĄSKIE 0.352 bardzo wysoki
ŁÓDZKIE 0.293 wysoki
POMORSKIE 0.272 wysoki
WIELKOPOLSKIE 0.259 wysoki
LUBELSKIE 0.228 średni
ŚWIĘTOKRZYSKIE 0.202 średni
PODLASKIE 0.193 średni
ZACHODNIOPOMORSKIE 0.179 średni
PODKARPACKIE 0.157 średni
KUJAWSKO-POMORSKIE 0.146 średni
OPOLSKIE 0.122 średni
WARMIŃSKO-MAZURSKIE 0.063 niski
LUBUSKIE 0.048 niski

3.2.8 Kartogram (kafelkowy) dla wyników Hellwiga

Poniżej pokazano kartogram kafelkowy, gdzie kolor odpowiada wartości TMR.

Poniżej czytelna wizualizacja porównawcza dla 16 województw.

Województwa z wyższym TMR (ciemniejsze pola) to liderzy rankingu Hellwiga. Jeśli liderzy „skupiają się” na południu kraju oraz w województwie mazowieckim, może to sugerować przestrzenną koncentrację potencjału rozwojowego.

3.3 Zgodność uporządkowań: Hellwig vs PCA

Ranking wg PC1 bywa bardzo podobny do rankingu Hellwiga – bo obie metody „agregują” podobną informację, tylko inaczej:

  • Hellwig: porównanie do wzorca (podejście „normatywne”),
  • PCA: wyznaczenie dominującego wymiaru zmienności danych (podejście „danych”).

3.3.1 Porównanie rankingów i korelacje rang

##    Spearman Kendall_tau 
##  -0.9470588  -0.8333333

3.3.1.1 Interpretacja

Współczynnik Spearmana jest wysoki (blisko 1), oznacza to, że województwa są w podobnej kolejności niezależnie od tego, czy użyjemy PCA (PC1), czy Hellwiga.

W naszym badaniu:

  • Spearman ≈ -0.947
  • Kendall τ ≈ -0.833

co sugeruje bardzo wysoką zgodność rankingów.

3.4 Analiza skupień (hierarchiczna) – metoda Warda

Klasteryzację wykonano na wynikach PCA (PC1–PC2), aby uniknąć nadmiarowości i silnych korelacji między zmiennymi. Stosujemy to samo podejście.

3.4.1 dane do klasteryzacji (PC1–PC2)

##                           PC1        PC2
## DOLNOŚLĄSKIE       -1.3662337 -1.2540441
## KUJAWSKO-POMORSKIE  1.3729109  0.7599635
## LUBELSKIE           0.1065552 -1.8636312
## LUBUSKIE            2.8188992  1.5089256
## ŁÓDZKIE            -0.1561878 -1.6604221
## MAŁOPOLSKIE        -2.8813988  1.5096534

3.4.2 macierz odległości i dendrogram (Ward.D2)

3.4.3 wybór liczby klastrów

Przyjmujemy k=3 (czytelny podział na: liderów / średniaków / resztę), ponieważ silhouette dla k=2..6.

3.4.4 przypisanie do klastrów (k=3) i interpretacja

Przynależność województw do klastrów (Ward, k=3)
Nazwa Klaster_Ward
DOLNOŚLĄSKIE DOLNOŚLĄSKIE 1
LUBELSKIE LUBELSKIE 1
PODLASKIE PODLASKIE 1
ŁÓDZKIE ŁÓDZKIE 1
KUJAWSKO-POMORSKIE KUJAWSKO-POMORSKIE 2
LUBUSKIE LUBUSKIE 2
OPOLSKIE OPOLSKIE 2
PODKARPACKIE PODKARPACKIE 2
POMORSKIE POMORSKIE 2
WARMIŃSKO-MAZURSKIE WARMIŃSKO-MAZURSKIE 2
WIELKOPOLSKIE WIELKOPOLSKIE 2
ZACHODNIOPOMORSKIE ZACHODNIOPOMORSKIE 2
ŚWIĘTOKRZYSKIE ŚWIĘTOKRZYSKIE 2
MAZOWIECKIE MAZOWIECKIE 3
MAŁOPOLSKIE MAŁOPOLSKIE 3
ŚLĄSKIE ŚLĄSKIE 3

3.4.5 Skład klastrów (lista województw)

Żeby łatwiej opisać wyniki, poniżej agregujemy województwa w każdej grupie oraz pokazujemy średnią wartość TMR w klastrze (który klaster jest „najsilniejszy”).

Skład klastrów (Ward, k=3)
Klaster_Ward Województwa
1 DOLNOŚLĄSKIE, LUBELSKIE, ŁÓDZKIE, PODLASKIE
2 KUJAWSKO-POMORSKIE, LUBUSKIE, OPOLSKIE, PODKARPACKIE, POMORSKIE, ŚWIĘTOKRZYSKIE, WARMIŃSKO-MAZURSKIE, WIELKOPOLSKIE, ZACHODNIOPOMORSKIE
3 MAŁOPOLSKIE, MAZOWIECKIE, ŚLĄSKIE
Średnia wartość TMR w klastrach (Ward)
Klaster_Ward Średni_TMR
3 0.399
1 0.266
2 0.161

3.4.5.1 Interpretacja klastrów

Żeby opisać klastry, liczymy średnie znormalizowane wartości zmiennych w każdym klastrze.

Profile klastrów (średnie Z-score w klastrze)
Klaster_Ward absolwenci_uczelni_wyz Bezrobocie Cena_za_1m2 dochody_woj gestosc_zaludnienia ilosc_lekarzy pow_na_mieszkanca Wyn_brutto wskaznik_cen_ogolem Wydatki_inw_woj zdawalnosc_matur
1 0.43 -0.11 0.05 -0.23 -0.31 0.97 0.78 -0.03 0.81 -0.33 -0.52
2 -0.55 0.39 0.38 -0.39 -0.40 -0.75 -0.56 -0.47 -0.07 -0.32 -0.21
3 1.08 -1.03 -1.21 1.48 1.61 0.97 0.62 1.45 -0.86 1.40 1.32
  • Klaster z najwyższym PC1/TMR: województwa o najwyższym potencjale ekonomicznym i „metropolitalnym” profilu.
  • Klaster pośredni: regiony o dobrych wynikach w części wskaźników, ale bez skrajnej dominacji.
  • Klaster pozostały: większość województw o umiarkowanych/niższych wynikach.

3.4.6 Wizualizacja klastrów na wykresie PCA

3.5 Analiza skupień (niehierarchiczna) – k-means (k=3)

Wykonujemy także k-means dla k=3 (na PC1–PC2).

Przynależność do klastrów (k-means, k=3)
Nazwa Klaster_kmeans
MAZOWIECKIE MAZOWIECKIE 1
KUJAWSKO-POMORSKIE KUJAWSKO-POMORSKIE 2
LUBUSKIE LUBUSKIE 2
OPOLSKIE OPOLSKIE 2
PODKARPACKIE PODKARPACKIE 2
WARMIŃSKO-MAZURSKIE WARMIŃSKO-MAZURSKIE 2
ZACHODNIOPOMORSKIE ZACHODNIOPOMORSKIE 2
ŚWIĘTOKRZYSKIE ŚWIĘTOKRZYSKIE 2
DOLNOŚLĄSKIE DOLNOŚLĄSKIE 3
LUBELSKIE LUBELSKIE 3
MAŁOPOLSKIE MAŁOPOLSKIE 3
PODLASKIE PODLASKIE 3
POMORSKIE POMORSKIE 3
WIELKOPOLSKIE WIELKOPOLSKIE 3
ŁÓDZKIE ŁÓDZKIE 3
ŚLĄSKIE ŚLĄSKIE 3
##          PC1        PC2
## 1 -7.0430401 -0.1972268
## 2  1.8358407  0.4943645
## 3 -0.7259806 -0.4079155

3.5.1 Porównanie wyników: Ward vs k-means

Poniższa tabela pokazuje, na ile oba algorytmy dają zbliżone grupowania (to prosta forma „analizy stabilności” klastrów).

##    
##     1 2 3
##   1 0 0 4
##   2 0 7 2
##   3 1 0 2

Jeśli w tabeli widać „największe wartości na przekątnej”, oznacza to, że obie metody w dużym stopniu zgadzają się co do przynależności województw.

3.5.1.1 Krótka interpretacja

  • Jeżeli k-means tworzy klaster jednoelementowy, zwykle oznacza to odstający region (np. Mazowieckie).
  • Różnice Ward vs k-means traktujemy jako informację o wrażliwości grupowania na metodę.

4 Dyskusja i interpretacja

4.1 Znaczenie ekonomiczne wyników

  • Ranking Hellwiga pokazuje syntetyczny poziom rozwoju oparty na wielu wskaźnikach.
  • PCA pokazuje, że większość zróżnicowania województw można opisać przez 1–2 dominujące wymiary (PC1, PC2).
  • Klastry pomagają przejść z „rankingu 1..16” do praktycznego podziału na kilka grup podobnych regionów.

4.2 Implikacje decyzyjne

Przykładowe zastosowania:

  • Polityka regionalna / fundusze: województwa z niskim TMR mogą być priorytetem działań.
  • Benchmarking: województwa w tym samym klastrze można porównywać i szukać „dobrych praktyk”.
  • Planowanie: PCA wskazuje, które zmienne są kluczowe w różnicowaniu regionów.

4.3 Ograniczenia analizy

  1. Brak dynamiki w czasie: dane są przekrojowe. Analiza zmian wymaga danych dla kilku lat.
  2. Efekt skali: część zmiennych jest w wartościach bezwzględnych (dochody, inwestycje, liczba bezrobotnych). W przyszłości warto przeliczyć je per capita.
  3. Interpretacja ceny 1m²: zależy od celu badania – można ją potraktować jako destymulantę (koszt) lub pośrednio jako stymulantę (atrakcyjność rynku). Tu przyjęto wariant kosztowy.

4.4 Wnioski końcowe

  • Zbudowano ranking województw metodą Hellwiga (TMR) i wskazano liderów oraz regiony o najsłabszej sytuacji.
  • PCA potwierdziła, że pierwsze dwie składowe niosą dużą część informacji (70.5% wariancji).
  • Wyniki Hellwiga i PCA (PC1) są bardzo zgodne (Spearman ≈ -0.947), co zwiększa wiarygodność wniosków.
  • Analiza skupień (Ward i k-means) wskazała sensowne grupy województw o podobnym profilu.

Rekomendacja na przyszłość: zebrać dane z kilku lat i wykonać analizę zmian rankingu oraz migracji województw między klastrami.