Analisis Cluster Hierarki Dalam Pengelompokan Kabupaten/Kota di Provinsi Jawa Barat Berdasarkan Faktor-Faktor Penyebab Tingkat Pengangguran Terbuka

Raras Ahlul Risca Rahmadani

2024-11-30

1 PENDAHULUAN

1.1 Latar Belakang

Pengangguran adalah suatu keadaan di mana angkatan kerja yang ingin memperoleh pekerjaan belum mendapatkannya, sedangkan tingkat pengangguran adalah persentase angkatan kerja yang menganggur (Yanuar, 2018). Salah satu jenis tingkat pengangguran adalah tingkat pengangguran terbuka yang secara khusus merujuk pada persentase angkatan kerja yang tidak memiliki pekerjaan tetapi aktif mencari pekerjaan dan siap untuk bekerja. Tingkat pengangguran terbuka sering dijadikan indikator utama dalam menilai tingkat pengangguran di suatu wilayah, karena mencerminkan besarnya masalah pengangguran yang nyata di pasar kerja.

Terdapat beberapa provinsi di Indonesia yang masih mengalami masalah tingkat pengangguran terbuka. Berdasarkan Data Badan Pusat Statistik (BPS), di tahun 2023 Provinsi Jawa Barat memiliki tingkat pengangguran terbuka sebesar 6,91% pada semester pertama, dan 6,75% pada semester kedua, di mana kedua nilai ini lebih tinggi dibandingkan provinsi lain di Indonesia. Menurut Suharnanik (2023), tingginya tingkat pengangguran terbuka dapat disebabkan oleh berbagai faktor, seperti faktor ekonomi dan faktor demografi, faktor-faktor seperti kepadatan penduduk, laju pertumbuhan penduduk, upah minimum kabupaten/kota, dan tingkat partisipasi angkatan kerja merupakan variabel-variabel penting yang perlu dianalisis untuk memahami pola pengangguran di wilayah tersebut.

Metode analisis cluster hierarki dapat digunakan untuk mengelompokkan kabupaten/kota di Jawa Barat berdasarkan kesamaan karakteristik dari variabel-variabel tersebut. Pendekatan ini memungkinkan identifikasi kelompok wilayah dengan pola-pola tingkat pengangguran terbuka yang serupa, sehingga kebijakan yang diterapkan dapat disesuaikan dengan kebutuhan spesifik setiap kelompok. Sebagai contoh, wilayah dengan kepadatan penduduk tinggi dan laju pertumbuhan penduduk cepat mungkin memerlukan pendekatan berbeda dibandingkan wilayah dengan tingkat partisipasi angkatan kerja rendah atau upah minimum kabupaten/kota yang tidak kompetitif.

1.2 Rumusan Masalah

  1. Bagaimana pengelompokan kabupaten/kota di Provinsi Jawa Barat berdasarkan karakteristik tingkat pengangguran terbuka menggunakan analisis cluster hierarki?

  2. Apa faktor yang mendasari pembentukan kelompok kabupaten/kota tersebut berdasarkan analisis cluster hierarki?

  3. Bagaimana hasil pengelompokan dapat digunakan untuk merumuskan rekomendasi kebijakan yang efektif?

1.3 Tujuan

  1. Mengelompokkan kabupaten/kota di Provinsi Jawa Barat berdasarkan faktor-faktor penyebab tingkat pengangguran terbuka untuk mengidentifikasi pola pengangguran dan kelompok wilayah yang memiliki karakteristik serupa

  2. Mengidentifikasi faktor-faktor yang membedakan setiap kelompok kabupaten/kota berdasarkan hasil analisis cluster

  3. Memberikan rekomendasi kebijakan berbasis hasil pengelompokan kabupaten/kota guna mendukung perumusan program penanggulangan pengangguran yang lebih efektif dan sesuai dengan karakteristik setiap cluster

2 TINJAUAN PUSTAKA

2.1 Analisis Cluster

Analisis cluster merupakan teknik statistik yang digunakan untuk mengelompokkan objek ke dalam beberapa kelompok sedemikian rupa sehingga objek-objek dalam satu kelompok memiliki tingkat kesamaan yang tinggi dibandingkan dengan objek di kelompok lainnya (Silvi, 2018). Objek-objek yang berada dalam satu kelompok diharapkan memiliki tingkat kesamaan yang lebih tinggi dibandingkan dengan objek-objek dari kelompok lainnya (Hair, Black, Babin, dan Anderson, 2010). Analisis ini banyak digunakan di berbagai bidang, termasuk ekonomi, pemasaran, biologi, dan geografi, untuk menemukan pola-pola tersembunyi dalam data.

Secara umum, analisis cluster dibagi menjadi dua metode , yaitu metode hierarki dan metode non-hierarki. Metode hierarki merupakan metode pengelompokan ketika jumlah cluster belum diketahui. Metode ini bekerja melalui proses penggabungan bertahap (agglomerative) atau pemisahan bertahap (divisive). Sementara itu, pada metode non-hierarki, jumlah cluster harus ditentukan terlebih dahulu berdasarkan preferensi atau kebutuhan peneliti.

2.2 Uji Asumsi Analisis Cluster

1. Uji Sampel Representatif

Sampel representatif adalah keadaan ketika sampel yang diambil dapat merepresentasikan atau mewakili populasi yang ada (Suparto, dan Johanes, 2004). Asumsi sampel representatif ini dapat dilakukan menggunakan uji Kaiser Meyer Olkin (KMO), dengan rumus:

\[KMO = \frac{\sum_{i}\sum_{i \neq j} r_{ij}^2}{\sum_{i}\sum_{i \neq j} r_{ij}^2 + + \sum_{i}\sum_{i \neq j}a_{ij}^2}\]

di mana:

\(r_{ij}\) : koefisien korelasi sederhana antara variabel i dan j

\(a_{ij}\) : koefisien korelasi parsial antara variabel i dan j

Jika nilai uji KMO menunjukkan sebesar 0.5 sampai 1, maka sampel dikatakan telah representatif atau mewakili populasi.

2. Uji Non-Multikolinieritas

Uji non-multikolinieritas dalam analisis cluster bertujuan untuk memastikan bahwa tidak ada variabel yang memiliki korelasi yang sangat tinggi dengan variabel lainnya. Apabila nilai mutlak koefisien korelasi antar variabel independen menunjukkan nilai lebih dari 0.8 maka dikatakan telah terjadi masalah multikolinieritas, sebaliknya apabila koefisien korelasi menunjukkan nilai kurang dari 0.8 maka model telah memenuhi asumsi non-multikolinieritas. (Gujarati, 1995)

2.3 Standarisasi Data

Standarisasi variabel dalam data dilakukan ketika terdapat perbedaan satuan yang signifikan diantara variabel-variabel yang digunakan dalam penelitian. Proses standarisasi dilakukan dengan melakukan transformasi data ke dalam bentuk normal baku Z~N(0,1), dengan menggunakan rumus: \[Z = \frac{X-\mu }\sigma \] di mana:

\(X\) : Data ke-i

\(\mu\) : Rata-rata variabel

\(\sigma\) : Simpangan baku variabel

2.4 Jarak Euclidian

Jarak euclidian merupakan salah satu ukuran jarak yang paling umum digunakan dalam analisis cluster di mana jarak ini menggunakan prinsip phytagoras. Jarak euclidian merupakan perhitungan jarak dari dua buah titik dalam euclidian space untuk mempelajari hubungan antara sudut dan jarak. Rumus yang digunakan dalam mencari jarak euclidian ialah sebagai berikut:

\[d(x, y) = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2}\] di mana:

\(d(x,y)\) : Jarak euclidian antara dua objek data \(x\) dan \(y\)

\(x_i\) : Nilai variabel ke-\(i\) pada objek \(x\)

\(y_i\) : Nilai variabel ke-\(i\) pada objek \(y\)

2.5 Metode Analisis Cluster Hierarki

Metode cluster hierarki memiliki dua teknik, yaitu teknik penggabungan bertahap (agglomerative) dan pemisahan bertahap (divisive)

1. Teknik Agglomerative

Teknik agglomerative dilakukan dengan memulai pengelompokan dengan menjadikan setiap objek sebagai cluster individual, kemudian secara bertahap menggabungkannya hingga semua objek tergabung dalam satu cluster besar. Pada teknik ini terdapat beberapa metode pengelompokan, diantaranya:

a. Single Linkage

Metode ini mengukur jarak antar dua cluster berdasarkan jarak terpendek antara dua titik di masing-masing cluster. Rumus yang digunakan dalam metode ini adalah sebagai berikut: \[d_{ij} = \min(d_{pj};d_{qj})\]

b. Complete Linkage

Metode ini mengukur jarak antar dua cluster berdasarkan jarak terjauh antara dua titik di masing-masing cluster. Rumus yang digunakan dalam metode ini adalah sebagai berikut: \[d_{ij} = \max(d_{pj};d_{qj})\]

c. Average Linkage

Metode ini mengukur jarak antar dua cluster berdasarkan rata-rata jarak semua pasangan titik diantara dua cluster, di mana metode ini paling sering digunakan diantara metode lainnya. Rumus yang digunakan dalam metode ini adalah sebagai berikut:

\[d_{ij} =\ average (d_{pj};d_{qj})\]

d. Ward’s Method

Metode ini dilakukan dengan tujuan untuk meminimalkan jumlah kuadrat dari deviasi antara cluster yang digabungkan. Rumus yang digunakan dalam metode ini adalah sebagai berikut: \[ESS = \sum_{k=1}^{K} \left[ \sum_{i=1}^{nk} \sum_{j=1}^{p} X_{ijk}^2 - \frac{1}{nk} \sum_{j=1}^{p} \left( \sum_{i=1}^{nk} X_{ijk} \right)^2 \right]\] di mana:

\(ESS\) : Error Sum of Squares

\(K\) : jumlah cluster

\(nk\) : jumlah observasi dalam setiap cluster \(k\)

\(p\) : jumlah variabel

\(X_{ijk}\) : nilai observasi untuk variabel ke-\(j\) dalam observasi ke-\(i\) pada cluster ke-\(k\)).

e. Centroid Method

Metode ini dilakukan dengan menggunakan jarak antar cluster diukur sebagai jarak antara pusat massa (centroid) dari dua cluster. Rumus yang digunakan dalam metode ini adalah sebagai berikut: \[C_i = \frac{1}{M} \sum_{j=1}^{M} x_j\] di mana:

\(M\) : jumlah data pada cluster

\(i\) : fitur ke-\(i\) dalam sebuah cluster

2. Teknik Divisive

Berbeda dengan teknik agglomerative, teknik divisive dilakukan dengan memulai satu cluster besar berisi seluruh data, lalu secara bertahap memecahnya menjadi cluster lebih kecil hingga mencapai jumlah cluster yang diinginkan.

2.6 Koefisien Korelasi Cophenetic

Koefisien korelasi cophenetic merupakan ukuran yang dapat digunakan untuk menguji validitas cluster yang telah terbentuk. Koefisien ini mengukur korelasi antara jarak antar data yang diperoleh dari dendogram dengan jarak asli antar objek dalam matriks jarak euclidian. Rumus yang digunakan untuk mencari koefisien korelasi cophenetic adalah sebagai berikut:

\[r_{c} = \frac{\sum_{i<j}^n (d_{ij} - \bar{d})(d_{c_{ij}} - \bar{d}_{c})}{\sqrt{\left(\sum_{i<j}^n (d_{ij} - \bar{d})^2\right) \left(\sum_{i<j}^n (d_{c_{ij}} - \bar{d}_{c})^2\right)}}\]

di mana:

\(r_{c}\) : koefisien korelasi cophenetic

\(d_{ij}\) adalah jarak asli antara objek ke-\(i\) dan ke-\(j\)

\(\bar{d}\) : rata-rata \(d_{ij}\)

\(d_{c_{ij}}\) : jarak cophenetic objek ke-\(i\) dan ke-\(j\)

\(\bar{d}_{c}\) : rata-rata dari \(d_{c_{ij}}\)

2.7 Indeks Validitas Cluster

Validitas cluster digunakan untuk mengetahui apakah hasil pengelompokan dapat menjelaskan dan mewakili populasi yang sedang dianalisis. Validitas cluster juga berguna untuk menentukan jumlah kelompok optimal. Pengukuran validitas ini dapat dilakukan menggunakan beberapa indeks, diantaranya:

1. Indeks Connectivity

Pada indeks connectivity, nilai yang lebih rendah menunjukkan bahwa titik-titik dalam cluster terhubung dengan baik, yang berarti bahwa objek dalam cluster dekat satu sama lain dan berada dalam kelompok yang sama. Rumus yang digunakan dalam perhitungan ini adalah sebagai berikut:

\[Conn(C) = \frac{S - S_{min}}{S_{max}-S_{min}}\] di mana:

\(S\) : total jarak pada semua pasangan objek amatan dari kelompok yang sama dengan jumlah pasangan tersebut

\(S_{min}\) : total jarak terkecil jika semua pasangan objek berada pada kelompok yang berbeda

\(S_{max}\) : total jarak terbesar semua pasangan

2. Indeks Silhouette

Indeks silhouette menggabungkan informasi mengenai kedekatan titik data dengan cluster yang sama dan jaraknya dari cluster terdekat lainnya. Pada indeks silhouette, nilai yang lebih besar atau mendekati 1 menunjukkan bahwa jumlah cluster yang terbentuk semakin optimal. Rumus yang digunakan dalam perhitungan ini adalah sebagai berikut:

\[S(i) = \frac{b(i) - a(i)}{\max\{a(i), b(i)\}}\] di mana:

\(a(i)\) : rata-rata kemiripan antara objek ke-\(i\) dengan objek lain di dalam cluster

\(b(i)\) : rata-rata kemiripan antara objek ke-\(i\) dengan objek lain di luar cluster

3. Indeks Dunn

Indeks dunn mengukur rasio antara jarak minimum antar cluster dengan diameter maksimum cluster. Semakin besar nilai indeks dunn, semakin baik hasil pengelompokannya. Rumus yang digunakan dalam perhitungan ini adalah sebagai berikut:

\[C = \frac{d_{\min}}{d_{\max}}\] di mana:

\(d_{min}\) : jarak terkecil antara obsevasi pada cluster yang berbeda

\(d_{max}\) : jarak terbesar antara obsevasi pada cluster yang berbeda

2.8 Data

Data yang digunakan merupakan data sekunder yang diperoleh dari website Badan Pusat Statistik (BPS) dan Jaringan Dokumentasi dan Informasi Hukum (JDIH) Provinsi Jawa Barat pada tahun 2023.

Tabel 1.1 Data

3 SOURCE CODE

3.1 Library

> library(psych)
> library(GPArotation)
> library(clValid)
> library(ggplot2)
> library(cluster)
> library(factoextra)
> library(tidyverse)
> library(car)
> library(readxl)

Berikut merupakan library yang akan digunakan dalam pemrograman ini agar lebih efisien:

  • library (“psych”) digunakan untuk kebutuhan analisis statistik psikometri meliputi statistik deskriptif dan juga uji KMO

  • library (“GPArotation”) digunakan untuk rotasi dalam analisis faktor

  • library (“clValid”) digunakan untuk validasi dan penilaian kualitas cluster yang dihasilkan dari metode clustering

  • library (“ggplot2”) digunakan untuk visualisasi data

  • library (“cluster”) digunakan untuk berbagai analisis cluster

  • library (“factoextra”) digunakan untuk visualisasi hasil analisis cluster dan analisis faktor

  • library (“tidyverse”) digunakan untuk manipulasi data dan analisis di R

  • library (“car”) digunakan untuk analisis regresi seperti uji multikolinieritas

  • library (“readxl”) digunakan untuk membaca file Excel (.xls dan .xlsx) ke dalam R

3.2 Impor Data

> datalaprak <- read_excel("C:/Users/ASUS/Documents/SEMESTER 5/Analisis Multivariat/laprakpt2.xlsx")
> datalaprak <- data.frame(datalaprak)
> datalaprak
           Kab.Kota KEP.PEND  TPAK     UMK LAJU.PERT
1             Bogor     1881 64.22 4520212      1.32
2          Sukabumi      673 67.75 3351883      1.02
3           Cianjur      704 72.31 2893229      1.17
4           Bandung     2138 67.10 3492465      0.97
5             Garut      865 70.10 2117318      1.36
6       Tasikmalaya      705 68.37 2499954      0.81
7            Ciamis      784 66.26 2021657      0.66
8          Kuningan     1007 61.95 2010734      1.05
9           Cirebon     2202 66.16 2430780      1.42
10       Majalengka     1008 68.50 2180602      0.97
11         Sumedang      752 67.76 3471134      0.81
12        Indramayu      912 63.88 2541996      1.18
13           Subang      762 70.03 3273810      1.23
14       Purwakarta     1044 66.37 4464675      1.41
15         Karawang     1320 63.40 5176179      1.28
16           Bekasi     2588 65.00 5137575      1.44
17    Bandung Barat     1449 67.01 3480795      1.43
18      Pangandaran      382 80.15 2018389      0.67
19       Kota Bogor     9614 64.81 4639429      0.96
20    Kota Sukabumi     7465 62.57 2747774      1.48
21     Kota Bandung    15047 66.97 4048462      0.92
22     Kota Cirebon     8671 68.71 2456516      0.94
23      Kota Bekasi    12332 64.65 5158248      1.18
24       Kota Depok    10732 62.76 4694493      1.55
25      Kota Cimahi    13924 68.43 3514093      1.41
26 Kota Tasikmalaya     4033 65.44 2533341      1.29
27      Kota Banjar     1584 67.44 1998119      1.17

Mengimpor file data dari excel ke R dengan menggunakan fungsi ‘read_excel’ yang kemudian disimpan dalam variabel datalaprak.

Keterangan:

  • \(KEP.PEND\) = Kepadatan Penduduk (Jiwa/\(km^2\))

  • \(TPAK\) = Tingkat Partisipasi Angkatan Kerja (%)

  • \(UMK\) = Upah Minimum Kabupaten/Kota (Rp)

  • \(LAJU.PERT\) = Laju Pertumbuhan Penduduk (%)

3.3 Statistika Deskriptif

> statdes <- summary(datalaprak)
> statdes
   Kab.Kota            KEP.PEND            TPAK            UMK         
 Length:27          Min.   :  382.0   Min.   :61.95   Min.   :1998119  
 Class :character   1st Qu.:  824.5   1st Qu.:64.73   1st Qu.:2443648  
 Mode  :character   Median : 1449.0   Median :66.97   Median :3273810  
                    Mean   : 3873.3   Mean   :66.97   Mean   :3291625  
                    3rd Qu.: 5749.0   3rd Qu.:68.40   3rd Qu.:4256568  
                    Max.   :15047.0   Max.   :80.15   Max.   :5176179  
   LAJU.PERT    
 Min.   :0.660  
 1st Qu.:0.965  
 Median :1.180  
 Mean   :1.152  
 3rd Qu.:1.385  
 Max.   :1.550  

Melakukan analisis statistika deskriptif dengan fungsi summary() kemudian disimpan dalam variabel statdes, yang menunjukkan rangkuman ukuran pemusatan dan persebaran data dari setiap variabel.

3.4 Uji Asumsi

1. Uji Sampel Representatif

> # Uji Sampel Representatif
> kmo <- KMO(datalaprak[,2:5])
> kmo
Kaiser-Meyer-Olkin factor adequacy
Call: KMO(r = datalaprak[, 2:5])
Overall MSA =  0.68
MSA for each item = 
 KEP.PEND      TPAK       UMK LAJU.PERT 
     0.67      0.69      0.67      0.68 

Melakukan uji sampel representatif menggunakan fungsi KMO() dengan argumen data [,2:5] yang menunjukkan bahwa data yang perlu dianalisis terletak pada kolom kedua sampai kolom kelima.

2. Uji Non-Multikolinieritas

> #Uji Non-Multikolinieritas
> korelasi <- cor(datalaprak[,2:5], method = 'pearson')
> korelasi
            KEP.PEND       TPAK        UMK  LAJU.PERT
KEP.PEND   1.0000000 -0.2408320  0.4016322  0.1640469
TPAK      -0.2408320  1.0000000 -0.3968584 -0.4396940
UMK        0.4016322 -0.3968584  1.0000000  0.3715833
LAJU.PERT  0.1640469 -0.4396940  0.3715833  1.0000000

Melakukan uji non multikolinieritas menggunakan matriks korelasi antar variabel dengan fungsi cor().

3.5 Standarisasi Data

> datastand <- scale(datalaprak[,2:5])
> datastand
         KEP.PEND         TPAK         UMK   LAJU.PERT
 [1,] -0.43076040 -0.757043397  1.13126784  0.66062528
 [2,] -0.69195059  0.215904367  0.05548525 -0.51802335
 [3,] -0.68524786  1.472743404 -0.36683756  0.07130097
 [4,] -0.37519262  0.036749679  0.18493138 -0.71446479
 [5,] -0.65043692  0.863617467 -1.08128661  0.81777844
 [6,] -0.68503164  0.386790376 -0.72896021 -1.34307739
 [7,] -0.66795050 -0.194773301 -1.16937005 -1.93240171
 [8,] -0.61973410 -1.382706689 -1.17942781 -0.40015849
 [9,] -0.36135473 -0.222335561 -0.79265476  1.05350816
[10,] -0.61951788  0.422621314 -1.02301550 -0.71446479
[11,] -0.67486944  0.218660593  0.16529006 -1.34307739
[12,] -0.64027472 -0.850755079 -0.69024847  0.11058925
[13,] -0.67270727  0.844323885 -0.01640338  0.30703069
[14,] -0.61173407 -0.164454816  1.08013007  1.01421987
[15,] -0.55205816 -0.983053925  1.73527396  0.50347213
[16,] -0.27789495 -0.542057772  1.69972789  1.13208474
[17,] -0.52416617  0.011943646  0.17418579  1.09279645
[18,] -0.75486975  3.633624556 -1.17237918 -1.89311342
[19,]  1.24124598 -0.594426065  1.24104134 -0.75375308
[20,]  0.77659556 -1.211820680 -0.50077069  1.28923789
[21,]  2.41595317  0.000918742  0.69688639 -0.91090623
[22,]  1.03735331  0.480502059 -0.76895738 -0.83232965
[23,]  1.82892390 -0.638525680  1.71876333  0.11058925
[24,]  1.48297663 -1.159452387  1.29174358  1.56425590
[25,]  2.17314143  0.403327732  0.20484617  1.01421987
[26,]  0.03453867 -0.420783830 -0.69821789  0.54276042
[27,] -0.49497686  0.130461362 -1.19104354  0.07130097
attr(,"scaled:center")
    KEP.PEND         TPAK          UMK    LAJU.PERT 
3.873259e+03 6.696667e+01 3.291625e+06 1.151852e+00 
attr(,"scaled:scale")
    KEP.PEND         TPAK          UMK    LAJU.PERT 
4.624982e+03 3.628150e+00 1.086027e+06 2.545288e-01 
> rownames(datastand) <- 1:nrow(datastand)

Melakukan standarisasi data menggunakan fungsi scale() dikarenakan antar variabel memiliki satuan yang berbeda dan kemudian disimpan dalam variabel datastand.

3.6 Jarak Euclidian

> jarak <- dist(datastand, method = "euclidean")
> jarak
           1         2         3         4         5         6         7
2  1.8871588                                                            
3  2.7619442 1.4509821                                                  
4  1.8492216 0.4333331 1.7550182                                        
5  2.7558835 1.8702600 1.1999634 2.1703795                              
6  2.9746063 1.1512249 1.8195859 1.2036945 2.2409803                    
7  3.5198197 1.9157163 2.7275986 1.8592506 2.9481769 0.9379616          
8  2.6252128 2.0247654 3.0067365 2.0087114 2.5573261 2.0560644 1.9394280
9  2.0363115 1.8682614 2.0308251 2.0368406 1.1839507 2.4946905 3.0252823
10 2.8211784 1.1179139 1.4680171 1.2914052 1.5958065 0.6979959 1.3741586
11 2.4412138 0.8325086 1.9637865 0.7200259 2.5767844 0.9099750 1.5164420
12 1.9165436 1.4462729 2.3466585 1.5180867 1.8953110 1.9100176 2.1987377
13 2.0162078 1.0397901 0.7572589 1.3508071 1.1814008 1.8547460 2.7247266
14 0.7152321 1.8838190 2.3808893 1.9713362 2.4018205 3.0230617 3.7076824
15 0.6747699 2.3069924 3.2640963 2.2267046 3.3840324 3.3728846 3.8736618
16 0.7842241 2.4844193 3.1018245 2.4594387 3.1539722 3.6129590 4.2303132
17 1.3049305 1.6366374 1.8697707 1.8135923 1.5469772 2.6297418 3.3196946
18 5.5867149 3.8837217 3.0301940 4.0389563 3.8782829 3.3235477 3.8295871
19 2.1987647 2.4197099 3.3541850 2.0317895 3.6833780 2.9835450 3.3172352
20 2.1733003 2.7875869 3.2932019 2.7148767 2.6273823 3.4165868 3.7345797
21 3.3669992 3.2048459 3.7255812 2.8447260 4.0369849 3.4619090 3.7516827
22 3.0865267 1.9593361 2.2203933 1.7652190 2.4116010 1.7994040 2.1759014
23 2.4016474 3.2010165 3.8897033 2.8892008 4.0919507 3.9339221 4.3527491
24 2.1602368 3.5335727 4.0754703 3.3617397 3.8513330 4.4302322 4.8827029
25 3.0182863 3.2579070 3.2449896 3.1011503 3.1427994 3.8207685 4.3589651
26 1.9210632 1.6206447 2.1060923 1.6546252 1.5301159 2.1742325 2.6254492
27 2.5558211 1.3954341 1.5865811 1.5918118 1.0634665 1.5217794 2.0373982
           8         9        10        11        12        13        14
2                                                                       
3                                                                       
4                                                                       
5                                                                       
6                                                                       
7                                                                       
8                                                                       
9  1.9172796                                                            
10 1.8391472 1.9134816                                                  
11 2.2945107 2.6370532 1.3608408                                        
12 0.8851859 1.1714481 1.5535013 1.9974833                              
13 2.6105964 1.5474164 1.4957885 1.7740711 1.8349390                    
14 2.9309162 1.8907423 2.7850118 2.5582311 2.1030005 1.6504104          
15 3.0783660 2.7033356 3.3274622 2.7080980 2.4622756 2.5418160 1.1677939
16 3.3853879 2.5154191 3.4453430 3.0359855 2.6423575 2.3882528 0.8073575
17 2.4526245 1.0088204 2.2084457 2.4492864 1.5715304 1.1699032 0.9304267
18 5.2355329 4.8836515 3.4264244 3.7094848 4.9366048 3.7368253 5.2888826
19 3.1730637 3.1794486 3.1023095 2.4160199 2.8430253 2.9051072 2.6019283
20 2.3007769 1.5539551 2.9846436 3.3949592 1.8875922 2.7436384 2.3662875
21 3.8615068 3.7203412 3.5197400 3.1733204 3.6101902 3.4990439 3.6120942
22 2.5637362 2.4509816 1.6813715 2.0332116 2.3413613 2.2183672 3.1566324
23 3.9000137 3.4881014 3.9139450 3.3956112 3.4562004 3.3921076 2.7213885
24 3.7995851 2.9808264 4.1802055 4.0344739 3.2626568 3.4574494 2.3927292
25 3.8609265 2.7949378 3.5064673 3.7018486 3.3325331 2.9736174 2.9738915
26 1.5729042 0.6825649 1.6808423 2.2834577 0.9094415 1.6189916 1.9667660
27 1.5898588 1.1250623 0.8640192 1.9698344 1.1118617 1.4058932 2.4795027
          15        16        17        18        19        20        21
2                                                                       
3                                                                       
4                                                                       
5                                                                       
6                                                                       
7                                                                       
8                                                                       
9                                                                       
10                                                                      
11                                                                      
12                                                                      
13                                                                      
14                                                                      
15                                                                      
16 0.8161252                                                            
17 1.9429610 1.6420686                                                  
18 5.9626271 5.9215413 4.8886288                                        
19 2.2785637 2.4652199 2.8341295 5.3836447                              
20 2.7267157 2.5352364 1.9193060 6.0334189 2.7937067                    
21 3.5855276 3.5680729 3.5961735 5.2639865 1.4335879 3.2300537          
22 3.5670388 3.5677496 2.6932359 3.8002969 2.2898279 2.7395116 2.0701232
23 2.4377048 2.3434605 3.0513266 6.1074370 1.1500505 2.7841706 1.6855794
24 2.3440274 1.9583330 2.6214500 6.7828347 2.3986298 1.9469101 2.9490997
25 3.4571432 3.0248796 2.7268598 5.4182473 2.4623912 2.2655187 2.0418385
26 2.5658663 2.4919409 1.2502128 4.8186827 2.6321033 1.3313909 3.1477660
27 3.1612151 3.1593082 1.7094451 4.0247943 3.1836587 2.3191517 3.6082275
          22        23        24        25        26
2                                                   
3                                                   
4                                                   
5                                                   
6                                                   
7                                                   
8                                                   
9                                                   
10                                                  
11                                                  
12                                                  
13                                                  
14                                                  
15                                                  
16                                                  
17                                                  
18                                                  
19                                                  
20                                                  
21                                                  
22                                                  
23 2.9927675                                        
24 3.5886128 1.6390658                              
25 2.3778160 2.0766410 2.0982123                    
26 1.9271301 3.0489014 2.7653216 2.5081029          
27 1.8615234 3.8026800 3.7375559 3.1671620 1.0244067

Melakukan perhitungan jarak dari variabel datastand menggunakan metode euclidian dengan fungsi dist() dan hasilnya disimpan dalam variabel jarak.

3.7 Koefisien Korelasi Cophenetic

> d1 <- dist(datalaprak[,2:5])
> #Single Linkage
> hiers <- hclust(dist(datalaprak[,2:5]), method = "single")
> #korelasi cophenetic
> hc1 <- hclust(d1, "single")
> d2 <- cophenetic(hc1)
> cors <- cor(d1,d2)
> cors
[1] 0.799979
> #Average Linkage
> hierave <- hclust(dist(datalaprak[,2:5]), method = "ave")
> #korelasi cophenetic
> hc2 <- hclust(d1, "ave")
> d3 <- cophenetic(hc2)
> corave <- cor(d1,d3)
> corave
[1] 0.848085
> #Complete Linkage
> hiercomp <- hclust(dist(datalaprak[,2:5]), method = "complete")
> #korelasi cophenetic
> hc3 <- hclust(d1, "complete")
> d4 <- cophenetic(hc3)
> corcomp <- cor(d1,d4)
> corcomp
[1] 0.8459711
> #Centorid Linkage
> hiercen <- hclust(dist(datalaprak[,2:5]), method = "centroid")
> #korelasi cophenetic
> hc4 <- hclust(d1, "centroid")
> d5 <- cophenetic(hc4)
> corcen <- cor(d1,d5)
> corcen
[1] 0.8470935
> #Ward
> hierward <- hclust(dist(datalaprak[,2:5]), method = "ward.D")
> #korelasi cophenetic
> hc5 <- hclust(d1,"ward.D")
> d6 <- cophenetic(hc5)
> corward <- cor(d1,d6)
> corward
[1] 0.7464474
> KorCop<-data.frame(cors,corave,corcomp,corcen,corward)
> KorCop
      cors   corave   corcomp    corcen   corward
1 0.799979 0.848085 0.8459711 0.8470935 0.7464474

Melakukan analisis menggunakan seluruh metode dalam analisis cluster hierarki (single linkage, average linkage, complete linkage, centroid, dan ward) menggunakan fungsi hclust(). Kemudian dilakukan perhitungan koefisien korelasi cophenetic untuk berbagai metode menggunakan fungsi cophenetic() dan menghitung korelasi antara matriks jarak (d1) dengan masing-masing matriks cophenetic. Setelah itu hasil korelasi dari setiap metode dirangkum dalam data frame KorCop untuk memudahkan perbandingan.

3.8 Indeks Validitas Cluster

> inval <- clValid(datastand, 2:5, clMethods = "hierarchical", validation = "internal", metric = "euclidean", method = "average")
> summary(inval)

Clustering Methods:
 hierarchical 

Cluster sizes:
 2 3 4 5 

Validation Measures:
                                 2       3       4       5
                                                          
hierarchical Connectivity   2.9290 11.4460 16.5536 21.0492
             Dunn           0.6206  0.3147  0.2803  0.2803
             Silhouette     0.4490  0.3033  0.3126  0.3270

Optimal Scores:

             Score  Method       Clusters
Connectivity 2.9290 hierarchical 2       
Dunn         0.6206 hierarchical 2       
Silhouette   0.4490 hierarchical 2       
> optimalScores(inval)
                 Score       Method Clusters
Connectivity 2.9289683 hierarchical        2
Dunn         0.6205977 hierarchical        2
Silhouette   0.4489559 hierarchical        2
> plot(inval)

Melakukan pengujian validitas menggunakan fungsi (clValid) dari hasil analisis cluster menggunakan metode average linkage. Kemudian mencari dan menampilkan skor clustering yang optimal berdasarkan validasi menggunakan fungsi (optimalScores), dan melakukan visualisasi hasil evaluasi clustering menggunakan fungsi (plot) untuk mempermudah interpretasi.

3.9 Metode Average Linkage

> hirave <- hclust(dist(scale(datalaprak[,2:5])), method = "average")
> hirave

Call:
hclust(d = dist(scale(datalaprak[, 2:5])), method = "average")

Cluster method   : average 
Distance         : euclidean 
Number of objects: 27 
> plot(hirave, labels(datalaprak$Kab.Kota), hang = 1, col = "blue", main = "Cluster Dendogram", sub = " ", xlab = "KAB/KOTA", ylab = "Jarak")

> 
> anggotaave <- data.frame(id = datalaprak$Kab.Kota, cutree(hirave, k = 2))
> anggotaave
                 id cutree.hirave..k...2.
1             Bogor                     1
2          Sukabumi                     1
3           Cianjur                     1
4           Bandung                     1
5             Garut                     1
6       Tasikmalaya                     1
7            Ciamis                     1
8          Kuningan                     1
9           Cirebon                     1
10       Majalengka                     1
11         Sumedang                     1
12        Indramayu                     1
13           Subang                     1
14       Purwakarta                     1
15         Karawang                     1
16           Bekasi                     1
17    Bandung Barat                     1
18      Pangandaran                     2
19       Kota Bogor                     1
20    Kota Sukabumi                     1
21     Kota Bandung                     1
22     Kota Cirebon                     1
23      Kota Bekasi                     1
24       Kota Depok                     1
25      Kota Cimahi                     1
26 Kota Tasikmalaya                     1
27      Kota Banjar                     1
> clus_hier <- eclust(datastand, FUNcluster = "hclust", k = 2, hc_method = "average", graph = TRUE)
> fviz_dend(clus_hier, rect = TRUE, cex = 0.5)

> 
> idclus = clus_hier$cluster
> idclus
 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 
 1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  2  1  1  1  1  1  1  1  1 
27 
 1 
> aggregate(datalaprak,list(idclus),mean)
  Group.1 Kab.Kota KEP.PEND     TPAK     UMK LAJU.PERT
1       1       NA 4007.538 66.45962 3340595  1.170385
2       2       NA  382.000 80.15000 2018389  0.670000

Melakukan analisis cluster menggunakan fungsi hclust() dengan argumen data standarisasi dan menggunakan metode average linkage yang kemudian disimpan dalam variabel hirave. Menampilkan dendogram menggunakan fungsi (plot) dan menentukan anggota cluster dengan memasukkan jumlah cluster optimal dari hasil validasi ke dalam ‘k’. Kemudian menampilkan visualisasi dendogram dari hasil clustering hierarki dengan fungsi fviz_dens() dan menampilkan rata-rata untuk setiap variabel berdasarkan keanggotaan cluster menggunakan fungsi aggregate().

4 HASIL DAN PEMBAHASAN

4.1 Analisis Statistika Deksriptif

Tabel 4.1 Statistika Deskriptif Variabel
Variabel Min Mean Median Max
Kepadatan Penduduk (Jiwa/\(km^2\)) 382 3.873,3 1.449 15.047
Tingkat Partisipasi Angkatan Kerja (%) 61,95 66,97 66,97 80,15
Upah Minimum Kabupaten/Kota (Rp) 1.998.119 3.291.625 3.273.810 5.176.179
Laju Pertumbuhan Penduduk (%) 0,67 1,15 1,18 1,55

Berdasarkan hasil statistika deskriptif tersebut dapat diketahui bahwa:

  • Kepadatan penduduk memiliki variasi yang cukup besar di antara wilayah yang diamati. Nilai minimum kepadatan penduduk tercatat sebesar 382 jiwa/\(km^2\), sementara nilai maksimum mencapai 15.047 jiwa/\(km^2\). Median kepadatan penduduk berada pada 1.449 jiwa/\(km^2\), menunjukkan bahwa setengah dari wilayah memiliki kepadatan di bawah angka ini. Rata-rata kepadatan penduduk adalah 3.873,3 jiwa/\(km^2\), yang mencerminkan adanya beberapa wilayah dengan nilai yang jauh lebih tinggi dari mayoritas wilayah lainnya.

  • Tingkat Partisipasi Angkatan Kerja memiliki rentang nilai antara 61,95% sebagai nilai minimum dan 80,15% sebagai nilai maksimum. Median dan rata-rata TPAK tercatat pada angka yang sama, yaitu 66,97%, yang menunjukkan distribusi yang relatif terpusat di sekitar nilai tersebut. Meskipun demikian, terdapat beberapa wilayah dengan TPAK yang lebih rendah maupun lebih tinggi dari rata-rata.

  • Upah Minimum Kabupaten/Kota menunjukkan variasi dari nilai terendah sebesar Rp1.998.119 hingga nilai tertinggi Rp5.176.179. Median UMK berada pada angka Rp3.273.810, sedangkan rata-rata UMK tercatat sebesar Rp3.291.625. Hal ini mengindikasikan distribusi UMK yang cukup merata, meskipun terdapat perbedaan yang cukup signifikan di antara wilayah dengan nilai UMK tertinggi dan terendah.

  • Laju Pertumbuhan Penduduk di wilayah yang diamati memiliki nilai minimum sebesar 0,67% dan nilai maksimum 1,55%. Median laju pertumbuhan penduduk adalah 1,18%, sementara rata-rata tercatat sebesar 1,15%, yang menunjukkan bahwa sebagian besar wilayah memiliki tingkat pertumbuhan yang stabil di sekitar nilai tersebut. Rentang nilai yang relatif kecil ini menunjukkan keseragaman yang cukup tinggi dalam laju pertumbuhan penduduk antar wilayah.

4.2 Pengujian Asumsi

1. Uji Kaiser Meyer Olkin (KMO)

Berikut adalah hasil dari Uji KMO:

Tabel 4.2 Hasil Uji KMO
Variabel Uji KMO
Kepadatan Penduduk (Jiwa/\(km^2\)) 0.67
Tingkat Partisipasi Angkatan Kerja (%) 0.69
Upah Minimum Kabupaten/Kota (Rp) 0.67
Laju Pertumbuhan Penduduk (%) 0.68

Berdasarkan hasil uji KMO pada masing-masing variabel, dapat diketahui bahwa seluruh variabel bernilai lebih dari 0.5 sehingga dapat disimpulkan bahwa sampel telah cukup untuk bisa dilanjutkan analisis cluster.

2. Uji Non-Multikolinieritas

> korelasi
            KEP.PEND       TPAK        UMK  LAJU.PERT
KEP.PEND   1.0000000 -0.2408320  0.4016322  0.1640469
TPAK      -0.2408320  1.0000000 -0.3968584 -0.4396940
UMK        0.4016322 -0.3968584  1.0000000  0.3715833
LAJU.PERT  0.1640469 -0.4396940  0.3715833  1.0000000

Berdasarkan hasil uji non-multikolinieritas dapat diketahui bahwa semua nilai korelasi antar variabel kurang dari 0.8, sehingga dapat disimpulkan bahwa tidak terjadi multikolinieritas antar variabel.

4.3 Koefisien Korelasi Cophenetic

Koefisien korelasi cophenetic digunakan sebagai dasar dalam penentuan metode terbaik yang akan digunakan dalam analisis cluster. Metode dengan nilai korelasi mendekati 1 yang akan dipilih sebagai metode terbaik dalam penelitian ini. Berikut merupakan tabel nilai korelasi dari setiap metode:

Tabel 4.3 Koefisien Korelasi Cophenetic
Metode Nilai Korelasi
Single Linkage 0.799979
Average Linkage 0.848085
Complete Linkage 0.8459711
Centroid 0.8470935
Ward 0.7464474

Berdasarkan tabel di atas, diketahui bahwa nilai korelasi yang paling mendekati 1 adalah metode average linkage, sehingga metode average linkage dipilih sebagai metode terbaik.

4.4 Indeks Validitas Cluster

Untuk menentukan jumlah cluster yang optimal, dapat digunakan beberapa indeks validitas cluster, seperti indeks connectivity, indeks dunn, dan indeks silhouette. Berikut merupakan tabel yang menunjukkan hasil penentuan jumlah cluster optimal menggunakan metode average linkage:

Tabel 4.4 Indeks Validitas Cluster
Indeks Score Method Clusters
Connectivity 2.9289683 hierarchical 2
Dunn 0.6205977 hierarchical 2
Silhouette 0.4489559 hierarchical 2

Berdasarkan indeks connectivity, indeks dunn dan indeks silhouette terpilih jumlah cluster sebanyak dua sebagai cluster optimal pada metode average linkage berdasarkan faktor-faktor yang mempengaruhi tingkat pengangguran terbuka.

4.5 Cluster Dendogram

Berdasarkan grafik dendogram tersebut, didapatkan hasil pengelompokan metode average linkage Kabupaten/Kota di Provinsi Jawa Barat berdasarkan faktor-faktor penyebab Tingkat Pengangguran Terbuka terbentuk menjadi 2 cluster. Cluster kedua ditandai dengan grafik dendogram berwarna orange yang beranggotakan Kabupaten Pangandaran, sementara cluster pertama ditandai dengan grafik dendogram berwarna biru yang terdiri dari 26 Kota atau Kabupaten lain yang ada di Provinsi Jawa Barat.

4.6 Karakteristik Cluster

Setelah menentukan jumlah cluster beserta anggota yang terbentuk, selanjutnya memberikan ciri spesifik untuk menggambarkan isi dari cluster tersebut. Setiap cluster pastinya memiliki karakteristik yang berbeda berdasarkan faktor-faktor yang memengaruhi Tingkat Pengangguran Terbuka pada Kabupaten/Kota di Provinsi Jawa Barat. Karakteristik dari setiap cluster dapat ditentukan melalui nilai rata-rata masing-masing variabel. Berikut tabel yang disajikan untuk nilai rata-rata setiap variabel pada masing-masing cluster dengan menggunakan metode average linkage:

Tabel 4.5 Karakteristik Cluster
Cluster Kepadatan Penduduk Tingkat Partisipasi Angkatan Kerja Upah Minimum Kab/Kota Laju Pertumbuhan Penduduk
1 4007,538 66,45962 3.340.595 1,170385
2 382 80,15 2.018.389 0,67

Berdasarkan tabel, dapat diketahui bahwa:

  • Pada cluster pertama, variabel kepadatan penduduk, upah minimum kabupaten/kota, dan laju pertumbuhan penduduk tinggi, namun variabel tingkat partisipasi angkatan kerja rendah, sehingga memiliki karakteristik yang tinggi

  • Pada cluster kedua, variabel kepadatan penduduk, upah minimum kabupaten/kota, dan laju pertumbuhan penduduk rendah, namun variabel tingkat partisipasi angkatan kerja tinggi, sehingga memiliki karakteristik yang rendah dibandingkan dengan cluster 1

Sehingga cluster 1 merupakan kelompok dengan faktor tingkat pengangguran terbuka yang tinggi, dan cluster 2 merupakan kelompok dengan faktor tingkat pengangguran terbuka yang rendah, atau dapat dibentuk tabel hasil cluster sebagai berikut:

Tabel 4.6 Hasil Cluster
Cluster Kab/Kota Label
1 Bogor, Sukabumi, Cianjur, Bandung, Garut, Tasikmalaya, Ciamis,Kuningan, Cirebon, Majalengka, Sumedang, Indramayu, Subang, Purwakarta, Karawang, Bekasi, Bandung Barat, Kota Bogor,Kota Sukabumi, Kota Bandung, Kota Cirebon, Kota Bekasi,Kota Depok, Kota Cimahi, Kota Tasikmalaya, Kota Banjar Faktor TPT tinggi
2 Pangandaran Faktor TPT rendah

5 KESIMPULAN

Berdasarkan hasil analisis data dan pembahasan yang telah dilakukan, dapat disimpulkan bahwa analisis cluster dalam penelitian ini berhasil mengelompokkan kabupaten/kota di Provinsi Jawa Barat menjadi dua cluster berdasarkan faktor-faktor yang memengaruhi tingkat pengangguran terbuka. Hasil pengelompokan ini menunjukkan adanya perbedaan signifikan dalam karakteristik penyebab tingkat pengangguran terbuka di berbagai wilayah di Provinsi Jawa Barat.

Hasil klasterisasi menunjukkan bahwa cluster kedua yang hanya mencakup Kabupaten Pangandaran menunjukkan faktor tingkat pengangguran terbuka yang rendah, sedangkan cluster pertama yang terdiri dari 26 kabupaten/kota di Provinsi Jawa Barat menunjukkan faktor tingkat pengangguran terbuka tinggi. Dengan demikin, hasil analisis cluster ini dapat membantu pemerintah daerah untuk merancang intervensi yang lebih fokus pada wilayah-wilayah dengan faktor tingkat pengangguran terbuka tinggi, seperti kabupaten/kota yang tergabung dalam cluster pertama.

6 DAFTAR PUSTAKA

Badan Pusat Statistik. (2023). Tingkat Pengangguran Terbuka (TPT) dan Tingkat Partisipasi Angkatan Kerja (TPAK) Menurut Kabupaten/Kota di Provinsi Jawa Barat, 2023. Diakses pada 29 November 2024, dari https://jabar.bps.go.id/id/statistics-table/3/V2pOVWJWcHJURGg0U2pONFJYaExhVXB0TUhacVFUMDkjMw==/tingkat-pengangguran-terbuka-tpt-dan-tingkat-partisipasi-angkatan-kerja-tpak-menurut-kabupaten-kota-di-provinsi-jawa-barat.html?year=2023.

Badan Pusat Statistik. (2023). Penduduk, Laju Pertumbuhan Penduduk, Distribusi Persentase Penduduk Kepadatan Penduduk, Rasio Jenis Kelamin Penduduk Menurut Kabupaten/Kota di Provinsi Jawa Barat, 2023. Diakses pada 29 November 2024, dari https://jabar.bps.go.id/id/statistics-table/3/V1ZSbFRUY3lTbFpEYTNsVWNGcDZjek53YkhsNFFUMDkjMw==/penduduk-laju-pertumbuhan-penduduk-distribusi-persentase-penduduk-kepadatan-penduduk-rasio-jenis-kelamin-penduduk-menurut-kabupaten-kota-di-provinsi-jawa-barat.html?year=2023.

Gujarati, D. N. 1995. Ekonometrika Dasar. Jakarta: Erlangga.

Hair, J. F., Black, W. C., Babin, B. J., dan Anderson, R. E. (2010). Multivariate Data Analysis. Edisi ke-7. Pearson Education.

Pemerintah Provinsi Jawa Barat. (2022). Keputusan Gubernur Jawa Barat Nomor 561/Kep.776-Kesra/2022 tentang Upah Minimum Kabupaten/Kota di Daerah Provinsi Jawa Barat Tahun 2023. Diakses pada 29 November 2024, dari https://jdih.jabarprov.go.id/page/info/produk/31054?judul=keputusan-gubernur-jawa-barat-nomor-561-7-kep-776-kesra-2022-tentang-upah-minimum-kabupaten-kota-di-daerah-provinsi-jawa-barat-tahun-2023.

Silvi, R. (2018). Analisis Cluster dengan Data Outlier Menggunakan Centroid Linkage dan K-Means Clustering untuk Pengelompokan Indikator HIV/AIDS di Indonesia. Jurnal Matematika “MANTIK”, 4(1), 22-31.

Suharnanik. (2023). BUKU AJAR MASALAH KETENAGAKERJAAN DAN PENGANGGURAN. Surabaya: UWKS PRESS.

Supranto dan Johanes. (2004). Analisis Multivariat Arti & Interpretasi. Jakarta: PT. Rineka Cipta.

Yanuar. (2018). Ekonomi Makro: Suatu Analisis Untuk Konteks Indonesia. (G. Suryoputro dan Y. Yusianto, Eds.). Edisi ke-3. Jakarta: Yayasan Mpu Ajar Artha.