1 PENDAHULUAN
1.1 Latar Belakang
Pengangguran adalah suatu keadaan di mana angkatan kerja yang ingin memperoleh pekerjaan belum mendapatkannya, sedangkan tingkat pengangguran adalah persentase angkatan kerja yang menganggur (Yanuar, 2018). Salah satu jenis tingkat pengangguran adalah tingkat pengangguran terbuka yang secara khusus merujuk pada persentase angkatan kerja yang tidak memiliki pekerjaan tetapi aktif mencari pekerjaan dan siap untuk bekerja. Tingkat pengangguran terbuka sering dijadikan indikator utama dalam menilai tingkat pengangguran di suatu wilayah, karena mencerminkan besarnya masalah pengangguran yang nyata di pasar kerja.
Terdapat beberapa provinsi di Indonesia yang masih mengalami masalah tingkat pengangguran terbuka. Berdasarkan Data Badan Pusat Statistik (BPS), di tahun 2023 Provinsi Jawa Barat memiliki tingkat pengangguran terbuka sebesar 6,91% pada semester pertama, dan 6,75% pada semester kedua, di mana kedua nilai ini lebih tinggi dibandingkan provinsi lain di Indonesia. Menurut Suharnanik (2023), tingginya tingkat pengangguran terbuka dapat disebabkan oleh berbagai faktor, seperti faktor ekonomi dan faktor demografi, faktor-faktor seperti kepadatan penduduk, laju pertumbuhan penduduk, upah minimum kabupaten/kota, dan tingkat partisipasi angkatan kerja merupakan variabel-variabel penting yang perlu dianalisis untuk memahami pola pengangguran di wilayah tersebut.
Metode analisis cluster hierarki dapat digunakan untuk mengelompokkan kabupaten/kota di Jawa Barat berdasarkan kesamaan karakteristik dari variabel-variabel tersebut. Pendekatan ini memungkinkan identifikasi kelompok wilayah dengan pola-pola tingkat pengangguran terbuka yang serupa, sehingga kebijakan yang diterapkan dapat disesuaikan dengan kebutuhan spesifik setiap kelompok. Sebagai contoh, wilayah dengan kepadatan penduduk tinggi dan laju pertumbuhan penduduk cepat mungkin memerlukan pendekatan berbeda dibandingkan wilayah dengan tingkat partisipasi angkatan kerja rendah atau upah minimum kabupaten/kota yang tidak kompetitif.
1.2 Rumusan Masalah
Bagaimana pengelompokan kabupaten/kota di Provinsi Jawa Barat berdasarkan karakteristik tingkat pengangguran terbuka menggunakan analisis cluster hierarki?
Apa faktor yang mendasari pembentukan kelompok kabupaten/kota tersebut berdasarkan analisis cluster hierarki?
Bagaimana hasil pengelompokan dapat digunakan untuk merumuskan rekomendasi kebijakan yang efektif?
1.3 Tujuan
Mengelompokkan kabupaten/kota di Provinsi Jawa Barat berdasarkan faktor-faktor penyebab tingkat pengangguran terbuka untuk mengidentifikasi pola pengangguran dan kelompok wilayah yang memiliki karakteristik serupa
Mengidentifikasi faktor-faktor yang membedakan setiap kelompok kabupaten/kota berdasarkan hasil analisis cluster
Memberikan rekomendasi kebijakan berbasis hasil pengelompokan kabupaten/kota guna mendukung perumusan program penanggulangan pengangguran yang lebih efektif dan sesuai dengan karakteristik setiap cluster
2 TINJAUAN PUSTAKA
2.1 Analisis Cluster
Analisis cluster merupakan teknik statistik yang digunakan untuk mengelompokkan objek ke dalam beberapa kelompok sedemikian rupa sehingga objek-objek dalam satu kelompok memiliki tingkat kesamaan yang tinggi dibandingkan dengan objek di kelompok lainnya (Silvi, 2018). Objek-objek yang berada dalam satu kelompok diharapkan memiliki tingkat kesamaan yang lebih tinggi dibandingkan dengan objek-objek dari kelompok lainnya (Hair, Black, Babin, dan Anderson, 2010). Analisis ini banyak digunakan di berbagai bidang, termasuk ekonomi, pemasaran, biologi, dan geografi, untuk menemukan pola-pola tersembunyi dalam data.
Secara umum, analisis cluster dibagi menjadi dua metode , yaitu metode hierarki dan metode non-hierarki. Metode hierarki merupakan metode pengelompokan ketika jumlah cluster belum diketahui. Metode ini bekerja melalui proses penggabungan bertahap (agglomerative) atau pemisahan bertahap (divisive). Sementara itu, pada metode non-hierarki, jumlah cluster harus ditentukan terlebih dahulu berdasarkan preferensi atau kebutuhan peneliti.
2.2 Uji Asumsi Analisis Cluster
1. Uji Sampel Representatif
Sampel representatif adalah keadaan ketika sampel yang diambil dapat merepresentasikan atau mewakili populasi yang ada (Suparto, dan Johanes, 2004). Asumsi sampel representatif ini dapat dilakukan menggunakan uji Kaiser Meyer Olkin (KMO), dengan rumus:
\[KMO = \frac{\sum_{i}\sum_{i \neq j} r_{ij}^2}{\sum_{i}\sum_{i \neq j} r_{ij}^2 + + \sum_{i}\sum_{i \neq j}a_{ij}^2}\]
di mana:
\(r_{ij}\) : koefisien korelasi sederhana antara variabel i dan j
\(a_{ij}\) : koefisien korelasi parsial antara variabel i dan j
Jika nilai uji KMO menunjukkan sebesar 0.5 sampai 1, maka sampel dikatakan telah representatif atau mewakili populasi.
2. Uji Non-Multikolinieritas
Uji non-multikolinieritas dalam analisis cluster bertujuan untuk memastikan bahwa tidak ada variabel yang memiliki korelasi yang sangat tinggi dengan variabel lainnya. Apabila nilai mutlak koefisien korelasi antar variabel independen menunjukkan nilai lebih dari 0.8 maka dikatakan telah terjadi masalah multikolinieritas, sebaliknya apabila koefisien korelasi menunjukkan nilai kurang dari 0.8 maka model telah memenuhi asumsi non-multikolinieritas. (Gujarati, 1995)
2.3 Standarisasi Data
Standarisasi variabel dalam data dilakukan ketika terdapat perbedaan satuan yang signifikan diantara variabel-variabel yang digunakan dalam penelitian. Proses standarisasi dilakukan dengan melakukan transformasi data ke dalam bentuk normal baku Z~N(0,1), dengan menggunakan rumus: \[Z = \frac{X-\mu }\sigma \] di mana:
\(X\) : Data ke-i
\(\mu\) : Rata-rata variabel
\(\sigma\) : Simpangan baku variabel
2.4 Jarak Euclidian
Jarak euclidian merupakan salah satu ukuran jarak yang paling umum digunakan dalam analisis cluster di mana jarak ini menggunakan prinsip phytagoras. Jarak euclidian merupakan perhitungan jarak dari dua buah titik dalam euclidian space untuk mempelajari hubungan antara sudut dan jarak. Rumus yang digunakan dalam mencari jarak euclidian ialah sebagai berikut:
\[d(x, y) = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2}\] di mana:
\(d(x,y)\) : Jarak euclidian antara dua objek data \(x\) dan \(y\)
\(x_i\) : Nilai variabel ke-\(i\) pada objek \(x\)
\(y_i\) : Nilai variabel ke-\(i\) pada objek \(y\)
2.5 Metode Analisis Cluster Hierarki
Metode cluster hierarki memiliki dua teknik, yaitu teknik penggabungan bertahap (agglomerative) dan pemisahan bertahap (divisive)
1. Teknik Agglomerative
Teknik agglomerative dilakukan dengan memulai pengelompokan dengan menjadikan setiap objek sebagai cluster individual, kemudian secara bertahap menggabungkannya hingga semua objek tergabung dalam satu cluster besar. Pada teknik ini terdapat beberapa metode pengelompokan, diantaranya:
a. Single Linkage
Metode ini mengukur jarak antar dua cluster berdasarkan jarak terpendek antara dua titik di masing-masing cluster. Rumus yang digunakan dalam metode ini adalah sebagai berikut: \[d_{ij} = \min(d_{pj};d_{qj})\]
b. Complete Linkage
Metode ini mengukur jarak antar dua cluster berdasarkan jarak terjauh antara dua titik di masing-masing cluster. Rumus yang digunakan dalam metode ini adalah sebagai berikut: \[d_{ij} = \max(d_{pj};d_{qj})\]
c. Average Linkage
Metode ini mengukur jarak antar dua cluster berdasarkan rata-rata jarak semua pasangan titik diantara dua cluster, di mana metode ini paling sering digunakan diantara metode lainnya. Rumus yang digunakan dalam metode ini adalah sebagai berikut:
\[d_{ij} =\ average (d_{pj};d_{qj})\]
d. Ward’s Method
Metode ini dilakukan dengan tujuan untuk meminimalkan jumlah kuadrat dari deviasi antara cluster yang digabungkan. Rumus yang digunakan dalam metode ini adalah sebagai berikut: \[ESS = \sum_{k=1}^{K} \left[ \sum_{i=1}^{nk} \sum_{j=1}^{p} X_{ijk}^2 - \frac{1}{nk} \sum_{j=1}^{p} \left( \sum_{i=1}^{nk} X_{ijk} \right)^2 \right]\] di mana:
\(ESS\) : Error Sum of Squares
\(K\) : jumlah cluster
\(nk\) : jumlah observasi dalam setiap cluster \(k\)
\(p\) : jumlah variabel
\(X_{ijk}\) : nilai observasi untuk variabel ke-\(j\) dalam observasi ke-\(i\) pada cluster ke-\(k\)).
e. Centroid Method
Metode ini dilakukan dengan menggunakan jarak antar cluster diukur sebagai jarak antara pusat massa (centroid) dari dua cluster. Rumus yang digunakan dalam metode ini adalah sebagai berikut: \[C_i = \frac{1}{M} \sum_{j=1}^{M} x_j\] di mana:
\(M\) : jumlah data pada cluster
\(i\) : fitur ke-\(i\) dalam sebuah cluster
2. Teknik Divisive
Berbeda dengan teknik agglomerative, teknik divisive dilakukan dengan memulai satu cluster besar berisi seluruh data, lalu secara bertahap memecahnya menjadi cluster lebih kecil hingga mencapai jumlah cluster yang diinginkan.
2.6 Koefisien Korelasi Cophenetic
Koefisien korelasi cophenetic merupakan ukuran yang dapat digunakan untuk menguji validitas cluster yang telah terbentuk. Koefisien ini mengukur korelasi antara jarak antar data yang diperoleh dari dendogram dengan jarak asli antar objek dalam matriks jarak euclidian. Rumus yang digunakan untuk mencari koefisien korelasi cophenetic adalah sebagai berikut:
\[r_{c} = \frac{\sum_{i<j}^n (d_{ij} - \bar{d})(d_{c_{ij}} - \bar{d}_{c})}{\sqrt{\left(\sum_{i<j}^n (d_{ij} - \bar{d})^2\right) \left(\sum_{i<j}^n (d_{c_{ij}} - \bar{d}_{c})^2\right)}}\]
di mana:
\(r_{c}\) : koefisien korelasi cophenetic
\(d_{ij}\) adalah jarak asli antara objek ke-\(i\) dan ke-\(j\)
\(\bar{d}\) : rata-rata \(d_{ij}\)
\(d_{c_{ij}}\) : jarak cophenetic objek ke-\(i\) dan ke-\(j\)
\(\bar{d}_{c}\) : rata-rata dari \(d_{c_{ij}}\)
2.7 Indeks Validitas Cluster
Validitas cluster digunakan untuk mengetahui apakah hasil pengelompokan dapat menjelaskan dan mewakili populasi yang sedang dianalisis. Validitas cluster juga berguna untuk menentukan jumlah kelompok optimal. Pengukuran validitas ini dapat dilakukan menggunakan beberapa indeks, diantaranya:
1. Indeks Connectivity
Pada indeks connectivity, nilai yang lebih rendah menunjukkan bahwa titik-titik dalam cluster terhubung dengan baik, yang berarti bahwa objek dalam cluster dekat satu sama lain dan berada dalam kelompok yang sama. Rumus yang digunakan dalam perhitungan ini adalah sebagai berikut:
\[Conn(C) = \frac{S - S_{min}}{S_{max}-S_{min}}\] di mana:
\(S\) : total jarak pada semua pasangan objek amatan dari kelompok yang sama dengan jumlah pasangan tersebut
\(S_{min}\) : total jarak terkecil jika semua pasangan objek berada pada kelompok yang berbeda
\(S_{max}\) : total jarak terbesar semua pasangan
2. Indeks Silhouette
Indeks silhouette menggabungkan informasi mengenai kedekatan titik data dengan cluster yang sama dan jaraknya dari cluster terdekat lainnya. Pada indeks silhouette, nilai yang lebih besar atau mendekati 1 menunjukkan bahwa jumlah cluster yang terbentuk semakin optimal. Rumus yang digunakan dalam perhitungan ini adalah sebagai berikut:
\[S(i) = \frac{b(i) - a(i)}{\max\{a(i), b(i)\}}\] di mana:
\(a(i)\) : rata-rata kemiripan antara objek ke-\(i\) dengan objek lain di dalam cluster
\(b(i)\) : rata-rata kemiripan antara objek ke-\(i\) dengan objek lain di luar cluster
3. Indeks Dunn
Indeks dunn mengukur rasio antara jarak minimum antar cluster dengan diameter maksimum cluster. Semakin besar nilai indeks dunn, semakin baik hasil pengelompokannya. Rumus yang digunakan dalam perhitungan ini adalah sebagai berikut:
\[C = \frac{d_{\min}}{d_{\max}}\] di mana:
\(d_{min}\) : jarak terkecil antara obsevasi pada cluster yang berbeda
\(d_{max}\) : jarak terbesar antara obsevasi pada cluster yang berbeda
2.8 Data
Data yang digunakan merupakan data sekunder yang diperoleh dari website Badan Pusat Statistik (BPS) dan Jaringan Dokumentasi dan Informasi Hukum (JDIH) Provinsi Jawa Barat pada tahun 2023.
3 SOURCE CODE
3.1 Library
> library(psych)
> library(GPArotation)
> library(clValid)
> library(ggplot2)
> library(cluster)
> library(factoextra)
> library(tidyverse)
> library(car)
> library(readxl)Berikut merupakan library yang akan digunakan dalam pemrograman ini agar lebih efisien:
library (“psych”) digunakan untuk kebutuhan analisis statistik psikometri meliputi statistik deskriptif dan juga uji KMO
library (“GPArotation”) digunakan untuk rotasi dalam analisis faktor
library (“clValid”) digunakan untuk validasi dan penilaian kualitas cluster yang dihasilkan dari metode clustering
library (“ggplot2”) digunakan untuk visualisasi data
library (“cluster”) digunakan untuk berbagai analisis cluster
library (“factoextra”) digunakan untuk visualisasi hasil analisis cluster dan analisis faktor
library (“tidyverse”) digunakan untuk manipulasi data dan analisis di R
library (“car”) digunakan untuk analisis regresi seperti uji multikolinieritas
library (“readxl”) digunakan untuk membaca file Excel (.xls dan .xlsx) ke dalam R
3.2 Impor Data
> datalaprak <- read_excel("C:/Users/ASUS/Documents/SEMESTER 5/Analisis Multivariat/laprakpt2.xlsx")
> datalaprak <- data.frame(datalaprak)
> datalaprak
Kab.Kota KEP.PEND TPAK UMK LAJU.PERT
1 Bogor 1881 64.22 4520212 1.32
2 Sukabumi 673 67.75 3351883 1.02
3 Cianjur 704 72.31 2893229 1.17
4 Bandung 2138 67.10 3492465 0.97
5 Garut 865 70.10 2117318 1.36
6 Tasikmalaya 705 68.37 2499954 0.81
7 Ciamis 784 66.26 2021657 0.66
8 Kuningan 1007 61.95 2010734 1.05
9 Cirebon 2202 66.16 2430780 1.42
10 Majalengka 1008 68.50 2180602 0.97
11 Sumedang 752 67.76 3471134 0.81
12 Indramayu 912 63.88 2541996 1.18
13 Subang 762 70.03 3273810 1.23
14 Purwakarta 1044 66.37 4464675 1.41
15 Karawang 1320 63.40 5176179 1.28
16 Bekasi 2588 65.00 5137575 1.44
17 Bandung Barat 1449 67.01 3480795 1.43
18 Pangandaran 382 80.15 2018389 0.67
19 Kota Bogor 9614 64.81 4639429 0.96
20 Kota Sukabumi 7465 62.57 2747774 1.48
21 Kota Bandung 15047 66.97 4048462 0.92
22 Kota Cirebon 8671 68.71 2456516 0.94
23 Kota Bekasi 12332 64.65 5158248 1.18
24 Kota Depok 10732 62.76 4694493 1.55
25 Kota Cimahi 13924 68.43 3514093 1.41
26 Kota Tasikmalaya 4033 65.44 2533341 1.29
27 Kota Banjar 1584 67.44 1998119 1.17Mengimpor file data dari excel ke R dengan menggunakan fungsi ‘read_excel’ yang kemudian disimpan dalam variabel datalaprak.
Keterangan:
\(KEP.PEND\) = Kepadatan Penduduk (Jiwa/\(km^2\))
\(TPAK\) = Tingkat Partisipasi Angkatan Kerja (%)
\(UMK\) = Upah Minimum Kabupaten/Kota (Rp)
\(LAJU.PERT\) = Laju Pertumbuhan Penduduk (%)
3.3 Statistika Deskriptif
> statdes <- summary(datalaprak)
> statdes
Kab.Kota KEP.PEND TPAK UMK
Length:27 Min. : 382.0 Min. :61.95 Min. :1998119
Class :character 1st Qu.: 824.5 1st Qu.:64.73 1st Qu.:2443648
Mode :character Median : 1449.0 Median :66.97 Median :3273810
Mean : 3873.3 Mean :66.97 Mean :3291625
3rd Qu.: 5749.0 3rd Qu.:68.40 3rd Qu.:4256568
Max. :15047.0 Max. :80.15 Max. :5176179
LAJU.PERT
Min. :0.660
1st Qu.:0.965
Median :1.180
Mean :1.152
3rd Qu.:1.385
Max. :1.550 Melakukan analisis statistika deskriptif dengan fungsi summary() kemudian disimpan dalam variabel statdes, yang menunjukkan rangkuman ukuran pemusatan dan persebaran data dari setiap variabel.
3.4 Uji Asumsi
1. Uji Sampel Representatif
> # Uji Sampel Representatif
> kmo <- KMO(datalaprak[,2:5])
> kmo
Kaiser-Meyer-Olkin factor adequacy
Call: KMO(r = datalaprak[, 2:5])
Overall MSA = 0.68
MSA for each item =
KEP.PEND TPAK UMK LAJU.PERT
0.67 0.69 0.67 0.68 Melakukan uji sampel representatif menggunakan fungsi KMO() dengan argumen data [,2:5] yang menunjukkan bahwa data yang perlu dianalisis terletak pada kolom kedua sampai kolom kelima.
2. Uji Non-Multikolinieritas
> #Uji Non-Multikolinieritas
> korelasi <- cor(datalaprak[,2:5], method = 'pearson')
> korelasi
KEP.PEND TPAK UMK LAJU.PERT
KEP.PEND 1.0000000 -0.2408320 0.4016322 0.1640469
TPAK -0.2408320 1.0000000 -0.3968584 -0.4396940
UMK 0.4016322 -0.3968584 1.0000000 0.3715833
LAJU.PERT 0.1640469 -0.4396940 0.3715833 1.0000000Melakukan uji non multikolinieritas menggunakan matriks korelasi antar variabel dengan fungsi cor().
3.5 Standarisasi Data
> datastand <- scale(datalaprak[,2:5])
> datastand
KEP.PEND TPAK UMK LAJU.PERT
[1,] -0.43076040 -0.757043397 1.13126784 0.66062528
[2,] -0.69195059 0.215904367 0.05548525 -0.51802335
[3,] -0.68524786 1.472743404 -0.36683756 0.07130097
[4,] -0.37519262 0.036749679 0.18493138 -0.71446479
[5,] -0.65043692 0.863617467 -1.08128661 0.81777844
[6,] -0.68503164 0.386790376 -0.72896021 -1.34307739
[7,] -0.66795050 -0.194773301 -1.16937005 -1.93240171
[8,] -0.61973410 -1.382706689 -1.17942781 -0.40015849
[9,] -0.36135473 -0.222335561 -0.79265476 1.05350816
[10,] -0.61951788 0.422621314 -1.02301550 -0.71446479
[11,] -0.67486944 0.218660593 0.16529006 -1.34307739
[12,] -0.64027472 -0.850755079 -0.69024847 0.11058925
[13,] -0.67270727 0.844323885 -0.01640338 0.30703069
[14,] -0.61173407 -0.164454816 1.08013007 1.01421987
[15,] -0.55205816 -0.983053925 1.73527396 0.50347213
[16,] -0.27789495 -0.542057772 1.69972789 1.13208474
[17,] -0.52416617 0.011943646 0.17418579 1.09279645
[18,] -0.75486975 3.633624556 -1.17237918 -1.89311342
[19,] 1.24124598 -0.594426065 1.24104134 -0.75375308
[20,] 0.77659556 -1.211820680 -0.50077069 1.28923789
[21,] 2.41595317 0.000918742 0.69688639 -0.91090623
[22,] 1.03735331 0.480502059 -0.76895738 -0.83232965
[23,] 1.82892390 -0.638525680 1.71876333 0.11058925
[24,] 1.48297663 -1.159452387 1.29174358 1.56425590
[25,] 2.17314143 0.403327732 0.20484617 1.01421987
[26,] 0.03453867 -0.420783830 -0.69821789 0.54276042
[27,] -0.49497686 0.130461362 -1.19104354 0.07130097
attr(,"scaled:center")
KEP.PEND TPAK UMK LAJU.PERT
3.873259e+03 6.696667e+01 3.291625e+06 1.151852e+00
attr(,"scaled:scale")
KEP.PEND TPAK UMK LAJU.PERT
4.624982e+03 3.628150e+00 1.086027e+06 2.545288e-01
> rownames(datastand) <- 1:nrow(datastand)Melakukan standarisasi data menggunakan fungsi scale() dikarenakan antar variabel memiliki satuan yang berbeda dan kemudian disimpan dalam variabel datastand.
3.6 Jarak Euclidian
> jarak <- dist(datastand, method = "euclidean")
> jarak
1 2 3 4 5 6 7
2 1.8871588
3 2.7619442 1.4509821
4 1.8492216 0.4333331 1.7550182
5 2.7558835 1.8702600 1.1999634 2.1703795
6 2.9746063 1.1512249 1.8195859 1.2036945 2.2409803
7 3.5198197 1.9157163 2.7275986 1.8592506 2.9481769 0.9379616
8 2.6252128 2.0247654 3.0067365 2.0087114 2.5573261 2.0560644 1.9394280
9 2.0363115 1.8682614 2.0308251 2.0368406 1.1839507 2.4946905 3.0252823
10 2.8211784 1.1179139 1.4680171 1.2914052 1.5958065 0.6979959 1.3741586
11 2.4412138 0.8325086 1.9637865 0.7200259 2.5767844 0.9099750 1.5164420
12 1.9165436 1.4462729 2.3466585 1.5180867 1.8953110 1.9100176 2.1987377
13 2.0162078 1.0397901 0.7572589 1.3508071 1.1814008 1.8547460 2.7247266
14 0.7152321 1.8838190 2.3808893 1.9713362 2.4018205 3.0230617 3.7076824
15 0.6747699 2.3069924 3.2640963 2.2267046 3.3840324 3.3728846 3.8736618
16 0.7842241 2.4844193 3.1018245 2.4594387 3.1539722 3.6129590 4.2303132
17 1.3049305 1.6366374 1.8697707 1.8135923 1.5469772 2.6297418 3.3196946
18 5.5867149 3.8837217 3.0301940 4.0389563 3.8782829 3.3235477 3.8295871
19 2.1987647 2.4197099 3.3541850 2.0317895 3.6833780 2.9835450 3.3172352
20 2.1733003 2.7875869 3.2932019 2.7148767 2.6273823 3.4165868 3.7345797
21 3.3669992 3.2048459 3.7255812 2.8447260 4.0369849 3.4619090 3.7516827
22 3.0865267 1.9593361 2.2203933 1.7652190 2.4116010 1.7994040 2.1759014
23 2.4016474 3.2010165 3.8897033 2.8892008 4.0919507 3.9339221 4.3527491
24 2.1602368 3.5335727 4.0754703 3.3617397 3.8513330 4.4302322 4.8827029
25 3.0182863 3.2579070 3.2449896 3.1011503 3.1427994 3.8207685 4.3589651
26 1.9210632 1.6206447 2.1060923 1.6546252 1.5301159 2.1742325 2.6254492
27 2.5558211 1.3954341 1.5865811 1.5918118 1.0634665 1.5217794 2.0373982
8 9 10 11 12 13 14
2
3
4
5
6
7
8
9 1.9172796
10 1.8391472 1.9134816
11 2.2945107 2.6370532 1.3608408
12 0.8851859 1.1714481 1.5535013 1.9974833
13 2.6105964 1.5474164 1.4957885 1.7740711 1.8349390
14 2.9309162 1.8907423 2.7850118 2.5582311 2.1030005 1.6504104
15 3.0783660 2.7033356 3.3274622 2.7080980 2.4622756 2.5418160 1.1677939
16 3.3853879 2.5154191 3.4453430 3.0359855 2.6423575 2.3882528 0.8073575
17 2.4526245 1.0088204 2.2084457 2.4492864 1.5715304 1.1699032 0.9304267
18 5.2355329 4.8836515 3.4264244 3.7094848 4.9366048 3.7368253 5.2888826
19 3.1730637 3.1794486 3.1023095 2.4160199 2.8430253 2.9051072 2.6019283
20 2.3007769 1.5539551 2.9846436 3.3949592 1.8875922 2.7436384 2.3662875
21 3.8615068 3.7203412 3.5197400 3.1733204 3.6101902 3.4990439 3.6120942
22 2.5637362 2.4509816 1.6813715 2.0332116 2.3413613 2.2183672 3.1566324
23 3.9000137 3.4881014 3.9139450 3.3956112 3.4562004 3.3921076 2.7213885
24 3.7995851 2.9808264 4.1802055 4.0344739 3.2626568 3.4574494 2.3927292
25 3.8609265 2.7949378 3.5064673 3.7018486 3.3325331 2.9736174 2.9738915
26 1.5729042 0.6825649 1.6808423 2.2834577 0.9094415 1.6189916 1.9667660
27 1.5898588 1.1250623 0.8640192 1.9698344 1.1118617 1.4058932 2.4795027
15 16 17 18 19 20 21
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16 0.8161252
17 1.9429610 1.6420686
18 5.9626271 5.9215413 4.8886288
19 2.2785637 2.4652199 2.8341295 5.3836447
20 2.7267157 2.5352364 1.9193060 6.0334189 2.7937067
21 3.5855276 3.5680729 3.5961735 5.2639865 1.4335879 3.2300537
22 3.5670388 3.5677496 2.6932359 3.8002969 2.2898279 2.7395116 2.0701232
23 2.4377048 2.3434605 3.0513266 6.1074370 1.1500505 2.7841706 1.6855794
24 2.3440274 1.9583330 2.6214500 6.7828347 2.3986298 1.9469101 2.9490997
25 3.4571432 3.0248796 2.7268598 5.4182473 2.4623912 2.2655187 2.0418385
26 2.5658663 2.4919409 1.2502128 4.8186827 2.6321033 1.3313909 3.1477660
27 3.1612151 3.1593082 1.7094451 4.0247943 3.1836587 2.3191517 3.6082275
22 23 24 25 26
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23 2.9927675
24 3.5886128 1.6390658
25 2.3778160 2.0766410 2.0982123
26 1.9271301 3.0489014 2.7653216 2.5081029
27 1.8615234 3.8026800 3.7375559 3.1671620 1.0244067Melakukan perhitungan jarak dari variabel datastand menggunakan metode euclidian dengan fungsi dist() dan hasilnya disimpan dalam variabel jarak.
3.7 Koefisien Korelasi Cophenetic
> d1 <- dist(datalaprak[,2:5])
> #Single Linkage
> hiers <- hclust(dist(datalaprak[,2:5]), method = "single")
> #korelasi cophenetic
> hc1 <- hclust(d1, "single")
> d2 <- cophenetic(hc1)
> cors <- cor(d1,d2)
> cors
[1] 0.799979
> #Average Linkage
> hierave <- hclust(dist(datalaprak[,2:5]), method = "ave")
> #korelasi cophenetic
> hc2 <- hclust(d1, "ave")
> d3 <- cophenetic(hc2)
> corave <- cor(d1,d3)
> corave
[1] 0.848085
> #Complete Linkage
> hiercomp <- hclust(dist(datalaprak[,2:5]), method = "complete")
> #korelasi cophenetic
> hc3 <- hclust(d1, "complete")
> d4 <- cophenetic(hc3)
> corcomp <- cor(d1,d4)
> corcomp
[1] 0.8459711
> #Centorid Linkage
> hiercen <- hclust(dist(datalaprak[,2:5]), method = "centroid")
> #korelasi cophenetic
> hc4 <- hclust(d1, "centroid")
> d5 <- cophenetic(hc4)
> corcen <- cor(d1,d5)
> corcen
[1] 0.8470935
> #Ward
> hierward <- hclust(dist(datalaprak[,2:5]), method = "ward.D")
> #korelasi cophenetic
> hc5 <- hclust(d1,"ward.D")
> d6 <- cophenetic(hc5)
> corward <- cor(d1,d6)
> corward
[1] 0.7464474
> KorCop<-data.frame(cors,corave,corcomp,corcen,corward)
> KorCop
cors corave corcomp corcen corward
1 0.799979 0.848085 0.8459711 0.8470935 0.7464474Melakukan analisis menggunakan seluruh metode dalam analisis cluster hierarki (single linkage, average linkage, complete linkage, centroid, dan ward) menggunakan fungsi hclust(). Kemudian dilakukan perhitungan koefisien korelasi cophenetic untuk berbagai metode menggunakan fungsi cophenetic() dan menghitung korelasi antara matriks jarak (d1) dengan masing-masing matriks cophenetic. Setelah itu hasil korelasi dari setiap metode dirangkum dalam data frame KorCop untuk memudahkan perbandingan.
3.8 Indeks Validitas Cluster
> inval <- clValid(datastand, 2:5, clMethods = "hierarchical", validation = "internal", metric = "euclidean", method = "average")
> summary(inval)
Clustering Methods:
hierarchical
Cluster sizes:
2 3 4 5
Validation Measures:
2 3 4 5
hierarchical Connectivity 2.9290 11.4460 16.5536 21.0492
Dunn 0.6206 0.3147 0.2803 0.2803
Silhouette 0.4490 0.3033 0.3126 0.3270
Optimal Scores:
Score Method Clusters
Connectivity 2.9290 hierarchical 2
Dunn 0.6206 hierarchical 2
Silhouette 0.4490 hierarchical 2
> optimalScores(inval)
Score Method Clusters
Connectivity 2.9289683 hierarchical 2
Dunn 0.6205977 hierarchical 2
Silhouette 0.4489559 hierarchical 2
> plot(inval)
Melakukan pengujian validitas menggunakan fungsi (clValid) dari hasil
analisis cluster menggunakan metode average linkage.
Kemudian mencari dan menampilkan skor clustering yang optimal
berdasarkan validasi menggunakan fungsi (optimalScores), dan melakukan
visualisasi hasil evaluasi clustering menggunakan fungsi (plot) untuk
mempermudah interpretasi.
3.9 Metode Average Linkage
> hirave <- hclust(dist(scale(datalaprak[,2:5])), method = "average")
> hirave
Call:
hclust(d = dist(scale(datalaprak[, 2:5])), method = "average")
Cluster method : average
Distance : euclidean
Number of objects: 27
> plot(hirave, labels(datalaprak$Kab.Kota), hang = 1, col = "blue", main = "Cluster Dendogram", sub = " ", xlab = "KAB/KOTA", ylab = "Jarak")>
> anggotaave <- data.frame(id = datalaprak$Kab.Kota, cutree(hirave, k = 2))
> anggotaave
id cutree.hirave..k...2.
1 Bogor 1
2 Sukabumi 1
3 Cianjur 1
4 Bandung 1
5 Garut 1
6 Tasikmalaya 1
7 Ciamis 1
8 Kuningan 1
9 Cirebon 1
10 Majalengka 1
11 Sumedang 1
12 Indramayu 1
13 Subang 1
14 Purwakarta 1
15 Karawang 1
16 Bekasi 1
17 Bandung Barat 1
18 Pangandaran 2
19 Kota Bogor 1
20 Kota Sukabumi 1
21 Kota Bandung 1
22 Kota Cirebon 1
23 Kota Bekasi 1
24 Kota Depok 1
25 Kota Cimahi 1
26 Kota Tasikmalaya 1
27 Kota Banjar 1
> clus_hier <- eclust(datastand, FUNcluster = "hclust", k = 2, hc_method = "average", graph = TRUE)
> fviz_dend(clus_hier, rect = TRUE, cex = 0.5)>
> idclus = clus_hier$cluster
> idclus
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1
27
1
> aggregate(datalaprak,list(idclus),mean)
Group.1 Kab.Kota KEP.PEND TPAK UMK LAJU.PERT
1 1 NA 4007.538 66.45962 3340595 1.170385
2 2 NA 382.000 80.15000 2018389 0.670000Melakukan analisis cluster menggunakan fungsi hclust() dengan argumen data standarisasi dan menggunakan metode average linkage yang kemudian disimpan dalam variabel hirave. Menampilkan dendogram menggunakan fungsi (plot) dan menentukan anggota cluster dengan memasukkan jumlah cluster optimal dari hasil validasi ke dalam ‘k’. Kemudian menampilkan visualisasi dendogram dari hasil clustering hierarki dengan fungsi fviz_dens() dan menampilkan rata-rata untuk setiap variabel berdasarkan keanggotaan cluster menggunakan fungsi aggregate().
4 HASIL DAN PEMBAHASAN
4.1 Analisis Statistika Deksriptif
| Variabel | Min | Mean | Median | Max |
|---|---|---|---|---|
| Kepadatan Penduduk (Jiwa/\(km^2\)) | 382 | 3.873,3 | 1.449 | 15.047 |
| Tingkat Partisipasi Angkatan Kerja (%) | 61,95 | 66,97 | 66,97 | 80,15 |
| Upah Minimum Kabupaten/Kota (Rp) | 1.998.119 | 3.291.625 | 3.273.810 | 5.176.179 |
| Laju Pertumbuhan Penduduk (%) | 0,67 | 1,15 | 1,18 | 1,55 |
Berdasarkan hasil statistika deskriptif tersebut dapat diketahui bahwa:
Kepadatan penduduk memiliki variasi yang cukup besar di antara wilayah yang diamati. Nilai minimum kepadatan penduduk tercatat sebesar 382 jiwa/\(km^2\), sementara nilai maksimum mencapai 15.047 jiwa/\(km^2\). Median kepadatan penduduk berada pada 1.449 jiwa/\(km^2\), menunjukkan bahwa setengah dari wilayah memiliki kepadatan di bawah angka ini. Rata-rata kepadatan penduduk adalah 3.873,3 jiwa/\(km^2\), yang mencerminkan adanya beberapa wilayah dengan nilai yang jauh lebih tinggi dari mayoritas wilayah lainnya.
Tingkat Partisipasi Angkatan Kerja memiliki rentang nilai antara 61,95% sebagai nilai minimum dan 80,15% sebagai nilai maksimum. Median dan rata-rata TPAK tercatat pada angka yang sama, yaitu 66,97%, yang menunjukkan distribusi yang relatif terpusat di sekitar nilai tersebut. Meskipun demikian, terdapat beberapa wilayah dengan TPAK yang lebih rendah maupun lebih tinggi dari rata-rata.
Upah Minimum Kabupaten/Kota menunjukkan variasi dari nilai terendah sebesar Rp1.998.119 hingga nilai tertinggi Rp5.176.179. Median UMK berada pada angka Rp3.273.810, sedangkan rata-rata UMK tercatat sebesar Rp3.291.625. Hal ini mengindikasikan distribusi UMK yang cukup merata, meskipun terdapat perbedaan yang cukup signifikan di antara wilayah dengan nilai UMK tertinggi dan terendah.
Laju Pertumbuhan Penduduk di wilayah yang diamati memiliki nilai minimum sebesar 0,67% dan nilai maksimum 1,55%. Median laju pertumbuhan penduduk adalah 1,18%, sementara rata-rata tercatat sebesar 1,15%, yang menunjukkan bahwa sebagian besar wilayah memiliki tingkat pertumbuhan yang stabil di sekitar nilai tersebut. Rentang nilai yang relatif kecil ini menunjukkan keseragaman yang cukup tinggi dalam laju pertumbuhan penduduk antar wilayah.
4.2 Pengujian Asumsi
1. Uji Kaiser Meyer Olkin (KMO)
Berikut adalah hasil dari Uji KMO:
| Variabel | Uji KMO |
|---|---|
| Kepadatan Penduduk (Jiwa/\(km^2\)) | 0.67 |
| Tingkat Partisipasi Angkatan Kerja (%) | 0.69 |
| Upah Minimum Kabupaten/Kota (Rp) | 0.67 |
| Laju Pertumbuhan Penduduk (%) | 0.68 |
Berdasarkan hasil uji KMO pada masing-masing variabel, dapat diketahui bahwa seluruh variabel bernilai lebih dari 0.5 sehingga dapat disimpulkan bahwa sampel telah cukup untuk bisa dilanjutkan analisis cluster.
2. Uji Non-Multikolinieritas
> korelasi
KEP.PEND TPAK UMK LAJU.PERT
KEP.PEND 1.0000000 -0.2408320 0.4016322 0.1640469
TPAK -0.2408320 1.0000000 -0.3968584 -0.4396940
UMK 0.4016322 -0.3968584 1.0000000 0.3715833
LAJU.PERT 0.1640469 -0.4396940 0.3715833 1.0000000Berdasarkan hasil uji non-multikolinieritas dapat diketahui bahwa semua nilai korelasi antar variabel kurang dari 0.8, sehingga dapat disimpulkan bahwa tidak terjadi multikolinieritas antar variabel.
4.3 Koefisien Korelasi Cophenetic
Koefisien korelasi cophenetic digunakan sebagai dasar dalam penentuan metode terbaik yang akan digunakan dalam analisis cluster. Metode dengan nilai korelasi mendekati 1 yang akan dipilih sebagai metode terbaik dalam penelitian ini. Berikut merupakan tabel nilai korelasi dari setiap metode:
| Metode | Nilai Korelasi |
|---|---|
| Single Linkage | 0.799979 |
| Average Linkage | 0.848085 |
| Complete Linkage | 0.8459711 |
| Centroid | 0.8470935 |
| Ward | 0.7464474 |
Berdasarkan tabel di atas, diketahui bahwa nilai korelasi yang paling mendekati 1 adalah metode average linkage, sehingga metode average linkage dipilih sebagai metode terbaik.
4.4 Indeks Validitas Cluster
Untuk menentukan jumlah cluster yang optimal, dapat digunakan beberapa indeks validitas cluster, seperti indeks connectivity, indeks dunn, dan indeks silhouette. Berikut merupakan tabel yang menunjukkan hasil penentuan jumlah cluster optimal menggunakan metode average linkage:
| Indeks | Score | Method | Clusters |
|---|---|---|---|
| Connectivity | 2.9289683 | hierarchical | 2 |
| Dunn | 0.6205977 | hierarchical | 2 |
| Silhouette | 0.4489559 | hierarchical | 2 |
Berdasarkan indeks connectivity, indeks dunn dan indeks silhouette terpilih jumlah cluster sebanyak dua sebagai cluster optimal pada metode average linkage berdasarkan faktor-faktor yang mempengaruhi tingkat pengangguran terbuka.
4.5 Cluster Dendogram
Berdasarkan grafik dendogram tersebut, didapatkan hasil pengelompokan metode average linkage Kabupaten/Kota di Provinsi Jawa Barat berdasarkan faktor-faktor penyebab Tingkat Pengangguran Terbuka terbentuk menjadi 2 cluster. Cluster kedua ditandai dengan grafik dendogram berwarna orange yang beranggotakan Kabupaten Pangandaran, sementara cluster pertama ditandai dengan grafik dendogram berwarna biru yang terdiri dari 26 Kota atau Kabupaten lain yang ada di Provinsi Jawa Barat.
4.6 Karakteristik Cluster
Setelah menentukan jumlah cluster beserta anggota yang terbentuk, selanjutnya memberikan ciri spesifik untuk menggambarkan isi dari cluster tersebut. Setiap cluster pastinya memiliki karakteristik yang berbeda berdasarkan faktor-faktor yang memengaruhi Tingkat Pengangguran Terbuka pada Kabupaten/Kota di Provinsi Jawa Barat. Karakteristik dari setiap cluster dapat ditentukan melalui nilai rata-rata masing-masing variabel. Berikut tabel yang disajikan untuk nilai rata-rata setiap variabel pada masing-masing cluster dengan menggunakan metode average linkage:
| Cluster | Kepadatan Penduduk | Tingkat Partisipasi Angkatan Kerja | Upah Minimum Kab/Kota | Laju Pertumbuhan Penduduk |
|---|---|---|---|---|
| 1 | 4007,538 | 66,45962 | 3.340.595 | 1,170385 |
| 2 | 382 | 80,15 | 2.018.389 | 0,67 |
Berdasarkan tabel, dapat diketahui bahwa:
Pada cluster pertama, variabel kepadatan penduduk, upah minimum kabupaten/kota, dan laju pertumbuhan penduduk tinggi, namun variabel tingkat partisipasi angkatan kerja rendah, sehingga memiliki karakteristik yang tinggi
Pada cluster kedua, variabel kepadatan penduduk, upah minimum kabupaten/kota, dan laju pertumbuhan penduduk rendah, namun variabel tingkat partisipasi angkatan kerja tinggi, sehingga memiliki karakteristik yang rendah dibandingkan dengan cluster 1
Sehingga cluster 1 merupakan kelompok dengan faktor tingkat pengangguran terbuka yang tinggi, dan cluster 2 merupakan kelompok dengan faktor tingkat pengangguran terbuka yang rendah, atau dapat dibentuk tabel hasil cluster sebagai berikut:
| Cluster | Kab/Kota | Label |
|---|---|---|
| 1 | Bogor, Sukabumi, Cianjur, Bandung, Garut, Tasikmalaya, Ciamis,Kuningan, Cirebon, Majalengka, Sumedang, Indramayu, Subang, Purwakarta, Karawang, Bekasi, Bandung Barat, Kota Bogor,Kota Sukabumi, Kota Bandung, Kota Cirebon, Kota Bekasi,Kota Depok, Kota Cimahi, Kota Tasikmalaya, Kota Banjar | Faktor TPT tinggi |
| 2 | Pangandaran | Faktor TPT rendah |
5 KESIMPULAN
Berdasarkan hasil analisis data dan pembahasan yang telah dilakukan, dapat disimpulkan bahwa analisis cluster dalam penelitian ini berhasil mengelompokkan kabupaten/kota di Provinsi Jawa Barat menjadi dua cluster berdasarkan faktor-faktor yang memengaruhi tingkat pengangguran terbuka. Hasil pengelompokan ini menunjukkan adanya perbedaan signifikan dalam karakteristik penyebab tingkat pengangguran terbuka di berbagai wilayah di Provinsi Jawa Barat.
Hasil klasterisasi menunjukkan bahwa cluster kedua yang hanya mencakup Kabupaten Pangandaran menunjukkan faktor tingkat pengangguran terbuka yang rendah, sedangkan cluster pertama yang terdiri dari 26 kabupaten/kota di Provinsi Jawa Barat menunjukkan faktor tingkat pengangguran terbuka tinggi. Dengan demikin, hasil analisis cluster ini dapat membantu pemerintah daerah untuk merancang intervensi yang lebih fokus pada wilayah-wilayah dengan faktor tingkat pengangguran terbuka tinggi, seperti kabupaten/kota yang tergabung dalam cluster pertama.
6 DAFTAR PUSTAKA
Badan Pusat Statistik. (2023). Tingkat Pengangguran Terbuka (TPT) dan Tingkat Partisipasi Angkatan Kerja (TPAK) Menurut Kabupaten/Kota di Provinsi Jawa Barat, 2023. Diakses pada 29 November 2024, dari https://jabar.bps.go.id/id/statistics-table/3/V2pOVWJWcHJURGg0U2pONFJYaExhVXB0TUhacVFUMDkjMw==/tingkat-pengangguran-terbuka-tpt-dan-tingkat-partisipasi-angkatan-kerja-tpak-menurut-kabupaten-kota-di-provinsi-jawa-barat.html?year=2023.
Badan Pusat Statistik. (2023). Penduduk, Laju Pertumbuhan Penduduk, Distribusi Persentase Penduduk Kepadatan Penduduk, Rasio Jenis Kelamin Penduduk Menurut Kabupaten/Kota di Provinsi Jawa Barat, 2023. Diakses pada 29 November 2024, dari https://jabar.bps.go.id/id/statistics-table/3/V1ZSbFRUY3lTbFpEYTNsVWNGcDZjek53YkhsNFFUMDkjMw==/penduduk-laju-pertumbuhan-penduduk-distribusi-persentase-penduduk-kepadatan-penduduk-rasio-jenis-kelamin-penduduk-menurut-kabupaten-kota-di-provinsi-jawa-barat.html?year=2023.
Gujarati, D. N. 1995. Ekonometrika Dasar. Jakarta: Erlangga.
Hair, J. F., Black, W. C., Babin, B. J., dan Anderson, R. E. (2010). Multivariate Data Analysis. Edisi ke-7. Pearson Education.
Pemerintah Provinsi Jawa Barat. (2022). Keputusan Gubernur Jawa Barat Nomor 561/Kep.776-Kesra/2022 tentang Upah Minimum Kabupaten/Kota di Daerah Provinsi Jawa Barat Tahun 2023. Diakses pada 29 November 2024, dari https://jdih.jabarprov.go.id/page/info/produk/31054?judul=keputusan-gubernur-jawa-barat-nomor-561-7-kep-776-kesra-2022-tentang-upah-minimum-kabupaten-kota-di-daerah-provinsi-jawa-barat-tahun-2023.
Silvi, R. (2018). Analisis Cluster dengan Data Outlier Menggunakan Centroid Linkage dan K-Means Clustering untuk Pengelompokan Indikator HIV/AIDS di Indonesia. Jurnal Matematika “MANTIK”, 4(1), 22-31.
Suharnanik. (2023). BUKU AJAR MASALAH KETENAGAKERJAAN DAN PENGANGGURAN. Surabaya: UWKS PRESS.
Supranto dan Johanes. (2004). Analisis Multivariat Arti & Interpretasi. Jakarta: PT. Rineka Cipta.
Yanuar. (2018). Ekonomi Makro: Suatu Analisis Untuk Konteks Indonesia. (G. Suryoputro dan Y. Yusianto, Eds.). Edisi ke-3. Jakarta: Yayasan Mpu Ajar Artha.