Penerapan Analisis Cluster Untuk Mengelompokkan Kabupaten/Kota Berdasarkan Indikator Pembangunan Ekonomi di Provinsi Jawa Barat

Agustina Dwi Hartati

19 Mei 2022

1 PENDAHULUAN

1.1 Latar Belakang

Tingkat perekonomian merupakan salah satu faktor yang sering kali digunakan untuk menyatakan keberhasilan sebuah wilayah dalam mengelola kesejahteraan dan kemakmuran rakyat. Pembangunan ekonomi merupakan suatu proses untuk meningkatkan pendapatan per kapita selama kurun waktu yang panjang, dengan catatan bahwa jumlah penduduk yang hidup dibawah garis kemiskinan absolut tidak meningkat dan distribusi pendapatan tidak semakin timpang. Kerjasama antar daerah merupakan faktor yang sangat diperlukan dalam pembangunan ekonomi yang berlingkup luas. Namun, tujuan tersebut tidak mudah dicapai karena setiap daerah memiliki perbedaan potensi sumber daya alam, sumber daya manusia dan lembaga institusi. Akibatnya pertumbuhan ekonomi yang diharapkan terjadi secara tidak merata hanya berhasil dibeberapa tempat yang disebut pusat pertumbuhan (Shiddiqul, 2017). Berdasarkan penjelasan tersebut, maka untuk mengatasi ini dapat dilakukan dengan memperlakukan kebijakan kebijakan khusus pada kabupaten yang memiliki tingkat ekonomi berbeda. Sebelum menyusun kebijakan kebijakan khusus, disarankan untuk dikelompokkan sesuai dengan indikator pembangunan ekonomi.

Analisis Cluster merupakan salah satu metode statistika yang dapat digunakan untuk melakukan proses pengelompokan objek-objek, sehingga setiap objek yang paling dekat kesamaannya dengan objek lain berada dalam cluster yang sama (Gabriella & Yonlib, 2020). Secara umum, analisis cluster dibagi dalam dua metode yaitu metode Non-hierarki dan metode Hierarki. Pada metode Non-hierarki banyaknya cluster ditentukan terlebih dahulu sedangkan metode cluster Hierarki harus melakukan analisis terlebih dahulu untuk menentukan banyaknya cluster. Menurut Dewi (2014) metode hierarki dibagi menjadi dua yaitu metode agglomerative (pemusatan) dan metode divisive.

Metode analisis cluster yang digunakan dalam kasus ini adalah analisis cluster hierarki yaitu terdiri dari Single Linkage Method, Complete Linkage Method, Average Linkage Method, Ward’s Method, dan Centroid Method. Salah satu masalah dalam analisis cluster adalah penentuan jumlah cluster optimal dalam cluster yang sudah di bentuk. Oleh karena itu, dalam melakukan analisis cluster perlu dilakukan uji validitas cluster untuk mendapatkan jumlah cluster yang optimal, maka digunakan indeks validitas silhouette berdasarkan jarak Euclidean (Nicolaus, Evy, dan Hendra, 2016). Analisis cluster dapat membantu untuk mengambil kebijkan dalam pembangunan ekonomi. Dengan dikelompokkannya setiap kabupaten/kota menggunakan analisis cluster sesuai dengan indikator pembangunan ekonomi maka pemerintah dapat memberikan kebijakan kebijakan khusus sesuai dengan kondisi wilayah kabupaten/kota di Jawa Barat.

1.2 Statistika Deskriptif

Menurut Mason (1996), Statistika deskriptif adalah metode-metode statistika yang digunakan untuk menggambarkan data yang telah dikumpulkan. Data yang telah dikumpulkan perlu disajikan agar mudah dimengerti, menarik, komunikatif, dan informatif bagi pembaca.

1.3 Analisis Cluster

Analisis Cluster adalah salah satu teknik multivariat yang bertujuan mengklasifikasi suatu objek-objek ke dalam suatu kelompok-kelompok yang berbeda antara lain antara kelompok satu dengan lainnya. Objek-objek yang telah memiliki kedekatan jarak relatif sama dengan objek lainnya (Qonitatin & Novita, 2017). Karakteristik objek-objek dalam satuan kelompok memiliki tingkat kemiripan yang tinggi, sedangkan karakteristik antar objek pada suatu kelompok dengan kelompok lain memiliki tingkat kemiripan yang rendah (Mattjik & Sumertajaya, 2011). Prosedur pembentukan cluster terbagi menjadi 2 yaitu hierarki dan non hierarki.
Tahap-tahap dalam analisis cluster yaitu sebagai berikut (Hamelia & Bagus, 2019).
1. Melakukan Proses Standarisasi Data
Hal pertama yang harus dilakukan dalam analisis clustering adalah melakukan standarisasi data yaitu menggunakan z-score, dimana tujuan dilakukan standarisasi data adalah untuk mempersempit perbedaan satuan lebar serta dapat digunakan untuk menyamakan peubah yang memiliki satuan yang berbeda-beda.
2. Menentukan Ukuran Kemiripan
Pada analisis cluster terdapat beberapa ukuran kemiripan diantaranya adalah ukuran asosiasi, ukuran korelasi dan ukuran jarak. Ukuran kemiripan dengan menghitung jarak antar dua objek. Dalam mengukur kedektan antara dua objek dapat digunakan metode pengukuran Euclidean Distance.
3. Memilih Prosedur Pengclusteran
Pembentukan cluster dapat dilakukan dengan dua cara, yaitu dengan metode Hierarki dan Non Hierarki.
4. Menentukan Banyaknya Cluster
Masalah utama dalam analisis cluster adalah menetukan berapa banyaknya cluster.
5. Menginterpretasikan Hasil Cluster
Tahap terakhir adalah interpretasi masing-masing cluster yang terbentuk. Saat memulai interpretasi digunakan rata-rata pada peubah.

1.3.1 Jarak Analisis Cluster

Konsep dasar pengukuran analisis cluster adalah pengukuran jarak (distance) dan kesamaan (similarity). Jarak merupakan ukuran jarak pisah antar objek sedangkan kesamaan merupakan ukuran kedekatan. Konsep ini penting karena pengelompokkan pada analisis cluster didasarkan pada kedekatan. Pengukuran jarak (distance type measure) digunakan untuk data bersifat kuantitatif, sedangkan pengukuran kesesuaian (matchingtype measure) digunakan untuk data yang bersifat kualitatif.Perhitungan jarak biasanya menggunakan jarak Euclidean yang digunakan pada 2 dimensi observasi.
Mohibullah, Zakir, dan Mahmudul (2015) mengungkapkan metode Euclidean lebih efektif dibandingkan metode pengukuran jarak lainnya dan cocok digunakan untuk dataset berukuran kecil. Nishom (2019) memaparkan bahwa pengukuran jarak Euclidean menunjukkan hasil yang baik dari pengukuran jarak Manhattan dan Minkowski. Sinwar & Kaushik (2014) melakukan perbandingan metode jarak Euclidean dan Manhattan dengan dua dataset nyata dan sintetik dan menghasilkan bahwa Euclidean menunjukan performa lebih baik dalam dalam jumlah iterasi.

1.3.2 Analisis Cluster Hierarki

Metode ini memulai pengelompokan dengan dua atau lebih obyek yang mempunyai obyek yang paling dekat. Kemudian proses diteruskan dengan meneruskan ke obyek lain yang memiliki kedekatan kedua. Demikian seterusnya sehinnga membentuk sebuah pohon yang mana ada hierarchy atau tingkatan dari yang paling mirip hingga yang berbeda. Pohon yang tebentuk oleh cluster ini disebut juga dengan dendogram. Pohon ini berguna untuk memberi kejelasan yang lebih dalam proses clustering.

Menurut Qonitatin & Novita, 2017 dalam Johnson, 1967, cara kerja metode cluster hirarki yaitu, diberikan sekumpulan N item yang akan di cluster, dan sebuah matrik N x N yang menyatakan jarak antar item pada N:
1. Mulai dengan membuat cluster sebanyak N, masing-masing cluster mempunyai sebuah item. Misalnya jarak antar cluster sama dengan jarak antar item yang dikandungnya.
2. Cari sepasang cluster yang jaraknya terdekat, dan dijadikan sebuah cluster baru. Jadi sekarang kita mempunyai N – 1 cluster.
3. Hitung jarak antar cluster yang baru dengan masing-masing cluster yang lainnya. Ulangi langkah 2 dan 3 sampai semua item menjadi sebuah cluster dengan N item. Tentunya tidak ada gunanya mempunyai N item yang dikelompokkan menjadi satu cluster besar.

1.3.3 Metode Analisis Cluster Hierarki

Metode cluster hirarki merupakan metode pengelompokan yang mana jumlah kelompok yang akan dibuat belum diketahui. Teknik ini diproses dengan baik melalui penggabungan berurutan (agglomerative) atau pembagian berurutan (divissive) (Qonitatin & Novita, 2017).

  1. Metode Agglomerative
    Metode agglomerative dimulai dengan objek individual. Awalnya ada banyak cluster sebagai objek. Objek yang paling mirip dikelompokkan kemudian kelompok-kelompok awal ini digabungkan sesuai dengan kesamaannya. Ketika kesamaan menurun, semua sub kelompok digabungkan menjadi satu kelompok. Metode ini dibagi lagi menjadi beberapa macam yakni sebagai berikut.
    1. Single Lingkage
      Untuk menentukan jarak antar cluster dengan menggunakan single linkage¸ maka dipilih jarak yang paling dekat atau aturan tetangga dekat (nearest neighbour rule). Langkah-langkah menggunakan metode single linkage (Johnson & Wichern, 2007:682) : pertama menentukan jarak minimum dalam D =\(d_{ij}\) ; kedua menghitung jarak antara cluster yang telah dibentuk pada lan gkah a dengan objek lainnya; kemudian yang ketiga adalah dari algoritma diatas jarak-jarak antara (IJ) dan cluster K yang lainnya dapat dihitungan dengan rumus :
      \[ d_{(ij)k}=min(d_{ik},d_{jk} )\tag{1} \]
    2. Complete Lingkage
      Metode complete linkage jarak antar cluster ditentukan oleh jarak terjauh atau maximumum (farthest-neighbour) antara dua objek dalam cluster yag berbeda (Johnson & Wichern,2007:685-686).
      \[ d_{(ij)k}=min(d_{ik},d_{jk} )\tag{2} \]
    3. Average Lingkage
      Metode average linkage akan mengelompokkan objek berdasarkan jarak antara dua cluster yang dianggap sebagai jarak rata-rata antara semua anggota dalam satu cluster dengan semua anggota cluster lain (Johnson & Wichern, 2007:690).Pada metode ini digunakan jarak rata-rata dari sampel pada suatu kelompok terhadap sampel pada kelompok yang lain. Perhitungan jarak antar kelompok adalah dengan menggunakan persamaan:
      \[ d_{(ij)k}=rata-rata(d_{ik},d_{jk})\tag{3} \]
      dengan d_ab merupakan jarak antara onjek a dalam cluster ij dan objek b dalam cluster k. Sedangkan \(N_{ij}\) dan \(N_k\) berturut-turut merupakan jumlah objek dalam cluster ij dan k (Johnson & Wichern, 2007).
    4. Ward’s Method
      Pada Ward’s Method jarak antara dua cluster yang terbentuk adalah sum of squares (Jumlah Kuadrat) di antara dua cluster tersebut. Diukur dengan menggunakan jumlah total dari deviasi kuadrat pada mean cluster untuk setiap pengamatan. Fungsi obyektif yang digunakan yaitu Error sum of squares (SSE). Dua obyek akan digabungkan jika mempunyai fungsi obyektif terkecil diantara kemungkinan yang ada (Abidin, 2017:12).
      \[ SSE = (\sum^{p}_{j=1} {x^2_{ij}} - \frac {1}{n} (\sum^{n}_{ij}{x_{ij}})^2)\tag{4} \]
      Keterangan :
      \(x_{ij}\) : Nilai untuk objek ke-i pada cluster ke-j
      p : Banyaknya variabel yang diukur
      n : Banyaknya objek dalam cluster yang terbentuk.
    5. Centroid Method
      Jarak yang digunakan dalam metode ini adalah jarak kuadrat Euclidean antara titik pusat dua kelompok. Dimana titik pusat kelompok ini adalah nilai tengah objek setiap peubah dalam satu kelompok. Dalam metode ini setiap kali terbentuk kelompok baru, maka titik pusatnya berubah. Kelebihan dari metode ini adalah kecilnya pengaruh pencilan dalam pembentukan kelompok.
  2. Metode Divissive
    Metode devisive bekerja dari arah yang berlawanan. Satu kelompok objek awal dibagi menjadi dua kelompok sehingga objek dalam satu subkelompok jauh dari objek yang lain. Sub kelompok ini kemudian dibagi lagi menjadi subkelompok yang berbeda. Proses tersebut terus berlanjut sampai ada banyak sub kelompok sebagai objek, yakni sampai masing-masing objek membentuk suatu kelompok.

1.3.4 Koefisien Korelasi Cophenetic

Adapun uji validitas tiap metode yang digunakan dalam penelitian ini menggunakan koefisien korelasi cophenetic. Koefisien korelasi cophenetic merupakan koefisien korelasi antara elemen-elemen asli matriks ketidakmiripan (dissimilarity distance) dan elemen-elemen yang dihasilkan oleh dendogram (matriks cophenetic). Nilai koefisien korelasi cophenetic berikisar antara -1 dan 1, nilai rcoph mendekati 1 berarti proses clustering yang dihasilkan dapat dikatakan cukup baik (Sinan, Nurhan, dan Ismet, 2013).

1.3.5 Dendogram

Dendogram adalah representasi matematis dan visual dari prosedur pengklasteran yang dilakukan dengan menggunakan analisis cluster hierarki. Bentuk dendogram identik dengan diagram pohon. Titik-titik pada dendogram mewakili cluster, sedangkan panjang batangnya mempresentasikan jarak dimana objek-objek digabung dalam cluster. Dendogram sebagai representasi proses pengelompokan analisis cluster hierarki akan membentuk struktur yang berbeda tergantung pada jarak maupun lingkage yang akan digunakan pada proses pengklusteran.
Dendogram dipotong untuk mengetahui banyaknya cluster yang terbentuk dari selisih terpanjang. Menurut Dillon & Goldstein (1984) Pemotongan dendogram dilakukan pada selisih jarak penggabungan terbesar ataupun pada gerombol yang dihasilkan lebih bermakna. Pemotongan dendogram dapat dilakukan pada selisih jarak penggabungan terbesar.

1.4 Data

Pada kasus ini menggunakan data sekunder yang diproleh dari Badan Pusat Statistik di Jawa Barat mengenai indikator pembangunan ekonomi Tahun 2019. Indikator pembangun ekonomi terdiri dari 3 indikator yaitu indikator moneter, indikator non-moneter dan indikator campuran dengan beberapa peubah yang digunakan adalah Produk Domestik Regional Bruto perkapita Atas Dasar Harga Konstan (\(X_1\)), Indeks Pembangunan Manusia (\(X_2\)), Tingkat Partisipasi Angkatan Kerja (\(X_3\)), dan Sumber Penerangan Listrik (\(X_4\)).

Tabel 1. Data Indikator Pembangunan Ekonomi Provinsi Jawa Barat Tahun 2019
Kab/Kota X1 X2 X3 X4
Bogor 30247471 72.03 64.99 4.19
Sukabumi 26296550 70.65 65.41 4.22
Cianjur 18922739 66.87 62.65 3.23
Bandung 14128884 65.38 66.00 5.66
Garut 21809417 72.41 65.32 4.83
Tasikmalaya 14907060 66.22 62.60 0.57
Ciamis 14016644 65.64 66.46 3.23
Kuningan 18431492 70.39 67.39 9.90
Cirebon 15599976 69.12 61.20 7.11
Majalengka 15378654 68.69 65.23 5.63
Sumedang 17724742 67.52 67.83 9.04
Indramayu 20773420 71.46 63.90 7.07
Subang 34802101 66.97 67.69 13.31
Purwakarta 17904497 68.69 67.67 6.71
Karawang 48071784 70.67 63.88 2.16
Bekasi 69563075 70.86 63.57 1.98
Bandung Barat 66965638 73.99 64.02 9.34
Pangandaran 18470749 68.27 61.97 0.96
Kota Bogor 19412058 68.21 75.08 30.29
Kota Sukabumi 29000138 76.23 63.68 5.63
Kota Bandung 26346398 74.31 62.48 11.28
Kota Cirebon 78808426 81.62 65.90 46.14
Kota Bekasi 52653543 74.92 62.71 0.24
Kota Depok 23104660 81.59 65.66 2.97
Kota Cimahi 20390600 80.82 64.96 5.66
Kota Tasikmalaya 36857695 78.11 63.26 7.81
Kota Banjar 23731278 72.84 65.26 7.37

2 Source Code

2.1 Library yang Dibutuhkan

> library(readxl)
> library(magrittr)
> library(knitr)
> library(ggplot2)
> library(factoextra)
> library(cluster)

Berikut adalah library yang akan digunakan untuk membantu dalam pemrograman ini agar lebih cepat dan efisien.
* Library readxl digunakan untuk membuka dan membaca file data yang bertype microsoft excel xlsx dari dalam R.
* Library kntir yaitu mengintegrasikan komputasi dan pelaporan. Dengan memasukan kode ke dalam dokumen teks, analisis, hasil berada dalam satu tempat, kemudian apat diproses menjadi berbagai macam format.
* Library magrittr digunakan untuk mengurangi waktu pengembangan dan meningkatkan keterbacaan, serta memelihara kode.
* Library ggplot2 digunakan untuk membuat visualisasi data yang lebih menarik.
* Library factoextra digunakan mengekstrak dan memvisualisasikan hasil dari analisis multivariate, yaitu memvisualisasi cluster dan menentukan jumlah cluster optimum.
* Library cluster dapat digunakan oleh semua notebook yang sedang berjalan serta untuk melakukan analisis cluster

2.2 Import Data

> Data_IPE_Jawa_Barat_2019 <- read_excel("Data IPE Jawa Barat 2019.xlsx")  
> summary(Data_IPE_Jawa_Barat_2019)

Untuk mengimport file data dari excel ke R dapat menggunakan fungsi read excel dari library readxl, yang kemudian disimpan dalam variabel Data_IPE_Jawa_Barat_2019, serta summary digunakan untuk melihat gambaran data secara keseluruhan.

2.3 Standarisasi Data

> Datastand <- scale(Data_IPE_Jawa_Barat_2019[2:5])
> Datastand %>% head(27) %>% kable(caption = "Hasil Standarisasi Data Indikator Pembangunan Ekonomi Provinsi Jawa Barat Tahun 2019")

Melakukan standalisasi menggunakan fungsi scale dengan argument yang berisi data awal dari kolom 2 sampai kolom 5, standarisasi ini perlu dilakukan dengan tujuan untuk mempersempit dan menyamakan peubah yang memiliki satuan yang berbeda-beda.Untuk menampilkan data ke bentuk data frame dapat menggunakan menggunakan operator pipa (%>%) yang ada di library magrittr dan fungsi kable yang ada di library knitr.

> n <- dim(Datastand)[1]
> Data <- data.matrix(Datastand,1:4)
> rownames(Data)=c(1:nrow(Data))  

Untuk melihat jumlah baris dan kolom dari data yang sudah di standarisasi menggunakan fungsi dim(), kemudian Data didefinisikan menggunakan fungsi data.matrix yang berisi argument data yang sudah di standarisasi dari kolom 1 sampai kolom 4. sehingga data yang akan digunakan untuk menyelesaikan kasus ini adalah variabel Data.

2.4 Korelasi

> # KORELASI
> korelasi = cor(Data, method="pearson")
> korelasi
> 
> # Perbandingan korelasi antar metode hirarki
> # Single Linkage
> d1=dist(Data)
> hc=eclust(d1, FUNcluster = "hclust", hc_metric = "euclidean",hc_method = "single")
> d2=cophenetic(hc)
> cor.sing=cor(d1,d2)
> cor.sing
> 
> # Average Linkage
> d1=dist(Data)
> hc=eclust(d1, FUNcluster = "hclust", hc_metric = "euclidean",hc_method = "average")
> d2=cophenetic(hc)
> cor.ave=cor(d1,d2)
> cor.ave
> 
> # Complete Linkage
> d1=dist(Data)
> hc=eclust(d1, FUNcluster = "hclust", hc_metric = "euclidean",hc_method = "complete")
> d2=cophenetic(hc)
> cor.comp=cor(d1,d2)
> cor.comp
> 
> # Centroid
> d1=dist(Data)
> hc=eclust(d1, FUNcluster = "hclust", hc_metric = "euclidean",hc_method = "centroid")
> d2=cophenetic(hc)
> cor.centr=cor(d1,d2)
> cor.centr
> 
> # Ward's Method
> d1=dist(Data)
> hc=eclust(d1, FUNcluster = "hclust", hc_metric = "euclidean",hc_method = "ward.D")
> d2=cophenetic(hc)
> cor.ward=cor(d1,d2)
> cor.ward

Untuk melihat korelasi antara tiap peubah digunakan fungsi cor(…) dengan argument yang diisikan adalah data untuk kolom 2 sampai 5 dan memilih metode yang digunakan.
Untuk mencari metode terbaik yang akan digunakan dapat melihat perbandingan nilai korelasi cophenetic dari masing masing metode, nilai korelasi cophenetic terbesar akan dipilih. Fungsi eclust digunakan untuk menerapkan metode hirarki cluster, untuk argument yang diisikan ketika mencari korelasi antarmetode adalah data yang sudah di standariasi yang sebelumnya sudah didefinisikan sebagai d1, dan menggunakan d2 yaitu koefisen cophenetic dengan argument nya adalah hc sudah di definisikan sebelumnya. Dimana ketika mendefinisikan hc tersebut menggunakan fungsi eclust(…) yang berisi argument data yg sudah di standarisasi, menerapakan metode cluster hirarki, jarak yang digunakan adalah jarak euclidean dan metode yang dipilih baik itu single, avarage, complete, ward dan centroid.

2.5 Plot K Optimum

> fviz_nbclust(Data, hcut, method = "silhouette")

Fungsi fviz_nbclust digunakan untuk menentukan jumlah cluster optimum, dimana argument yang diisikan adalah data hasil standarisasi, hirarki cluster dengan menggunakan metode Silhoutte untuk memvalidasi.

2.6 Proses Clustering

> clus_hier = eclust(Data, FUNcluster = "hclust", k = 2, hc_method = "complete", graph= TRUE)
> dend=fviz_dend(clus_hier, rect = TRUE, show_labels = TRUE, cex = 0.5)
>   
> idclus = clus_hier$cluster
> idobs = as.numeric(names(idclus))
> print(dend) 
> 
> idclus = clus_hier$cluster
> c1 = c(); c2 = c(); 
> for (i in 1:n){
+   if(idclus[i] == 1){c1 = c(c1,i)}
+    else if (idclus[i] == 2){c2 = c(c2,i)}
+ }
> clustering = list(Cluster1 = c1, Cluster2 = c2)
> clustering$Cluster1
> clustering$Cluster2

Fungsi eclust digunakan untuk menerapkan clustering yang berisi argument data yg sudah di standarisai, menerapakan metode cluster hirarki, dengan cluster optimum sebanyak 2 cluster dan metode complete sebagai metode terbaik yang dipilih untuk melakukan clustering, serta graph= TRUE yang artinya akan memunculkan grafik dari hasil clustering yang kemudian disimpan pada variabel clus_hier. Fungsi fviz_dend digunakan untuk memvisualisasikan hasil clustering berbentuk dendogram yang berisi argument dari clus_hier, react=TRUE dengan menampilkan label.
Kemudian untuk mendapatkan anggota tiap cluster terlebih dahulu mendefinisikan idclus dengan hanya memanggil cluster pada variabel clus_hier yang sebelumnya sudah didefinisikan, lalu selanjutnya mendefinisikan c1 dan c2 dengan c() dan selanjutnya menggunakan looping for, dimana i untuk mengevaluasi setiap elemen dari 1 sampai n, dan di dalam loop digunakan if else if bertingkat untuk menguji dan menyeleksi setiap elemen vektor data i = 1 akan masuk ke cluster 1, jika bukan maka looping i = 2 akan masuk ke cluster 2. Kemudian mendefisikan clustering dengan fungsi list untuk cluster1 = c1, dan cluster2 = c2, dan terakhir memanggil anggota tiap cluster pada variabel clustering.

3 PEMBAHASAN

3.1 Statistik Deskriptif

Statistik deskriptif pada penelitian ini digunakan untuk memberikan gambaran umum dan menyajikan data Indikator Pembangunan Ekonomi pada peubah PDRB perkapita Atas Dasar Harga Konstan \(X_1\), IPM \(X_2\), Tingkat Angkatan Partisipasi Kerja \(X_3\) dan Sumber Penerangan Listrik \(X_4\).

   Kab/Kota               X1                 X2              X3       
 Length:27          Min.   :14016644   Min.   :65.38   Min.   :61.20  
 Class :character   1st Qu.:18167995   1st Qu.:68.24   1st Qu.:63.41  
 Mode  :character   Median :21809417   Median :70.67   Median :64.99  
                    Mean   :29419248   Mean   :71.65   Mean   :65.07  
                    3rd Qu.:32524786   3rd Qu.:74.15   3rd Qu.:65.95  
                    Max.   :78808426   Max.   :81.62   Max.   :75.08  
       X4        
 Min.   : 0.240  
 1st Qu.: 3.230  
 Median : 5.660  
 Mean   : 8.020  
 3rd Qu.: 8.425  
 Max.   :46.140  
  • Provinsi Jawa Barat memiliki 27 Kabupaten/Kota, setiap Kabupaten/Kota mempunyai Produk Domestik Regional Bruto (PDRB) perkapita, wilayah yang memiliki PDRB perkapita Atas Dasar Harga Konstan terendah adalah Ciamis yaitu sebesar Rp. 14016644, sedangkan wilayah yang memiliki PDRB perkapita Atas Dasar Harga Konstan terbesar adalah Kota Cirebon sebesar Rp. 78808426 .
  • Provinsi Jawa Barat memiliki 27 Kabupaten/Kota, setiap Kabupaten/Kota mempunyai Indek Pembangunan Manusia (IPM), wilayah yang memiliki IPM terendah adalah Kabupaten Bandung yaitu sebesar 65.38 %, sedangkan wilayah yang memiliki PDRB perkapita terbesar adalah Kota Cirebon sebesar 81.62 %
  • Provinsi Jawa Barat memiliki 27 Kabupaten/Kota, setiap masyarakat di Kabupaten/Kota bekerja untuk memenuhi kebutuhan hidup, Kota Cirebon mempunyai Tingkat Partisipasi Angkatan Kerja (TPAK) yaituu sebesar 61.20 % , sedangkan Kota Bogor termasuk Kota yang memiliki TPAK tertinggi yaitu sebsar 75.08 %
  • Provinsi Jawa Barat memiliki 27 Kabupaten/Kota, setiap masyarakat yang ada di Kabupaten/Kota memiliki rumah sebagai tempat berlindung, beristirahat dan berkumpul dengan keluarga. Memiliki penerang listrik yang baik merupakan salah satu yang diinginkan oleh masyarakat agar nyaman dalam beraktivitas, oleh karena itu Kabupaten/Kota yang memiliki sumber penerang yang rendah berada di Bekasi yaitu sebesar 0.24%, sedangkan sumber penerang listrik terbesar adalah Kota Cirebon sebesar 46.14% .

3.2 Standarisasi Data

Hal pertama yang dilakukan sebelum melakukan clustering adalah standarisasi data, jika satu data yang sama maka tidak perlu melakukan standarisasi, namun jika satuan berbeda maka standarisaisi harus dilakukan, agar mempersempit dan menyamakan satuan peubah yang berbeda beda. Karena dalam kasus ini satuan peubah ada yang berbeda, maka harus dilakukan standarisasi. Berikut adalah hasil data Indikator Pembangunan Ekonomi di Jawa Barat Tahun 2019 yang sudah di standarisasi.
Tabel 2. Hasil Standarisasi Data

Hasil Standarisasi Data Indikator Pembangunan Ekonomi Provinsi Jawa Barat Tahun 2019
X1 X2 X3 X4
0.0457281 0.0804174 -0.0278703 -0.4012962
-0.1724112 -0.2096459 0.1270556 -0.3981526
-0.5795359 -1.0041671 -0.8910287 -0.5018919
-0.8442154 -1.3173513 0.3446896 -0.2472590
-0.4201559 0.1602899 0.0938572 -0.3342324
-0.8012506 -1.1407911 -0.9094723 -0.7806259
-0.8504124 -1.2627017 0.5143703 -0.5018919
-0.6066587 -0.2642955 0.8574204 0.1970388
-0.7629931 -0.5312378 -1.4258918 -0.0953175
-0.7752128 -0.6216198 0.0606588 -0.2504026
-0.6456800 -0.8675430 1.0197237 0.1069218
-0.4773556 -0.0393913 -0.4299398 -0.0995090
0.2971994 -0.9831480 0.9680818 0.5543631
-0.6357553 -0.6216198 0.9607044 -0.1372324
1.0298486 -0.2054420 -0.4373172 -0.6140142
2.2164311 -0.1655058 -0.5516673 -0.6328759
2.0730208 0.4923914 -0.3856753 0.1383579
-0.6044913 -0.7098999 -1.1418611 -0.7397589
-0.5525195 -0.7225114 3.6940394 2.3336499
-0.0231400 0.9632188 -0.5110914 -0.2504026

3.3 Koefisien Korelasi Cophenetic

Tabel 3. Hasil Koefisien Korelasi Cophenetic

Metode Korelasi Cophenetic
Single Lingkage 0.8608458
Average Lingkage 0.9004589
Complete Lingkage 0.9005216
Centroid 0.895597
Ward 0.7756377

Dari hasil koefisein korelasi cophenetic terlihat bahwa Complete Lingkage memiliki nilai koefisien korelasi tertinggi dibandingkan metode lain, yaitu sebesar 0.9005216. Oleh karena itu metode cluster yang terbaik yang akan digunakan adalah metode Complete Lingkage

3.4 Cluster Optimum

> fviz_nbclust(Data, hcut, method = "silhouette")

Berdasarkan plot diatas, dengan menggunakan metode silhoutte untuk memvalidasi jumlah cluster, jumlah cluster optimum yang tepat digunakan untuk menyeleasikan kasus ini adalah sebanyakan 2 cluster

3.5 Proses Clustering

Dengan melihat selisih terpanjang dari gamabar diatas terlihat bahwa pemotongan yang tepat akan menghasilkan 2 cluster, dimana pada cluster 1 sebanyak 25 anggota dan cluster 2 sebanyak 2 anggota.

> idclus = clus_hier$cluster
> c1 = c(); c2 = c(); 
> for (i in 1:n){
+   if(idclus[i] == 1){c1 = c(c1,i)}
+    else if (idclus[i] == 2){c2 = c(c2,i)}
+ }
> clustering = list(Cluster1 = c1, Cluster2 = c2)
> clustering$Cluster1
 [1]  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 20 21 23 24 25 26 27
> clustering$Cluster2
[1] 19 22

Berdasarkan hasil clustering penggunakan software R, diperoleh anggota tiap cluster sebagai berikut:

Tabel 4. Anggota Cluster

Cluster Anggota
1 Bogor, Sukabumi, Cianjur, Bandung, Garut, Tasikmalaya, Ciamis, Kuningan, Cirebon, Majalengka, Sumedang, Indramayu, Subang, Purwakarta, Karawang, Bekasi, Bandung Barat, Pangandaran, Kota Sukabumi, Kota Bandung, Kota Bekasi, Kota Depok, Kota Cimahi, Kota Tasikmalaya, Kota Banjar
2 Kota Bogor, Kota Cirebon

3.6 Karakteristik Tiap Cluster

Tabel 5.Karakteristik Tiap Cluster

Peubah Cluster 1 Cluster 2
\(X_1\) (PDRB Per kapita) 27843968.2 49110241.95
\(X_2\) (IPM) 71.386 74.915
\(X_3\) (TPAK) 64.6316 70.49
\(X_4\) (Sumber Penerangan listrik) 5.604 38.215

Cluster 1 yaitu kelompok kabupaten/Kota yang masuk dalam cluster 1 sebanyak 25 Kabupaten/Kota yang bercirikan Produk Domestik Regional Bruto (PDRB) perkapita Atas Dasar Harga Konstan, Indek Pembangunan Manusia, Tingkat Partisipasi Angkatan Kerja (TPAK), dan sumber penerangan listrik lebih rendah daripada cluster 2. Laju pertumbuhan PDRB dapat dipandang sebagai peningkatan produktivitas penduduk atau pertambahan jumlah barang dan jasa yang dihasilkan oleh semua lapangan usaha kegiatan ekonomi yang ada di suatu wilayah selama kurun waktu setahun. Beberapa Kabupaten/Kota yang beranggota di cluster 1 memiliki PDRB terendah di Jawab Barat yaitu Kota Banjar, lalu disusul dengan Kabupaten Pangandaran, begitupun juga untuk Indek Pembangunan Manusia terendah berada di cluster 1 yaitu Kabupaten Cianjur yang masih bertahan di posisi terendah dari 27 Kabupaten/Kota di Jawa Timur, meskpun begitu terdapat juga beberapa Kota yang memiliki IPM ataupun perekonomian yang baik seperti Kabupaten Kuningan dan bebrapa Kota Maju juga menjadi anggota cluster 1 seperti Kota Bandung, Kota Bekasi, Karawang dll.

Cluster 2 yaitu kelompok Kabupaten/Kota yang masuk dalam cluster hanya terdapat 2 Kota, yang bercirikan Produk Domestik Regional Bruto (PDRB) perkapita Atas Dasar Harga Konstan, Indek Pembangunan Manusia, Tingkat Partisipasi Angkatan Kerja(TPAK), dan sumber penerangan listrik paling tinggi daripada cluster 1. Hal ini karena anggota pada cluster 2 hanya beranggotankan 2 Kota yaitu Kota Bogor dan Kota Cirebon yang dimana Kota tersebut merupakan Kota maju yang ada di Jawa Barat. Dimana Badan Pusat Statistik mencatat bahwa Indek Pembangunan Manusia (IPM) Kota Cirebon pada tahun 2019 mengalami kemajuan dibandingkan tahun 2018 yaitu mencapai 74,94 sedangkan Kota Bogor menempati peringkat ke 5, yang artinya kedua Kota tersebut memiliki IPM yang tinggi.

Sehingga secara keseluruhan karakteristik pengelompokan cenderung memiliki kesamaan yaitu pada cluster pertama beranggoatakan Kota dengan indikator perekonomian yang maju, sedangkan cluster 2 beranggotakan Kabupaten/Kota yang memiliki beragam dari indikator perekonomian terendah ke menengah, meskipun terdapat anggota Kota yang maju juga. Dari kasus ini terlihat bahwa mayoritas Kabupaten/Kota di Jawa Barat berada pada tingkat ekonomi menengah ke bawah, dengan begitu pemerintah diharapkan lebih memperhatikan beberapa indikator seperti PDRB perkapita Atas Dasar Harga Konstan, IPM, TPAK yang ada di Kabupaten/Kota cluster kedua agar mampu meningkatkan pertumbuhan ekonomi.

4 DAFTAR PUSTAKA

Abidin, Z. 2017. Pengelompokan Kabupaten/Kota di Jawa Timur Berdasarkan Indikator Kemiskinan Dengan Menggunakan Analisis Cluster Hierarki (Skripsi, Institut Teknologi Sepuluh Nopember).
Akhyar, S. 2017. Pengelompokan Kabupaten/Kota di Jawa Timur Berdasarkan Indikator Pembangunan Ekonomi Menggunakan Model-Based Clustering (Skripsi, Institut Teknologi Sepuluh Nopember).
Dani, A. T. R., Wahyuningsih, S., & Rizki, N. A. 2019. Penerapan Hierarchical Clustering Metode Agglomerative pada Data Runtun Waktu. Jambura Journal of Mathematics. 1. 2. D. Sinwar and R. Kaushik. Study of Euclidean and manhattan distance metrics using simple k-means clustering. International Journal for Research in Applied Science and Engineering Technology. 2. 5.
Dillon, W.R., & Goldstein, M. 1984. Multivariate Analysis Methods and Aplication. New York: John Wiley and Sons Inc.
Haumahu, G., & Nanlohy, Y.W. 2020. Penerapan Analisis Klaster untuk Pengelompokkan Kabupaten/Kota di Provinsi Maluku Berdasarkan Konsumsi Kalori Penduduk. Jurnal of Statistics and Its Applications. 2. 2.
Hemelia dan Sumargo, B. 2019. Pengklasifikasian Pengguna Internet Lingkungan Pedesaan Menurut Jenjang Pendidikan di Indonesia Menggunakan Metode Cluster Average Lingkage. Jurnal Statistika dan Aplikasinya. 3. 1.
Johnson, R. A., & Wichern, D. W. 2007. Applied Multivariate Statistical Analysis. Englewood, New Jersey: Prentice Hall.
Mason, R. D. 1996. Teknik Statistika untuk Bisnis & Ekonomi. Jakarta: Erlangga.
Mattjik, A.A. dan Sumertajaya, I.M. Sidik Peubah Ganda dengan Menggunakan SAS. Bogor: IPB Press.
Mohibullah, M. Hossain, Z.M. & Hasan, M. 2015. Comparison of Euclidean distance function and manhattan distance function using k-mediods. International Journal of Computer Science and Information Security. 13. 10.
Nafisah, Q., & Chandra, N.E. 2017. Analisis Cluster Average Lingkage Berdasarkan Faktor-Faktor Kemiskinan di Provinsi Jawa Timur. Zeta-Math Journal.3.2.
Nicolaus, Sulistianingsih, E., & Perdana, H. 2016. Penentuan Jumlah Cluster pada Median Lingkage Dengan Indeks Validitas Silhouette. Buletin Ilmiah Math. Stat. Dan Terapannya (Bimaster). 5. 2.
Nishom, M. Perbandingan akurasi Euclidean distance, minkowski distance, dan manhattan distance pada algoritma k-means clustering berbasis chi-square. Jurnal Informatika. 4.1.
Rachmatin, Dewi. 2014. Aplikasi Metode Agglomerative Dalam Analisis Klaster Pada Data Tingkat Polusi Udara. Jurnal Infinity. 3. 2.
Saracli, S., Dogan, N., & Dogan, I. 2013.Comparison of Hierarchical Cluster Analysis Methods by Cophenetic Correlation. Journal of Inequalities and Applications. 203. 1-8.