1 PENDAHULUAN
1.1 Latar Belakang
Tingkat perekonomian merupakan salah satu faktor yang sering kali digunakan untuk menyatakan keberhasilan sebuah wilayah dalam mengelola kesejahteraan dan kemakmuran rakyat. Pembangunan ekonomi merupakan suatu proses untuk meningkatkan pendapatan per kapita selama kurun waktu yang panjang, dengan catatan bahwa jumlah penduduk yang hidup dibawah garis kemiskinan absolut tidak meningkat dan distribusi pendapatan tidak semakin timpang. Kerjasama antar daerah merupakan faktor yang sangat diperlukan dalam pembangunan ekonomi yang berlingkup luas. Namun, tujuan tersebut tidak mudah dicapai karena setiap daerah memiliki perbedaan potensi sumber daya alam, sumber daya manusia dan lembaga institusi. Akibatnya pertumbuhan ekonomi yang diharapkan terjadi secara tidak merata hanya berhasil dibeberapa tempat yang disebut pusat pertumbuhan (Shiddiqul, 2017). Berdasarkan penjelasan tersebut, maka untuk mengatasi ini dapat dilakukan dengan memperlakukan kebijakan kebijakan khusus pada kabupaten yang memiliki tingkat ekonomi berbeda. Sebelum menyusun kebijakan kebijakan khusus, disarankan untuk dikelompokkan sesuai dengan indikator pembangunan ekonomi.
Analisis Cluster merupakan salah satu metode statistika yang dapat digunakan untuk melakukan proses pengelompokan objek-objek, sehingga setiap objek yang paling dekat kesamaannya dengan objek lain berada dalam cluster yang sama (Gabriella & Yonlib, 2020). Secara umum, analisis cluster dibagi dalam dua metode yaitu metode Non-hierarki dan metode Hierarki. Pada metode Non-hierarki banyaknya cluster ditentukan terlebih dahulu sedangkan metode cluster Hierarki harus melakukan analisis terlebih dahulu untuk menentukan banyaknya cluster. Menurut Dewi (2014) metode hierarki dibagi menjadi dua yaitu metode agglomerative (pemusatan) dan metode divisive.
Metode analisis cluster yang digunakan dalam kasus ini adalah analisis cluster hierarki yaitu terdiri dari Single Linkage Method, Complete Linkage Method, Average Linkage Method, Ward’s Method, dan Centroid Method. Salah satu masalah dalam analisis cluster adalah penentuan jumlah cluster optimal dalam cluster yang sudah di bentuk. Oleh karena itu, dalam melakukan analisis cluster perlu dilakukan uji validitas cluster untuk mendapatkan jumlah cluster yang optimal, maka digunakan indeks validitas silhouette berdasarkan jarak Euclidean (Nicolaus, Evy, dan Hendra, 2016). Analisis cluster dapat membantu untuk mengambil kebijkan dalam pembangunan ekonomi. Dengan dikelompokkannya setiap kabupaten/kota menggunakan analisis cluster sesuai dengan indikator pembangunan ekonomi maka pemerintah dapat memberikan kebijakan kebijakan khusus sesuai dengan kondisi wilayah kabupaten/kota di Jawa Barat.
1.2 Statistika Deskriptif
Menurut Mason (1996), Statistika deskriptif adalah metode-metode statistika yang digunakan untuk menggambarkan data yang telah dikumpulkan. Data yang telah dikumpulkan perlu disajikan agar mudah dimengerti, menarik, komunikatif, dan informatif bagi pembaca.
1.3 Analisis Cluster
Analisis Cluster adalah salah satu teknik multivariat yang
bertujuan mengklasifikasi suatu objek-objek ke dalam suatu
kelompok-kelompok yang berbeda antara lain antara kelompok satu dengan
lainnya. Objek-objek yang telah memiliki kedekatan jarak relatif sama
dengan objek lainnya (Qonitatin & Novita, 2017). Karakteristik
objek-objek dalam satuan kelompok memiliki tingkat kemiripan yang
tinggi, sedangkan karakteristik antar objek pada suatu kelompok dengan
kelompok lain memiliki tingkat kemiripan yang rendah (Mattjik &
Sumertajaya, 2011). Prosedur pembentukan cluster terbagi menjadi 2 yaitu
hierarki dan non hierarki.
Tahap-tahap dalam analisis cluster yaitu sebagai berikut (Hamelia &
Bagus, 2019).
1. Melakukan Proses Standarisasi Data
Hal pertama yang harus dilakukan dalam analisis clustering
adalah melakukan standarisasi data yaitu menggunakan z-score,
dimana tujuan dilakukan standarisasi data adalah untuk
mempersempit perbedaan satuan lebar serta dapat digunakan untuk
menyamakan peubah yang memiliki satuan yang berbeda-beda.
2. Menentukan Ukuran Kemiripan
Pada analisis cluster terdapat beberapa ukuran kemiripan
diantaranya adalah ukuran asosiasi, ukuran korelasi dan ukuran jarak.
Ukuran kemiripan dengan menghitung jarak antar dua objek. Dalam mengukur
kedektan antara dua objek dapat digunakan metode pengukuran
Euclidean Distance.
3. Memilih Prosedur Pengclusteran
Pembentukan cluster dapat dilakukan dengan dua cara, yaitu dengan metode
Hierarki dan Non Hierarki.
4. Menentukan Banyaknya Cluster
Masalah utama dalam analisis cluster adalah menetukan berapa
banyaknya cluster.
5. Menginterpretasikan Hasil Cluster
Tahap terakhir adalah interpretasi masing-masing cluster yang
terbentuk. Saat memulai interpretasi digunakan rata-rata pada
peubah.
1.3.1 Jarak Analisis Cluster
Konsep dasar pengukuran analisis cluster adalah pengukuran jarak
(distance) dan kesamaan (similarity). Jarak merupakan
ukuran jarak pisah antar objek sedangkan kesamaan merupakan ukuran
kedekatan. Konsep ini penting karena pengelompokkan pada analisis
cluster didasarkan pada kedekatan. Pengukuran jarak
(distance type measure) digunakan untuk data bersifat
kuantitatif, sedangkan pengukuran kesesuaian (matchingtype
measure) digunakan untuk data yang bersifat kualitatif.Perhitungan
jarak biasanya menggunakan jarak Euclidean yang digunakan pada
2 dimensi observasi.
Mohibullah, Zakir, dan Mahmudul (2015) mengungkapkan metode
Euclidean lebih efektif dibandingkan metode pengukuran jarak
lainnya dan cocok digunakan untuk dataset berukuran kecil. Nishom (2019)
memaparkan bahwa pengukuran jarak Euclidean menunjukkan hasil yang baik
dari pengukuran jarak Manhattan dan Minkowski. Sinwar
& Kaushik (2014) melakukan perbandingan metode jarak Euclidean dan
Manhattan dengan dua dataset nyata dan sintetik dan menghasilkan bahwa
Euclidean menunjukan performa lebih baik dalam dalam jumlah
iterasi.
1.3.2 Analisis Cluster Hierarki
Metode ini memulai pengelompokan dengan dua atau lebih obyek yang mempunyai obyek yang paling dekat. Kemudian proses diteruskan dengan meneruskan ke obyek lain yang memiliki kedekatan kedua. Demikian seterusnya sehinnga membentuk sebuah pohon yang mana ada hierarchy atau tingkatan dari yang paling mirip hingga yang berbeda. Pohon yang tebentuk oleh cluster ini disebut juga dengan dendogram. Pohon ini berguna untuk memberi kejelasan yang lebih dalam proses clustering.
Menurut Qonitatin & Novita, 2017 dalam Johnson, 1967, cara kerja
metode cluster hirarki yaitu, diberikan sekumpulan N item yang akan di
cluster, dan sebuah matrik N x N yang menyatakan jarak antar item pada
N:
1. Mulai dengan membuat cluster sebanyak N, masing-masing cluster
mempunyai sebuah item. Misalnya jarak antar cluster sama dengan jarak
antar item yang dikandungnya.
2. Cari sepasang cluster yang jaraknya terdekat, dan dijadikan sebuah
cluster baru. Jadi sekarang kita mempunyai N – 1 cluster.
3. Hitung jarak antar cluster yang baru dengan masing-masing cluster
yang lainnya. Ulangi langkah 2 dan 3 sampai semua item menjadi sebuah
cluster dengan N item. Tentunya tidak ada gunanya mempunyai N item yang
dikelompokkan menjadi satu cluster besar.
1.3.3 Metode Analisis Cluster Hierarki
Metode cluster hirarki merupakan metode pengelompokan yang mana jumlah kelompok yang akan dibuat belum diketahui. Teknik ini diproses dengan baik melalui penggabungan berurutan (agglomerative) atau pembagian berurutan (divissive) (Qonitatin & Novita, 2017).
- Metode Agglomerative
Metode agglomerative dimulai dengan objek individual. Awalnya ada banyak cluster sebagai objek. Objek yang paling mirip dikelompokkan kemudian kelompok-kelompok awal ini digabungkan sesuai dengan kesamaannya. Ketika kesamaan menurun, semua sub kelompok digabungkan menjadi satu kelompok. Metode ini dibagi lagi menjadi beberapa macam yakni sebagai berikut.- Single Lingkage
Untuk menentukan jarak antar cluster dengan menggunakan single linkage¸ maka dipilih jarak yang paling dekat atau aturan tetangga dekat (nearest neighbour rule). Langkah-langkah menggunakan metode single linkage (Johnson & Wichern, 2007:682) : pertama menentukan jarak minimum dalam D =\(d_{ij}\) ; kedua menghitung jarak antara cluster yang telah dibentuk pada lan gkah a dengan objek lainnya; kemudian yang ketiga adalah dari algoritma diatas jarak-jarak antara (IJ) dan cluster K yang lainnya dapat dihitungan dengan rumus :
\[ d_{(ij)k}=min(d_{ik},d_{jk} )\tag{1} \] - Complete Lingkage
Metode complete linkage jarak antar cluster ditentukan oleh jarak terjauh atau maximumum (farthest-neighbour) antara dua objek dalam cluster yag berbeda (Johnson & Wichern,2007:685-686).
\[ d_{(ij)k}=min(d_{ik},d_{jk} )\tag{2} \] - Average Lingkage
Metode average linkage akan mengelompokkan objek berdasarkan jarak antara dua cluster yang dianggap sebagai jarak rata-rata antara semua anggota dalam satu cluster dengan semua anggota cluster lain (Johnson & Wichern, 2007:690).Pada metode ini digunakan jarak rata-rata dari sampel pada suatu kelompok terhadap sampel pada kelompok yang lain. Perhitungan jarak antar kelompok adalah dengan menggunakan persamaan:
\[ d_{(ij)k}=rata-rata(d_{ik},d_{jk})\tag{3} \]
dengan d_ab merupakan jarak antara onjek a dalam cluster ij dan objek b dalam cluster k. Sedangkan \(N_{ij}\) dan \(N_k\) berturut-turut merupakan jumlah objek dalam cluster ij dan k (Johnson & Wichern, 2007).
- Ward’s Method
Pada Ward’s Method jarak antara dua cluster yang terbentuk adalah sum of squares (Jumlah Kuadrat) di antara dua cluster tersebut. Diukur dengan menggunakan jumlah total dari deviasi kuadrat pada mean cluster untuk setiap pengamatan. Fungsi obyektif yang digunakan yaitu Error sum of squares (SSE). Dua obyek akan digabungkan jika mempunyai fungsi obyektif terkecil diantara kemungkinan yang ada (Abidin, 2017:12).
\[ SSE = (\sum^{p}_{j=1} {x^2_{ij}} - \frac {1}{n} (\sum^{n}_{ij}{x_{ij}})^2)\tag{4} \]
Keterangan :
\(x_{ij}\) : Nilai untuk objek ke-i pada cluster ke-j
p : Banyaknya variabel yang diukur
n : Banyaknya objek dalam cluster yang terbentuk.
- Centroid Method
Jarak yang digunakan dalam metode ini adalah jarak kuadrat Euclidean antara titik pusat dua kelompok. Dimana titik pusat kelompok ini adalah nilai tengah objek setiap peubah dalam satu kelompok. Dalam metode ini setiap kali terbentuk kelompok baru, maka titik pusatnya berubah. Kelebihan dari metode ini adalah kecilnya pengaruh pencilan dalam pembentukan kelompok.
- Single Lingkage
- Metode Divissive
Metode devisive bekerja dari arah yang berlawanan. Satu kelompok objek awal dibagi menjadi dua kelompok sehingga objek dalam satu subkelompok jauh dari objek yang lain. Sub kelompok ini kemudian dibagi lagi menjadi subkelompok yang berbeda. Proses tersebut terus berlanjut sampai ada banyak sub kelompok sebagai objek, yakni sampai masing-masing objek membentuk suatu kelompok.
1.3.4 Koefisien Korelasi Cophenetic
Adapun uji validitas tiap metode yang digunakan dalam penelitian ini menggunakan koefisien korelasi cophenetic. Koefisien korelasi cophenetic merupakan koefisien korelasi antara elemen-elemen asli matriks ketidakmiripan (dissimilarity distance) dan elemen-elemen yang dihasilkan oleh dendogram (matriks cophenetic). Nilai koefisien korelasi cophenetic berikisar antara -1 dan 1, nilai rcoph mendekati 1 berarti proses clustering yang dihasilkan dapat dikatakan cukup baik (Sinan, Nurhan, dan Ismet, 2013).
1.3.5 Dendogram
Dendogram adalah representasi matematis dan visual dari prosedur
pengklasteran yang dilakukan dengan menggunakan analisis cluster
hierarki. Bentuk dendogram identik dengan diagram pohon. Titik-titik
pada dendogram mewakili cluster, sedangkan panjang batangnya
mempresentasikan jarak dimana objek-objek digabung dalam cluster.
Dendogram sebagai representasi proses pengelompokan analisis cluster
hierarki akan membentuk struktur yang berbeda tergantung pada jarak
maupun lingkage yang akan digunakan pada proses pengklusteran.
Dendogram dipotong untuk mengetahui banyaknya cluster yang terbentuk
dari selisih terpanjang. Menurut Dillon & Goldstein (1984)
Pemotongan dendogram dilakukan pada selisih jarak penggabungan terbesar
ataupun pada gerombol yang dihasilkan lebih bermakna. Pemotongan
dendogram dapat dilakukan pada selisih jarak penggabungan terbesar.
1.4 Data
Pada kasus ini menggunakan data sekunder yang diproleh dari Badan Pusat Statistik di Jawa Barat mengenai indikator pembangunan ekonomi Tahun 2019. Indikator pembangun ekonomi terdiri dari 3 indikator yaitu indikator moneter, indikator non-moneter dan indikator campuran dengan beberapa peubah yang digunakan adalah Produk Domestik Regional Bruto perkapita Atas Dasar Harga Konstan (\(X_1\)), Indeks Pembangunan Manusia (\(X_2\)), Tingkat Partisipasi Angkatan Kerja (\(X_3\)), dan Sumber Penerangan Listrik (\(X_4\)).
Kab/Kota | X1 | X2 | X3 | X4 |
---|---|---|---|---|
Bogor | 30247471 | 72.03 | 64.99 | 4.19 |
Sukabumi | 26296550 | 70.65 | 65.41 | 4.22 |
Cianjur | 18922739 | 66.87 | 62.65 | 3.23 |
Bandung | 14128884 | 65.38 | 66.00 | 5.66 |
Garut | 21809417 | 72.41 | 65.32 | 4.83 |
Tasikmalaya | 14907060 | 66.22 | 62.60 | 0.57 |
Ciamis | 14016644 | 65.64 | 66.46 | 3.23 |
Kuningan | 18431492 | 70.39 | 67.39 | 9.90 |
Cirebon | 15599976 | 69.12 | 61.20 | 7.11 |
Majalengka | 15378654 | 68.69 | 65.23 | 5.63 |
Sumedang | 17724742 | 67.52 | 67.83 | 9.04 |
Indramayu | 20773420 | 71.46 | 63.90 | 7.07 |
Subang | 34802101 | 66.97 | 67.69 | 13.31 |
Purwakarta | 17904497 | 68.69 | 67.67 | 6.71 |
Karawang | 48071784 | 70.67 | 63.88 | 2.16 |
Bekasi | 69563075 | 70.86 | 63.57 | 1.98 |
Bandung Barat | 66965638 | 73.99 | 64.02 | 9.34 |
Pangandaran | 18470749 | 68.27 | 61.97 | 0.96 |
Kota Bogor | 19412058 | 68.21 | 75.08 | 30.29 |
Kota Sukabumi | 29000138 | 76.23 | 63.68 | 5.63 |
Kota Bandung | 26346398 | 74.31 | 62.48 | 11.28 |
Kota Cirebon | 78808426 | 81.62 | 65.90 | 46.14 |
Kota Bekasi | 52653543 | 74.92 | 62.71 | 0.24 |
Kota Depok | 23104660 | 81.59 | 65.66 | 2.97 |
Kota Cimahi | 20390600 | 80.82 | 64.96 | 5.66 |
Kota Tasikmalaya | 36857695 | 78.11 | 63.26 | 7.81 |
Kota Banjar | 23731278 | 72.84 | 65.26 | 7.37 |
2 Source Code
2.1 Library yang Dibutuhkan
> library(readxl)
> library(magrittr)
> library(knitr)
> library(ggplot2)
> library(factoextra)
> library(cluster)
Berikut adalah library yang akan digunakan untuk membantu dalam
pemrograman ini agar lebih cepat dan efisien.
* Library readxl digunakan untuk membuka dan membaca file data yang
bertype microsoft excel xlsx dari dalam R.
* Library kntir yaitu mengintegrasikan komputasi dan pelaporan. Dengan
memasukan kode ke dalam dokumen teks, analisis, hasil berada dalam satu
tempat, kemudian apat diproses menjadi berbagai macam format.
* Library magrittr digunakan untuk mengurangi waktu pengembangan dan
meningkatkan keterbacaan, serta memelihara kode.
* Library ggplot2 digunakan untuk membuat visualisasi data yang lebih
menarik.
* Library factoextra digunakan mengekstrak dan memvisualisasikan hasil
dari analisis multivariate, yaitu memvisualisasi cluster dan menentukan
jumlah cluster optimum.
* Library cluster dapat digunakan oleh semua notebook yang sedang
berjalan serta untuk melakukan analisis cluster
2.2 Import Data
> Data_IPE_Jawa_Barat_2019 <- read_excel("Data IPE Jawa Barat 2019.xlsx")
> summary(Data_IPE_Jawa_Barat_2019)
Untuk mengimport file data dari excel ke R dapat menggunakan fungsi read excel dari library readxl, yang kemudian disimpan dalam variabel Data_IPE_Jawa_Barat_2019, serta summary digunakan untuk melihat gambaran data secara keseluruhan.
2.3 Standarisasi Data
> Datastand <- scale(Data_IPE_Jawa_Barat_2019[2:5])
> Datastand %>% head(27) %>% kable(caption = "Hasil Standarisasi Data Indikator Pembangunan Ekonomi Provinsi Jawa Barat Tahun 2019")
Melakukan standalisasi menggunakan fungsi scale dengan argument yang berisi data awal dari kolom 2 sampai kolom 5, standarisasi ini perlu dilakukan dengan tujuan untuk mempersempit dan menyamakan peubah yang memiliki satuan yang berbeda-beda.Untuk menampilkan data ke bentuk data frame dapat menggunakan menggunakan operator pipa (%>%) yang ada di library magrittr dan fungsi kable yang ada di library knitr.
> n <- dim(Datastand)[1]
> Data <- data.matrix(Datastand,1:4)
> rownames(Data)=c(1:nrow(Data))
Untuk melihat jumlah baris dan kolom dari data yang sudah di standarisasi menggunakan fungsi dim(), kemudian Data didefinisikan menggunakan fungsi data.matrix yang berisi argument data yang sudah di standarisasi dari kolom 1 sampai kolom 4. sehingga data yang akan digunakan untuk menyelesaikan kasus ini adalah variabel Data.
2.4 Korelasi
> # KORELASI
> korelasi = cor(Data, method="pearson")
> korelasi
>
> # Perbandingan korelasi antar metode hirarki
> # Single Linkage
> d1=dist(Data)
> hc=eclust(d1, FUNcluster = "hclust", hc_metric = "euclidean",hc_method = "single")
> d2=cophenetic(hc)
> cor.sing=cor(d1,d2)
> cor.sing
>
> # Average Linkage
> d1=dist(Data)
> hc=eclust(d1, FUNcluster = "hclust", hc_metric = "euclidean",hc_method = "average")
> d2=cophenetic(hc)
> cor.ave=cor(d1,d2)
> cor.ave
>
> # Complete Linkage
> d1=dist(Data)
> hc=eclust(d1, FUNcluster = "hclust", hc_metric = "euclidean",hc_method = "complete")
> d2=cophenetic(hc)
> cor.comp=cor(d1,d2)
> cor.comp
>
> # Centroid
> d1=dist(Data)
> hc=eclust(d1, FUNcluster = "hclust", hc_metric = "euclidean",hc_method = "centroid")
> d2=cophenetic(hc)
> cor.centr=cor(d1,d2)
> cor.centr
>
> # Ward's Method
> d1=dist(Data)
> hc=eclust(d1, FUNcluster = "hclust", hc_metric = "euclidean",hc_method = "ward.D")
> d2=cophenetic(hc)
> cor.ward=cor(d1,d2)
> cor.ward
Untuk melihat korelasi antara tiap peubah digunakan fungsi cor(…)
dengan argument yang diisikan adalah data untuk kolom 2 sampai 5 dan
memilih metode yang digunakan.
Untuk mencari metode terbaik yang akan digunakan dapat melihat
perbandingan nilai korelasi cophenetic dari masing masing
metode, nilai korelasi cophenetic terbesar akan dipilih. Fungsi
eclust digunakan untuk menerapkan metode hirarki cluster, untuk
argument yang diisikan ketika mencari korelasi antarmetode adalah data
yang sudah di standariasi yang sebelumnya sudah didefinisikan sebagai
d1, dan menggunakan d2 yaitu koefisen cophenetic dengan
argument nya adalah hc sudah di definisikan sebelumnya. Dimana ketika
mendefinisikan hc tersebut menggunakan fungsi eclust(…) yang berisi
argument data yg sudah di standarisasi, menerapakan metode
cluster hirarki, jarak yang digunakan adalah jarak
euclidean dan metode yang dipilih baik itu single, avarage,
complete, ward dan centroid.
2.5 Plot K Optimum
> fviz_nbclust(Data, hcut, method = "silhouette")
Fungsi fviz_nbclust digunakan untuk menentukan jumlah cluster optimum, dimana argument yang diisikan adalah data hasil standarisasi, hirarki cluster dengan menggunakan metode Silhoutte untuk memvalidasi.
2.6 Proses Clustering
> clus_hier = eclust(Data, FUNcluster = "hclust", k = 2, hc_method = "complete", graph= TRUE)
> dend=fviz_dend(clus_hier, rect = TRUE, show_labels = TRUE, cex = 0.5)
>
> idclus = clus_hier$cluster
> idobs = as.numeric(names(idclus))
> print(dend)
>
> idclus = clus_hier$cluster
> c1 = c(); c2 = c();
> for (i in 1:n){
+ if(idclus[i] == 1){c1 = c(c1,i)}
+ else if (idclus[i] == 2){c2 = c(c2,i)}
+ }
> clustering = list(Cluster1 = c1, Cluster2 = c2)
> clustering$Cluster1
> clustering$Cluster2
Fungsi eclust digunakan untuk menerapkan clustering yang berisi
argument data yg sudah di standarisai, menerapakan metode
cluster hirarki, dengan cluster optimum sebanyak 2 cluster dan
metode complete sebagai metode terbaik yang dipilih untuk
melakukan clustering, serta graph= TRUE yang artinya akan
memunculkan grafik dari hasil clustering yang kemudian disimpan pada
variabel clus_hier. Fungsi fviz_dend digunakan untuk memvisualisasikan
hasil clustering berbentuk dendogram yang berisi argument dari
clus_hier, react=TRUE dengan menampilkan label.
Kemudian untuk mendapatkan anggota tiap cluster terlebih dahulu
mendefinisikan idclus dengan hanya memanggil cluster pada
variabel clus_hier yang sebelumnya sudah didefinisikan, lalu selanjutnya
mendefinisikan c1 dan c2 dengan c() dan selanjutnya menggunakan
looping for, dimana i untuk mengevaluasi setiap elemen dari 1
sampai n, dan di dalam loop digunakan if else if
bertingkat untuk menguji dan menyeleksi setiap elemen vektor data i = 1
akan masuk ke cluster 1, jika bukan maka looping i = 2 akan
masuk ke cluster 2. Kemudian mendefisikan clustering
dengan fungsi list untuk cluster1 = c1, dan cluster2 = c2, dan terakhir
memanggil anggota tiap cluster pada variabel
clustering.
3 PEMBAHASAN
3.1 Statistik Deskriptif
Statistik deskriptif pada penelitian ini digunakan untuk memberikan gambaran umum dan menyajikan data Indikator Pembangunan Ekonomi pada peubah PDRB perkapita Atas Dasar Harga Konstan \(X_1\), IPM \(X_2\), Tingkat Angkatan Partisipasi Kerja \(X_3\) dan Sumber Penerangan Listrik \(X_4\).
Kab/Kota X1 X2 X3
Length:27 Min. :14016644 Min. :65.38 Min. :61.20
Class :character 1st Qu.:18167995 1st Qu.:68.24 1st Qu.:63.41
Mode :character Median :21809417 Median :70.67 Median :64.99
Mean :29419248 Mean :71.65 Mean :65.07
3rd Qu.:32524786 3rd Qu.:74.15 3rd Qu.:65.95
Max. :78808426 Max. :81.62 Max. :75.08
X4
Min. : 0.240
1st Qu.: 3.230
Median : 5.660
Mean : 8.020
3rd Qu.: 8.425
Max. :46.140
- Provinsi Jawa Barat memiliki 27 Kabupaten/Kota, setiap
Kabupaten/Kota mempunyai Produk Domestik Regional Bruto (PDRB)
perkapita, wilayah yang memiliki PDRB perkapita Atas Dasar Harga Konstan
terendah adalah Ciamis yaitu sebesar Rp. 14016644, sedangkan wilayah
yang memiliki PDRB perkapita Atas Dasar Harga Konstan terbesar adalah
Kota Cirebon sebesar Rp. 78808426 .
- Provinsi Jawa Barat memiliki 27 Kabupaten/Kota, setiap
Kabupaten/Kota mempunyai Indek Pembangunan Manusia (IPM), wilayah yang
memiliki IPM terendah adalah Kabupaten Bandung yaitu sebesar 65.38 %,
sedangkan wilayah yang memiliki PDRB perkapita terbesar adalah Kota
Cirebon sebesar 81.62 %
- Provinsi Jawa Barat memiliki 27 Kabupaten/Kota, setiap masyarakat di
Kabupaten/Kota bekerja untuk memenuhi kebutuhan hidup, Kota Cirebon
mempunyai Tingkat Partisipasi Angkatan Kerja (TPAK) yaituu sebesar 61.20
% , sedangkan Kota Bogor termasuk Kota yang memiliki TPAK tertinggi
yaitu sebsar 75.08 %
- Provinsi Jawa Barat memiliki 27 Kabupaten/Kota, setiap masyarakat yang ada di Kabupaten/Kota memiliki rumah sebagai tempat berlindung, beristirahat dan berkumpul dengan keluarga. Memiliki penerang listrik yang baik merupakan salah satu yang diinginkan oleh masyarakat agar nyaman dalam beraktivitas, oleh karena itu Kabupaten/Kota yang memiliki sumber penerang yang rendah berada di Bekasi yaitu sebesar 0.24%, sedangkan sumber penerang listrik terbesar adalah Kota Cirebon sebesar 46.14% .
3.2 Standarisasi Data
Hal pertama yang dilakukan sebelum melakukan clustering adalah
standarisasi data, jika satu data yang sama maka tidak perlu melakukan
standarisasi, namun jika satuan berbeda maka standarisaisi harus
dilakukan, agar mempersempit dan menyamakan satuan peubah yang berbeda
beda. Karena dalam kasus ini satuan peubah ada yang berbeda, maka harus
dilakukan standarisasi. Berikut adalah hasil data Indikator Pembangunan
Ekonomi di Jawa Barat Tahun 2019 yang sudah di standarisasi.
Tabel 2. Hasil Standarisasi Data
X1 | X2 | X3 | X4 |
---|---|---|---|
0.0457281 | 0.0804174 | -0.0278703 | -0.4012962 |
-0.1724112 | -0.2096459 | 0.1270556 | -0.3981526 |
-0.5795359 | -1.0041671 | -0.8910287 | -0.5018919 |
-0.8442154 | -1.3173513 | 0.3446896 | -0.2472590 |
-0.4201559 | 0.1602899 | 0.0938572 | -0.3342324 |
-0.8012506 | -1.1407911 | -0.9094723 | -0.7806259 |
-0.8504124 | -1.2627017 | 0.5143703 | -0.5018919 |
-0.6066587 | -0.2642955 | 0.8574204 | 0.1970388 |
-0.7629931 | -0.5312378 | -1.4258918 | -0.0953175 |
-0.7752128 | -0.6216198 | 0.0606588 | -0.2504026 |
-0.6456800 | -0.8675430 | 1.0197237 | 0.1069218 |
-0.4773556 | -0.0393913 | -0.4299398 | -0.0995090 |
0.2971994 | -0.9831480 | 0.9680818 | 0.5543631 |
-0.6357553 | -0.6216198 | 0.9607044 | -0.1372324 |
1.0298486 | -0.2054420 | -0.4373172 | -0.6140142 |
2.2164311 | -0.1655058 | -0.5516673 | -0.6328759 |
2.0730208 | 0.4923914 | -0.3856753 | 0.1383579 |
-0.6044913 | -0.7098999 | -1.1418611 | -0.7397589 |
-0.5525195 | -0.7225114 | 3.6940394 | 2.3336499 |
-0.0231400 | 0.9632188 | -0.5110914 | -0.2504026 |
3.3 Koefisien Korelasi Cophenetic
Tabel 3. Hasil Koefisien Korelasi Cophenetic
Metode | Korelasi Cophenetic |
---|---|
Single Lingkage | 0.8608458 |
Average Lingkage | 0.9004589 |
Complete Lingkage | 0.9005216 |
Centroid | 0.895597 |
Ward | 0.7756377 |
Dari hasil koefisein korelasi cophenetic terlihat bahwa Complete Lingkage memiliki nilai koefisien korelasi tertinggi dibandingkan metode lain, yaitu sebesar 0.9005216. Oleh karena itu metode cluster yang terbaik yang akan digunakan adalah metode Complete Lingkage
3.4 Cluster Optimum
> fviz_nbclust(Data, hcut, method = "silhouette")
Berdasarkan plot diatas, dengan menggunakan metode silhoutte
untuk memvalidasi jumlah cluster, jumlah cluster
optimum yang tepat digunakan untuk menyeleasikan kasus ini adalah
sebanyakan 2 cluster
3.5 Proses Clustering
Dengan melihat selisih terpanjang dari gamabar diatas terlihat bahwa
pemotongan yang tepat akan menghasilkan 2 cluster, dimana pada
cluster 1 sebanyak 25 anggota dan cluster 2 sebanyak 2
anggota.
> idclus = clus_hier$cluster
> c1 = c(); c2 = c();
> for (i in 1:n){
+ if(idclus[i] == 1){c1 = c(c1,i)}
+ else if (idclus[i] == 2){c2 = c(c2,i)}
+ }
> clustering = list(Cluster1 = c1, Cluster2 = c2)
> clustering$Cluster1
1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 20 21 23 24 25 26 27
[> clustering$Cluster2
1] 19 22 [
Berdasarkan hasil clustering penggunakan software R, diperoleh anggota tiap cluster sebagai berikut:
Tabel 4. Anggota Cluster
Cluster | Anggota |
---|---|
1 | Bogor, Sukabumi, Cianjur, Bandung, Garut, Tasikmalaya, Ciamis, Kuningan, Cirebon, Majalengka, Sumedang, Indramayu, Subang, Purwakarta, Karawang, Bekasi, Bandung Barat, Pangandaran, Kota Sukabumi, Kota Bandung, Kota Bekasi, Kota Depok, Kota Cimahi, Kota Tasikmalaya, Kota Banjar |
2 | Kota Bogor, Kota Cirebon |
3.6 Karakteristik Tiap Cluster
Tabel 5.Karakteristik Tiap Cluster
Peubah | Cluster 1 | Cluster 2 |
---|---|---|
\(X_1\) (PDRB Per kapita) | 27843968.2 | 49110241.95 |
\(X_2\) (IPM) | 71.386 | 74.915 |
\(X_3\) (TPAK) | 64.6316 | 70.49 |
\(X_4\) (Sumber Penerangan listrik) | 5.604 | 38.215 |
Cluster 1 yaitu kelompok kabupaten/Kota yang masuk dalam cluster 1 sebanyak 25 Kabupaten/Kota yang bercirikan Produk Domestik Regional Bruto (PDRB) perkapita Atas Dasar Harga Konstan, Indek Pembangunan Manusia, Tingkat Partisipasi Angkatan Kerja (TPAK), dan sumber penerangan listrik lebih rendah daripada cluster 2. Laju pertumbuhan PDRB dapat dipandang sebagai peningkatan produktivitas penduduk atau pertambahan jumlah barang dan jasa yang dihasilkan oleh semua lapangan usaha kegiatan ekonomi yang ada di suatu wilayah selama kurun waktu setahun. Beberapa Kabupaten/Kota yang beranggota di cluster 1 memiliki PDRB terendah di Jawab Barat yaitu Kota Banjar, lalu disusul dengan Kabupaten Pangandaran, begitupun juga untuk Indek Pembangunan Manusia terendah berada di cluster 1 yaitu Kabupaten Cianjur yang masih bertahan di posisi terendah dari 27 Kabupaten/Kota di Jawa Timur, meskpun begitu terdapat juga beberapa Kota yang memiliki IPM ataupun perekonomian yang baik seperti Kabupaten Kuningan dan bebrapa Kota Maju juga menjadi anggota cluster 1 seperti Kota Bandung, Kota Bekasi, Karawang dll.
Cluster 2 yaitu kelompok Kabupaten/Kota yang masuk dalam cluster hanya terdapat 2 Kota, yang bercirikan Produk Domestik Regional Bruto (PDRB) perkapita Atas Dasar Harga Konstan, Indek Pembangunan Manusia, Tingkat Partisipasi Angkatan Kerja(TPAK), dan sumber penerangan listrik paling tinggi daripada cluster 1. Hal ini karena anggota pada cluster 2 hanya beranggotankan 2 Kota yaitu Kota Bogor dan Kota Cirebon yang dimana Kota tersebut merupakan Kota maju yang ada di Jawa Barat. Dimana Badan Pusat Statistik mencatat bahwa Indek Pembangunan Manusia (IPM) Kota Cirebon pada tahun 2019 mengalami kemajuan dibandingkan tahun 2018 yaitu mencapai 74,94 sedangkan Kota Bogor menempati peringkat ke 5, yang artinya kedua Kota tersebut memiliki IPM yang tinggi.
Sehingga secara keseluruhan karakteristik pengelompokan cenderung memiliki kesamaan yaitu pada cluster pertama beranggoatakan Kota dengan indikator perekonomian yang maju, sedangkan cluster 2 beranggotakan Kabupaten/Kota yang memiliki beragam dari indikator perekonomian terendah ke menengah, meskipun terdapat anggota Kota yang maju juga. Dari kasus ini terlihat bahwa mayoritas Kabupaten/Kota di Jawa Barat berada pada tingkat ekonomi menengah ke bawah, dengan begitu pemerintah diharapkan lebih memperhatikan beberapa indikator seperti PDRB perkapita Atas Dasar Harga Konstan, IPM, TPAK yang ada di Kabupaten/Kota cluster kedua agar mampu meningkatkan pertumbuhan ekonomi.
4 DAFTAR PUSTAKA
Abidin, Z. 2017. Pengelompokan Kabupaten/Kota di Jawa Timur
Berdasarkan Indikator Kemiskinan Dengan Menggunakan Analisis Cluster
Hierarki (Skripsi, Institut Teknologi Sepuluh Nopember).
Akhyar, S. 2017. Pengelompokan Kabupaten/Kota di Jawa Timur Berdasarkan
Indikator Pembangunan Ekonomi Menggunakan Model-Based Clustering
(Skripsi, Institut Teknologi Sepuluh Nopember).
Dani, A. T. R., Wahyuningsih, S., & Rizki, N. A. 2019. Penerapan
Hierarchical Clustering Metode Agglomerative pada Data Runtun Waktu.
Jambura Journal of Mathematics. 1. 2. D. Sinwar and R. Kaushik. Study of
Euclidean and manhattan distance metrics using simple k-means
clustering. International Journal for Research in Applied Science and
Engineering Technology. 2. 5.
Dillon, W.R., & Goldstein, M. 1984. Multivariate Analysis Methods
and Aplication. New York: John Wiley and Sons Inc.
Haumahu, G., & Nanlohy, Y.W. 2020. Penerapan Analisis Klaster untuk
Pengelompokkan Kabupaten/Kota di Provinsi Maluku Berdasarkan Konsumsi
Kalori Penduduk. Jurnal of Statistics and Its Applications. 2. 2.
Hemelia dan Sumargo, B. 2019. Pengklasifikasian Pengguna Internet
Lingkungan Pedesaan Menurut Jenjang Pendidikan di Indonesia Menggunakan
Metode Cluster Average Lingkage. Jurnal Statistika dan Aplikasinya. 3.
1.
Johnson, R. A., & Wichern, D. W. 2007. Applied Multivariate
Statistical Analysis. Englewood, New Jersey: Prentice Hall.
Mason, R. D. 1996. Teknik Statistika untuk Bisnis & Ekonomi.
Jakarta: Erlangga.
Mattjik, A.A. dan Sumertajaya, I.M. Sidik Peubah Ganda dengan
Menggunakan SAS. Bogor: IPB Press.
Mohibullah, M. Hossain, Z.M. & Hasan, M. 2015. Comparison of
Euclidean distance function and manhattan distance function using
k-mediods. International Journal of Computer Science and Information
Security. 13. 10.
Nafisah, Q., & Chandra, N.E. 2017. Analisis Cluster Average Lingkage
Berdasarkan Faktor-Faktor Kemiskinan di Provinsi Jawa Timur. Zeta-Math
Journal.3.2.
Nicolaus, Sulistianingsih, E., & Perdana, H. 2016. Penentuan Jumlah
Cluster pada Median Lingkage Dengan Indeks Validitas Silhouette. Buletin
Ilmiah Math. Stat. Dan Terapannya (Bimaster). 5. 2.
Nishom, M. Perbandingan akurasi Euclidean distance, minkowski distance,
dan manhattan distance pada algoritma k-means clustering berbasis
chi-square. Jurnal Informatika. 4.1.
Rachmatin, Dewi. 2014. Aplikasi Metode Agglomerative Dalam Analisis
Klaster Pada Data Tingkat Polusi Udara. Jurnal Infinity. 3. 2.
Saracli, S., Dogan, N., & Dogan, I. 2013.Comparison of Hierarchical
Cluster Analysis Methods by Cophenetic Correlation. Journal of
Inequalities and Applications. 203. 1-8.