Library
> # install.packages('psych')
> # install.packages('GPArotation')
> # install.packages('clValid')
> # install.packages('ggplot2')
> # install.packages('cluster')
> # install.packages('factoextra')
> # install.packages('tidyverse')
> # install.packages('car')
> # install.packages('readxl')1 Pendahuluan
1.1 Latar Belakang
Tingkat perekonomian merupakan salah satu faktor yang sering kali digunakan untuk menyatakan keberhasilan sebuah wilayah dalam mengelola kesejahteraan dan kemakmuran rakyat. Pembangunan ekonomi merupakan suatu proses untuk meningkatkan pendapatan per kapita selama kurun waktu yang panjang, dengan catatan bahwa jumlah penduduk yang hidup dibawah garis kemiskinan absolut tidak meningkat dan distribusi pendapatan tidak semakin timpang. Pembangunan ekonomi harus dipandang sebagai suatu proses agar pola keterkaitan dan saling mempengaruhi antara faktor-faktor dalam pembangunan ekonomi dapat diamati dan dianalisis. Kerjasama antar daerah merupakan faktor yang sangat diperlukan dalam pembangunan ekonomi yang berlingkup luas. Namun, tujuan tersebut tidak mudah dicapai karena setiap daerah memiliki perbedaan potensi sumber daya alam, sumber daya manusia dan lembaga institusi. Akibatnya pertumbuhan ekonomi yang diharapkan terjadi secara tidak merata hanya berhasil dibeberapa tempat yang disebut pusat pertumbuhan (Shiddiqul, 2017). Berdasarkan penjelasan tersebut, maka untuk mengatasi ini dapat dilakukan dengan memperlakukan kebijakan kebijakan khusus pada kabupaten yang memiliki tingkat ekonomi berbeda. Sebelum menyusun kebijakan kebijakan khusus, disarankan untuk dikelompokkan sesuai dengan indikator pembangunan ekonomi.
Analisis Cluster merupakan salah satu metode statistika yang dapat digunakan untuk melakukan proses pengelompokan objek-objek, sehingga setiap objek yang paling dekat kesamaannya dengan objek lain berada dalam cluster yang sama (Gabriella & Yonlib, 2020). Secara umum, analisis cluster dibagi dalam dua metode yaitu metode Non-hierarki dan metode Hierarki. Pada metode Non-hierarki banyaknya cluster ditentukan terlebih dahulu sedangkan metode cluster Hierarki harus melakukan analisis terlebih dahulu untuk menentukan banyaknya cluster. Menurut Dewi (2014) metode hierarki dibagi menjadi dua yaitu metode agglomerative (pemusatan) dan metode divisive. Metode analisis cluster yang digunakan dalam kasus ini adalah analisis cluster hierarki yaitu terdiri dari Single Linkage Method, Complete Linkage Method, Average Linkage Method, Ward’s Method, dan Centroid Method. Salah satu masalah dalam analisis cluster adalah penentuan jumlah cluster optimal dalam cluster yang sudah di bentuk. Oleh karena itu, dalam melakukan analisis cluster perlu dilakukan uji validitas cluster untuk mendapatkan jumlah cluster yang optimal, maka digunakan indeks validitas silhouette berdasarkan jarak Euclidean (Nicolaus, Evy, dan Hendra, 2016). Analisis cluster dapat membantu untuk mengambil kebijakan dalam pembangunan ekonomi. Dengan dikelompokkannya setiap kabupaten/kota menggunakan analisis cluster sesuai dengan indikator pembangunan ekonomi maka pemerintah dapat memberikan kebijakan kebijakan khusus sesuai dengan kondisi wilayah kabupaten/kota di Jawa Timur pada Tahun 2020.
1.2 Statistika Deskriptif
Menurut Mason (1996), Statistika deskriptif adalah metode-metode statistika yang digunakan untuk menggambarkan data yang telah dikumpulkan. Data yang telah dikumpulkan perlu disajikan agar mudah dimengerti, menarik, komunikatif, dan informatif bagi pembaca. Statistika deskriptif dapat berupa hasil dari ukuran pemusatan data dan ukuran penyebaran data. Ukuran pemusatan data terdiri dari mean, median, dan modus. Sedangkan, ukuran penyebaran data terdiri dari jangkauan, simpangan kuartil, simpangan rata-rata, dan simpangan baku.
1.3 Pengujian Asumsi
1.3.1 Uji KMO
Kaiser Meyer Olkin (KMO) merupakan uji yang digunakan untuk mengetahui apakah sampel yang digunakan telah mewakili populasi. KMO adalah indeks perbandingan nilai koefisien korelasi terhadap korelasi parsial (Yamin dan Kurniawan, 2014:181). Jika ilai KMO < 0.5, maka sampel tidak mewakili populasi, sedangkan jika nilai KMO > 0,5, maka sampel mewakili populasi sehingga layak untuk dilakukan analisis cluster (Yamin dan Kurniawan, 2011:122).
1.3.2 Uji Multikolineritas
Multikolinearitas adalah adanya hubungan linear atau korelasi yang tinggi antar variabel. Sebaiknya dalam analisis cluster tidak terjadi multikolinearitas. Setiap variabel diberi bobot yang sama dalam perhitungan jarak (Gudono, 2014: 284). Untuk mengetahui ada tidaknya multikolinearitas, dapat dilihat dari nilai-nilai korelasi pada matriks korelasi. Jika terjadi multikolinearitas, maka diatasi menggunakan Principal Component Analysis (PCA). Menurut Gujarati (1995) Apabila nilai mutlak dari korelasi lebih dari 0.8 maka dapat dikatakan terjadi multikolinearitas.
PCA bertujuan untuk menyederhanakan variabel yang diamati dengan cara mereduksi dimensinya. Prinsip utama dari PCA adalah terdapatnya korelasi antar variabel sehingga diduga bahwa variabel-variabel tersebut dapat direduksi. Hal ini dilakukan dengan cara menghilangkan korelasi antar variabel bebas melalui transformasi variabel bebas asal ke variabel bebas baru yang tidak berkorelasi sama sekali atau sering disebut dengan Principal Component (Johnson dan Wichern, 2007: 430).
1.4 Analisis Cluster
Analisis Cluster adalah salah satu teknik multivariat yang bertujuan mengklasifikasi atau mengelompokkan suatu objek-objek/cases ke dalam suatu kelompok-kelompok yang berbeda antara kelompok satu dengan lainnya. Objek-objek yang telah memiliki kedekatan jarak relatif sama dengan objek lainnya (Qonitatin & Novita, 2017). Analisis cluster mengklasifikasi objek sehingga setiap objek yang memiliki sifat yang mirip (paling dekat kesamaannya) akan mengelompok ke dalam satu cluster (kelompok) yang sama. Prosedur pembentukan cluster terbagi menjadi 2 yaitu hierarki dan non hierarki. Analisis cluster yang baik apabila memenuhi kriteria yakni homogenitas (kesamaan) within cluster dan heterogenitas (perbedaan) between cluster.
Tahap-tahap dalam analisis cluster yaitu sebagai berikut (Hamelia & Bagus, 2019).
1. Melakukan Proses Standarisasi Data Hal pertama yang harus dilakukan dalam analisis clustering yakni melakukan standarisasi data menggunakan z-score untuk mempersempit perbedaan satuan lebar serta dapat digunakan untuk menyamakan peubah yang memiliki satuan yang berbeda-beda.
2. Menentukan Ukuran Kemiripan Pada analisis cluster terdapat beberapa ukuran kemiripan diantaranya adalah ukuran asosiasi, ukuran korelasi dan ukuran jarak. Ukuran kemiripan dengan menghitung jarak antar dua objek. Dalam mengukur kedekatan antara dua objek dapat digunakan metode pengukuran Euclidean Distance.
3. Memilih Prosedur Pengclusteran Pembentukan cluster dapat dilakukan dengan dua cara, yaitu dengan metode Hierarki dan Non Hierarki.
4. Menentukan Banyaknya Cluster Masalah utama dalam analisis cluster adalah menetukan berapa banyaknya cluster.
5. Menginterpretasikan Hasil Cluster Tahap terakhir adalah interpretasi masing-masing cluster yang terbentuk. Saat memulai interpretasi digunakan rata-rata pada peubah.
1.4.1 Jarak Analisis Cluster
Konsep dasar pengukuran analisis cluster adalah pengukuran jarak (distance) dan kesamaan (similarity). Jarak merupakan ukuran jarak pisah antar objek sedangkan kesamaan merupakan ukuran kedekatan. Konsep ini penting karena pengelompokkan pada analisis cluster didasarkan pada kedekatan. Pengukuran jarak (distance type measure) digunakan untuk data bersifat kuantitatif, sedangkan pengukuran kesesuaian (matchingtype measure) digunakan untuk data yang bersifat kualitatif. Perhitungan jarak biasanya menggunakan jarak Euclidean yang digunakan pada 2 dimensi observasi. Mohibullah, Zakir, dan Mahmudul (2015) mengungkapkan metode Euclidean lebih efektif dibandingkan metode pengukuran jarak lainnya dan cocok digunakan untuk dataset berukuran kecil. Nishom (2019) memaparkan bahwa pengukuran jarak Euclidean menunjukkan hasil yang baik dari pengukuran jarak Manhattan dan Minkowski. Selain itu, Euclidean distance paling sering digunakan karena mudah dipahami dan berdasarkan prinsip phytagoran yakni perhitungan jarak dari dua buah titik dalam euclidean space untuk mempelajari hubungan antara sudut dan jarak.
1.4.2 Analisis Cluster Hierarki
Metode ini dimulai dengan pengelompokkan dengan dua atau lebih yang mempunyai kesamaan obyek paling dekat. Kemudian proses diteruskan dengan meneruskan ke obyek lain yang memiliki kedekatan kedua. Demikian seterusnya sehinnga membentuk sebuah pohon yang mana ada hierarki atau tingkatan dari yang paling mirip hingga yang paling tidak mirip. Pohon yang terbentuk oleh cluster ini disebut juga dengan dendogram untuk memberi kejelasan yang lebih dalam proses clustering. Menurut Qonitatin & Novita, 2017 dalam Johnson, 1967, cara kerja metode cluster hirarki yaitu, diberikan sekumpulan N item yang akan di cluster, dan sebuah matrik N x N yang menyatakan jarak antar item pada N:
1. Mulai dengan membuat cluster sebanyak N, masing-masing cluster mempunyai sebuah item. Misalnya jarak antar cluster sama dengan jarak antar item yang dikandungnya.
2. Cari sepasang cluster yang jaraknya terdekat, dan dijadikan sebuah cluster baru. Jadi sekarang kita mempunyai N – 1 cluster.
3. Hitung jarak antar cluster yang baru dengan masing-masing cluster yang lainnya. Ulangi langkah 2 dan 3 sampai semua item menjadi sebuah cluster dengan N item. Tentunya tidak ada gunanya mempunyai N item yang dikelompokkan menjadi satu cluster besar.
1.4.3 Metode Analisis Cluster Hierarki
Metode cluster hirarki merupakan metode pengelompokan yang mana jumlah kelompok yang akan dibuat belum diketahui. Teknik ini diproses dengan baik melalui penggabungan berurutan (agglomerative) atau pembagian berurutan (divissive) (Qonitatin & Novita, 2017).
Metode Agglomerative
Metode agglomerative dimulai dengan objek individual. Awalnya ada banyak cluster sebagai objek. Objek yang paling mirip dikelompokkan kemudian kelompok-kelompok awal ini digabungkan sesuai dengan kesamaannya. Ketika kesamaan menurun, semua sub kelompok digabungkan menjadi satu kelompok. Metode ini dibagi lagi menjadi beberapa macam yakni sebagai berikut.
- Single Lingkage
Untuk menentukan jarak antar cluster dengan menggunakan single linkage¸ maka dipilih jarak yang paling dekat atau aturan tetangga dekat (nearest neighbour rule). Langkah-langkah menggunakan metode single linkage (Johnson & Wichern, 2007:682) :
pertama menentukan jarak minimum dalam D =dij ;
kedua menghitung jarak antara cluster yang telah dibentuk pada lan gkah a dengan objek lainnya;
ketiga adalah dari algoritma diatas jarak-jarak antara (IJ) dan cluster K yang lainnya dapat dihitungan dengan rumus :
- Complete Lingkage
Metode complete linkage jarak antar cluster ditentukan oleh jarak terjauh atau maximumum (farthest-neighbour) antara dua objek dalam cluster yag berbeda (Johnson & Wichern,2007:685-686).
- Average Lingkage
Metode average linkage akan mengelompokkan objek berdasarkan jarak antara dua cluster yang dianggap sebagai jarak rata-rata antara semua anggota dalam satu cluster dengan semua anggota cluster lain (Johnson & Wichern, 2007:690).Pada metode ini digunakan jarak rata-rata dari sampel pada suatu kelompok terhadap sampel pada kelompok yang lain. Perhitungan jarak antar kelompok adalah dengan menggunakan persamaan:
- Ward’s Method
Ward’s Method jarak antara dua cluster yang terbentuk adalah sum of squares (Jumlah Kuadrat) di antara dua cluster tersebut. Fungsi obyektif yang digunakan yaitu Error sum of squares (SSE). Diukur dengan menggunakan jumlah total dari deviasi kuadrat pada mean cluster untuk setiap pengamatan. Dua obyek akan digabungkan jika mempunyai fungsi obyektif terkecil diantara kemungkinan yang ada (Abidin, 2017:12).
- Centroid Method
Jarak yang digunakan dalam metode ini adalah jarak kuadrat Euclidean antara titik pusat dua kelompok. Dimana titik pusat kelompok ini adalah nilai tengah objek setiap peubah dalam satu kelompok. Dalam metode ini setiap kali terbentuk kelompok baru, maka titik pusatnya berubah. Kelebihan dari metode ini adalah kecilnya pengaruh pencilan dalam pembentukan kelompok.
Metode Divissive
Metode devisive bekerja dari arah yang berlawanan. Satu kelompok objek awal dibagi menjadi dua kelompok sehingga objek dalam satu subkelompok jauh dari objek yang lain. Sub kelompok ini kemudian dibagi lagi menjadi subkelompok yang berbeda. Proses tersebut dilakukan secara berlanjut hingga masing-masing objek membentuk suatu kelompok.
1.4.4 Koefisien Korelasi Cophenetic
Adapun uji validitas tiap metode untuk metode mana yang terbaik digunakan dalam proses clustering yakni menggunakan koefisien korelasi cophenetic. Koefisien korelasi cophenetic merupakan koefisien korelasi antara elemen-elemen asli matriks ketidakmiripan (dissimilarity distance) dan elemen-elemen yang dihasilkan oleh dendogram (matriks cophenetic). Nilai koefisien korelasi cophenetic berikisar antara -1 dan 1, nilai rcoph mendekati 1 berarti proses clustering yang dihasilkan dapat dikatakan cukup baik (Sinan, Nurhan, dan Ismet, 2013).
1.4.5 Dendogram
Dendogram adalah representasi matematis dan visual dari prosedur pengklasteran yang dilakukan dengan menggunakan analisis cluster hierarki. Bentuk dendogram identik dengan diagram pohon. Titik-titik pada dendogram mewakili cluster, sedangkan panjang batangnya mempresentasikan jarak dimana objek-objek digabung dalam cluster. Dendogram sebagai representasi proses pengelompokan analisis cluster hierarki akan membentuk struktur yang berbeda tergantung pada jarak maupun lingkage yang akan digunakan pada proses pengklusteran. Dendogram dipotong untuk mengetahui banyaknya cluster yang terbentuk dari selisih terpanjang. Menurut Dillon & Goldstein (1984) Pemotongan dendogram dilakukan pada selisih jarak penggabungan terbesar ataupun pada gerombol yang dihasilkan lebih bermakna. Pemotongan dendogram dapat dilakukan pada selisih jarak penggabungan terbesar.
1.5 Data
Pada kasus ini menggunakan data sekunder yang diproleh dari Badan Pusat Statistik di Jawa Timur mengenai indikator pembangunan ekonomi Tahun 2020. Indikator pembangun ekonomi yang dilakukan penelitian dengan beberapa peubah yang digunakan adalah Indeks Pembangunan Manusia (X1), Tingkat Partisipasi Angkatan Kerja (X2), dan PDRB Perkapita Atas Dasar Harga (X3).
| K abupaten/Kota Jawa Timur | Indeks Pembangunan Manusia (X1) | Tingkat Partisipasi Angkatan Kerja (X2) | PDRB Perkapita Atas Dasar Harga (X3) |
|---|---|---|---|
| Kota Surabaya | 82,23 | 68,05 | 193010 |
| Kota Madiun | 80,91 | 68,83 | 69463 |
| Kota Mojokerto | 78,04 | 68,21 | 49840 |
| Kota Batu | 75,9 | 72,33 | 74884 |
| Kabupaten Magetan | 73,92 | 73,23 | 28024 |
| Kota Probolinggo | 73,27 | 69,07 | 46302 |
| Kabupaten Lamongan | 72,58 | 70,81 | 29221 |
| Kabupaten Kediri | 72,05 | 70,65 | 24885 |
| Kabupaten Ponorogo | 70,81 | 71,52 | 21654 |
| Kabupaten Ngawi | 70,54 | 72,69 | 23323 |
| Kabupaten Malang | 70,36 | 71,62 | 38495 |
| Kabupaten Bojonegoro | 69,04 | 74,6 | 54048 |
| Kabupaten Pasuruan | 68,6 | 67,67 | 90747 |
| Kabupaten Tuban | 68,4 | 71,84 | 52085 |
| Kabupaten Pacitan | 68,39 | 80,36 | 26972 |
| Kabupaten Jember | 67,11 | 68,04 | 30023 |
| Kabupaten Sumenep | 66,43 | 75,02 | 29166 |
| Kabupaten Pamekasan | 66,26 | 69,82 | 19779 |
| Kabupaten Probolinggo | 66,07 | 72,89 | 29280 |
| Kabupaten Lumajang | 65,46 | 66,92 | 28707 |
| Kabupaten Sampang | 62,7 | 69,93 | 20503 |
| Kabupaten Bangkalan | 64,11 | 67 | 22038 |
| Kabupaten Bondowoso | 66,43 | 75,09 | 25706 |
| Kabupaten Situbondo | 67,38 | 73,17 | 29244 |
| Kabupaten Trenggalek | 69,74 | 75,72 | 25087 |
| Kabupaten Blitar | 70,58 | 70,83 | 29240 |
| Kabupaten Banyuwangi | 70,62 | 71,8 | 47567 |
| Kabupaten Nganjuk | 71,72 | 65,75 | 24134 |
| Kabupaten Madiun | 71,73 | 71,42 | 25811 |
| Kabupaten Jombang | 72,97 | 70,23 | 30303 |
| Kabupaten Tulungagung | 73 | 73,17 | 35143 |
| Kabupaten Mojokerto | 73,83 | 69,79 | 73335 |
| Kabupaten Gresik | 76,11 | 66,53 | 102623 |
| Kota Kediri | 78,23 | 66 | 462199 |
| Kota Blitar | 78,57 | 69,53 | 45090 |
| Kabupaten Sidoarjo | 80,29 | 67,17 | 94818 |
| Kota Malang | 81,45 | 66,41 | 85540 |
2 Source Code
2.1 Library yang dibutuhkan
> library(psych)
> library(GPArotation)
> library(clValid)
> library(ggplot2)
> library(cluster)
> library(factoextra)
> library(tidyverse)
> library(car)
> library(readxl)Berikut adalah library yang akan digunakan untuk membantu dalam pemrograman ini agar lebih cepat dan efisien.
* library psych dan library GPArotation, digunakan untuk keperluan uji asumsi KMO.
* library clValid, digunakan untuk melakukan validasi cluster dengan argumen data standarisasi, argumen hierarchical pada parameter clMethods, argumen internal pada parameter validation, argument Euclidian pada parameter metric, argument average pada parameter method yang disimpan dalam inval.
* library ggplot2, digunakan untuk membuat visualisasi data yang lebih menarik.
* librarycluster, dapat digunakan oleh semua notebook yang sedang berjalan serta untuk melakukan analisis cluster.
* library factoextra, digunakan mengekstrak dan memvisualisasikan hasil dari analisis multivariat, yaitu memvisualisasi cluster dan menentukan jumlah cluster optimum.
* library tidyverse, membantu dalam manajemen data terutama pada impor dan ekspor data, serta pemodelan dan visualiasi data.
* library car, digunakan untuk memeriksa validity dari berbagai teknik regresi yang memerlukan banyak tes pada hasil kita.
* library readxl, digunakan untuk membuka dan membaca file data yang bertipe microsoft excel xlsx dari dalam R
2.2 Import Data
> data <- read_excel("D:/Coolyeah semester 5/Analisis multivariat I/data anmul pembangunan ekonomi.xlsx")
> data<-data.frame(data)
> View(data)Untuk mengimport file data dari excel ke R dapat menggunakan fungsi read_excel dari library readxl dengan nama file data anmul pembangunan ekonomi, yang kemudian disimpan dalam variabel data, serta view digunakan untuk melihat gambaran data secara keseluruhan
2.3 Statistika Deskriptif
> #Statistik Deskriptif
> statdes <- summary(data)
> statdes
Kabupaten.Kota.Jawa.Timur Indeks.Pembangunan.Manusia
Length:37 Min. :62.70
Class :character 1st Qu.:68.39
Mode :character Median :70.81
Mean :71.78
3rd Qu.:73.92
Max. :82.23
Tingkat.Partisipasi.Angkatan.Kerja PDRB.Perkapita.Atas.Dasar.Harga
Min. :65.75 Min. : 19779
1st Qu.:68.05 1st Qu.: 25811
Median :70.65 Median : 30023
Mean :70.64 Mean : 57798
3rd Qu.:72.69 3rd Qu.: 54048
Max. :80.36 Max. :462199 Statistika deskriptif perlu dilakukan sebagai metode-metode yang berkaitan dengan pengumpulan dan penyajian suatu gugus data sehingga memberikan informasi yang informatif. Statistiak deskriptif dapat berupa ukuran pemusatan data dan ukuran penyebaran data.
2.4 Pengujian Asumsi
> #Uji Asumsi
> # Uji Sampel Representatif
> kmo <- KMO(data[,2:4])
> kmo
Kaiser-Meyer-Olkin factor adequacy
Call: KMO(r = data[, 2:4])
Overall MSA = 0.66
MSA for each item =
Indeks.Pembangunan.Manusia Tingkat.Partisipasi.Angkatan.Kerja
0.64 0.71
PDRB.Perkapita.Atas.Dasar.Harga
0.64
> #Uji Non-Multikolinearitas
> korelasi <- cor(data[,2:4], method = 'pearson')
> korelasi
Indeks.Pembangunan.Manusia
Indeks.Pembangunan.Manusia 1.0000000
Tingkat.Partisipasi.Angkatan.Kerja -0.3841410
PDRB.Perkapita.Atas.Dasar.Harga 0.4799849
Tingkat.Partisipasi.Angkatan.Kerja
Indeks.Pembangunan.Manusia -0.3841410
Tingkat.Partisipasi.Angkatan.Kerja 1.0000000
PDRB.Perkapita.Atas.Dasar.Harga -0.3825473
PDRB.Perkapita.Atas.Dasar.Harga
Indeks.Pembangunan.Manusia 0.4799849
Tingkat.Partisipasi.Angkatan.Kerja -0.3825473
PDRB.Perkapita.Atas.Dasar.Harga 1.0000000Sebelum melakukan analisis cluster perlu dilakukan uji asumsi untuk mengetahui apakah asumsi yang dilakukan sudah terpenuhi. Untuk mengetahui apakah sampel yang digunakan telah representatif dapat dilihat dari nilai Kaiser Meyer Olkin (KMO). Uji KMO memberikan indeks perbandingan nilai koefisien korelasi terhadap korelasi parsial. Untuk melihat adanya hubungan linier atau korelasi antara tiap peubah menggunakan uji multikolinearitas. Uji tersebut menggunakan fungsi cor(…) dengan argument yang diisikan adalah data untuk kolom 2 sampai 4 dan memilih metode yang digunakan. Apabila terjadi multikolinearitas maka perlu dilakukan uji PCA terlebih dahulu, dan sebaliknya.
2.5 Standarisasi Data
> #Standarisasi
> datastand <- scale(data[,2:4])
> datastand
Indeks.Pembangunan.Manusia Tingkat.Partisipasi.Angkatan.Kerja
[1,] 2.055713495 -0.809862103
[2,] 1.796064568 -0.566016299
[3,] 1.231524855 -0.759842451
[4,] 0.810578868 0.528163590
[5,] 0.421105477 0.809524133
[6,] 0.293248051 -0.490986821
[7,] 0.157522476 0.052976895
[8,] 0.053269497 0.002957243
[9,] -0.190643131 0.271812873
[10,] -0.243753139 0.640707807
[11,] -0.279159811 0.306201384
[12,] -0.538808738 1.237817403
[13,] -0.625358380 -0.928658777
[14,] -0.664699127 0.374978405
[15,] -0.666666164 3.038524878
[16,] -0.918446942 -0.812988331
[17,] -1.052205480 1.369118990
[18,] -1.085645114 -0.256519702
[19,] -1.123018823 0.703232372
[20,] -1.243008100 -1.163125896
[21,] -1.785910402 -0.222131191
[22,] -1.508558139 -1.138116070
[23,] -1.052205480 1.391002588
[24,] -0.865336934 0.790766763
[25,] -0.401116125 1.587954968
[26,] -0.235884990 0.059229352
[27,] -0.228016840 0.362473492
[28,] -0.011642734 -1.528894602
[29,] -0.009675697 0.243676819
[30,] 0.234236931 -0.128344344
[31,] 0.240138043 0.790766763
[32,] 0.403402141 -0.265898387
[33,] 0.851886651 -1.285048798
[34,] 1.268898564 -1.450738895
[35,] 1.335777834 -0.347180322
[36,] 1.674108254 -1.084970190
[37,] 1.902284583 -1.322563537
PDRB.Perkapita.Atas.Dasar.Harga
[1,] 1.77309251
[2,] 0.15296390
[3,] -0.10436152
[4,] 0.22405197
[5,] -0.39044476
[6,] -0.15075694
[7,] -0.37474795
[8,] -0.43160791
[9,] -0.47397750
[10,] -0.45209113
[11,] -0.25313372
[12,] -0.04918008
[13,] 0.43207078
[14,] -0.07492180
[15,] -0.40424012
[16,] -0.36423095
[17,] -0.37546919
[18,] -0.49856523
[19,] -0.37397425
[20,] -0.38148826
[21,] -0.48907109
[22,] -0.46894193
[23,] -0.42084176
[24,] -0.37444634
[25,] -0.42895899
[26,] -0.37122043
[27,] -0.13416841
[28,] -0.44145612
[29,] -0.41946484
[30,] -0.36055918
[31,] -0.29709004
[32,] 0.20373922
[33,] 0.58780622
[34,] 5.30309162
[35,] -0.16665045
[36,] 0.48545567
[37,] 0.36378899
attr(,"scaled:center")
Indeks.Pembangunan.Manusia Tingkat.Partisipasi.Angkatan.Kerja
71.77919 70.64054
PDRB.Perkapita.Atas.Dasar.Harga
57798.35135
attr(,"scaled:scale")
Indeks.Pembangunan.Manusia Tingkat.Partisipasi.Angkatan.Kerja
5.083788 3.198743
PDRB.Perkapita.Atas.Dasar.Harga
76257.526356
> rownames(datastand) <- 1:nrow(datastand)Melakukan standarisasi menggunakan fungsi scale dengan argument yang berisi data awal dari kolom 2 sampai kolom 4, standarisasi ini perlu dilakukan dengan tujuan untuk mempersempit dan menyamakan peubah yang memiliki satuan yang berbeda-beda. Untuk melihat jumlah baris dan kolom dari data yang sudah di standarisasi sehingga data yang akan digunakan untuk menyelesaikan kasus ini adalah variabel Data.
2.6 Jarak Euclidean
> #Menghitung Jarak Euclidean
> jarak <- dist(datastand, method = "euclidean")
> jarak
1 2 3 4 5 6 7
2 1.65882339
3 2.05100524 0.64999234
4 2.39587136 1.47426769 1.39427777
5 3.15836170 2.01938529 1.78928328 0.78003814
6 2.62852860 1.53503526 0.97713829 1.20282187 1.32858064
7 2.99346603 1.82933118 1.37377772 1.00540856 0.80130276 0.60373001
8 3.08725787 1.92426343 1.44126308 1.13103893 0.88743893 0.61680443 0.12885536
9 3.35640618 2.24544444 1.79540816 1.24715930 0.81874750 0.95941940 0.42303071
10 3.51328082 2.44604394 2.06371075 1.25755782 0.68872070 1.28837312 0.71584336
11 3.28676494 2.28740796 1.85492609 1.21016684 0.87324658 0.98673238 0.51923413
12 3.77428329 2.95741637 2.66978855 1.54890645 1.10513891 1.92130175 1.41234508
13 3.00009972 2.46428475 1.94017368 2.05609314 2.18926888 1.17263919 1.49247026
14 3.49566142 2.64438289 2.21005666 1.51304203 1.21134486 1.29356466 0.93253903
15 5.19251487 4.40093582 4.25683576 2.97975127 2.48029873 3.66648904 3.09736234
16 3.66248435 2.77435730 2.16627222 2.26589839 2.10419451 1.27179435 1.38120113
17 4.36158644 3.48376698 3.13391136 2.12992890 1.57607609 2.30667172 1.78764433
18 3.91596101 2.97061089 2.40374854 2.17567665 1.84890152 1.44128130 1.28708373
19 4.12355304 3.22640727 2.78516694 2.03152270 1.54786597 1.86595748 1.43618202
20 3.95582833 3.14295111 2.52244923 2.72843518 2.58083365 1.69265792 1.85484159
21 4.49676394 3.65527161 3.08902094 2.79521793 2.43822865 2.12359122 1.96613468
22 4.22356501 3.41095239 2.78999366 2.93855830 2.74282078 1.94075333 2.05021940
23 4.39503280 3.50311549 3.15304906 2.15182355 1.58419896 2.32917907 1.80440548
24 3.96313909 3.03349300 2.62186272 1.79884808 1.28667862 1.74219642 1.26118014
25 4.07854990 3.13142611 2.87802585 1.73717755 1.13291053 2.20942005 1.63437254
26 3.25650449 2.18963932 1.70158278 1.29202753 0.99747096 0.79455885 0.39347296
27 3.19803677 2.24531597 1.84139716 1.11106080 0.82878925 1.00019337 0.54982472
28 3.11371083 2.13266863 1.50017987 2.31310133 2.37867092 1.12014149 1.59228901
29 3.19109456 2.06009114 1.62693572 1.08067764 0.71175682 0.83886673 0.25752920
30 2.88699028 1.70134308 1.20789499 1.05116264 0.95677076 0.42309439 0.19739255
31 3.18496197 2.11289285 1.85050832 0.81605891 0.20448999 1.29117245 0.74645159
32 2.34283996 1.42553763 1.01227172 0.89260289 1.22878053 0.43412700 0.70483023
33 1.75496582 1.26394918 0.94818936 1.84980071 2.35154910 1.21987174 1.78856504
34 3.67296808 5.25209040 5.45153961 5.47016963 6.18416514 5.62294247 5.97780730
35 2.12013786 0.60158657 0.43016117 1.09302758 1.49153431 1.05252138 1.26163230
36 1.37088134 0.62828120 0.80589852 1.84830070 2.43440470 1.63228601 2.08204377
37 1.50749447 0.79252359 0.99284366 2.15326234 2.70343447 1.88289031 2.34131226
8 9 10 11 12 13 14
2
3
4
5
6
7
8
9 0.36547490
10 0.70382369 0.37334054
11 0.48406538 0.24039498 0.39080971
12 1.42186050 1.11123215 0.77841826 0.98839418
13 1.44027257 1.56557753 1.84127030 1.45404204 2.22097102
14 0.88380069 0.62818601 0.62455131 0.43026774 0.87235438 1.39930664
15 3.11989218 2.80823015 2.43529708 2.76379920 1.83982677 4.05458609 2.68382828
16 1.27064538 1.31092957 1.60504318 1.29368321 2.10930946 0.85637433 1.24874045
17 1.75830157 1.39859726 1.09089365 1.31998463 0.62231897 2.47267101 1.10851496
18 1.17001627 1.03960012 1.23124293 1.01356312 1.65348735 1.23681777 0.86917152
19 1.37016828 1.03220534 0.88494051 0.94039038 0.85590527 1.88691368 0.63815357
20 1.74430430 1.78187417 2.06332529 1.76193106 2.52405511 1.04801924 1.67158281
21 1.85379328 1.67005575 1.76751455 1.61403194 1.96982653 1.64151289 1.33610412
22 1.93461823 1.92998056 2.18271162 1.90893854 2.60032186 1.27895976 1.77673993
23 1.77450295 1.41339970 1.10341015 1.34257933 0.65205392 2.50808435 1.14110776
24 1.21150694 0.85698968 0.64413727 0.77014543 0.64208494 1.91428413 0.55031848
25 1.64884538 1.33362497 0.96050788 1.29949225 0.53459105 2.66926986 1.29078676
26 0.30070503 0.24041130 0.58712790 0.27715044 1.25878615 1.33149887 0.60940291
27 0.54483409 0.35367549 0.42277277 0.14119100 0.93276020 1.46476266 0.44086047
28 1.53325818 1.80987463 2.18200893 1.86403004 2.84367365 1.22473637 2.04586473
29 0.24910934 0.19108239 0.46205014 0.32279568 1.18549909 1.57434076 0.75166861
30 0.23460017 0.59456924 0.91010649 0.68113613 1.60029824 1.41692256 1.06911577
31 0.82076717 0.69726231 0.52980535 0.71162211 0.93170366 2.05844207 1.02027888
32 0.77365508 1.04943943 1.29261680 1.00096046 1.79245382 1.24488347 1.27640720
33 1.82645944 2.15361818 2.44751947 2.12568183 2.95036254 1.52758642 2.34412695
34 6.03968253 6.20257802 6.30748705 6.02950776 6.25643293 5.25239193 5.99958932
35 1.35559079 1.67557854 1.88475925 1.74425073 2.45765984 2.13134689 2.12881080
36 2.15678232 2.49773297 2.74502293 2.50920879 3.25241129 2.30539151 2.81344856
37 2.41008679 2.76120177 3.02085628 2.79144558 3.56160506 2.55906278 3.10862046
15 16 17 18 19 20 21
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16 3.85994149
17 1.71358815 2.18623192
18 3.32291429 0.59637091 1.63063546
19 2.37965646 1.52999013 0.66964300 0.96852659
20 4.24105611 0.47773850 2.53943026 0.92758014 1.87022648
21 3.44844631 1.05697213 1.75593435 0.70117343 1.14410238 1.09169044
22 4.26113811 0.68183844 2.55014167 0.97823572 1.88367288 0.28069638 0.95726577
23 1.69211284 2.20877163 0.05037422 1.64969356 0.69299276 2.56154771 1.77346518
24 2.25671759 1.60466677 0.60779289 1.07738115 0.27214417 1.99007076 1.37351979
25 1.47488335 2.45689837 0.68896131 1.96863196 1.14319766 2.87740881 2.27984222
26 3.01045919 1.10756641 1.54344033 0.91542691 1.09624537 1.58384177 1.57975673
27 2.72517944 1.38250967 1.32319618 1.11868846 0.98724465 1.84900726 1.70139675
28 4.61429967 1.15792028 3.07987141 1.66603735 2.49441405 1.28594073 2.20406977
29 2.87107017 1.39479647 1.53473908 1.18918612 1.20531889 1.87126826 1.83761581
30 3.29280960 1.34068303 1.97422208 1.33325287 1.59180494 1.80373606 2.02640236
31 2.42614747 1.97961043 1.41802199 1.70149998 1.36812649 2.45449426 2.27325566
32 3.52617330 1.53921490 2.26441112 1.64638429 1.89813810 1.96422379 2.29673488
33 4.68865097 2.06477527 3.40559437 2.44787753 2.96285932 2.31148892 3.04095904
34 7.51488759 6.10817086 6.75167944 6.37410838 6.52609668 6.22148252 6.66261837
35 3.94071447 2.31031264 2.94817789 2.44574648 2.68179622 2.71331151 3.14078490
36 4.82431291 2.74176657 3.76782854 3.04480968 3.42931598 3.04421877 3.69674487
37 5.11942075 2.95739856 4.06456259 3.28752614 3.71491647 3.23631343 3.94222068
22 23 24 25 26 27 28
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23 2.57041097
24 2.03549795 0.63036135
25 2.94270110 0.68027456 0.92411126
26 1.75010928 1.56283760 0.96507365 1.53871280
27 2.00090688 1.34882935 0.80457784 1.27226950 0.38498386
28 1.54732642 3.09983796 2.47267324 3.14111396 1.60541438 1.92834560
29 2.03922734 1.55023439 1.01660721 1.40014267 0.29583616 0.37839075 1.77270892
30 2.01710694 1.99172869 1.43318553 1.83140257 0.50627283 0.71121971 1.42426899
31 2.60922601 1.43029693 1.10817820 1.03155483 0.87592250 0.65509356 2.33774763
32 2.20654837 2.29220762 1.74943951 2.11762341 0.91922504 0.95274483 1.47773431
33 2.59036783 3.43572243 2.86073366 3.29514462 1.97738792 2.09803923 1.36547601
34 6.41314042 6.79900227 6.46635492 6.69918007 6.06153403 5.92387470 5.88606175
35 2.96769382 2.96451638 2.48656569 2.61349478 1.63619734 1.71759058 1.81314891
36 3.32311069 3.79270389 3.27209450 3.50531586 2.38561537 2.46923209 1.97433299
37 3.51586543 4.08755404 3.55961869 3.79542121 2.64978481 2.76142998 2.08665042
29 30 31 32 33 34 35
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30 0.44873488
31 0.61375069 0.92131883
32 0.90481130 0.60495509 1.18068893
33 2.02333554 1.61828715 2.33800941 1.17784268
34 6.10356037 5.90729993 6.11920995 5.30625348 4.73658827
35 1.49106421 1.13968511 1.58504404 1.00653847 1.29728672 5.58035775
36 2.32794167 1.92460478 2.48737562 1.53783510 0.85238222 4.84846344 1.04117422
37 2.59271818 2.17559710 2.76869232 1.84087092 1.07467525 4.98139711 1.24646232
36
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37 0.35116637Dalam melakukan perhitungan jarak metode yang digunakan ialah jarak euclidean karena mudah dipahmi dan berdasarkan prinsip phytagoras. Euclidean distance adalah perhitungan jarak dari buah titik dalam euclidean space untuk mempelajari hubungan antara sudut dan jarak.
2.7 Korelasi Cophenetic
> #Koefisien Korelasi Cophenetic
> d1 <- dist(data[,2:4])
>
> #Single Linkage
> hiers <- hclust(dist(data[,2:4]), method = "single")
> #korelasi cophenetic
> hc1 <- hclust(d1, "single")
> d2 <- cophenetic(hc1)
> cors <- cor(d1,d2)
> cors
[1] 0.983365
>
> #Average Linkage
> hierave <- hclust(dist(data[,2:4]), method = "ave")
> #korelasi cophenetic
> hc2 <- hclust(d1, "ave")
> d3 <- cophenetic(hc2)
> corave <- cor(d1,d3)
> corave
[1] 0.990538
>
> #Complete Linkage
> hiercomp <- hclust(dist(data[,2:4]), method = "complete")
> #korelasi cophenetic
> hc3 <- hclust(d1, "complete")
> d4 <- cophenetic(hc3)
> corcomp <- cor(d1,d4)
> corcomp
[1] 0.9846074
>
> #Centorid Linkage
> hiercen <- hclust(dist(data[,2:4]), method = "centroid")
> #korelasi cophenetic
> hc4 <- hclust(d1, "centroid")
> d5 <- cophenetic(hc4)
> corcen <- cor(d1,d5)
> corcen
[1] 0.9896624
>
> #Ward
> hierward <- hclust(dist(data[,2:4]), method = "ward.D")
> #korelasi cophenetic
> hc5 <- hclust(d1,"ward.D")
> d6 <- cophenetic(hc5)
> corward <- cor(d1,d6)
> corward
[1] 0.677884
>
> KorCop<-data.frame(cors,corave,corcomp,corcen,corward)
> KorCop
cors corave corcomp corcen corward
1 0.983365 0.990538 0.9846074 0.9896624 0.677884Untuk mencari metode terbaik yang akan digunakan dapat melihat perbandingan nilai korelasi cophenetic dari masing masing metode, nilai korelasi cophenetic terbesar atau mendekati nilai 1 yang akan dipilih. Fungsi hclust digunakan untuk menerapkan metode hirarki cluster menggunakan serangkaian ketidaksamaan untuk objek \(n\) yang dikelompokkan.Menganalisis dengan metode hierarki clustering dengan fungsi hclust() dengan argumen data pada fungsi dist dan argumen single/average/complete/centroid/ward. D pada parameter method. Menghitung jarak antar observasi dengan fungsi dist() dengan argumen data yang disimpan dalam d1, menjalankan fungsi hclust() dengan argumen d1 dan single/average/complete/centroid/ward. D yang disimpan dalam hc, menjalankan fungsi cophenetic() dengan argumen hc yang disimpan dalam d2, lalu menghitung korelasi cophenetic dengan fungsi cor() dengan argumen d1 dan d2 yang disimpan dalam cors/corave/corcomp/corcen/corward. Lalu, dilakukan penyimpan hasil dari masing-masing metode korelasi cophenetic dalam format grid yakni menggunakan fungsi data.frame(…).
2.8 Indeks Validitas
> inval <- clValid(datastand, 2:4, clMethods = "hierarchical", validation = "internal", metric = "euclidean", method = "average")
> summary(inval)
Clustering Methods:
hierarchical
Cluster sizes:
2 3 4
Validation Measures:
2 3 4
hierarchical Connectivity 2.9290 5.8579 10.9413
Dunn 0.7074 0.3280 0.3111
Silhouette 0.6637 0.4006 0.3806
Optimal Scores:
Score Method Clusters
Connectivity 2.9290 hierarchical 2
Dunn 0.7074 hierarchical 2
Silhouette 0.6637 hierarchical 2
> optimalScores(inval)
Score Method Clusters
Connectivity 2.9289683 hierarchical 2
Dunn 0.7073582 hierarchical 2
Silhouette 0.6637229 hierarchical 2
> plot(inval)Untuk mengetahui apakah hasil kelompok cluster yang terbentuk mampu menjelaskan dan mewakili populasi secara umum maka dibutuhkan validitas cluster. Validitas cluster ini digunakan untuk memecahkan permasalahan utama dalam menentukan jumlah kelompok optimum. Dalam perhitungan validitas cluster disimpan dalam variabel inval.
Proses validitas cluster dilakukan dengan memanggil packages clValid dan ggplot2 dengan fungsi library(). Melakukan validasi cluster dengan fungsi clvalid() dengan argumen data standarisasi, argumen hierarchical pada parameter clMethods, argumen internal pada parameter validation, argumen euclidean pada parameter metric, argumen average pada parameter method yang disimpan dalam inval. Menampilkan rangkuman ukuran persebaran dan pemusatan data validasi dengan fungsi summary(), menghitung optimal scores dengan fungsi optimalScores(), menampilkan plot dengan fungsi plot().
2.9 Proses Clustering (Metode Average Linkage) dan Karateristik Tiap Cluster
> hirave <- hclust(dist(scale(data[,2:4])), method = "average")
> hirave
Call:
hclust(d = dist(scale(data[, 2:4])), method = "average")
Cluster method : average
Distance : euclidean
Number of objects: 37
> plot(hirave, labels(data$Kabupaten.Kota.Jawa.Timur), hang = 1, col = "blue", main = "Cluster Dendogram", sub = " ", xlab = "Kabupaten/kota", ylab = "Jarak")>
> anggotaave <- data.frame(id = data$Kabupaten.Kota.Jawa.Timur, cutree(hirave, k = 2))
> anggotaave
id cutree.hirave..k...2.
1 Kota Surabaya 1
2 Kota Madiun 1
3 Kota Mojokerto 1
4 Kota Batu 1
5 Kabupaten Magetan 1
6 Kota Probolinggo 1
7 Kabupaten Lamongan 1
8 Kabupaten Kediri 1
9 Kabupaten Ponorogo 1
10 Kabupaten Ngawi 1
11 Kabupaten Malang 1
12 Kabupaten Bojonegoro 1
13 Kabupaten Pasuruan 1
14 Kabupaten Tuban 1
15 Kabupaten Pacitan 1
16 Kabupaten Jember 1
17 Kabupaten Sumenep 1
18 Kabupaten Pamekasan 1
19 Kabupaten Probolinggo 1
20 Kabupaten Lumajang 1
21 Kabupaten Sampang 1
22 Kabupaten Bangkalan 1
23 Kabupaten Bondowoso 1
24 Kabupaten Situbondo 1
25 Kabupaten Trenggalek 1
26 Kabupaten Blitar 1
27 Kabupaten Banyuwangi 1
28 Kabupaten Nganjuk 1
29 Kabupaten Madiun 1
30 Kabupaten Jombang 1
31 Kabupaten Tulungagung 1
32 Kabupaten Mojokerto 1
33 Kabupaten Gresik 1
34 Kota Kediri 2
35 Kota Blitar 1
36 Kabupaten Sidoarjo 1
37 Kota Malang 1
> clus_hier <- eclust(datastand, FUNcluster = "hclust", k = 2, hc_method = "average", graph = TRUE)
> fviz_dend(clus_hier, rect = TRUE, cex = 0.5)>
> idclus = clus_hier$cluster
> idclus
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
27 28 29 30 31 32 33 34 35 36 37
1 1 1 1 1 1 1 2 1 1 1
> aggregate(data,list(idclus),mean)
Group.1 Kabupaten.Kota.Jawa.Timur Indeks.Pembangunan.Manusia
1 1 NA 71.60
2 2 NA 78.23
Tingkat.Partisipasi.Angkatan.Kerja PDRB.Perkapita.Atas.Dasar.Harga
1 70.76944 46565
2 66.00000 462199Memanggil packages cluster, factoextra, tidyverse dan car dengan fungsi library(). Melakukan hierarical clustering dengan fungsi hclust() dan argumen data standarisasi pada fungsi dist(), argumen average pada paramter method. Fungsi hclust yakni menggunakan serangkaian ketidaksamaan untuk objek \(n\) yang dikelompokkan dan menerapakan metode cluster hirarki, dengan cluster optimum sebanyak 2 cluster dan metode average sebagai metode terbaik yang dipilih untuk melakukan clustering, serta graph = TRUE yang artinya akan memunculkan grafik dari hasil clustering yang kemudian disimpan pada variabel hirave. Menampilkan plot dari hirave dengan fungsi plot() dengan argumen didalamnya mengenai labels, warna dan yang lain. Menampilkan anggota pengelompokan dengan fungsi data.frame() yang disimpan dalam anggotaave. Menerapkan metode k-means dengan fungsi eclust() yang disimpan dalam clus_hier. Menampilkan visualisasi dendogram dengan fungsi fviz_dend(). Menampilkan data rata-rata menggunakan fungsi aggregate() terdiri dari data, hasil dari fungsi list(…) pada idclus, dan hasil mean.
3 Hasil dan Pembahasan
3.1 Hasil Analisis Statistika Deskriptif
| Va riabel | Min | Max | Median | Mean | Q1 | Q3 |
|---|---|---|---|---|---|---|
| Indeks Pemba ngunan M anusia (X1) | 6 2.70 | 8 2.23 | 70.81 | 71.78 | 68 .39 | 73 .92 |
| T ingkat Parti sipasi An gkatan Kerja (X2) | 6 5.75 | 8 0.36 | 70.65 | 70.64 | 68 .05 | 72 .69 |
| PDRB Per kapita Atas Dasar Harga (X3) | 1 9779 | 46 2199 | 30023 | 57798 | 25 811 | 54 048 |
• Provinsi Jawa Timur pada tahun 2020 memiliki 37 Kabupaten/Kota, setiap Kabupaten/Kota mempunyai Indek Pembangunan Manusia (IPM), wilayah yang memiliki IPM terendah adalah Kabupaten Sampang yaitu sebesar 62.70%, sedangkan wilayah yang memiliki IPM terbesar adalah Kota Surabaya sebesar 82.23%. Berdasarkan ukuran pemusatan data Indek Pembangunan Manusia (IPM) memiliki hasil mean sebesar 71.78 dan median sebesar 70.81.
• Provinsi Jawa Timur pada tahun 2020 memiliki 37 Kabupaten/Kota, setiap masyarakat di Kabupaten/Kota bekerja untuk memenuhi kebutuhan hidup, Kabupaten Nganjuk mempunyai Tingkat Partisipasi Angkatan Kerja (TPAK) yaituu sebesar 65.75%, sedangkan Kabupaten termasuk Kabupaten/Kota yang memiliki TPAK tertinggi yaitu sebsar 80.36%. Berdasarkan ukuran pemusatan data Tingkat Partisipasi Angkatan Kerja (TPAK) memiliki hasil mean sebesar 70.64 dan median sebesar 70.65.
• Provinsi Jawa Timur pada tahun 2020 memiliki 37 Kabupaten/Kota, setiap Kabupaten/Kota mempunyai Produk Domestik Regional Bruto (PDRB) perkapita, wilayah yang memiliki PDRB perkapita Atas Dasar Harga Konstan terendah adalah Kabupaten Pamekasan yaitu sebesar Rp. 19779, sedangkan wilayah yang memiliki PDRB perkapita Atas Dasar Harga Konstan adalah Kota Kediri sebesar Rp. 462199. Berdasarkan ukuran pemusatan data PDRB perkapita Atas Dasar Harga Konstan memiliki hasil mean sebesar Rp. 57798 dan median sebesar Rp. 30023.
3.2 Pengujian Asumsi
Pada analisis cluster terdapat beberapa asumsi yang harus dipenuhi diantaranya:
Uji Kaiser Meyer Olkin (KMO)
Uji asumsi pertama ialah uji sampel representatif menggunakan uji Kaiser Mayer Olkin (KMO) yang dilakukan untuk menguji apakah sampel telah representatif atau mewakili populasi. Berikut disajikan tabel uji KMO.
| Indeks Pembangunan Manusia (X1) | Tingkat Partisipasi Angkatan Kerja (X2) | PDRB Perkapita Atas Dasar Harga (X3) | |
|---|---|---|---|
| Uji KMO | 0.64 | 0.71 | 0.64 |
Berdasarkan hasil uji KMO yang telah didapatkan dari hasil perhitungan, nilai uji KMO pada indeks pembangunan manusia sebesar 0.64, nilai uji KMO pada tingkat partisipasi angkatan kerja sebesar 0.71, dan nilai uji KMO pada PDRB Perkapitas Atas Dasar Harga sebesar 0.64. Nilai uji KMO dari masing-masing variabel memiliki nilai >0.5 maka dapat disimpulkan bahwa sampel mewakili populasi atau sampel yang digunakan telah representatif.
Uji Multikolinearitas
Uji asumsi analisis cluster yang kedua adalah uji asumsi Non-Multikolinearitas yang dapat dilihat dari korelasi antar variabel. Apabila nilai mutlak dari korelasi lebih dari 0.8 maka dapat dikatakan terjadi multikolinearitas. Berikut disajikan tabel korelasi antar variabel:
| Indeks Pembangunan Manusia (X1) | Tingkat Partisipasi Angkatan Kerja (X2) | PDRB Perkapita Atas Dasar Harga (X3) | |
|---|---|---|---|
| Indeks Pembangunan Manusia (X1) | 1.0000000 | -0.3841410 | 0.4799849 |
| Tingkat Partisipasi Angkatan Kerja (X2) | -0.3841410 | 1.0000000 | -0.3825473 |
| PDRB Perkapita Atas Dasar Harga (X3) | 0.4799849 | -0.3825473 | 1.0000000 |
Berdasarkan hasil uji multikolinearitas yang telah didapatkan dari hasil perhitungan, nilai korelasi antar variabel yakni mutlak kurang dari 0.8 sehingg dapat disimpulkan bahwa tidak terjadi multikolinearitas antar variabel.
3.3 Standarisasi Data
Setelah dilakukan uji asumsi dan mendapatkan hasil yang telah memenuhi asumsi maka dilanjutkan dengan standarisasi variabel ke bentuk Zscore. Hasil stanndarisasi digunakan dalam pengelompokan Kota/Kabupaten di Jawa Timur pada Tahun 2020 berdasarkan karakteristik pembangunan ekonomi. Standirasasi data dilakukan jika data yang dilakukan memiliki satuan data sama maka tidak perlu melakukan standarisasi, tetapi jika satuan berbeda maka standarisasi harus dilakukan agar mempersempit dan menyamakan satuan perubah yang berbeda-beda. Dalam kasus ini satuan peubah ada yang berbeda, maka harus dilakukan proses standarisasi.
| Indeks Pembangunan Manusia (X1) | Tingkat Partisipasi Angkatan Kerja (X2) | PDRB Perkapita Atas Dasar Harga (X3) |
|---|---|---|
| 2.055713495 | -0.809862103 | -0.809862103 |
| 1.796064568 | -0.566016299 | 0.15296390 |
| 1.231524855 | -0.759842451 | -0.10436152 |
| 0.810578868 | 0.528163590 | 0.22405197 |
| 0.421105477 | 0.809524133 | -0.39044476 |
| 0.293248051 | -0.490986821 | -0.15075694 |
| 0.157522476 | 0.052976895 | -0.37474795 |
| 0.053269497 | 0.002957243 | -0.43160791 |
| -0.190643131 | 0.271812873 | -0.47397750 |
| -0.243753139 | 0.640707807 | -0.45209113 |
| -0.279159811 | 0.306201384 | -0.25313372 |
| -0.538808738 | 1.237817403 | -0.04918008 |
| -0.625358380 | -0.928658777 | 0.43207078 |
| -0.664699127 | 0.374978405 | -0.07492180 |
| -0.666666164 | 3.038524878 | -0.40424012 |
| -0.918446942 | -0.812988331 | -0.36423095 |
| -1.052205480 | 1.369118990 | -0.37546919 |
| -1.085645114 | -0.256519702 | -0.49856523 |
| -1.123018823 | 0.703232372 | -0.37397425 |
| -1.243008100 | -1.163125896 | -0.38148826 |
| -1.785910402 | -0.222131191 | -0.48907109 |
| -1.508558139 | -1.138116070 | -0.46894193 |
| -1.052205480 | 1.391002588 | -0.42084176 |
| -0.865336934 | 0.790766763 | -0.37444634 |
| -0.401116125 | 1.587954968 | -0.42895899 |
| -0.235884990 | 0.059229352 | -0.37122043 |
| -0.228016840 | 0.362473492 | -0.13416841 |
| -0.011642734 | -1.528894602 | -0.44145612 |
| -0.009675697 | 0.243676819 | -0.41946484 |
| 0.234236931 | -0.128344344 | -0.36055918 |
| 0.240138043 | 0.790766763 | -0.29709004 |
| 0.403402141 | -0.265898387 | 0.20373922 |
| 0.851886651 | -1.285048798 | 0.58780622 |
| 1.268898564 | -1.450738895 | 5.30309162 |
| 1.335777834 | -0.347180322 | -0.16665045 |
| 1.674108254 | -1.084970190 | 0.48545567 |
| 1.902284583 | -1.322563537 | 0.36378899 |
3.4 Korelasi Cophenetic
Koefisien korelasi cophenetic digunakan sebagai dasar dalam menentukan metode terbaik yang akan digunakan dalam analisis cluster. Metode dengan nilai korelasi mendekati 1 yang akan dipilih sebagai metode terbaik dalam penelitian ini. Berikut hasil koefisien korelasi cophenetic:
| Metode | Korelasi Cophenetic |
|---|---|
| Single Linkage | 0.983365 |
| Average Linkage | 0.990538 |
| Complate Linkage | 0.9846074 |
| Centroid | 0.9896624 |
| Ward | 0.677884 |
Metode terbaik yang akan digunakan dalam analisis cluster yakni memiliki nilai korelasi mendekati 1. Dari hasil koefisein korelasi cophenetic terlihat bahwa Average Lingkage memiliki nilai koefisien korelasi tertinggi atau yang paling mendekati 1 dibandingkan metode lain, yaitu sebesar 0.990538. Oleh karena itu metode cluster yang terbaik yang akan digunakan adalah metode Average Lingkage.
3.5 Indeks Validitas
Metode clustering: hierarchical
Cluster sizes : 2,3,4
Plot
Connectivity
Dunn
Silhouette
Pada analisis ini menetapkan stopping rule sebanyak 2 cluster. Stopping rule adalah jumlah cluster yang dijadikan pertimbangan sebelum menentukan jumlah cluster optimal yang sesungguhnya. Dalam memilih dan menentukan jumlah cluster optimal pada analisis ini mengggunakan 3 aturan indeks validitas cluster, yaitu Indeks Connectivity, Indeks Dunn dan Indeks Silhoutte. Hasil penentuan jumlah cluster optimal metode Average Linkage berdasarkan indeks validitas cluster disajikan pada tabel berikut
| Indeks | Nilai | Cluster |
|---|---|---|
| Connectivity | 2.928963 | 2 |
| Dunn | 0.7073582 | 2 |
| Silhouette | 0.6637229 | 2 |
Berdasarkan tabel menunjukkan bahwa berdasarkan indeks connectivity, indeks dunn, dan indeks silhouette jumlah cluster optimum ialah sebanyak 2 cluster. Sehingga berdasarkan indeks connectivity, indeks dunn dan indeks silhouette terpilih jumlah cluster sebanyak dua sebagai cluster optimal pada metode pengelompokkan Average Linkage berdasarkan faktor-faktor yang mempengaruhi pembangunan ekonomi.
3.6 Proses Clustering (Metode Average Linkage)
Hasil analisis cluster akan membentuk dendogram seperti gambar diatas. Berdasarkan gambar dapat diketahui bahwa hasil pengelompokan metode Average Linkage Kabupaten/Kota di Jawa Timur Tahun 2020 berdasarkan faktor-faktor pembangunan ekonomi terbentuk 2 cluster. Garis horizontal menunjukkan menunjukkan Kabupaten/Kota yang dikelompokkan dan garis vertical menunjukkan jarak Euclidean antar Kabupaten/Kota .
Dengan melihat selisih terpanjang dari gambar diatas terlihat bahwa pemotongan yang tepat akan menghasilkan 2 cluster, dimana pada cluster 1 pada dendogram berwarna biru yang terdiri dari 36 Kabupaten/Kota dan cluster 2 pada dendogram berwarna merah yang terdiri dari 1 Kabupaten/Kota.
| Cluster | Anggota |
|---|---|
| 1 | Kota Surabaya, Kota Madiun, Kota Mojokerto, Kota Batu, Kabupaten Magetan, Kota Probolinggo, Kabupaten Lamongan, Kabupaten Kediri, Kabupaten Ponorogo, Kabupaten Ngawi, Kabupaten Malang, Kabupaten Bojonegoro, Kabupaten Pasuruan, Kabupaten Tuban, Kabupaten Pacitan, Kabupaten Jember, Kabupaten Sumenep, Kabupaten Pamekasan, Kabupaten Probolinggo, Kabupaten Lumajang, Kabupaten Sampang, Kabupaten Bangkalan, Kabupaten Bondowoso, Kabupaten Situbondo, Kabupaten Trenggalek, Kabupaten Blitar, Kabupaten Banyuwangi, Kabupaten Nganjuk, Kabupaten Madiun, Kabupaten Jombang, Kabupaten Tulungagung, Kabupaten Mojokerto, Kabupaten Gresik, Kota Blitar, Kabupaten Sidoarjo, Kota Malang |
| 2 | Kota Kediri |
3.7 Karateristik Tiap Cluster
Setelah menentukan jumlah cluster beserta anggota yang terbentuk, maka selanjutnya ialah memberikan ciri spesifik untuk menggambarkan isi cluster tersebut. Setiap cluster memiliki karakteristik yang berbeda berdasarkan faktor-faktor yang mempengaruhi pembangunan ekonomi di Kabupaten/Kota. Karakteristik faktor-faktor dari setiap cluster dapat dilihat melalui nilai rata-rata masing masing variabel. Tinggi rendahnya nilai rata-rata setiap variabel pada masing-masing cluster dengan metode Average Linkage disajikan pada tabel berikut:
| Variabel | Cluster 1 | Cluster 2 |
|---|---|---|
| Indeks Pembangunan Manusia (X1) | 71.60 | 78.23 |
| Tingkat Partisipasi Angkatan Kerja (X2) | 70.76944 | 66.00000 |
| PDRB Perkapita Atas Dasar Harga (X3) | 46565 | 462199 |
Cluster 1 yaitu kelompok kabupaten/Kota yang masuk dalam cluster 1 sebanyak 36 Kabupaten/Kota yang bercirikan Indeks Pembangunan Manusia lebih rendah daripada cluster 2. Akan tetapi, Tingkat Partisipasi Angkatan Kerja (TPAK) dan Produk Domestik Regional Bruto (PDRB) Perkapita Atas Dasar Harga Konstan lebih tinggi daripada cluster 2. Indek Pembangunan Manusia terendah berada di cluster 1 yaitu Kabupaten Sampang berada di posisi terendah dari 27 Kabupaten/Kota di Jawa Timur, meskipun begitu terdapat juga beberapa Kota yang memiliki IPM ataupun perekonomian yang baik seperti beberapa Kota Maju juga menjadi anggota cluster 1 seperti Kota Malang, Kota Madiun, Kabupaten Sidoarjo, dan lain sebagainya. Laju pertumbuhan PDRB dapat dipandang sebagai peningkatan produktivitas penduduk atau pertambahan jumlah barang dan jasa yang dihasilkan oleh semua lapangan usaha kegiatan ekonomi yang ada di suatu wilayah selama kurun waktu setahun. Beberapa Kabupaten/Kota yang beranggota di cluster 1 memiliki PDRB terendah di Jawa Timur yaitu Kabupaten Pamekasan, Kabupaten Sampang, dan lain sebagainya.
Cluster 2 yaitu kelompok Kabupaten/Kota yang masuk dalam cluster hanya terdapat 1 Kota, yang bercirikan Indeks Pembangunan Manusia lebih tinggi daripada cluster 1. Akan tetapi, Tingkat Partisipasi Angkatan Kerja (TPAK) dan Produk Domestik Regional Bruto (PDRB) Perkapita Atas Dasar Harga Konstan lebih rendah daripada cluster 1. Hal ini karena anggota pada cluster 2 hanya beranggotakan 1 Kota yaitu Kota Kediri.
4 Penutup
4.1 Kesimpulan
Dari kasus meliputi 37 Kabupaten/Kota di Jawa Timur pada Tahun 2020 dengan dilakukan proses analisis cluster dapat terbagi menjadi 2 cluster yakni cluster 1 terdiri dari 36 Kabupaten/Kota dan cluster 2 terdiri dari 1 Kabupaten/Kota yakni Kota Kediri. Dalam proses analisis cluster metode korelasi cophenetic yang paling baik atau nilainya mendekati 1 adalah metode Average Linkage. Maka metode yang digunakan untuk proses clustering dalam kasus ini adalah metode Average Linkage. Setelah, dilakukan proses metode Average Linkage dapat disimpulkan bahwa mayoritas Kabupaten/Kota di Timur berada pada tingkat ekonomi rata-rata hanya saja dalam hal Indeks Pembangunan Manusia (IPM) perlu lebih diperhatikan, tetapi pemerintah diharapkan juga tetap memperhatikan TPAK dan PDRB perkapita Atas Dasar Harga Konstan agar jauh lebih baik dan efisien yang ada di beberapa Kabupaten/Kota di Jawa Timur pada Tahun 2020 agar mampu meningkatkan pertumbuhan ekonomi.
4.2 Saran
Pada Indeks Pembangunan Manusia (IPM) di suatu provinsi dapat dilakukan peningkatan dengan banyak penduduk yang dapat melanjutkan pendidikan ke jenjang pendidikan yang lebih tinggi dan peningkatan kehidupan yang layak bagi penduduk setampat. Pada Tingkat Partisipasi Angkatan Kerja (TPAK) dapat dilakukan peningkatan sesuai dengan Undang-Undang Nomor 13 Tahun 2003 tentang Ketenagakerjaan yakni melalui cara pelatihan kerja, penempatan tenaga kerja, perluasan kesempatan kerja, menanggulangi pekerja anak di luar hubungan kerja, dan lain sebagainya. Pada Produk Domestik Regional Bruto (PDRB) Perkapita Atas Dasar Harga Konstan dapat dilakukan peningkatan dengan meningkatkan pertumbuhan Product Domestic Bruto (PDB) dengan mendorong konsumsi dan investasi lebih tinggi, serta proses melakukan impor dikurangi.
5 Daftar Pustaka
Meilia Wulan Puspitasari, M.S. (n.d.). Pengelompokkan Kabpuaten/Kota Berdasarkan Faktor-Faktor yang Mempengaruhi Kemiskinan di Jawa Tengah Menggunakan Metode Ward dan Average Linkage. Jurrnal Pendidikan Matematika dan Sains Edisi.. Tahun.. ke.. 20..
Data BPS Indeks Pembangunan Manusia Menurut Kabupaten/Kota 2020-2022. https://jatim.bps.go.id/indicator/26/36/1/ipm.html.
Data BPS [Seri 2010] PDRB Perkapita Atas Dasar Harga Berlaku Menurut Kabupaten/Kota (Ribu Rupiah), 2020-2022. https://jatim.bps.go.id/statictable/2021/09/04/2198/tingkat-pengangguran-terbuka-tpt-dan-tingka-partisipasi-angkatan-kerja-tpak-menurut-kabupaten-kota-2018-2020.html.
Data BPS tingkat Pengangguran Terbuka (TPT) dan Tingkat Partisipasi Angkatan Kerja (TPAK) menurut Kabupaten/Kota, 2020-2022. https://jatim.bps.go.id/indicator/162/327/1/pdrb-perkapita-adhb.html.