Analisis cluster merupakan salah satu metode analisis multivariat yang digunakan untuk mengelompokkan objek ke dalam beberapa kelompok berdasarkan tingkat kemiripan karakteristiknya. Objek yang berada dalam satu kelompok (cluster) diharapkan memiliki karakteristik yang relatif homogen, sedangkan objek yang berada pada kelompok yang berbeda memiliki karakteristik yang lebih heterogen.
Pada penelitian ini dilakukan analisis cluster terhadap kabupaten/kota di Provinsi Jawa Tengah berdasarkan beberapa indikator kinerja industri, yaitu jumlah tenaga kerja, nilai produksi, jumlah listrik PLN yang digunakan, nilai investasi, dan jumlah bahan baku. Tujuan dari analisis ini adalah untuk mengelompokkan daerah-daerah tersebut berdasarkan kesamaan karakteristik industri sehingga dapat diketahui daerah yang memiliki karakteristik industri yang relatif mirip.
Metode clustering yang digunakan dalam penelitian ini adalah metode K-Medoids. Metode ini dipilih karena lebih robust terhadap keberadaan outlier dibandingkan metode K-Means. Dalam analisis ini, langkah-langkah yang dilakukan meliputi statistik deskriptif, standardisasi data, deteksi outlier multivariat, pengujian kelayakan analisis, penentuan jumlah cluster optimal, serta pembentukan cluster menggunakan metode K-Medoids.
Sebelum melakukan analisis K-Medoids pada software R-Studio, tambahkan library seperti berikut:
library(readxl)
library(writexl)
library(GPArotation)
library(psych)
library(ggplot2)
library(car)
library(cluster)
library(factoextra)
library(dplyr)
library(knitr)
library(kableExtra)
Pada tahap awal dilakukan proses pembacaan data dari file Excel ke dalam perangkat lunak R. Data yang digunakan merupakan data industri pada 35 kabupaten/kota di Provinsi Jawa Tengah dengan lima variabel utama yaitu jumlah tenaga kerja, jumlah produksi, jumlah listrik PLN yang digunakan, jumlah investasi, serta jumlah bahan baku. Data tersebut selanjutnya digunakan sebagai dasar dalam proses analisis cluster.
| Kabupaten/Kota | Jumlah Tenaga Kerja | Jumlah Produksi (kg) | Jumlah Listruk PLN (kWh) | Jumlah Investasi (Rp) | Jumlah Bahan Baku (kg) |
|---|---|---|---|---|---|
| Kabupaten Banjarnegara | 2857 | 174205.8 | 179988 | 9.190572e+10 | 23009.02 |
| Kabupaten Banyumas | 3396 | 452460521.8 | 38619369 | 4.470688e+12 | 619270882.18 |
| Kabupaten Batang | 16227 | 290940096.2 | 60229856 | 1.061154e+13 | 568725875.01 |
| Kabupaten Blora | 447 | 12320659.0 | 131673 | 3.196124e+10 | 12482643.29 |
| Kabupaten Boyolali | 39404 | 2894816739.9 | 1201775331 | 1.760294e+13 | 84563832.52 |
| Kabupaten Brebes | 59973 | 227446656.0 | 531797387 | 4.351701e+12 | 21589388.81 |
Proses ini dilakukan untuk menyederhanakan penamaan variabel dengan menghilangkan spasi pada nama kolom. Tujuannya adalah agar variabel lebih mudah digunakan dalam proses pengolahan data di R serta menghindari potensi kesalahan dalam pemanggilan variabel selama analisis.
| Nama_Variabel |
|---|
| Kabupaten |
| TenagaKerja |
| Produksi |
| Listrik |
| Investasi |
| BahanBaku |
Statistik deskriptif digunakan untuk memberikan gambaran umum mengenai karakteristik data industri pada kabupaten/kota di Provinsi Jawa Tengah.
| Kabupaten | TenagaKerja | Produksi | Listrik | Investasi | BahanBaku | |
|---|---|---|---|---|---|---|
| Length:35 | Min. : 447 | Min. :1.742e+05 | Min. :1.317e+05 | Min. :3.196e+10 | Min. :2.301e+04 | |
| Class :character | 1st Qu.: 5501 | 1st Qu.:4.954e+07 | 1st Qu.:1.505e+07 | 1st Qu.:6.315e+11 | 1st Qu.:3.661e+07 | |
| Mode :character | Median :16227 | Median :2.909e+08 | Median :4.308e+07 | Median :2.909e+12 | Median :2.258e+08 | |
| NA | Mean :25498 | Mean :2.918e+09 | Mean :3.823e+08 | Mean :4.236e+13 | Mean :9.811e+09 | |
| NA | 3rd Qu.:37332 | 3rd Qu.:1.969e+09 | 3rd Qu.:1.270e+08 | 3rd Qu.:8.704e+12 | 3rd Qu.:8.254e+08 | |
| NA | Max. :94877 | Max. :2.345e+10 | Max. :5.116e+09 | Max. :1.054e+15 | Max. :2.960e+11 |
Berdasarkan hasil statistik deskriptif diketahui bahwa:
Jumlah tenaga kerja memiliki nilai minimum sebesar 447 orang dan maksimum sebesar 94.877 orang, dengan rata-rata 25.498 orang.
Jumlah produksi memiliki nilai minimum sebesar 174.206 kg dan maksimum sebesar 23.450.000.000 kg, dengan rata-rata 2.918.000.000 kg.
Penggunaan listrik PLN berkisar antara 131.700 kWh hingga 5.116.000.000 kWh dengan rata-rata 382.300.000 kWh.
Nilai investasi memiliki rentang yang sangat besar yaitu dari 3,19 × 10¹⁰ rupiah hingga 1,054 × 10¹⁵ rupiah.
Jumlah bahan baku berkisar antara 23.010 kg hingga 296.000.000.000 kg.
Perbedaan rentang nilai antar variabel yang cukup besar menunjukkan bahwa skala pengukuran antar variabel berbeda jauh. Oleh karena itu diperlukan proses standardisasi data sebelum dilakukan analisis cluster agar setiap variabel memiliki kontribusi yang seimbang dalam proses pengelompokan.
Standardisasi data dilakukan menggunakan metode Z-score sehingga setiap variabel memiliki rata-rata mendekati nol dan standar deviasi sebesar satu. Tujuan dari proses ini adalah untuk menghilangkan pengaruh perbedaan satuan pengukuran antar variabel sehingga tidak ada variabel yang mendominasi dalam proses pembentukan cluster.
| TenagaKerja | Produksi | Listrik | Investasi | BahanBaku |
|---|---|---|---|---|
| -0.8658788 | -0.4877150 | -0.3631331 | -0.2338281 | -0.1962691 |
| -0.8452653 | -0.4121090 | -0.3266027 | -0.2096042 | -0.1838809 |
| -0.3545574 | -0.4391095 | -0.3060655 | -0.1756325 | -0.1848921 |
| -0.9580467 | -0.4856846 | -0.3631790 | -0.2341597 | -0.1960198 |
| 0.5318224 | -0.0038350 | 0.7787859 | -0.1369554 | -0.1945778 |
| 1.3184619 | -0.4497233 | 0.1420819 | -0.2102625 | -0.1958376 |
Hasil standardisasi menunjukkan bahwa seluruh variabel telah berada pada skala yang sama sehingga dapat digunakan secara bersamaan dalam proses analisis cluster.
Outlier multivariat merupakan observasi yang memiliki nilai ekstrem jika dilihat dari kombinasi beberapa variabel sekaligus. Deteksi outlier multivariat dilakukan menggunakan Mahalanobis Distance yang mempertimbangkan seluruh variabel secara simultan.
| Observasi | Mahalanobis_Distance | Chi_Square_Cutoff | Status |
|---|---|---|---|
| 1 | 0.8848433 | 12.8325 | Normal |
| 2 | 0.8071827 | 12.8325 | Normal |
| 3 | 0.3159250 | 12.8325 | Normal |
| 4 | 1.0428437 | 12.8325 | Normal |
| 5 | 0.9563133 | 12.8325 | Normal |
| 6 | 2.7983659 | 12.8325 | Normal |
| 7 | 0.6914713 | 12.8325 | Normal |
| 8 | 1.2925694 | 12.8325 | Normal |
| 9 | 0.1711923 | 12.8325 | Normal |
| 10 | 9.6414891 | 12.8325 | Normal |
| 11 | 0.6488130 | 12.8325 | Normal |
| 12 | 1.0242227 | 12.8325 | Normal |
| 13 | 32.2812945 | 12.8325 | Outlier |
| 14 | 32.8239057 | 12.8325 | Outlier |
| 15 | 10.2673673 | 12.8325 | Normal |
| 16 | 0.5309134 | 12.8325 | Normal |
| 17 | 0.3492464 | 12.8325 | Normal |
| 18 | 0.4021525 | 12.8325 | Normal |
| 19 | 0.4357150 | 12.8325 | Normal |
| 20 | 0.3583831 | 12.8325 | Normal |
| 21 | 0.8247364 | 12.8325 | Normal |
| 22 | 0.4305749 | 12.8325 | Normal |
| 23 | 16.9288733 | 12.8325 | Outlier |
| 24 | 0.5246239 | 12.8325 | Normal |
| 25 | 25.3854057 | 12.8325 | Outlier |
| 26 | 3.8686892 | 12.8325 | Normal |
| 27 | 12.3982285 | 12.8325 | Normal |
| 28 | 1.1629579 | 12.8325 | Normal |
| 29 | 0.9737449 | 12.8325 | Normal |
| 30 | 0.9276207 | 12.8325 | Normal |
| 31 | 0.8852345 | 12.8325 | Normal |
| 32 | 0.4012351 | 12.8325 | Normal |
| 33 | 6.0345178 | 12.8325 | Normal |
| 34 | 0.6559430 | 12.8325 | Normal |
| 35 | 0.8734045 | 12.8325 | Normal |
Diperoleh bahwa nilai batas Chi-Square adalah 12,8325. Kemudian Nilai Mahalanobis Distance dibandingkan dengan nilai batas Chi-Square sebesar 12,8325 pada tingkat signifikansi tertentu.
Hasil analisis menunjukkan bahwa terdapat beberapa observasi yang memiliki nilai Mahalanobis Distance lebih besar dari nilai batas Chi-Square sehingga dikategorikan sebagai outlier multivariat, yaitu:
Observasi ke-13
Observasi ke-14
Observasi ke-23
Observasi ke-25
Keberadaan outlier ini menunjukkan bahwa terdapat beberapa daerah yang memiliki karakteristik industri yang sangat berbeda dibandingkan daerah lainnya.
Uji Kaiser-Meyer-Olkin (KMO) digunakan untuk mengetahui apakah data yang digunakan layak untuk dianalisis lebih lanjut.
## Kaiser-Meyer-Olkin factor adequacy
## Call: KMO(r = data_z)
## Overall MSA = 0.62
## MSA for each item =
## TenagaKerja Produksi Listrik Investasi BahanBaku
## 0.66 0.63 0.61 0.49 0.36
Hasil pengujian awal menunjukkan nilai KMO sebesar 0,62 yang berarti data secara umum layak untuk dianalisis karena nilainya lebih besar dari 0,5. Namun, terdapat dua variabel yang memiliki nilai MSA kurang dari 0,5, yaitu:
Variabel Investasi (0,49)
Variabel Bahan Baku (0,36)
Nilai tersebut menunjukkan bahwa kedua variabel tersebut kurang memadai untuk dimasukkan dalam analisis lanjutan sehingga variabel Investasi dan Bahan Baku dihapus dari analisis.
## Menghapus variabel: BahanBaku
## Menghapus variabel: Investasi
## Kaiser-Meyer-Olkin factor adequacy
## Call: KMO(r = data_kmo)
## Overall MSA = 0.64
## MSA for each item =
## TenagaKerja Produksi Listrik
## 0.67 0.65 0.60
Setelah kedua variabel tersebut dihapus, nilai KMO meningkat menjadi 0,64 dan seluruh variabel yang tersisa memiliki nilai MSA di atas 0,5. Hal ini menunjukkan bahwa data dengan variabel Tenaga Kerja, Produksi, dan Listrik sudah memenuhi syarat untuk dilakukan analisis cluster.
Uji multikolinieritas dilakukan untuk mengetahui apakah terdapat hubungan yang sangat kuat antar variabel yang dapat mempengaruhi hasil analisis.
## TenagaKerja Produksi Listrik
## 1.233429 1.210237 1.098279
Hasil pengujian menggunakan Variance Inflation Factor (VIF) menunjukkan bahwa:
Tenaga Kerja = 1,23
Produksi = 1,21
Listrik = 1,10
Seluruh nilai VIF berada di bawah batas 10, sehingga dapat disimpulkan bahwa tidak terdapat masalah multikolinieritas antar variabel yang digunakan dalam analisis.
Penentuan jumlah cluster optimal dilakukan menggunakan metode Silhouette. Metode ini mengukur tingkat kesesuaian suatu objek terhadap cluster tempatnya berada dibandingkan dengan cluster lainnya.
## k = 2 | skor = 0.620973
## k = 3 | skor = 0.610814
## k = 4 | skor = 0.356415
## k = 5 | skor = 0.379005
## k = 6 | skor = 0.369069
## k = 7 | skor = 0.367017
## k = 8 | skor = 0.323159
## k = 9 | skor = 0.317828
## k = 10 | skor = 0.329064
Hasil pengujian menunjukkan bahwa nilai silhouette tertinggi diperoleh pada k = 2 dengan nilai sebesar 0,620973. Oleh karena itu, jumlah cluster optimal yang digunakan dalam analisis ini adalah dua cluster.
Setelah jumlah cluster optimal ditentukan, dilakukan proses clustering menggunakan metode K-Medoids. Metode ini memilih objek nyata dalam data sebagai pusat cluster yang disebut medoid.
## Medoids:
## ID TenagaKerja Produksi Listrik
## [1,] 18 -0.5278406 -0.3759142 -0.35576882
## [2,] 33 1.8972075 1.3786516 -0.03285048
## Clustering vector:
## [1] 1 1 1 1 1 1 1 1 1 2 1 1 1 1 2 1 1 1 1 1 1 1 2 1 2 2 2 1 1 1 1 1 2 1 1
## Objective function:
## build swap
## 0.8862843 0.8819756
##
## Available components:
## [1] "medoids" "id.med" "clustering" "objective" "isolation"
## [6] "clusinfo" "silinfo" "diss" "call" "data"
Catatan : Jumlah cluster yang digunakan adalah 2 medoid, sesuai hasil dari silhouette.
| Cluster | Objek_Medoid | Kabupaten |
|---|---|---|
| 1 | Objek ke- 18 | Kabupaten Pekalongan |
| 2 | Objek ke- 33 | Kota Semarang |
Hasil analisis menunjukkan bahwa medoid yang terbentuk adalah:
Cluster 1 → Objek ke-18 (Kabupaten Pekalongan)
Cluster 2 → Objek ke-33 (Kota Semarang)
Medoid tersebut merupakan objek yang paling merepresentasikan karakteristik dari masing-masing cluster.
Menambahkan label cluster ke data asli.
| Kabupaten | TenagaKerja | Produksi | Listrik | cluster |
|---|---|---|---|---|
| Kabupaten Banjarnegara | 2857 | 174205.8 | 179988 | 1 |
| Kabupaten Banyumas | 3396 | 452460521.8 | 38619369 | 1 |
| Kabupaten Batang | 16227 | 290940096.2 | 60229856 | 1 |
| Kabupaten Blora | 447 | 12320659.0 | 131673 | 1 |
| Kabupaten Boyolali | 39404 | 2894816739.9 | 1201775331 | 1 |
| Kabupaten Brebes | 59973 | 227446656.0 | 531797387 | 1 |
Langkah selanjutnya adalah menampilkan anggota kabupaten/kota pada setiap cluster yang terbentuk berdasarkan metode K-Medoids.
| cluster | Objek_Medoid | Jumlah_Anggota | Kabupaten_Kota |
|---|---|---|---|
| 1 | Objek ke-18 (Kabupaten Pekalongan) | 28 | Kabupaten Banjarnegara, Kabupaten Banyumas, Kabupaten Batang, Kabupaten Blora, Kabupaten Boyolali, Kabupaten Brebes, Kabupaten Cilacap, Kabupaten Demak, Kabupaten Grobogan, Kabupaten Karanganyar, Kabupaten Kebumen, Kabupaten Kendal, Kabupaten Klaten, Kabupaten Magelang, Kabupaten Pati, Kabupaten Pekalongan, Kabupaten Pemalang, Kabupaten Purbalingga, Kabupaten Purworejo, Kabupaten Rembang, Kabupaten Sragen, Kabupaten Wonogiri, Kabupaten Wonosobo, Kota Magelang, Kota Pekalongan, Kota Salatiga, Kota Surakarta, Kota Tegal |
| 2 | Objek ke-33 (Kota Semarang) | 7 | Kabupaten Jepara, Kabupaten Kudus, Kabupaten Semarang, Kabupaten Sukoharjo, Kabupaten Tegal, Kabupaten Temanggung, Kota Semarang |
Menampilkan grafik pembagian cluster.
| cluster | Jumlah_Daerah | Rata_TenagaKerja | Rata_Produksi | Rata_Listrik |
|---|---|---|---|---|
| 1 | 28 | 16419.25 | 684784057 | 141007396 |
| 2 | 7 | 61812.71 | 11849653928 | 1347421912 |
Hasil perhitungan menunjukkan bahwa:
Rata-rata Tenaga Kerja: 16.419
Rata-rata Produksi: 684.784.057 kg
Rata-rata Listrik: 141.007.396 kWh
Cluster ini terdiri dari 28 kabupaten/kota dengan karakteristik industri yang relatif lebih kecil hingga menengah dibandingkan cluster lainnya.
Rata-rata Tenaga Kerja: 61.812
Rata-rata Produksi: 11.849.653.928 kg
Rata-rata Listrik: 1.347.421.912 kWh
Cluster ini terdiri dari 7 kabupaten/kota dengan tingkat aktivitas industri yang jauh lebih besar, ditandai dengan jumlah tenaga kerja, produksi, dan penggunaan listrik yang jauh lebih tinggi.
Dengan demikian, dapat disimpulkan bahwa Cluster 2 merupakan daerah dengan skala industri yang lebih besar dibandingkan Cluster 1.
Berdasarkan hasil perhitungan rata-rata setiap variabel pada masing-masing cluster, diperoleh karakteristik sebagai berikut:
Cluster 1
Cluster 1 terdiri dari 28 kabupaten/kota dengan rata-rata jumlah tenaga kerja, produksi, dan penggunaan listrik yang relatif lebih rendah dibandingkan cluster lainnya. Hal ini menunjukkan bahwa daerah dalam cluster ini memiliki skala industri yang lebih kecil hingga menengah.
Cluster 2
Cluster 2 terdiri dari 7 kabupaten/kota dengan nilai rata-rata tenaga kerja, produksi, dan penggunaan listrik yang jauh lebih tinggi. Kondisi ini menunjukkan bahwa daerah dalam cluster ini memiliki aktivitas industri yang lebih besar dan intensif.
Berdasarkan hasil analisis K-Medoids Clustering terhadap 35 kabupaten/kota di Provinsi Jawa Tengah berdasarkan variabel tenaga kerja, produksi, dan penggunaan listrik pada sektor industri Triwulan IV Tahun 2025, diperoleh beberapa kesimpulan sebagai berikut:
Hasil penentuan jumlah cluster optimal menggunakan metode Silhouette menunjukkan bahwa jumlah cluster yang paling optimal adalah 2 cluster dengan nilai silhouette sebesar 0,620973.
Proses clustering menggunakan metode K-Medoids menghasilkan dua kelompok kabupaten/kota yang memiliki karakteristik industri yang berbeda.
Cluster 1 terdiri dari 28 kabupaten/kota dengan karakteristik industri yang relatif lebih kecil hingga menengah. Cluster ini memiliki rata-rata tenaga kerja sebesar 16.419 orang, rata-rata produksi sebesar 684.784.057 kg, serta rata-rata penggunaan listrik sebesar 141.007.396 kWh.
Cluster 2 terdiri dari 7 kabupaten/kota dengan karakteristik industri yang lebih besar dan lebih intensif. Cluster ini memiliki rata-rata tenaga kerja sebesar 61.812 orang, rata-rata produksi sebesar 11.849.653.928 kg, serta rata-rata penggunaan listrik sebesar 1.347.421.912 kWh.
Hasil pemetaan cluster menunjukkan adanya perbedaan tingkat aktivitas industri antar daerah di Provinsi Jawa Tengah, di mana beberapa daerah memiliki aktivitas industri yang jauh lebih besar dibandingkan daerah lainnya.
Secara umum dapat disimpulkan bahwa metode K-Medoids mampu mengelompokkan kabupaten/kota di Provinsi Jawa Tengah berdasarkan kesamaan karakteristik industri sehingga dapat memberikan gambaran mengenai daerah dengan aktivitas industri tinggi maupun rendah.