1 Pendahuluan

Analisis cluster merupakan salah satu metode analisis multivariat yang digunakan untuk mengelompokkan objek ke dalam beberapa kelompok berdasarkan tingkat kemiripan karakteristiknya. Objek yang berada dalam satu kelompok (cluster) diharapkan memiliki karakteristik yang relatif homogen, sedangkan objek yang berada pada kelompok yang berbeda memiliki karakteristik yang lebih heterogen.

Pada penelitian ini dilakukan analisis cluster terhadap kabupaten/kota di Provinsi Jawa Tengah berdasarkan beberapa indikator kinerja industri, yaitu jumlah tenaga kerja, nilai produksi, jumlah listrik PLN yang digunakan, nilai investasi, dan jumlah bahan baku. Tujuan dari analisis ini adalah untuk mengelompokkan daerah-daerah tersebut berdasarkan kesamaan karakteristik industri sehingga dapat diketahui daerah yang memiliki karakteristik industri yang relatif mirip.

Metode clustering yang digunakan dalam penelitian ini adalah metode K-Medoids. Metode ini dipilih karena lebih robust terhadap keberadaan outlier dibandingkan metode K-Means. Dalam analisis ini, langkah-langkah yang dilakukan meliputi statistik deskriptif, standardisasi data, deteksi outlier multivariat, pengujian kelayakan analisis, penentuan jumlah cluster optimal, serta pembentukan cluster menggunakan metode K-Medoids.

2 Persiapan Analisis

2.1 Library yang Digunakan

Sebelum melakukan analisis K-Medoids pada software R-Studio, tambahkan library seperti berikut:

library(readxl)
library(writexl)
library(GPArotation)
library(psych)
library(ggplot2)
library(car)
library(cluster)
library(factoextra)
library(dplyr)
library(knitr)
library(kableExtra)

2.2 Import Data

Pada tahap awal dilakukan proses pembacaan data dari file Excel ke dalam perangkat lunak R. Data yang digunakan merupakan data industri pada 35 kabupaten/kota di Provinsi Jawa Tengah dengan lima variabel utama yaitu jumlah tenaga kerja, jumlah produksi, jumlah listrik PLN yang digunakan, jumlah investasi, serta jumlah bahan baku. Data tersebut selanjutnya digunakan sebagai dasar dalam proses analisis cluster.

Tampilan Awal Data Industri Jawa Tengah
Kabupaten/Kota Jumlah Tenaga Kerja Jumlah Produksi (kg) Jumlah Listruk PLN (kWh) Jumlah Investasi (Rp) Jumlah Bahan Baku (kg)
Kabupaten Banjarnegara 2857 174205.8 179988 9.190572e+10 23009.02
Kabupaten Banyumas 3396 452460521.8 38619369 4.470688e+12 619270882.18
Kabupaten Batang 16227 290940096.2 60229856 1.061154e+13 568725875.01
Kabupaten Blora 447 12320659.0 131673 3.196124e+10 12482643.29
Kabupaten Boyolali 39404 2894816739.9 1201775331 1.760294e+13 84563832.52
Kabupaten Brebes 59973 227446656.0 531797387 4.351701e+12 21589388.81

2.3 Perapian Nama Variabel

Proses ini dilakukan untuk menyederhanakan penamaan variabel dengan menghilangkan spasi pada nama kolom. Tujuannya adalah agar variabel lebih mudah digunakan dalam proses pengolahan data di R serta menghindari potensi kesalahan dalam pemanggilan variabel selama analisis.

Nama Variabel Setelah Perapian
Nama_Variabel
Kabupaten
TenagaKerja
Produksi
Listrik
Investasi
BahanBaku

3 Eksplorasi Data

3.1 Statistik Deskriptif

Statistik deskriptif digunakan untuk memberikan gambaran umum mengenai karakteristik data industri pada kabupaten/kota di Provinsi Jawa Tengah.

Statistik Deskriptif Data Industri Jawa Tengah
Kabupaten TenagaKerja Produksi Listrik Investasi BahanBaku
Length:35 Min. : 447 Min. :1.742e+05 Min. :1.317e+05 Min. :3.196e+10 Min. :2.301e+04
Class :character 1st Qu.: 5501 1st Qu.:4.954e+07 1st Qu.:1.505e+07 1st Qu.:6.315e+11 1st Qu.:3.661e+07
Mode :character Median :16227 Median :2.909e+08 Median :4.308e+07 Median :2.909e+12 Median :2.258e+08
NA Mean :25498 Mean :2.918e+09 Mean :3.823e+08 Mean :4.236e+13 Mean :9.811e+09
NA 3rd Qu.:37332 3rd Qu.:1.969e+09 3rd Qu.:1.270e+08 3rd Qu.:8.704e+12 3rd Qu.:8.254e+08
NA Max. :94877 Max. :2.345e+10 Max. :5.116e+09 Max. :1.054e+15 Max. :2.960e+11

Berdasarkan hasil statistik deskriptif diketahui bahwa:

  • Jumlah tenaga kerja memiliki nilai minimum sebesar 447 orang dan maksimum sebesar 94.877 orang, dengan rata-rata 25.498 orang.

  • Jumlah produksi memiliki nilai minimum sebesar 174.206 kg dan maksimum sebesar 23.450.000.000 kg, dengan rata-rata 2.918.000.000 kg.

  • Penggunaan listrik PLN berkisar antara 131.700 kWh hingga 5.116.000.000 kWh dengan rata-rata 382.300.000 kWh.

  • Nilai investasi memiliki rentang yang sangat besar yaitu dari 3,19 × 10¹⁰ rupiah hingga 1,054 × 10¹⁵ rupiah.

  • Jumlah bahan baku berkisar antara 23.010 kg hingga 296.000.000.000 kg.

Perbedaan rentang nilai antar variabel yang cukup besar menunjukkan bahwa skala pengukuran antar variabel berbeda jauh. Oleh karena itu diperlukan proses standardisasi data sebelum dilakukan analisis cluster agar setiap variabel memiliki kontribusi yang seimbang dalam proses pengelompokan.

3.2 Standardisasi Data

Standardisasi data dilakukan menggunakan metode Z-score sehingga setiap variabel memiliki rata-rata mendekati nol dan standar deviasi sebesar satu. Tujuan dari proses ini adalah untuk menghilangkan pengaruh perbedaan satuan pengukuran antar variabel sehingga tidak ada variabel yang mendominasi dalam proses pembentukan cluster.

Contoh Data Setelah Standardisasi (Z-Score)
TenagaKerja Produksi Listrik Investasi BahanBaku
-0.8658788 -0.4877150 -0.3631331 -0.2338281 -0.1962691
-0.8452653 -0.4121090 -0.3266027 -0.2096042 -0.1838809
-0.3545574 -0.4391095 -0.3060655 -0.1756325 -0.1848921
-0.9580467 -0.4856846 -0.3631790 -0.2341597 -0.1960198
0.5318224 -0.0038350 0.7787859 -0.1369554 -0.1945778
1.3184619 -0.4497233 0.1420819 -0.2102625 -0.1958376

Hasil standardisasi menunjukkan bahwa seluruh variabel telah berada pada skala yang sama sehingga dapat digunakan secara bersamaan dalam proses analisis cluster.

4 Pemeriksaan Asumsi Data

4.1 Deteksi Outlier Multivariat

Outlier multivariat merupakan observasi yang memiliki nilai ekstrem jika dilihat dari kombinasi beberapa variabel sekaligus. Deteksi outlier multivariat dilakukan menggunakan Mahalanobis Distance yang mempertimbangkan seluruh variabel secara simultan.

Deteksi Outlier Multivariat Menggunakan Mahalanobis Distance
Observasi Mahalanobis_Distance Chi_Square_Cutoff Status
1 0.8848433 12.8325 Normal
2 0.8071827 12.8325 Normal
3 0.3159250 12.8325 Normal
4 1.0428437 12.8325 Normal
5 0.9563133 12.8325 Normal
6 2.7983659 12.8325 Normal
7 0.6914713 12.8325 Normal
8 1.2925694 12.8325 Normal
9 0.1711923 12.8325 Normal
10 9.6414891 12.8325 Normal
11 0.6488130 12.8325 Normal
12 1.0242227 12.8325 Normal
13 32.2812945 12.8325 Outlier
14 32.8239057 12.8325 Outlier
15 10.2673673 12.8325 Normal
16 0.5309134 12.8325 Normal
17 0.3492464 12.8325 Normal
18 0.4021525 12.8325 Normal
19 0.4357150 12.8325 Normal
20 0.3583831 12.8325 Normal
21 0.8247364 12.8325 Normal
22 0.4305749 12.8325 Normal
23 16.9288733 12.8325 Outlier
24 0.5246239 12.8325 Normal
25 25.3854057 12.8325 Outlier
26 3.8686892 12.8325 Normal
27 12.3982285 12.8325 Normal
28 1.1629579 12.8325 Normal
29 0.9737449 12.8325 Normal
30 0.9276207 12.8325 Normal
31 0.8852345 12.8325 Normal
32 0.4012351 12.8325 Normal
33 6.0345178 12.8325 Normal
34 0.6559430 12.8325 Normal
35 0.8734045 12.8325 Normal

Diperoleh bahwa nilai batas Chi-Square adalah 12,8325. Kemudian Nilai Mahalanobis Distance dibandingkan dengan nilai batas Chi-Square sebesar 12,8325 pada tingkat signifikansi tertentu.

Hasil analisis menunjukkan bahwa terdapat beberapa observasi yang memiliki nilai Mahalanobis Distance lebih besar dari nilai batas Chi-Square sehingga dikategorikan sebagai outlier multivariat, yaitu:

  • Observasi ke-13

  • Observasi ke-14

  • Observasi ke-23

  • Observasi ke-25

Keberadaan outlier ini menunjukkan bahwa terdapat beberapa daerah yang memiliki karakteristik industri yang sangat berbeda dibandingkan daerah lainnya.

4.2 Visualisasi Mahalanobis Distance

4.3 Uji Kelayakan Analisi (KMO)

Uji Kaiser-Meyer-Olkin (KMO) digunakan untuk mengetahui apakah data yang digunakan layak untuk dianalisis lebih lanjut.

## Kaiser-Meyer-Olkin factor adequacy
## Call: KMO(r = data_z)
## Overall MSA =  0.62
## MSA for each item = 
## TenagaKerja    Produksi     Listrik   Investasi   BahanBaku 
##        0.66        0.63        0.61        0.49        0.36

Hasil pengujian awal menunjukkan nilai KMO sebesar 0,62 yang berarti data secara umum layak untuk dianalisis karena nilainya lebih besar dari 0,5. Namun, terdapat dua variabel yang memiliki nilai MSA kurang dari 0,5, yaitu:

  • Variabel Investasi (0,49)

  • Variabel Bahan Baku (0,36)

Nilai tersebut menunjukkan bahwa kedua variabel tersebut kurang memadai untuk dimasukkan dalam analisis lanjutan sehingga variabel Investasi dan Bahan Baku dihapus dari analisis.

## Menghapus variabel: BahanBaku 
## Menghapus variabel: Investasi
## Kaiser-Meyer-Olkin factor adequacy
## Call: KMO(r = data_kmo)
## Overall MSA =  0.64
## MSA for each item = 
## TenagaKerja    Produksi     Listrik 
##        0.67        0.65        0.60

Setelah kedua variabel tersebut dihapus, nilai KMO meningkat menjadi 0,64 dan seluruh variabel yang tersisa memiliki nilai MSA di atas 0,5. Hal ini menunjukkan bahwa data dengan variabel Tenaga Kerja, Produksi, dan Listrik sudah memenuhi syarat untuk dilakukan analisis cluster.

4.4 Uji Multikolinieritas (VIF)

Uji multikolinieritas dilakukan untuk mengetahui apakah terdapat hubungan yang sangat kuat antar variabel yang dapat mempengaruhi hasil analisis.

## TenagaKerja    Produksi     Listrik 
##    1.233429    1.210237    1.098279

Hasil pengujian menggunakan Variance Inflation Factor (VIF) menunjukkan bahwa:

  • Tenaga Kerja = 1,23

  • Produksi = 1,21

  • Listrik = 1,10

Seluruh nilai VIF berada di bawah batas 10, sehingga dapat disimpulkan bahwa tidak terdapat masalah multikolinieritas antar variabel yang digunakan dalam analisis.

5 Penentuan Jumlah Cluster Optimal

5.1 Metode Silhouette

Penentuan jumlah cluster optimal dilakukan menggunakan metode Silhouette. Metode ini mengukur tingkat kesesuaian suatu objek terhadap cluster tempatnya berada dibandingkan dengan cluster lainnya.

## k = 2 | skor = 0.620973 
## k = 3 | skor = 0.610814 
## k = 4 | skor = 0.356415 
## k = 5 | skor = 0.379005 
## k = 6 | skor = 0.369069 
## k = 7 | skor = 0.367017 
## k = 8 | skor = 0.323159 
## k = 9 | skor = 0.317828 
## k = 10 | skor = 0.329064

Hasil pengujian menunjukkan bahwa nilai silhouette tertinggi diperoleh pada k = 2 dengan nilai sebesar 0,620973. Oleh karena itu, jumlah cluster optimal yang digunakan dalam analisis ini adalah dua cluster.

6 Analisis Clustering dengan K-Medoids

6.1 Pembentukan Cluster

Setelah jumlah cluster optimal ditentukan, dilakukan proses clustering menggunakan metode K-Medoids. Metode ini memilih objek nyata dalam data sebagai pusat cluster yang disebut medoid.

## Medoids:
##      ID TenagaKerja   Produksi     Listrik
## [1,] 18  -0.5278406 -0.3759142 -0.35576882
## [2,] 33   1.8972075  1.3786516 -0.03285048
## Clustering vector:
##  [1] 1 1 1 1 1 1 1 1 1 2 1 1 1 1 2 1 1 1 1 1 1 1 2 1 2 2 2 1 1 1 1 1 2 1 1
## Objective function:
##     build      swap 
## 0.8862843 0.8819756 
## 
## Available components:
##  [1] "medoids"    "id.med"     "clustering" "objective"  "isolation" 
##  [6] "clusinfo"   "silinfo"    "diss"       "call"       "data"

Catatan : Jumlah cluster yang digunakan adalah 2 medoid, sesuai hasil dari silhouette.

6.2 Objek Medoid Tiap Cluster

Objek Medoid Setiap Cluster
Cluster Objek_Medoid Kabupaten
1 Objek ke- 18 Kabupaten Pekalongan
2 Objek ke- 33 Kota Semarang

Hasil analisis menunjukkan bahwa medoid yang terbentuk adalah:

  • Cluster 1 → Objek ke-18 (Kabupaten Pekalongan)

  • Cluster 2 → Objek ke-33 (Kota Semarang)

Medoid tersebut merupakan objek yang paling merepresentasikan karakteristik dari masing-masing cluster.

6.3 Penambahan Label Cluster

Menambahkan label cluster ke data asli.

Data Kabupaten/Kota dengan Label Cluster
Kabupaten TenagaKerja Produksi Listrik cluster
Kabupaten Banjarnegara 2857 174205.8 179988 1
Kabupaten Banyumas 3396 452460521.8 38619369 1
Kabupaten Batang 16227 290940096.2 60229856 1
Kabupaten Blora 447 12320659.0 131673 1
Kabupaten Boyolali 39404 2894816739.9 1201775331 1
Kabupaten Brebes 59973 227446656.0 531797387 1

6.4 Hasil Pengelompokkan Kabupaten/Kota Berdasarkan Cluster

Langkah selanjutnya adalah menampilkan anggota kabupaten/kota pada setiap cluster yang terbentuk berdasarkan metode K-Medoids.

Hasil Klasterisasi Industri Provinsi Jawa Tengah
cluster Objek_Medoid Jumlah_Anggota Kabupaten_Kota
1 Objek ke-18 (Kabupaten Pekalongan) 28 Kabupaten Banjarnegara, Kabupaten Banyumas, Kabupaten Batang, Kabupaten Blora, Kabupaten Boyolali, Kabupaten Brebes, Kabupaten Cilacap, Kabupaten Demak, Kabupaten Grobogan, Kabupaten Karanganyar, Kabupaten Kebumen, Kabupaten Kendal, Kabupaten Klaten, Kabupaten Magelang, Kabupaten Pati, Kabupaten Pekalongan, Kabupaten Pemalang, Kabupaten Purbalingga, Kabupaten Purworejo, Kabupaten Rembang, Kabupaten Sragen, Kabupaten Wonogiri, Kabupaten Wonosobo, Kota Magelang, Kota Pekalongan, Kota Salatiga, Kota Surakarta, Kota Tegal
2 Objek ke-33 (Kota Semarang) 7 Kabupaten Jepara, Kabupaten Kudus, Kabupaten Semarang, Kabupaten Sukoharjo, Kabupaten Tegal, Kabupaten Temanggung, Kota Semarang

6.5 Visualisasi Cluster

Menampilkan grafik pembagian cluster.

7 Profilisasi Cluster

7.1 Rata-rata Karakteristik Tiap Cluster

Karakteristik cluster dapat dilihat dari nilai rata-rata setiap variabel pada masing-masing cluster.
Profilisasi Cluster Kabupaten/Kota Industri Jawa Tengah
cluster Jumlah_Daerah Rata_TenagaKerja Rata_Produksi Rata_Listrik
1 28 16419.25 684784057 141007396
2 7 61812.71 11849653928 1347421912

Hasil perhitungan menunjukkan bahwa:

7.1.1 Cluster 1

  • Rata-rata Tenaga Kerja: 16.419

  • Rata-rata Produksi: 684.784.057 kg

  • Rata-rata Listrik: 141.007.396 kWh

    Cluster ini terdiri dari 28 kabupaten/kota dengan karakteristik industri yang relatif lebih kecil hingga menengah dibandingkan cluster lainnya.

7.1.2 Cluster 2

  • Rata-rata Tenaga Kerja: 61.812

  • Rata-rata Produksi: 11.849.653.928 kg

  • Rata-rata Listrik: 1.347.421.912 kWh

    Cluster ini terdiri dari 7 kabupaten/kota dengan tingkat aktivitas industri yang jauh lebih besar, ditandai dengan jumlah tenaga kerja, produksi, dan penggunaan listrik yang jauh lebih tinggi.

Dengan demikian, dapat disimpulkan bahwa Cluster 2 merupakan daerah dengan skala industri yang lebih besar dibandingkan Cluster 1.

7.2 Interpretasi Cluster

Berdasarkan hasil perhitungan rata-rata setiap variabel pada masing-masing cluster, diperoleh karakteristik sebagai berikut:

  • Cluster 1

    Cluster 1 terdiri dari 28 kabupaten/kota dengan rata-rata jumlah tenaga kerja, produksi, dan penggunaan listrik yang relatif lebih rendah dibandingkan cluster lainnya. Hal ini menunjukkan bahwa daerah dalam cluster ini memiliki skala industri yang lebih kecil hingga menengah.

  • Cluster 2

    Cluster 2 terdiri dari 7 kabupaten/kota dengan nilai rata-rata tenaga kerja, produksi, dan penggunaan listrik yang jauh lebih tinggi. Kondisi ini menunjukkan bahwa daerah dalam cluster ini memiliki aktivitas industri yang lebih besar dan intensif.

8 Kesimpulan

Berdasarkan hasil analisis K-Medoids Clustering terhadap 35 kabupaten/kota di Provinsi Jawa Tengah berdasarkan variabel tenaga kerja, produksi, dan penggunaan listrik pada sektor industri Triwulan IV Tahun 2025, diperoleh beberapa kesimpulan sebagai berikut:

  • Hasil penentuan jumlah cluster optimal menggunakan metode Silhouette menunjukkan bahwa jumlah cluster yang paling optimal adalah 2 cluster dengan nilai silhouette sebesar 0,620973.

  • Proses clustering menggunakan metode K-Medoids menghasilkan dua kelompok kabupaten/kota yang memiliki karakteristik industri yang berbeda.

  • Cluster 1 terdiri dari 28 kabupaten/kota dengan karakteristik industri yang relatif lebih kecil hingga menengah. Cluster ini memiliki rata-rata tenaga kerja sebesar 16.419 orang, rata-rata produksi sebesar 684.784.057 kg, serta rata-rata penggunaan listrik sebesar 141.007.396 kWh.

  • Cluster 2 terdiri dari 7 kabupaten/kota dengan karakteristik industri yang lebih besar dan lebih intensif. Cluster ini memiliki rata-rata tenaga kerja sebesar 61.812 orang, rata-rata produksi sebesar 11.849.653.928 kg, serta rata-rata penggunaan listrik sebesar 1.347.421.912 kWh.

  • Hasil pemetaan cluster menunjukkan adanya perbedaan tingkat aktivitas industri antar daerah di Provinsi Jawa Tengah, di mana beberapa daerah memiliki aktivitas industri yang jauh lebih besar dibandingkan daerah lainnya.

Secara umum dapat disimpulkan bahwa metode K-Medoids mampu mengelompokkan kabupaten/kota di Provinsi Jawa Tengah berdasarkan kesamaan karakteristik industri sehingga dapat memberikan gambaran mengenai daerah dengan aktivitas industri tinggi maupun rendah.