1 Persiapan Analisis

1.1 Library yang Digunakan

Sebelum melakukan analisis K-Means pada software R-Studio, tambahkan library seperti berikut:

library(readxl)
library(writexl)
library(GPArotation)
library(psych)
library(ggplot2)
library(reshape2)
library(car)
library(cluster)
library(factoextra)
library(dplyr)
library(knitr)
library(kableExtra)

1.2 Import Data

Tampilan Awal Data
Provinsi	Jumlah Lokasi (unit)	Total Sumber Daya Bijih Nikel (ton)	Total Cadangan Bijih Nikel (ton)
Aceh	1	8295040	0
Kalimantan Selatan	3	70433000	121655000
Kalimantan Tengah	1	21730643	9780719
Kalimantan Timur	1	1202428	0
Maluku	1	1894115853	147819770
Maluku Utara	82	5658890103	1849132715

1.3 Perapian Nama Variabel

Nama Variabel Setelah Perapian
Nama_Variabel
Provinsi
Jumlah_Lokasi
Total_SDM_Bijih_Nikel
Total_Cadangan_Bijih_Nikel

2 Eksplorasi Data

2.1 Statistik Deskriptif

Statistik deskriptif digunakan untuk memberikan gambaran umum mengenai karakteristik data

Statistik Deskriptif Data Industri Jawa Tengah
	Variabel	Minimum	Maksimum	Mean	Median	Std_Dev
Jumlah_Lokasi	Jumlah_Lokasi	1	209	3.608000e+01	4.5	6.424000e+01
Total_SDM_Bijih_Nikel	Total_SDM_Bijih_Nikel	0	6233988391	1.596459e+09	421507600.0	2.304611e+09
Total_Cadangan_Bijih_Nikel	Total_Cadangan_Bijih_Nikel	0	1996931156	4.928222e+08	96952500.0	7.408534e+08

##              Jumlah_Lokasi      Total_SDM_Bijih_Nikel 
##                          3                          1 
## Total_Cadangan_Bijih_Nikel 
##                          1

2.2 Standardisasi Data

Standardisasi data dilakukan menggunakan metode Z-score sehingga setiap variabel memiliki rata-rata mendekati nol dan standar deviasi sebesar satu. Tujuan dari proses ini adalah untuk menghilangkan pengaruh perbedaan satuan pengukuran antar variabel sehingga tidak ada variabel yang mendominasi dalam proses pembentukan cluster.

Contoh Data Setelah Standardisasi (Z-Score)
Jumlah_Lokasi	Total_SDM_Bijih_Nikel	Total_Cadangan_Bijih_Nikel
-0.5461149	-0.6891243	-0.6652087
-0.5149824	-0.6621619	-0.5009994
-0.5461149	-0.6832944	-0.6520067
-0.5461149	-0.6922019	-0.6652087
-0.5461149	0.1291572	-0.4656824
0.7147489	1.7627404	1.8307407

Hasil standardisasi menunjukkan bahwa seluruh variabel telah berada pada skala yang sama sehingga dapat digunakan secara bersamaan dalam proses analisis cluster.

3 Pemeriksaan Asumsi Data

3.1 Deteksi Outlier Multivariat

Outlier multivariat merupakan observasi yang memiliki nilai ekstrem jika dilihat dari kombinasi beberapa variabel sekaligus. Deteksi outlier multivariat dilakukan menggunakan Mahalanobis Distance yang mempertimbangkan seluruh variabel secara simultan.

Deteksi Outlier Multivariat Menggunakan Mahalanobis Distance
Observasi	Mahalanobis_Distance	Chi_Square_Cutoff	Status
1	0.5095665	9.348404	Normal
2	0.6501802	9.348404	Normal
3	0.4946169	9.348404	Normal
4	0.5150929	9.348404	Normal
5	5.3009123	9.348404	Normal
6	8.1825083	9.348404	Normal
7	0.5809418	9.348404	Normal
8	0.4344654	9.348404	Normal
9	0.5160553	9.348404	Normal
10	5.9074837	9.348404	Normal
11	1.7225298	9.348404	Normal
12	8.1856470	9.348404	Normal

Diperoleh bahwa nilai batas Chi-Square adalah 9,348404. Kemudian Nilai Mahalanobis Distance dibandingkan dengan nilai batas Chi-Square sebesar 12,8325 pada tingkat signifikansi tertentu.

Hasil analisis menunjukkan bahwa tidak terdapat beberapa observasi yang memiliki nilai Mahalanobis Distance lebih besar dari nilai batas ## Visualisasi Mahalanobis Distance

3.2 Uji Kelayakan Analisi (KMO)

Uji Kaiser-Meyer-Olkin (KMO) digunakan untuk mengetahui apakah data yang digunakan layak untuk dianalisis lebih lanjut.

## Kaiser-Meyer-Olkin factor adequacy
## Call: KMO(r = data_z)
## Overall MSA =  0.76
## MSA for each item = 
##              Jumlah_Lokasi      Total_SDM_Bijih_Nikel 
##                       0.89                       0.70 
## Total_Cadangan_Bijih_Nikel 
##                       0.72

Hasil pengujian awal menunjukkan nilai KMO sebesar 0,76 yang berarti data secara umum variabel layak untuk dianalisis karena nilainya lebih besar dari 0,5.

3.3 Uji Multikolinieritas (VIF)

Uji multikolinieritas dilakukan untuk mengetahui apakah terdapat hubungan yang sangat kuat antar variabel yang dapat mempengaruhi hasil analisis.

##              Jumlah_Lokasi      Total_SDM_Bijih_Nikel 
##                  11.643324                   4.848526 
## Total_Cadangan_Bijih_Nikel 
##                   5.377415

Seluruh nilai VIF berada di bawah batas 10, sehingga dapat disimpulkan bahwa tidak terdapat masalah multikolinieritas antar variabel yang digunakan dalam analisis.

4 Penentuan Jumlah Cluster Optimal

4.1 Metode Silhouette

Penentuan jumlah cluster optimal dilakukan menggunakan metode Silhouette. Metode ini mengukur tingkat kesesuaian suatu objek terhadap cluster tempatnya berada dibandingkan dengan cluster lainnya.

## k = 2 | skor = 0.749466 
## k = 3 | skor = 0.677903 
## k = 4 | skor = 0.512497 
## k = 5 | skor = 0.505444 
## k = 6 | skor = 0.465436 
## k = 7 | skor = 0.335353 
## k = 8 | skor = 0.352861 
## k = 9 | skor = 0.315035 
## k = 10 | skor = 0.210722

## 
## Jumlah cluster optimal = 2 
## dengan nilai silhouette = 0.749466

## k = 2 | WSS = 5.498576 
## k = 3 | WSS = 2.552045 
## k = 4 | WSS = 1.657071 
## k = 5 | WSS = 1.195537 
## k = 6 | WSS = 1.129285 
## k = 7 | WSS = 1.107206 
## k = 8 | WSS = 1.107026 
## k = 9 | WSS = 0.012207 
## k = 10 | WSS = 0.012199

5 Analisis Clustering dengan K-Means

5.1 Pembentukan Cluster

Setelah jumlah cluster optimal ditentukan, dilakukan proses clustering menggunakan metode K-Means.

## K-means clustering with 2 clusters of sizes 9, 3
## 
## Cluster means:
##   Jumlah_Lokasi Total_SDM_Bijih_Nikel Total_Cadangan_Bijih_Nikel
## 1    -0.4907683            -0.5204472                 -0.5022047
## 2     1.4723050             1.5613417                  1.5066141
## 
## Clustering vector:
##  [1] 1 1 1 1 1 2 1 1 1 1 2 2
## 
## Within cluster sum of squares by cluster:
## [1] 1.457226 4.041351
##  (between_SS / total_SS =  83.3 %)
## 
## Available components:
## 
## [1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
## [6] "betweenss"    "size"         "iter"         "ifault"

5.2 Objek Medoid Tiap Cluster

Centroid Setiap Cluster
Cluster	Jumlah_Lokasi	Total_SDM_Bijih_Nikel	Total_Cadangan_Bijih_Nikel
Cluster 1	-0.4907683	-0.5204472	-0.5022047
Cluster 2	1.4723050	1.5613417	1.5066141

Hasil analisis menunjukkan bahwa cluster yang terbentuk adalah:

Cluster 1 →
Cluster 2 →

5.3 Penambahan Label Cluster

Menambahkan label cluster ke data asli.

Data Negara dengan Label Cluster
Provinsi	Jumlah_Lokasi	Total_SDM_Bijih_Nikel	Total_Cadangan_Bijih_Nikel	cluster
Aceh	1	8295040	0	1
Kalimantan Selatan	3	70433000	121655000	1
Kalimantan Tengah	1	21730643	9780719	1
Kalimantan Timur	1	1202428	0	1
Maluku	1	1894115853	147819770	1
Maluku Utara	82	5658890103	1849132715	2

5.4 Hasil Pengelompokkan Negara Berdasarkan Cluster

Langkah selanjutnya adalah menampilkan anggota negara pada setiap cluster yang terbentuk berdasarkan metode K-Means.

Hasil Klasterisasi
cluster	Jumlah_Anggota	Provinsi
1	9	Aceh, Kalimantan Selatan, Kalimantan Tengah, Kalimantan Timur, Maluku, Papua, Papua Barat Daya, Papua Tengah, Sulawesi Selatan
2	3	Maluku Utara, Sulawesi Tengah, Sulawesi Tenggara

5.5 Visualisasi Cluster

Menampilkan grafik pembagian cluster.

6 Profilisasi Cluster

6.1 Rata-rata Karakteristik Tiap Cluster

Karakteristik cluster dapat dilihat dari nilai rata-rata setiap variabel pada masing-masing cluster.

Profilisasi Cluster
cluster	Jumlah_Provinsi	Rata_Jumlah_Lokasi	Rata_Total_SDM_Bijih_Nikel	Rata_Total_Cadangan_Bijih_Nikel
1	9	4.555556	397030109	120762072
2	3	130.666667	5194744416	1609002388

Analisis K-Means Clustering

Riski Setiawan

2026-06-27