1 Persiapan Analisis

1.1 Library yang Digunakan

Sebelum melakukan analisis K-Means pada software R-Studio, tambahkan library seperti berikut:

library(readxl)
library(writexl)
library(GPArotation)
library(psych)
library(ggplot2)
library(reshape2)
library(car)
library(cluster)
library(factoextra)
library(dplyr)
library(knitr)
library(kableExtra)

1.2 Import Data

Tampilan Awal Data
Provinsi Jumlah Lokasi (unit) Total Sumber Daya Bijih Nikel (ton) Total Cadangan Bijih Nikel (ton)
Aceh 1 8295040 0
Kalimantan Selatan 3 70433000 121655000
Kalimantan Tengah 1 21730643 9780719
Kalimantan Timur 1 1202428 0
Maluku 1 1894115853 147819770
Maluku Utara 82 5658890103 1849132715

1.3 Perapian Nama Variabel

Nama Variabel Setelah Perapian
Nama_Variabel
Provinsi
Jumlah_Lokasi
Total_SDM_Bijih_Nikel
Total_Cadangan_Bijih_Nikel

2 Eksplorasi Data

2.1 Statistik Deskriptif

Statistik deskriptif digunakan untuk memberikan gambaran umum mengenai karakteristik data
Statistik Deskriptif Data Industri Jawa Tengah
Variabel Minimum Maksimum Mean Median Std_Dev
Jumlah_Lokasi Jumlah_Lokasi 1 209 3.608000e+01 4.5 6.424000e+01
Total_SDM_Bijih_Nikel Total_SDM_Bijih_Nikel 0 6233988391 1.596459e+09 421507600.0 2.304611e+09
Total_Cadangan_Bijih_Nikel Total_Cadangan_Bijih_Nikel 0 1996931156 4.928222e+08 96952500.0 7.408534e+08
##              Jumlah_Lokasi      Total_SDM_Bijih_Nikel 
##                          3                          1 
## Total_Cadangan_Bijih_Nikel 
##                          1

2.2 Standardisasi Data

Standardisasi data dilakukan menggunakan metode Z-score sehingga setiap variabel memiliki rata-rata mendekati nol dan standar deviasi sebesar satu. Tujuan dari proses ini adalah untuk menghilangkan pengaruh perbedaan satuan pengukuran antar variabel sehingga tidak ada variabel yang mendominasi dalam proses pembentukan cluster.

Contoh Data Setelah Standardisasi (Z-Score)
Jumlah_Lokasi Total_SDM_Bijih_Nikel Total_Cadangan_Bijih_Nikel
-0.5461149 -0.6891243 -0.6652087
-0.5149824 -0.6621619 -0.5009994
-0.5461149 -0.6832944 -0.6520067
-0.5461149 -0.6922019 -0.6652087
-0.5461149 0.1291572 -0.4656824
0.7147489 1.7627404 1.8307407

Hasil standardisasi menunjukkan bahwa seluruh variabel telah berada pada skala yang sama sehingga dapat digunakan secara bersamaan dalam proses analisis cluster.

3 Pemeriksaan Asumsi Data

3.1 Deteksi Outlier Multivariat

Outlier multivariat merupakan observasi yang memiliki nilai ekstrem jika dilihat dari kombinasi beberapa variabel sekaligus. Deteksi outlier multivariat dilakukan menggunakan Mahalanobis Distance yang mempertimbangkan seluruh variabel secara simultan.

Deteksi Outlier Multivariat Menggunakan Mahalanobis Distance
Observasi Mahalanobis_Distance Chi_Square_Cutoff Status
1 0.5095665 9.348404 Normal
2 0.6501802 9.348404 Normal
3 0.4946169 9.348404 Normal
4 0.5150929 9.348404 Normal
5 5.3009123 9.348404 Normal
6 8.1825083 9.348404 Normal
7 0.5809418 9.348404 Normal
8 0.4344654 9.348404 Normal
9 0.5160553 9.348404 Normal
10 5.9074837 9.348404 Normal
11 1.7225298 9.348404 Normal
12 8.1856470 9.348404 Normal

Diperoleh bahwa nilai batas Chi-Square adalah 9,348404. Kemudian Nilai Mahalanobis Distance dibandingkan dengan nilai batas Chi-Square sebesar 12,8325 pada tingkat signifikansi tertentu.

Hasil analisis menunjukkan bahwa tidak terdapat beberapa observasi yang memiliki nilai Mahalanobis Distance lebih besar dari nilai batas ## Visualisasi Mahalanobis Distance

3.2 Uji Kelayakan Analisi (KMO)

Uji Kaiser-Meyer-Olkin (KMO) digunakan untuk mengetahui apakah data yang digunakan layak untuk dianalisis lebih lanjut.

## Kaiser-Meyer-Olkin factor adequacy
## Call: KMO(r = data_z)
## Overall MSA =  0.76
## MSA for each item = 
##              Jumlah_Lokasi      Total_SDM_Bijih_Nikel 
##                       0.89                       0.70 
## Total_Cadangan_Bijih_Nikel 
##                       0.72

Hasil pengujian awal menunjukkan nilai KMO sebesar 0,76 yang berarti data secara umum variabel layak untuk dianalisis karena nilainya lebih besar dari 0,5.

3.3 Uji Multikolinieritas (VIF)

Uji multikolinieritas dilakukan untuk mengetahui apakah terdapat hubungan yang sangat kuat antar variabel yang dapat mempengaruhi hasil analisis.

##              Jumlah_Lokasi      Total_SDM_Bijih_Nikel 
##                  11.643324                   4.848526 
## Total_Cadangan_Bijih_Nikel 
##                   5.377415

Seluruh nilai VIF berada di bawah batas 10, sehingga dapat disimpulkan bahwa tidak terdapat masalah multikolinieritas antar variabel yang digunakan dalam analisis.

4 Penentuan Jumlah Cluster Optimal

4.1 Metode Silhouette

Penentuan jumlah cluster optimal dilakukan menggunakan metode Silhouette. Metode ini mengukur tingkat kesesuaian suatu objek terhadap cluster tempatnya berada dibandingkan dengan cluster lainnya.

## k = 2 | skor = 0.749466 
## k = 3 | skor = 0.677903 
## k = 4 | skor = 0.512497 
## k = 5 | skor = 0.505444 
## k = 6 | skor = 0.465436 
## k = 7 | skor = 0.335353 
## k = 8 | skor = 0.352861 
## k = 9 | skor = 0.315035 
## k = 10 | skor = 0.210722
## 
## Jumlah cluster optimal = 2 
## dengan nilai silhouette = 0.749466

## k = 2 | WSS = 5.498576 
## k = 3 | WSS = 2.552045 
## k = 4 | WSS = 1.657071 
## k = 5 | WSS = 1.195537 
## k = 6 | WSS = 1.129285 
## k = 7 | WSS = 1.107206 
## k = 8 | WSS = 1.107026 
## k = 9 | WSS = 0.012207 
## k = 10 | WSS = 0.012199

5 Analisis Clustering dengan K-Means

5.1 Pembentukan Cluster

Setelah jumlah cluster optimal ditentukan, dilakukan proses clustering menggunakan metode K-Means.

## K-means clustering with 2 clusters of sizes 9, 3
## 
## Cluster means:
##   Jumlah_Lokasi Total_SDM_Bijih_Nikel Total_Cadangan_Bijih_Nikel
## 1    -0.4907683            -0.5204472                 -0.5022047
## 2     1.4723050             1.5613417                  1.5066141
## 
## Clustering vector:
##  [1] 1 1 1 1 1 2 1 1 1 1 2 2
## 
## Within cluster sum of squares by cluster:
## [1] 1.457226 4.041351
##  (between_SS / total_SS =  83.3 %)
## 
## Available components:
## 
## [1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
## [6] "betweenss"    "size"         "iter"         "ifault"

5.2 Objek Medoid Tiap Cluster

Centroid Setiap Cluster
Cluster Jumlah_Lokasi Total_SDM_Bijih_Nikel Total_Cadangan_Bijih_Nikel
Cluster 1 -0.4907683 -0.5204472 -0.5022047
Cluster 2 1.4723050 1.5613417 1.5066141

Hasil analisis menunjukkan bahwa cluster yang terbentuk adalah:

  • Cluster 1 →
  • Cluster 2 →

5.3 Penambahan Label Cluster

Menambahkan label cluster ke data asli.

Data Negara dengan Label Cluster
Provinsi Jumlah_Lokasi Total_SDM_Bijih_Nikel Total_Cadangan_Bijih_Nikel cluster
Aceh 1 8295040 0 1
Kalimantan Selatan 3 70433000 121655000 1
Kalimantan Tengah 1 21730643 9780719 1
Kalimantan Timur 1 1202428 0 1
Maluku 1 1894115853 147819770 1
Maluku Utara 82 5658890103 1849132715 2

5.4 Hasil Pengelompokkan Negara Berdasarkan Cluster

Langkah selanjutnya adalah menampilkan anggota negara pada setiap cluster yang terbentuk berdasarkan metode K-Means.

Hasil Klasterisasi
cluster Jumlah_Anggota Provinsi
1 9 Aceh, Kalimantan Selatan, Kalimantan Tengah, Kalimantan Timur, Maluku, Papua, Papua Barat Daya, Papua Tengah, Sulawesi Selatan
2 3 Maluku Utara, Sulawesi Tengah, Sulawesi Tenggara

5.5 Visualisasi Cluster

Menampilkan grafik pembagian cluster.

6 Profilisasi Cluster

6.1 Rata-rata Karakteristik Tiap Cluster

Karakteristik cluster dapat dilihat dari nilai rata-rata setiap variabel pada masing-masing cluster.
Profilisasi Cluster
cluster Jumlah_Provinsi Rata_Jumlah_Lokasi Rata_Total_SDM_Bijih_Nikel Rata_Total_Cadangan_Bijih_Nikel
1 9 4.555556 397030109 120762072
2 3 130.666667 5194744416 1609002388