1 Persiapan Analisis

1.1 Library yang Digunakan

Sebelum melakukan analisis K-Means pada software R-Studio, tambahkan library seperti berikut:

library(readxl)
library(writexl)
library(GPArotation)
library(psych)
library(ggplot2)
library(reshape2)
library(car)
library(cluster)
library(factoextra)
library(dplyr)
library(knitr)
library(kableExtra)

1.2 Import Data

Tampilan Awal Data Industri Jawa Tengah
NEGARA	EMISI CO2 Total (ton)	SHARE OF GLOBAL FOREST AREA (%)	PRODUKSI NIKEL (TON)
United States	4632164876	33.77641	7490
Australia	383403111	17.35663	98000
Brazil	491468781	58.54684	67500
Canada	577972624	41.96624	125000
China	13124727993	24.02396	115000
Cuba	21004155	34.87659	45900

1.3 Perapian Nama Variabel

Nama Variabel Setelah Perapian
Nama_Variabel
Negara
Emisi_CO2_Total
Forest_Area
Produksi_Nikel

2 Eksplorasi Data

2.1 Statistik Deskriptif

Statistik deskriptif digunakan untuk memberikan gambaran umum mengenai karakteristik data

Statistik Deskriptif Data Industri Jawa Tengah
	Variabel	Minimum	Maksimum	Mean	Median	Std_Dev
Emisi_CO2_Total	Emisi_CO2_Total	4998309.00	1.312473e+10	2.024130e+09	491468781.00	3.925535e+09
Forest_Area	Forest_Area	17.36	7.653000e+01	4.201000e+01	41.97	1.735000e+01
Produksi_Nikel	Produksi_Nikel	7490.00	2.310000e+06	3.146466e+05	115000.00	6.688303e+05

## Emisi_CO2_Total     Forest_Area  Produksi_Nikel 
##               2               0               2

2.2 Standardisasi Data

Standardisasi data dilakukan menggunakan metode Z-score sehingga setiap variabel memiliki rata-rata mendekati nol dan standar deviasi sebesar satu. Tujuan dari proses ini adalah untuk menghilangkan pengaruh perbedaan satuan pengukuran antar variabel sehingga tidak ada variabel yang mendominasi dalam proses pembentukan cluster.

Contoh Data Setelah Standardisasi (Z-Score)
Emisi_CO2_Total	Forest_Area	Produksi_Nikel
0.6643769	-0.4749137	-0.4592445
-0.4179628	-1.4214485	-0.3239187
-0.3904339	0.9530022	-0.3695207
-0.3683977	-0.0028031	-0.2835497
2.8277926	-1.0371032	-0.2985012
-0.5102812	-0.4114928	-0.4018159

Hasil standardisasi menunjukkan bahwa seluruh variabel telah berada pada skala yang sama sehingga dapat digunakan secara bersamaan dalam proses analisis cluster.

3 Pemeriksaan Asumsi Data

3.1 Deteksi Outlier Multivariat

Outlier multivariat merupakan observasi yang memiliki nilai ekstrem jika dilihat dari kombinasi beberapa variabel sekaligus. Deteksi outlier multivariat dilakukan menggunakan Mahalanobis Distance yang mempertimbangkan seluruh variabel secara simultan.

Deteksi Outlier Multivariat Menggunakan Mahalanobis Distance
Observasi	Mahalanobis_Distance	Chi_Square_Cutoff	Status
1	0.6375120	9.348404	Normal
2	3.1161885	9.348404	Normal
3	1.1463912	9.348404	Normal
4	0.2584424	9.348404	Normal
5	7.9970170	9.348404	Normal
6	0.8497089	9.348404	Normal
7	4.4560155	9.348404	Normal
8	8.9336368	9.348404	Normal
9	0.4529882	9.348404	Normal
10	1.8132256	9.348404	Normal
11	0.3388739	9.348404	Normal

Diperoleh bahwa nilai batas Chi-Square adalah 9,348404. Kemudian Nilai Mahalanobis Distance dibandingkan dengan nilai batas Chi-Square sebesar 12,8325 pada tingkat signifikansi tertentu.

Hasil analisis menunjukkan bahwa tidak terdapat beberapa observasi yang memiliki nilai Mahalanobis Distance lebih besar dari nilai batas ## Visualisasi Mahalanobis Distance

3.2 Uji Kelayakan Analisi (KMO)

Uji Kaiser-Meyer-Olkin (KMO) digunakan untuk mengetahui apakah data yang digunakan layak untuk dianalisis lebih lanjut.

## Kaiser-Meyer-Olkin factor adequacy
## Call: KMO(r = data_z)
## Overall MSA =  0.53
## MSA for each item = 
## Emisi_CO2_Total     Forest_Area  Produksi_Nikel 
##            0.52            0.52            0.68

Hasil pengujian awal menunjukkan nilai KMO sebesar 0,48 yang berarti data secara umum variabel tidak layak untuk dianalisis karena nilainya kurang besar dari 0,5.

3.3 Uji Multikolinieritas (VIF)

Uji multikolinieritas dilakukan untuk mengetahui apakah terdapat hubungan yang sangat kuat antar variabel yang dapat mempengaruhi hasil analisis.

## Emisi_CO2_Total     Forest_Area  Produksi_Nikel 
##        1.013336        1.012935        1.160016

Seluruh nilai VIF berada di bawah batas 10, sehingga dapat disimpulkan bahwa tidak terdapat masalah multikolinieritas antar variabel yang digunakan dalam analisis.

4 Penentuan Jumlah Cluster Optimal

4.1 Metode Silhouette

Penentuan jumlah cluster optimal dilakukan menggunakan metode Silhouette. Metode ini mengukur tingkat kesesuaian suatu objek terhadap cluster tempatnya berada dibandingkan dengan cluster lainnya.

## k = 2 | skor = 0.460596 
## k = 3 | skor = 0.454846 
## k = 4 | skor = 0.301629 
## k = 5 | skor = 0.249961 
## k = 6 | skor = 0.250699 
## k = 7 | skor = 0.231144 
## k = 8 | skor = 0.157263 
## k = 9 | skor = 0.068498 
## k = 10 | skor = 0.025201

## 
## Jumlah cluster optimal = 2 
## dengan nilai silhouette = 0.460596

## k = 2 | WSS = 20.7532 
## k = 3 | WSS = 10.05631 
## k = 4 | WSS = 4.175923 
## k = 5 | WSS = 2.939912 
## k = 6 | WSS = 1.435758 
## k = 7 | WSS = 0.606487 
## k = 8 | WSS = 0.413 
## k = 9 | WSS = 0.246141 
## k = 10 | WSS = 0.166859

5 Analisis Clustering dengan K-Means

5.1 Pembentukan Cluster

Setelah jumlah cluster optimal ditentukan, dilakukan proses clustering menggunakan metode K-Means.

## K-means clustering with 3 clusters of sizes 1, 1, 9
## 
## Cluster means:
##   Emisi_CO2_Total Forest_Area Produksi_Nikel
## 1       -0.308729  0.49869108      2.9833479
## 2        2.827793 -1.03710324     -0.2985012
## 3       -0.279896  0.05982357     -0.2983163
## 
## Clustering vector:
##  [1] 3 3 3 3 2 3 3 1 3 3 3
## 
## Within cluster sum of squares by cluster:
## [1]  0.00000  0.00000 10.05631
##  (between_SS / total_SS =  66.5 %)
## 
## Available components:
## 
## [1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
## [6] "betweenss"    "size"         "iter"         "ifault"

5.2 Objek Medoid Tiap Cluster

Centroid Setiap Cluster
Cluster	Emisi_CO2_Total	Forest_Area	Produksi_Nikel
Cluster 1	-0.308729	0.4986911	2.9833479
Cluster 2	2.827793	-1.0371032	-0.2985012
Cluster 3	-0.279896	0.0598236	-0.2983163

Hasil analisis menunjukkan bahwa cluster yang terbentuk adalah:

Cluster 1 →
Cluster 2 →

5.3 Penambahan Label Cluster

Menambahkan label cluster ke data asli.

Data Negara dengan Label Cluster
Negara	Emisi_CO2_Total	Forest_Area	Produksi_Nikel	cluster
United States	4632164876	33.77641	7490	3
Australia	383403111	17.35663	98000	3
Brazil	491468781	58.54684	67500	3
Canada	577972624	41.96624	125000	3
China	13124727993	24.02396	115000	2
Cuba	21004155	34.87659	45900	3

5.4 Hasil Pengelompokkan Negara Berdasarkan Cluster

Langkah selanjutnya adalah menampilkan anggota negara pada setiap cluster yang terbentuk berdasarkan metode K-Means.

Hasil Klasterisasi Negara Global
cluster	Jumlah_Anggota	Negara
1	1	Indonesia
2	1	China
3	9	United States, Australia, Brazil, Canada, Cuba, Dominican Republic, New Caledonia, Philippines, Russia

5.5 Visualisasi Cluster

Menampilkan grafik pembagian cluster.

6 Profilisasi Cluster

6.1 Rata-rata Karakteristik Tiap Cluster

Karakteristik cluster dapat dilihat dari nilai rata-rata setiap variabel pada masing-masing cluster.

Profilisasi Cluster Negara
cluster	Jumlah_Negara	Rata_EmisiCO2	Rata_ForestArea	Rata_ProduksiNikel
1	1	812204159	50.66579	2310000.0
2	1	13124727993	24.02396	115000.0
3	9	925389195	43.05264	115123.7

Analisis K-Means Clustering

Riski Setiawan

2026-06-18