1 Persiapan Analisis

1.1 Library yang Digunakan

Sebelum melakukan analisis K-Means pada software R-Studio, tambahkan library seperti berikut:

library(readxl)
library(writexl)
library(GPArotation)
library(psych)
library(ggplot2)
library(reshape2)
library(car)
library(cluster)
library(factoextra)
library(dplyr)
library(knitr)
library(kableExtra)

1.2 Import Data

Tampilan Awal Data Industri Jawa Tengah
NEGARA EMISI CO2 Total (ton) SHARE OF GLOBAL FOREST AREA (%) PRODUKSI NIKEL (TON)
United States 4632164876 33.77641 7490
Australia 383403111 17.35663 98000
Brazil 491468781 58.54684 67500
Canada 577972624 41.96624 125000
China 13124727993 24.02396 115000
Cuba 21004155 34.87659 45900

1.3 Perapian Nama Variabel

Nama Variabel Setelah Perapian
Nama_Variabel
Negara
Emisi_CO2_Total
Forest_Area
Produksi_Nikel

2 Eksplorasi Data

2.1 Statistik Deskriptif

Statistik deskriptif digunakan untuk memberikan gambaran umum mengenai karakteristik data
Statistik Deskriptif Data Industri Jawa Tengah
Variabel Minimum Maksimum Mean Median Std_Dev
Emisi_CO2_Total Emisi_CO2_Total 4998309.00 1.312473e+10 2.024130e+09 491468781.00 3.925535e+09
Forest_Area Forest_Area 17.36 7.653000e+01 4.201000e+01 41.97 1.735000e+01
Produksi_Nikel Produksi_Nikel 7490.00 2.310000e+06 3.146466e+05 115000.00 6.688303e+05
## Emisi_CO2_Total     Forest_Area  Produksi_Nikel 
##               2               0               2

2.2 Standardisasi Data

Standardisasi data dilakukan menggunakan metode Z-score sehingga setiap variabel memiliki rata-rata mendekati nol dan standar deviasi sebesar satu. Tujuan dari proses ini adalah untuk menghilangkan pengaruh perbedaan satuan pengukuran antar variabel sehingga tidak ada variabel yang mendominasi dalam proses pembentukan cluster.

Contoh Data Setelah Standardisasi (Z-Score)
Emisi_CO2_Total Forest_Area Produksi_Nikel
0.6643769 -0.4749137 -0.4592445
-0.4179628 -1.4214485 -0.3239187
-0.3904339 0.9530022 -0.3695207
-0.3683977 -0.0028031 -0.2835497
2.8277926 -1.0371032 -0.2985012
-0.5102812 -0.4114928 -0.4018159

Hasil standardisasi menunjukkan bahwa seluruh variabel telah berada pada skala yang sama sehingga dapat digunakan secara bersamaan dalam proses analisis cluster.

3 Pemeriksaan Asumsi Data

3.1 Deteksi Outlier Multivariat

Outlier multivariat merupakan observasi yang memiliki nilai ekstrem jika dilihat dari kombinasi beberapa variabel sekaligus. Deteksi outlier multivariat dilakukan menggunakan Mahalanobis Distance yang mempertimbangkan seluruh variabel secara simultan.

Deteksi Outlier Multivariat Menggunakan Mahalanobis Distance
Observasi Mahalanobis_Distance Chi_Square_Cutoff Status
1 0.6375120 9.348404 Normal
2 3.1161885 9.348404 Normal
3 1.1463912 9.348404 Normal
4 0.2584424 9.348404 Normal
5 7.9970170 9.348404 Normal
6 0.8497089 9.348404 Normal
7 4.4560155 9.348404 Normal
8 8.9336368 9.348404 Normal
9 0.4529882 9.348404 Normal
10 1.8132256 9.348404 Normal
11 0.3388739 9.348404 Normal

Diperoleh bahwa nilai batas Chi-Square adalah 9,348404. Kemudian Nilai Mahalanobis Distance dibandingkan dengan nilai batas Chi-Square sebesar 12,8325 pada tingkat signifikansi tertentu.

Hasil analisis menunjukkan bahwa tidak terdapat beberapa observasi yang memiliki nilai Mahalanobis Distance lebih besar dari nilai batas ## Visualisasi Mahalanobis Distance

3.2 Uji Kelayakan Analisi (KMO)

Uji Kaiser-Meyer-Olkin (KMO) digunakan untuk mengetahui apakah data yang digunakan layak untuk dianalisis lebih lanjut.

## Kaiser-Meyer-Olkin factor adequacy
## Call: KMO(r = data_z)
## Overall MSA =  0.53
## MSA for each item = 
## Emisi_CO2_Total     Forest_Area  Produksi_Nikel 
##            0.52            0.52            0.68

Hasil pengujian awal menunjukkan nilai KMO sebesar 0,48 yang berarti data secara umum variabel tidak layak untuk dianalisis karena nilainya kurang besar dari 0,5.

3.3 Uji Multikolinieritas (VIF)

Uji multikolinieritas dilakukan untuk mengetahui apakah terdapat hubungan yang sangat kuat antar variabel yang dapat mempengaruhi hasil analisis.

## Emisi_CO2_Total     Forest_Area  Produksi_Nikel 
##        1.013336        1.012935        1.160016

Seluruh nilai VIF berada di bawah batas 10, sehingga dapat disimpulkan bahwa tidak terdapat masalah multikolinieritas antar variabel yang digunakan dalam analisis.

4 Penentuan Jumlah Cluster Optimal

4.1 Metode Silhouette

Penentuan jumlah cluster optimal dilakukan menggunakan metode Silhouette. Metode ini mengukur tingkat kesesuaian suatu objek terhadap cluster tempatnya berada dibandingkan dengan cluster lainnya.

## k = 2 | skor = 0.460596 
## k = 3 | skor = 0.454846 
## k = 4 | skor = 0.301629 
## k = 5 | skor = 0.249961 
## k = 6 | skor = 0.250699 
## k = 7 | skor = 0.231144 
## k = 8 | skor = 0.157263 
## k = 9 | skor = 0.068498 
## k = 10 | skor = 0.025201
## 
## Jumlah cluster optimal = 2 
## dengan nilai silhouette = 0.460596

## k = 2 | WSS = 20.7532 
## k = 3 | WSS = 10.05631 
## k = 4 | WSS = 4.175923 
## k = 5 | WSS = 2.939912 
## k = 6 | WSS = 1.435758 
## k = 7 | WSS = 0.606487 
## k = 8 | WSS = 0.413 
## k = 9 | WSS = 0.246141 
## k = 10 | WSS = 0.166859

5 Analisis Clustering dengan K-Means

5.1 Pembentukan Cluster

Setelah jumlah cluster optimal ditentukan, dilakukan proses clustering menggunakan metode K-Means.

## K-means clustering with 3 clusters of sizes 1, 1, 9
## 
## Cluster means:
##   Emisi_CO2_Total Forest_Area Produksi_Nikel
## 1       -0.308729  0.49869108      2.9833479
## 2        2.827793 -1.03710324     -0.2985012
## 3       -0.279896  0.05982357     -0.2983163
## 
## Clustering vector:
##  [1] 3 3 3 3 2 3 3 1 3 3 3
## 
## Within cluster sum of squares by cluster:
## [1]  0.00000  0.00000 10.05631
##  (between_SS / total_SS =  66.5 %)
## 
## Available components:
## 
## [1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
## [6] "betweenss"    "size"         "iter"         "ifault"

5.2 Objek Medoid Tiap Cluster

Centroid Setiap Cluster
Cluster Emisi_CO2_Total Forest_Area Produksi_Nikel
Cluster 1 -0.308729 0.4986911 2.9833479
Cluster 2 2.827793 -1.0371032 -0.2985012
Cluster 3 -0.279896 0.0598236 -0.2983163

Hasil analisis menunjukkan bahwa cluster yang terbentuk adalah:

  • Cluster 1 →
  • Cluster 2 →

5.3 Penambahan Label Cluster

Menambahkan label cluster ke data asli.

Data Negara dengan Label Cluster
Negara Emisi_CO2_Total Forest_Area Produksi_Nikel cluster
United States 4632164876 33.77641 7490 3
Australia 383403111 17.35663 98000 3
Brazil 491468781 58.54684 67500 3
Canada 577972624 41.96624 125000 3
China 13124727993 24.02396 115000 2
Cuba 21004155 34.87659 45900 3

5.4 Hasil Pengelompokkan Negara Berdasarkan Cluster

Langkah selanjutnya adalah menampilkan anggota negara pada setiap cluster yang terbentuk berdasarkan metode K-Means.

Hasil Klasterisasi Negara Global
cluster Jumlah_Anggota Negara
1 1 Indonesia
2 1 China
3 9 United States, Australia, Brazil, Canada, Cuba, Dominican Republic, New Caledonia, Philippines, Russia

5.5 Visualisasi Cluster

Menampilkan grafik pembagian cluster.

6 Profilisasi Cluster

6.1 Rata-rata Karakteristik Tiap Cluster

Karakteristik cluster dapat dilihat dari nilai rata-rata setiap variabel pada masing-masing cluster.
Profilisasi Cluster Negara
cluster Jumlah_Negara Rata_EmisiCO2 Rata_ForestArea Rata_ProduksiNikel
1 1 812204159 50.66579 2310000.0
2 1 13124727993 24.02396 115000.0
3 9 925389195 43.05264 115123.7