Sebelum melakukan analisis K-Means pada software R-Studio, tambahkan library seperti berikut:
library(readxl)
library(writexl)
library(GPArotation)
library(psych)
library(ggplot2)
library(reshape2)
library(car)
library(cluster)
library(factoextra)
library(dplyr)
library(knitr)
library(kableExtra)
| NEGARA | EMISI CO2 Total (ton) | SHARE OF GLOBAL FOREST AREA (%) | PRODUKSI NIKEL (TON) |
|---|---|---|---|
| United States | 4632164876 | 33.77641 | 7490 |
| Australia | 383403111 | 17.35663 | 98000 |
| Brazil | 491468781 | 58.54684 | 67500 |
| Canada | 577972624 | 41.96624 | 125000 |
| China | 13124727993 | 24.02396 | 115000 |
| Cuba | 21004155 | 34.87659 | 45900 |
| Nama_Variabel |
|---|
| Negara |
| Emisi_CO2_Total |
| Forest_Area |
| Produksi_Nikel |
| Variabel | Minimum | Maksimum | Mean | Median | Std_Dev | |
|---|---|---|---|---|---|---|
| Emisi_CO2_Total | Emisi_CO2_Total | 4998309.00 | 1.312473e+10 | 2.024130e+09 | 491468781.00 | 3.925535e+09 |
| Forest_Area | Forest_Area | 17.36 | 7.653000e+01 | 4.201000e+01 | 41.97 | 1.735000e+01 |
| Produksi_Nikel | Produksi_Nikel | 7490.00 | 2.310000e+06 | 3.146466e+05 | 115000.00 | 6.688303e+05 |
## Emisi_CO2_Total Forest_Area Produksi_Nikel
## 2 0 2
Standardisasi data dilakukan menggunakan metode Z-score sehingga setiap variabel memiliki rata-rata mendekati nol dan standar deviasi sebesar satu. Tujuan dari proses ini adalah untuk menghilangkan pengaruh perbedaan satuan pengukuran antar variabel sehingga tidak ada variabel yang mendominasi dalam proses pembentukan cluster.
| Emisi_CO2_Total | Forest_Area | Produksi_Nikel |
|---|---|---|
| 0.6643769 | -0.4749137 | -0.4592445 |
| -0.4179628 | -1.4214485 | -0.3239187 |
| -0.3904339 | 0.9530022 | -0.3695207 |
| -0.3683977 | -0.0028031 | -0.2835497 |
| 2.8277926 | -1.0371032 | -0.2985012 |
| -0.5102812 | -0.4114928 | -0.4018159 |
Hasil standardisasi menunjukkan bahwa seluruh variabel telah berada pada skala yang sama sehingga dapat digunakan secara bersamaan dalam proses analisis cluster.
Outlier multivariat merupakan observasi yang memiliki nilai ekstrem jika dilihat dari kombinasi beberapa variabel sekaligus. Deteksi outlier multivariat dilakukan menggunakan Mahalanobis Distance yang mempertimbangkan seluruh variabel secara simultan.
| Observasi | Mahalanobis_Distance | Chi_Square_Cutoff | Status |
|---|---|---|---|
| 1 | 0.6375120 | 9.348404 | Normal |
| 2 | 3.1161885 | 9.348404 | Normal |
| 3 | 1.1463912 | 9.348404 | Normal |
| 4 | 0.2584424 | 9.348404 | Normal |
| 5 | 7.9970170 | 9.348404 | Normal |
| 6 | 0.8497089 | 9.348404 | Normal |
| 7 | 4.4560155 | 9.348404 | Normal |
| 8 | 8.9336368 | 9.348404 | Normal |
| 9 | 0.4529882 | 9.348404 | Normal |
| 10 | 1.8132256 | 9.348404 | Normal |
| 11 | 0.3388739 | 9.348404 | Normal |
Diperoleh bahwa nilai batas Chi-Square adalah 9,348404. Kemudian Nilai Mahalanobis Distance dibandingkan dengan nilai batas Chi-Square sebesar 12,8325 pada tingkat signifikansi tertentu.
Hasil analisis menunjukkan bahwa tidak terdapat beberapa observasi yang memiliki nilai Mahalanobis Distance lebih besar dari nilai batas ## Visualisasi Mahalanobis Distance
Uji Kaiser-Meyer-Olkin (KMO) digunakan untuk mengetahui apakah data yang digunakan layak untuk dianalisis lebih lanjut.
## Kaiser-Meyer-Olkin factor adequacy
## Call: KMO(r = data_z)
## Overall MSA = 0.53
## MSA for each item =
## Emisi_CO2_Total Forest_Area Produksi_Nikel
## 0.52 0.52 0.68
Hasil pengujian awal menunjukkan nilai KMO sebesar 0,48 yang berarti data secara umum variabel tidak layak untuk dianalisis karena nilainya kurang besar dari 0,5.
Uji multikolinieritas dilakukan untuk mengetahui apakah terdapat hubungan yang sangat kuat antar variabel yang dapat mempengaruhi hasil analisis.
## Emisi_CO2_Total Forest_Area Produksi_Nikel
## 1.013336 1.012935 1.160016
Seluruh nilai VIF berada di bawah batas 10, sehingga dapat disimpulkan bahwa tidak terdapat masalah multikolinieritas antar variabel yang digunakan dalam analisis.
Penentuan jumlah cluster optimal dilakukan menggunakan metode Silhouette. Metode ini mengukur tingkat kesesuaian suatu objek terhadap cluster tempatnya berada dibandingkan dengan cluster lainnya.
## k = 2 | skor = 0.460596
## k = 3 | skor = 0.454846
## k = 4 | skor = 0.301629
## k = 5 | skor = 0.249961
## k = 6 | skor = 0.250699
## k = 7 | skor = 0.231144
## k = 8 | skor = 0.157263
## k = 9 | skor = 0.068498
## k = 10 | skor = 0.025201
##
## Jumlah cluster optimal = 2
## dengan nilai silhouette = 0.460596
## k = 2 | WSS = 20.7532
## k = 3 | WSS = 10.05631
## k = 4 | WSS = 4.175923
## k = 5 | WSS = 2.939912
## k = 6 | WSS = 1.435758
## k = 7 | WSS = 0.606487
## k = 8 | WSS = 0.413
## k = 9 | WSS = 0.246141
## k = 10 | WSS = 0.166859
Setelah jumlah cluster optimal ditentukan, dilakukan proses clustering menggunakan metode K-Means.
## K-means clustering with 3 clusters of sizes 1, 1, 9
##
## Cluster means:
## Emisi_CO2_Total Forest_Area Produksi_Nikel
## 1 -0.308729 0.49869108 2.9833479
## 2 2.827793 -1.03710324 -0.2985012
## 3 -0.279896 0.05982357 -0.2983163
##
## Clustering vector:
## [1] 3 3 3 3 2 3 3 1 3 3 3
##
## Within cluster sum of squares by cluster:
## [1] 0.00000 0.00000 10.05631
## (between_SS / total_SS = 66.5 %)
##
## Available components:
##
## [1] "cluster" "centers" "totss" "withinss" "tot.withinss"
## [6] "betweenss" "size" "iter" "ifault"
| Cluster | Emisi_CO2_Total | Forest_Area | Produksi_Nikel |
|---|---|---|---|
| Cluster 1 | -0.308729 | 0.4986911 | 2.9833479 |
| Cluster 2 | 2.827793 | -1.0371032 | -0.2985012 |
| Cluster 3 | -0.279896 | 0.0598236 | -0.2983163 |
Hasil analisis menunjukkan bahwa cluster yang terbentuk adalah:
Menambahkan label cluster ke data asli.
| Negara | Emisi_CO2_Total | Forest_Area | Produksi_Nikel | cluster |
|---|---|---|---|---|
| United States | 4632164876 | 33.77641 | 7490 | 3 |
| Australia | 383403111 | 17.35663 | 98000 | 3 |
| Brazil | 491468781 | 58.54684 | 67500 | 3 |
| Canada | 577972624 | 41.96624 | 125000 | 3 |
| China | 13124727993 | 24.02396 | 115000 | 2 |
| Cuba | 21004155 | 34.87659 | 45900 | 3 |
Langkah selanjutnya adalah menampilkan anggota negara pada setiap cluster yang terbentuk berdasarkan metode K-Means.
| cluster | Jumlah_Anggota | Negara |
|---|---|---|
| 1 | 1 | Indonesia |
| 2 | 1 | China |
| 3 | 9 | United States, Australia, Brazil, Canada, Cuba, Dominican Republic, New Caledonia, Philippines, Russia |
Menampilkan grafik pembagian cluster.
| cluster | Jumlah_Negara | Rata_EmisiCO2 | Rata_ForestArea | Rata_ProduksiNikel |
|---|---|---|---|---|
| 1 | 1 | 812204159 | 50.66579 | 2310000.0 |
| 2 | 1 | 13124727993 | 24.02396 | 115000.0 |
| 3 | 9 | 925389195 | 43.05264 | 115123.7 |