Analisis Cluster merupakan salah satu metode yang digunakan untuk mengelompokkan objek berdasarkan tingkat kemiripan karakteristiknya. Secara umum, metode clustering dibagi menjadi dua kelompok besar, yaitu hierarki dan non-hierarki. Salah satu metode non-hierarki yang paling banyak digunakan adalah K-Means Clustering, karena memiliki proses komputasi yang sederhana, efisien, dan mampu menghasilkan kelompok data yang relatif homogen di dalam cluster serta heterogen antar cluster.
Pada penelitian ini digunakan Seeds Dataset yang berisi pengukuran fisik biji gandum dari tiga varietas, yaitu Kama, Rosa, dan Canadian, yang diukur menggunakan teknik pemrosesan citra. Variabel yang digunakan untuk proses clustering meliputi Area, Perimeter, dan Compactness, yang merupakan karakteristik penting untuk menggambarkan ukuran dan bentuk biji gandum.
Penelitian dilakukan menggunakan pendekatan unsupervised, sehingga label asli tidak digunakan dalam proses pengelompokan. Pendekatan ini penting untuk mengetahui apakah data fisik biji gandum secara alami membentuk pola kelompok tertentu dan apakah pola tersebut relevan dengan struktur kelas yang sesungguhnya. Sehingga, clustering digunakan untuk mengevaluasi apakah ketiga varietas gandum tersebut memiliki perbedaan karakteristik fisik yang cukup kuat sehingga dapat membentuk kelompok yang jelas meskipun tanpa bantuan label.
Berdasarkan latar belakang yang telah dijelaskan, maka perumusan masalah dalam penelitian ini adalah sebagai berikut:
Adapun tujuan dari penelitian ini adalah:
Analisis multivariat adalah salah satu teknik dalam statistika yang digunakan untuk mengolah data yang melibatkan lebih dari satu variabel secara simultan (Wustqa dkk., 2018). Analisis multivariat memiliki peran penting dalam berbagai bidang karena mampu membantu memahami fenomena yang kompleks melalui penggunaan banyak variabel dengan beragam jenis skala pengukuran. Dengan kata lain, teknik ini memungkinkan peneliti untuk menilai hubungan sejumlah variabel secara simultan sekaligus mengidentifikasi kontribusi masing-masing variabel terhadap suatu variabel yang menjadi fokus penelitian (Sihombing, 2022). Beberapa teknik yang termasuk dalam analisis multivariat adalah Analisis Faktor, Analisis Komponen Utama (Principal Component Analysis), Analisis Diskriminan, dan Analisis Cluster.
Clustering merupakan proses pengelompokan sekumpulan data ke dalam beberapa kelompok sehingga objek-objek yang memiliki karakteristik mirip akan berada dalam cluster yang sama, sedangkan objek yang berbeda karakteristiknya akan masuk ke cluster lain. Setiap cluster berisi data yang tingkat kemiripannya setinggi mungkin. Tingkat kemiripan ini umumnya diukur menggunakan jarak: jarak antar objek dalam satu cluster dibuat sedekat mungkin, sedangkan jarak antar cluster dibuat sejauh mungkin. Dengan demikian, objek dalam satu cluster diharapkan homogen, sementara antar-cluster bersifat heterogen (Tendean & Purba, 2020).
Secara umum, Analisis Cluster terbagi menjadi dua kategori utama:
Cluster Hierarki (Hierarchical Clustering)
Membentuk struktur bertingkat (dendrogram) yang menunjukkan kemiripan antar objek dari tingkat yang paling detail hingga paling umum.
Cluster Non-Hierarki (Non-Hierarchical Clustering)
Membagi data langsung ke sejumlah cluster yang ditentukan, tanpa membentuk struktur bertingkat.
Penelitian ini menggunakan pendekatan non-hierarki, karena metode ini lebih efisien, cocok untuk dataset berukuran relatif besar, dan memungkinkan penentuan jumlah cluster sesuai kebutuhan analisis.
Analisis Cluster non-hierarki merupakan teknik pengelompokan yang diawali dengan penentuan jumlah cluster serta pemilihan pusat cluster awal. Setiap objek kemudian ditempatkan ke dalam cluster berdasarkan kedekatannya dengan pusat tersebut. Metode ini memiliki keunggulan dari sisi efisiensi komputasi, terutama ketika jumlah observasi besar. Beberapa prosedur inisialisasi yang dikenal dalam metode ini antara lain sequential threshold, parallel threshold, dan optimization, yang masing-masing menawarkan pendekatan berbeda dalam menentukan pusat awal cluster (Andiani dkk., 2022).
Pada prosesnya, cluster non-hierarki biasanya menggunakan ukuran jarak seperti Euclidean Distance, Manhattan Distance, atau ukuran jarak lainnya sebagai dasar penentuan kedekatan antar objek. Algoritma bekerja secara iteratif: objek dipindah ke cluster terdekat hingga posisi centroid stabil. Salah satu metode non-hierarki yang paling banyak digunakan dan relevan dengan penelitian ini adalah K-Means Clustering yang mengelompokkan objek berdasarkan kedekatan terhadap rata-rata (mean) cluster. Metode ini dipandang efektif untuk dataset berukuran besar dan sering digunakan sebagai alternatif metode hierarki karena proses perhitungannya yang lebih cepat dan sederhana
K-Means adalah algoritma clustering non-hierarki yang mempartisi data ke dalam k cluster dengan meminimalkan variasi dalam cluster (Within-Cluster Sum of Squares). Algoritma ini diperkenalkan oleh MacQueen (1967) dan hingga kini menjadi salah satu metode paling populer karena efisien, intuitif, dan mudah diimplementasikan.
Tahapan K-Means (Jain dkk., 1999):
Kriteria konvergensi umumnya berupa:
K-Means bekerja optimal pada data numerik berskala kontinu dan cenderung menghasilkan cluster berbentuk bulat (spherical clusters).
Seeds Dataset merupakan data yang berisi karakteristik fisik biji gandum dari tiga varietas berbeda. Variabel yang digunakan dalam penelitian ini meliputi:
Dataset ini sering digunakan dalam penelitian klasifikasi dan clustering karena memiliki struktur kelompok alami, namun analisis clustering dilakukan tanpa menggunakan label varietas, sehingga sepenuhnya mengandalkan kemiripan data.
Berikut merupakan source code beserta penjelasan mengenai coding pada R.
> library(factoextra)
> col_names <- c(
+ "Area", "Perimeter", "Compactness", "Kernel.Length",
+ "Kernel.Width", "Asymmetry", "Groove.Length", "Class"
+ )
>
> df <- read.table("D:/seeds_dataset.txt",
+ col.names = col_names)
Mendefinisikan nama-nama kolom yang akan diberikan pada dataset Seeds. Nama kolom dibuat secara manual karena file teks asli tidak memiliki header. Membaca file dataset Seeds dari direktori lokal menggunakan read.table(). Parameter col.names digunakan untuk menetapkan nama kolom sesuai yang telah didefinisikan sebelumnya.
> data_clust <- df[, c("Area", "Perimeter", "Compactness")]
Memilih tiga variabel (Area, Perimeter, Compactness) yang akan digunakan dalam analisis clustering.
> data_scaled <- scale(data_clust)
Melakukan standardisasi pada variabel terpilih agar setiap variabel memiliki skala yang sama (mean = 0, SD = 1).
> fviz_nbclust(data_scaled, kmeans, method = "silhouette") +
+ ggtitle("Silhouette Method - Seeds Dataset")
Menentukan jumlah cluster optimal dengan metode silhouette, yaitu mengukur seberapa baik setiap objek berada dalam cluster-nya dibandingkan dengan cluster lain. Fungsi ini menghasilkan grafik nilai rata-rata silhouette untuk berbagai jumlah cluster
> set.seed(123)
> k2 <- kmeans(data_scaled, centers = 2, nstart = 25)
Menjalankan algoritma K-Means dengan jumlah cluster k = 2. Argumen nstart = 25 memastikan algoritma diinisialisasi 25 kali sehingga hasil lebih stabil dan menghindari local optimum.
> data_clust$Cluster <- factor(k2$cluster)
Menambahkan hasil kategori cluster dari K-Means ke dalam data asli dalam bentuk variabel faktor baru bernama Cluster.
> centroids <- aggregate(data_clust,
+ by = list(cluster = data_clust$Cluster),
+ FUN = mean)
| Area | Perimeter | Compactness |
|---|---|---|
| 12.49745 | 13.5160 | 0.8577227 |
| 17.43260 | 15.7069 | 0.8856020 |
Menghitung rata-rata setiap variabel dalam tiap cluster menjadi tabel centroid
> fviz_cluster(k2,
+ data = data_scaled,
+ geom = "point",
+ ellipse.type = "norm",
+ palette = "jco",
+ repel = TRUE,
+ pointsize = 2.8,
+ ellipse.alpha = 0.15) +
+ labs(
+ title = "K-Means Clustering pada Seeds Dataset (k = 2)",
+ subtitle = "Variabel: Area, Perimeter, Compactness",
+ caption = "Data telah distandardisasi"
+ ) +
+ theme_minimal(base_size = 14)
Membuat visualisasi K-Means dengan titik-titik observasi dan ellipse normal sebagai batas penyebaran cluster.
Data yang digunakan dalam penelitian ini adalah Seeds Dataset, yaitu data karakteristik morfologi biji gandum yang sering digunakan dalam studi pemodelan dan machine learning. Dataset ini memiliki beberapa variabel numerik yang mengukur ciri fisik biji. Dalam penelitian ini, variabel yang digunakan untuk analisis clustering meliputi:
Area
Ukuran luas permukaan biji gandum berdasarkan hasil ekstraksi citra. Semakin besar nilai area, semakin besar ukuran biji secara keseluruhan.
Perimeter
Keliling biji gandum sebagai representasi bentuk dan ukuran tepi luar objek.
Compactness
Indeks kompak yang dihitung dari formula: \[ \text{Compactness} = \frac{Perimeter^2}{4\pi \times Area} \] Nilai compactness menunjukkan seberapa padat atau menyatu bentuk biji.
Seluruh variabel memiliki tipe numerik dan berada pada skala yang berbeda, sehingga dilakukan proses standardisasi menggunakan metode z-score. Standardisasi bertujuan agar variabel berada pada rentang yang sebanding sehingga tidak menyebabkan bias pada jarak Euclidean yang digunakan dalam algoritma K-Means.
Penentuan jumlah cluster optimal dilakukan menggunakan metode Silhouette Coefficient, yaitu ukuran yang menginterpretasikan kualitas pengelompokan. Hasil analisis jumlah cluster menghasilkan grafik berikut:
Grafik ini menunjukkan bahwa:
Dengan demikian, analisis clustering selanjutnya menggunakan jumlah cluster k = 2.
Pada analisis cluster K-Means yang dilakukan dengan jumlah cluster k = 2, diperoleh nilai centroid untuk masing-masing cluster setelah data dikembalikan ke skala aslinya. Nilai centroid tersebut mewakili karakteristik rata-rata dari observasi yang tergabung di dalam setiap cluster. Hasil analisis centroid menunjukkan data sebagai berikut.
| Area | Perimeter | Compactness |
|---|---|---|
| 12.49745 | 13.5160 | 0.8577227 |
| 17.43260 | 15.7069 | 0.8856020 |
Cluster 1
Centroid Cluster 1 menunjukkan bahwa kelompok ini memiliki nilai Area dan Perimeter yang relatif lebih rendah dibandingkan Cluster 2. Hal ini mengindikasikan bahwa observasi dalam Cluster 1 cenderung berasal dari biji gandum yang berukuran lebih kecil. Nilai Compactness pada cluster ini juga sedikit lebih rendah dibandingkan Cluster 2, yang mengisyaratkan bahwa bentuk biji dalam cluster ini relatif kurang kompak atau memiliki tingkat kebundaran yang sedikit lebih rendah. Secara keseluruhan, Cluster 1 dapat dipandang sebagai kelompok biji dengan ukuran kecil, perimeter pendek, dan compactness sedang.
Cluster 2
Centroid Cluster 2 memiliki nilai Area dan Perimeter yang lebih tinggi secara konsisten dibandingkan Cluster 1. Hal ini menunjukkan bahwa biji gandum yang tergabung dalam cluster ini memiliki ukuran yang lebih besar. Selain itu, nilai Compactness yang lebih tinggi menunjukkan bahwa biji dalam cluster ini memiliki bentuk yang lebih kompak dan lebih seragam. Dengan demikian, Cluster 2 menggambarkan kelompok biji dengan ukuran besar, perimeter panjang, serta compactness yang lebih tinggi.
Secara keseluruhan, interpretasi nilai centroid menunjukkan bahwa Cluster 1 merepresentasikan biji gandum kecil dengan tingkat compactness sedang, sedangkan Cluster 2 menggambarkan biji gandum besar dengan bentuk yang lebih kompak. Perbedaan utama terjadi pada ukuran fisik biji, yang menjadi dasar utama pembentukan cluster dalam analisis ini.
Visualisasi dilakukan menggunakan fungsi fviz_cluster yang menampilkan posisi masing-masing observasi dalam ruang dua dimensi hasil reduksi fitur internal yang menghasilkan grafik sebagai berikut:
Pada visualisasi, setiap titik merepresentasikan satu sampel biji gandum, sedangkan warna menunjukkan cluster hasil pengelompokan. Dua area elips menggambarkan penyebaran dan batas toleransi setiap cluster. Secara umum, pola visualisasi menunjukkan hal berikut:
Cluster 1: Biji Gandum Berukuran Lebih Kecil
Berdasarkan nilai centroid yang dihitung menggunakan data yang telah di-rescale ke skala asli, cluster pertama cenderung berada pada area dan perimeter lebih rendah. Titik-titik dalam cluster ini lebih padat (compact), mengindikasikan bahwa cluster ini menggambarkan kelompok biji gandum dengan ukuran fisik lebih kecil dan lebih ramping.
Cluster 2: Biji Gandum Berukuran Lebih Besar
Cluster ini berada pada wilayah sebaran dengan nilai area dan perimeter yang lebih tinggi. Cluster kedua memperlihatkan bahwa compactness relatif lebih tinggi yang menunjukkan bahwa kelompok biji gandum dengan ukuran lebih besar dan bentuk yang lebih kompak.
Selain menjelaskan penyebaran cluster, grafik tersebut menunjukkan bahwa kedua cluster memiliki daerah sebaran yang cukup terpisah berdasarkan elips yang menggambarkan batas masing-masing cluster, meskipun terdapat sedikit overlap pada area transisi. Hal ini menegaskan bahwa struktur dua cluster cukup kuat dan konsisten dengan hasil evaluasi silhouette. Dari plot juga terlihat bahwa pemisahan cluster terutama dipengaruhi oleh perbedaan ukuran fisik biji (Area dan Perimeter), sementara variabel Compactness memberikan kontribusi tambahan namun bukan faktor utama.
Meskipun demikian, sebaran cluster yang terbentuk seharusnya tidak saling overlap apabila data benar-benar memiliki pemisahan alami yang tegas (well-separated clusters). Namun, overlap dapat terjadi karena beberapa alasan:
Variasi alami pada data
Karakteristik fisik biji gandum tidak memiliki batas kategoris yang kaku. Masing-masing varietas memiliki rentang ukuran yang dapat saling tumpang tindih, sehingga data tidak sepenuhnya terpisah secara sempurna di ruang fitur.
Skala dan distribusi antar variabel
Meskipun data sudah mengalami standardisasi, penyebaran nilai Compactness yang lebih homogen dibanding Area dan Perimeter dapat menyebabkan pemisahan cluster lebih dipengaruhi dua variabel utama. Hal ini mengakibatkan bentuk cluster lebih memanjang dan membuat area tumpang tindih.
Visualisasi ini mendukung hasil analisis sebelumnya bahwa penggunaan k = 2 merupakan pilihan optimal untuk data ini karena kedua cluster tampil cukup terpisah secara visual dan memiliki karakteristik yang berbeda.
Berdasarkan hasil analisis clustering menggunakan metode K-Means pada Seeds Dataset, dapat disimpulkan bahwa data biji gandum memiliki struktur pola yang cukup jelas untuk dipisahkan menjadi dua kelompok utama. Pemilihan jumlah cluster berdasarkan metode Silhouette menunjukkan bahwa k = 2 memberikan nilai evaluasi tertinggi, sehingga dianggap paling representatif dalam menggambarkan struktur alami data. Visualisasi scatterplot dengan elips menunjukkan bahwa meskipun terdapat sedikit overlap pada area transisi antar pengamatan, kedua cluster secara umum memiliki batas sebaran yang relatif jelas dan tidak saling tumpang tindih secara signifikan.
Pengelompokan yang terbentuk menunjukkan bahwa perbedaan area dan perimeter merupakan faktor dominan dalam memisahkan cluster, sementara compactness berperan sebagai variabel pendukung. Secara umum, cluster pertama menggambarkan biji gandum berukuran lebih kecil, sedangkan cluster kedua menunjukkan biji dengan ukuran lebih besar dan kompak. Overlap kecil yang terjadi di area tertentu mencerminkan variasi alami dalam karakteristik fisik biji gandum. Meskipun demikian, struktur dua cluster tetap konsisten dan stabil, sehingga hasil analisis dapat diterima sebagai representasi pola data.
Dengan demikian, analisis K-Means berhasil mengidentifikasi dua kelompok utama biji gandum berdasarkan ciri fisik yang diukur, serta memberikan gambaran karakteristik setiap kelompok pada data.
Andiani, D., Rahayu, S. D., & Riana, A. (2022). Analisis Teknik non-Hierarki untuk Pengelompokan Kabupaten/Kota di Provinsi Jawa Barat Berdasarkan Indikator Kesejahteraan Rakyat 2020. JRMST Jurnal Riset Matematika dan Sains Terapan, 2(1), 21-28.
Dua, S., & Graff, M. (2019). Seeds Dataset. UCI Machine Learning Repository. University of California, Irvine. https://archive.ics.uci.edu/ml/datasets/seeds
Jain, A. K., Murty, M. N., & Flynn, P. J. (1999). Data Clustering: a Review. ACM computing surveys (CSUR), 31(3), 264-323.
Sihombing, S. O. (2022). Pengantar Metode Analisis Multivariat. Penerbit NEM.
Tendean, T., & Purba, W. (2020). Analisis Cluster Provinsi Indonesia Berdasarkan Produksi Bahan Pangan Menggunakan Algoritma K-Means. Jurnal Sains dan Teknologi, 1(2), 5-11.
Wustqa, D. U., Listyani, E., Subekti, R., Kusumawati, R., Susanti, M., & Kismiantini, K. (2018). Analisis Data Multivariat dengan Program R. Jurnal Pengabdian Masyarakat MIPA Dan Pendidikan MIPA, 2(2), 83-86.