Analisis Cluster Non Hirarki K-Means

Muhammad Pranaya Eka Adiyatma

11-11-2024

1 Pendahuluan

1.1 Latar Belakang Kasus

Biji-bijian memiliki berbagai karakteristik yang dapat digunakan untuk mengidentifikasi dan mengklasifikasikan jenis atau varietas biji tertentu. Variabel seperti keliling biji, panjang kernel, dan lebar kernel adalah beberapa indikator penting yang dapat menggambarkan sifat fisik biji. Dengan memahami perbedaan karakteristik antara biji-biji tersebut, kita dapat mengelompokkan biji yang memiliki ciri-ciri serupa menjadi satu kelompok atau kluster.

Pengenalan pola ini sering kali sangat berguna dalam bidang pertanian dan penelitian biologi untuk membedakan antara jenis biji yang berbeda atau untuk analisis kualitas biji. Dengan menggunakan teknik analisis data seperti clustering, kita dapat secara otomatis mengelompokkan biji berdasarkan kesamaan ciri-ciri, yang dapat mempermudah proses seleksi dan pemantauan.

1.2 Data

30 data amatan pertama
Keliling Panjang Kernel Lebar Kernel
14.84 5.763 3.312
14.57 5.554 3.333
14.09 5.291 3.337
13.94 5.324 3.379
14.99 5.658 3.562
14.21 5.386 3.312
14.49 5.563 3.259
14.10 5.420 3.302
15.46 6.053 3.465
15.25 5.884 3.505
14.85 5.714 3.242
14.16 5.438 3.201
14.02 5.439 3.199
14.06 5.479 3.156
14.05 5.482 3.114
14.28 5.351 3.333
13.83 5.119 3.383
14.75 5.527 3.514
14.21 5.205 3.466
13.57 5.226 3.049
14.40 5.658 3.129
14.26 5.520 3.168
14.90 5.618 3.507
13.23 5.099 2.936
14.76 5.789 3.245
15.16 5.833 3.421
13.76 5.395 3.026
13.67 5.395 2.956
14.18 5.541 3.221
14.02 5.516 3.065

Lihat Sumber

1.3 Latar Belakang Metode

Analisis kluster merupakan teknik analisis data yang digunakan untuk mengelompokkan objek atau data ke dalam kelompok-kelompok (kluster) yang lebih homogen, di mana objek dalam satu kluster lebih mirip satu sama lain daripada objek di kluster lain. Salah satu metode clustering yang paling umum adalah K-Means Clustering, yang membagi data menjadi sejumlah kluster berdasarkan kedekatan data dengan pusat kluster (centroid). K-Means mengandalkan pemilihan jumlah kluster (K) dan iterasi untuk memperbaiki pembagian kluster hingga tercapai hasil yang optimal.

1.4 Tinjauan Pustaka

1.4.1 Analisis Kluster

Dalam buku Finding Groups in Data: An Introduction to Cluster Analysis yang ditulis oleh Leonard Kaufman & Peter J. Rousseeuw (2005), dikatakan bahwa analisis kluster adalah seni menemukan grup atau kelompok dalam data. Pada dasarnya, tujuan analisis ini adalah membentuk kelompok sedemikian rupa sehingga objek-objek dalam kelompok yang sama mirip satu sama lain, sedangkan objek dalam kelompok yang berbeda sebisa mungkin berbeda.

1.4.2 Indeks Validitas Kluster

Menurut Vendramin et al. (2010), Clustering validity measures atau indeks validasi kluster adalah kriteria kuantitatif untuk mengukur kualitas kluster (partisi data). Beberapa indeks atau ukuran validitas yang banyak dikenal adalah Davies-Bouldin Index,Calinski-Harabasz Index, Dunn’s Index, dan Silhouette Index. Meskipun terdapat banyak indeks validitas, tujuannya tetaplah sama, yaitu mengukur kualitas kluster.

1.5 Tujuan

Tujuan dari analisis clustering ini adalah untuk mengelompokkan biji-biji berdasarkan tiga variabel utama, yaitu keliling biji, panjang kernel, dan lebar kernel, untuk mengidentifikasi pola atau struktur tersembunyi dalam dataset.

2 Source Code & Penjelasan

2.1 Library

> library(cluster)
> library(clValid)
> library(factoextra)

2.2 Source Code

2.2.1 Menentukan Banyak Kluster Optimal

> validation=clValid(as.matrix(seed),nClust = 2:4,clMethods = "kmeans",
+         metric = "euclidean",validation = "internal")
> summary(validation)

2.2.2 K-means Clustering

> clust=kmeans(seed,centers = 3,nstart = 5)

2.2.3 Plotting

> fviz_cluster(clust,data = seed,palette=c("red","darkgreen","magenta"),
+              geom = "point")

3 Hasil Analisis & Pembahasan

3.1 Menentukan Banyak Kluster Optimal

Ingin ditentukan banyak kluster dari 2 hingga 4 yang paling optimal.


Clustering Methods:
 kmeans 

Cluster sizes:
 2 3 4 

Validation Measures:
                           2       3       4
                                            
kmeans Connectivity  12.8813 11.8790 24.1671
       Dunn           0.0322  0.0552  0.0527
       Silhouette     0.6279  0.5890  0.5223

Optimal Scores:

             Score   Method Clusters
Connectivity 11.8790 kmeans 3       
Dunn          0.0552 kmeans 3       
Silhouette    0.6279 kmeans 2       

Dua dari tiga indeks validitas menunjukkan bahwa kluster sebanyak 3 adalah yang paling optimal. Oleh karena itu, biji-bijian akan dikelompokkan menjadi 3 kluster.

3.2 K-means Clustering

Hasil clustering 30 amatan pertama

Amatan ke- Kluster ke-
1 1
2 1
3 1
4 1
5 1
6 1
7 1
8 1
9 3
10 1
11 1
12 1
13 1
14 1
15 1
16 1
17 2
18 1
19 1
20 2
21 1
22 1
23 1
24 2
25 1
26 1
27 2
28 2
29 1
30 1

3.3 Plotting

Ini adalah visualisasi 2D pengelompokan biji-bijian berdasarkan kluster yang telah terbentuk menggunakan k-means clustering. Dilakukan PCA (Principal Component Analysis) untuk mereduksi dimensi yang awalnya 3 menjadi 2 dimensi. Sumbu horizontal (Dim1) menjelaskan 95.1% dari variasi data, sementara sumbu vertikal (Dim2) menjelaskan 4.7% dari variasi data.

4 Penutup

4.1 Kesimpulan

Setelah melakukan analisis kluster, biji-bijian berhasil dikelompokkan menjadi beberapa kluster berdasarkan keliling biji, panjang kernel, dan lebar kernel. Hasil clustering menunjukkan bahwa terdapat pola yang jelas dalam data, di mana biji-bijian dengan karakteristik serupa cenderung berada pada kelompok yang sama. Kluster-kluster ini dapat membantu dalam memahami variasi dan hubungan antar biji-bijian berdasarkan karakteristik fisiknya (morfologi).

4.2 Saran

4.2.1 Seleksi Benih

Hasil clustering dapat digunakan sebagai pertimbangan untuk seleksi benih yang lebih efisien. Biji-bijian dalam kluster yang sama kemungkinan memiliki sifat pertumbuhan dan hasil yang serupa, sehingga dapat dipilih untuk penanaman yang konsisten.

4.2.2 Penelitian Lanjutan

Disarankan melakukan penelitian lebih lanjut untuk mengidentifikasi faktor-faktor lain yang mungkin mempengaruhi pengelompokan biji-bijian

4.3 Daftar Pustaka

Kaufman, L., & Rousseeuw, P. J. (2005). Finding groups in data: An introduction to cluster analysis. John Wiley & Sons, Inc. 

Vendramin, L., Campello, R. J. G. B., & Hruschka, E. R. (2010). Relative clustering validity criteria: A comparative overview. Dalam Statistical Analysis and Data Mining: The ASA Data Science Journal (Vol. 3, Issue 4, hlm. 209–235). Wiley. https://doi.org/10.1002/sam.10080