1 Pendahuluan
1.1 Latar Belakang Kasus
Biji-bijian memiliki berbagai karakteristik yang dapat digunakan untuk mengidentifikasi dan mengklasifikasikan jenis atau varietas biji tertentu. Variabel seperti keliling biji, panjang kernel, dan lebar kernel adalah beberapa indikator penting yang dapat menggambarkan sifat fisik biji. Dengan memahami perbedaan karakteristik antara biji-biji tersebut, kita dapat mengelompokkan biji yang memiliki ciri-ciri serupa menjadi satu kelompok atau kluster.
Pengenalan pola ini sering kali sangat berguna dalam bidang pertanian dan penelitian biologi untuk membedakan antara jenis biji yang berbeda atau untuk analisis kualitas biji. Dengan menggunakan teknik analisis data seperti clustering, kita dapat secara otomatis mengelompokkan biji berdasarkan kesamaan ciri-ciri, yang dapat mempermudah proses seleksi dan pemantauan.
1.2 Data
| Keliling | Panjang Kernel | Lebar Kernel |
|---|---|---|
| 14.84 | 5.763 | 3.312 |
| 14.57 | 5.554 | 3.333 |
| 14.09 | 5.291 | 3.337 |
| 13.94 | 5.324 | 3.379 |
| 14.99 | 5.658 | 3.562 |
| 14.21 | 5.386 | 3.312 |
| 14.49 | 5.563 | 3.259 |
| 14.10 | 5.420 | 3.302 |
| 15.46 | 6.053 | 3.465 |
| 15.25 | 5.884 | 3.505 |
| 14.85 | 5.714 | 3.242 |
| 14.16 | 5.438 | 3.201 |
| 14.02 | 5.439 | 3.199 |
| 14.06 | 5.479 | 3.156 |
| 14.05 | 5.482 | 3.114 |
| 14.28 | 5.351 | 3.333 |
| 13.83 | 5.119 | 3.383 |
| 14.75 | 5.527 | 3.514 |
| 14.21 | 5.205 | 3.466 |
| 13.57 | 5.226 | 3.049 |
| 14.40 | 5.658 | 3.129 |
| 14.26 | 5.520 | 3.168 |
| 14.90 | 5.618 | 3.507 |
| 13.23 | 5.099 | 2.936 |
| 14.76 | 5.789 | 3.245 |
| 15.16 | 5.833 | 3.421 |
| 13.76 | 5.395 | 3.026 |
| 13.67 | 5.395 | 2.956 |
| 14.18 | 5.541 | 3.221 |
| 14.02 | 5.516 | 3.065 |
1.3 Latar Belakang Metode
Analisis kluster merupakan teknik analisis data yang digunakan untuk mengelompokkan objek atau data ke dalam kelompok-kelompok (kluster) yang lebih homogen, di mana objek dalam satu kluster lebih mirip satu sama lain daripada objek di kluster lain. Salah satu metode clustering yang paling umum adalah K-Means Clustering, yang membagi data menjadi sejumlah kluster berdasarkan kedekatan data dengan pusat kluster (centroid). K-Means mengandalkan pemilihan jumlah kluster (K) dan iterasi untuk memperbaiki pembagian kluster hingga tercapai hasil yang optimal.
1.4 Tinjauan Pustaka
1.4.1 Analisis Kluster
Dalam buku Finding Groups in Data: An Introduction to Cluster Analysis yang ditulis oleh Leonard Kaufman & Peter J. Rousseeuw (2005), dikatakan bahwa analisis kluster adalah seni menemukan grup atau kelompok dalam data. Pada dasarnya, tujuan analisis ini adalah membentuk kelompok sedemikian rupa sehingga objek-objek dalam kelompok yang sama mirip satu sama lain, sedangkan objek dalam kelompok yang berbeda sebisa mungkin berbeda.
1.4.2 Indeks Validitas Kluster
Menurut Vendramin et al. (2010), Clustering validity measures atau indeks validasi kluster adalah kriteria kuantitatif untuk mengukur kualitas kluster (partisi data). Beberapa indeks atau ukuran validitas yang banyak dikenal adalah Davies-Bouldin Index,Calinski-Harabasz Index, Dunn’s Index, dan Silhouette Index. Meskipun terdapat banyak indeks validitas, tujuannya tetaplah sama, yaitu mengukur kualitas kluster.
1.5 Tujuan
Tujuan dari analisis clustering ini adalah untuk mengelompokkan biji-biji berdasarkan tiga variabel utama, yaitu keliling biji, panjang kernel, dan lebar kernel, untuk mengidentifikasi pola atau struktur tersembunyi dalam dataset.
2 Source Code & Penjelasan
2.2 Source Code
2.2.1 Menentukan Banyak Kluster Optimal
3 Hasil Analisis & Pembahasan
3.1 Menentukan Banyak Kluster Optimal
Ingin ditentukan banyak kluster dari 2 hingga 4 yang paling optimal.
Clustering Methods:
kmeans
Cluster sizes:
2 3 4
Validation Measures:
2 3 4
kmeans Connectivity 12.8813 11.8790 24.1671
Dunn 0.0322 0.0552 0.0527
Silhouette 0.6279 0.5890 0.5223
Optimal Scores:
Score Method Clusters
Connectivity 11.8790 kmeans 3
Dunn 0.0552 kmeans 3
Silhouette 0.6279 kmeans 2
Dua dari tiga indeks validitas menunjukkan bahwa kluster sebanyak 3 adalah yang paling optimal. Oleh karena itu, biji-bijian akan dikelompokkan menjadi 3 kluster.
3.2 K-means Clustering
Hasil clustering 30 amatan pertama
| Amatan ke- | Kluster ke- |
|---|---|
| 1 | 1 |
| 2 | 1 |
| 3 | 1 |
| 4 | 1 |
| 5 | 1 |
| 6 | 1 |
| 7 | 1 |
| 8 | 1 |
| 9 | 3 |
| 10 | 1 |
| 11 | 1 |
| 12 | 1 |
| 13 | 1 |
| 14 | 1 |
| 15 | 1 |
| 16 | 1 |
| 17 | 2 |
| 18 | 1 |
| 19 | 1 |
| 20 | 2 |
| 21 | 1 |
| 22 | 1 |
| 23 | 1 |
| 24 | 2 |
| 25 | 1 |
| 26 | 1 |
| 27 | 2 |
| 28 | 2 |
| 29 | 1 |
| 30 | 1 |
3.3 Plotting
Ini adalah visualisasi 2D pengelompokan biji-bijian berdasarkan
kluster yang telah terbentuk menggunakan k-means clustering.
Dilakukan PCA (Principal Component Analysis) untuk mereduksi
dimensi yang awalnya 3 menjadi 2 dimensi. Sumbu horizontal (Dim1)
menjelaskan 95.1% dari variasi data, sementara sumbu vertikal (Dim2)
menjelaskan 4.7% dari variasi data.
4 Penutup
4.1 Kesimpulan
Setelah melakukan analisis kluster, biji-bijian berhasil dikelompokkan menjadi beberapa kluster berdasarkan keliling biji, panjang kernel, dan lebar kernel. Hasil clustering menunjukkan bahwa terdapat pola yang jelas dalam data, di mana biji-bijian dengan karakteristik serupa cenderung berada pada kelompok yang sama. Kluster-kluster ini dapat membantu dalam memahami variasi dan hubungan antar biji-bijian berdasarkan karakteristik fisiknya (morfologi).
4.2 Saran
4.2.1 Seleksi Benih
Hasil clustering dapat digunakan sebagai pertimbangan untuk seleksi benih yang lebih efisien. Biji-bijian dalam kluster yang sama kemungkinan memiliki sifat pertumbuhan dan hasil yang serupa, sehingga dapat dipilih untuk penanaman yang konsisten.
4.2.2 Penelitian Lanjutan
Disarankan melakukan penelitian lebih lanjut untuk mengidentifikasi faktor-faktor lain yang mungkin mempengaruhi pengelompokan biji-bijian
4.3 Daftar Pustaka
Kaufman, L., & Rousseeuw, P. J. (2005). Finding groups in data: An introduction to cluster analysis. John Wiley & Sons, Inc.
Vendramin, L., Campello, R. J. G. B., & Hruschka, E. R. (2010). Relative clustering validity criteria: A comparative overview. Dalam Statistical Analysis and Data Mining: The ASA Data Science Journal (Vol. 3, Issue 4, hlm. 209–235). Wiley. https://doi.org/10.1002/sam.10080