Metodologi Penelitian dan Optimasi
~ Ujian Tengah Semester ~
PERBANDINGAN ANTARA KMEANS DAN ALGORITMA EM DENGAN MENGGUNAKAN EMCLUSTER
Diajukan sebagai salah satu syarat untuk memperoleh nilai Ujian Tengah Semester pada mata kuliah Optimasi dan Metodologi Penelitian
BAB 1
PENDAHULUAN
Latar Belakang
Clustering atau klasterisasi adalah metode pengelompokan data yang merupakan proses partisi satu set objek ke dalam himpunan bagian yang disebut cluster. Objek yang di dalam cluster memiliki kemiripan karakteristik antar satu sama lainnya dan berbeda dengan cluster yang lain. Partisi tidak dilakukan secara manual melainkan dengan suatu algoritma clustering. Oleh karena itu, clustering sangat berguna dan bisa menemukan group atau kelompok yang tidak dikenal dalam data.
Iris merupakan salah satu jenis bunga dari famili Iridaceae yang terdiri dari 300 spesies. Penelitian ini menggunakan data Iris sebanyak 150 sampel dengan 3 spesies berbeda. Maing-masing spesies memiliki Sepal Length, Sepal Width, Petal Length, dan Petal Width.
Clustering memiliki banyak algoritma dengan beberapa kategori, yaitu hierarchical. Algoritma dengan kategori hierarchical menentukan sendiri jumlah cluster yang dihasilkannya, seperti algoritma SNN, COBWEB, Chandeon dan Rock. Selanjutnya ada algoritma dengan kategori Partitional. Algoritma dengan kategori Partitional mengelompokkan data kedalam k cluster, dengan k adalah banyak cluster dari input user misalnya algoritma CLARA, K-Means, EM, dan Bond Energy.Dengan hal demikian, peneliti ingin mencari tahu perbandingan antara K-Means dengan Algoritma EM yang dikelompokkan ke dalam cluster-cluster.
Rumusan Masalah
Berdasarkan latar belakang, maka rumusan pada penelitian ini adalah: 1.2.1 Bagaimana hasil perbandingan antara K-Means dengan Algoritma EM?
Tujuan Penelitian
Sesuai dengan rumusan masalah yang telah disusun, maka tujuan dari penelitian ini adalah: 1.3.1 Untuk mengetahui hasil perbandingan antara K-Means dengan Algoritma EM.
Manfaat Penelitian
Berdasarkan tujuan penelitian, manfaat penelitian ini adalah: 1.4.1 Mengetahui car akerja Algoritma K-Meas dan EM. 1.4.2 Mengetahui perbandingan K-Meand dan Algoritma EM pada data Iris yang digunakan.
BAB 2
KAJIAN PUSTAKA
K-Means
K-means merupakan algoritma clustering. K-means Clustering adalah salah satu “unsupervised machine learning algorithms” yang paling sederhana dan populer. K-Means Clustering adalah suatu metode penganalisaan data atau metode Data Mining yang melakukan proses pemodelan tanpa supervisi (unsupervised) dan merupakan salah satu metode yang melakukan pengelompokan data dengan sistem partisi.
K-means clustering merupakan salah satu metode cluster analysis non hirarki yang berusaha untuk mempartisi objek yang ada kedalam satu atau lebih cluster atau kelompok objek berdasarkan karakteristiknya, sehingga objek yang mempunyai karakteristik yang sama dikelompokan dalam satu cluster yang sama dan objek yang mempunyai karakteristik yang berbeda dikelompokan kedalam cluster yang lain. Metode K-Means Clustering berusaha mengelompokkan data yang ada ke dalam beberapa kelompok, dimana data dalam satu kelompok mempunyai karakteristik yang sama satu sama lainnya dan mempunyai karakteristik yang berbeda dengan data yang ada di dalam kelompok yang lain.
Dengan kata lain, metode K-Means Clustering bertujuan untuk meminimalisasikan objective function yang diset dalam proses clustering dengan cara meminimalkan variasi antar data yang ada di dalam suatu cluster dan memaksimalkan variasi dengan data yang ada di cluster lainnya juga bertujuan untuk menemukan grup dalam data, dengan jumlah grup yang diwakili oleh variabel K. Variabel K sendiri adalah jumlah cluster yang diinginkan.
EM
Algoritma Expectation Maximizaton (EM) adalah suatu metode estimasi untuk menemukan kemungkinan maksimum dari perkiraan parameter dalam metode statistik. Algortima EM adalah salah satu algoritma yang digunakan untuk klasifikasi atau pengelompokan data. Expectation Maximation (EM) termasuk algoritma partitional yang berbasiskan model, dengan menggunakan perhitungan probabilitas, bukan jarak seperti umumnya algoritma clustering yang lainnya.
BAB 3
METODOLOGI PENELITIAN ## Metode Metode adalah suatu proses atau cara sistematis yang digunakan untuk mencapai tujuan tertentu dengan efisiensi, biasanya dalam urutan langkah-langkah tetap yang teratur. Kata metode (method) berasal dari bahasa Latin dan juga Yunani, methodus yang berasal dari kata meta yang berarti sesudah atau di atas, dan kata hodos, yang berarti suatu jalan atau suatu cara. Metode penelitian adalah langkah-langkah yang diambil oleh peneliti untuk mengumpulkan data atau informasi untuk diolah dan dianalisis secara ilmiah.
Packages
Dalam penelitian ini, peneliti memakai beberapa package dalam R. Berikut adalah package yang dimuat dalam penelitian ini:
## Loading required package: MASS
## Loading required package: Matrix
##
## Attaching package: 'dplyr'
## The following object is masked from 'package:EMCluster':
##
## recode
## The following object is masked from 'package:MASS':
##
## select
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
Package ggplot2 merupakan paket di R yang bebas diunduh dan digunakan untuk membuat berbagai bentuk grafik. Grafik yang ditampilkan bisa berupa data numerik maupun data kategorik, univariat maupun multivariat. Selanjutnya, package DT adalah package datatabel, yang dapat digunakan untuk menampilkan data dalam bentuk tabel. Lalu, package EMCluster digunakan pada R untuk klasterisasi algoritma EM. Package FactoMineR digunakan pada R untuk Analisis Data Eksplorasi Multivariat dan Penambangan Data, Metode analisis data eksplorasi untuk meringkas, memvisualisasikan, dan menggambarkan dataset. Kemudian, package reshape2 digunakan untuk memudahkan dalam mengubah data antara format yang luas dan panjang. Lalu, kegunaan package summarytools pada R adalah menyediakan alat untuk meringkas data dengan rapi dan cepat. Yang terakhir, untuk package dplyr dapat digunakan untuk memanipulasi data. Package ini sangat berguna ketika digunakan untuk melakukan analisis dan eksplorasi data.
BAB 4
HASIL DAN PEMBAHASAN
Dalam penelitian ini akan membandingkan dua cara untuk melakukan Analisis cluster, yaitu dengan K-Means dan EM Algoritma atas data mentah dan komponen utama (PC). PCA dilakukan melalui fungsi PCA() dari paket FactomineR. Demikian pula, untuk kmeans kami menggunakan fungsi stat built-in.
iris_sc=scale(iris[,-5],center = T,scale = T)
km_raw=kmeans(iris_sc, centers=3)
emobj <- exhaust.EM(iris_sc,nclass = 3)
emobj <- shortemcluster(iris_sc, emobj,maxiter = 1000)
em_raw <- emcluster(iris_sc, emobj, assign.class = TRUE)
dat_clust_raw=data.frame(iris_sc,"Species"=as.factor(iris$Species),
kmeans=as.factor(km_raw$cluster), EM=as.factor(em_raw$class))km_pca=kmeans(pca_iris$ind$coord, centers=3)
emobj_pca <- exhaust.EM(pca_iris$ind$coord, nclass = 3)
emobj_pca <- shortemcluster(pca_iris$ind$coord, emobj_pca,maxiter = 1000)
em_pca <- emcluster(pca_iris$ind$coord, emobj_pca, assign.class = TRUE)
dat_clust_pca=data.frame(pca_iris$ind$coord,"Species"=iris$Species,
kmeans=as.factor(km_pca$cluster), EM=as.factor(em_pca$class))EM-Algoritma seharusnya memiliki kinerja lebih baik dari K-means normal, ketika bentuk sebenarnya dari cluster adalah tidak bulat atau berukuran kecil.
## Warning: attributes are not identical across measure variables; they will be
## dropped
dat_raw %>% ggplot(aes(x=Sepal.Length,y=Petal.Width, color=value))+geom_point()+
facet_wrap(~variable)+theme_grey()+
theme(strip.background =element_rect(fill="darkred"))+
theme(strip.text = element_text(colour = 'white'))+guides(color=FALSE)## Warning: `guides(<scale> = FALSE)` is deprecated. Please use `guides(<scale> =
## "none")` instead.
## Warning: attributes are not identical across measure variables; they will be
## dropped
dat_pca %>% ggplot(aes(x=Dim.1,y=Dim.2, color=value))+geom_point()+facet_wrap(~variable)+theme_grey()+
theme(strip.background =element_rect(fill="darkred"))+
theme(strip.text = element_text(colour = 'white'))+guides(color=FALSE)## Warning: `guides(<scale> = FALSE)` is deprecated. Please use `guides(<scale> =
## "none")` instead.
Dapat dilihat bahwa dalam kedua, data mentah dan koordinat PCA, EM tampaknya berperilaku dan melakukan penghormatan yang lebih baik terhadap Kmeans. Bandingkan sendiri. Lihatlah aspek “Spesies” dan temukan mana dari kedua metode yang lebih dekat dengan representasi grafis yang sebenarnya.
BAB 5
KESIMPULAN DAN SARAN
Kesimpulan
Berdasarkan perhitungan yang sudah dilakukan di atas, maka dapat disimpulkan bahwa walaupun terdapat beberapa hasil yang berbeda, namun analisis data dengan algoritma K-Means atau EM dapat digunakan untuk mengelompokkan data berdasarkan jenisnya. Dengan adanya clustering dapat membantu mempercepat pengolahan data dalam mengelompokkan jumlah data berdasarkan jenisnya. Algoritma yang terbaik digunakan untuk mengelompokkan data iris adalah algoritma EM, karena memiliki tingkat perbedaan yang lebih rendah dan memiliki tingkat keakuratan yang lebih tinggi.
Saran
Penelitian ini masih merupakan penelitian yang sederhana. Untuk penelitian selanjutnya kiranya dapat menggunakan data yang lebih luas dan dapat membandingkan kembali dengan metode lainnya.