| Kontak | : \(\downarrow\) |
| nikitaindriyni@gmail.com | |
| https://www.instagram.com/nikitaindriyni/ | |
| RPubs | https://rpubs.com/nikitaindriyani/ |
Dengan berkembangnya teknologi informasi, ilmu komputer data mining juga semakin ikut dalam perkembangan zaman. Data mining adalah analisis observasional dari sejumlah besar data untuk menemukan hubungan yang sebelumnya tidak diketahui dan metode baru untuk meringkas data dengan cara yang mudah dipahami dan berguna bagi pemilik data. Transformasi data menjadi informasi menggunakan data mining sangat meningkatkan ketersediaan informasi. Sebagai akibat dari penggunaan teknologi informasi di sebagian besar bidang kehidupan, ada kebutuhan untuk dapat memanfaatkan informasi dan pengetahuan yang terkandung dalam informasi dari perubahan data.
Data mining telah digunakan di berbagai bidang seperti sains, bisnis dan industri, teknik, kesehatan, pertahanan dan keamanan. Mengingat ketersediaan sumber data yang melimpah akibat pemanfaatan teknologi informasi di hampir semua bidang kehidupan, maka perlu adanya suatu kebutuhan untuk dapat memanfaatkan informasi dan pengetahuan yang terkandung dalam data yang melimpah tersebut, sehingga melahirkan data mining. . Data mining adalah proses menemukan pengetahuan yang ditambang dari volume data yang sangat besar. Misalnya, aplikasi data mining dalam manajemen bisnis, kontrol produksi, dan analisis pasar memungkinkan diperoleh pola dan hubungan yang dapat digunakan untuk meningkatkan penjualan atau mengelola aset mentah yang lebih baik. Dunia pendidikan memiliki data yang kaya dan berkelanjutan tentang siswa yang dilatihnya dan alumni yang dihasilkannya.
Sementara itu, dalam dunia pendidikan, Data Mining juga telah diterapkan untuk berbagai kebutuhan. Universitas memiliki berbagai jenis data, seperti data akademik, pemasaran dan keuangan, termasuk berbagai data mahasiswa, fakultas dan staf. Menurutnya, pembagian kelas peserta kuliah dapat dilakukan dengan menggunakan Fuzzy Clustering dan Partition Factor dan Exponential Separation. Namun, hasil yang diperoleh masih belum cukup jelas.
Clustering merupakan salah satu teknik dari salah satu fungsi data mining, algoritma clustering adalah algoritma yang mengelompokkan beberapa data kedalam kelompok data tertentu. Objek data yang terletak dalam suatu cluster harus memiliki kemiripan.
Berdasarkan latar belakang, maka rumusan pada penelitian ini adalah " Bagaimana hasil perbandingan antara K-Means dengan Algoritma EM? "
Sesuai dengan rumusan masalah yang telah disusun, maka tujuan dari penelitian ini adalah Untuk mengetahui hasil perbandingan antara K-Means dengan Algoritma EM.
Berdasarkan tujuan penelitian, manfaat penelitian ini adalah
1.5.1 Mengetahui cara kerja Algoritma K-Means dan EM. 1.5.2 Mengetahui perbandingan K-Means dan Algoritma EM pada data Iris yang digunakan. 1.5.3 Mempertimbangkan algoritma dengan cara yang terbaik untuk pengklasteran
Menurut [1] data clustering menggunakan metode K-Means secara umum dilakukan dengan algoritma dasar sebagai berikut: 1. Tentukan jumlah cluster 2. Alokasikan data ke dalam cluster secara random 3. Hitung centroid/rata-rata dari data yang ada di masing-masing cluster 4. Alokasikan masing-masing data ke centroid/rata-rata terdekat 5. Kembali ke Step 3, apabila masih ada data yang berpindah cluster atau apabila perubahan nilai centroid, ada yang di atas nilai threshold yang ditentukan atau apabila perubahan nilai pada objective function yang digunakan di atas nilai threshold yang ditentukan
Pengalokasian kembali data ke dalam masing-masing cluster dalam metode K-Means didasarkan pada perbandingan jarak antara data dengan centroid setiap cluster yang ada. Data dialokasikan ulang secara tegas ke cluster yang mempunyai centroid terdekat dengan data tersebut. Pengalokasian ini dapat dirumuskan sebagai berikut [1]:
Expectation Maximation (EM) termasuk algoritma partitional yang berbasiskan model yang menggunakan perhitungan probabilitas, bukan jarak seperti umumnya algoritma clustering yang lainnya, langkah-langkahnya sebagai berikut [3]:
Inisialisasi cluster centers sebanyak suatu nilai k. Nilai k bisa merupakan input dari user atau merupakan nilai yang didapatkan dengan memanfaatkan penggunaan algoritma lain.
Iterasikan 2 langkah yang menjadi dasar penamaan algoritma berikut sampai mencapai suatu titik konvergensi yang telah ditentukan sebelumnya:
langkah expectation
langkah maximation
Sebagai algoritma yang berdasakan pada probabilitas, EM memiliki beberapa karakteristik [3] yaitu:
Menghasilkan sistem cluster yang relatif mudah diinterpretasikan
Dapat diberhentikan dan dimulai kembali dengan kelompok data berurutan karena clusters memiliki representasi yang berbeda dengan items didalamnya.
Sebagai karya ilmiah, maka tidak bisa dilepaskan dari penggunaan metode. Secara umum metode penelitian atau metode ilmiah adalah sebuah prosedur atau langkah-langkah dalam mendapatkan pengetahuan ilmiah atau ilmu. Secara terperinci Almack mendefisikan metode ilmiah sebagai sebuah cara menerapkan prinsip-prinsip logis terhadap penemuan, pengesahan, dan penjelasan kebenaran.Berangkat dari pengertian tersebut dapat dikatakan bahwa adanya metode penilitian memiliki fungsi yang sangat penting dan menjadi pedoman untuk mengerjakan suatu penelitian, agar dapat menghasilkan karya tulis yang maksimal.
Langkah-langkah yang dilakukan yaitu: perumusan masalah, penentuan teknik clustering yang akan dipergunakan, preproses data, transformasi data dengan teknik clustering, analisa hasil clustering, dan penarikan kesimpulan. Berikut digambarkan diagram tahapan penelitian yang digunakan:
Dalam penelitian ini, peneliti memakai beberapa package dalam R. Berikut adalah package yang dimuat dalam penelitian ini:
library(ggplot2)
library(DT)
library(EMCluster)
## Loading required package: MASS
## Loading required package: Matrix
library(FactoMineR)
library(reshape2)
library(summarytools)
library(dplyr)
##
## Attaching package: 'dplyr'
## The following object is masked from 'package:EMCluster':
##
## recode
## The following object is masked from 'package:MASS':
##
## select
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
Package ggplot2 merupakan paket di R yang bebas diunduh dan digunakan untuk membuat berbagai bentuk grafik. Grafik yang ditampilkan bisa berupa data numerik maupun data kategorik, univariat maupun multivariat. Selanjutnya, package DT adalah package datatabel, yang dapat digunakan untuk menampilkan data dalam bentuk tabel. Lalu, package EMCluster digunakan pada R untuk klasterisasi algoritma EM. Package FactoMineR digunakan pada R untuk Analisis Data Eksplorasi Multivariat dan Penambangan Data, Metode analisis data eksplorasi untuk meringkas, memvisualisasikan, dan menggambarkan dataset. Kemudian, package reshape2 digunakan untuk memudahkan dalam mengubah data antara format yang luas dan panjang. Lalu, kegunaan package summarytools pada R adalah menyediakan alat untuk meringkas data dengan rapi dan cepat. Yang terakhir, untuk package dplyr dapat digunakan untuk memanipulasi data. Package ini sangat berguna ketika digunakan untuk melakukan analisis dan eksplorasi data.
Pada penelitian perbandingan algoritma K-Means dan EM, data yang dipakai adalah data sekunder, dengan kata lain data ini sudah ada di R. Berikut akan diimport data yang dipakai pada perbandingan dalam penelitian ini.
datatable(iris)
Dalam penelitian ini akan membandingkan dua cara untuk melakukan Analisis cluster, yaitu dengan K-Means dan EM Algoritma atas data mentah dan komponen utama (PC). PCA dilakukan melalui fungsi PCA() dari paket FactomineR. Demikian pula, untuk kmeans kami menggunakan fungsi stat built-in.
set.seed(123)
pca_iris=PCA(iris[,-5],scale.unit = T,ncp = 2,graph = F)
iris_sc=scale(iris[,-5],center = T,scale = T)
km_raw=kmeans(iris_sc, centers=3)
emobj <- exhaust.EM(iris_sc,nclass = 3)
emobj <- shortemcluster(iris_sc, emobj,maxiter = 1000)
em_raw <- emcluster(iris_sc, emobj, assign.class = TRUE)
dat_clust_raw=data.frame(iris_sc,"Species"=as.factor(iris$Species),
kmeans=as.factor(km_raw$cluster), EM=as.factor(em_raw$class))
km_pca=kmeans(pca_iris$ind$coord, centers=3)
emobj_pca <- exhaust.EM(pca_iris$ind$coord, nclass = 3)
emobj_pca <- shortemcluster(pca_iris$ind$coord, emobj_pca,maxiter = 1000)
em_pca <- emcluster(pca_iris$ind$coord, emobj_pca, assign.class = TRUE)
dat_clust_pca=data.frame(pca_iris$ind$coord,"Species"=iris$Species,
kmeans=as.factor(km_pca$cluster), EM=as.factor(em_pca$class))
EM-Algoritma seharusnya memiliki kinerja lebih baik dari K-means normal, ketika bentuk sebenarnya dari cluster adalah tidak bulat atau berukuran kecil.
dat_raw=dat_clust_raw %>% melt(id.var=colnames(iris[,-5]))
## Warning: attributes are not identical across measure variables; they will be
## dropped
dat_raw %>% ggplot(aes(x=Sepal.Length,y=Petal.Width, color=value))+geom_point()+
facet_wrap(~variable)+theme_grey()+
theme(strip.background =element_rect(fill="darkred"))+
theme(strip.text = element_text(colour = 'white'))+guides(color=FALSE)
dat_pca=dat_clust_pca %>% melt(id.var=c("Dim.1","Dim.2"))
## Warning: attributes are not identical across measure variables; they will be
## dropped
dat_pca %>% ggplot(aes(x=Dim.1,y=Dim.2, color=value))+geom_point()+facet_wrap(~variable)+theme_grey()+
theme(strip.background =element_rect(fill="darkred"))+
theme(strip.text = element_text(colour = 'white'))+guides(color=FALSE)
Dapat dilihat bahwa dalam kedua, data mentah dan koordinat PCA, EM tampaknya berperilaku dan melakukan penghormatan yang lebih baik terhadap Kmeans. Bandingkan sendiri. Lihatlah aspek “Spesies” dan temukan mana dari kedua metode yang lebih dekat dengan representasi grafis yang sebenarnya.
Berdasarkan hasil analisis dan pembahasan data dapat diperoleh kesimpulan yang dapat diambil dari penelitian mengenai Perbandingan Algoritma KMeans dan Algoritma EM pada Data
Iris yaitu penentuan jumlah klaster K adalah sebanyak 3 dimana secara tidak langsung merepresentasikan ketiga spesies iris yang ada pada data. Hasil perbandingan kedua algortima menunjukkan bahwa pada proses Algorima KMeans terdapat 16 kesenjangan pada llasternya yang tidak sesuai dengan spesies, sedangkan pada proses algortima EM terdapat 5 kesenjangan yang tidak sesuai dengan spesies. Oleh karena itu dapat disimpulkan bahwa metode algortima terbaik untuk penelitian ini adalah Algortima EM, karena memiliki kesenjangan yang lebih rendah
Penelitian ini telah dilakukan dengan cukup baik. Namun, peneliti masa depan yang mungkin melakukan penelitian yang sama mungkin memiliki pemahaman yang baik tentang metode yang digunakan. Peneliti selanjutnya dapat menggunakan data lain yang dapat mencakup hasil penelitian yang lebih luas.
[1] Wakhidah, Nur. (2010). CLUSTERING MENGGUNAKAN K-MEANS ALGORITHM. Retrieved from https://media.neliti.com/media/publications/142845-ID-clustering-menggunakan-k-means-algorithm.pdf
[2] Chen Yu. K-Means Clustering. Indiana University
[3] Hasyrif, S.Y., Rismayani & Asrul Syam (2019). Data Mining Menggunakan Algoritma K-MeansPengelompokan Penyebaran Diare Di Kota Makassar.
[4] Budiarti, A. (2006). Aplikasi dan Analisis Clustering pada Data Akademik. Retrieved from Laporan Tugas Akhir, Fakultas Ilmu Komputer, Universitas Indonesia.
[5] Agusta, Y. (2007). K-Means- Penerapan, Permasalahan dan Metode Terkait. Retrieved from Jurnal Sistem dan Informatika, vol 3, hal 47-60.
[6] Parra, Jhon. (2019). Unsupervised Learning. Retrieved from https://www.rpubs.com/statscol/unsupervised_learning
[7] Bootupacademyai. (2019). Retrieved from https://bootup.ai/blog/data-mining-adalah/
[8] Budi. (2010). Analisis Missing Data Menggunakan Algoritma EM. Retrieved from https://statistikakomputasi.wordpress.com/2010/04/08/analisis-missing-data-menggunakan-algoritma-em-2/
[9] Mardiani. (2014, Agustus 14). Perbandingan Algoritma K-Means dan EM untuk Clusterisasi Nilai Mahasiswa Berdasarkan Asal Sekolah
[10] Efraim, Turban. Rainer, Kelly R dan Potter, Richard. (2005). Introduction to Information Technology. 3rd Edition. USA : John Willey & Sons, Inc.