UTS Metodologi Penelitian
PERBANDINGAN ANTARA ALGORITMA K-MEANS DENGAN EM UNTUK DATA IRIS MENGGUNAKAN PACKAGE EMCLUSTER
Email : nicholasandrian6509@gmail.com
RPubs : https://rpubs.com/Nicholas321
Instagram : https://www.instagram.com/nicholasandrian
linkedin : https://www.linkedin.com/in/nicholas-andrian
BAB 1 PENDAHULUAN
1.1 Latar belakang
Tanaman merupakan salah satu makhluk hidup yang penting bagi manusia , misalnya menjadi sumber makanan bagi manusia , menjaga udara tetap bersih dari karbon dioksida dan banyak hal lainnya. Tanaman ada banyak macamnya , ada tanaman obat ,tanaman hias , dan tanaman lainnya. Karena banyaknya tanaman tanaman yang ada di dunia , untuk mengklasifikasikan tanaman dengan benar sesuai dengan tipenya , diperlukan algoritma yang cocok untuk mengklasifikasikannya dengan benar, untuk itu dilakukan penelitian dengan menggunakan algoritma EM dan Kmeans yang mampu mengklasifikasikan tipe tipe tanaman dengan benar dan tepat.
1.2 Rumusan masalah
- Apakah algoritma EM dan algoritma K-means dapat mengklasifikasikan tipe tipe dengan benar?
- Atribut apa sajakah yang masuk dalam penelitian?
1.3 Tujuan
- Untuk mengetahui apakah algoritma EM dan algoritma K-means dapat mengklasifikasikan tipe tipe dengan benar
- Untuk mengetahui atribut apa sajakah yang digunakan untuk meneliti
1.4 Manfaat
Dengan menggunakan algoritma , diharapkan dapat mempermudah dalam mengklasifikasikan tipe tipe tanaman dengan tepat
BAB 2 KAJIAN PUSTAKA
Algoritma machine learning dapat dibagi menjadi dua bagian yaitu supervised learning dan unsupervised learning. Perbedaan kedua algorima tersebut terletak pada bagaimana mereka belajar untuk membuat suatu prediksi maupun klasifikasi. Dalam Supervised Learning, algoritma tersebut seolah-olah dilatih terlebih dahulu agar dapat melakukan prediksi maupun klasifikasi.Sedangkan pada Unsupervised Learning, untuk melakukan prediksi maupun klasifikasi mereka tidak perlu dilatih terlebih dahulu.
K-means merupakan algoritma clustering. K-means Clustering adalah salah satu “unsupervised machine learning algorithms” yang paling sederhana dan populer. K-Means Clustering adalah suatu metode penganalisaan data atau metode Data Mining yang melakukan proses pemodelan tanpa supervisi (unsupervised) dan merupakan salah satu metode yang melakukan pengelompokan data dengan sistem partisi.
K-means clustering merupakan salah satu metode cluster analysis non hirarki yang berusaha untuk mempartisi objek yang ada kedalam satu atau lebih cluster atau kelompok objek berdasarkan karakteristiknya, sehingga objek yang mempunyai karakteristik yang sama dikelompokan dalam satu cluster yang sama dan objek yang mempunyai karakteristik yang berbeda dikelompokan kedalam cluster yang lain. Metode K-Means Clustering berusaha mengelompokkan data yang ada ke dalam beberapa kelompok, dimana data dalam satu kelompok mempunyai karakteristik yang sama satu sama lainnya dan mempunyai karakteristik yang berbeda dengan data yang ada di dalam kelompok yang lain.
Metode K-Means Clustering bertujuan untuk meminimalisasikan objective function yang diset dalam proses clustering dengan cara meminimalkan variasi antar data yang ada di dalam suatu cluster dan memaksimalkan variasi dengan data yang ada di cluster lainnya juga bertujuan untuk menemukan grup dalam data, dengan jumlah grup yang diwakili oleh variabel K. Variabel K sendiri adalah jumlah cluster yang diinginkan. Membagi data menjadi beberapa kelompok. Algoritma ini menerima masukan berupa data tanpa label kelas. Hal ini berbeda dengan supervised learning yang menerima masukan berupa vektor (\(x1\) , \(y1\)) , (\(x2\) , \(y2\)) , …, (\(xi\) , \(yi\)), di mana \(xi\) merupakan data dari suatu data pelatihan dan \(yi\) merupakan label kelas untuk \(xi\) .
Algoritma untuk melakukan K-Means clustering adalah sebagai berikut
- Pilih K buah titik centroid secara acak
- Kelompokkan data sehingga terbentuk K buah cluster dengan titik centroid dari setiap cluster merupakan titik centroid yang telah dipilih sebelumnya
- Perbaharui nilai titik centroid
- Ulangi langkah 2 dan 3 sampai nilai dari titik centroid tidak lagi berubah
Algoritma EM merupakan sebuah metode optimisasi iteratif untuk estimasi Maksimum Likelihood (ML) yang berguna dalam permasalahan data yang tidak lengkap (incomplete data). Dalam setiap iterasi pada Algoritma EM ini terdapat 2 tahap, yaitu tahap Ekspektasi atau tahap E (E step) dan tahap Maksimisasi atau tahap M (M step). Algoritma EM ini hampir mirip dengan pendekatan ad hoc untuk proses estimasi dengan missing data yaitu (1) mengganti missing value dengan estimated value, (2) mengestimasi parameter, (3) mengestimasi ulang missing value tadi dengan menggunakan parameter baru yang diestimasi, (4) mengestimasi ulang parameter, dan seterusnya berulang-ulang sampai dengan konvergen terhadap suatu nilai.
BAB 3 METODOLOGI PENELITIAN
3.1 Pendekatan Penelitian
Penelitian ini adalah penelitian kuantitatif. penelitian kuantitatif adalah penelitian yang menekankan analisanya pada data data numerical (angka) yang diolah dengan metode statistika. Pada dasarnya, pendekatan kuantitatif dilakukan pada penelitian inferensial(dalam rangka pengujian hipotesis) dan menyandarkan kesimupulan hasilnya pada suat probabilitas kesalahan penolakan hipotesis nihil. Dengan metode kuantitatif akan diperoleh sifnifikansi perbedaan kelompok atau signifikansi hubungann antar variabel yang diteliti. pada uumunya , penelitian kuantitatif, merupakakan penelitian sampel besar (Azwar, 2007), jenis penelitian yang dipakai adalah penelitian komparasi , yaitu perbandingan.
3.2 Variabel penelitian
variabel adalah objek penelitian atau apa yang menjadi titik perhatian suatu penelitian (Arikunto, 2006). menurut Azwar , 2007 suatu kegiatan penelitian tentu memusatkan perhatiannya pada beberapa fenomena lain yang relevan. Dalam penelitian sosial dan psikologis , umumnya fenomena termasksud merupakan konspe mengaio atribut atau sifat yang terdapat pada subjek peenlitian yang dapat bervariasi secara kuantitatif ataupun secara kualitatif. Konsep inilah yang disbeut variabel.
Terdapat 2 (dua) macam variabel dalam penelitian (Azwar,2007) , yaitu sebagai berikut :
Variabel Bebas , yaitu suatu variabel yang variansinya mempengaruhi variabel lain
Variabel terikat/ tergantung , yaitu variabel penelitian yang diukur untuk mengetahui besarnya efek atau pengaruh variabel lain.
adapun varibel yang menjadi objek pada penelitian ini adalah:
- Variabel terikat : tanaman iris
- Variabel bebas : algoritma Em dan Kmeans
3.3 Definisi Operasional
3.3.1. Tanaman Iris
Iris adalah sebuah genus dalam famili Iridaceae yang mencakup 260–300 spesies tumbuhan berbunga. Tumbuhan tersebut mengambil nama dari kata bahasa Yunani untuk pelangi, yang juga merupakan nama dari dewi pelangi Yunani
3.3.2. Algoritma EM dan K-means
Algoritma EM merupakan sebuah metode optimisasi iteratif untuk estimasi Maksimum Likelihood (ML) yang berguna dalam permasalahan data yang tidak lengkap (incomplete data).
Algoritma K-means adalah suatu metode penganalisaan data atau metode Data Mining yang melakukan proses pemodelan tanpa supervisi (unsupervised) dan merupakan salah satu metode yang melakukan pengelompokan data dengan sistem partisi.
3.4 Populasi dan Sampel
Populasi merupakan keseluruhan individu atau objek yang diteliti yang memiliki beberapa karakteristik yang sama (Latipun, 2011). Menurut Arikunto , populasi adalah keseluruhan subjek peenlitian. Sedangkan dalam Azwar,2007 populasi didefinisikan sebagai kelompol subjek yang hendak dikenbai generalisasi hasil penelitian.
Sampel adalah sebagian dari populasi. Karena ia merupakan bagian dari populasi, tentulah ia harus memiliki ciri ciri yang dimiliki oleh populasinya (Azwar,2007).
Teknik pengambilan sampel dalam penelitian ini adalah mengguanakan metode random sampling. Random sampling adalah teknik pengambilan sampel yang didasarkan atas probabilitas bahwa setiap unit sampling memiliki kesempatan yang sama untuk terpilih sebagai sampel (Latipun,2011)
3.5 Data yang digunakan
Data yang digunakan adalah data iris yang sudah tersedia dalam program R
BAB 4 HASIL DAN PEMBAHASAN
4.1 Hasil penelitian
Penelitian ini diambil dari data iris yang sudah disediakan dalam program R. Data set iris tersebut berisi 150 tanaman dari 3 jenis tanaman iris. Untuk penelitian yang dilakukan, diperlukan beberapa library yang menunjang , antara lain sebagai berikut:
library(ggplot2)
library(DT)
library(EMCluster)
library(FactoMineR)
library(reshape2)
library(summarytools)
library(dplyr)
library(datasets)lalu untuk memunculkan data irisnya diperlukan kodingan sebagai berikut :
data("iris")
summary(iris)## Sepal.Length Sepal.Width Petal.Length Petal.Width
## Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100
## 1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300
## Median :5.800 Median :3.000 Median :4.350 Median :1.300
## Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199
## 3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
## Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500
## Species
## setosa :50
## versicolor:50
## virginica :50
##
##
##
selanjutnya , dilakukan penelitian dengan melakukan komparasi antara algoritma EM dan juga algoritma K-means untuk melihat algoritma manakah yang melakukan klustering terbaik, penelitian ini dilakukan atas data mentah dan Principal Components(PC). PCA dilakukan melalui fungsi PCA() dari paket FactomineR. Demikian pula untuk k-means.
set.seed(123)
pca_iris=PCA(iris[,-5],scale.unit = T,ncp = 2,graph = F)iris_sc=scale(iris[,-5],center = T,scale = T)
km_raw=kmeans(iris_sc, centers=3)
emobj <- exhaust.EM(iris_sc,nclass = 3)
emobj <- shortemcluster(iris_sc, emobj,maxiter = 1000)
em_raw <- emcluster(iris_sc, emobj, assign.class = TRUE)
dat_clust_raw=data.frame(iris_sc,"Species"=as.factor(iris$Species),
kmeans=as.factor(km_raw$cluster), EM=as.factor(em_raw$class))km_pca=kmeans(pca_iris$ind$coord, centers=3)
emobj_pca <- exhaust.EM(pca_iris$ind$coord, nclass = 3)
emobj_pca <- shortemcluster(pca_iris$ind$coord, emobj_pca,maxiter = 1000)
em_pca <- emcluster(pca_iris$ind$coord, emobj_pca, assign.class = TRUE)
dat_clust_pca=data.frame(pca_iris$ind$coord,"Species"=iris$Species,
kmeans=as.factor(km_pca$cluster), EM=as.factor(em_pca$class))dat_raw=dat_clust_raw %>% melt(id.var=colnames(iris[,-5]))## Warning: attributes are not identical across measure variables; they will be
## dropped
dat_raw %>% ggplot(aes(x=Sepal.Length,y=Petal.Width, color=value))+geom_point()+
facet_wrap(~variable)+theme_grey()+
theme(strip.background =element_rect(fill="darkred"))+
theme(strip.text = element_text(colour = 'white'))+guides(color=FALSE)## Warning: `guides(<scale> = FALSE)` is deprecated. Please use `guides(<scale> =
## "none")` instead.
Raw data
dat_pca=dat_clust_pca %>% melt(id.var=c("Dim.1","Dim.2"))## Warning: attributes are not identical across measure variables; they will be
## dropped
dat_pca %>% ggplot(aes(x=Dim.1,y=Dim.2, color=value))+geom_point()+facet_wrap(~variable)+theme_grey()+
theme(strip.background =element_rect(fill="darkred"))+
theme(strip.text = element_text(colour = 'white'))+guides(color=FALSE)## Warning: `guides(<scale> = FALSE)` is deprecated. Please use `guides(<scale> =
## "none")` instead.
PCA data
Dari hasil penelitian diatas , dapat dilihat bahwa baik dalam raw data dan kordinat PCA , algoritma EM bekerja lebih baik dibandingkan dengan algoritma K-means.
BAB 5 SIMPULAN DAN SARAN
5.1 Kesimpulan
Dari data yang didapatkan dan analisis yang telah dilakukan dalam penelitian ini maka yang dapat disimpulkan adalah:
Penelitian ini membuktikan bahwa algoritma EM lebih baik dibandingkan algoritma K-means.
5.2 Saran
untuk penelitian selanjutnya dapat menggunakan faktor faktor lain seperti penggunaan dataset lain untuk membandingkan Algoritma EM dan algoritma K=means.
DAFTAR PUSTAKA
Olla,kevin.2017.”Cari Tahu Apa Bedanya Supervised vs Unsupervised Learning”.https://www.jagoanhosting.com/blog/cari-tahu-apa-bedanya-supervised-vs-unsupervised-learning/, diakses pada 26 oktober 2021 pukul 20.04
syafnidawaty.2020.”K-means Clustering”.https://raharja.ac.id/2020/04/19/k-means-clustering/, diakses pada 26 oktober 2021 pukul 20.17