dataset yang kita gunakan adlah data customer dengan field “Cuostomer ID”
kolom yang diisikan bebas ada yang hanya angka sedangkan ada juga yang berisi dengan baris data.
langkah pertama adlah membaca data set tersebut dari file teks menajdi data frame
perlu diingat untuk selalu memperhatikan huruf besar kecil pada data set karna sangat berpengaruh dalam segmen
c("Jenis.Kelamin", "Umur", "Profesi", "Tope.Residen")
## [1] "Jenis.Kelamin" "Umur" "Profesi" "Tope.Residen"
seperti contoh yang dijelaskan sebelumnya. untuk fungsi k-means ketiga kolom ini tidak bisa digunakan kecuali isi dikonservasi menjadi numerik. salah satu caranya adlah dengan menggunakan fungsi data.matrix
perintah ini akan mengkonservasi data pelanggan pada kolom yang dimana dapat diwakili oleh pelanggan
contoh clustering sperti
pengelompokan manusia berasarkan umur
pengelompokan customer berdasarkan daya belinya
pengelompokan makanan berdasarkan kandungan gizinya
banyak algoritma telah dikembangkan untuk melakukan clustering secara otomatis k means adalah algoritma yang membagi data menjadi sejumlah partisi dengan cara sederhan: mencari kedekatan dari titik pada suatu cluster dengan sejumlah nilai rata-rata atau means
ada dua konsep kunci yang juga menjadi nama asl k-means
mencari “jarak” kedekatan tiap titik ke sejumlah nilai rata-rata cluster yang diamati diwakili oleh means
x: data yang digunakan
centers: jumlah cluster yang diinginkan
perlu diingat mean adalah nilai rata-rata disini yang disebut juga centroid pada berbagai literatur data science
dan fungsi k menas biasanya disertai dengan pemanggilan function seet.seed yang berguna agar kita menyeramkan daftar nilai acak yang sama dari kmeans sehingga kita mendapatkan output yang sama.
set.seed(100)
k means(x+pelanggan[c(“Umur”,“Profesi.1”)], centers=3)
ini artinya kita membagi data pelanggan berdasarkan umur dan profesi menjadi 3 segmen.
kadang kala berdasarkan pengalaman DQlab parameter data dan jumlah segmen saja tidak cukup. perlu digunakan parameter ketika yaitu nstart, merupakan jumlah kombinasi acak yang dihasilkan secara internal oleh r. dalam jumlah yang kita berikan, algoritma akan memilih mana yang terbaik dari kombinasi-kombinasi tersebut.
Clustering vector adalah rangkaian vector yang berisi angka cluster. dari hasil kita, vector berisi angka 1 sampai dengan angka 5, maksimum sesuai dengan jumlah cluster yang kita inginkan.
vector ini dimulai dari angka 2 yang artinya data pertama dari dataset kita akan dialokasikan pada nama cluster 2.
cara menghitung nya adlah menverifikasi data hal tersebut dengan memulai dari cluster 1. ambil data pelanggan yang isi dari kolom clusternya adalh 1 dengan menggunakan fungsi which
kolom pertama berisi angka 1 sampai dengan 5
kolom kelamin1 menunjukkan nilai rata-rata dari data jeis kelamin yang telah dikonversi menjadi numerik dengan angka 1 mewakili pria dan angak 2 wanita