Persiapan Data

dataset customer segment

dataset yang kita gunakan adlah data customer dengan field “Cuostomer ID”

kolom yang diisikan bebas ada yang hanya angka sedangkan ada juga yang berisi dengan baris data.

membaca data dengan fungsi read.csv

langkah pertama adlah membaca data set tersebut dari file teks menajdi data frame

perlu diingat untuk selalu memperhatikan huruf besar kecil pada data set karna sangat berpengaruh dalam segmen

vector untuk menyimpan nama field
c("Jenis.Kelamin", "Umur", "Profesi", "Tope.Residen")
## [1] "Jenis.Kelamin" "Umur"          "Profesi"       "Tope.Residen"
konversi data dengan matrix

seperti contoh yang dijelaskan sebelumnya. untuk fungsi k-means ketiga kolom ini tidak bisa digunakan kecuali isi dikonservasi menjadi numerik. salah satu caranya adlah dengan menggunakan fungsi data.matrix

perintah ini akan mengkonservasi data pelanggan pada kolom yang dimana dapat diwakili oleh pelanggan

clustering dan algoritma k-means

contoh clustering sperti

pengelompokan manusia berasarkan umur

pengelompokan customer berdasarkan daya belinya

pengelompokan makanan berdasarkan kandungan gizinya

banyak algoritma telah dikembangkan untuk melakukan clustering secara otomatis k means adalah algoritma yang membagi data menjadi sejumlah partisi dengan cara sederhan: mencari kedekatan dari titik pada suatu cluster dengan sejumlah nilai rata-rata atau means

ada dua konsep kunci yang juga menjadi nama asl k-means

mencari “jarak” kedekatan tiap titik ke sejumlah nilai rata-rata cluster yang diamati diwakili oleh means

fungsi kmeans

  • x: data yang digunakan

  • centers: jumlah cluster yang diinginkan

    perlu diingat mean adalah nilai rata-rata disini yang disebut juga centroid pada berbagai literatur data science

  • dan fungsi k menas biasanya disertai dengan pemanggilan function seet.seed yang berguna agar kita menyeramkan daftar nilai acak yang sama dari kmeans sehingga kita mendapatkan output yang sama.

    set.seed(100)

    k means(x+pelanggan[c(“Umur”,“Profesi.1”)], centers=3)

    ini artinya kita membagi data pelanggan berdasarkan umur dan profesi menjadi 3 segmen.

    kadang kala berdasarkan pengalaman DQlab parameter data dan jumlah segmen saja tidak cukup. perlu digunakan parameter ketika yaitu nstart, merupakan jumlah kombinasi acak yang dihasilkan secara internal oleh r. dalam jumlah yang kita berikan, algoritma akan memilih mana yang terbaik dari kombinasi-kombinasi tersebut.

Analisis hasil Clustering Vector

Clustering vector adalah rangkaian vector yang berisi angka cluster. dari hasil kita, vector berisi angka 1 sampai dengan angka 5, maksimum sesuai dengan jumlah cluster yang kita inginkan.

vector ini dimulai dari angka 2 yang artinya data pertama dari dataset kita akan dialokasikan pada nama cluster 2.

Analisa Hasil Cluster Size dan means

cara menghitung nya adlah menverifikasi data hal tersebut dengan memulai dari cluster 1. ambil data pelanggan yang isi dari kolom clusternya adalh 1 dengan menggunakan fungsi which

kolom pertama berisi angka 1 sampai dengan 5

kolom kelamin1 menunjukkan nilai rata-rata dari data jeis kelamin yang telah dikonversi menjadi numerik dengan angka 1 mewakili pria dan angak 2 wanita