langkah pertama adalah membaca dataset tersebut dari file teks menjadi data.frame di R dengan perintah read.csv
pelanggan: nama variabel digunakan untuk menampung data dari contoh dataset
csv: fungsi yang digunakan untuk membaca contoh dataset yang berupa file
perhatikan jika nama kolom asal terdapat karakter spasi, maak akan diubah menjadi tanda titik setelah dibaca dengan read.csv. sebagai contoh,“nama pelanggan” diubah menjadi “nama.pelanggan”
jika ingin memanggil kolom nama dan profesi maka dapat dipanggil dengan pelanggan[c(“nama.pelanggan”, “profesi”)]
dapat memanggil dengan tambahan data.matrix(pelanggan[c(“jenis.kelamin”,“profesi)]) _matrix
setelah anda bisa melakukan konversi ke angka, kita perlu mengetahui bagaimna menggabungkan kembali data tersebut ke variabel asla kita.
ini berguna terutama pada praktek lanjutan di akhir course, yaitu ketika kita akan mengenali data pelanggan baru masuk ke segment mana
untuk menggabungkan data hasil konversi data.matrix ke pelanggan, kita gunakan function data.frame
0ketika kolom digunakan untuk clustering perhitungan sum of sequred errors akan menjaddi sangat besar.
kita akan menormalisasikam nilainya agar perhitungan lebih sederhana dan mudah dicerna, namun tidak mengurangi akurasi. ini terutama akan sangat bermanfaat jika jumlah data sangat banyak, misalkan memiliki 200 ribu data.
normalisasi bisa dilakukan dengan banyak cara. untuk kasus kita, cukup dengan pembagian sehingga nilai jutaan menjadi puluhan
setelah penggabungan data, kita mengetahui sebenarnya teks kategori dikonversi menjadi angka numerik berapa.
kelihatan kalau wiraswasta dikonversi menjadi angka 5, pelajar menjadi angka 3, profesional menjadi angka 4 dll.
daftar kategori dan hasil konservasinya sangat penting untuk dijadikan referensi sehinggan nanti ketika data baru, kita bisa petakan menjadi data numerik yang siap digunakan untuk algoritma clustering.
mengenal contoh file dataset pelanggan, dimana kita mengerti dulu bagaimana untuk dan data isi
membaca file dengan read.csv
vector untuk menyimpan nama field, dimana-mana kita bisa melakukan konservasi
konservasi data dengan matrix
menggabungkan
menormalisasikan
serta terakhir adalah membuat data master.