Persaingan yang ketat di dunia usaha saat ini mengharuskan perusahaan benarbenar menyusun strategi untuk mencegah terjadinya perpindahan pelanggan. Maka dari itu tujuan dari penelitian ini adalah mengelompokan pelanggan yang berpotensi untuk menjadi pelanggan tetap atau pelanggan potensial, sehingga perusahaan dapat mempertahankan pelanggan potensial tersebut dengan cara memberikan pelayanan prima, reward, ataupun sebagai target utama dalam promosi produk baru. Pengelompokan pelanggan ini dapat dilakukan dengan melihat tingkat loyalitas pelanggan. Tingkat loyalitas pelanggan dapat diukur dengan menggunakan pengelompokan dari jumlah transaksi dan total pembelian. Dengan menggunakan data jumlah transaksi dan total pembelian dari setiap pelanggan bisa dilakukan penambangan data (data mining) menggunakan metode K-Means Clustering. K-Means adalah metode pengelompokan data dengan mengambil parameter sejumlah cluster, dan mempartisi data kedalam cluster tersebut, dengan berpatokan pada kemiripan antar data dalam satu cluster dan ketidakmiripan di antar cluster yang berbeda, pusat dari cluster adalah rata-rata dari nilai anggota cluster yang disebut centroid. Selain itu algoritma K-Means Clustering dinilai memiliki teknik yang sangat cepat dalam proses clustering untuk pengelompokan pelanggan potensial.
Berdasarkan identifikasi masalah yang ada di atas, maka peneliti merumuskan masalah yang ada sebagai berikut : 1. Bagaimana penerapan data mining dalam melakukan pengelompokkan data sale customer? 2. Bagaimana implementasi data mining pada pengolahan data sale customer?
Dari rumusan masalah yang ada di atas, tujuan yang ingin dicapai oleh peneliti pada penelitian ini adalah sebagai berikut : 1. Untuk menerapkan data mining dalam melakukan pengelompokkan data sale customer? barang pada hotel Newton menjadi baik. 2. Untuk mengimplementasikan data mining dalam pengolahan data sale customer?
Data mining bukanlah suatu bidang yang sama sekali baru. Pada tahun 1990 istilah data mining mulai dikenal, ketika pemanfaatan data menjadi suatu yang penting dalam berbagai bidang, mulai dari bidang akademik, bisnis hingga medis. Munculnya data mining didasarkan pada jumlah data yang tersimpan dalam database yang semakin meningkat jumlahnya. Tujuan utama data mining adalah memanfaatkan data dalam basis data dengan mengolahnya sehingga menghasilkan informasi baru yang berguna
Analisis cluster merupakan analisis yang bertujuan untuk mengelompokkan data (obyek) yang didasarkan hanya pada informasi yang ditemukan dalam data yang menggambarkan obyek tersebut dan hubungan di antaranya. Tujuannya adalah agar obyek-obyek yang bergabung dalam sebuah kelompok merupakan obyek-obyek yang mirip (atau berhubungan) satu sama lain dan berbeda (atau tidak berhubungan) dengan obyek dalam kelompok yang lain. Lebih besar kemiripannya (homogenitas) dalam kelompok dan lebih besar perbedaannya di antara kelompok lainnya.
K-Means adalah salah satu algoritma clustering yang sangat popular karena kesederhanaan dan kemampuannya dalam menangani data dengan skala besar. Namun demikian algoritma ini sangat sensitif terhadap centroid awal. Perbedaan centroid awal akan memberikan perbedaan hasil clustering dan apabila centroid awal yang diberikan adalah centroid yang tidak baik maka dapat dipastikan hasil clusteringnya juga tidak baik.
datasiti= read.csv("D:/AAA SEM 6/data mining/data-sale-customers (1).csv", header = T)
datasiti
library(factoextra)
## Warning: package 'factoextra' was built under R version 4.1.3
## Loading required package: ggplot2
## Warning: package 'ggplot2' was built under R version 4.1.3
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
cluster = kmeans(datasiti,3,nstart = 20)
print(cluster)
## K-means clustering with 3 clusters of sizes 50, 60, 330
##
## Cluster means:
## Channel Region Fresh Milk Grocery Frozen Detergents_Paper
## 1 1.960000 2.440000 8000.04 18511.420 27573.900 1996.680 12407.360
## 2 1.133333 2.566667 35941.40 6044.450 6288.617 6713.967 1039.667
## 3 1.260606 2.554545 8253.47 3824.603 5280.455 2572.661 1773.058
## Delicassen
## 1 2252.020
## 2 3049.467
## 3 1137.497
##
## Clustering vector:
## [1] 3 3 3 3 2 3 3 3 3 1 3 3 2 3 2 3 3 3 3 3 3 3 2 1 2 3 3 3 1 2 3 3 3 2 3 3 2
## [38] 3 1 2 2 3 3 1 3 1 1 1 3 1 3 3 2 3 2 3 1 3 3 3 3 1 3 3 3 1 3 3 3 3 3 3 3 3
## [75] 3 3 3 1 3 3 3 3 3 3 3 1 1 2 3 2 3 3 1 3 3 3 3 3 3 3 3 3 3 2 3 3 3 3 3 1 3
## [112] 1 3 3 3 3 3 3 3 3 3 3 3 3 2 2 3 3 3 2 3 3 3 3 3 3 3 3 3 3 3 2 2 3 3 1 3 3
## [149] 3 2 3 3 3 3 3 1 3 3 3 3 3 3 3 1 3 1 3 3 3 3 3 1 3 1 3 3 2 3 3 3 3 2 3 2 3
## [186] 3 3 3 3 3 3 3 3 3 3 3 2 3 3 3 1 1 2 3 3 1 3 3 3 1 3 1 3 3 3 3 1 3 3 3 3 3
## [223] 3 3 3 3 3 3 3 3 3 3 2 3 3 3 3 3 3 2 2 2 3 3 3 3 3 3 3 3 3 1 3 2 3 2 3 3 2
## [260] 2 3 3 2 3 3 1 1 3 1 3 3 3 3 2 3 3 2 3 3 3 3 3 2 2 2 2 3 3 3 2 3 3 3 3 3 3
## [297] 3 3 3 3 3 1 3 3 1 3 1 3 3 1 3 2 1 3 3 3 3 3 3 1 3 3 3 3 2 2 3 3 3 3 3 1 3
## [334] 1 3 2 3 3 3 3 3 3 3 1 3 3 3 2 3 1 3 1 3 1 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
## [371] 2 3 3 3 3 3 3 2 3 3 2 3 2 3 1 3 3 3 3 3 3 3 3 2 3 3 3 3 3 3 3 2 2 2 3 3 2
## [408] 1 3 3 3 3 3 3 3 3 3 3 1 3 3 3 2 3 3 3 3 2 3 3 3 3 3 3 3 2 2 1 3 3
##
## Within cluster sum of squares by cluster:
## [1] 26382784712 25765310355 28184319111
## (between_SS / total_SS = 49.0 %)
##
## Available components:
##
## [1] "cluster" "centers" "totss" "withinss" "tot.withinss"
## [6] "betweenss" "size" "iter" "ifault"
fviz_cluster(cluster, data = datasiti)
Berdasarkan output diatas dapat diketahui bahwa terdapat 3 cluster yang ditandai dengan warna merah, hijau dan biru.
library(factoextra)
fviz_nbclust(datasiti, kmeans, method = "wss")
Dengan menggunakan metode elbow diapatkan hasil cluster yang paling optimal adalah cluster 1.
library(factoextra)
fviz_nbclust(datasiti, kmeans, method = "silhouette")
Dengan menggunakan metode Silhouette diapatkan hasil cluster yang paling optimal adalah cluster 1.
Metode-metode yang digunakan dalam K-means memiliki output atau nilai K-Mean yang berbeda-beda.