1 Pendahuluan

1.1 Latar Belakang

Persaingan yang ketat di dunia usaha saat ini mengharuskan perusahaan benarbenar menyusun strategi untuk mencegah terjadinya perpindahan pelanggan. Maka dari itu tujuan dari penelitian ini adalah mengelompokan pelanggan yang berpotensi untuk menjadi pelanggan tetap atau pelanggan potensial, sehingga perusahaan dapat mempertahankan pelanggan potensial tersebut dengan cara memberikan pelayanan prima, reward, ataupun sebagai target utama dalam promosi produk baru. Pengelompokan pelanggan ini dapat dilakukan dengan melihat tingkat loyalitas pelanggan. Tingkat loyalitas pelanggan dapat diukur dengan menggunakan pengelompokan dari jumlah transaksi dan total pembelian. Dengan menggunakan data jumlah transaksi dan total pembelian dari setiap pelanggan bisa dilakukan penambangan data (data mining) menggunakan metode K-Means Clustering. K-Means adalah metode pengelompokan data dengan mengambil parameter sejumlah cluster, dan mempartisi data kedalam cluster tersebut, dengan berpatokan pada kemiripan antar data dalam satu cluster dan ketidakmiripan di antar cluster yang berbeda, pusat dari cluster adalah rata-rata dari nilai anggota cluster yang disebut centroid. Selain itu algoritma K-Means Clustering dinilai memiliki teknik yang sangat cepat dalam proses clustering untuk pengelompokan pelanggan potensial.

1.2 RUmusan Masalah

Berdasarkan identifikasi masalah yang ada di atas, maka peneliti merumuskan masalah yang ada sebagai berikut : 1. Bagaimana penerapan data mining dalam melakukan pengelompokkan data sale customer? 2. Bagaimana implementasi data mining pada pengolahan data sale customer?

1.3 Tujuan

Dari rumusan masalah yang ada di atas, tujuan yang ingin dicapai oleh peneliti pada penelitian ini adalah sebagai berikut : 1. Untuk menerapkan data mining dalam melakukan pengelompokkan data sale customer? barang pada hotel Newton menjadi baik. 2. Untuk mengimplementasikan data mining dalam pengolahan data sale customer?

2 Tinjauan Pustaka

2.1 Data Mining

Data mining bukanlah suatu bidang yang sama sekali baru. Pada tahun 1990 istilah data mining mulai dikenal, ketika pemanfaatan data menjadi suatu yang penting dalam berbagai bidang, mulai dari bidang akademik, bisnis hingga medis. Munculnya data mining didasarkan pada jumlah data yang tersimpan dalam database yang semakin meningkat jumlahnya. Tujuan utama data mining adalah memanfaatkan data dalam basis data dengan mengolahnya sehingga menghasilkan informasi baru yang berguna

2.2 Clustering

Analisis cluster merupakan analisis yang bertujuan untuk mengelompokkan data (obyek) yang didasarkan hanya pada informasi yang ditemukan dalam data yang menggambarkan obyek tersebut dan hubungan di antaranya. Tujuannya adalah agar obyek-obyek yang bergabung dalam sebuah kelompok merupakan obyek-obyek yang mirip (atau berhubungan) satu sama lain dan berbeda (atau tidak berhubungan) dengan obyek dalam kelompok yang lain. Lebih besar kemiripannya (homogenitas) dalam kelompok dan lebih besar perbedaannya di antara kelompok lainnya.

2.2.1 K-Means

K-Means adalah salah satu algoritma clustering yang sangat popular karena kesederhanaan dan kemampuannya dalam menangani data dengan skala besar. Namun demikian algoritma ini sangat sensitif terhadap centroid awal. Perbedaan centroid awal akan memberikan perbedaan hasil clustering dan apabila centroid awal yang diberikan adalah centroid yang tidak baik maka dapat dipastikan hasil clusteringnya juga tidak baik.

3 Metode Penelitian

3.1 Tahap Peneltian

Identifikasi Masalah Identifikasi masalah dimulai dari menentukan latar belakang sebuah permasalahan hingga menyimpulkan masalah tersebut menjadi pokok masalah dalam sebuah penelitian. Pada penelitian ini, permasalahan yang ada adalah data penjualan yang tidak diolah dengan menggunakan data mining yang mengakibatkan proses stok barang yang tidak efektif dan efisien.
Analisa Data Analisa data yang dilakukan peneliti pada penelitian ini adalah melakukan pengumpulan data primer dari lokasi penelitian yang telah ditentukan lalu dilakukan pembersihan pada data dari noise yang sering disebut data cleaning.
Data Mining Data mining pada penelitian ini adalah melakukan proses perhitungan memanfaatkan algoritma K-means.
Evaluasi Evaluasi pada penelitian ini bertujuan untuk mengetahui ketepatan yang dihasilkan dari proses data mining yang telah dilakukan. Pada penelitian ini, evaluasi akan menggunakan alat bantu berupa aplikasi RapidMiner.
Hasil Penelitian Setelah hasil dari data mining dilakukan evaluasi, maka akan didapatkan hasil penelitian. Pada tahapan ini, hasil penelitian akan dijelaskan agar dapat dimengerti oleh masyarakat

4 Hasil dan Pembahasan

4.1 Memanggil Data

datasiti= read.csv("D:/AAA SEM 6/data mining/data-sale-customers (1).csv", header = T)
datasiti

4.2 Mencari Nilai K-Means

library(factoextra)

## Warning: package 'factoextra' was built under R version 4.1.3

## Loading required package: ggplot2

## Warning: package 'ggplot2' was built under R version 4.1.3

## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa

cluster = kmeans(datasiti,3,nstart = 20)
print(cluster)

## K-means clustering with 3 clusters of sizes 50, 60, 330
## 
## Cluster means:
##    Channel   Region    Fresh      Milk   Grocery   Frozen Detergents_Paper
## 1 1.960000 2.440000  8000.04 18511.420 27573.900 1996.680        12407.360
## 2 1.133333 2.566667 35941.40  6044.450  6288.617 6713.967         1039.667
## 3 1.260606 2.554545  8253.47  3824.603  5280.455 2572.661         1773.058
##   Delicassen
## 1   2252.020
## 2   3049.467
## 3   1137.497
## 
## Clustering vector:
##   [1] 3 3 3 3 2 3 3 3 3 1 3 3 2 3 2 3 3 3 3 3 3 3 2 1 2 3 3 3 1 2 3 3 3 2 3 3 2
##  [38] 3 1 2 2 3 3 1 3 1 1 1 3 1 3 3 2 3 2 3 1 3 3 3 3 1 3 3 3 1 3 3 3 3 3 3 3 3
##  [75] 3 3 3 1 3 3 3 3 3 3 3 1 1 2 3 2 3 3 1 3 3 3 3 3 3 3 3 3 3 2 3 3 3 3 3 1 3
## [112] 1 3 3 3 3 3 3 3 3 3 3 3 3 2 2 3 3 3 2 3 3 3 3 3 3 3 3 3 3 3 2 2 3 3 1 3 3
## [149] 3 2 3 3 3 3 3 1 3 3 3 3 3 3 3 1 3 1 3 3 3 3 3 1 3 1 3 3 2 3 3 3 3 2 3 2 3
## [186] 3 3 3 3 3 3 3 3 3 3 3 2 3 3 3 1 1 2 3 3 1 3 3 3 1 3 1 3 3 3 3 1 3 3 3 3 3
## [223] 3 3 3 3 3 3 3 3 3 3 2 3 3 3 3 3 3 2 2 2 3 3 3 3 3 3 3 3 3 1 3 2 3 2 3 3 2
## [260] 2 3 3 2 3 3 1 1 3 1 3 3 3 3 2 3 3 2 3 3 3 3 3 2 2 2 2 3 3 3 2 3 3 3 3 3 3
## [297] 3 3 3 3 3 1 3 3 1 3 1 3 3 1 3 2 1 3 3 3 3 3 3 1 3 3 3 3 2 2 3 3 3 3 3 1 3
## [334] 1 3 2 3 3 3 3 3 3 3 1 3 3 3 2 3 1 3 1 3 1 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
## [371] 2 3 3 3 3 3 3 2 3 3 2 3 2 3 1 3 3 3 3 3 3 3 3 2 3 3 3 3 3 3 3 2 2 2 3 3 2
## [408] 1 3 3 3 3 3 3 3 3 3 3 1 3 3 3 2 3 3 3 3 2 3 3 3 3 3 3 3 2 2 1 3 3
## 
## Within cluster sum of squares by cluster:
## [1] 26382784712 25765310355 28184319111
##  (between_SS / total_SS =  49.0 %)
## 
## Available components:
## 
## [1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
## [6] "betweenss"    "size"         "iter"         "ifault"

fviz_cluster(cluster, data = datasiti)

Berdasarkan output diatas dapat diketahui bahwa terdapat 3 cluster yang ditandai dengan warna merah, hijau dan biru.

4.2.0.1 Grafik Metode Elbow

library(factoextra)
fviz_nbclust(datasiti, kmeans, method = "wss")

Dengan menggunakan metode elbow diapatkan hasil cluster yang paling optimal adalah cluster 1.

4.2.0.2 Grafik Metode Silhouette

library(factoextra)
fviz_nbclust(datasiti, kmeans, method = "silhouette")

Dengan menggunakan metode Silhouette diapatkan hasil cluster yang paling optimal adalah cluster 1.

5 Kesimpulan dan Saran

5.1 Kesimpulan

Metode-metode yang digunakan dalam K-means memiliki output atau nilai K-Mean yang berbeda-beda.

UAS Data Mining (Clustering)

Program Studi Statistika

1908108010027 - Siti Ramadeska

Tanggal 20 Mei 2022