Berbelanja di Supermarket

Market Basket Analysis (MBA) adalah bagian dari aturan asosiasi yang berguna untuk memperlihatkan pola perilaku pembelian konsumen. Oleh karena itu, analisis ini dinamakan analisis keranjang pasar. Aturan asosiasi ini diharapkan memenuhi syarat minimum untuk support dan confidence (minimum support dan minimum confidence).

Nah, untuk implementasi MBA dengan software ini, maka diperlukan suatu package yang bernama ‘arules’.

Panggil library ‘arules’

library(arules)

Setelah data sudah terpanggil, maka selanjutnya memanggil data yang akan digunakan dalam pengaplikasian MBA.

transaksi_tabular <- read.csv("https://storage.googleapis.com/dqlab-dataset/data_transaksi.txt", sep="\t")
transaksi_tabular

Data yang digunakan ini masih berbentuk data frame, sementara dalam package data harus berberntuk transaction. Oleh karena itu, kita harus mengubah data yang sebelumnya yaitu data frame menjadi data transaction menggunakan fungsi read.transactions().

transaksi <- read.transactions(file="https://storage.googleapis.com/dqlab-dataset/data_transaksi.txt", format="single", sep="\t", cols=c(1,2), skip=1)

transaksi
transactions in sparse format with
 10 transactions (rows) and
 4 items (columns)

Menampilkan Daftar Kode Transaksi

transaksi@itemInfo

Tampilan Transaksi dalam bentuk Matrix

t(transaksi@data)
10 x 4 sparse Matrix of class "ngCMatrix"
             
 [1,] . | | |
 [2,] | . . |
 [3,] . | | .
 [4,] . . | |
 [5,] | . | |
 [6,] . | . |
 [7,] . | | |
 [8,] . . . |
 [9,] | . . |
[10,] | | | .

Urutan 1 - 4 adalah urutan dalam labels

4 x 10 : artinya terdapat 4 item dan 10 transaksi. [1,] s/d [4,] : artinya index yang mewakili tiap item dalam transaksi.

  • Simbol tanda titik . menunjukkan item tidak ada di transaksi.
  • Simbol garis lurus | menunjukkan bahwa item ada di transaksi.

Selanjutnya menghitung frekuensi dari data transaksi untuk melihat pola dari data.

Item Frequency

data_item <- itemFrequency(transaksi, type="absolute")
data_item
     Gula  Pet Food     Sirup Teh Celup 
        4         5         6         8 

Statistik Top 3

#Melakukan sorting pada data_item
data_item <- sort(data_item, decreasing = TRUE)

#Mengambil 3 item pertama
data_item <- data_item[1:3]

#Konversi data_item menjadi data frame dengan kolom Nama_Produk dan Jumlah
data_item <- data.frame("Nama Produk"=names(data_item), "Jumlah"=data_item, row.names=NULL)
data_item

Insight

Hasil akhirnya frekuensi terbanyak adalah “Teh Celup” yang kemudian disusul oleh “Sirup” dan “Pet Food”.

Output Statistik Top 3 Sebagai File

write.csv(data_item, file="top3_item_retail.txt", eol = "\r\n")

Grafik Item Frequency

itemFrequencyPlot(transaksi)

Melihat Itemset per Transaksi dengan Inspect

Inspect digunakan untuk melihat notasi itemset

inspect(transaksi)

Algoritma apriori adalah algoritma yang digunakan untuk mendapatkan aturan asosiasi. Prinsipnya seperti aturan implikasi yaitu ‘jika-maka’.

Beberapa istilah dalam algoritma apriori yaitu sebagai berikut:

  • Support (dukungan): Istilah ini ditujukkan untuk memperlihatkan peluang pelanggan membeli beberapa produk secara bersamaan dari seluruh transaksi. Misalnya, Support ’X=>Y" artinya peluang 2 kejadian yang harus terjadi secara bersamaan.

  • Confidence (tingkat kepercayaan): Istilah ini ditujukkan untuk memperlihatkan peluang kejadian produk yang dibeli secara bersamaan dimana terdapat keyakinan satu produk sudah pasti dibeli. Misalnya confidence ‘X=>Y’, jika terdapat a transaksi dimana X dibeli, dan ada b transaksi dimana X dan Y dibeli maka peluang/nilai confidance adalah a/b.

  • Minimum support: Istilah yang digunakan untuk membatasi frekuensi kejadian atau pemenuhan jumlah support yang harus dipenuhi dalam suatu data sehingga dapat dijadikan aturan.

  • Minimum confidence: Istilah yang digunakan untuk mendefinisikan tingkat minimum dari confidence yang harus dipenuhi.

  • Itemset: istilah yang didefinisikan untuk kelompok suatu produk.

  • Support count: Istilah yang digunakan dalam mendefinisikan frekuensi kejadian untuk sebuah kelompok produk atau itemset dari seluruh transaksi.

  • dan lainnya

Rumus Support:

\(Support (A) = \frac{A}{N}\)

\(Ket:\)

\(A =\) Jumlah transaksi yang mengandung A

\(N =\) Total transaksi

\(Support (A,B) = \frac{A \cap B}{N}\)

Rumus Confidence:

\(Confidence P(B|A) = \frac{A \cap B}{A}\)

Menghasilkan Rules dengan Apriori

apriori(transaksi)
Apriori

Parameter specification:

Algorithmic control:

Absolute minimum support count: 1 

set item appearances ...[0 item(s)] done [0.00s].
set transactions ...[4 item(s), 10 transaction(s)] done [0.00s].
sorting and recoding items ... [4 item(s)] done [0.00s].
creating transaction tree ... done [0.00s].
checking subsets of size 1 2 3 done [0.00s].
writing ... [3 rule(s)] done [0.00s].
creating S4 object  ... done [0.00s].
set of 3 rules 

Menghasilkan 3 rules

lift ratio adalah alat ukur untuk menentukan apakah suatu produk X benar-benar dibeli bersamaan dengan produk Y. Apabila memang benar adanya makan nilai lift ratio akan bernilai lebih besar dari 1. Nilai ini seringkali disebut sebagai ‘rule positif’.

Sementara itu, sebaliknya jika nilai lift ratio kurang dari 1 maka disebut sebagai ‘rule negatif’. Artinya, rule yang dimiliki adalah rule yang kurang baik untuk memprediksi pola yang sama berdasarkan frekuensi item. Selain itu, ini juga menandakan tidak menunjukkan peluang cross-selling, meskipun nilai support dan confidencenya tinggi.

Berikut adalah rumus lift ratio:

\(lift (A=>B)=\frac{Confidence (A=>B)}{Support(B)}\)

Melihat Rules dengan fungsi inspect

#Menghasilkan association rules dan disimpan sebagai variable mba
mba <- apriori(transaksi)
Apriori

Parameter specification:

Algorithmic control:

Absolute minimum support count: 1 

set item appearances ...[0 item(s)] done [0.00s].
set transactions ...[4 item(s), 10 transaction(s)] done [0.00s].
sorting and recoding items ... [4 item(s)] done [0.00s].
creating transaction tree ... done [0.00s].
checking subsets of size 1 2 3 done [0.00s].
writing ... [3 rule(s)] done [0.00s].
creating S4 object  ... done [0.00s].
#Melihat isi dari rules dengan menggunakan fungsi inspect
inspect(mba)

Pada hasil asosiasi tersebut penjualan pet food dengan sirup memiliki nilai support, confidence dan lift ratio yang lebih baik dibandingkan dengan aturan 1 dan 3. Oleh karena itu aturan 2 dirasa adalah yang terbaik.

Artinya ada beberapa opsi action item yang bisa kita lakukan:

  • rekomendasikan kepada setiap pelanggan yang membeli Pet Food untuk membeli Sirup.
  • rak display Pet Food dan Sirup bisa didekatkan.
  • Pet Food dan Sirup dipaketkan bersama dan dijual dengan harga khusus.

Dalam mengaplikasikan hal ini, kita juga bisa memfilter apa saja yang ingin digabungkan dengan menggunakan perintah %in%.

Filter RHS

inspect(subset(mba, rhs %in% "Sirup"))

filter ini akan menunjukkan bagian kanan (rhs) memiliki item ‘sirup’

Filter LHS

inspect(subset(mba, lhs %in% "Gula"))

filter ini akan menunjukkan bagian kiri (lhs) memiliki item ‘gula’

Filter LHS dan RHS

inspect(subset(mba, lhs %in% "Pet Food" & rhs %in% "Sirup"))

filter ini akan menunjukkan bagian kanan (rhs) dan kiri (lhs) memiliki item ‘pet food’ dan ‘sirup’

Menghasilkan Rules dengan Parameter Support dan Confidence

Pada apriori ini menggunakan parameter dimana terdapat batasan minimal untuk support yaitu 0.1 dan confidence yaitu 0.5.

mba <- apriori(transaksi,parameter = list(supp = 0.1, confidence = 0.5))
Apriori

Parameter specification:

Algorithmic control:

Absolute minimum support count: 1 

set item appearances ...[0 item(s)] done [0.00s].
set transactions ...[4 item(s), 10 transaction(s)] done [0.00s].
sorting and recoding items ... [4 item(s)] done [0.00s].
creating transaction tree ... done [0.00s].
checking subsets of size 1 2 3 done [0.00s].
writing ... [16 rule(s)] done [0.00s].
creating S4 object  ... done [0.00s].
# Mengurutkan
mba <- sort(mba, by = "support", decreasing = T)

Inspeksi Rules Yang Dihasilkan

inspect(mba)

Filter LHS dan RHS (2)

inspect(subset(mba, lhs %in% "Teh Celup" | rhs %in% "Teh Celup"))

Melakukan filter dengan operator ‘atau’.

Filter berdasarkan Lift

inspect(subset(mba, (lhs %in% "Teh Celup" | rhs %in% "Teh Celup") & lift>1))

Melakukan filter dengan operator ‘atau’dan kondisi ’lift>1’.

Rekomendasi - Filter dengan %ain%

inspect(subset(mba, (lhs %ain% c("Pet Food", "Gula" ))))
inspect(subset(mba, lift>1.1))

Melakukan visualisasi

Visualisasi Rules dengan Graph

library(arulesViz)
plot(subset(mba, lift>1.1), method="graph")

plot(mba, method="graph")

plot(mba, method="grouped")

github

Connect with me:)

---
title: "MARKET BASKET ANALYSIS"
subtitle: 'Sumber Acuan: DQLAB'
output: 
  html_notebook:
    toc: yes
    toc_depth: 2
    toc_float:
      collapsed: no
      smooth_scroll: no
  html_document:
    toc: yes
    toc_depth: '2'
    df_print: paged
---
![Berbelanja di Supermarket](https://images.pexels.com/photos/3985060/pexels-photo-3985060.jpeg?auto=compress&cs=tinysrgb&dpr=2&h=650&w=940)

Market Basket Analysis (MBA) adalah bagian dari aturan asosiasi yang berguna untuk memperlihatkan pola perilaku pembelian konsumen. Oleh karena itu, analisis ini dinamakan analisis keranjang pasar. Aturan asosiasi ini diharapkan memenuhi syarat minimum untuk support dan confidence (minimum support dan minimum confidence). 

Nah, untuk implementasi MBA dengan software ini, maka diperlukan suatu package yang bernama 'arules'.

# Panggil library 'arules'

```{r}
library(arules)
```

Setelah data sudah terpanggil, maka selanjutnya memanggil data yang akan digunakan dalam pengaplikasian MBA. 

```{r}
transaksi_tabular <- read.csv("https://storage.googleapis.com/dqlab-dataset/data_transaksi.txt", sep="\t")
transaksi_tabular
```

Data yang digunakan ini masih berbentuk data frame, sementara dalam package data harus berberntuk transaction. Oleh karena itu, kita harus mengubah data yang sebelumnya yaitu data frame menjadi data transaction menggunakan fungsi read.transactions().



```{r}
transaksi <- read.transactions(file="https://storage.googleapis.com/dqlab-dataset/data_transaksi.txt", format="single", sep="\t", cols=c(1,2), skip=1)

transaksi
```

# Menampilkan Daftar Kode Transaksi
```{r}
transaksi@itemInfo
```
# Tampilan Transaksi dalam bentuk Matrix
```{r}
t(transaksi@data)
```
Urutan 1 - 4 adalah urutan dalam labels

4 x 10 :  artinya terdapat 4 item dan 10 transaksi.
[1,] s/d [4,] : artinya index yang mewakili tiap item dalam transaksi.

* Simbol tanda titik .  menunjukkan item tidak ada di transaksi.
* Simbol garis lurus |  menunjukkan bahwa item ada di transaksi.

Selanjutnya menghitung frekuensi dari data transaksi untuk melihat pola dari data.

# Item Frequency
```{r}
data_item <- itemFrequency(transaksi, type="absolute")
data_item
```
# Statistik Top 3
```{r}
#Melakukan sorting pada data_item
data_item <- sort(data_item, decreasing = TRUE)

#Mengambil 3 item pertama
data_item <- data_item[1:3]

#Konversi data_item menjadi data frame dengan kolom Nama_Produk dan Jumlah
data_item <- data.frame("Nama Produk"=names(data_item), "Jumlah"=data_item, row.names=NULL)
data_item
```

## Insight 
Hasil akhirnya frekuensi terbanyak adalah "Teh Celup" yang kemudian disusul oleh "Sirup" dan "Pet Food".

# Output Statistik Top 3 Sebagai File
```{r}
write.csv(data_item, file="top3_item_retail.txt", eol = "\r\n")
```

# Grafik Item Frequency
```{r}
itemFrequencyPlot(transaksi)
```
# Melihat Itemset per Transaksi dengan Inspect
Inspect digunakan untuk melihat notasi itemset

```{r}
inspect(transaksi)
```

Algoritma apriori adalah algoritma yang digunakan untuk mendapatkan aturan asosiasi. Prinsipnya seperti aturan implikasi yaitu 'jika-maka'.

Beberapa istilah dalam algoritma apriori yaitu sebagai berikut:

* Support (dukungan): Istilah ini ditujukkan untuk memperlihatkan peluang pelanggan membeli beberapa produk secara bersamaan dari seluruh transaksi. Misalnya, Support 'X=>Y" artinya peluang 2 kejadian yang harus terjadi secara bersamaan. 

* Confidence (tingkat kepercayaan): Istilah ini ditujukkan untuk memperlihatkan peluang kejadian produk yang dibeli secara bersamaan dimana terdapat keyakinan satu produk sudah pasti dibeli. Misalnya confidence 'X=>Y', jika terdapat a transaksi dimana X dibeli, dan ada b transaksi dimana X dan Y dibeli maka peluang/nilai confidance adalah a/b.  

* Minimum support: Istilah yang digunakan untuk membatasi frekuensi kejadian atau pemenuhan jumlah support yang harus dipenuhi dalam suatu data sehingga dapat dijadikan aturan. 

* Minimum confidence: Istilah yang digunakan untuk mendefinisikan tingkat minimum dari confidence yang harus dipenuhi.

* Itemset: istilah yang didefinisikan untuk kelompok suatu produk.

* Support count: Istilah yang digunakan dalam mendefinisikan frekuensi kejadian untuk
sebuah kelompok produk atau itemset dari seluruh transaksi. 

* dan lainnya

Rumus Support:

$Support (A) = \frac{A}{N}$ 

$Ket:$ 

$A =$ Jumlah transaksi yang mengandung A

$N =$ Total transaksi

$Support (A,B) = \frac{A \cap B}{N}$ 

Rumus Confidence:

$Confidence P(B|A) = \frac{A \cap B}{A}$



# Menghasilkan Rules dengan Apriori
```{r}
apriori(transaksi)
```
## Menghasilkan 3 rules 

lift ratio adalah alat ukur untuk menentukan apakah suatu produk X benar-benar dibeli bersamaan dengan produk Y. Apabila memang benar adanya makan nilai lift ratio akan bernilai lebih besar dari 1. Nilai ini seringkali disebut sebagai 'rule positif'. 

Sementara itu, sebaliknya jika nilai lift ratio kurang dari 1 maka disebut sebagai 'rule negatif'. Artinya, rule yang dimiliki adalah rule yang kurang baik untuk memprediksi pola yang sama berdasarkan frekuensi item. Selain itu, ini juga menandakan tidak menunjukkan peluang cross-selling, meskipun nilai support dan confidencenya tinggi. 

Berikut adalah rumus lift ratio:

$lift (A=>B)=\frac{Confidence (A=>B)}{Support(B)}$


# Melihat Rules dengan fungsi inspect
```{r}
#Menghasilkan association rules dan disimpan sebagai variable mba
mba <- apriori(transaksi)

#Melihat isi dari rules dengan menggunakan fungsi inspect
inspect(mba)
```
Pada hasil asosiasi tersebut penjualan pet food dengan sirup memiliki nilai support, confidence dan lift ratio yang lebih baik dibandingkan dengan aturan 1 dan 3. Oleh karena itu aturan 2 dirasa adalah yang terbaik. 

Artinya ada beberapa opsi action item yang bisa kita lakukan:

* rekomendasikan kepada setiap pelanggan yang membeli Pet Food untuk membeli Sirup.
* rak display Pet Food dan Sirup bisa didekatkan.
* Pet Food dan Sirup dipaketkan bersama dan dijual dengan harga khusus.

Dalam mengaplikasikan hal ini, kita juga bisa memfilter apa saja yang ingin digabungkan dengan menggunakan perintah %in%. 

# Filter RHS
```{r}
inspect(subset(mba, rhs %in% "Sirup"))
```
filter ini akan menunjukkan bagian kanan (rhs) memiliki item 'sirup'

# Filter LHS
```{r}
inspect(subset(mba, lhs %in% "Gula"))
```
filter ini akan menunjukkan bagian kiri (lhs) memiliki item 'gula'

# Filter LHS dan RHS
```{r}
inspect(subset(mba, lhs %in% "Pet Food" & rhs %in% "Sirup"))
```

filter ini akan menunjukkan bagian kanan (rhs) dan kiri (lhs) memiliki item 'pet food ' dan 'sirup'

# Menghasilkan Rules dengan Parameter Support dan Confidence

Pada apriori ini menggunakan parameter dimana terdapat batasan minimal untuk support yaitu 0.1 dan confidence yaitu 0.5.

```{r}
mba <- apriori(transaksi,parameter = list(supp = 0.1, confidence = 0.5))

# Mengurutkan
mba <- sort(mba, by = "support", decreasing = T)
```

# Inspeksi Rules Yang Dihasilkan
```{r}
inspect(mba)
```


# Filter LHS dan RHS (2)

```{r}
inspect(subset(mba, lhs %in% "Teh Celup" | rhs %in% "Teh Celup"))
```
Melakukan filter dengan operator 'atau'. 

# Filter berdasarkan Lift
```{r}
inspect(subset(mba, (lhs %in% "Teh Celup" | rhs %in% "Teh Celup") & lift>1))
```
Melakukan filter dengan operator 'atau'dan kondisi 'lift>1'.

# Rekomendasi - Filter dengan %ain%
```{r}
inspect(subset(mba, (lhs %ain% c("Pet Food", "Gula" ))))
```
```{r}
inspect(subset(mba, lift>1.1))
```


# Melakukan visualisasi 

## Visualisasi Rules dengan Graph
```{r}
library(arulesViz)
plot(subset(mba, lift>1.1), method="graph")
```

```{r}
plot(mba, method="graph")
```

```{r}
plot(mba, method="grouped")
```
[2]: https://www.linkedin.com/in/kurniarahmi/
[![github](https://cloud.githubusercontent.com/assets/17016297/18839848/0fc7e74e-83d2-11e6-8c6a-277fc9d6e067.png)][2]

Connect with me:)













