STA1382 Association Rules

Cahya Alkahfi | Rizki Ananda

Pendahuluan

Association Rules (Aturan Asosiasi) adalah konsep dalam analisis data yang digunakan untuk mengidentifikasi hubungan atau pola tersembunyi antara item atau variabel dalam kumpulan data. Metode ini berguna dalam pemahaman dan analisis data, serta dapat digunakan untuk menghasilkan wawasan yang berharga dan mendukung pengambilan keputusan. Metode ini populer dalam bidang data mining dan analisis pasar, terutama dalam domain seperti rekomendasi produk, analisis keranjang belanja, dan strategi pemasaran.

Aturan asosiasi mencoba untuk menemukan korelasi antara item-item dalam dataset yang disebut sebagai itemset. Itemset dapat terdiri dari satu item tunggal (itemset satu elemen) atau beberapa item (itemset multi-elemen). Aturan asosiasi mengidentifikasi hubungan antara item atau kelompok item dalam bentuk “Jika A, maka B” atau “Jika A dan C, maka D”. Aturan ini menunjukkan seberapa sering dua atau lebih item muncul bersamaan dalam data.

Contoh sederhana dari aturan asosiasi adalah “Jika seseorang membeli roti, kemungkinan besar mereka juga akan membeli mentega”. Dalam konteks ini, roti dan mentega adalah item, dan aturan asosiasi mengidentifikasi pola pembelian bersama yang dapat membantu toko atau pengecer untuk menyesuaikan strategi mereka, seperti menempatkan roti dan mentega di dekat satu sama lain di rak.

Kelebihan dan Kekurangan

Berikut adalah beberapa kelebihan dan kekurangan dari association rules:

Kelebihan Association Rules:

Kemampuan mengungkapkan hubungan yang tersembunyi: Association rules dapat mengidentifikasi hubungan atau pola yang mungkin tidak terlihat secara langsung dalam data. Ini dapat membantu dalam mengungkapkan wawasan dan pengetahuan baru yang dapat digunakan untuk pengambilan keputusan.
Interpretasi yang mudah: Aturan asosiasi umumnya memiliki bentuk yang sederhana dan mudah diinterpretasikan, seperti “Jika X, maka Y”. Hal ini memungkinkan pemahaman yang lebih baik dan pemetaan ke tindakan atau keputusan bisnis yang lebih konkret.
Penerapan yang luas: Metode association rules dapat diterapkan dalam berbagai bidang dan industri, seperti e-commerce, pemasaran, pemrosesan bahasa alami, bioinformatika, dan lainnya. Hal ini membuatnya menjadi alat analisis yang serbaguna.
Skalabilitas: Algoritma association rules dapat diterapkan pada dataset yang besar dengan efisien. Beberapa algoritma seperti FP-Growth dan Eclat dirancang untuk mengatasi skala dataset yang besar dengan mengurangi kompleksitas komputasi.

Kekurangan Association Rules:

Efek spurious (kesalahan korelasi palsu): Association rules dapat menghasilkan aturan yang terlihat bermakna, tetapi sebenarnya hanya terjadi secara kebetulan atau memiliki korelasi palsu. Hal ini terutama terjadi ketika ada item yang sangat umum dan muncul bersama secara acak.
Keterbatasan pada data kualitatif: Association rules lebih umum digunakan untuk data transaksional yang berisi item-item diskrit atau kuantitatif. Data dengan atribut kualitatif atau kontinu dapat memerlukan praproses atau metode lain untuk mengubahnya menjadi bentuk yang cocok untuk analisis association rules.
Hanya mengidentifikasi hubungan, bukan kausalitas: Association rules hanya mengungkapkan hubungan statistik antara itemset, bukan hubungan kausal yang sebab-akibat. Mereka tidak memberikan informasi tentang penyebab di balik hubungan atau mengapa suatu pola terjadi.
Sensitif terhadap parameter: Hasil analisis association rules dapat dipengaruhi oleh parameter yang ditentukan seperti batas minimum support dan confidence. Pemilihan parameter yang tidak tepat dapat menghasilkan aturan yang tidak signifikan atau terlalu banyak aturan.
Keterbatasan pada data berdimensi tinggi: Ketika dataset memiliki jumlah atribut yang tinggi, analisis association rules dapat menjadi sulit karena ledakan kombinatorial dan kompleksitas komputasi yang tinggi.

Pemahaman akan kelebihan dan kekurangan association rules membantu dalam menggunakan metode ini secara efektif dan menginterpretasikan hasil analisis dengan hati-hati.

Terminologi pada Association Rules

Berikut adalah beberapa terminologi yang sering digunakan dalam konteks aturan asosiasi:

Itemset: Sebuah kumpulan item yang muncul bersama sebagai satu kesatuan dalam sebuah transaksi atau dataset. Itemset dapat terdiri dari satu item tunggal (itemset satu elemen) atau beberapa item (itemset multi-elemen).
Support (Dukungan): Support adalah ukuran frekuensi atau kejadian suatu itemset dalam dataset. Support dinyatakan sebagai proporsi jumlah transaksi yang mengandung itemset tersebut dibandingkan dengan total jumlah transaksi dalam dataset. Support yang tinggi menunjukkan bahwa itemset tersebut sering muncul bersama dalam data.
Confidence (Tingkat Keyakinan): Confidence mengukur seberapa sering aturan asosiasi terbukti benar berdasarkan sejarah data. Dinyatakan sebagai proporsi transaksi yang berisi itemset A dan juga berisi itemset B dibandingkan dengan jumlah transaksi yang hanya berisi itemset A. Confidence yang tinggi menunjukkan bahwa kemungkinan besar itemset B akan muncul jika itemset A juga ada.
Lift: Lift adalah ukuran untuk mengukur sejauh mana aturan asosiasi meningkatkan kemungkinan munculnya itemset B jika itemset A terjadi. Lift dihitung sebagai rasio dari tingkat keyakinan aturan dengan tingkat dukungan itemset B. Lift yang lebih besar dari 1 menunjukkan adanya hubungan yang lebih kuat antara itemset A dan itemset B.
Support Count: Jumlah absolut transaksi yang mengandung itemset tertentu dalam dataset. Ini merupakan ukuran konkret dari frekuensi itemset dalam data.
Itemset Kandidat: Itemset kandidat adalah kumpulan item yang mungkin menjadi bagian dari aturan asosiasi yang relevan dalam dataset. Itemset kandidat dibentuk melalui proses eksplorasi dan kombinasi item dari itemset sebelumnya.
Minimum Support Threshold: Minimum support threshold adalah ambang batas yang ditentukan sebelumnya untuk menyaring itemset yang memiliki dukungan di atas ambang batas tersebut. Itemset dengan dukungan di bawah ambang batas tersebut dianggap tidak signifikan dan tidak diperhitungkan dalam pembentukan aturan asosiasi.
Redundansi: Redundansi terjadi ketika aturan asosiasi memiliki informasi yang tumpang tindih atau sama dengan aturan lainnya. Aturan yang redundan dapat membingungkan dan tidak memberikan wawasan tambahan yang signifikan.
Leverage (Kulminasi): Leverage adalah ukuran yang menghitung seberapa sering suatu aturan asosiasi terjadi di atas batas minimum yang ditentukan. Ini memberikan informasi tentang seberapa signifikan aturan tersebut dibandingkan dengan aturan acak.
Itemset Pendukung (Supporting Itemset): Itemset pendukung adalah itemset yang terlibat dalam aturan asosiasi tertentu. Itemset pendukung mencakup itemset di bagian kiri dan kanan dari aturan tersebut.
Itemset yang Diprediksi (Predicted Itemset): Itemset yang diprediksi adalah itemset yang muncul bersama berdasarkan aturan asosiasi yang telah ditemukan

Algoritma Apriori pada Association Rules

Salah satu algoritma yang umum digunakan untuk menemukan aturan asosiasi dalam dataset adalah algoritma Apriori. Algoritma Apriori bekerja dengan prinsip bahwa jika sebuah itemset jarang terjadi dalam dataset, maka subsetnya juga jarang terjadi. Algoritma ini bekerja dengan menghasilkan kandidat itemset yang lebih besar secara bertahap berdasarkan kandidat-kandidat yang lebih kecil.

Algoritma ini beroperasi dalam beberapa langkah sebagai berikut:

Langkah Pertama: Pembentukan Itemset Kandidat.
Itemset kandidat pertama terdiri dari semua item tunggal yang ada dalam dataset. Kemudian, itemset kandidat yang lebih besar dibentuk melalui proses gabungan (join) antara itemset kandidat sebelumnya. Gabungan dilakukan hanya jika subsetnya juga merupakan itemset kandidat yang valid berdasarkan prinsip Apriori.

Langkah Kedua: Menghitung Dukungan Itemset Kandidat.
Dalam langkah ini, itemset kandidat diterapkan pada dataset untuk menghitung dukungan atau frekuensi masing-masing itemset. Itemset kandidat yang memiliki dukungan di atas ambang batas minimum yang ditentukan (minimum support threshold) disimpan sebagai itemset pendukung.

Langkah Ketiga: Pembentukan Aturan Asosiasi.
Dari itemset pendukung yang ditemukan, aturan asosiasi dibentuk dengan menghasilkan kombinasi itemset yang lebih kecil. Aturan asosiasi terbentuk dengan membagi itemset pendukung menjadi itemset pada bagian kiri aturan dan itemset pada bagian kanan aturan. Aturan asosiasi yang terbentuk dievaluasi berdasarkan tingkat keyakinan (confidence) yang dihitung dari dukungan itemset pendukung.

Langkah Keempat: Seleksi Aturan Asosiasi.
Aturan asosiasi yang dibentuk dapat memiliki banyak aturan yang redundan atau tidak relevan. Oleh karena itu, langkah ini melibatkan evaluasi dan seleksi aturan asosiasi berdasarkan kriteria tertentu, seperti tingkat keyakinan, lift, atau ukuran lain yang relevan. Aturan asosiasi yang memenuhi kriteria seleksi yang ditetapkan dipilih dan dianggap signifikan.

Algoritma Apriori mencari secara iteratif itemset kandidat, menghitung dukungan, dan membentuk aturan asosiasi hingga tidak ada itemset kandidat yang valid lagi atau tidak ada aturan asosiasi baru yang memenuhi kriteria seleksi yang ditentukan.

Selain algoritma Apriori, terdapat juga beberapa algoritma lain yang digunakan untuk menemukan aturan asosiasi, seperti algoritma FP-Growth (Frequent Pattern Growth) dan Eclat (Equivalence Class Transformation). Algoritma-algoritma ini memiliki pendekatan yang sedikit berbeda dalam pencarian itemset pendukung dan pembentukan aturan asosiasi, tetapi tujuannya tetap sama, yaitu mengidentifikasi pola atau hubungan yang signifikan dalam dataset.

Ilustrasi

Ilustrasi dapat dilihat pada link berikut.

RPubs - Association Rules