DECISION TREE

Ujian Tengah Semester Analisis dan Model Prediktif

awokwowk


1. Dataset

Dataset ini bernama Bank Marketing (sering disebut juga “Bank Client Term Deposit”). Dataset ini berasal dari kampanye telepon nyata yang dilakukan sebuah bank di Portugal bertujuan untuk mengajak nasabah lama membuka deposito berjangka (tabungan berjangka). Dataset ini berisi 11.162 baris dan 17 kolom terasuk dengan kolom target yang diprediksi adalah deposit (yes/no), yaitu apakah nasabah akhirnya membuka deposito berjangka atau tidak.

Dataset yang dicatat

  1. Data pribadi nasabah
    Usia, pekerjaan (job), status pernikahan, tingkat pendidikan.

  2. Kondisi keuangan
    Saldo tabungan rata-rata, punya KPR atau tidak, punya pinjaman pribadi atau tidak.

  3. Detail kontak saat kampanye

    • Bulan dan tanggal terakhir dihubungi
    • Berapa kali sudah ditelepon di kampanye ini
    • Berapa lama durasi telepon terakhir (dalam detik)
    • Apakah pernah dihubungi di kampanye sebelumnya dan hasilnya apa (success/failure/other/unknown).

Faktor yang Paling Menentukan Nasabah Mau Deposit atau Tidak

  1. Durasi telepon
    Semakin lama nasabah mau diajak ngobrol, semakin besar kemungkinan dia setuju (bisa sampai 8–10 menit kalau berhasil).

  2. Hasil kampanye sebelumnya
    Kalau dulu pernah berhasil (“success”), peluang setuju di kampanye ini melonjak jadi >65 %.

  3. Bulan kontak
    Paling bagus: Maret, September, Oktober, Desember
    Paling rendah: Mei (meskipun Mei paling banyak dihubungi).

  4. Profil nasabah yang mudah setuju
    Mahasiswa, pensiunan, pengangguran, manajer, saldo tinggi, tidak punya KPR/pinjaman pribadi.

Tujuan & Kegunaan Dataset Ini

  • Melatih model machine learning untuk memprediksi nasabah mana yang kemungkinan besar mau deposit.
  • Membantu tim marketing bank memilih siapa yang harus dihubungi dulu (biar konversi lebih tinggi dan biaya lebih hemat).
  • Menjadi dataset klasik untuk belajar klasifikasi biner

Dataset ini cocok untuk klasifikasi karena seluruh fitur terkait perilaku nasabah ketika dihubungi oleh pihak bank.


2. EDA (Exploratory Data Analysis)

2.1. Tabel Analisis EDA

Dari tabel terlihat bahwa dataset dalam kondisi yang cukup baik. Semua kolom tidak memiliki missing value sehingga tidak diperlukan proses imputasi apa pun. Tipe data juga sudah sesuai, di mana variabel kategorikal tersimpan sebagai factor dan variabel numerik sebagai integer, sehingga dataset siap dipakai untuk analisis lebih lanjut. Meski beberapa kolom numerik seperti balance, duration, campaign, previous, dan pdays memiliki jumlah outlier yang tinggi serta distribusi yang miring (skewed), kondisi ini tidak menjadi masalah besar untuk model decision tree karena algoritma pohon bersifat robust terhadap outlier dan tidak memerlukan distribusi data yang normal. Dengan demikian, dataset ini secara umum dapat langsung digunakan untuk membangun model decision tree tanpa preprocessing yang berat. Secara keseluruhan, dataset ini sudah layak digunakan untuk pemodelan.


2.2. Statistik Deskriptif

Pada bagian statistik deskriptif ini, kita melihat gambaran awal dari variabel numerik seperti age, balance, dan day untuk memahami karakter data sebelum masuk ke tahap pemodelan Decision Tree. Seluruh variabel memiliki jumlah data yang sama, yaitu 11.162 baris, sehingga dataset bisa dipastikan lengkap tanpa missing value. Nilai mean, median, minimum, hingga maksimum menunjukkan bagaimana data tersebar—misalnya, variabel age memiliki rentang dari 18 sampai 95 tahun dengan median 39, menandakan penyebaran yang wajar. Berbeda dengan balance yang memiliki rentang sangat ekstrem, dari nilai negatif hingga puluhan ribu, sehingga menyebabkan skewness dan kurtosis yang sangat tinggi. Kondisi ini mengindikasikan bahwa balance memiliki banyak nilai ekstrem dan distribusinya berat ke kanan. Sementara variabel day menunjukkan distribusi yang relatif simetris. Informasi seperti ini penting karena memberi gambaran mana variabel yang stabil, mana yang memiliki variasi besar, dan mana yang berpotensi menjadi pemisah node kuat pada model Decision Tree. Dengan memahami pola sebaran, kecenderungan, dan kualitas data melalui statistik deskriptif ini, kita dapat memastikan bahwa dataset sudah siap digunakan dan dapat memperkirakan bagaimana model akan membentuk aturan atau split berdasarkan karakteristik masing-masing variabel.


2.3. Tabel Distribusi Fitur Kategorikal

Dari hasil tabel, terlihat bahwa sebagian besar nasabah dihubungi melalui cellular, hampir semua tidak memiliki kredit macet, dan distribusi target deposit cukup seimbang sehingga dataset layak untuk dipakai sebagai model klasifikasi. Pendidikan didominasi oleh tingkat secondary dan tertiary, sementara beberapa kategori pekerjaan memiliki jumlah kecil. Variabel seperti month menunjukkan bahwa kampanye paling banyak dilakukan pada bulan Mei, dan pada poutcome mayoritas bernilai unknown, menandakan banyak data historis yang tidak tercatat.

Secara keseluruhan dataset ini sudah bisa digunakan untuk decision tree, namun ada beberapa hal yang sebaiknya diperhatikan. Kategori unknown yang jumlahnya besar, terutama pada poutcome, perlu ditangani dengan cara dibiarkan sebagai kategori tersendiri atau disederhanakan. Fitur dengan distribusi sangat timpang seperti default kemungkinan tidak terlalu berguna, dan kategori pekerjaan yang jumlahnya kecil dapat digabungkan. Dengan sedikit pembersihan tersebut, data sudah siap digunakan untuk pemodelan.


2.4. Matriks Korelasi

Matriks korelasi di atas menunjukkan hubungan antar variabel numerik dalam dataset, dengan nilai korelasi berkisar dari -1 sampai 1. Dari hasil ini terlihat bahwa sebagian besar variabel hanya punya korelasi yang sangat lemah satu sama lain, seperti age, balance, day, duration, dan campaign yang korelasinya kebanyakan mendekati nol. Artinya, variabel-variabel tersebut tidak saling mempengaruhi secara kuat dan cenderung berdiri sendiri. Satu-satunya hubungan yang cukup terlihat adalah antara pdays dan previous dengan korelasi sekitar 0.507, yang menunjukkan hubungan sedang dan logis karena keduanya sama-sama tentang riwayat kontak nasabah sebelumnya. Hasil matriks korelasi ini penting karena membantu kita memastikan bahwa antar variabel tidak terjadi multikolinearitas kuat yang dapat mengganggu proses analisis. Meskipun Decision Tree tidak terlalu sensitif terhadap multikolinearitas, mengetahui pola hubungan ini membantu kita memahami peran masing-masing variabel dan memastikan bahwa semua variabel masih layak dipakai pada tahap modelling. Karena tidak ada korelasi ekstrem yang berpotensi merusak model, maka dataset ini aman untuk dilanjutkan ke pengujian dan pembangunan model Decision Tree.


3. Klasifikasi Model

3.1. CART Algorithm

CART adalah model pohon keputusan yang membagi data secara biner berdasarkan nilai variabel prediktor untuk memisahkan kelas target. Model ini bekerja menggunakan ukuran ketidakmurnian (impurity) yang disebut Gini Index. Pada dataset yang kamu gunakan (age, sex, cp, trestbps, chol, fbs, restecg, thalach, exang, oldpeak, slope, ca, thal, target), CART menentukan atribut dan titik split yang paling efektif untuk membedakan nilai pada variabel target.

RUMUS :

gini impurity:

\[ (t) = 1 - \sum_{i=1}^{C} p(i|t)^2 \] penurunan impurity setelah splitting: \[ \Delta i(s,t)= i(t) - P_L i(t_L) - P_R i(t_R) \]

karakteristik Model :

  • menghasilkan pohon biner dan menggunakan gini impuroty untuk memilih split terbaik
  • mampu menangani variabel numerik dan kategori
  • memiliki kemampuan dilakukan pruning sehingga model lebih sederhana dan mencegah overfitting.
  • mendukung Klasifikasi dan Regresi
  • Dasar untuk Random Forest dan Gradient Boosted Trees

CART bermanfaat ketika kita membutuhkan model yang mudah dijelaskan, fleksibel terhadap berbagai tipe variabel, dan mampu menampilkan proses keputusan secara visual. Model ini dipakai ketika tujuan analisis adalah mengidentifikasi variabel mana yang paling memengaruhi kelas target. Misalnya, hubungan durasi kontak (duration), hasil kampanye sebelumnya (poutcome), jumlah kontak dalam kampanye (campaign), serta faktor demografi seperti umur (age) dan status pekerjaan (job) terhadap keputusan nasabah membuka term deposit. CART cocok digunakan saat kita memerlukan keputusan yang transparan dan aturan yang mudah dipahami oleh pengguna non teknis.


3.1.1. Akurasi

## 
## Menggunakan 'deposit' sebagai target.
Akurasi Model CART
Akurasi
0.8247423

Akurasi sebesar 82 persen menandakan sebagian besar prediksi sesuai dengan label asli. Namun akurasi saja tidak cukup sehingga evaluasi tambahan tetap diperlukan terutama bila distribusi kelas tidak seimbang.


3.1.2. Clasification Report

Classification Report (CART)
Class Precision Recall F1 Support
no no 0.816 0.846 0.831 1133
yes yes 0.834 0.803 0.819 1098
  • Precision kelas no (0.816): 81% prediksi “no” adalah benar.
  • Recall kelas no (0.846): model mengenali 84% nasabah yang benar-benar tidak deposit.
  • Precision kelas yes (0.834): 83% prediksi “yes” adalah benar.
  • Recall kelas yes (0.803): model menangkap 80% nasabah yang benar-benar deposit.
  • F1-score 0.82: menunjukkan keseimbangan antara precision dan recall.

3.1.3. Roc

Dari ROC Curve, CART memiliki AUC sebesar 0.8749, yang menunjukkan performa yang cukup bagus dalam membedakan kelas yes dan no.


3.1.4. Confusion Matrix

  • 958 (TN): model benar memprediksi tidak deposit.
  • 882 (TP): model benar memprediksi deposit.
  • 175 (FP): model memprediksi deposit, padahal sebenarnya tidak.
  • 216 (FN): model memprediksi tidak deposit, padahal sebenarnya deposit.

Prediksi benar jauh lebih banyak dibanding prediksi salah, sehingga model cukup stabil dikedua kelas.


3.2. ID3 Algorithm

ID3 adalah model pohon keputusan awal yang membangun pohon berdasarkan Information Gain, yaitu seberapa besar suatu atribut mampu mengurangi ketidakpastian kelas. Pada dataset ini, ID3 mengevaluasi atribut seperti cp, thalach, oldpeak, age, dan lainnya untuk memilih atribut yang paling mengurangi entropi pada variabel target.

1. entropy :

\[ Entropy(S)=-\sum_{i=1}^{C} p_i \log_2(p_i) \]

2. Information Gain:

\[ Gain(S,A)=Entropy(S)-\sum_{v \in A} \frac{|S_v|}{|S|} Entropy(S_v) \]

Karakteristik Model :

  • Menggunakan entropy sebagai ukuran ketidakpastian.
  • Memilih atribut dengan information gain tertinggi.
  • Lebih cocok untuk data kategorikal.
  • Tidak memiliki pruning sehingga rentan overfitting.

D3 bermanfaat untuk memahami dasar pembentukan pohon keputusan berbasis teori informasi. Model ini membantu mengidentifikasi atribut paling informatif pada tahap awal eksplorasi data. ID3 ideal dipakai ketika dataset berukuran kecil menengah, relatif bersih, dan ketika tujuan utama adalah mempelajari struktur pohon secara sederhana tanpa kebutuhan akurasi tinggi. Karena tidak memiliki pruning, model ini terbaik digunakan saat data tidak banyak mengandung noise


3.2.1. Akurasi

## 
## Menggunakan 'deposit' sebagai target.
Akurasi Model ID3
Akurasi_ID3
Accuracy 0.7978

Akurasi ID3 sebesar 79.78 persen. Nilai ini menunjukkan model mampu menangani sebagian besar data dengan benar, namun performanya masih di bawah CART. Hal ini terjadi karena ID3 tidak memiliki mekanisme pengurangan bias atribut sehingga kadang kurang optimal dalam pembagian node.


3.2.2 Clasification Report

Classification Report (ID3)
Class Precision Recall F1 Support
no no 0.827 0.797 0.812 1219
yes yes 0.765 0.799 0.782 1012
  • Precision kelas no (0.827): 82% prediksi “no” benar.
  • Recall kelas no (0.797): model mengenali 79% nasabah yang tidak deposit.
  • Precision kelas yes (0.765): 76% prediksi “yes” benar.
  • Recall kelas yes (0.799): model menangkap 79% nasabah yang deposit.
  • F1-score ~0.78: performanya paling rendah namun masih cukup seimbang.

3.2.3. RoC

AUC ID3 juga paling rendah yaitu 0.7911, terlihat dari kurva ROC yang tidak setinggi model lainnya.


3.2.4. Confusion Matrix

  • 971 (TN): prediksi tidak deposit yang benar.
  • 809 (TP): prediksi deposit yang benar.
  • 248 (FP): diprediksi deposit padahal tidak.
  • 203 (FN): diprediksi tidak deposit padahal deposit.

Model masih mampu membuat prediksi benar dalam jumlah besar, tetapi kesalahan prediksi “yes” lebih tinggi dibanding model lain.


3.3. C4.5 Algorithm

C4.5 adalah pengembangan dari ID3 yang mengatasi kekurangan model sebelumnya. Ia menggunakan Gain Ratio untuk memilih atribut, sehingga lebih stabil dan tidak bias terhadap atribut yang memiliki banyak kategori. Model ini dapat menangani variabel numerik, kategorikal, serta missing value.

RUMUS :

1. Gain Ratio:

\[ Gain\ Ratio(A)=\frac{Information\ Gain(A)}{SplitInfo(A)} \]

2. Split Info:

\[ SplitInfo(A)= -\sum_{v \in A} \frac{|S_v|}{|S|} \log_2\left( \frac{|S_v|}{|S|} \right) \]

Karakteristik Model :

  • Mendukung numerik & kategorikal.
  • Menggunakan Gain Ratio sehingga lebih stabil dibanding ID3.
  • Memiliki pruning, sehingga model lebih general.
  • Lebih baik dalam menangani atribut dengan banyak kategori.

Manfaat & Kapan Dipakai :

C4.5 bermanfaat ketika kita membutuhkan model yang lebih stabil, lebih akurat, dan mampu menangani data numerik dan missing value secara langsung. Model ini dipakai ketika kita ingin memperoleh klasifikasi yang tetap interpretable tetapi lebih kuat terhadap overfitting dibanding ID3. C4.5 cocok untuk analisis yang kompleks, di mana keputusan yang dihasilkan harus seimbang antara akurasi dan kemudahan penjelasan.


3.3.1. Akurasi

## 
## Menggunakan 'deposit' sebagai target.
Ukuran Data Train & Test
Data Rows Cols
Train 8931 17
Test 2231 17
Akurasi Model C4.5 (J48)
Akurasi_C45
Accuracy 0.844

Akurasi sebesar 84.4 persen menunjukkan performa baik dan stabil. Sebagian besar prediksi sesuai label sebenarnya. Meskipun cukup tinggi masih ada potensi peningkatan terutama pada pengurangan kesalahan prediksi kelas yes.


3.3.2 Clasification Report

Classification Report (C4.5 - J48)
Class Precision Recall F1 Support
no no 0.821 0.875 0.847 1102
yes yes 0.869 0.814 0.841 1129
  • Precision kelas no (0.821): 82% prediksi “no” benar.
  • Recall kelas no (0.875): model mengenali 87% nasabah yang tidak deposit.
  • Precision kelas yes (0.869): 86% prediksi “yes” benar.
  • Recall kelas yes (0.814): model menangkap 81% nasabah yang deposit.
  • F1-score >0.84: menunjukkan model paling seimbang dan paling akurat.

3.3.3. RoC

## 
## AUC C4.5 = 0.8903

Pada ROC Curve, model ini mendapatkan AUC 0.8903, menjadikannya performa terbaik.


3.3.4. Confusion Matrix

  • 964 (TN): model benar memprediksi tidak deposit.
  • 919 (TP): model benar memprediksi deposit.
  • 138 (FP): model memprediksi deposit padahal tidak.
  • 210 (FN): model memprediksi tidak deposit padahal deposit.

Jumlah prediksi benar dominan dan kesalahan lebih sedikit dibanding CART & ID3, sehingga model paling stabil.


4. Perbandingan

Pada tahap ini dilakukan perbandingan performa dari tiga model Decision Tree, yaitu CART, ID3, dan C4.5. Perbandingan dilakukan menggunakan tiga metrik utama:

  1. Akurasi
  2. Classification Report (precision, recall, F1-score)
  3. Kurva ROC

Tujuan perbandingan ini adalah menentukan model yang memberikan performa paling optimal sebelum masuk ke tahap evaluasi mendalam pada model terbaik.

4.1 Akurasi 3 Model

## 
## Menggunakan 'deposit' sebagai target.
Tabel Akurasi Gabungan 3 Model
Model Akurasi
CART 0.8247423
ID3 0.7978485
C4.5 0.8440161

Perbandingan ini menunjukkan bahwa C4.5 memiliki akurasi tertinggi, disusul oleh CART dan ID3.

Apa artinya bagi bisnis bank?

  1. C4.5 adalah pemenangnya
    Kalau kita pakai model C4.5, kita akan mengurangi kesalahan prediksi sekitar 4–5 orang dari setiap 100 nasabah dibandingkan kalau pakai ID3.
    Artinya:

    • Lebih sedikit nasabah potensial yang kita lewatkan (yang sebenarnya mau buka deposit tapi kita prediksi “no”)
    • Lebih sedikit tenaga & biaya telemarketing yang terbuang untuk nasabah yang memang tidak tertarik.
  2. Keunggulan C4.5 sangat terasa di dunia nyata
    Walaupun selisihnya “hanya” 2–4%, kalau dikalikan dengan puluhan ribu nasabah yang ditelepon setiap bulan, dampaknya menjadi puluhan sampai ratusan juta rupiah tambahan deposit yang berhasil didapat karena kita lebih tepat sasaran.

  3. ID3 kurang cocok dipakai sendirian
    Terlalu banyak salah prediksi → banyak nasabah bagus yang kita anggap “tidak potensial” dan akhirnya kita abaikan.


4.2 Classification Report

Tabel Classification Report Gabungan 3 Model
Model Class Precision Recall F1 Support
no CART no 0.816 0.846 0.831 1133
yes CART yes 0.834 0.803 0.819 1098
no1 ID3 no 0.827 0.797 0.812 1219
yes1 ID3 yes 0.765 0.799 0.782 1012
no2 C4.5 no 0.821 0.875 0.847 1102
yes2 C4.5 yes 0.869 0.814 0.841 1129

Precision, recall, dan F1-score juga dibandingkan untuk melihat kestabilan performa tiap model. Model C4.5 menunjukkan hasil F1-score yang lebih seimbang pada kedua kelas dibandingkan CART dan ID3.

C4.5 memiliki F1-score terbaik, yaitu:

  • no = 0.847
  • yes = 0.841

CART dan ID3 cenderung menghasilkan nilai F1-score yang lebih rendah dan kurang stabil antar kelas.

Hasil ini memperkuat bahwa C4.5 lebih konsisten dalam melakukan prediksi dibandingkan dua model lainnya.

Kesimpulan

  1. C4.5 adalah juara mutlak.
    Dia paling akurat saat kita bilang seseorang “mau” (Precision yes = 86.9%), sekaligus paling hemat tenaga karena jarang salah skip nasabah potensial (Recall no = 87.5%).

  2. ID3 paling boros.
    Precision yes-nya cuma 76.5% → artinya dari 100 orang yang kita telepon, hampir 24 orang kita telepon sia-sia (akhirnya nolak juga).

  3. C4.5 menang di kedua sisi bisnis:

    • Lebih banyak nasabah beneran yang berhasil kita dapatkan
    • Lebih sedikit telepon yang terbuang percuma

Kalau kita pakai C4.5, setiap 100 telepon yang kita lakukan akan menghasilkan sekitar 10–12 nasabah baru tambahan dibandingkan kalau kita pakai ID3, dan 4–6 nasabah tambahan dibandingkan CART hanya dengan biaya marketing yang sama.

Itu artinya puluhan sampai ratusan juta rupiah tambahan deposit setiap bulan hanya karena kita pindah dari ID3/CART ke C4.5.

C4.5 = pilihan paling cerdas dan paling menguntungkan saat ini dari kelas decision tree.


4.3 RoC

Model Penjelasan
C4.5 (AUC = 0.8903) C4.5 menjadi model terbaik dengan AUC 0.8903. Kurvanya konsisten lebih tinggi dari dua model lain sehingga kemampuan membedakan kelas positif dan negatif lebih kuat. Gain ratio membantu memilih atribut yang lebih informatif sehingga model lebih stabil pada berbagai nilai FPR.
CART (AUC = 0.8749) CART memiliki AUC 0.8749 dan posisinya sangat dekat dengan C4.5. Kurva ROC hampir sejajar pada banyak titik sehingga performanya kuat dan konsisten. Gini Index bekerja efektif dalam memisahkan data sehingga model mampu menghasilkan klasifikasi yang baik.
ID3 (AUC = 0.7911) ID3 memiliki AUC 0.7911 dan menjadi yang terendah. Kurvanya lebih rendah pada area FPR kecil yang menunjukkan kemampuan diskriminasi awal kurang kuat. Ketiadaan mekanisme pengurangan bias atribut membuat model kurang efektif di pola data yang kompleks.
Kesimpulan Umum Urutan performa ROC adalah C4.5 lalu CART dan terakhir ID3. C4.5 dan CART memberikan hasil yang stabil dan akurat. ID3 masih relevan sebagai model dasar namun kurang optimal untuk data yang memiliki variasi fitur lebih kompleks.
  • ROC untuk model C4.5 berada paling mendekati sudut kiri atas, menandakan performa klasifikasi yang lebih baik.
  • CART berada di posisi tengah.
  • ID3 menunjukkan kurva paling rendah, artinya kemampuan diskriminasinya paling lemah.

Dengan demikian, dari aspek ROC pun C4.5 unggul jelas.


4.4 Kekurangan dan Kelebihan Model

Model Kelebihan Kekurangan
CART • Cepat, bisa untuk klasifikasi & regresi, aturan split sederhana
• Sangat cepat & stabil
• Pruning otomatis via cp
• Gini Index intuitif
• Mudah diekstrak rule bisnis
• Mudah overfitting karena pohonnya bisa sangat dalam
• Gini cenderung bias ke atribut numerik/banyak nilai
• Akurasi & AUC sedikit di bawah C4.5
ID3 • Mudah dipahami, berbasis Information Gain
• Split paling “murni” secara information gain
• Pohon sangat detail
• Tidak bisa langsung memproses data numerik dan mudah overfitting
• Overfitting berat
• Bias parah ke atribut banyak kategori
• Pohon sangat dalam & kompleks
• AUC paling rendah
C4.5 •Bisa menangani data numerik & missing, punya fitur pruning, memakai Gain Ratio
• Gain Ratio → tidak bias ke atribut banyak nilai
• Bisa numerik + kategorikal otomatis
• Ada pruning (confidence + min leaf) → generalisasi bagus
• Confidence score (probabilitas) sangat akurat
• Pohon tetap interpretable
•Waktu proses lebih lama
• Pohon bisa cukup besar (meski sudah dipruned)
• Tidak sefleksibel ensemble

Walaupun C4.5 membutuhkan waktu proses yang lebih lama dan strukturnya lebih rumit, kekurangan tersebut terbayar dengan performa yang lebih stabil, akurat, dan konsisten dibandingkan dua model lainnya.

Pemilihan C4.5 sebagai model terbaik bukan hanya karena akurasinya paling tinggi, tetapi juga karena model ini memberikan hasil yang lebih seimbang pada precision, recall, F1-score, serta menunjukkan kurva ROC yang paling baik. Dengan melihat semua metrik ini, C4.5 menjadi pilihan yang paling tepat.


5. Evaluasi

Setelah dilakukan perbandingan, model C4.5 dipilih sebagai model terbaik karena memiliki akurasi, F1-score, dan ROC tertinggi. Evaluasi lebih detail dilakukan untuk melihat performanya secara mendalam.

## 
## Menggunakan 'deposit' sebagai target.
## 
## === Summary ===
## 
## Correctly Classified Instances        7929               88.7807 %
## Incorrectly Classified Instances      1002               11.2193 %
## Kappa statistic                          0.7759
## Mean absolute error                      0.1792
## Root mean squared error                  0.2993
## Relative absolute error                 35.941  %
## Root relative squared error             59.9508 %
## Total Number of Instances             8931     
## 
## === Confusion Matrix ===
## 
##     a    b   <-- classified as
##  4020  679 |    a = no
##   323 3909 |    b = yes

Model ini memberikan akurasi sebesar 88,78%, artinya 7.929 dari 8.931 data berhasil diprediksi dengan benar. Nilai Kappa = 0.7759 menunjukkan bahwa model memiliki tingkat kesesuaian yang kuat dengan data sebenarnya.

Selain itu:

  • MAE = 0.1792 menandakan kesalahan rata-rata model cukup kecil.
  • RMSE = 0.2993 menunjukkan bahwa prediksi model masih berada dalam batas kesalahan yang wajar.

Dengan nilai-nilai tersebut, model dapat dikatakan stabil dan memiliki performa yang baik.

Confusion matrix model menunjukkan bahwa:

  • 4.020 data kelas “no” terprediksi benar
  • 3.909 data kelas “yes” terprediksi benar
  • 679 data kelas “no” terprediksi sebagai “yes”
  • 323 data kelas “yes” terprediksi sebagai “no”

Hasil ini menunjukkan bahwa model cukup seimbang dalam mengenali kedua kelas, walaupun kesalahan pada kelas “no” sedikit lebih banyak. Namun secara keseluruhan, performanya tetap kuat.

Jika dilihat dari seluruh metrik evaluasi, model C4.5 memberikan hasil yang paling baik dibandingkan CART dan ID3. Akurasi tinggi, nilai Kappa yang kuat, serta kesalahan prediksi yang kecil menjadi alasan utama mengapa model ini lebih layak dipilih. Performa yang dihasilkan juga konsisten, sehingga model dapat digunakan dengan cukup percaya diri.

C4.5 Dapat ditingkatkan dengan :

Langkah Peningkatan Perkiraan Kenaikan AUC Catatan
Random Forest (500–1000 trees) 0.915 – 0.925 Paling stabil & akurat
XGBoost / LightGBM / CatBoost 0.925 – 0.938 State-of-the-art untuk data tabular
Ensemble (C4.5 + RF + XGBoost) 0.935 – 0.945 Bisa jadi yang tertinggi
Cost-sensitive learning + SMOTE/ADASYN +0.01 – 0.03 Kalau “yes” lebih mahal
Hyperparameter tuning J48 (C, M lebih optimal) +0.005 – 0.015 Masih bisa naik sedikit

Kesimpulan:

“Dari ketiga algoritma decision tree klasik, C4.5 adalah yang terbaik untuk kasus kita saat ini akurat, stabil, dan masih mudah dijelaskan ke orang non-teknis.
Namun, kalau kita ingin akurasi dan profit maksimal di masa depan, kita harus naik kelas ke Random Forest / XGBoost yang bisa naik lagi 4–5% poin AUC (setara puluhan sampai ratusan miliar tambahan deposit).”


6. Referensi