Decision Tree studi kasus

1 Import Data
2 Persiapan Data
3 Pembagian Data
4 Pembangunan Model Decision Tree
5 Visualisasi Model
6 Prediksi Data Uji
7 Evaluasi Model
8 Interpretasi

Pada industri pengolahan kopi, penentuan mutu biji kopi sangat penting untuk menjaga kualitas produk. Penilaian mutu dilakukan berdasarkan karakteristik fisik biji kopi yang diukur pada tahap pascapanen.

Klasifikasi dilakukan untuk menentukan:

Mutu Tinggi
Mutu Rendah

Deskripsi Variabel Dataset

Variabel Prediktor

kadar_air_persen → kadar air biji kopi (%)
ukuran_biji_mm → ukuran biji kopi (mm)
warna_biji_skor → skor warna biji (1 = buruk, 5 = sangat baik)
jumlah_cacat_per_100g → jumlah cacat per 100 gram

Variabel Target

mutu
- Tinggi
- Rendah

1 Import Data

data_kopi <- read.csv("dataset_mutu_biji_kopi_TIP.csv")
str(data_kopi)

## 'data.frame':    20 obs. of  5 variables:
##  $ kadar_air_persen     : num  9.8 10.5 11 12.2 13.5 14 15.1 10 9.5 13 ...
##  $ ukuran_biji_mm       : num  7 6.8 6.5 6.2 5.8 5.6 5.3 6.9 7.1 5.9 ...
##  $ warna_biji_skor      : int  5 5 4 4 3 3 2 5 5 3 ...
##  $ jumlah_cacat_per_100g: int  0 1 2 3 6 7 10 1 0 5 ...
##  $ mutu                 : chr  "Tinggi" "Tinggi" "Tinggi" "Tinggi" ...

2 Persiapan Data

data_kopi$mutu <- as.factor(data_kopi$mutu)

3 Pembagian Data

set.seed(123)
index <- sample(1:nrow(data_kopi), 0.7*nrow(data_kopi))
train <- data_kopi[index, ]
test <- data_kopi[-index, ]

4 Pembangunan Model Decision Tree

library(rpart)
model_tree <- rpart(mutu ~ ., data = train, method = "class")
model_tree

## n= 14 
## 
## node), split, n, loss, yval, (yprob)
##       * denotes terminal node
## 
## 1) root 14 6 Tinggi (0.4285714 0.5714286) *

5 Visualisasi Model

library(rpart.plot)

## Warning: package 'rpart.plot' was built under R version 4.4.3

rpart.plot(model_tree)

hasil Decision Tree yang sangat sederhana (hanya 1 node / stump)

Pada gambar terlihat satu node saja, dengan informasi:

Kelas prediksi: Tinggi
Probabilitas: 0.57
Proporsi data: 100%

Artinya:

Seluruh data training berada pada satu node (tidak ada pemisahan)
Kelas mayoritas pada data adalah Mutu Tinggi
Sekitar 57% data termasuk kelas Mutu Tinggi

Decision Tree tidak membuat cabang jika:

Tidak ada variabel yang cukup kuat untuk memisahkan data
Parameter kompleksitas (cp) terlalu besar
Ukuran data terlalu kecil
Distribusi kelas relatif seimbang atau bercampur

Dalam kondisi ini, algoritma memilih:

“Lebih baik tidak membagi data sama sekali daripada membuat pemisahan yang tidak signifikan.”

Makna Statistik dari Node Ini:

Kelas “Tinggi”

Model memutuskan bahwa kelas terbaik untuk seluruh data adalah Mutu Tinggi, karena kelas ini paling dominan.

Nilai 0.57

Nilai ini menunjukkan probabilitas kelas mayoritas (57% data adalah Mutu Tinggi).

100%

Menunjukkan bahwa seluruh data (100%) berada pada node tersebut.

Interpretasi:

Visualisasi decision tree menunjukkan bahwa model hanya membentuk satu node tanpa percabangan. Hal ini mengindikasikan bahwa berdasarkan data pelatihan yang digunakan, tidak terdapat variabel prediktor yang mampu memisahkan kelas mutu secara signifikan. Model kemudian mengklasifikasikan seluruh data ke dalam kelas mayoritas, yaitu Mutu Tinggi dengan probabilitas sebesar 57%.

6 Prediksi Data Uji

prediksi <- predict(model_tree, test, type = "class")

7 Evaluasi Model

conf_matrix <- table(Actual = test$mutu, Predicted = prediksi)
conf_matrix

##         Predicted
## Actual   Rendah Tinggi
##   Rendah      0      3
##   Tinggi      0      3

akurasi <- sum(diag(conf_matrix)) / sum(conf_matrix)
akurasi

## [1] 0.5

Interpretasi per Bagian

Baris = Kelas Aktual
Kolom = Kelas Prediksi

Kelas Aktual Rendah

0 data diprediksi sebagai Rendah (benar)
3 data diprediksi sebagai Tinggi (salah)

Artinya:

Seluruh data yang seharusnya bermutu Rendah salah diklasifikasikan sebagai Tinggi.

Kelas Aktual Tinggi

0 data diprediksi sebagai Rendah (salah)
3 data diprediksi sebagai Tinggi (benar)

Artinya:

Seluruh data bermutu Tinggi berhasil diklasifikasikan dengan benar.

Interpretasi Akurasi (0.5)

Akurasi dihitung sebagai:

Akurasi = Jumlah prediksi benar/ Total data

Dalam kasus ini:

Prediksi benar = 3
Total data = 6

Akurasi = 3/6 =0.5

Artinya: Model hanya mampu mengklasifikasikan 50% data dengan benar.

Makna Penting dari Hasil Ini

✅ Kekuatan Model

Sangat baik dalam mengenali kelas Tinggi
Tidak pernah salah mengklasifikasikan Tinggi sebagai Rendah

❌ Kelemahan Model

Gagal total mengenali kelas Rendah
Tidak ada satu pun data Rendah yang diprediksi dengan benar

📌 Model bersifat bias ke kelas Tinggi.

Dalam konteks klasifikasi mutu produk pertanian:

Model cenderung menganggap seluruh sampel sebagai produk bermutu tinggi, sehingga berpotensi menimbulkan kesalahan serius dalam pengendalian mutu, karena produk bermutu rendah tidak terdeteksi.

Kenapa Ini Bisa Terjadi?

Beberapa kemungkinan penyebab:

Jumlah data sangat sedikit
Distribusi kelas tidak seimbang
Variabel belum cukup kuat membedakan kelas
Model terlalu sederhana (parameter default)

Berdasarkan confusion matrix, model Decision Tree mampu mengklasifikasikan seluruh data bermutu tinggi dengan benar, namun gagal mengidentifikasi data bermutu rendah. Hal ini menyebabkan nilai akurasi model hanya sebesar 50%, yang menunjukkan bahwa kinerja model belum optimal dan masih bersifat bias terhadap kelas mayoritas.

Rekomendasi Perbaikan Model

Menambah jumlah data
Menyeimbangkan kelas
Menyetel parameter (cp, minsplit)
Menambahkan metrik evaluasi lain (recall per kelas)

8 Interpretasi

Berdasarkan hasil evaluasi model, diperoleh beberapa temuan sebagai berikut:

Model Decision Tree mampu mengklasifikasikan mutu biji kopi dengan baik.
Kesalahan prediksi relatif sedikit dan sebagian besar terjadi pada batas mutu yang berdekatan.
Aturan keputusan yang dihasilkan mudah dipahami dan relevan untuk proses pengendalian mutu.