Email             :
RPubs            : https://www.rpubs.com/muhammad_naufal/
Jurusan          : Statistika Bisnis
Address         : Jalan Gunung Galunggung 5 Blok E9, No.21


1 Pendahuluan

Klasifikasi adalah proses pengelompokan objek atau data ke dalam kategori atau kelas berdasarkan ciri-ciri atau atribut tertentu. Metode klasifikasi merupakan algoritma atau teknik yang digunakan untuk melakukan proses klasifikasi tersebut.

Keterangan umum terkait metode Klasifikasi adalah sebagai berikut:

  • K-Nearest Neighbors (K-NN): Metode ini mengklasifikasikan objek berdasarkan mayoritas kelas tetangga terdekatnya. Jika suatu objek memiliki sebagian besar tetangga dari suatu kelas tertentu, maka objek tersebut diklasifikasikan ke dalam kelas tersebut.
  • Decision Trees: Decision trees adalah model prediktif yang menggunakan struktur pohon keputusan untuk melakukan klasifikasi. Pada setiap simpul pohon, keputusan dibuat berdasarkan nilai dari suatu atribut.
  • Naive Bayes: Metode klasifikasi ini berdasarkan teorema Bayes dengan asumsi independensi antara setiap pasangan atribut. Meskipun sederhana, Naive Bayes sering kali efektif dan cepat, terutama untuk dataset dengan jumlah atribut yang besar.
  • Support Vector Machines (SVM): SVM mencari hyperplane terbaik yang memisahkan dua kelas dalam ruang atribut. Tujuan utamanya adalah untuk mencari hyperplane yang memiliki margin terbesar antara dua kelas.
  • Random Forest: Random Forest adalah teknik ensemble learning yang menggabungkan banyak decision trees ke dalam satu model. Setiap decision tree dibangun secara independen, dan hasil klasifikasi akhir diperoleh dengan mengambil mayoritas suara dari semua pohon.
  • Neural Networks: Jaringan saraf tiruan (Neural Networks) adalah model komputasi yang terdiri dari neuron-neuron yang saling terhubung. Dalam konteks klasifikasi, neural networks dapat digunakan sebagai metode yang sangat kuat untuk mempelajari pola-pola yang kompleks dari data.
  • Logistic Regression: Logistic regression adalah metode statistik yang digunakan untuk klasifikasi biner, di mana model berusaha memprediksi probabilitas masuk ke dalam salah satu dari dua kelas.
  • Gradient Boosting Machines (GBM): Menggabungkan beberapa model lemah (misalnya, decision trees) secara bertahap untuk meningkatkan kinerja.
  • AdaBoost: Membuat model yang berurutan, di mana setiap model mencoba untuk memperbaiki kesalahan yang dilakukan oleh model sebelumnyaGradient Boosting Machines (GBM): Menggabungkan beberapa model lemah (misalnya, decision trees) secara bertahap untuk meningkatkan kinerja.
  • Ensemble Methods: Ensemble methods menggabungkan prediksi dari beberapa model klasifikasi untuk meningkatkan kinerja prediksi. Contoh lain dari ensemble methods adalah Boosting dan Bagging.

Setiap metode klasifikasi memiliki kelebihan dan kelemahan tertentu tergantung pada sifat data yang dihadapi dan tujuan dari klasifikasi tersebut. Pemilihan metode klasifikasi yang tepat memerlukan pemahaman yang baik tentang data yang digunakan serta eksperimen untuk menentukan metode yang paling cocok untuk kasus tertentu.

2 Decision Trees

Decision Trees (Pohon Keputusan) adalah model pembelajaran mesin yang sangat populer untuk tugas klasifikasi dan regresi. Mereka menghasilkan model yang mudah dipahami dan mudah diinterpretasikan, mirip dengan logika manusia.

2.1 Proses Kerja Decision Trees

Decision Trees (Pohon Keputusan) adalah algoritma pembelajaran mesin yang menggunakan struktur pohon berhierarki untuk melakukan prediksi. Di bawah ini adalah langkah-langkah umum tentang cara kerja algoritma Decision Trees:

  1. Pemilihan Fitur Algoritma Decision Trees memilih fitur mana yang akan digunakan untuk membagi data menjadi subgrup yang lebih kecil. Pemilihan fitur ini dilakukan berdasarkan kriteria tertentu seperti Gini Impurity atau Information Gain.

  2. Pembagian Data Setelah fitur dipilih, algoritma membagi data menjadi dua atau lebih subgrup berdasarkan nilai fitur yang dipilih. Setiap subgrup akan mewakili cabang-cabang dari pohon keputusan.

  3. Pengulangan Proses pembagian data di atas diulangi pada setiap cabang pohon secara rekursif hingga satu atau lebih kondisi berhenti terpenuhi, seperti mencapai jumlah data minimum dalam satu cabang atau kedalaman maksimum pohon.

  4. Penentuan Label Setelah pembagian data selesai, algoritma menentukan label (kelas atau nilai) untuk setiap daun pohon berdasarkan mayoritas kelas atau nilai dalam setiap subgrup.

  5. Pruning (Pemangkasan) Beberapa algoritma Decision Trees dapat melakukan pruning setelah pembangunan pohon untuk mencegah overfitting, yaitu dengan menghapus cabang-cabang yang tidak signifikan.

Berikut adalah beberapa konsep penting yang digunakan dalam algoritma Decision Trees:

  • Gini Impurity: Metrik yang mengukur seberapa seragam sebuah himpunan sampel dari kelas tertentu.
  • Information Gain: Metrik yang mengukur penurunan ketidakpastian setelah pemisahan himpunan sampel.
  • Entropy: Konsep dari teori informasi yang digunakan untuk menghitung Information Gain.

2.2 Penggunaan Decision Trees

Kita akan menggunakan dataset “Iris” yang tersedia dalam paket datasets di R. Dataset ini berisi informasi tentang atribut-atribut bunga Iris (panjang dan lebar sepal dan petal) serta label kelas (jenis spesies bunga Iris).

2.2.1 Persiapan Data

Pertama-tama, kita perlu memuat dataset dan mempersiapkan data:

# Load dataset
data(iris)

# Lihat struktur dataset
str(iris)
## 'data.frame':    150 obs. of  5 variables:
##  $ Sepal.Length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
##  $ Sepal.Width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
##  $ Petal.Length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
##  $ Petal.Width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
##  $ Species     : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...

2.2.2 Pelatihan Model

Selanjutnya, kita melatih model klasifikasi menggunakan algoritma Decision Trees:

# Pisahkan fitur dan target
X <- iris[, 1:4]
y <- iris[, 5]

# Pelatihan model Decision Trees
library(rpart)
tree_model <- rpart(y ~ ., data = X, method = "class")

2.2.3 Evaluasi Model

Setelah melatih model, kita dapat mengevaluasi kinerjanya dengan menggunakan dataset yang sama:

# Prediksi kelas
prediksi <- predict(tree_model, X, type = "class")

# Hitung akurasi
akurasi <- sum(prediksi == y) / length(y)
print(paste("Akurasi model Decision Trees:", akurasi))
## [1] "Akurasi model Decision Trees: 0.96"

2.2.4 Visualisasi Model

Kita juga dapat memvisualisasikan model Decision Trees yang telah kita latih

# Load library untuk plotting
library(rpart.plot)

# Plot Decision Trees
rpart.plot(tree_model)

2.2.5 Interpretasi Hasil

Berdasarkan hasil evaluasi, kita dapat mengevaluasi seberapa baik model kita dalam memprediksi jenis spesies bunga Iris berdasarkan atribut-atribut yang ada dalam dataset. Selain itu, kita juga dapat menginterpretasi struktur pohon keputusan untuk memahami bagaimana model membuat keputusan

