

Email : naufal3433@gmail.com
RPubs : https://www.rpubs.com/muhammad_naufal/
Jurusan
: Statistika
Bisnis
Address : Jalan Gunung Galunggung 5 Blok E9,
No.21
Pendahuluan
Klasifikasi adalah proses pengelompokan objek atau data ke dalam
kategori atau kelas berdasarkan ciri-ciri atau atribut tertentu. Metode
klasifikasi merupakan algoritma atau teknik yang digunakan untuk
melakukan proses klasifikasi tersebut.
Keterangan umum terkait metode Klasifikasi adalah sebagai
berikut:
- K-Nearest Neighbors (K-NN): Metode ini
mengklasifikasikan objek berdasarkan mayoritas kelas tetangga
terdekatnya. Jika suatu objek memiliki sebagian besar tetangga dari
suatu kelas tertentu, maka objek tersebut diklasifikasikan ke dalam
kelas tersebut.
- Decision Trees: Decision trees adalah model
prediktif yang menggunakan struktur pohon keputusan untuk melakukan
klasifikasi. Pada setiap simpul pohon, keputusan dibuat berdasarkan
nilai dari suatu atribut.
- Naive Bayes: Metode klasifikasi ini berdasarkan
teorema Bayes dengan asumsi independensi antara setiap pasangan atribut.
Meskipun sederhana, Naive Bayes sering kali efektif dan cepat, terutama
untuk dataset dengan jumlah atribut yang besar.
- Support Vector Machines (SVM): SVM mencari
hyperplane terbaik yang memisahkan dua kelas dalam ruang atribut. Tujuan
utamanya adalah untuk mencari hyperplane yang memiliki margin terbesar
antara dua kelas.
- Random Forest: Random Forest adalah teknik ensemble
learning yang menggabungkan banyak decision trees ke dalam satu model.
Setiap decision tree dibangun secara independen, dan hasil klasifikasi
akhir diperoleh dengan mengambil mayoritas suara dari semua pohon.
- Neural Networks: Jaringan saraf tiruan (Neural
Networks) adalah model komputasi yang terdiri dari neuron-neuron yang
saling terhubung. Dalam konteks klasifikasi, neural networks dapat
digunakan sebagai metode yang sangat kuat untuk mempelajari pola-pola
yang kompleks dari data.
- Logistic Regression: Logistic regression adalah
metode statistik yang digunakan untuk klasifikasi biner, di mana model
berusaha memprediksi probabilitas masuk ke dalam salah satu dari dua
kelas.
- Gradient Boosting Machines (GBM): Menggabungkan
beberapa model lemah (misalnya, decision trees) secara bertahap untuk
meningkatkan kinerja.
- AdaBoost: Membuat model yang berurutan, di mana
setiap model mencoba untuk memperbaiki kesalahan yang dilakukan oleh
model sebelumnyaGradient Boosting Machines (GBM): Menggabungkan beberapa
model lemah (misalnya, decision trees) secara bertahap untuk
meningkatkan kinerja.
- Ensemble Methods: Ensemble methods menggabungkan
prediksi dari beberapa model klasifikasi untuk meningkatkan kinerja
prediksi. Contoh lain dari ensemble methods adalah Boosting dan
Bagging.
Setiap metode klasifikasi memiliki kelebihan dan kelemahan tertentu
tergantung pada sifat data yang dihadapi dan tujuan dari klasifikasi
tersebut. Pemilihan metode klasifikasi yang tepat memerlukan pemahaman
yang baik tentang data yang digunakan serta eksperimen untuk menentukan
metode yang paling cocok untuk kasus tertentu.
Decision Trees
Decision Trees (Pohon Keputusan) adalah model pembelajaran mesin yang
sangat populer untuk tugas klasifikasi dan regresi. Mereka menghasilkan
model yang mudah dipahami dan mudah diinterpretasikan, mirip dengan
logika manusia.

Proses Kerja
Decision Trees
Decision Trees (Pohon Keputusan) adalah algoritma pembelajaran mesin
yang menggunakan struktur pohon berhierarki untuk melakukan prediksi. Di
bawah ini adalah langkah-langkah umum tentang cara kerja algoritma
Decision Trees:
Pemilihan Fitur Algoritma Decision Trees memilih fitur mana yang
akan digunakan untuk membagi data menjadi subgrup yang lebih kecil.
Pemilihan fitur ini dilakukan berdasarkan kriteria tertentu seperti Gini
Impurity atau Information Gain.
Pembagian Data Setelah fitur dipilih, algoritma membagi data
menjadi dua atau lebih subgrup berdasarkan nilai fitur yang dipilih.
Setiap subgrup akan mewakili cabang-cabang dari pohon
keputusan.
Pengulangan Proses pembagian data di atas diulangi pada setiap
cabang pohon secara rekursif hingga satu atau lebih kondisi berhenti
terpenuhi, seperti mencapai jumlah data minimum dalam satu cabang atau
kedalaman maksimum pohon.
Penentuan Label Setelah pembagian data selesai, algoritma
menentukan label (kelas atau nilai) untuk setiap daun pohon berdasarkan
mayoritas kelas atau nilai dalam setiap subgrup.
Pruning (Pemangkasan) Beberapa algoritma Decision Trees dapat
melakukan pruning setelah pembangunan pohon untuk mencegah overfitting,
yaitu dengan menghapus cabang-cabang yang tidak signifikan.
Berikut adalah beberapa konsep penting yang digunakan dalam algoritma
Decision Trees:
- Gini Impurity: Metrik yang mengukur seberapa
seragam sebuah himpunan sampel dari kelas tertentu.
- Information Gain: Metrik yang mengukur penurunan
ketidakpastian setelah pemisahan himpunan sampel.
- Entropy: Konsep dari teori informasi yang digunakan
untuk menghitung Information Gain.
Penggunaan Decision
Trees
Kita akan menggunakan dataset “Iris” yang tersedia dalam paket
datasets
di R. Dataset ini berisi informasi tentang
atribut-atribut bunga Iris (panjang dan lebar sepal dan petal) serta
label kelas (jenis spesies bunga Iris).
Persiapan Data
Pertama-tama, kita perlu memuat dataset dan mempersiapkan data:
# Load dataset
data(iris)
# Lihat struktur dataset
str(iris)
## 'data.frame': 150 obs. of 5 variables:
## $ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
## $ Sepal.Width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
## $ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
## $ Petal.Width : num 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
## $ Species : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...
Pelatihan
Model
Selanjutnya, kita melatih model klasifikasi menggunakan algoritma
Decision Trees:
# Pisahkan fitur dan target
X <- iris[, 1:4]
y <- iris[, 5]
# Pelatihan model Decision Trees
library(rpart)
tree_model <- rpart(y ~ ., data = X, method = "class")
Evaluasi Model
Setelah melatih model, kita dapat mengevaluasi kinerjanya dengan
menggunakan dataset yang sama:
# Prediksi kelas
prediksi <- predict(tree_model, X, type = "class")
# Hitung akurasi
akurasi <- sum(prediksi == y) / length(y)
print(paste("Akurasi model Decision Trees:", akurasi))
## [1] "Akurasi model Decision Trees: 0.96"
Visualisasi
Model
Kita juga dapat memvisualisasikan model Decision Trees yang telah
kita latih
# Load library untuk plotting
library(rpart.plot)
# Plot Decision Trees
rpart.plot(tree_model)

Interpretasi
Hasil
Berdasarkan hasil evaluasi, kita dapat mengevaluasi seberapa baik
model kita dalam memprediksi jenis spesies bunga Iris berdasarkan
atribut-atribut yang ada dalam dataset. Selain itu, kita juga dapat
menginterpretasi struktur pohon keputusan untuk memahami bagaimana model
membuat keputusan
