PROGRAM STUDI STATISTIKA FAKULTAS TEKNIK
UNIVERSITAS SULTAN AGENG TIRTAYASA
2025

1. Pendahuluan

Klasifikasi salah satu teknik penting dalam mechine learnin dimana sistem mengenali pola dan mengelompokan objek ke dalam kategori tertentu dari data yang akan diuji. Klasifikasi telah digunakan secara luas dalam berbagai bidang. Klasifikasi memiliki peran penting dalam proses pengambilan keputusan berbasis data karna kemampuan pemetaan suatu observasi kealam kelas tertentu. Data iris menjadi salah satu dataset yang sering digunakan untuk menguji kemampuan algoritma klasifikasi. Data iris pertama kali dikenalkan oleh Fisher pada tahun 1936, dataset iris memiliki 150 sampel bunga iris dengan empat fitur morfologi, seperti panjang dan lebar sepal serta panjang dan lebar petal, yang mengklasifikasikan sampel menjadi tiga spesies berbeda dengan struktur data yang sederhana namun data iris tetap mampu menunjukan perbedaan pola antar kelas menjadikan data iris sering digunakan untuk menguji kemampuan berbagai algoritma klasifikasi [1].

Kemampuan model dalam memahami pola hubungan yang terbentuk antar fitur yang bersifat non-linear, karna keterbatasan algoritma yang tidak mampu memetakan kompleksitas tersebut dengan baik [2], menjadi sebuah tantangan dalam proses pembangunan model klasifikasi. Kestabilan model terhadap variasi data juga menjaidi salah satu masalah, karna model yang sangat sensitif pada data pelatihan memiliki resiko akan megalami overfitting dan tejadinya kegagalan pada generalisasi di data baru. Masih ada beberapa tantangan lain, yaitu kebutuhan untuk menjaga akurasi, presisi, dan interpretabilitas model supaya hasil klasifikasi tepat dan dapat dijelaskan secara rasional.

Dalam penelitian ini dibutuhkan algoritma ensamble yang mampu meningkatkan performa prediksi melalui penggabungan beberapa pohon keputusan secara simultan, maka terpilihlah metode klasifikasi random forest. Pendekatan ini membuat model lebih tahan terhadap overfitting dibandingkan pohon keputusan tunggal, karna setiap pohon akan dilatih pada subset data dan subset fitur yang berbeda. Seperti yang sudah dijelaskan dalam tantangan metode klasifikasi, random forest juga bisa menyelesaikan tantangan-tantangan tersebut karena random forest mampu menjelaskan hubungan non-linear antara fitur dan memberikan estimasi tingkat kepentingan setiap variabel, yang dapat mendukung peroses interpretasi hasil klasifikasi. Dengan karakteristik yang telah dijelaskan maka random forest menjadi metode paling sesuai untuk mengevaluasi pola multikategori pada data iris dan menghasilkan pemahaman yang lebih mendalam dari kontribusi masing-masing fitur terhadap proses pengambilan keputusan model.

Meskipun data iris sudah banyak digunakan sebagai studi kasus dalm banyak penelitian tentang mechine learning, penelitian-penelitian sebelumnya anya berfokus pada penyajian akurasi tanpa menguraikan kontribusi fitur atau mekanisme pengambilan keputusan model, sehingga masih banyak ruang untuk terhadirnya analisis yang lebih komperatif. Penerapan random forest pada dataset ini juga dapat memberikan pemahaman yang jelas mengena bagaimaa model menangani variasi antar fitur dan menentukan variabel yang paling berpengaruh dalam proses klasifikasi. Dari petimbangan-perimbangan tersebut, penelitian ini akan berfokus terhadap analisis pada penerapan algoritma random forest untuk klasifikasi spesies bungan pada iris dataset. Penelitianini juga akan melihat kontribusi masing-masing fitur melalui feature importance untuk memberikan pemahaman yang lebih jelas mengenai pola keputusan model.

2. Metode Penelitian

2.1 Jenis dan Desain Penelitian

Penelitian ini merupakan penelitian simulasi berbasis data sekunder yang bertujuan untuk membangun model klasifikasi menggunakan algoritma Random Forest. Data yang digunakan adalah Iris Dataset, sebuah dataset klasik dalam pembelajaran mesin yang pertama kali diperkenalkan oleh Fisher pada tahun 1936. Dataset ini banyak digunakan sebagai data dalam penelitian klasifikasi karena struktur datanya yang terdefinisi dengan jelas dan memiliki tiga kelas yang relatif seimbang. Desain penelitian ini berfokus pada dua aspek utama:

  1. Pembangunan model Random Forest.
  2. Analisis feature importance bawaan random forest.

Dengan desain ini, penelitian tidak hanya menghasilkan model klasifikasi, tetapi juga memberikan penjelasan komprehensif mengenai peranan fitur.

2.2 Sumber Data dan Deskripsi Dataset

Penelitian ini menggunakan dataset Iris yang pertama kali diperkenalkan oleh Fisher pada tahun 1936, dataset klasik pada literatur statistika dan pembelajaran mesin. Dataset iris dipilih karena memiliki ukuran yang relatif kecil, struktur multikelas yang jelas, serta fitur numerik yang homogen. Dataset Iris terdiri dari 150 observasi yang terbagi rata dalam tiga spesies bunga, yaitu Setosa, Versicolor, dan Virginica. Setiap observasi memuat empat variabel prediktor berupa pengukuran morfologi bunga, yaitu:

  1. Sepal Length (cm)
  2. Sepal Width (cm)
  3. Petal Length (cm)
  4. Petal Width (cm)

Keempat variabel tersebut menjadi fitur yang digunakan sebagai input dalam model Random Forest. Variabel target adalah Spesies, dengan tiga kategori seperti disebutkan sebelumnya. Dataset diperoleh dari repositori publik scikit-learn, yang menyediakan versi terstandarisasi dari dataset asli. Sebelum digunakan dalam pemodelan, dataset melalui proses pemeriksaan awal berupa verifikasi nilai hilang, pemeriksaan potensi outlier, untuk memastikan bahwa tidak ada anomali yang dapat mengganggu interpretasi model.

2.3 Prosedur Pengolahan Data

Prosedur pengolahan data dilakukan secara sistematis untuk memastikan bahwa dataset siap digunakan dalam proses pemodelan. Berikut adalah langkah-langkah pengolahan data yang dilakukan:

  1. Pengecekan data hilang atau missing values
  2. Periksa outlier
  3. Pengecekan multikolinearitas informal menggunakan korelasi

2.4 Prosedur Pemodelan

Proses pemodelan dilakukan menggunakan algoritma Random Forest, yaitu metode ensemble learning berbasis bagging yang menggabungkan sejumlah pohon keputusan untuk menghasilkan model klasifikasi yang lebih stabil dan akurat [2]. Tahapan pemodelan dalam penelitian ini terdiri dari dua bagian utama, yaitu pembangunan model Random Forest dan analisis feature importance.

  1. Membangun Model Random Forest

Model Random Forest dibangun dengan menerapkan langkah-langkah inti, yaiu penentuan parameter dasar model, melatih model terhadap keseluruhan dataset, dan proses pembentukan ensamble. Pastikan variasi pohon cukup untuk menghasilkan model yang stabil dan seluruh fitur memiliki relevansi potensial untuk dipertimbangkan oleh mekanisme pemilihan varibel acak pada tiap pemisahan node.

  1. Analisis feature importance

Analisis feature importance digunakan untuk mengidentifikasi variabel mana yang berkontribusi besar terhadap keputusan model. Random Forest menyediakan dua ukuran penting, Mean Decrease in Impurity(MDI) Ukuran ini menghitung seberapa besar sebuah fitur berkontribusi dalam mengurangi impurity (misalnya Gini impurity) di seluruh pohon. Semakin besar nilai MDI, semakin penting fitur tersebut. Dan Mean Decrease in Accuracy(MDA) Ukuran ini didasarkan pada permutation importance, yaitu mengacak nilai suatu fitur dan mengukur seberapa besar penurunan akurasi model. Fitur yang menyebabkan penurunan akurasi paling besar dianggap paling penting. MDA lebih stabil secara teoritis dibanding MDI, namun membutuhkan komputasi lebih besar dan sensitif terhadap data yang memiliki korelasi kuat antar fitur.

3. Hasil dan Pembahasan

3.1 Pemeriksaan dan Persiapan Data

  1. Pemeriksaan nilai hilang

Dataset iris diperiksa menggunakan fungsi ia.na untuk memastikan tidak terdapat nilai hilang yang bisa mengganggu proses modeling.

## Sepal.Length  Sepal.Width Petal.Length  Petal.Width      Species 
##            0            0            0            0            0

Hasil pemeriksaan menunjukkan bahwa seluruh variabel memiliki jumlah nilai hilang sebesar 0. Dengan ini, dataset Iris yang digunakan dalam penelitian ini tidak mengandung missing values baik pada variabel numerik maupun kategorikal.

  1. Pemeriksaan outlier

Pemeriksaan outlier dilakukan menggunakan visualisasi berupa boxplot dan histogram untuk empat variabel numerik pada dataset Iris, yaitu Sepal.Length, Sepal.Width, Petal.Length, dan Petal.Width. Visualisasi ini digunakan untuk mengidentifikasi keberadaan nilai ekstrem yang secara statistik dapat berada jauh dari sebagian besar distribusi data.

Pemeriksaan visual menunjukkan bahwa sebagian besar variabel tidak memiliki nilai ekstrem. Hanya variabel Sepal.Width yang menampilkan beberapa titik di luar whisker, namun pemeriksaan distribusi melalui histogram memperlihatkan bahwa nilai-nilai tersebut masih berada dalam pola variasi data. Secara keseluruhan, tidak terdapat outlier yang perlu dihapus atau ditangani khusus, karena nilai ekstrem yang muncul hanya variasi biologis antar spesies dalam dataset.

  1. Pengecekan Multikolinearitas Informal (korelasi)
##              Sepal.Length Sepal.Width Petal.Length Petal.Width
## Sepal.Length    1.0000000  -0.1175698    0.8717538   0.8179411
## Sepal.Width    -0.1175698   1.0000000   -0.4284401  -0.3661259
## Petal.Length    0.8717538  -0.4284401    1.0000000   0.9628654
## Petal.Width     0.8179411  -0.3661259    0.9628654   1.0000000

Berdasarkan matriks korelasi, terdapat hubungan yang kuat pada variabel terkait petal, namun tidak ditemukan masalah multikolinearitas yang mengganggu proses pemodelan pada Random Forest. Variabel tetap dapat digunakan secara utuh tanpa eliminasi.

3.2 Pembangunan Model dan Analisis Future Importance

  1. Metode Random Forest

Model Random Forest dibangun untuk melakukan klasifikasi terhadap tiga spesies bunga pada dataset Iris menggunakan empat variabel prediktor, yaitu Sepal.Length, Sepal.Width, Petal.Length, dan Petal.Width. Model dibangun dengan 500 pohon untuk memastikan stabilitas prediksi, sedangkan parameter mtry = 2 digunakan untuk mengurangi korelasi antar pohon melalui pemilihan prediktor secara acak pada setiap pemisahan node.

## 
## Call:
##  randomForest(formula = Species ~ ., data = iris, ntree = 500,      mtry = 2, importance = TRUE) 
##                Type of random forest: classification
##                      Number of trees: 500
## No. of variables tried at each split: 2
## 
##         OOB estimate of  error rate: 4.67%
## Confusion matrix:
##            setosa versicolor virginica class.error
## setosa         50          0         0        0.00
## versicolor      0         47         3        0.06
## virginica       0          4        46        0.08

Model yang dihasilkan menunjukkan performa klasifikasi yang tinggi, terlihat pada nilai OOB (Out-of-Bag) error rate yang kecil. Hal ini sejalan dengan karakteristik dataset Iris yang memiliki struktur kelas yang jelas dan separasi fitur yang kuat, terutama pada dimensi petal. Confusion matrix yang ditampilkan dalam output menunjukkan bahwa sebagian besar observasi diklasifikasikan dengan benar ke dalam kelas masing-masing. Kesalahan klasifikasi yang tersisa hanya terjadi pada kombinasi spesies yang memiliki kemiripan morfologi tertentu, namun jumlahnya sangat kecil.

  1. Analisis Feature Importance
##                 setosa versicolor virginica MeanDecreaseAccuracy
## Sepal.Length  7.119133    7.17613  9.010524             11.67235
## Sepal.Width   5.188197    1.03922  5.430783              5.13655
## Petal.Length 23.714913   34.46509 28.269165             35.29114
## Petal.Width  21.008409   30.98461 29.593606             31.76255
##              MeanDecreaseGini
## Sepal.Length        11.358219
## Sepal.Width          2.442972
## Petal.Length        43.395536
## Petal.Width         42.056779

##                   Feature MeanDecreaseAccuracy MeanDecreaseGini
## Sepal.Length Sepal.Length             7.119133          7.17613
## Sepal.Width   Sepal.Width             5.188197          1.03922
## Petal.Length Petal.Length            23.714913         34.46509
## Petal.Width   Petal.Width            21.008409         30.98461

Analisis feature importance menunjukkan bahwa Petal.Length dan Petal.Width merupakan prediktor paling berpengaruh, ditampilkan oleh nilai MeanDecreaseAccuracy dan MeanDecreaseGini yang paling tinggi. Sementara itu, Sepal.Width memiliki pengaruh paling kecil. Temuan ini sejalan dengan karakteristik biologis dataset Iris, di mana dimensi petal merupakan ciri morfologi utama dalam membedakan spesies.

4. Kesimpulan

Serangkaian pemeriksaan awal dan pemodelan yang dilakukan pada dataset Iris memberikan gambaran menyeluruh mengenai kualitas data serta hubungan antar fitur yang digunakan dalam proses klasifikasi. Langkah-langkah seperti pemeriksaan nilai hilang, deteksi outlier, serta pengecekan korelasi antar variabel memiliki kontribusi langsung pada pemahaman struktur data yang mempengaruhi interpretasi model Random Forest.

  1. Pemeriksaan Nilai Hilang

Hasil pemeriksaan nilai hilang menunjukkan bahwa seluruh variabel memiliki jumlah missing value sebesar 0. Kondisi ini memastikan bahwa proses pemodelan dapat menggunakan semua observasi tanpa perlu melakukan penghapusan data.

  1. Pemeriksaan Outlier

Visualisasi melalui boxplot dan histogram untuk mengidentifikasi bahwa sebagian besar variabel tidak memiliki outlier signifikan. Variabel Sepal.Width menampilkan beberapa titik di luar whisker, tetapi distribusinya tetap selaras dengan variasi alami antar spesies. Karena itu, outlier tidak dihapus. Keputusan ini mencegah hilangnya informasi biologis penting yang justru dapat membantu model membedakan kelas. Dengan tetap mempertahankan nilai-nilai ekstrem alami, Random Forest dapat bekerja optimal.

  1. Korelasi Antar Variabel

Analisis korelasi menunjukkan hubungan yang kuat antara variabel Petal.Length dan Petal.Width, serta korelasi sedang antara kedua variabel petal dengan Sepal.Length. Sebaliknya, Sepal.Width memiliki korelasi rendah terhadap fitur lain. Pola korelasi ini penting karena,

  1. Menjelaskan kenapa variabel petal nantinya mendominasi Feature Importance.
  2. Mengonfirmasi bahwa struktur data sangat mendukung pemisahan kelas berdasarkan dimensi petal.
  3. Mengurangi kekhawatiran multikolinearitas, karena Random Forest tidak sensitif terhadap hubungan antar prediktor.
  1. Pemodelan Random Forest

Model Random Forest berhasil mengklasifikasikan spesies dengan performa tinggi. Dengan 500 pohon, sementara mtry = 2 membantu menciptakan keragaman antar pohon sehingga mengurangi overfitting. Seluruh fitur digunakan, dan output menghasilkan error rate yang rendah. Tahap ini menunjukkan bahwa struktur data Iris memang sangat mendukung teknik ensemble seperti Random Forest. Variasi antar kelas terutama pada dimensi petal menciptakan pemisahan yang sangat jelas sehingga model bekerja hampir sempurna.

  1. Analisis Feature Importance

Hasil Feature Importance konsisten dengan pemeriksaan korelasi dan visual data sebelumnya:

  1. Petal.Length adalah fitur paling dominan.
  2. Petal.Width berada tepat di bawahnya.
  3. Sepal.Length memberi kontribusi moderat.
  4. Sepal.Width menjadi fitur dengan pengaruh paling kecil.

Konsistensi antara korelasi, distribusi, dan feature importance memperkuat kesimpulan bahwa dimensi petal merupakan landasan utama pemisahan spesies Iris. Ini memperlihatkan bahwa model bekerja secara pola biologis yang dapat dijelaskan secara statistik.

Secara keseluruhan, dataset Iris menunjukkan kualitas yang sangat baik untuk pemodelan klasifikasi. Pemeriksaan awal memperlihatkan tidak adanya masalah besar seperti missing value atau outlier yang merusak distribusi. Korelasi antar fitur menunjukkan bahwa dimensi petal merupakan indikator alami yang paling kuat dalam membedakan spesies. Pemodelan menggunakan Random Forest mengonfirmasi hal ini melalui feature importance yang konsisten dan performa model yang tinggi. Dengan demikian, seluruh proses analisis menghasilkan gambaran yang selaras antara struktur data, karakter biologis, dan perilaku model.

Daftar Pustaka

[1] Hastie,T., ibshirani,R., & Friedman,J. 2008. The Elements of Statistical Learning Data Mining, Inference, and Prediction Second Edition. California: Springer

[2] Breiman, L. 2001. Random Forests. Machine Learning, 45, 5–32. Doi: https://doi.org/10.1023/A:1010933404324.

[3] Kang, J. (2019). Random forest. RPubs. https://rpubs.com/Jay2548/519589. Diakses tanggal 27 November 2025.

[4] Rahman, B., Fauzi, F., & Amri, S. 2023. Perbandingan Hasil Klasifikasi DataIris menggunakan Algoritma K-Nearest Neighbordan Random Forest. Journal of Data Insights, 1 (1), 19-26.

[5] Primajaya, A., & Sari, B. N. (2018). Random Forest Algorithm for Prediction of Precipitation. Indonesian Journal of Artificial Intelligence and Data Mining (IJAIDM), 1(1), 27–31.

Lampiran

Syntax R

library(tidyverse)
library(caret)
library(randomForest)
library(DALEX)
library(iml)

data(iris)

# 1. Pemeriksaan Nilai Hilang
missing_per_col <- colSums(is.na(iris))
missing_per_col

# 2. Pemeriksaan outlier
par(mfrow = c(2, 4))
for (col in names(iris)[1:4]) {
  boxplot(iris[[col]], main = paste("Boxplot:", col))
  hist(iris[[col]], main = paste("Histogram:", col), xlab = col)
}
par(mfrow = c(1, 1))

# 3.Pengecekan Multikolinearitas
cor_matrix <- cor(iris[, 1:4])
cor_matrix

# Pembangunan Model RF
set.seed(0035)

model_klasifikasi <- randomForest(
  Species ~ ., 
  data = iris, 
  ntree = 500, 
  mtry = 2, 
  importance = TRUE
)

model_klasifikasi
# Analisis Feature Importance
# ambil feature importance
importance(model_klasifikasi)

# plot importance
varImpPlot(model_klasifikasi)

#Tabel
feature_imp <- data.frame(
  Feature = rownames(importance(model_klasifikasi)),
  MeanDecreaseAccuracy = importance(model_klasifikasi)[,1],
  MeanDecreaseGini = importance(model_klasifikasi)[,2]
)
feature_imp