1 Pendahuluan

Perkembangan deep learning telah meningkatkan kinerja klasifikasi citra melalui arsitektur seperti Convolutional Neural Network (CNN), Residual Network (ResNet), dan EfficientNet yang terbukti efektif pada berbagai tugas computer vision, termasuk klasifikasi citra dan deteksi objek [1–6]. Namun, perbedaan karakteristik masing-masing arsitektur dapat menghasilkan tingkat akurasi, efisiensi komputasi, dan kemampuan generalisasi yang berbeda [7,8]. Penelitian ini menggunakan dataset Fashion-MNIST yang terdiri atas 70.000 citra grayscale berukuran 28×28 piksel dari 10 kategori fashion sebagai benchmark untuk evaluasi model [9,10].

Penelitian bertujuan membandingkan kinerja CNN, ResNet, dan EfficientNet berdasarkan metrik accuracy, precision, recall, dan F1-score, serta menguji signifikansi perbedaan performanya melalui pendekatan statistik [18–22]. Hasil penelitian diharapkan dapat memberikan bukti empiris dalam menentukan arsitektur deep learning yang paling efektif untuk klasifikasi Fashion-MNIST dan menjadi referensi bagi penelitian selanjutnya [25].

2 Deskripsi Data

Penelitian ini menggunakan dataset Fashion-MNIST yang diperoleh melalui pustaka Keras Datasets. Dataset ini terdiri atas 70.000 citra grayscale berukuran 28×28 piksel yang merepresentasikan berbagai kategori produk fashion. Sebanyak 60.000 citra digunakan sebagai data pelatihan (training set), sedangkan 10.000 citra digunakan sebagai data pengujian (test set). Unit observasi dalam penelitian ini adalah satu citra produk fashion, dengan variabel respons berupa label kelas yang terdiri atas 10 kategori, yaitu T-shirt/top, Trouser, Pullover, Dress, Coat, Sandal, Shirt, Sneaker, Bag, dan Ankle boot. Variabel prediktor berupa nilai intensitas piksel pada setiap citra yang membentuk matriks berukuran 28×28 atau setara dengan 784 fitur numerik. Dataset Fashion-MNIST banyak digunakan sebagai benchmark dataset dalam penelitian klasifikasi citra karena memiliki tingkat kompleksitas yang lebih tinggi dibandingkan MNIST klasik, sehingga sesuai untuk mengevaluasi kemampuan berbagai arsitektur deep learning dalam melakukan ekstraksi fitur dan klasifikasi objek secara otomatis.

3 Prapemrosesan Data dan Exploratory Data Analysis

Tahap prapemrosesan diawali dengan pemeriksaan kualitas data untuk memastikan tidak terdapat missing values maupun data duplikat pada dataset Fashion-MNIST. Dataset telah tersedia dalam bentuk data pelatihan (training set) sebanyak 60.000 citra dan data pengujian (test set) sebanyak 10.000 citra sehingga tidak diperlukan proses pembagian data tambahan. Selanjutnya, dilakukan normalisasi nilai intensitas piksel dari rentang 0 sampai 255 menjadi 0 sampai 1 dengan membagi setiap nilai piksel dengan 255. Proses ini bertujuan untuk meningkatkan stabilitas dan efisiensi pelatihan model deep learning. Selain itu, dimensi data diubah menjadi format 28×28×1 untuk menyesuaikan kebutuhan input pada arsitektur Convolutional Neural Network (CNN), ResNet, dan EfficientNet.

Gambar 1. Contoh citra dari beberapa kategori pada dataset Fashion-MNIST.

Pada tahap Exploratory Data Analysis dilakukan visualisasi distribusi kelas untuk memastikan keseimbangan jumlah observasi pada setiap kategori fashion.

Gambar 2. Distribusi jumlah observasi pada setiap kelas Fashion-MNIST.

Kondisi ini menunjukkan bahwa dataset bersifat seimbang (balanced dataset) sehingga model tidak cenderung memihak pada kelas tertentu selama proses pelatihan. Hasil visualisasi ini menunjukkan bahwa dataset memiliki distribusi kelas yang relatif seimbang sehingga risiko bias klasifikasi akibat ketidakseimbangan data dapat diminimalkan. Selain itu, beberapa sampel citra dari masing-masing kategori ditampilkan untuk memperoleh pemahaman awal mengenai karakteristik visual objek yang akan diklasifikasikan. Visualisasi awal menunjukkan bahwa beberapa kelas, seperti Shirt, Pullover, dan Coat, memiliki kemiripan bentuk yang berpotensi meningkatkan tingkat kesalahan klasifikasi dibandingkan kelas yang memiliki karakteristik visual lebih khas, seperti Bag dan Ankle Boot.

4 Metode

Penelitian ini menggunakan pendekatan komparatif untuk mengevaluasi kinerja tiga arsitektur deep learning, yaitu Convolutional Neural Network (CNN), Residual Network (ResNet), dan EfficientNet, pada klasifikasi citra Fashion-MNIST. CNN digunakan sebagai model dasar (baseline), sedangkan ResNet dan EfficientNet dipilih karena kemampuannya dalam meningkatkan ekstraksi fitur dan efisiensi pembelajaran.

Sebelum pelatihan, seluruh citra dinormalisasi ke rentang 0–1 dan diubah ke dimensi 28×28×1 agar sesuai dengan input model. Setiap arsitektur dilatih menggunakan optimizer Adam, fungsi loss sparse categorical cross-entropy, batch size 128, validation split 20%, dan maksimum 15 epoch.

Evaluasi dilakukan pada data uji menggunakan metrik accuracy, precision, recall, F1-score, confusion matrix, dan Cohen’s Kappa untuk mengukur kualitas prediksi serta tingkat kesesuaian dengan label aktual. Selain itu, dilakukan analisis statistik terhadap rata-rata dan variasi metrik evaluasi untuk menguji apakah perbedaan performa antararsitektur signifikan secara statistik. Dengan demikian, penelitian ini tidak hanya membandingkan akurasi model, tetapi juga memberikan dasar yang lebih objektif dalam menentukan arsitektur deep learning yang paling efektif untuk klasifikasi Fashion-MNIST.

5 Hasil Analisis

5.1 Hasil Pelatihan Model

Model CNN dilatih menggunakan 60.000 citra data pelatihan dengan validation split 20%, batch size 128, dan 15 epoch. Arsitektur model terdiri atas dua lapisan konvolusi, dua lapisan max pooling, satu lapisan fully connected, serta dropout 30% untuk mengurangi overfitting. Hasil pelatihan menunjukkan peningkatan akurasi dari 76,05% pada epoch pertama menjadi 93,69% pada epoch ke-15, sementara akurasi validasi meningkat dari 84,22% menjadi 92,15%. Selain itu, nilai loss pelatihan dan validasi mengalami penurunan yang konsisten. Temuan ini menunjukkan bahwa model mampu mempelajari pola citra Fashion-MNIST secara efektif dengan kemampuan generalisasi yang baik tanpa indikasi overfitting yang signifikan.

5.2 Evaluasi Performa pada Data Uji

Metrik	Nilai
Accuracy	91,48%
Cohen’s Kappa	0,9053
95% Confidence Interval	(90,92%; 92,02%)
No Information Rate	10,00%
p-value Accuracy > NIR	<0,001

Nilai akurasi sebesar 91,48% menunjukkan bahwa model berhasil mengklasifikasikan lebih dari sembilan dari setiap sepuluh citra secara benar. Selain itu, nilai Cohen’s Kappa sebesar 0,9053 menunjukkan tingkat kesesuaian yang sangat tinggi antara hasil prediksi model dan label aktual setelah memperhitungkan peluang kesesuaian secara acak.

5.3 Accuracy, Precision, Recall, dan F1-Score

Metrik	Nilai (%)
Precision	76,09
Recall	73,20
F1-Score	74,62

Hasil ini menunjukkan bahwa model masih mengalami kesulitan dalam membedakan kategori Shirt dengan kategori lain yang memiliki karakteristik visual serupa.

5.4 Analisis Confusion Matrix

Confusion matrix digunakan untuk mengevaluasi pola kesalahan klasifikasi yang dilakukan oleh model. Sebagian besar prediksi berada pada diagonal utama, yang menunjukkan bahwa model mampu melakukan klasifikasi dengan baik.

Kategori	Prediksi Benar
Bag	984
Sandal	983
Trouser	979
Sneaker	974
Ankle Boot	956

Kesalahan terbesar terjadi pada kategori Shirt yang sering diprediksi sebagai T-shirt/top, Coat, dan Pullover. Temuan ini menunjukkan bahwa kemiripan bentuk dan tekstur antarproduk pakaian menjadi faktor utama yang menyebabkan kesalahan klasifikasi.

5.5 Visualisasi Kurva Pelatihan

Gambar 3. Perkembangan nilai accuracy dan loss selama 15 epoch.

Kurva pelatihan menunjukkan bahwa nilai accuracy pada data pelatihan maupun validasi meningkat secara konsisten selama proses pelatihan. Sebaliknya, nilai loss menunjukkan tren penurunan yang stabil. Tidak terdapat jarak yang terlalu besar antara kurva pelatihan dan validasi, sehingga dapat disimpulkan bahwa model memiliki kemampuan generalisasi yang baik terhadap data yang belum pernah dilihat sebelumnya. Dengan demikian, model tidak mengalami underfitting maupun overfitting yang signifikan.

5.6 Visualisasi Hasil Prediksi

Gambar 4. Hasil visualisasi prediksi pada data uji.

Berdasarkan Gambar 4 Sebagian besar citra yang diuji berhasil diklasifikasikan sesuai dengan label sebenarnya, termasuk kategori Dress, Trouser, Bag, dan Ankle Boot. Hasil visualisasi ini mendukung temuan kuantitatif sebelumnya bahwa model CNN memiliki kemampuan yang baik dalam mengekstraksi fitur visual dari citra Fashion-MNIST dan menggunakannya untuk melakukan klasifikasi secara akurat.

5.7 Visualisasi Salah Klasifikasi

Gambar 5. Visualisasi Contoh Citra yang Salah Diklasifikasikan oleh Model CNN

Hasil visualisasi menunjukkan beberapa contoh citra pada data uji yang mengalami kesalahan klasifikasi oleh model CNN. Sebagian besar kesalahan terjadi pada kategori yang memiliki karakteristik visual yang mirip, seperti Shirt, T-shirt/top, Pullover, dan Coat. Kemiripan bentuk, tekstur, dan siluet pakaian menyebabkan model mengalami kesulitan dalam membedakan kelas-kelas tersebut. Temuan ini konsisten dengan hasil confusion matrix yang menunjukkan bahwa kategori pakaian atas memiliki tingkat kesalahan klasifikasi yang lebih tinggi dibandingkan kategori lain yang memiliki karakteristik visual lebih khas.

5.8 Komparasi Arsitektur Deep Learning

Gambar 6. Perbandingan Accuracy CNN, ResNet, dan EfficientNet

Hasil perbandingan menunjukkan perbandingan nilai accuracy antara CNN, ResNet, dan EfficientNet. EfficientNet memperoleh accuracy tertinggi sebesar 94,05%, diikuti ResNet sebesar 93,12% dan CNN sebesar 90,79%. Hasil ini menunjukkan bahwa arsitektur yang lebih modern mampu menghasilkan performa klasifikasi yang lebih baik dibandingkan CNN sebagai model dasar.

5.9 Analisis Statistik Performa Model

Hasil ANOVA menunjukkan nilai p-value sebesar 1,1×10⁻⁹ (< 0,05), sehingga dapat disimpulkan bahwa terdapat perbedaan performa yang signifikan antara CNN, ResNet, dan EfficientNet.

Tabel 5. Hasil Uji Lanjut Tukey HSD


Perbandingan	Selisih Accuracy (%)	p-value

EfficientNet - CNN	3.263	<0.001

ResNet - CNN	2.337	<0.001

ResNet - EfficientNet	-0.927	<0.001

Hasil uji lanjut Tukey HSD menunjukkan bahwa seluruh pasangan model memiliki perbedaan performa yang signifikan. EfficientNet memberikan performa terbaik, diikuti oleh ResNet dan CNN.

5.10 Keluaran Utama Penelitian

Berdasarkan seluruh hasil evaluasi, model CNN yang dibangun mampu mencapai akurasi sebesar 91,48% pada dataset Fashion-MNIST dengan tingkat kesesuaian prediksi yang sangat tinggi (Cohen’s Kappa = 0,9053). Meskipun masih terdapat kesalahan klasifikasi pada kategori yang memiliki kemiripan visual tinggi, model secara umum menunjukkan performa yang sangat baik dalam mengklasifikasikan citra fashion grayscale berukuran 28×28 piksel. Hasil ini selanjutnya digunakan sebagai model dasar (baseline model) yang akan dibandingkan dengan arsitektur ResNet dan EfficientNet pada tahap komparasi untuk menentukan arsitektur deep learning yang paling efektif pada klasifikasi Fashion-MNIST.

6 Interpretasi dan Diskusi

Hasil penelitian menunjukkan bahwa model CNN mencapai akurasi 91,48% dengan nilai Cohen’s Kappa sebesar 0,9053, yang menandakan kemampuan klasifikasi yang sangat baik dan konsisten terhadap label sebenarnya. Berdasarkan analisis confusion matrix, kategori Trouser, Sandal, Bag, dan Ankle Boot memiliki tingkat klasifikasi yang tinggi karena karakteristik visualnya lebih jelas, sedangkan kategori Shirt lebih sering mengalami kesalahan klasifikasi karena kemiripan bentuk dengan T-shirt/top, Pullover, dan Coat.

Kinerja CNN didukung oleh kemampuannya mengekstraksi fitur citra secara otomatis melalui proses konvolusi dan pooling, sehingga menghasilkan performa yang baik tanpa memerlukan ekstraksi fitur manual. Selain itu, kurva pelatihan dan validasi yang stabil menunjukkan kemampuan generalisasi yang baik tanpa indikasi overfitting yang signifikan. Namun, penelitian ini masih memiliki keterbatasan karena menggunakan citra grayscale berukuran 28×28 piksel dan hanya mengevaluasi satu arsitektur CNN. Oleh karena itu, penelitian selanjutnya disarankan untuk membandingkan CNN dengan arsitektur yang lebih modern, seperti ResNet dan EfficientNet, guna memperoleh model klasifikasi yang lebih optimal.

7 Kesimpulan

Penelitian ini bertujuan untuk mengevaluasi kinerja model Convolutional Neural Network (CNN) dalam mengklasifikasikan citra Fashion-MNIST. Hasil analisis menunjukkan bahwa model CNN mampu mencapai akurasi sebesar 91,48%, dengan nilai Cohen’s Kappa sebesar 0,9053 yang mengindikasikan tingkat kesesuaian prediksi yang sangat tinggi terhadap label sebenarnya. Temuan ini menunjukkan bahwa CNN efektif dalam mengekstraksi fitur visual dan melakukan klasifikasi citra grayscale pada dataset Fashion-MNIST. Berdasarkan hasil evaluasi, sebagian besar kategori fashion berhasil diklasifikasikan dengan baik, terutama kategori Trouser, Sandal, Bag, dan Ankle Boot. Namun, beberapa kesalahan klasifikasi masih terjadi pada kategori yang memiliki karakteristik visual serupa, seperti Shirt, T-shirt/top, Pullover, dan Coat. Hal ini menunjukkan bahwa kemiripan fitur antar kelas masih menjadi tantangan dalam proses klasifikasi.

Secara keseluruhan, CNN terbukti memberikan performa yang baik sebagai model dasar (baseline model) untuk klasifikasi Fashion-MNIST. Untuk meningkatkan kualitas hasil penelitian, direkomendasikan penggunaan arsitektur deep learning yang lebih kompleks seperti ResNet dan EfficientNet, serta penerapan optimasi hiperparameter, teknik data augmentation, dan validasi statistik yang lebih komprehensif. Pendekatan tersebut diharapkan dapat meningkatkan akurasi dan memberikan pemahaman yang lebih mendalam mengenai performa berbagai arsitektur deep learning pada tugas klasifikasi citra.

8 Referensi

[1] LeCun et al. (1998). Gradient-Based Learning Applied to Document Recognition.

[2] He et al. (2016). Deep Residual Learning for Image Recognition.

[3] Tan & Le (2019). EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks.

[4] Goodfellow, I.; Bengio, Y.; Courville, A. Deep Learning. MIT Press, 2016.

[5] Krizhevsky, A.; Sutskever, I.; Hinton, G.E. ImageNet Classification with Deep Convolutional Neural Networks. NIPS, 2012.

[6] Rawat, W.; Wang, Z. Deep Convolutional Neural Networks for Image Classification: A Comprehensive Review. Neural Computation, 2017.

[7] Gu, J.; Wang, Z.; Kuen, J.; et al. Recent Advances in Convolutional Neural Networks. Pattern Recognition, 2018.

[8] Khan, A.; Sohail, A.; Zahoora, U.; Qureshi, A.S. A Survey of the Recent Architectures of Deep CNN. Artificial Intelligence Review, 2020.

[9] Xiao, H.; Rasul, K.; Vollgraf, R. Fashion-MNIST: A Novel Image Dataset for Benchmarking Machine Learning Algorithms. arXiv:1708.07747, 2017.

[10] Chollet, F. Deep Learning with Python. Manning Publications, 2021.

[11] Simonyan, K.; Zisserman, A. Very Deep Convolutional Networks for Large-Scale Image Recognition. ICLR, 2015.

[12] Szegedy, C.; Liu, W.; Jia, Y.; et al. Going Deeper with Convolutions. CVPR, 2015.

[13] Huang, G.; Liu, Z.; Van Der Maaten, L.; Weinberger, K. Densely Connected Convolutional Networks. CVPR, 2017.

[14] Howard, A.G.; Zhu, M.; Chen, B.; et al. MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications. arXiv, 2017.

[15] Dosovitskiy, A.; Beyer, L.; Kolesnikov, A.; et al. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR, 2021.

[16] Bishop, C.M. Pattern Recognition and Machine Learning. Springer, 2006.

[17] James, G.; Witten, D.; Hastie, T.; Tibshirani, R. An Introduction to Statistical Learning. Springer, 2021.

[18] Powers, D.M.W. Evaluation: From Precision, Recall and F-Measure to ROC Analysis. Journal of Machine Learning Technologies, 2011.

[19] Sokolova, M.; Lapalme, G. A Systematic Analysis of Performance Measures for Classification Tasks. Information Processing & Management, 2009.

[20] Kuhn, M.; Johnson, K. Applied Predictive Modeling. Springer, 2013.

[21] Hastie, T.; Tibshirani, R.; Friedman, J. The Elements of Statistical Learning. Springer, 2009.

[22] Demšar, J. Statistical Comparisons of Classifiers over Multiple Data Sets. Journal of Machine Learning Research, 2006.

[23] Géron, A. Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. O’Reilly, 2022.

[24] Chollet, F. Deep Learning with Python, Second Edition. Manning Publications, 2021.

[25] Kelleher, J.D. Deep Learning. MIT Press Essential Knowledge Series, 2019.

Evaluasi Statistik dan Komparasi Arsitektur Deep Learning pada Klasifikasi Fashion-MNIST