| Metric | Value |
|---|---|
| Training Size | 239 samples |
| Test Size | 58 samples |
| Split Ratio | 80% / 20% |
| Tree Depth | 10 |
| Number of Splits | 85 |
Confusion Matrix and Statistics
Reference
Prediction 0 1 2 3 4
0 27 5 3 0 1
1 6 0 1 4 0
2 0 1 0 1 0
3 1 1 2 1 0
4 1 0 1 2 0
Overall Statistics
Accuracy : 0.4828
95% CI : (0.3495, 0.6178)
No Information Rate : 0.6034
P-Value [Acc > NIR] : 0.9769
Kappa : 0.1163
Mcnemar's Test P-Value : NA
Statistics by Class:
Class: 0 Class: 1 Class: 2 Class: 3 Class: 4
Sensitivity 0.7714 0.0000 0.00000 0.12500 0.00000
Specificity 0.6087 0.7843 0.96078 0.92000 0.92982
Pos Pred Value 0.7500 0.0000 0.00000 0.20000 0.00000
Neg Pred Value 0.6364 0.8511 0.87500 0.86792 0.98148
Prevalence 0.6034 0.1207 0.12069 0.13793 0.01724
Detection Rate 0.4655 0.0000 0.00000 0.01724 0.00000
Detection Prevalence 0.6207 0.1897 0.03448 0.08621 0.06897
Balanced Accuracy 0.6901 0.3922 0.48039 0.52250 0.46491
Dataset Heart Disease berasal dari UCI Machine Learning Repository dan berisi data medis pasien dari beberapa rumah sakit, dengan subset Cleveland sebagai yang paling umum digunakan. Dataset ini memiliki sekitar 303 data pasien dan digunakan untuk memprediksi ada atau tidaknya penyakit jantung berdasarkan informasi klinis seperti tekanan darah, kolesterol, hasil EKG, dan parameter pemeriksaan lainnya.
Kolom target menunjukkan kondisi pasien (0 = sehat, 1–4 = ada penyakit), dan dalam banyak penelitian disederhanakan menjadi biner untuk mempermudah analisis. Dataset ini cocok untuk metode decision tree karena kombinasi fitur numerik dan kategorikalnya, tetapi memiliki keterbatasan seperti ukuran yang kecil, data cukup lama, dan adanya missing value sehingga perlu pembersihan terlebih dahulu.
Kasus penyakit jantung masih tinggi, sementara proses identifikasi risikonya sering bergantung pada penilaian manual dan belum memanfaatkan data klinis secara optimal. Dataset Heart Disease dari UCI sebenarnya menyediakan informasi penting seperti tekanan darah, kolesterol, hasil EKG, dan riwayat nyeri dada, namun pola hubungan antar-variabel tersebut belum digali secara sistematis untuk mendukung keputusan medis.
Untuk itu, diperlukan metode analisis yang mampu memberikan prediksi yang akurat sekaligus mudah dipahami. Algoritma Decision Tree dipilih karena menghasilkan model berbentuk aturan percabangan yang transparan dan dapat menjelaskan faktor-faktor apa saja yang paling berpengaruh terhadap risiko penyakit jantung.
Bagaimana memanfaatkan dataset Heart Disease UCI untuk membangun model Decision Tree yang akurat, interpretable, dan mampu membantu mengidentifikasi risiko penyakit jantung secara lebih objektif?
📚 Course: Analysis & Predictive Modeling
📅 Date: November 13, 2025
🎓 Assessment: Midterm Exam
UCI Machine Learning Repository
Heart
Disease Dataset