📊 Overview

Column

📁 Total Records

297

📋 Total Features

14

❌ Missing Values

0

🔄 Duplicates

0

👥 Disease Cases

137

💚 Healthy Cases

160

Column

Age Distribution by Disease Status

Dataset Preview (Interactive Table)

📈 EDA Analysis

Column

Data Quality

Statistics

Categorical

Column

Blood Pressure Distribution

Cholesterol Distribution

Max Heart Rate Distribution

🌳 Decision Tree

Column

Decision Tree Visualization

Column

Feature Importance

Model Information

Metric Value
Training Size 239 samples
Test Size 58 samples
Split Ratio 80% / 20%
Tree Depth 10
Number of Splits 85

📊 Model Performance

Column

🎯 Accuracy

📈 Kappa

🔍 Sensitivity

🎪 Specificity

Column

Confusion Matrix

Performance Metrics

Classification Details

Confusion Matrix and Statistics

          Reference
Prediction  0  1  2  3  4
         0 27  5  3  0  1
         1  6  0  1  4  0
         2  0  1  0  1  0
         3  1  1  2  1  0
         4  1  0  1  2  0

Overall Statistics
                                          
               Accuracy : 0.4828          
                 95% CI : (0.3495, 0.6178)
    No Information Rate : 0.6034          
    P-Value [Acc > NIR] : 0.9769          
                                          
                  Kappa : 0.1163          
                                          
 Mcnemar's Test P-Value : NA              

Statistics by Class:

                     Class: 0 Class: 1 Class: 2 Class: 3 Class: 4
Sensitivity            0.7714   0.0000  0.00000  0.12500  0.00000
Specificity            0.6087   0.7843  0.96078  0.92000  0.92982
Pos Pred Value         0.7500   0.0000  0.00000  0.20000  0.00000
Neg Pred Value         0.6364   0.8511  0.87500  0.86792  0.98148
Prevalence             0.6034   0.1207  0.12069  0.13793  0.01724
Detection Rate         0.4655   0.0000  0.00000  0.01724  0.00000
Detection Prevalence   0.6207   0.1897  0.03448  0.08621  0.06897
Balanced Accuracy      0.6901   0.3922  0.48039  0.52250  0.46491

📄 About

Column

Project Information

Dataset: Heart Disease UCI

Dataset Heart Disease berasal dari UCI Machine Learning Repository dan berisi data medis pasien dari beberapa rumah sakit, dengan subset Cleveland sebagai yang paling umum digunakan. Dataset ini memiliki sekitar 303 data pasien dan digunakan untuk memprediksi ada atau tidaknya penyakit jantung berdasarkan informasi klinis seperti tekanan darah, kolesterol, hasil EKG, dan parameter pemeriksaan lainnya.

Kolom target menunjukkan kondisi pasien (0 = sehat, 1–4 = ada penyakit), dan dalam banyak penelitian disederhanakan menjadi biner untuk mempermudah analisis. Dataset ini cocok untuk metode decision tree karena kombinasi fitur numerik dan kategorikalnya, tetapi memiliki keterbatasan seperti ukuran yang kecil, data cukup lama, dan adanya missing value sehingga perlu pembersihan terlebih dahulu.


Problem Statement

Kasus penyakit jantung masih tinggi, sementara proses identifikasi risikonya sering bergantung pada penilaian manual dan belum memanfaatkan data klinis secara optimal. Dataset Heart Disease dari UCI sebenarnya menyediakan informasi penting seperti tekanan darah, kolesterol, hasil EKG, dan riwayat nyeri dada, namun pola hubungan antar-variabel tersebut belum digali secara sistematis untuk mendukung keputusan medis.

Untuk itu, diperlukan metode analisis yang mampu memberikan prediksi yang akurat sekaligus mudah dipahami. Algoritma Decision Tree dipilih karena menghasilkan model berbentuk aturan percabangan yang transparan dan dapat menjelaskan faktor-faktor apa saja yang paling berpengaruh terhadap risiko penyakit jantung.


Research Question

Bagaimana memanfaatkan dataset Heart Disease UCI untuk membangun model Decision Tree yang akurat, interpretable, dan mampu membantu mengidentifikasi risiko penyakit jantung secara lebih objektif?

Column

Team Members

Kelompok 3

  • Syifa Nurul Fajri (52240001)
  • Nabila Anggita Putri (52240002)
  • Whirdyana Shalfa Ayubi (52240010)
  • Luthfi akhyar Hasibuan (52240014)

Course Information

📚 Course: Analysis & Predictive Modeling
📅 Date: November 13, 2025
🎓 Assessment: Midterm Exam


Technologies Used

  • R Programming Language
  • flexdashboard - Dashboard framework
  • plotly - Interactive visualizations
  • DT - Interactive data tables
  • rpart - Decision tree algorithm
  • caret - Machine learning toolkit

Data Source

UCI Machine Learning Repository
Heart Disease Dataset