Logo

Laporan Analisis dan Pemodelan Prediktif – Perbandingan Ensamble Models

1. Pengenalan Ensemble Models

Ensemble learning adalah pendekatan dalam machine learning yang menggabungkan beberapa model (biasanya model lemah/weak learners) untuk menghasilkan model prediktif yang lebih kuat, stabil, dan akurat. Konsep utamanya: “menggabungkan banyak pikiran lebih baik daripada satu.” Dalam konteks penelitian ini, pendekatan ensemble dipilih karena mampu menangani data dengan kompleksitas tinggi, hubungan non-linear, serta performanya yang terbukti lebih baik dibanding model tunggal.

Ensemble methods secara umum terbagi menjadi dua kategori utama:

Bagging (Bootstrap Aggregating) → fokus mengurangi variance
Boosting → fokus mengurangi bias secara bertahap

Tiga model yang digunakan dalam penelitian ini mewakili dua pendekatan tersebut:

Random Forest → bagging
GBM → boosting dasar
XGBoost → boosting modern yang dioptimasi

Di bawah ini penjelasan tiap model.

1.1 Random Forest

Random Forest adalah metode ensemble berbasis bagging yang menggabungkan banyak pohon keputusan (decision tree) yang dilatih pada sampel bootstrap. Setiap pohon hanya melihat sebagian fitur untuk membuat split, sehingga menghasilkan variasi antar pohon dan menurunkan risiko overfitting.

1. Rumus Dasar Random Forest

1. Hasilkan sampel bootstrap B dari data pelatihan.

2. Latih Pohon Keputusan pada setiap sampel:

Pada setiap pemisahan, pertimbangkan subset fitur acak (\(m dari p\)).

3. Gabungkan prediksi:

• Klasifikasi

\[ \hat{y} = \text{mode}{T_1(x), T_2(x), \ldots, T_B(x)} \]

Penjelasan variabel:

(\(\hat{y}\)) : Prediksi akhir.
(\(T_b(x)\)) : Prediksi dari pohon ke-b untuk input (x).
(\(B\)) : Jumlah pohon (bootstrap samples).
mode{…} : Nilai yang paling sering muncul (mayoritas suara).

• Regresi

\[ \hat{y} = \frac{1}{B} \sum_{b=1}^{B} T_b(x) \]

Penjelasan variabel:

(\(\hat{y}\)) : Prediksi akhir (nilai rata-rata).
(\(T_b(x)\)) : Prediksi dari pohon ke-b untuk input (x).
(\(B\)) : Jumlah pohon yang digunakan dalam ensemble.
(\(\frac{1}{B} \sum\)) : Rata-rata prediksi seluruh pohon. Karakteristik Utama
Termasuk metode bagging
Menggunakan bootstrap sampling
Mengambil subset acak fitur di setiap split
Hasil prediksi berdasarkan majority voting (klasifikasi) atau rata-rata (regresi)

Kelebihan

Tahan terhadap overfitting
Stabil meskipun data memiliki noise
Dapat menangani data numerik maupun kategorik
Menyediakan feature importance

Kelemahan

Interpretabilitas rendah (karena gabungan banyak pohon)
Waktu komputasi bisa meningkat jika jumlah pohon terlalu besar

1.2 Gradient Boosting Machines (GBM)

GBM adalah metode boosting yang membangun model secara bertahap. Setiap pohon baru berusaha memperbaiki kesalahan dari pohon sebelumnya dengan gradient descent pada fungsi loss. Berbeda dengan Random Forest, pohon tidak dibuat secara paralel tetapi berurutan.

Rumus Dasar GBM (Regresi)

1. Inisialisasi Model Awal

Model pertama adalah nilai konstanta yang meminimalkan fungsi loss:

\[ F_0(x) = \arg\min_{\gamma} \sum_{i=1}^{n} L(y_i, \gamma) \]

Untuk regresi MSE, nilai ini adalah rata-rata target:

\[ F_0(x) = \bar{y} \]

2. Untuk Setiap Iterasi (m = 1, 2, , M)

(a) Hitung Negative Gradient (Residual)

Residual mewakili seberapa besar kesalahan model sebelumnya:

\[ r_{im} = -\left[ \frac{\partial L(y_i, F(x_i))}{\partial F(x_i)} \right] {F(x_i)=F*{m-1}(x_i)} \]

Untuk regresi MSE:

\[ r_{im} = y_i - F_{m-1}(x_i) \]

(b) Latih Pohon Ke-m Menggunakan Residual

\[ h_m(x) \approx r_{im} \]

Pohon regresi dilatih untuk memprediksi residual tersebut.

(c) Hitung Optimal Weight (Shrinkage Factor)

Untuk setiap leaf terminal (j):

\[ \gamma_{jm} = \arg\min_{\gamma} \sum_{x_i \in R_{jm}} L\big(y_i,; F_{m-1}(x_i) + \gamma \big) \]

Untuk regresi MSE:

\[ \gamma_{jm} = \frac{\sum_{x_i \in R_{jm}} r_{im}}{|R_{jm}|} \]

(d) Update Model

\[ F_m(x) = F_{m-1}(x) + \nu \sum_{j=1}^{J_m} \gamma_{jm} \mathbf{1}(x \in R_{jm}) \]

Di mana:

(\(\nu\)) = learning rate
(\(J_m\)) = jumlah leaf pada pohon ke-m

3. Model Akhir

\[ F_M(x) = F_0(x) + \sum_{m=1}^{M} \nu \cdot h_m(x) \]

Karakteristik Utama

Menggunakan boosting sekuensial
Tiap model baru memperbaiki residual error model sebelumnya
Menggunakan gradient descent untuk optimasi

Kelebihan

Akurasi tinggi pada berbagai jenis permasalahan
Mampu menangani hubungan non-linear
Mendukung berbagai loss function

Kelemahan

Rentan overfitting jika parameter tidak diatur dengan baik
Training lebih lambat karena sifatnya sekuensial
Sensitif terhadap outlier

1.3 Extreme Gradient Boosting (XGBoost)

XGBoost (Extreme Gradient Boosting) merupakan pengembangan dari GBM yang lebih efisien, cepat, dan akurat. XGBoost menambahkan regularisasi L1 dan L2 untuk mengurangi overfitting dan mempercepat komputasi menggunakan teknik optimasi canggih serta pemrosesan paralel.

1. Fungsi Tujuan (Objective Function)

XGBoost meminimalkan:

\[ \mathcal{L} = \sum_{i=1}^{n} l\left(y_i,; \hat{y}*i^{(t)}\right) + \sum*{k=1}^{t} \Omega(f_k) \]

Dimana:

= loss function (misal: squared error, logistic loss) (\(\hat{y}_i^{(t)}\)) = prediksi di iterasi ke-(t) (\(f_k\)) = pohon keputusan ke-(k) (\(\Omega(f_k)\)) = regularisasi kompleksitas pohon

2. Regularisasi (Pembeda utama XGBoost)

\[ \Omega(f) = \gamma T + \frac{1}{2} \lambda \sum_{j=1}^{T} w_j^2 \]

Di mana:

\((T)\) = jumlah daun (leaves) \((w_j)\) = nilai prediksi pada leaf (j) \((\gamma)\) = penalti membuat leaf baru \((\lambda)\) = penalti L2 untuk bobot leaf

Tujuan: mencegah overfitting dan mempercepat model.

3. Additive Model (Boosting)

Model dibangun secara bertahap:

\[ \hat{y}_i^{(t)} = \hat{y}_i^{(t-1)} + \eta f_t(x_i) \]

\((f_t)\) = pohon baru yang dilatih pada iterasi ke-t \((\eta)\) = learning rate (shrinkage)

4. Gradient & Hessian

XGBoost menggunakan pendekatan second-order Taylor expansion.

Untuk setiap data titik (i):

\[ g_i = \frac{\partial l(y_i,\hat{y}_i^{(t-1)})}{\partial \hat{y}_i^{(t-1)}} \]

\[ h_i = \frac{\partial^2 l(y_i,\hat{y}_i^{(t-1)})}{\partial (\hat{y}_i^{(t-1)})^2} \]

\((g_i)\) = first derivative (gradient) \((h_i)\) = second derivative (hessian)

Ini membuat XGBoost lebih akurat dan stabil dibanding GBM biasa.

5. Scoring Function untuk Node / Split

Gain ketika memecah node:

\[ \text{Gain} = \frac{1}{2} \left( \frac{G_L^2}{H_L + \lambda} + \frac{G_R^2}{H_R + \lambda} - \frac{(G_L + G_R)^2}{H_L + H_R + \lambda} \right) - \gamma \]

Dimana:

\((G_L = \sum_{i \in L} g_i)\) \((H_L = \sum_{i \in L} h_i)\) \((G_R, H_R) untuk sisi kanan\) \((\gamma) = penalti leaf baru\)

Split dipilih jika Gain > 0.

6. Nilai Leaf Optimal

Untuk setiap leaf (j):

\[ w_j^* = -\frac{G_j}{H_j + \lambda} \]

Model prediksi pohon:

\[ f_t(x) = w_j^* \quad \text{jika } x \text{ jatuh pada leaf } j \]

7. Prediksi Akhir

Untuk regresi:

\[ \hat{y}(x) = \sum_{t=1}^{T} \eta f_t(x) \]

Karakteristik Utama

Versi “tuned and optimized” dari GBM
Mendukung regularisasi (L1, L2) → mencegah overfitting
Optimasi komputasi: parallelization, cache awareness, dan tree pruning
Mendukung sparse data

Kelebihan

Kinerja prediktif sangat kuat
Lebih cepat dibanding GBM biasa
Mendukung fitur-fitur lanjutan: early stopping, handling missing value, weighted data
Cocok untuk dataset besar dan kompleks

Kelemahan

Relatif lebih rumit dalam tuning hyperparameter
Konsumsi memori lebih besar pada dataset sangat besar

Ringkasan Perbedaan Ketiga Model

Model	Metode	Kekuatan	Kekurangan
Random Forest	Bagging	Stabil, tahan overfitting	Tidak sekuat boosting untuk pola kompleks
GBM	Boosting sekuensial	Akurasi tinggi	Training lebih lambat, butuh tuning hati-hati
XGBoost	Boosting + optimasi	Paling akurat, cepat, ada regularisasi	Parameter lebih kompleks

2. Identifikasi Masalah

Penelitian ini bertujuan untuk membangun model prediksi berbasis ensemble learning guna mengklasifikasikan apakah seseorang berpotensi mengalami penyakit jantung berdasarkan berbagai parameter fisiologis. Identifikasi masalah pada penelitian ini dijelaskan sebagai berikut.

2.1 Apa yang Ingin Diprediksi

Penelitian ini ingin memprediksi status penyakit jantung (HeartDisease), yaitu kondisi apakah seseorang memiliki indikasi penyakit jantung atau tidak.

Prediksi HeartDisease penting karena:

Dapat membantu deteksi dini risiko penyakit jantung,
Membantu pengambilan keputusan medis,
Mendukung tindakan pencegahan secara lebih cepat dan tepat.

2.2 Variabel Target

Variabel target dalam penelitian ini adalah:

HeartDisease (0 atau 1)

0 → tidak memiliki penyakit jantung
1 → memiliki penyakit jantung

Variabel ini berupa data kategorik biner, sehingga jenis prediksi adalah klasifikasi, bukan regresi.

HeartDisease akan diprediksi menggunakan 11 variabel fitur:

Age
Sex
ChestPainType
RestingBP
Cholesterol
FastingBS
RestingECG
MaxHR
ExerciseAngina
Oldpeak
ST_Slope

Fitur terdiri dari gabungan variabel numerik dan kategorik.

2.3 Alasan Menggunakan Ensemble Learning

Pemilihan metode ensemble learning didasarkan pada beberapa keunggulan yang relevan untuk kasus klasifikasi kesehatan:

Akurasi lebih tinggi dibanding model tunggal, karena prediksi dibuat dari kombinasi banyak pohon.
Mampu menangani hubungan non-linear antar variabel fisiologis seperti tekanan darah, kolesterol, atau detak jantung.
Lebih robust terhadap outlier dan noise, terutama pada algoritma Random Forest dan XGBoost.
Mengurangi bias dan variance melalui pendekatan yang berbeda:
- Random Forest (bagging) → menurunkan variance
- GBM (boosting) → menurunkan bias
- XGBoost → boosting dengan regularisasi → lebih stabil dan tidak mudah overfitting

Dengan karakteristik tersebut, ensemble learning dinilai sesuai untuk permasalahan prediksi risiko penyakit jantung.

2.4 Tujuan Perbandingan Tiga Model Ensemble

Penelitian ini bertujuan untuk membangun dan membandingkan tiga algoritma ensemble learning, yaitu:

Random Forest Classifier
Gradient Boosting Classifier (GBM)
Extreme Gradient Boosting (XGBoost)

Tujuan dari perbandingan adalah:

Menentukan model mana yang memberikan performa terbaik untuk klasifikasi HeartDisease.
Mengamati perbedaan akurasi, recall, precision, F1-score, dan AUC dari masing-masing model.
Melihat bagaimana boosting modern (XGBoost) dibandingkan dengan metode bagging (RF) dan boosting klasik (GBM).
Memberikan rekomendasi model terbaik untuk deteksi risiko penyakit jantung.

3. Data Understanding

Bagian ini menjelaskan sumber data, struktur dataset, serta penjelasan setiap variabel yang digunakan dalam penelitian. Pemahaman awal terhadap data menjadi langkah penting sebelum melakukan analisis maupun pemodelan ensemble.

3.1 Sumber Data

Dataset yang digunakan berasal dari platform Kaggle dengan nama file heart.csv, yaitu dataset medis modern yang memuat informasi demografis, gejala klinis, serta hasil pemeriksaan kardiovaskular. Dataset ini umum digunakan dalam pemodelan prediksi risiko penyakit jantung, namun formatnya adalah versi yang telah diperbarui menjadi kategori berbentuk string, bukan kode numerik.

3.2 Jumlah Baris dan Kolom

Berdasarkan hasil pemeriksaan:

918 baris (observations)
12 kolom (11 features + 1 target)

Dataset ini memiliki variabel target biner, sehingga sesuai untuk tugas klasifikasi menggunakan metode ensemble.

3.3 Tipe Data

Dataset memiliki dua jenis tipe data utama:

Numerik

Age
RestingBP
Cholesterol
FastingBS
MaxHR
Oldpeak
HeartDisease

Kategorikal (String/Object)

Sex
ChestPainType
RestingECG
ExerciseAngina
ST_Slope

Kombinasi tipe numerik dan kategorikal ini berpengaruh terhadap metode encoding serta pemilihan model, terutama pada algoritma seperti XGBoost yang tidak menerima fitur kategorik secara langsung.

3.4 Penjelasan Variabel

Variabel	Tipe	Deskripsi
Age	Integer	Usia pasien (tahun).
Sex	Object	Jenis kelamin: M = Male, F = Female.
ChestPainType	Object	Tipe nyeri dada (ATA, NAP, ASY, TA).
RestingBP	Integer	Tekanan darah istirahat (mmHg).
Cholesterol	Integer	Kadar kolesterol total (mg/dl).
FastingBS	Integer	Gula darah puasa > 120 mg/dl (1 = ya, 0 = tidak).
RestingECG	Object	Hasil ECG istirahat (Normal, ST, LVH).
MaxHR	Integer	Detak jantung maksimum yang dicapai.
ExerciseAngina	Object	Angina akibat olahraga (Y = ya, N = tidak).
Oldpeak	Float	Perubahan pola detak jantung ketika olahraga
ST_Slope	Object	Pola detak jantung ketika capek (Up, Flat, Down)
HeartDisease	Integer	Target: 1 = ada penyakit jantung, 0 = tidak ada.

3.5 Distribusi Kelas Target (Wajib untuk Klasifikasi)

Berdasarkan eksplorasi awal dataset:

HeartDisease = 1 (Ada penyakit jantung) → sekitar 55%
HeartDisease = 0 (Tidak ada penyakit jantung) → sekitar 45%

Distribusi kelas tergolong cukup seimbang, sehingga metrik seperti Accuracy, Precision, Recall, dan F1-score masih relevan digunakan tanpa perlu teknik penyeimbangan data seperti SMOTE.

4. Exploratory Data Analysis (EDA)

EDA dilakukan untuk memahami karakteristik awal dataset sebelum proses preprocessing dan pemodelan ensemble dilakukan. Bagian ini mencakup statistik deskriptif, pemeriksaan nilai ekstrem, serta interpretasi awal terhadap pola data.

4.1 Statistik Deskriptif

Statistik deskriptif digunakan untuk memahami karakteristik awal dari variabel numerik dalam dataset, antara lain:

Age
RestingBP
Cholesterol
FastingBS
MaxHR
Oldpeak

Analisis ini mencakup nilai minimum, maksimum, mean, median, serta kuartil. Statistik deskriptif membantu:

Mengidentifikasi nilai ekstrem (outlier) seperti kolesterol 0 atau tekanan darah abnormal.
Melihat distribusi usia pasien.
Menilai kecenderungan detak jantung maksimum.
Memahami variasi kondisi fisiologis pasien sebelum pemodelan.

## 'data.frame':    918 obs. of  12 variables:
##  $ Age           : int  40 49 37 48 54 39 45 54 37 48 ...
##  $ Sex           : chr  "M" "F" "M" "F" ...
##  $ ChestPainType : chr  "ATA" "NAP" "ATA" "ASY" ...
##  $ RestingBP     : int  140 160 130 138 150 120 130 110 140 120 ...
##  $ Cholesterol   : int  289 180 283 214 195 339 237 208 207 284 ...
##  $ FastingBS     : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ RestingECG    : chr  "Normal" "Normal" "ST" "Normal" ...
##  $ MaxHR         : int  172 156 98 108 122 170 170 142 130 120 ...
##  $ ExerciseAngina: chr  "N" "N" "N" "Y" ...
##  $ Oldpeak       : num  0 1 0 1.5 0 0 0 0 1.5 0 ...
##  $ ST_Slope      : chr  "Up" "Flat" "Up" "Flat" ...
##  $ HeartDisease  : int  0 1 0 1 0 0 0 0 1 0 ...

##       Age            Sex            ChestPainType        RestingBP    
##  Min.   :28.00   Length:918         Length:918         Min.   :  0.0  
##  1st Qu.:47.00   Class :character   Class :character   1st Qu.:120.0  
##  Median :54.00   Mode  :character   Mode  :character   Median :130.0  
##  Mean   :53.51                                         Mean   :132.4  
##  3rd Qu.:60.00                                         3rd Qu.:140.0  
##  Max.   :77.00                                         Max.   :200.0  
##   Cholesterol      FastingBS       RestingECG            MaxHR      
##  Min.   :  0.0   Min.   :0.0000   Length:918         Min.   : 60.0  
##  1st Qu.:173.2   1st Qu.:0.0000   Class :character   1st Qu.:120.0  
##  Median :223.0   Median :0.0000   Mode  :character   Median :138.0  
##  Mean   :198.8   Mean   :0.2331                      Mean   :136.8  
##  3rd Qu.:267.0   3rd Qu.:0.0000                      3rd Qu.:156.0  
##  Max.   :603.0   Max.   :1.0000                      Max.   :202.0  
##  ExerciseAngina        Oldpeak          ST_Slope          HeartDisease   
##  Length:918         Min.   :-2.6000   Length:918         Min.   :0.0000  
##  Class :character   1st Qu.: 0.0000   Class :character   1st Qu.:0.0000  
##  Mode  :character   Median : 0.6000   Mode  :character   Median :1.0000  
##                     Mean   : 0.8874                      Mean   :0.5534  
##                     3rd Qu.: 1.5000                      3rd Qu.:1.0000  
##                     Max.   : 6.2000                      Max.   :1.0000

Interpretasi Statistik Deskriptif

Berdasarkan hasil eksplorasi statistik deskriptif, beberapa karakteristik penting dari data dapat diinterpretasikan sebagai berikut:

1. Usia Pasien (Age)

Usia pasien berada pada rentang 28 hingga 77 tahun, dengan rata-rata 53.51 tahun. Nilai median sebesar 54 tahun menunjukkan bahwa sebagian besar pasien berada pada kelompok usia paruh baya hingga lanjut. Rentang kuartil (47–60 tahun) mengindikasikan konsentrasi utama usia berada di sekitar masa risiko penyakit jantung.

2. Tekanan Darah Istirahat (RestingBP)

RestingBP memiliki nilai minimum 0 mmHg, yang merupakan nilai tidak realistis dan mengindikasikan adanya outlier atau data error. Nilai maksimum mencapai 200 mmHg, dengan rata-rata 132.4 mmHg, dan mayoritas data berada pada rentang 120–140 mmHg (Q1–Q3). Hal ini menunjukkan adanya variasi tekanan darah antar pasien, termasuk potensi hipertensi pada sebagian besar pasien.

3. Kadar Kolesterol (Cholesterol)

Rentang kolesterol berada antara 0 hingga 603 mg/dl, dengan nilai 0 menandakan adanya missing value yang direpresentasikan secara salah atau anomalous input. Rata-rata 198.8 mg/dl menunjukkan bahwa banyak pasien memiliki kolesterol pada tingkat borderline hingga tinggi. Kuartil ketiga (267 mg/dl) mengindikasikan bahwa sebagian besar pasien memiliki kadar kolesterol cukup tinggi, yang menjadi faktor risiko signifikan penyakit jantung.

4. Gula Darah Puasa (FastingBS)

Variabel biner ini memiliki rata-rata 0.233, yang berarti sekitar 23.3% pasien memiliki kadar gula darah puasa di atas 120 mg/dl. Persentase ini menunjukkan sebagian kecil pasien memiliki potensi risiko diabetes yang dapat berkontribusi terhadap penyakit jantung.

5. Detak Jantung Maksimal (MaxHR)

MaxHR berada dalam rentang 60 hingga 202 bpm, dengan rata-rata 136.8 bpm. Kuartil ketiga sebesar 156 bpm menandakan bahwa sebagian besar pasien masih mampu mencapai detak jantung relatif tinggi saat aktivitas fisik, yang menggambarkan kapasitas kardiovaskular yang cukup baik bagi sebagian besar pasien.

6. Oldpeak

Oldpeak memiliki nilai minimum –2.6 hingga maksimum 6.2, dengan rata-rata 0.887. Mayoritas nilai berada pada kisaran 0 hingga 1.5, yang menunjukkan adanya variasi depresi segmen ST pada EKG akibat aktivitas fisik. Nilai negatif pada variabel ini kemungkinan merupakan hasil perhitungan tertentu atau measurement artifact, sehingga perlu diperhatikan pada tahap preprocessing.

7. Variabel Kategorikal

Variabel seperti Sex, ChestPainType, RestingECG, ExerciseAngina, dan ST_Slope semuanya bertipe karakter. Variabel-variabel ini menggambarkan kondisi klinis dan gejala pasien, seperti jenis kelamin, tipe nyeri dada, kondisi EKG, serta karakteristik segmen ST. Distribusi kategori ini penting dianalisis lebih lanjut pada tahap visualisasi untuk memahami persebaran dan potensi hubungan terhadap penyakit jantung.

8. Variabel Target (HeartDisease)

Rata-rata variabel target sebesar 0.553 menunjukkan bahwa 55.3% pasien pada dataset tercatat memiliki penyakit jantung. Hal ini menandakan dataset cenderung sedikit tidak seimbang, namun perbedaannya tidak terlalu signifikan sehingga masih aman untuk digunakan dalam pemodelan tanpa penyesuaian besar. Distribusi target ini juga mengindikasikan bahwa prevalensi penyakit jantung pada populasi data cukup tinggi.

Kesimpulan Singkat

Secara keseluruhan, statistik deskriptif menunjukkan:

Populasi pasien didominasi usia paruh baya–lanjut.
Terdapat outlier pada RestingBP dan Cholesterol yang perlu penanganan.
Beberapa faktor risiko seperti kolesterol tinggi, depresi ST, dan FastingBS > 120 muncul cukup jelas pada data.
Variabel target memiliki distribusi yang cukup seimbang untuk pemodelan klasifikasi.

4.2 Korelasi Antar Variabel

Interpretasi Visual Heatmap Korelasi

Heatmap korelasi di atas menggambarkan hubungan linear antar variabel numerik dalam dataset heart.csv. Nilai korelasi berada pada rentang –1 sampai +1, di mana:

Mendekati +1 → hubungan positif kuat (jika satu naik, yang lain ikut naik)
Mendekati –1 → hubungan negatif kuat (jika satu naik, yang lain turun)
Mendekati 0 → hampir tidak ada hubungan linear

Secara umum, hubungan antar variabel numerik pada dataset ini relatif lemah–sedang, yang berarti setiap fitur memiliki kontribusi unik terhadap prediksi HeartDisease (tidak banyak multikolinearitas).

1. Korelasi yang Paling Relevan Dengan HeartDisease

(a) MaxHR vs HeartDisease — korelasi negatif sedang (~–0.40)

Semakin tinggi detak jantung maksimum (MaxHR), semakin kecil kemungkinan seseorang mengalami penyakit jantung.
Ini sesuai literatur: pasien dengan penyakit jantung sering mengalami keterbatasan mencapai detak jantung optimal.

(b) Oldpeak vs HeartDisease — korelasi positif (~0.40)

Semakin besar nilai Oldpeak (depresi ST saat olahraga), semakin besar risiko HeartDisease.
Ini merupakan indikator klinis penting pada analisis stres jantung.

(c) FastingBS vs HeartDisease — korelasi positif lemah (~0.27)

Pasien dengan gula darah puasa tinggi lebih berisiko, tetapi kekuatannya tidak besar.

(d) Age vs HeartDisease — korelasi positif lemah (~0.28)

Usia yang lebih tua sedikit lebih berkorelasi dengan risiko penyakit jantung.
Korelasi lemah menunjukkan faktor usia saja tidak cukup untuk prediksi—perlu kombinasi fitur lain.

Kesimpulan sementara terkait target

Fitur numerik yang paling informatif secara korelasi adalah MaxHR, Oldpeak, diikuti Age dan FastingBS.

2. Korelasi Antar Fitur Lainnya

(a) Age vs MaxHR — korelasi negatif sedang (~–0.38)

Semakin tua usia, semakin rendah detak jantung maksimum yang dapat dicapai.
Ini adalah hubungan fisiologis normal.

(b) Age vs Oldpeak — positif lemah (~0.26)

Usia lebih tua sedikit lebih rentan mengalami depresi ST.

(c) RestingBP vs Cholesterol — hampir tidak ada hubungan (≈0.07)

Tekanan darah tidak linear berhubungan dengan kadar kolesterol.

(d) RestingBP vs HeartDisease — sangat lemah (~0.11)

RestingBP bukan prediktor kuat secara korelasi sederhana.
Namun bisa tetap penting secara non-linear dalam model ensemble.

(e) Cholesterol vs HeartDisease — sangat lemah (~0.23)

Korelasi ini rendah karena dataset Kaggle memiliki banyak pasien dengan kolesterol rendah tetapi terdiagnosis penyakit jantung, yang membuat hubungan linear melemah.

3. Tidak Ada Multikolinearitas Serius

Tidak ada pasangan fitur dengan korelasi > 0.8.
Artinya dataset aman untuk model seperti GBM atau XGBoost tanpa risiko fitur redundan berlebihan.

HeartDisease (Target)

Berikut ringkasan hubungan paling penting dengan penyakit jantung:

Variabel	Jenis hubungan	Penjelasan
Oldpeak	Positif sedang	Oldpeak naik → risiko naik
MaxHR	Negatif sedang	MaxHR turun → risiko naik
Age	Positif lemah	Semakin tua → sedikit lebih berisiko
FastingBS	Positif lemah	Gula darah puasa tinggi → sedikit berisiko
Cholesterol	Negatif lemah	Kadar tinggi tidak selalu berarti risiko tinggi
RestingBP	Positif sangat lemah	Hampir tidak berpengaruh

4.3 Distribusi Variabel

4.3.1 Distribusi Variable Numerik (Histogram)

Interpretasi Distribusi Variabel Numerik

Distribusi seluruh variabel numerik divisualisasikan menggunakan histogram. Dari grafik tersebut, dapat dilihat pola sebaran data sebagai berikut:

1. Age

Distribusi usia cenderung mendekati normal, namun sedikit condong ke arah usia menengah–lanjut.
Terlihat bahwa sebagian besar responden berada pada kisaran 45–65 tahun, dengan frekuensi paling tinggi sekitar usia 50–60 tahun.

2. RestingBP

Nilai Resting Blood Pressure menunjukkan distribusi yang cenderung menyebar, tanpa puncak yang terlalu dominan.
Namun sebagian besar data berkumpul pada rentang 120–140, yang merupakan tekanan darah istirahat umum pada orang dewasa.

3. Cholesterol

Distribusi kolesterol tampak skewed (condong ke kanan), di mana sebagian besar responden memiliki kolesterol dalam rentang 200–260, namun terdapat beberapa nilai lebih tinggi.
Hal ini menunjukkan adanya kemungkinan outlier kolesterol tinggi.

4. FastingBS

Variabel ini bersifat biner (0/1), sehingga histogram menunjukkan dua batang frekuensi.
Mayoritas nilai adalah 0, yang berarti kebanyakan responden tidak memiliki kadar gula puasa yang tinggi.

5. MaxHR

Distribusi Maximum Heart Rate cenderung membentuk puncak di tengah, dengan frekuensi terbesar pada rentang 120–150.
Nilai ini menunjukkan fungsi kardiovaskular yang umum pada populasi usia pertengahan.

6. Oldpeak

Distribusinya tampak condong ke kanan (positively skewed), dengan sebagian besar nilai berada di sekitar 0–1.
Hanya sedikit responden yang memiliki nilai Oldpeak tinggi, yang dapat mengindikasikan respon stres atau iskemia pada sebagian kecil individu.

7. HeartDisease

Variabel target ini juga biner (0/1).
Histogram menunjukkan bahwa frekuensi nilai 0 dan 1 cukup berimbang (atau sesuai kondisi dataset kamu).
Hal ini penting untuk ketepatan model klasifikasi, karena distribusi target tidak terlalu timpang.

4.3.2 Distribusi Variable Kategorikal (Bar Chart)

Interpretasi Distribusi Variabel Kategorikal

Distribusi seluruh variabel kategorikal divisualisasikan menggunakan bar chart. Dari grafik tersebut, dapat dilihat pola distribusi sebagai berikut:

1. Sex

Distribusi jenis kelamin menunjukkan:

Male (M): 725 orang
Female (F): 193 orang

Artinya, sekitar 79% data berasal dari laki-laki. Kondisi ini menunjukkan dataset didominasi oleh pasien laki-laki, yang sesuai dengan fakta epidemiologi bahwa penyakit jantung lebih umum pada pria. Namun, ketidakseimbangan ini juga perlu diperhatikan pada proses modelling karena bisa mempengaruhi pola pembelajaran model.

2. ChestPainType

Distribusi tipe nyeri dada:

ASY (Asymptomatic): 496
NAP (Non-Anginal Pain): 203
ATA (Atypical Angina): 173
TA (Typical Angina): 46

Kategori ASY (asymptomatic) adalah yang paling dominan. Hal ini penting karena pasien tanpa gejala khas justru sering memiliki risiko penyakit jantung yang lebih tinggi. Distribusi ini mengindikasikan bahwa banyak pasien tidak menunjukkan nyeri dada khas, sehingga model perlu mempelajari pola lain untuk prediksi.

3. RestingECG

Distribusi hasil pemeriksaan ECG saat istirahat:

Normal: 552
LVH (Left Ventricular Hypertrophy): 188
ST: 178

Mayoritas pasien memiliki hasil ECG Normal, sedangkan sisanya menunjukkan indikasi kelainan (LVH atau kelainan segmen ST). Meskipun sebagian besar normal, keberadaan kategori abnormal tetap penting karena berkaitan langsung dengan risiko kardiovaskular.

4. ExerciseAngina

Distribusi angina yang muncul saat berolahraga:

N (Tidak ada angina): 547
Y (Mengalami angina): 371

Sebagian besar tidak mengalami angina, namun jumlah pasien yang mengalami angina saat olahraga juga cukup besar. Karena angina saat aktivitas fisik adalah indikator signifikan penyakit jantung, variabel ini dapat menjadi prediktor kuat dalam model.

5. ST_Slope

Distribusi kemiringan segmen ST:

Flat: 460
Up: 395
Down: 63

Kategori Flat dan Up mendominasi, sedangkan Down relatif jarang. Meskipun minoritas, kategori ST_Slope = Down memiliki hubungan yang kuat dengan penyakit jantung iskemik sehingga tetap penting dipertahankan dalam model.

4.4 Deteksi Outlier

Interpretasi Outlier

Hasil eksplorasi distribusi menunjukkan beberapa variabel memiliki outlier yang perlu diperhatikan sebelum pemodelan:

1. RestingBP

Terdapat nilai 0 mmHg, yang tidak mungkin secara medis. Ini jelas merupakan data error atau missing value yang salah input.

2. Cholesterol

Nilai 0 mg/dl dan nilai sangat tinggi (>500 mg/dl) muncul sebagai outlier.
Nilai 0 adalah tidak valid, sedangkan nilai ekstrem mencerminkan kondisi klinis berat namun jarang.

3. Oldpeak

Terdapat nilai negatif serta nilai sangat tinggi (>4).
Nilai negatif kemungkinan measurement artifact, dan nilai sangat tinggi menjadi outlier klinis.

4. MaxHR

Beberapa nilai sangat rendah (<70 bpm) dan sangat tinggi (>190 bpm) muncul sebagai outlier fisiologis, meski masih mungkin secara klinis.

5. Age

Tidak menunjukkan outlier ekstrem; seluruh rentang usia berada dalam batas wajar.

Kesimpulan Singkat

Outlier utama ditemukan pada RestingBP, Cholesterol, Oldpeak, dan MaxHR. Beberapa nilai merupakan anomali tidak valid (nilai 0), dan sebagian lainnya ekstrem namun mungkin secara klinis. Perlu dilakukan penanganan pada tahap preprocessing agar model lebih stabil.

4.5 Insight Utama

Bagian EDA ini memberikan gambaran utama tentang kondisi data sebelum masuk ke tahap pemodelan. Berikut ringkasan insight penting dan alasan kenapa hal ini berpengaruh untuk Random Forest, Boosting, dan XGBoost.

1. Outlier pada Beberapa Variabel

Temuan EDA:

RestingBP memiliki nilai 0 (tidak valid secara medis).
Cholesterol punya nilai 0 dan nilai sangat tinggi.
Oldpeak punya nilai negatif dan sangat tinggi.
MaxHR terdapat nilai terlalu rendah/tinggi.