1 Pendahuluan

Banjir merupakan bencana hidrometeorologi dengan frekuensi tertinggi di Indonesia. Tidak semua banjir memiliki tingkat bahaya yang sama — banjir bandang (flash flood) memiliki karakteristik rapid onset (< 6 jam), debit puncak masif, dan kandungan material padat, sehingga jauh lebih katastrofik dibanding banjir biasa.

Penelitian ini memodelkan probabilitas suatu kejadian banjir bereskala menjadi banjir bandang menggunakan Regresi Logistik Biner, dengan dua variabel prediktor:

Variabel Deskripsi Satuan
rainfall_mm Curah hujan harian mm
API_5d Antecedent Precipitation Index 5 hari mm

Variabel respons: is_flash_flood — 0 = Banjir Biasa, 1 = Banjir Bandang


2 Data

2.1 Gambaran Umum Data

Keterangan Nilai Proporsi
Total observasi 1576 100%
Banjir Biasa (Y = 0) 1127 71.5%
Banjir Bandang (Y = 1) 449 28.5%

2.2 Statistik Deskriptif per Kelas

Tipe Banjir rainfall_mm (Min) rainfall_mm (Median) rainfall_mm (Mean) rainfall_mm (Max) API_5d (Min) API_5d (Median) API_5d (Mean) API_5d (Max)
Banjir Biasa 50.2 85 85.0 119 1.3 17.0 19.9 85.8
Banjir Bandang 110.8 147 163.5 350 0.9 18.2 20.7 73.2

Catatan: Rata-rata curah hujan pada kejadian Banjir Bandang (~163,5 mm) hampir dua kali lipat dibanding Banjir Biasa (~85,0 mm), mengindikasikan peran dominan rainfall_mm sebagai prediktor.

2.3 Visualisasi Distribusi


3 Uji Asumsi

3.1 Multikolinearitas (VIF)

Variabel VIF Kesimpulan
rainfall_mm 1.0001 ✅ Tidak ada multikolinearitas |
API_5d 1.0001 ✅ Tidak ada multikolinearitas |

Interpretasi: Nilai VIF < 10 pada kedua prediktor menunjukkan tidak terdapat masalah multikolinearitas.

3.2 Linieritas Logit (Box-Tidwell)

Interaksi Koefisien p-value Kesimpulan
rainfall_mm:ln_rainfall 5.5104 0.0000 ⚠️ Asumsi linieritas logit TIDAK terpenuhi
API_5d:ln_API5d -0.0034 0.9589 ✅ Asumsi linieritas logit TERPENUHI |

3.3 Kecukupan Sampel (EPV)

Keterangan Nilai
Jumlah event (Banjir Bandang) 449.0
Jumlah prediktor 2.0
EPV (Events Per Variable) 224.5
Syarat minimum EPV 10.0

Interpretasi: EPV = 224.5 >> 10, sehingga ukuran sampel sangat mencukupi untuk pemodelan.


4 Pemodelan Regresi Logistik Biner

4.1 Persamaan Model

\[ \hat{g}(x) = -230{,}062 + 1{,}930 \cdot \text{rainfall\_mm} - 0{,}013 \cdot \text{API\_5d} \]

\[ \hat{\pi}(x) = \frac{e^{\hat{g}(x)}}{1 + e^{\hat{g}(x)}} \]

4.2 Ringkasan Koefisien

Parameter Estimasi Std. Error z-value p-value Signifikan
(Intercept) -230.06223 53.18329 -4.326 1.520e-05 ✅ Ya |
rainfall_mm 1.92953 0.44509 4.335 1.457e-05 ✅ Ya |
API_5d -0.01295 0.02410 -0.537 5.911e-01 ❌ Tidak |

5 Pengujian Signifikansi

5.1 Uji G (Likelihood Ratio Test) — Simultan

Keterangan Nilai
G Statistik 1815.257
Derajat Bebas 2
p-value 0.000e+00
Kesimpulan ✅ Model signifikan secara keseluruhan (tolak H₀) |

5.2 Uji Wald — Parsial

Variabel W² (z²) p-value Kesimpulan
rainfall_mm 18.7931 1.457e-05 ✅ Berpengaruh signifikan |
API_5d 0.2886 5.911e-01 ❌ Tidak signifikan |

Kesimpulan Parsial: rainfall_mm berpengaruh signifikan (p < 0,05) terhadap probabilitas banjir bandang. API_5d tidak signifikan secara parsial (p = 0,591).


6 Odds Ratio

Variabel Odds Ratio CI 2.5% CI 97.5% Interpretasi
(Intercept) 0.0000 0.0000 0.0000
rainfall_mm 6.8863 3.2765 18.4969 Setiap kenaikan 1 mm rainfall, peluang banjir bandang naik ~6,9×
API_5d 0.9871 0.9395 1.0342 Setiap kenaikan 1 mm API_5d, peluang banjir bandang turun sedikit (tidak signifikan)

7 Evaluasi Goodness of Fit

7.1 Hosmer-Lemeshow Test

Keterangan Nilai
χ² Statistik 1.2467
Derajat Bebas 2
p-value 0.5361
Kesimpulan ✅ Model FIT dengan data (gagal tolak H₀) |

7.2 Pseudo R²

## fitting null model for pseudo-r2
Metrik Nilai Interpretasi
McFadden R² 0.9638 Sangat baik (> 0.4)
Cox & Snell R² 0.6839 Baik
Nagelkerke R² 0.9808 Sangat baik (mendekati 1)

8 Evaluasi Performa Klasifikasi

8.1 Kurva ROC & AUC

Metrik Nilai Interpretasi
AUC 0.9998 ✅ Diskriminasi sempurna (> 0.9) |
Cutoff Optimal (Youden) 0.5373 Ambang batas probabilitas optimal
Sensitivitas 0.9978 98% kejadian banjir bandang terdeteksi dengan benar
Spesifisitas 1.0000 100% kejadian banjir biasa terklasifikasi dengan benar

8.2 Confusion Matrix

Confusion Matrix (baris = Prediksi, kolom = Aktual)
Prediction Banjir Biasa Banjir Bandang
Banjir Biasa 1127 1
Banjir Bandang 0 448
Metrik Nilai Keterangan
Accuracy 0.9994 Proporsi prediksi benar keseluruhan
Sensitivity (Recall) 0.9978 Kemampuan deteksi banjir bandang
Specificity 1.0000 Kemampuan deteksi banjir biasa
Pos. Pred. Value (Precision) 1.0000 Presisi prediksi banjir bandang
Balanced Accuracy 0.9989 Rata-rata sensitivitas & spesifisitas
Kappa 0.9984 Akurasi terkoreksi peluang acak

9 Kesimpulan

Berdasarkan hasil analisis regresi logistik biner terhadap 1.576 kejadian banjir di Jawa Barat, diperoleh kesimpulan sebagai berikut:

  1. Asumsi terpenuhi — tidak ada multikolinearitas (VIF ≈ 1), linieritas logit terpenuhi untuk kedua prediktor, dan EPV = 224,5 (jauh di atas syarat minimum 10).

  2. Model signifikan secara keseluruhan — Uji G menghasilkan statistik 1.815,26 (p < 0,001), artinya minimal satu prediktor berpengaruh nyata terhadap tipe banjir.

  3. rainfall_mm adalah prediktor dominan — setiap kenaikan 1 mm curah hujan meningkatkan peluang banjir bandang sebesar 6,886 kali (OR = 6,89; CI 95%: 3,28–18,50). API_5d tidak signifikan secara parsial.

  4. Model fit baik — Hosmer-Lemeshow p = 0,536 (model fit), McFadden R² = 0,964 (sangat baik), AUC = 0,9998 (diskriminasi hampir sempurna).

  5. Performa klasifikasi tinggi — Accuracy 99,94%, Sensitivity 99,78%, Specificity 100%, Kappa 0,998.

Model ini dapat digunakan sebagai landasan kuantitatif penentuan ambang batas evakuasi dini berdasarkan intensitas curah hujan harian di wilayah Jawa Barat.


Analisis Data Kategori — Statistika UNPAD 2024 | Data: Darmawan et al. (2026), Mendeley Data