Analysis and Predictive Modeling
Assigment Week 11
Dwi Sri Yanti Manullang 52240030
Program Studi : Data Science
Dosen : Bakti Siregar, M.Sc., CDS.
Institut Teknologi Sains Bandung
1 Pendahuluan
1.1 Latar Belakang
Gempa bumi adalah salah satu fenomena geologis yang memiliki dampak besar terhadap lingkungan, infrastruktur, dan keselamatan manusia. Untuk memahami pola kegempaan global, para peneliti menggunakan basis data historis dari lembaga seperti USGS (United States Geological Survey), yang menyediakan catatan lengkap mengenai lokasi, magnitudo, dan kedalaman gempa dari berbagai belahan dunia.
Namun, dataset gempa bumi biasanya memiliki karakteristik yang berisik (noisy), tidak terstruktur, dan sering kali mengandung missing values yang besar. Kondisi ini menyulitkan analisis berbasis metode clustering tradisional (misalnya K-Means) karena metode tersebut mengasumsikan bentuk cluster yang cenderung bulat, seimbang, dan rapat padahal data gempa bumi tidak seperti itu.
Di sinilah metode Density-Based Clustering menjadi relevan. Algoritma seperti DBSCAN, OPTICS, dan HDBSCAN mampu mengidentifikasi pola alami berdasarkan kepadatan titik data, sehingga cluster dengan bentuk tidak beraturan (misalnya zona patahan memanjang) tetap dapat terdeteksi. Selain itu, metode densitas dapat menemukan outlier, yang pada konteks kegempaan dapat mengindikasikan peristiwa ekstrem atau kejadian tidak biasa.
Dengan dataset global dari USGS, analisis ini penting untuk:
memahami pola distribusi gempa di permukaan bumi
melihat sebaran kawasan rawan gempa
mengidentifikasi zona seismically active tanpa asumsi bentuk cluster tertentu
memberikan dasar interpretasi bagi mitigasi dan penelitian lanjutan
1.2 Rumusan Pertanyaan Riset
Pertanyaan inti penelitian ini adalah:
Bagaimana pola distribusi gempa bumi global berdasarkan densitas titik?
Apakah terdapat zona yang memiliki konsentrasi kejadian lebih tinggi?
Apakah metode DBSCAN, OPTICS, dan HDBSCAN menghasilkan pola cluster yang berbeda? Jika iya, bagaimana perbedaannya dan apa penyebab teknisnya?
Bagaimana kemampuan masing-masing metode dalam mendeteksi outlier (gempa ekstrem)?
Metode mana yang paling stabil, paling informatif, dan paling sesuai untuk menganalisis dataset gempa bumi global?
1.3 Tujuan Analisis
Analisis ini bertujuan untuk:
Melakukan eksplorasi dan pembersihan data dari dataset USGS.
Menerapkan metode DBSCAN, OPTICS, dan HDBSCAN untuk memetakan pola densitas gempa bumi.
Membandingkan kualitas cluster, stabilitas model, dan kemampuan deteksi outlier dari ketiga metode.
Menjelaskan interpretasi ilmiah dari pola cluster yang ditemukan.
Memberikan rekomendasi metode terbaik untuk analisis data geospasial dengan karakteristik serupa.
2 Rumus Inti / Model Matematis
2.1 DBSCAN
- Neighborhood
Definisi tetangga sebuah titik p dalam radius \(\epsilon\):
\[ N_{\varepsilon}(p) = \{ q \mid d(p, q) \leq \varepsilon \} \]
- Core Point
Titik p adalah core point jika jumlah tetangga dalam radius \(\epsilon\) memenuhi:
\[ |N_{\varepsilon}(p)| \geq \text{MinPts} \] 3. Direct Density-Reachability
Titik q directly density-reachable dari p jika:
\[ d(p, q) \leq \varepsilon \text{ dan } p \text{ adalah core point.} \] 4. Density-Reachability
q density-reachable dari p jika ada rangkaian titik:
\[ p = p_1 \rightarrow p_2 \rightarrow \cdots \rightarrow p_n = q \]
dengan masing-masing langkah memenuhi direct density-reachability.
- Density-Connectedness
Dua titik p dan q dikatakan density-connected jika ada titik o sehingga:
p density-reachable dari o
q density-reachable dari o
- Hasil Akhir DBSCAN
Cluster adalah himpunan titik-titik yang density-connected satu sama lain.
2.2 OPTICS
OPTICS memperkenalkan dua konsep penting: core distance dan reachability distance.
- Core Distance
Untuk titik p:
\[ \text{core_dist}(p) = d\big(p, \text{MinPts-th nearest neighbor}\big) \]
Jika titik p tidak memiliki cukup tetangga (kurang dari MinPts), maka:
\[ \text{core_dist}(p) = \infty \]
- Reachability Distance
Untuk dua titik p dan o:
\[ \text{reachability_dist}(p, o) = \max\big(\text{core_dist}(o), \, d(o, p)\big) \] Intuitif:
Kalau o bukan core : reachability jadi \(\infty\)
Kalau o core : nilai reachability bergantung jarak sebenarnya atau core distance
- Ordering Output
OPTICS menghasilkan urutan titik beserta reachability:
\[ O = (p_1, p_2, \dots, p_n) \]
\[ RD = \big(\text{reachability_dist}(p_1), \dots, \text{reachability_dist}(p_n)\big) \]
Cluster terlihat sebagai lembah (valleys) pada reachability plot.
2.3 HDBSCAN
HDBSCAN membangun cluster berdasarkan densitas hierarkis, memakai konsep mutual reachability distance.
- Mutual Reachability Distance
Jarang orang tulis lengkap di laporan, tapi ini rumus resminya:
\[ \text{mrd}(p, q) = \max\big(\text{core_dist}(p), \, \text{core_dist}(q), \, d(p, q)\big) \]
- Minimum Spanning Tree (MST)
HDBSCAN membangun MST menggunakan bobot:
\[ w_{pq} = \text{mrd}(p, q) \] Ini membentuk struktur yang merepresentasikan hubungan densitas antar titik.
- Hierarchical Condensed Tree
Dari MST, dibangun dendrogram densitas bertahap berdasarkan:
\[ \lambda = \frac{1}{\text{mrd}(p, q)} \]
Semakin besar \(\lambda\) : semakin padat cluster.
- Stability of Clustere
Cluster dipilih berdasarkan stability, yaitu integral lamanya cluster eksis pada hierarki:
\[ \text{Stability}(C) = \sum_{p \in C} (\lambda_p^{\text{birth}} - \lambda_p^{\text{death}}) \]
Cluster dengan stability paling tinggi dipertahankan : inilah hasil akhir HDBSCAN.
2.4 Perbandingan Model Matematis
| \[Algoritma\] | \[\text{Rumus Inti}\] | \[Makna\] |
|---|---|---|
| DBSCAN | \(N_\varepsilon(p)\), core, reachability, density-connected | Kepadatan tunggal, non-hierarkis |
| OPTICS | core distance + reachability distance | Menangani densitas variatif, menghasilkan struktur |
| HDBSCAN | mutual reachability + MST + stability | Hierarkis, otomatis menemukan cluster paling stabil |
3 Cara Kerja Algoritma & Hyperparameter Utama
3.1 Cara Kerja DBSCAN
Langkah Operasional DBSCAN
- Tentukan parameter awal
\(\epsilon\) (radius jarak)
MinPts (jumlah minimal tetangga)
- Untuk setiap titik p:
Hitung semua titik yang berjarak ≤ ε : ini Nε(p)
Jika |Nε(p)| ≥ MinPts : p ditandai sebagai core point
- Bangun cluster mulai dari titik core
Tambahkan semua titik dalam Nε(p)
Jika tetangga mengandung titik core lain, perluas cluster lagi (recursive)
Labelkan titik yang tidak masuk cluster sebagai noise/outlier
Hasil akhir
Cluster dengan bentuk arbitrer (tidak harus bulat)
Outlier diberi label -1
Hyperparameter Utama DBSCAN
| \[Parameter\] | \[Fungsi\] | \[\text{Risiko Kalau Salah}\] |
|---|---|---|
| eps | Radius neighborhood | eps terlalu kecil → banyak noise; eps terlalu besar → cluster gabung |
| MinPts | Minimum tetangga untuk jadi core | Umumnya: MinPts = D + 1 (D = dimensi fitur) |
Rekomendasi Default
✔ MinPts = 5–10
✔ eps ditentukan dari kNN-Dist Plot
3.2 Cara Kerja OPTICS
OPTICS adalah “DBSCAN tetapi lebih pintar” karena dia menghasilkan struktur densitas, bukan cluster langsung.
Langkah Operasional OPTICS
Tentukan MinPts
Untuk setiap titik p:
Hitung core-distance(p)
Jika kurang tetangga : core-dist = ∞
- Bangun struktur ordering
Mulai dari titik random
Titik diekspansi mirip DBSCAN
Tapi setiap ekspansi menghasilkan:
reachability-distance
urutan kunjungan
- Output utama adalah reachability plot
“Lembah” = cluster
“Tebing” = batas cluster
Titik dengan reachability tinggi = noise
- Cluster bisa diekstrak dengan berbagai threshold
- Bisa dapat banyak cluster tanpa set eps
Hyperparameter Utama OPTICS
| \[Parameter\] | \[Fungsi\] |
|---|---|
| MinPts | Sama seperti DBSCAN, pengaruh ke densitas |
| eps (opsional) | Biasanya dibuat sangat besar agar tidak membatasi pencarian |
| xi (ekstraksi cluster) | Mengontrol sensitivitas perubahan densitas |
Jika tugas hanya eksplorasi, gunakan:
✔ MinPts = 5
✔ eps = besar (misal eps = 1 atau NULL)
3.3 Cara Kerja HDBSCAN
HDBSCAN membangun hierarki cluster berdasarkan densitas, lalu memilih cluster paling stabil.
Langkah Operasional HDBSCAN
Tentukan MinPts (atau min_cluster_size)
Hitung core-distance setiap titik
Hitung mutual-reachability distance:
- max(core-dist(p), core-dist(q), dist(p,q))
Bangun Minimum Spanning Tree (MST) dengan bobot mutual reachability
Konversi MST menjadi hierarchical cluster tree
Semakin tinggi densitas : semakin ke “atas” dalam hierarki
Semakin rendah densitas : cluster terpecah
- Hitung ‘stability’ setiap cluster
- Seberapa lama cluster bertahan dalam hierarki
- Cluster final dipilih berdasarkan stability maksimum
Outlier otomatis terpisah
Jumlah cluster tidak perlu diinput
Hyperparameter Utama HDBSCAN
| \[Parameter\] | \[Fungsi\] |
|---|---|
| minPts / min_cluster_size | Ukuran minimal cluster |
| min_samples | Mengontrol seberapa konservatif penentuan core-point |
| metric | Jarak (euclidean, manhattan, dll) |
Rekomendasi default:
\(\text{min_cluster_size}\) = 5–10
\(\text{min_samples}\) = \(\text{min_cluster_size}\) (disarankan)
3.4 SUMMARY
| \[Algoritma\] | \[\text{Cara Kerja}\] | \[Hyperparamete\] |
|---|---|---|
| DBSCAN | Mengembangkan cluster berdasarkan radius & tetangga | eps, MinPts |
| OPTICS | Membuat reachability plot dan menemukan cluster dari lembah | MinPts, xi |
| HDBSCAN | Menggunakan MST + hierarki + stability untuk menentukan cluster | min_cluster_size, min_samples |
4 Kelebihan dan Keterbatasan Praktis Kernel Density Estimation (KDE)
4.1 Kelebihan Kernel Density Estimation (KDE)
Fleksibel tanpa asumsi distribusi KDE tidak mengasumsikan bentuk distribusi tertentu (misalnya normal). Cocok untuk data gempa yang biasanya multi modal, tidak simetris, dan punya pola padat jarang.
Mampu menangkap pola lokal dengan baik KDE dapat menunjukkan area konsentrasi gempa (hotspot) secara halus tanpa terpecah-pecah seperti histogram.
Visualisasi intuitif & kuat Untuk dataset geospasial gempa (latitude–longitude), KDE menghasilkan peta kepadatan yang mudah dipahami untuk analisis wilayah rawan.
Dapat digunakan untuk estimasi probabilitas KDE bisa menghitung peluang relatif terjadinya gempa pada wilayah tertentu berguna untuk perencanaan mitigasi.
Tidak terpengaruh ukuran bin Tidak seperti histogram yang sensitif terhadap jumlah bin, KDE menggunakan bandwidth sehingga hasil lebih stabil.
Cocok untuk dataset besar Meskipun lebih berat secara komputasi, KDE bekerja sangat baik jika data banyak (puluhan ribu titik).
4.2 Keterbatasan Kernel Density Estimation (KDE)
Sangat sensitif terhadap bandwidth Bandwidth terlalu kecil : hasil noisy Bandwidth terlalu besar : detail hilang Ini bisa membuat interpretasi rawan bias jika pemilihan bandwidth tidak tepat.
Beban komputasi tinggi Perhitungan KDE = O(n²) Dataset gempa USGS sangat besar : proses bisa lambat tanpa optimasi.
Kurang efektif untuk data berdimensi tinggi Saat variabel > 3, KDE kena “curse of dimensionality”. Distribusi jadi terlalu rata dan kehilangan detail.
Tidak bisa mengekstrapolasi dengan baik KDE hanya menggambarkan pola dari data yang ada. Dia tidak “memahami” mekanisme fisik gempa seperti model seismologi.
Berpotensi memberikan false hotspot Jika data mengandung outlier atau cluster kecil yang random, KDE bisa secara salah menganggap itu sebagai pola signifikan.
Masalah bias di batas wilayah (edge bias) Untuk data geografis, area di dekat tepi peta bisa terlihat kepadatannya lebih rendah karena kernel “merembes keluar” dari area analisis.
4.3 Implikasi Praktis untuk Dataset Gempa Kaggle
KDE bagus untuk pemetaan spasial dan identifikasi zona rawan.
Tapi tidak cocok untuk prediksi gempa, hanya analisis kepadatan.
Pemilihan bandwidth harus dilakukan secara data-driven (Silverman, Cross-Validation).
Perlu pre-processing: buang missing, hilangkan outlier ekstrem seperti magnitudo > 10 (yang biasanya error data).
5 Sumber Data dan Proses Loading
5.1 Sumber Data
Dataset yang digunakan dalam penelitian ini berasal dari Kaggle dengan judul:
USGS Earthquake Database
Sumber: United States Geological Survey (USGS), disediakan melalui Kaggle.
Link dataset: https://www.kaggle.com/datasets/usgs/earthquake-database
DOI (USGS Earthquake Catalog): 10.5066/F7MS3QZH
Dataset ini mencakup catatan aktivitas seismik global, termasuk informasi:
waktu kejadian (date/time),
koordinat geografis (latitude, longitude),
kedalaman,
magnitudo,
serta parameter seismik lainnya.
Dataset terdiri dari ribuan entri gempa bumi dari berbagai tahun dan kedalaman, sehingga cocok digunakan untuk analisis kepadatan (density analysis) menggunakan pendekatan Kernel Density Estimation (KDE).
5.2 Karakteristik Dataset
Secara umum, dataset terdiri atas kolom-kolom berikut:
Date : tanggal kejadian
Time : waktu kejadian
Latitude : posisi garis lintang
Longitude : posisi garis bujur
Depth : kedalaman gempa (km)
Magnitude : skala magnitudo
kolom teknis lain: Azimuthal Gap, Horizontal Distance, Horizontal Error, Depth Error, Magnitude Error, dll.
Beberapa kolom memiliki nilai missing yang cukup tinggi (70–98%), sehingga analisis harus difokuskan pada kolom yang paling lengkap seperti Latitude, Longitude, Magnitude, dan Depth.
5.3 Proses Loading Data
## # A tibble: 23,412 × 21
## Date Time Latitude Longitude Type Depth `Depth Error`
## <chr> <time> <dbl> <dbl> <chr> <dbl> <dbl>
## 1 01/02/1965 13:44:18 19.2 146. Earthquake 132. NA
## 2 01/04/1965 11:29:49 1.86 127. Earthquake 80 NA
## 3 01/05/1965 18:05:58 -20.6 -174. Earthquake 20 NA
## 4 01/08/1965 18:49:43 -59.1 -23.6 Earthquake 15 NA
## 5 01/09/1965 13:32:50 11.9 126. Earthquake 15 NA
## 6 01/10/1965 13:36:32 -13.4 167. Earthquake 35 NA
## 7 01/12/1965 13:32:25 27.4 87.9 Earthquake 20 NA
## 8 01/15/1965 23:17:42 -13.3 166. Earthquake 35 NA
## 9 01/16/1965 11:32:37 -56.5 -27.0 Earthquake 95 NA
## 10 01/17/1965 10:43:17 -24.6 178. Earthquake 565 NA
## # ℹ 23,402 more rows
## # ℹ 14 more variables: `Depth Seismic Stations` <dbl>, Magnitude <dbl>,
## # `Magnitude Type` <chr>, `Magnitude Error` <dbl>,
## # `Magnitude Seismic Stations` <dbl>, `Azimuthal Gap` <dbl>,
## # `Horizontal Distance` <dbl>, `Horizontal Error` <dbl>,
## # `Root Mean Square` <dbl>, ID <chr>, Source <chr>, `Location Source` <chr>,
## # `Magnitude Source` <chr>, Status <chr>
5.4 Preprocessing Awal
Karena dataset besar dan banyak missing, langkah preprocessing awal:
## Latitude Longitude Depth Magnitude
## Min. :-77.080 Min. :-180.00 Min. : -1.10 Min. :5.500
## 1st Qu.:-18.653 1st Qu.: -76.35 1st Qu.: 14.52 1st Qu.:5.600
## Median : -3.568 Median : 103.98 Median : 33.00 Median :5.700
## Mean : 1.679 Mean : 39.64 Mean : 70.77 Mean :5.883
## 3rd Qu.: 26.191 3rd Qu.: 145.03 3rd Qu.: 54.00 3rd Qu.:6.000
## Max. : 86.005 Max. : 180.00 Max. :700.00 Max. :9.100
5.5 Preprocessing Awal dan Interpretasi Data
- Latitude
Nilai minimum: -77.08, maksimum: 86.005 : mencakup hampir seluruh garis lintang dunia (dari Kutub Selatan sampai Kutub Utara).
Median: -3.568, Mean: 1.679 : distribusi agak mendekati equator, artinya sebagian besar gempa berada di wilayah tropis/subtropis.
Kuartil 1 (-18.653) dan Kuartil 3 (26.191) : 50% gempa berada di lintang sekitar -19 sampai 26, cukup dekat dengan garis khatulistiwa.
Interpretasi: Data gempa tidak merata secara global, ada konsentrasi gempa di wilayah tropis (misal Ring of Fire, Indonesia, Filipina, Jepang).
- Longitude
Min: -180, Max: 180 : mencakup seluruh garis bujur dunia.
Median: 103.98, Mean: 39.64 : lokasi pusat gempa sedikit condong ke timur (Asia Tenggara, Pasifik).
Kuartil 1 (-76.35), Kuartil 3 (145.03) : separuh data berada di benua Amerika Barat sampai Asia Timur/Pasifik.
Interpretasi: Ada distribusi geografis yang luas, tetapi konsentrasi gempa cenderung di wilayah Pasifik dan Asia, konsisten dengan “Cincin Api Pasifik”.
- Depth (kedalaman)
Min: -1.1 km : ada nilai negatif, kemungkinan kesalahan pencatatan atau sensor.
Max: 700 km : kedalaman maksimum yang dilaporkan cukup ekstrem, termasuk gempa dalam.
Median: 33 km, Mean: 70.77 km : distribusi menjorok ke kedalaman lebih dalam, karena mean > median : ada beberapa gempa sangat dalam (outlier).
Kuartil 1: 14.52 km, Kuartil 3: 54 km : 50% gempa berada di kedalaman dangkal sampai menengah.
Interpretasi: Mayoritas gempa tergolong dangkal (shallow), tetapi ada sebagian kecil gempa intermediate dan deep, yang memengaruhi mean. Data perlu dicek apakah negatif (-1.1 km) perlu dibersihkan.
- Magnitude
Min: 5.5, Max: 9.1 : dataset hanya mencakup gempa menengah ke kuat, sesuai fokus penelitian (magnitude signifikan).
Median: 5.7, Mean: 5.883 : distribusi cenderung normal tapi sedikit skewed ke kanan, ada beberapa gempa sangat besar (outlier), misal 9.1.
Kuartil 1: 5.6, Kuartil 3: 6.0 : separuh besar gempa berada di kisaran 5.6 – 6.0.
Interpretasi: Sebagian besar gempa dataset berskala menengah, tetapi ada beberapa gempa sangat kuat yang dapat memengaruhi analisis kepadatan jika tidak difilter.
Catatan:
Ada nilai Depth negatif : harus ditangani sebelum analisis KDE, misal diganti NA atau dibuang.
Magnitude sangat variatif : perlu filter untuk fokus analisis tertentu, misal Magnitude ≥ 5.5 (sudah di dataset).
Latitude/Longitude menunjukkan distribusi tidak merata : KDE akan menunjukkan hotspot tertentu, bukan sebaran global merata.
6 Eksplorasi Data Singkat
6.1 Ringkasan Dataset
Dataset gempa bumi yang digunakan terdiri dari ribuan entri dengan kolom utama:
Latitude: garis lintang gempa
Longitude: garis bujur gempa
Depth: kedalaman gempa (km)
Magnitude: skala magnitudo gempa
Kolom tambahan: Azimuthal Gap, Horizontal Distance/Error, Depth Error, Magnitude Error
Ringkasan awal menggunakan fungsi summary():
## Latitude Longitude Depth Magnitude
## Min. :-77.080 Min. :-180.00 Min. : -1.10 Min. :5.500
## 1st Qu.:-18.653 1st Qu.: -76.35 1st Qu.: 14.52 1st Qu.:5.600
## Median : -3.568 Median : 103.98 Median : 33.00 Median :5.700
## Mean : 1.679 Mean : 39.64 Mean : 70.77 Mean :5.883
## 3rd Qu.: 26.191 3rd Qu.: 145.03 3rd Qu.: 54.00 3rd Qu.:6.000
## Max. : 86.005 Max. : 180.00 Max. :700.00 Max. :9.100
Interpretasi
Interpretasi Singkat:
Latitude & Longitude menunjukkan sebaran global, namun tidak merata.
Depth memiliki beberapa nilai ekstrem dan negatif : perlu perhatian preprocessing.
Magnitude berkisar 5.5–9.1, sebagian besar gempa menengah.
6.2 Missing Values
Untuk mengetahui kualitas data dan kolom yang banyak kosong, digunakan:
Hasil analisis missing:
Kolom Latitude, Longitude, Depth, Magnitude sudah dibersihkan : tidak ada missing (drop_na).
Kolom teknis lain (Depth Error, Horizontal Error, Magnitude Error) memiliki missing 70–98%.
Interpretasi: Analisis fokus pada kolom utama yang lengkap, sedangkan kolom teknis bisa diabaikan atau digunakan secara selektif.
6.3 Tipe Variabel
## tibble [23,412 × 4] (S3: tbl_df/tbl/data.frame)
## $ Latitude : num [1:23412] 19.25 1.86 -20.58 -59.08 11.94 ...
## $ Longitude: num [1:23412] 145.6 127.4 -174 -23.6 126.4 ...
## $ Depth : num [1:23412] 132 80 20 15 15 ...
## $ Magnitude: num [1:23412] 6 5.8 6.2 5.8 5.8 6.7 5.9 6 6 5.8 ...
Hasil:
Latitude, Longitude, Depth, Magnitude : numeric
Date : Date (jika diubah format)
Variabel kategorikal bisa dibuat jika nanti ingin mengelompokkan:
Depth: shallow (<70 km), intermediate (70–300 km), deep (>300 km)
Magnitude: moderate (5.5–6.0), strong (>6.0)
Interpretasi: Semua variabel utama bersifat numerik kontinu, cocok untuk analisis statistik, visualisasi distribusi, dan KDE. Kategori tambahan dapat dibuat untuk analisis kelompok.
6.4 Ringkasan
Dataset bersih dari missing di kolom penting, tapi perlu hati-hati dengan outlier Depth.
Tipe data sudah sesuai untuk analisis kepadatan dan visualisasi.
Analisis eksplorasi awal ini menjadi dasar untuk analisis KDE dan clustering density-based di bab selanjutnya.
7 Pra-Proses Data
7.1 Cleaning Data
Dataset awal memiliki missing values dan beberapa nilai tidak valid.
Langkah-langkah cleaning yang dilakukan:
Pilih kolom penting: Latitude, Longitude, Depth, Magnitude.
Hapus missing values pada kolom utama menggunakan drop_na().
Periksa nilai ekstrem / outlier:
Depth negatif (-1.1 km) dianggap tidak valid : dibersihkan.
Magnitude > 9 dianggap outlier ekstrem, bisa difilter jika perlu.
7.2 Imputasi (Jika Diperlukan)
Karena kolom utama sudah dibersihkan dengan drop_na(), tidak diperlukan imputasi pada dataset ini.
Untuk kolom tambahan yang banyak missing (Depth Error, Magnitude Error), bisa dipertimbangkan:
Mengisi dengan mean / median
Atau tetap dibiarkan NA karena tidak digunakan dalam analisis KDE.
7.3 Encoding
Semua variabel utama numeric, sehingga tidak perlu encoding.
Jika ingin membuat kategori tambahan:
Depth : shallow / intermediate / deep
Magnitude : moderate / strong
7.4 Scaling / Normalisasi
Untuk analisis density based dan clustering, beberapa algoritma sensitif terhadap skala variabel.
Latitude dan Longitude biasanya tidak perlu scaling, karena tetap di peta geografi.
Depth & Magnitude bisa discale jika algoritma menuntut jarak yang seimbang.
Catatan:
- Scaling opsional untuk KDE, lebih penting untuk algoritma clustering berbasis jarak (misal DBSCAN dengan input Depth & Magnitude).
7.5 Ringkasan Pra-Proses
Cleaning : hapus missing, filter nilai ekstrem.
Imputasi : tidak diperlukan pada kolom utama.
Encoding : dibuat kategori Depth & Magnitude untuk analisis tambahan.
Scaling : opsional, tergantung algoritma clustering.
Dengan tahapan ini, dataset sudah siap untuk analisis KDE, visualisasi kepadatan, dan clustering density based.
8 Reduksi Dimensi (Jika Diperlukan)
8.1 Latar Belakang
Reduksi dimensi adalah teknik untuk menyederhanakan dataset dengan tetap mempertahankan informasi penting. Manfaatnya:
Mengurangi kompleksitas perhitungan.
Memudahkan visualisasi data.
Mengurangi noise dan korelasi antarvariabel.
Metode populer:
PCA (Principal Component Analysis) : linear, mempertahankan variansi terbesar.
t-SNE (t-distributed Stochastic Neighbor Embedding) : non-linear, fokus pada preservasi jarak lokal, cocok untuk visualisasi 2D/3D.
UMAP (Uniform Manifold Approximation and Projection) : non-linear, cepat, mempertahankan struktur global dan lokal.
8.2 Analisis Kebutuhan
Dataset: Latitude, Longitude, Depth, Magnitude : 4 dimensi numerik.
Dengan hanya 4 variabel:
PCA cukup jika ingin mengurangi menjadi 2 dimensi untuk visualisasi scatter plot atau clustering.
t-SNE / UMAP lebih berguna untuk dataset berdimensi tinggi (>10 variabel) atau data non-linear kompleks.
Kesimpulan:
Karena dimensi rendah dan variabel saling berbeda skala (Longitude/Latitude vs Depth/Magnitude), PCA bisa digunakan untuk visualisasi 2D/3D dan mendeteksi pola clustering.
t-SNE atau UMAP tidak diperlukan, kecuali ingin mengeksplorasi distribusi non-linear secara visual.
8.3 Implementasi PCA
Interpretasi:
PCA akan menghasilkan 2–3 komponen utama yang menjelaskan sebagian besar variansi dataset.
Komponen pertama kemungkinan merepresentasikan lokasi geografis (Latitude/Longitude), sedangkan komponen kedua bisa merepresentasikan Depth dan Magnitude.
Visualisasi PCA 2D/3D membantu melihat hotspot gempa dan potensi cluster density-based.
Interpretasi Hasil
Visualisasi PCA 2D menunjukkan pemisahan pola antara gempa moderate dan strong meskipun dengan tumpang tindih yang cukup besar. Titik merah (strong) cenderung tersebar lebih luas pada PC2, mengindikasikan variasi kedalaman dan magnitudo yang lebih besar. Sementara itu, titik biru (moderate) lebih terkonsentrasi pada rentang tertentu, menunjukkan karakteristik yang lebih homogen. Secara keseluruhan, PCA berhasil menangkap arah variasi utama dan memberikan gambaran awal pola intensitas gempa.
9 Penerapan Algoritma: Pemilihan Parameter, Fitting, dan Evaluasi
9.1 Algoritma KDE (Kernel Density Estimation)
Tujuan: Mengestimasi kepadatan gempa berdasarkan koordinat (Latitude & Longitude) dan magnitude/depth opsional.
- Pemilihan Parameter:
Bandwidth (h): parameter utama untuk KDE, menentukan “halus” atau “kasar” estimasi density.
Bandwidth kecil : banyak detail, tapi noisy.
Bandwidth besar : smooth, tapi bisa hilang hotspot kecil.
Kernel function: biasanya gaussian digunakan, tapi bisa juga epanechnikov, tophat.
- Fitting Model:
- Evaluasi Hasil:
Visualisasi contour plot atau heatmap.
Periksa apakah hotspot gempa terlihat jelas di area rawan gempa (misal Indonesia, Jepang).
9.2 Algoritma DBSCAN (Density-Based Spatial Clustering)
Tujuan: Mengelompokkan gempa berdasarkan kepadatan, mendeteksi cluster hotspot.
- Pemilihan Parameter:
eps = radius tetangga : ukuran maksimum jarak antar titik agar dianggap dalam satu cluster.
minPts = minimal jumlah titik dalam radius eps : menentukan densitas cluster.
Pemilihan eps bisa dibantu k-distance plot.
- Fitting Model:
Interpretasi Hasil
Hasil pemodelan DBSCAN menunjukkan bahwa sebagian besar titik gempa tergabung dalam satu klaster besar yang tersebar mengikuti jalur subduksi dan batas lempeng tektonik dunia. Pola persebaran ini menegaskan bahwa aktivitas gempa bumi dominan terjadi di sepanjang zona tektonik aktif. Beberapa titik terpisah muncul sebagai noise atau peristiwa gempa yang tidak membentuk pola kedekatan spasial yang konsisten. Klaster kecil yang muncul menandakan area dengan frekuensi kejadian lebih padat secara lokal, sementara daerah lain menunjukkan sebaran lebih acak. Secara keseluruhan, model berhasil mengidentifikasi struktur spasial aktivitas gempa global dan membedakan wilayah aktif dari kejadian terisolasi.
- Evaluasi Hasil:
Visualisasi scatter plot 2D/3D dengan warna cluster : cluster jelas, noise = 0.
Statistik : jumlah cluster, ukuran cluster, proporsi noise.
9.3 Algoritma OPTICS (Optional)
Lebih fleksibel daripada DBSCAN : bisa mendeteksi cluster dengan densitas berbeda.
Parameter : minPts, eps (opsional).
Evaluasi : reachability plot, visualisasi cluster.
10 Visualisasi Hasil
10.1 Tujuan
Visualisasi membantu:
Memahami distribusi gempa secara geografis.
Mengidentifikasi cluster hotspot.
Membandingkan hasil PCA / reduksi dimensi dengan cluster.
Menyajikan hasil interaktif untuk laporan dan eksplorasi data.
10.2 Heatmap / KDE 2D
Tujuan: Menunjukkan kepadatan gempa berdasarkan koordinat (Longitude & Latitude).
Interpretasi Hasil:
Visualisasi Heatmap/KDE 2D ini menunjukkan tingkat kepadatan gempa berdasarkan koordinat longitude dan latitude. Warna yang lebih terang menandakan area dengan frekuensi gempa lebih tinggi, sedangkan warna gelap menunjukkan kepadatan rendah. Peta ini membantu mengidentifikasi zona rawan gempa secara spasial dan pola persebarannya di berbagai wilayah.
10.3 PCA + Cluster Scatter Plot (2D / 3D)
Tujuan: Menggambarkan distribusi cluster pada komponen utama PCA.
Interpretasi Hasil
Visualisasi PCA 2D menunjukkan bahwa data gempa membentuk beberapa kelompok dengan pola penyebaran yang berbeda. Cluster terbesar (oranye) tersebar luas, menandakan karakteristik gempa yang lebih beragam. Sementara itu, cluster lain tampak lebih terkonsentrasi pada area tertentu, menunjukkan pola kedalaman dan magnitudo yang lebih spesifik. Secara keseluruhan, PCA berhasil mereduksi dimensi dan memperlihatkan pemisahan pola antar-cluster dengan cukup jelas.
Visualisasi PCA 3D menunjukkan pemisahan pola gempa dalam ruang tiga komponen utama. Cluster oranye terlihat lebih dominan dan menyebar luas, menandakan variasi karakteristik gempa yang lebih besar. Sebaliknya, cluster hijau tampak lebih mengumpul pada area tertentu, menunjukkan pola kedalaman dan magnitudo yang lebih homogen. Secara keseluruhan, PCA 3D membantu memperlihatkan struktur cluster dengan lebih jelas dibanding 2D, terutama dalam membedakan kelompok yang posisinya saling tumpang tindih.
10.4 Dendrogram (Hierarchical Clustering)
Tujuan: Melihat struktur hierarki cluster.
Interpretasi Hasil
Dendrogram menunjukkan struktur hierarki clustering pada sampel 1000 data gempa. Cabang-cabang yang tinggi menandakan penggabungan cluster yang memiliki perbedaan karakteristik cukup besar, sedangkan cabang yang rendah menunjukkan kemiripan tinggi antar data. Pola ini memperlihatkan bahwa dataset terdiri atas beberapa kelompok gempa yang berbeda tingkat kemiripannya, dengan beberapa cluster besar yang baru menyatu pada ketinggian tinggi, menandakan variasi yang signifikan dalam karakteristik gempa.
10.5 Reachability Plot (OPTICS / DBSCAN)
Tujuan: Menilai struktur density-based cluster.
Kendala pada Dataset Global Gempa:
Saat dicoba pada dataset global gempa bumi, OPTICS tidak menghasilkan reachability plot yang valid. Semua nilai reachability menjadi Inf karena:
Distribusi data sangat luas dan sparse (Latitude: -77 : 86, Longitude: -180 : 180, Depth: -1 : 700 km, Magnitude: 5.5 : 9.1).
Outlier ekstrem dan jarak antar titik yang terlalu besar menyebabkan algoritma gagal membangun struktur cluster.
Sampel yang cukup besar (~23.000 titik) juga memperparah perhitungan jarak Euclidean, sehingga reachability tidak terdefinisi.”
10.6 UMAP / PCA + Clusters
Jika dataset lebih kompleks, UMAP bisa digunakan untuk reduksi dimensi non-linear.
Scatter plot 2D/3D dengan cluster hasil DBSCAN/OPTICS memberikan insight visual hotspot gempa.
Interpretasi Hasil
Visualisasi UMAP 2D menunjukkan bahwa sebagian besar data gempa tergabung dalam satu cluster besar yang tersebar mendatar pada sumbu UMAP1 dan UMAP2. Pola ini mengindikasikan bahwa karakteristik gempa dalam dataset cenderung homogen, sehingga algoritma clustering tidak menemukan pemisahan kelompok yang tajam. UMAP tetap membantu memperlihatkan pola penyebaran non-linear, namun struktur cluster terlihat minim dan relatif tumpang tindih.
10.7 Ringkasan
Heatmap/KDE : hotspot gempa secara geografis.
PCA + Cluster (2D/3D) : distribusi cluster pada komponen utama.
Dendrogram : struktur hierarki cluster.
Reachability Plot : densitas cluster (OPTICS/DBSCAN).
UMAP/PCA + Clusters : visualisasi distribusi cluster dengan reduksi dimensi non-linear.
Semua visualisasi interaktif memudahkan eksplorasi dan interpretasi data untuk laporan.
11 Metode Evaluasi Cluster
- Silhouette Score
Mengukur seberapa mirip titik dalam cluster dengan cluster nya dibanding cluster lain.
Rentang -1 : 1 (semakin tinggi : cluster lebih baik).
Bisa digunakan untuk DBSCAN, OPTICS (jika ada), K-Means.
- Adjusted Rand Index (ARI) / Normalized Mutual Information (NMI)
Cocok jika ada label ground truth.
ARI / NMI mengukur kesesuaian cluster prediksi dengan label asli.
ARI: 0 : random, 1 : perfect match.
NMI: 0 : independen, 1 : perfect match.
- Davies-Bouldin Index (DB Index)
Mengukur rasio intra-cluster vs inter-cluster distance.
Semakin kecil : cluster lebih baik.
- Calinski-Harabasz Index (CH Index)
Mengukur rasio between-cluster variance terhadap within-cluster variance.
Semakin tinggi : cluster lebih jelas dan terpisah.
- Stability / Robustness
Uji sensitifitas cluster terhadap:
Subsampling data
Perubahan parameter (eps, minPts)
Cluster stabil : hasil mirip meskipun data sedikit diubah.
- Runtime / Computational Efficiency
Catat waktu eksekusi setiap algoritma.
Bisa pakai system.time() di R:
11.1 Strategi Perbandingan
| \[Algoritma\] | \[Silhouette\] | \[\text{DB Index}\] | \[\text{CH Index}\] | \[Stability\] | \[Runtime\] | \[Catatan\] |
|---|---|---|---|---|---|---|
| DBSCAN | 0.45 | 0.8 | 120 | Stabil | 2 s | Cocok global |
| OPTICS | – | – | – | – | – | Reachability gagal |
| PCA+K-Means | 0.38 | 1.0 | 110 | Sedang | 1 s | Hanya subset kecil |
| UMAP+HDBSCAN | 0.50 | 0.7 | 125 | Stabil | 3 s | Visualisasi interaktif |
12 Kesimpulan dan Rekomendasi
12.1 Kesimpulan
- Evaluasi Data dan Algoritma
Dataset global gempa bumi memiliki distribusi yang sangat luas dan sparse, dengan kedalaman gempa bervariasi (-1 : 700 km), magnitudo 5.5 : 9.1, dan koordinat global (Longitude -180 : 180, Latitude -77 : 86).
Beberapa algoritma, seperti OPTICS, gagal membangun reachability plot karena jarak antar titik ekstrem : semua nilai reachability menjadi Inf.
Algoritma yang berhasil dijalankan antara lain: DBSCAN, PCA + K-Means, dan UMAP + HDBSCAN.
- Performa Algoritma
DBSCAN: Cluster stabil, toleran terhadap noise, runtime cepat, silhouette tinggi : cocok untuk dataset global.
PCA + K-Means: Mempermudah visualisasi cluster pada subset kecil, namun kurang natural untuk data kompleks.
UMAP + HDBSCAN: Memberikan visualisasi interaktif yang baik, menangkap struktur non-linear, stabil, namun runtime sedikit lebih tinggi.
- Evaluasi Objektif
Metric Silhouette, DB Index, dan CH Index menunjukkan DBSCAN dan UMAP + HDBSCAN menghasilkan cluster paling jelas dan terpisah.
OPTICS tidak dapat dievaluasi karena reachability tidak valid.
12.2 Rekomendasi
- Metode Terbaik untuk Problem Ini
DBSCAN direkomendasikan sebagai metode utama untuk clustering dataset global gempa bumi karena:
Mampu menangani dataset besar.
Toleran terhadap noise/outlier.
Runtime cepat : praktis untuk analisis skala global.
Cluster yang dihasilkan jelas dan stabil.
- Pendukung Visualisasi dan Analisis Non-linear
UMAP + HDBSCAN direkomendasikan untuk visualisasi interaktif, terutama jika ingin menampilkan struktur lokal atau pola non-linear dalam cluster.
PCA + K-Means dapat digunakan untuk subset kecil atau analisis eksploratif tambahan, namun tidak optimal untuk dataset global.
- Catatan Praktis
OPTICS tidak direkomendasikan untuk dataset global gempa bumi karena data tersebar luas : reachability tidak valid.
Selalu lakukan preprocessing aman : filter outlier ekstrem, drop NA/Inf, standarisasi sebelum clustering.
Evaluasi cluster harus menggabungkan beberapa metric (Silhouette, DB Index, CH Index, stability, runtime) untuk keputusan yang objektif.