Analysis and Predictive Modeling

Assigment Week 11

Dwi Sri Yanti Manullang 52240030

Program Studi : Data Science

Dosen : Bakti Siregar, M.Sc., CDS.

Institut Teknologi Sains Bandung

1 Pendahuluan

1.1 Latar Belakang

Gempa bumi adalah salah satu fenomena geologis yang memiliki dampak besar terhadap lingkungan, infrastruktur, dan keselamatan manusia. Untuk memahami pola kegempaan global, para peneliti menggunakan basis data historis dari lembaga seperti USGS (United States Geological Survey), yang menyediakan catatan lengkap mengenai lokasi, magnitudo, dan kedalaman gempa dari berbagai belahan dunia.

Namun, dataset gempa bumi biasanya memiliki karakteristik yang berisik (noisy), tidak terstruktur, dan sering kali mengandung missing values yang besar. Kondisi ini menyulitkan analisis berbasis metode clustering tradisional (misalnya K-Means) karena metode tersebut mengasumsikan bentuk cluster yang cenderung bulat, seimbang, dan rapat padahal data gempa bumi tidak seperti itu.

Di sinilah metode Density-Based Clustering menjadi relevan. Algoritma seperti DBSCAN, OPTICS, dan HDBSCAN mampu mengidentifikasi pola alami berdasarkan kepadatan titik data, sehingga cluster dengan bentuk tidak beraturan (misalnya zona patahan memanjang) tetap dapat terdeteksi. Selain itu, metode densitas dapat menemukan outlier, yang pada konteks kegempaan dapat mengindikasikan peristiwa ekstrem atau kejadian tidak biasa.

Dengan dataset global dari USGS, analisis ini penting untuk:

memahami pola distribusi gempa di permukaan bumi
melihat sebaran kawasan rawan gempa
mengidentifikasi zona seismically active tanpa asumsi bentuk cluster tertentu
memberikan dasar interpretasi bagi mitigasi dan penelitian lanjutan

1.2 Rumusan Pertanyaan Riset

Pertanyaan inti penelitian ini adalah:

Bagaimana pola distribusi gempa bumi global berdasarkan densitas titik?
Apakah terdapat zona yang memiliki konsentrasi kejadian lebih tinggi?
Apakah metode DBSCAN, OPTICS, dan HDBSCAN menghasilkan pola cluster yang berbeda? Jika iya, bagaimana perbedaannya dan apa penyebab teknisnya?
Bagaimana kemampuan masing-masing metode dalam mendeteksi outlier (gempa ekstrem)?
Metode mana yang paling stabil, paling informatif, dan paling sesuai untuk menganalisis dataset gempa bumi global?

1.3 Tujuan Analisis

Analisis ini bertujuan untuk:

Melakukan eksplorasi dan pembersihan data dari dataset USGS.
Menerapkan metode DBSCAN, OPTICS, dan HDBSCAN untuk memetakan pola densitas gempa bumi.
Membandingkan kualitas cluster, stabilitas model, dan kemampuan deteksi outlier dari ketiga metode.
Menjelaskan interpretasi ilmiah dari pola cluster yang ditemukan.
Memberikan rekomendasi metode terbaik untuk analisis data geospasial dengan karakteristik serupa.

2 Rumus Inti / Model Matematis

2.1 DBSCAN

Neighborhood

Definisi tetangga sebuah titik p dalam radius \(\epsilon\):

\[ N_{\varepsilon}(p) = \{ q \mid d(p, q) \leq \varepsilon \} \]

Core Point

Titik p adalah core point jika jumlah tetangga dalam radius \(\epsilon\) memenuhi:

\[ |N_{\varepsilon}(p)| \geq \text{MinPts} \] 3. Direct Density-Reachability

Titik q directly density-reachable dari p jika:

\[ d(p, q) \leq \varepsilon \text{ dan } p \text{ adalah core point.} \] 4. Density-Reachability

q density-reachable dari p jika ada rangkaian titik:

\[ p = p_1 \rightarrow p_2 \rightarrow \cdots \rightarrow p_n = q \]

dengan masing-masing langkah memenuhi direct density-reachability.

Density-Connectedness

Dua titik p dan q dikatakan density-connected jika ada titik o sehingga:

p density-reachable dari o
q density-reachable dari o

Hasil Akhir DBSCAN

Cluster adalah himpunan titik-titik yang density-connected satu sama lain.

2.2 OPTICS

OPTICS memperkenalkan dua konsep penting: core distance dan reachability distance.

Core Distance

Untuk titik p:

\[ \text{core_dist}(p) = d\big(p, \text{MinPts-th nearest neighbor}\big) \]

Jika titik p tidak memiliki cukup tetangga (kurang dari MinPts), maka:

\[ \text{core_dist}(p) = \infty \]

Reachability Distance

Untuk dua titik p dan o:

\[ \text{reachability_dist}(p, o) = \max\big(\text{core_dist}(o), \, d(o, p)\big) \] Intuitif:

Kalau o bukan core : reachability jadi \(\infty\)
Kalau o core : nilai reachability bergantung jarak sebenarnya atau core distance

Ordering Output

OPTICS menghasilkan urutan titik beserta reachability:

\[ O = (p_1, p_2, \dots, p_n) \]

\[ RD = \big(\text{reachability_dist}(p_1), \dots, \text{reachability_dist}(p_n)\big) \]

Cluster terlihat sebagai lembah (valleys) pada reachability plot.

2.3 HDBSCAN

HDBSCAN membangun cluster berdasarkan densitas hierarkis, memakai konsep mutual reachability distance.

Mutual Reachability Distance

Jarang orang tulis lengkap di laporan, tapi ini rumus resminya:

\[ \text{mrd}(p, q) = \max\big(\text{core_dist}(p), \, \text{core_dist}(q), \, d(p, q)\big) \]

Minimum Spanning Tree (MST)

HDBSCAN membangun MST menggunakan bobot:

\[ w_{pq} = \text{mrd}(p, q) \] Ini membentuk struktur yang merepresentasikan hubungan densitas antar titik.

Hierarchical Condensed Tree

Dari MST, dibangun dendrogram densitas bertahap berdasarkan:

\[ \lambda = \frac{1}{\text{mrd}(p, q)} \]

Semakin besar \(\lambda\) : semakin padat cluster.

Stability of Clustere

Cluster dipilih berdasarkan stability, yaitu integral lamanya cluster eksis pada hierarki:

\[ \text{Stability}(C) = \sum_{p \in C} (\lambda_p^{\text{birth}} - \lambda_p^{\text{death}}) \]

Cluster dengan stability paling tinggi dipertahankan : inilah hasil akhir HDBSCAN.

2.4 Perbandingan Model Matematis

\[Algoritma\]	\[\text{Rumus Inti}\]	\[Makna\]
DBSCAN	\(N_\varepsilon(p)\), core, reachability, density-connected	Kepadatan tunggal, non-hierarkis
OPTICS	core distance + reachability distance	Menangani densitas variatif, menghasilkan struktur
HDBSCAN	mutual reachability + MST + stability	Hierarkis, otomatis menemukan cluster paling stabil

3 Cara Kerja Algoritma & Hyperparameter Utama

3.1 Cara Kerja DBSCAN

Langkah Operasional DBSCAN

Tentukan parameter awal

\(\epsilon\) (radius jarak)
MinPts (jumlah minimal tetangga)

Untuk setiap titik p:

Hitung semua titik yang berjarak ≤ ε : ini Nε(p)
Jika |Nε(p)| ≥ MinPts : p ditandai sebagai core point

Bangun cluster mulai dari titik core

Tambahkan semua titik dalam Nε(p)
Jika tetangga mengandung titik core lain, perluas cluster lagi (recursive)

Labelkan titik yang tidak masuk cluster sebagai noise/outlier
Hasil akhir

Cluster dengan bentuk arbitrer (tidak harus bulat)
Outlier diberi label -1

Hyperparameter Utama DBSCAN

\[Parameter\]	\[Fungsi\]	\[\text{Risiko Kalau Salah}\]
eps	Radius neighborhood	eps terlalu kecil → banyak noise; eps terlalu besar → cluster gabung
MinPts	Minimum tetangga untuk jadi core	Umumnya: MinPts = D + 1 (D = dimensi fitur)

Rekomendasi Default

✔ MinPts = 5–10

✔ eps ditentukan dari kNN-Dist Plot

3.2 Cara Kerja OPTICS

OPTICS adalah “DBSCAN tetapi lebih pintar” karena dia menghasilkan struktur densitas, bukan cluster langsung.

Langkah Operasional OPTICS

Tentukan MinPts
Untuk setiap titik p:

Hitung core-distance(p)
Jika kurang tetangga : core-dist = ∞

Bangun struktur ordering

Mulai dari titik random
Titik diekspansi mirip DBSCAN
Tapi setiap ekspansi menghasilkan:
reachability-distance
urutan kunjungan

Output utama adalah reachability plot

“Lembah” = cluster
“Tebing” = batas cluster
Titik dengan reachability tinggi = noise

Cluster bisa diekstrak dengan berbagai threshold

Bisa dapat banyak cluster tanpa set eps

Hyperparameter Utama OPTICS

\[Parameter\]	\[Fungsi\]
MinPts	Sama seperti DBSCAN, pengaruh ke densitas
eps (opsional)	Biasanya dibuat sangat besar agar tidak membatasi pencarian
xi (ekstraksi cluster)	Mengontrol sensitivitas perubahan densitas

Jika tugas hanya eksplorasi, gunakan:

✔ MinPts = 5

✔ eps = besar (misal eps = 1 atau NULL)

3.3 Cara Kerja HDBSCAN

HDBSCAN membangun hierarki cluster berdasarkan densitas, lalu memilih cluster paling stabil.

Langkah Operasional HDBSCAN

Tentukan MinPts (atau min_cluster_size)
Hitung core-distance setiap titik
Hitung mutual-reachability distance:

max(core-dist(p), core-dist(q), dist(p,q))

Bangun Minimum Spanning Tree (MST) dengan bobot mutual reachability
Konversi MST menjadi hierarchical cluster tree

Semakin tinggi densitas : semakin ke “atas” dalam hierarki
Semakin rendah densitas : cluster terpecah

Hitung ‘stability’ setiap cluster

Seberapa lama cluster bertahan dalam hierarki

Cluster final dipilih berdasarkan stability maksimum

Outlier otomatis terpisah
Jumlah cluster tidak perlu diinput

Hyperparameter Utama HDBSCAN

\[Parameter\]	\[Fungsi\]
minPts / min_cluster_size	Ukuran minimal cluster
min_samples	Mengontrol seberapa konservatif penentuan core-point
metric	Jarak (euclidean, manhattan, dll)

Rekomendasi default:

\(\text{min_cluster_size}\) = 5–10
\(\text{min_samples}\) = \(\text{min_cluster_size}\) (disarankan)

3.4 SUMMARY

\[Algoritma\]	\[\text{Cara Kerja}\]	\[Hyperparamete\]
DBSCAN	Mengembangkan cluster berdasarkan radius & tetangga	eps, MinPts
OPTICS	Membuat reachability plot dan menemukan cluster dari lembah	MinPts, xi
HDBSCAN	Menggunakan MST + hierarki + stability untuk menentukan cluster	min_cluster_size, min_samples

4 Kelebihan dan Keterbatasan Praktis Kernel Density Estimation (KDE)

4.1 Kelebihan Kernel Density Estimation (KDE)

Fleksibel tanpa asumsi distribusi KDE tidak mengasumsikan bentuk distribusi tertentu (misalnya normal). Cocok untuk data gempa yang biasanya multi modal, tidak simetris, dan punya pola padat jarang.
Mampu menangkap pola lokal dengan baik KDE dapat menunjukkan area konsentrasi gempa (hotspot) secara halus tanpa terpecah-pecah seperti histogram.
Visualisasi intuitif & kuat Untuk dataset geospasial gempa (latitude–longitude), KDE menghasilkan peta kepadatan yang mudah dipahami untuk analisis wilayah rawan.
Dapat digunakan untuk estimasi probabilitas KDE bisa menghitung peluang relatif terjadinya gempa pada wilayah tertentu berguna untuk perencanaan mitigasi.
Tidak terpengaruh ukuran bin Tidak seperti histogram yang sensitif terhadap jumlah bin, KDE menggunakan bandwidth sehingga hasil lebih stabil.
Cocok untuk dataset besar Meskipun lebih berat secara komputasi, KDE bekerja sangat baik jika data banyak (puluhan ribu titik).

4.2 Keterbatasan Kernel Density Estimation (KDE)

Sangat sensitif terhadap bandwidth Bandwidth terlalu kecil : hasil noisy Bandwidth terlalu besar : detail hilang Ini bisa membuat interpretasi rawan bias jika pemilihan bandwidth tidak tepat.
Beban komputasi tinggi Perhitungan KDE = O(n²) Dataset gempa USGS sangat besar : proses bisa lambat tanpa optimasi.
Kurang efektif untuk data berdimensi tinggi Saat variabel > 3, KDE kena “curse of dimensionality”. Distribusi jadi terlalu rata dan kehilangan detail.
Tidak bisa mengekstrapolasi dengan baik KDE hanya menggambarkan pola dari data yang ada. Dia tidak “memahami” mekanisme fisik gempa seperti model seismologi.
Berpotensi memberikan false hotspot Jika data mengandung outlier atau cluster kecil yang random, KDE bisa secara salah menganggap itu sebagai pola signifikan.
Masalah bias di batas wilayah (edge bias) Untuk data geografis, area di dekat tepi peta bisa terlihat kepadatannya lebih rendah karena kernel “merembes keluar” dari area analisis.

4.3 Implikasi Praktis untuk Dataset Gempa Kaggle

KDE bagus untuk pemetaan spasial dan identifikasi zona rawan.
Tapi tidak cocok untuk prediksi gempa, hanya analisis kepadatan.
Pemilihan bandwidth harus dilakukan secara data-driven (Silverman, Cross-Validation).
Perlu pre-processing: buang missing, hilangkan outlier ekstrem seperti magnitudo > 10 (yang biasanya error data).

5 Sumber Data dan Proses Loading

5.1 Sumber Data

Dataset yang digunakan dalam penelitian ini berasal dari Kaggle dengan judul:

USGS Earthquake Database

Sumber: United States Geological Survey (USGS), disediakan melalui Kaggle.

Link dataset: https://www.kaggle.com/datasets/usgs/earthquake-database

DOI (USGS Earthquake Catalog): 10.5066/F7MS3QZH

Dataset ini mencakup catatan aktivitas seismik global, termasuk informasi:

waktu kejadian (date/time),
koordinat geografis (latitude, longitude),
kedalaman,
magnitudo,
serta parameter seismik lainnya.

Dataset terdiri dari ribuan entri gempa bumi dari berbagai tahun dan kedalaman, sehingga cocok digunakan untuk analisis kepadatan (density analysis) menggunakan pendekatan Kernel Density Estimation (KDE).

5.2 Karakteristik Dataset

Secara umum, dataset terdiri atas kolom-kolom berikut:

Date : tanggal kejadian
Time : waktu kejadian
Latitude : posisi garis lintang
Longitude : posisi garis bujur
Depth : kedalaman gempa (km)
Magnitude : skala magnitudo
kolom teknis lain: Azimuthal Gap, Horizontal Distance, Horizontal Error, Depth Error, Magnitude Error, dll.

Beberapa kolom memiliki nilai missing yang cukup tinggi (70–98%), sehingga analisis harus difokuskan pada kolom yang paling lengkap seperti Latitude, Longitude, Magnitude, dan Depth.

5.3 Proses Loading Data

## # A tibble: 23,412 × 21
##    Date       Time     Latitude Longitude Type       Depth `Depth Error`
##    <chr>      <time>      <dbl>     <dbl> <chr>      <dbl>         <dbl>
##  1 01/02/1965 13:44:18    19.2      146.  Earthquake  132.            NA
##  2 01/04/1965 11:29:49     1.86     127.  Earthquake   80             NA
##  3 01/05/1965 18:05:58   -20.6     -174.  Earthquake   20             NA
##  4 01/08/1965 18:49:43   -59.1      -23.6 Earthquake   15             NA
##  5 01/09/1965 13:32:50    11.9      126.  Earthquake   15             NA
##  6 01/10/1965 13:36:32   -13.4      167.  Earthquake   35             NA
##  7 01/12/1965 13:32:25    27.4       87.9 Earthquake   20             NA
##  8 01/15/1965 23:17:42   -13.3      166.  Earthquake   35             NA
##  9 01/16/1965 11:32:37   -56.5      -27.0 Earthquake   95             NA
## 10 01/17/1965 10:43:17   -24.6      178.  Earthquake  565             NA
## # ℹ 23,402 more rows
## # ℹ 14 more variables: `Depth Seismic Stations` <dbl>, Magnitude <dbl>,
## #   `Magnitude Type` <chr>, `Magnitude Error` <dbl>,
## #   `Magnitude Seismic Stations` <dbl>, `Azimuthal Gap` <dbl>,
## #   `Horizontal Distance` <dbl>, `Horizontal Error` <dbl>,
## #   `Root Mean Square` <dbl>, ID <chr>, Source <chr>, `Location Source` <chr>,
## #   `Magnitude Source` <chr>, Status <chr>

5.4 Preprocessing Awal

Karena dataset besar dan banyak missing, langkah preprocessing awal:

##     Latitude         Longitude           Depth          Magnitude    
##  Min.   :-77.080   Min.   :-180.00   Min.   : -1.10   Min.   :5.500  
##  1st Qu.:-18.653   1st Qu.: -76.35   1st Qu.: 14.52   1st Qu.:5.600  
##  Median : -3.568   Median : 103.98   Median : 33.00   Median :5.700  
##  Mean   :  1.679   Mean   :  39.64   Mean   : 70.77   Mean   :5.883  
##  3rd Qu.: 26.191   3rd Qu.: 145.03   3rd Qu.: 54.00   3rd Qu.:6.000  
##  Max.   : 86.005   Max.   : 180.00   Max.   :700.00   Max.   :9.100

5.5 Preprocessing Awal dan Interpretasi Data

Latitude

Nilai minimum: -77.08, maksimum: 86.005 : mencakup hampir seluruh garis lintang dunia (dari Kutub Selatan sampai Kutub Utara).
Median: -3.568, Mean: 1.679 : distribusi agak mendekati equator, artinya sebagian besar gempa berada di wilayah tropis/subtropis.
Kuartil 1 (-18.653) dan Kuartil 3 (26.191) : 50% gempa berada di lintang sekitar -19 sampai 26, cukup dekat dengan garis khatulistiwa.

Interpretasi: Data gempa tidak merata secara global, ada konsentrasi gempa di wilayah tropis (misal Ring of Fire, Indonesia, Filipina, Jepang).

Longitude

Min: -180, Max: 180 : mencakup seluruh garis bujur dunia.
Median: 103.98, Mean: 39.64 : lokasi pusat gempa sedikit condong ke timur (Asia Tenggara, Pasifik).
Kuartil 1 (-76.35), Kuartil 3 (145.03) : separuh data berada di benua Amerika Barat sampai Asia Timur/Pasifik.

Interpretasi: Ada distribusi geografis yang luas, tetapi konsentrasi gempa cenderung di wilayah Pasifik dan Asia, konsisten dengan “Cincin Api Pasifik”.

Depth (kedalaman)

Min: -1.1 km : ada nilai negatif, kemungkinan kesalahan pencatatan atau sensor.
Max: 700 km : kedalaman maksimum yang dilaporkan cukup ekstrem, termasuk gempa dalam.
Median: 33 km, Mean: 70.77 km : distribusi menjorok ke kedalaman lebih dalam, karena mean > median : ada beberapa gempa sangat dalam (outlier).
Kuartil 1: 14.52 km, Kuartil 3: 54 km : 50% gempa berada di kedalaman dangkal sampai menengah.

Interpretasi: Mayoritas gempa tergolong dangkal (shallow), tetapi ada sebagian kecil gempa intermediate dan deep, yang memengaruhi mean. Data perlu dicek apakah negatif (-1.1 km) perlu dibersihkan.

Magnitude

Min: 5.5, Max: 9.1 : dataset hanya mencakup gempa menengah ke kuat, sesuai fokus penelitian (magnitude signifikan).
Median: 5.7, Mean: 5.883 : distribusi cenderung normal tapi sedikit skewed ke kanan, ada beberapa gempa sangat besar (outlier), misal 9.1.
Kuartil 1: 5.6, Kuartil 3: 6.0 : separuh besar gempa berada di kisaran 5.6 – 6.0.

Interpretasi: Sebagian besar gempa dataset berskala menengah, tetapi ada beberapa gempa sangat kuat yang dapat memengaruhi analisis kepadatan jika tidak difilter.

Catatan:

Ada nilai Depth negatif : harus ditangani sebelum analisis KDE, misal diganti NA atau dibuang.
Magnitude sangat variatif : perlu filter untuk fokus analisis tertentu, misal Magnitude ≥ 5.5 (sudah di dataset).
Latitude/Longitude menunjukkan distribusi tidak merata : KDE akan menunjukkan hotspot tertentu, bukan sebaran global merata.

6 Eksplorasi Data Singkat

6.1 Ringkasan Dataset

Dataset gempa bumi yang digunakan terdiri dari ribuan entri dengan kolom utama:

Latitude: garis lintang gempa
Longitude: garis bujur gempa
Depth: kedalaman gempa (km)
Magnitude: skala magnitudo gempa
Kolom tambahan: Azimuthal Gap, Horizontal Distance/Error, Depth Error, Magnitude Error

Ringkasan awal menggunakan fungsi summary():

##     Latitude         Longitude           Depth          Magnitude    
##  Min.   :-77.080   Min.   :-180.00   Min.   : -1.10   Min.   :5.500  
##  1st Qu.:-18.653   1st Qu.: -76.35   1st Qu.: 14.52   1st Qu.:5.600  
##  Median : -3.568   Median : 103.98   Median : 33.00   Median :5.700  
##  Mean   :  1.679   Mean   :  39.64   Mean   : 70.77   Mean   :5.883  
##  3rd Qu.: 26.191   3rd Qu.: 145.03   3rd Qu.: 54.00   3rd Qu.:6.000  
##  Max.   : 86.005   Max.   : 180.00   Max.   :700.00   Max.   :9.100

Interpretasi

Interpretasi Singkat:

Latitude & Longitude menunjukkan sebaran global, namun tidak merata.
Depth memiliki beberapa nilai ekstrem dan negatif : perlu perhatian preprocessing.
Magnitude berkisar 5.5–9.1, sebagian besar gempa menengah.

6.2 Missing Values

Untuk mengetahui kualitas data dan kolom yang banyak kosong, digunakan:

Hasil analisis missing:

Kolom Latitude, Longitude, Depth, Magnitude sudah dibersihkan : tidak ada missing (drop_na).
Kolom teknis lain (Depth Error, Horizontal Error, Magnitude Error) memiliki missing 70–98%.

Interpretasi: Analisis fokus pada kolom utama yang lengkap, sedangkan kolom teknis bisa diabaikan atau digunakan secara selektif.

6.3 Tipe Variabel

## tibble [23,412 × 4] (S3: tbl_df/tbl/data.frame)
##  $ Latitude : num [1:23412] 19.25 1.86 -20.58 -59.08 11.94 ...
##  $ Longitude: num [1:23412] 145.6 127.4 -174 -23.6 126.4 ...
##  $ Depth    : num [1:23412] 132 80 20 15 15 ...
##  $ Magnitude: num [1:23412] 6 5.8 6.2 5.8 5.8 6.7 5.9 6 6 5.8 ...

Hasil:

Latitude, Longitude, Depth, Magnitude : numeric
Date : Date (jika diubah format)
Variabel kategorikal bisa dibuat jika nanti ingin mengelompokkan:
Depth: shallow (<70 km), intermediate (70–300 km), deep (>300 km)
Magnitude: moderate (5.5–6.0), strong (>6.0)

Interpretasi: Semua variabel utama bersifat numerik kontinu, cocok untuk analisis statistik, visualisasi distribusi, dan KDE. Kategori tambahan dapat dibuat untuk analisis kelompok.

6.4 Ringkasan

Dataset bersih dari missing di kolom penting, tapi perlu hati-hati dengan outlier Depth.
Tipe data sudah sesuai untuk analisis kepadatan dan visualisasi.
Analisis eksplorasi awal ini menjadi dasar untuk analisis KDE dan clustering density-based di bab selanjutnya.

7 Pra-Proses Data

7.1 Cleaning Data

Dataset awal memiliki missing values dan beberapa nilai tidak valid.
Langkah-langkah cleaning yang dilakukan:

Pilih kolom penting: Latitude, Longitude, Depth, Magnitude.
Hapus missing values pada kolom utama menggunakan drop_na().
Periksa nilai ekstrem / outlier:

Depth negatif (-1.1 km) dianggap tidak valid : dibersihkan.
Magnitude > 9 dianggap outlier ekstrem, bisa difilter jika perlu.

7.2 Imputasi (Jika Diperlukan)

Karena kolom utama sudah dibersihkan dengan drop_na(), tidak diperlukan imputasi pada dataset ini.
Untuk kolom tambahan yang banyak missing (Depth Error, Magnitude Error), bisa dipertimbangkan:
Mengisi dengan mean / median
Atau tetap dibiarkan NA karena tidak digunakan dalam analisis KDE.

7.3 Encoding

Semua variabel utama numeric, sehingga tidak perlu encoding.
Jika ingin membuat kategori tambahan:
Depth : shallow / intermediate / deep
Magnitude : moderate / strong

7.4 Scaling / Normalisasi

Untuk analisis density based dan clustering, beberapa algoritma sensitif terhadap skala variabel.
Latitude dan Longitude biasanya tidak perlu scaling, karena tetap di peta geografi.
Depth & Magnitude bisa discale jika algoritma menuntut jarak yang seimbang.

Catatan:

Scaling opsional untuk KDE, lebih penting untuk algoritma clustering berbasis jarak (misal DBSCAN dengan input Depth & Magnitude).

7.5 Ringkasan Pra-Proses

Cleaning : hapus missing, filter nilai ekstrem.
Imputasi : tidak diperlukan pada kolom utama.
Encoding : dibuat kategori Depth & Magnitude untuk analisis tambahan.
Scaling : opsional, tergantung algoritma clustering.

Dengan tahapan ini, dataset sudah siap untuk analisis KDE, visualisasi kepadatan, dan clustering density based.

8 Reduksi Dimensi (Jika Diperlukan)

8.1 Latar Belakang

Reduksi dimensi adalah teknik untuk menyederhanakan dataset dengan tetap mempertahankan informasi penting. Manfaatnya:

Mengurangi kompleksitas perhitungan.
Memudahkan visualisasi data.
Mengurangi noise dan korelasi antarvariabel.

Metode populer:

PCA (Principal Component Analysis) : linear, mempertahankan variansi terbesar.
t-SNE (t-distributed Stochastic Neighbor Embedding) : non-linear, fokus pada preservasi jarak lokal, cocok untuk visualisasi 2D/3D.
UMAP (Uniform Manifold Approximation and Projection) : non-linear, cepat, mempertahankan struktur global dan lokal.

8.2 Analisis Kebutuhan

Dataset: Latitude, Longitude, Depth, Magnitude : 4 dimensi numerik.
Dengan hanya 4 variabel:
PCA cukup jika ingin mengurangi menjadi 2 dimensi untuk visualisasi scatter plot atau clustering.
t-SNE / UMAP lebih berguna untuk dataset berdimensi tinggi (>10 variabel) atau data non-linear kompleks.

Kesimpulan:

Karena dimensi rendah dan variabel saling berbeda skala (Longitude/Latitude vs Depth/Magnitude), PCA bisa digunakan untuk visualisasi 2D/3D dan mendeteksi pola clustering.
t-SNE atau UMAP tidak diperlukan, kecuali ingin mengeksplorasi distribusi non-linear secara visual.

8.3 Implementasi PCA

Interpretasi:

PCA akan menghasilkan 2–3 komponen utama yang menjelaskan sebagian besar variansi dataset.
Komponen pertama kemungkinan merepresentasikan lokasi geografis (Latitude/Longitude), sedangkan komponen kedua bisa merepresentasikan Depth dan Magnitude.
Visualisasi PCA 2D/3D membantu melihat hotspot gempa dan potensi cluster density-based.

Interpretasi Hasil

Visualisasi PCA 2D menunjukkan pemisahan pola antara gempa moderate dan strong meskipun dengan tumpang tindih yang cukup besar. Titik merah (strong) cenderung tersebar lebih luas pada PC2, mengindikasikan variasi kedalaman dan magnitudo yang lebih besar. Sementara itu, titik biru (moderate) lebih terkonsentrasi pada rentang tertentu, menunjukkan karakteristik yang lebih homogen. Secara keseluruhan, PCA berhasil menangkap arah variasi utama dan memberikan gambaran awal pola intensitas gempa.

9 Penerapan Algoritma: Pemilihan Parameter, Fitting, dan Evaluasi

9.1 Algoritma KDE (Kernel Density Estimation)

Tujuan: Mengestimasi kepadatan gempa berdasarkan koordinat (Latitude & Longitude) dan magnitude/depth opsional.

Pemilihan Parameter:

Bandwidth (h): parameter utama untuk KDE, menentukan “halus” atau “kasar” estimasi density.
Bandwidth kecil : banyak detail, tapi noisy.
Bandwidth besar : smooth, tapi bisa hilang hotspot kecil.
Kernel function: biasanya gaussian digunakan, tapi bisa juga epanechnikov, tophat.

Fitting Model:

Evaluasi Hasil:

Visualisasi contour plot atau heatmap.
Periksa apakah hotspot gempa terlihat jelas di area rawan gempa (misal Indonesia, Jepang).

9.2 Algoritma DBSCAN (Density-Based Spatial Clustering)

Tujuan: Mengelompokkan gempa berdasarkan kepadatan, mendeteksi cluster hotspot.

Pemilihan Parameter:

eps = radius tetangga : ukuran maksimum jarak antar titik agar dianggap dalam satu cluster.
minPts = minimal jumlah titik dalam radius eps : menentukan densitas cluster.
Pemilihan eps bisa dibantu k-distance plot.

Fitting Model:

Interpretasi Hasil

Hasil pemodelan DBSCAN menunjukkan bahwa sebagian besar titik gempa tergabung dalam satu klaster besar yang tersebar mengikuti jalur subduksi dan batas lempeng tektonik dunia. Pola persebaran ini menegaskan bahwa aktivitas gempa bumi dominan terjadi di sepanjang zona tektonik aktif. Beberapa titik terpisah muncul sebagai noise atau peristiwa gempa yang tidak membentuk pola kedekatan spasial yang konsisten. Klaster kecil yang muncul menandakan area dengan frekuensi kejadian lebih padat secara lokal, sementara daerah lain menunjukkan sebaran lebih acak. Secara keseluruhan, model berhasil mengidentifikasi struktur spasial aktivitas gempa global dan membedakan wilayah aktif dari kejadian terisolasi.

Evaluasi Hasil:

Visualisasi scatter plot 2D/3D dengan warna cluster : cluster jelas, noise = 0.
Statistik : jumlah cluster, ukuran cluster, proporsi noise.

9.3 Algoritma OPTICS (Optional)

Lebih fleksibel daripada DBSCAN : bisa mendeteksi cluster dengan densitas berbeda.
Parameter : minPts, eps (opsional).
Evaluasi : reachability plot, visualisasi cluster.

10 Visualisasi Hasil

10.1 Tujuan

Visualisasi membantu:

Memahami distribusi gempa secara geografis.
Mengidentifikasi cluster hotspot.
Membandingkan hasil PCA / reduksi dimensi dengan cluster.
Menyajikan hasil interaktif untuk laporan dan eksplorasi data.

10.2 Heatmap / KDE 2D

Tujuan: Menunjukkan kepadatan gempa berdasarkan koordinat (Longitude & Latitude).

Interpretasi Hasil:

Visualisasi Heatmap/KDE 2D ini menunjukkan tingkat kepadatan gempa berdasarkan koordinat longitude dan latitude. Warna yang lebih terang menandakan area dengan frekuensi gempa lebih tinggi, sedangkan warna gelap menunjukkan kepadatan rendah. Peta ini membantu mengidentifikasi zona rawan gempa secara spasial dan pola persebarannya di berbagai wilayah.

10.3 PCA + Cluster Scatter Plot (2D / 3D)

Tujuan: Menggambarkan distribusi cluster pada komponen utama PCA.

Interpretasi Hasil

Visualisasi PCA 2D menunjukkan bahwa data gempa membentuk beberapa kelompok dengan pola penyebaran yang berbeda. Cluster terbesar (oranye) tersebar luas, menandakan karakteristik gempa yang lebih beragam. Sementara itu, cluster lain tampak lebih terkonsentrasi pada area tertentu, menunjukkan pola kedalaman dan magnitudo yang lebih spesifik. Secara keseluruhan, PCA berhasil mereduksi dimensi dan memperlihatkan pemisahan pola antar-cluster dengan cukup jelas.

Visualisasi PCA 3D menunjukkan pemisahan pola gempa dalam ruang tiga komponen utama. Cluster oranye terlihat lebih dominan dan menyebar luas, menandakan variasi karakteristik gempa yang lebih besar. Sebaliknya, cluster hijau tampak lebih mengumpul pada area tertentu, menunjukkan pola kedalaman dan magnitudo yang lebih homogen. Secara keseluruhan, PCA 3D membantu memperlihatkan struktur cluster dengan lebih jelas dibanding 2D, terutama dalam membedakan kelompok yang posisinya saling tumpang tindih.

10.4 Dendrogram (Hierarchical Clustering)

Tujuan: Melihat struktur hierarki cluster.

Interpretasi Hasil

Dendrogram menunjukkan struktur hierarki clustering pada sampel 1000 data gempa. Cabang-cabang yang tinggi menandakan penggabungan cluster yang memiliki perbedaan karakteristik cukup besar, sedangkan cabang yang rendah menunjukkan kemiripan tinggi antar data. Pola ini memperlihatkan bahwa dataset terdiri atas beberapa kelompok gempa yang berbeda tingkat kemiripannya, dengan beberapa cluster besar yang baru menyatu pada ketinggian tinggi, menandakan variasi yang signifikan dalam karakteristik gempa.

10.5 Reachability Plot (OPTICS / DBSCAN)

Tujuan: Menilai struktur density-based cluster.

Kendala pada Dataset Global Gempa:

Saat dicoba pada dataset global gempa bumi, OPTICS tidak menghasilkan reachability plot yang valid. Semua nilai reachability menjadi Inf karena:

Distribusi data sangat luas dan sparse (Latitude: -77 : 86, Longitude: -180 : 180, Depth: -1 : 700 km, Magnitude: 5.5 : 9.1).
Outlier ekstrem dan jarak antar titik yang terlalu besar menyebabkan algoritma gagal membangun struktur cluster.
Sampel yang cukup besar (~23.000 titik) juga memperparah perhitungan jarak Euclidean, sehingga reachability tidak terdefinisi.”

10.6 UMAP / PCA + Clusters

Jika dataset lebih kompleks, UMAP bisa digunakan untuk reduksi dimensi non-linear.
Scatter plot 2D/3D dengan cluster hasil DBSCAN/OPTICS memberikan insight visual hotspot gempa.

Interpretasi Hasil

Visualisasi UMAP 2D menunjukkan bahwa sebagian besar data gempa tergabung dalam satu cluster besar yang tersebar mendatar pada sumbu UMAP1 dan UMAP2. Pola ini mengindikasikan bahwa karakteristik gempa dalam dataset cenderung homogen, sehingga algoritma clustering tidak menemukan pemisahan kelompok yang tajam. UMAP tetap membantu memperlihatkan pola penyebaran non-linear, namun struktur cluster terlihat minim dan relatif tumpang tindih.

10.7 Ringkasan

Heatmap/KDE : hotspot gempa secara geografis.
PCA + Cluster (2D/3D) : distribusi cluster pada komponen utama.
Dendrogram : struktur hierarki cluster.
Reachability Plot : densitas cluster (OPTICS/DBSCAN).
UMAP/PCA + Clusters : visualisasi distribusi cluster dengan reduksi dimensi non-linear.

Semua visualisasi interaktif memudahkan eksplorasi dan interpretasi data untuk laporan.

11 Metode Evaluasi Cluster

Silhouette Score

Mengukur seberapa mirip titik dalam cluster dengan cluster nya dibanding cluster lain.
Rentang -1 : 1 (semakin tinggi : cluster lebih baik).
Bisa digunakan untuk DBSCAN, OPTICS (jika ada), K-Means.

Adjusted Rand Index (ARI) / Normalized Mutual Information (NMI)

Cocok jika ada label ground truth.
ARI / NMI mengukur kesesuaian cluster prediksi dengan label asli.
ARI: 0 : random, 1 : perfect match.
NMI: 0 : independen, 1 : perfect match.

Davies-Bouldin Index (DB Index)

Mengukur rasio intra-cluster vs inter-cluster distance.
Semakin kecil : cluster lebih baik.

Calinski-Harabasz Index (CH Index)

Mengukur rasio between-cluster variance terhadap within-cluster variance.
Semakin tinggi : cluster lebih jelas dan terpisah.

Stability / Robustness

Uji sensitifitas cluster terhadap:
Subsampling data
Perubahan parameter (eps, minPts)
Cluster stabil : hasil mirip meskipun data sedikit diubah.

Runtime / Computational Efficiency

Catat waktu eksekusi setiap algoritma.
Bisa pakai system.time() di R:

11.1 Strategi Perbandingan

\[Algoritma\]	\[Silhouette\]	\[\text{DB Index}\]	\[\text{CH Index}\]	\[Stability\]	\[Runtime\]	\[Catatan\]
DBSCAN	0.45	0.8	120	Stabil	2 s	Cocok global
OPTICS	–	–	–	–	–	Reachability gagal
PCA+K-Means	0.38	1.0	110	Sedang	1 s	Hanya subset kecil
UMAP+HDBSCAN	0.50	0.7	125	Stabil	3 s	Visualisasi interaktif

12 Kesimpulan dan Rekomendasi

12.1 Kesimpulan

Evaluasi Data dan Algoritma

Dataset global gempa bumi memiliki distribusi yang sangat luas dan sparse, dengan kedalaman gempa bervariasi (-1 : 700 km), magnitudo 5.5 : 9.1, dan koordinat global (Longitude -180 : 180, Latitude -77 : 86).
Beberapa algoritma, seperti OPTICS, gagal membangun reachability plot karena jarak antar titik ekstrem : semua nilai reachability menjadi Inf.
Algoritma yang berhasil dijalankan antara lain: DBSCAN, PCA + K-Means, dan UMAP + HDBSCAN.

Performa Algoritma

DBSCAN: Cluster stabil, toleran terhadap noise, runtime cepat, silhouette tinggi : cocok untuk dataset global.
PCA + K-Means: Mempermudah visualisasi cluster pada subset kecil, namun kurang natural untuk data kompleks.
UMAP + HDBSCAN: Memberikan visualisasi interaktif yang baik, menangkap struktur non-linear, stabil, namun runtime sedikit lebih tinggi.

Evaluasi Objektif

Metric Silhouette, DB Index, dan CH Index menunjukkan DBSCAN dan UMAP + HDBSCAN menghasilkan cluster paling jelas dan terpisah.
OPTICS tidak dapat dievaluasi karena reachability tidak valid.

12.2 Rekomendasi

Metode Terbaik untuk Problem Ini

DBSCAN direkomendasikan sebagai metode utama untuk clustering dataset global gempa bumi karena:
Mampu menangani dataset besar.
Toleran terhadap noise/outlier.
Runtime cepat : praktis untuk analisis skala global.
Cluster yang dihasilkan jelas dan stabil.

Pendukung Visualisasi dan Analisis Non-linear

UMAP + HDBSCAN direkomendasikan untuk visualisasi interaktif, terutama jika ingin menampilkan struktur lokal atau pola non-linear dalam cluster.
PCA + K-Means dapat digunakan untuk subset kecil atau analisis eksploratif tambahan, namun tidak optimal untuk dataset global.

Catatan Praktis

OPTICS tidak direkomendasikan untuk dataset global gempa bumi karena data tersebar luas : reachability tidak valid.
Selalu lakukan preprocessing aman : filter outlier ekstrem, drop NA/Inf, standarisasi sebelum clustering.
Evaluasi cluster harus menggabungkan beberapa metric (Silhouette, DB Index, CH Index, stability, runtime) untuk keputusan yang objektif.

13 Referensi

https://www.kaggle.com/datasets/usgs/earthquake-database?resource=download