Dataset yang digunakan adalah Mall Customers Dataset dari
Kaggle. Dataset ini berisi data pelanggan yang mencakup umur, pendapatan
tahunan, dan skor pengeluaran. Tujuan analisis ini adalah mengelompokkan
pelanggan berdasarkan kemiripan karakteristik menggunakan metode
hierarchical clustering.
Relevansi clustering: membantu memahami segmentasi pelanggan untuk
analisis pemasaran, penawaran personal, dan pemetaan perilaku.
2 Teori Dasar
Hierarchical Clustering
Hierarchical clustering adalah metode pengelompokan yang membangun
hierarki cluster. Terdiri dari dua pendekatan utama:
Agglomerative (bottom-up) dan Divisive
(top-down).
2.1 Definisi
Agglomerative: setiap titik data mulai sebagai
cluster tunggal lalu digabung secara bertahap.
Divisive: seluruh data dianggap satu cluster lalu
dipecah menjadi cluster lebih kecil.
2.2 Rumus Inti
Menggunakan distance matrix berdasarkan Euclidean
distance:
\[d(x, y) = \sqrt{\sum_{i=1}^{n} (x_i -
y_i)^2}\]
2.3 Linkage Methods
Single linkage: jarak minimum antar dua
cluster.
Complete linkage: jarak maksimum antar dua
cluster.
Average linkage: rata-rata jarak antar anggota
cluster.
Ward linkage: meminimalkan total variansi dalam
cluster.
2.4 Kelebihan &
Kekurangan
Kelebihan: - Tidak perlu menentukan jumlah cluster
di awal. - Dendrogram memudahkan interpretasi.
Kekurangan: - Komputasi lebih berat untuk dataset
besar. - Sensitif terhadap noise dan outlier.
## CustomerID Genre Age Annual.Income..k..
## Min. : 1.00 Length:200 Min. :18.00 Min. : 15.00
## 1st Qu.: 50.75 Class :character 1st Qu.:28.75 1st Qu.: 41.50
## Median :100.50 Mode :character Median :36.00 Median : 61.50
## Mean :100.50 Mean :38.85 Mean : 60.56
## 3rd Qu.:150.25 3rd Qu.:49.00 3rd Qu.: 78.00
## Max. :200.00 Max. :70.00 Max. :137.00
## Spending.Score..1.100.
## Min. : 1.00
## 1st Qu.:34.75
## Median :50.00
## Mean :50.20
## 3rd Qu.:73.00
## Max. :99.00
4.1CustomerID
Rentang: 1 – 200
Mean dan median sama-sama 100.5
Variabel ini merupakan identifier dan tidak memiliki informasi
numerik yang relevan untuk analisis.
Tidak digunakan dalam clustering karena tidak menggambarkan
karakteristik pelanggan.
4.2Genre (Jenis
Kelamin)
Tipe data: karakter (Male/Female)
Jumlah observasi: 200
Variabel kategorikal ini dapat digunakan jika di-encode, tetapi
dalam banyak kasus tidak memberikan kontribusi besar terhadap pemisahan
klaster.
Penggunaan variabel ini opsional bergantung pada tujuan
analisis.
4.3Age
(Usia)
Rentang: 18 – 70 tahun
Median: 36
Mean: 38.85
Distribusi usia sedikit condong ke kanan, terlihat dari mean yang
sedikit lebih besar dari median.
Mayoritas pelanggan berada pada rentang usia 28 hingga 49 tahun
(kuartil kedua dan ketiga).
Tidak terdapat nilai yang tampak sebagai outlier ekstrem, sehingga
variabel ini stabil untuk digunakan sebagai fitur clustering.
4.4Annual Income
(Pendapatan Tahunan, dalam ribuan USD)
Rentang: 15 – 137
Median: 61.50
Mean: 60.56
Distribusi pendapatan relatif simetris karena mean hampir sama
dengan median.
Variasi pendapatan cukup besar, menunjukkan adanya kelompok
pelanggan dengan tingkat ekonomi yang berbeda-beda.
Variabel ini sangat relevan untuk segmentasi pelanggan berdasarkan
daya beli.
4.5Spending
Score
Rentang: 1 – 99
Median: 50
Mean: 50.20
Nilai skor tersebar merata dan tidak condong ke satu sisi.
Variabel ini menggambarkan perilaku belanja pelanggan dan biasanya
menjadi faktor utama dalam pembentukan klaster.
Variabel ini penting dalam memahami perbedaan tingkat konsumsi antar
pelanggan.
4.6Kesimpulan
EDA
Semua variabel yang digunakan memiliki distribusi yang wajar dan
tidak terdapat indikasi nilai ekstrem yang mengganggu analisis.
Variabel paling relevan untuk clustering: Age, Annual Income, dan
Spending Score.
CustomerID tidak digunakan karena hanya berupa identitas.
Genre dapat digunakan tetapi bersifat opsional tergantung tujuan
segmentasi.
5 Pra-Proses Data
Dataset dibersihkan dengan hanya memilih variabel numerik yang
relevan untuk clustering, yaitu Age, Annual Income, dan Spending Score.
Proses scaling dilakukan untuk menyeimbangkan kontribusi setiap
variabel, karena hierarchical clustering sensitif terhadap perbedaan
skala. Tahap ini memastikan hasil clustering lebih akurat dan
stabil.
Reduksi dimensi dilakukan untuk menyederhanakan struktur data
sehingga pola klaster lebih mudah diamati. Dalam analisis ini, PCA
digunakan untuk mengekstraksi komponen utama yang memuat variasi
terbesar pada data. Visualisasi dua komponen utama (PC1 dan PC2)
memberikan gambaran awal mengenai kemungkinan pemisahan klaster. Teknik
seperti t-SNE dan UMAP dapat digunakan sebagai visualisasi tambahan
untuk melihat struktur lokal dan pola non-linear yang tidak dapat
ditangkap oleh PCA. Meskipun demikian, PCA lebih sesuai sebagai dasar
perhitungan jarak untuk hierarchical clustering karena mempertahankan
struktur global data.
Plot PCA di atas menampilkan distribusi seluruh pelanggan berdasarkan
dua komponen utama, yaitu Dimensi 1 (44.3%) dan
Dimensi 2 (33.3%), yang secara keseluruhan menjelaskan
sekitar 77.6% variasi total data. Dengan demikian,
representasi dua dimensi ini sudah cukup menggambarkan struktur data
asli.
6.1Penyebaran
Data Secara Umum
Pelanggan tersebar luas di seluruh area plot tanpa adanya pemisahan
cluster yang sangat jelas. Hal ini menunjukkan bahwa:
Variabel Age, Annual Income, dan Spending
Score saling berkontribusi terhadap variasi data.
Pola klaster tidak langsung terlihat secara visual hanya dari
PCA.
Clustering hierarchical diperlukan untuk mengidentifikasi struktur
kelompok yang lebih teratur.
6.2Interpretasi
Dimensi 1 (Komponen Utama Pertama)
Dim1 menjelaskan 44.3% variasi data. Biasanya pada dataset ini:
Dim1 menangkap perbedaan terutama pada Annual
Income dan Spending Score.
Titik-titik di sisi kanan umumnya menggambarkan pelanggan dengan
pendapatan atau skor pengeluaran yang lebih tinggi.
Titik di sisi kiri menggambarkan pelanggan dengan pendapatan atau
skor pengeluaran lebih rendah.
Artinya, pergeseran horizontal menunjukkan perbedaan daya beli dan
perilaku belanja pelanggan.
6.3Interpretasi
Dimensi 2 (Komponen Utama Kedua)
Dim2 menjelaskan 33.3% variasi data. Dimensi ini kemungkinan
menangkap perbedaan yang lebih dipengaruhi oleh:
Usia, atau
Kombinasi variabel lain yang tidak dominan di Dim1.
Titik yang berada lebih tinggi pada plot biasanya memiliki
karakteristik berbeda dalam hal usia atau pola belanja tertentu.
6.4Pola
Distribusi
Beberapa pola utama dapat diamati:
Pelanggan dengan nomor ID tertentu tampak berkumpul di wilayah
tengah, mengindikasikan karakteristik yang tidak terlalu ekstrem.
Titik-titik di bagian kanan atas (misalnya ID 195, 197, 199, 200)
menunjukkan pelanggan dengan karakteristik yang berbeda cukup signifikan
dari mayoritas (misalnya pendapatan tinggi atau spending score
tinggi).
Tidak tampak pengelompokan yang sangat rapat seperti dalam dataset
dengan pola klaster kuat. Ini wajar karena PCA adalah metode linear,
sedangkan pola klaster Mall Customer Data biasanya lebih terlihat dengan
metode non-linear seperti t-SNE atau UMAP.
6.5Implikasi
untuk Analisis Clustering
Interpretasi ini menunjukkan bahwa:
Data memiliki variasi yang cukup besar sehingga hierarchical
clustering berpotensi mengungkap klaster yang berbeda.
PCA membantu memberikan gambaran awal tentang struktur data, tetapi
tidak cukup untuk menentukan cluster secara visual.
Hasil klaster nantinya akan lebih dipengaruhi oleh kombinasi
informasi numerik asli, bukan hanya plot PCA.
Plot PCA menunjukkan bahwa data pelanggan memiliki sebaran yang cukup
luas dan variasi tinggi, dengan dua komponen utama yang bersama-sama
menjelaskan lebih dari 75% informasi penting dalam data. Meskipun pola
klaster belum tampak jelas dalam visualisasi PCA, teknik ini memberikan
representasi awal yang membantu memahami arah variasi utama dalam
dataset. Analisis clustering hierarchical diperlukan untuk menghasilkan
pemisahan kelompok yang lebih terstruktur.
7 Hierarchical
Clustering
7.1 Distance Matrix
dist_mat <-dist(scaled, method ="euclidean")
Pada langkah ini dibuat distance matrix menggunakan Euclidean
distance dari data yang sudah dinormalisasi (scaled). Distance matrix
berisi nilai jarak antar setiap pasangan data. Semakin kecil nilai
jaraknya, semakin mirip dua observasi tersebut. Distance matrix inilah
yang menjadi input utama untuk metode hierarchical clustering
agglomerative.
# ================================# 6. DIANA Dendrogram# ================================dend_diana <-as.dendrogram(diana_res)ggd_diana <-dendro_data(dend_diana)ggplot() +geom_segment(data = ggd_diana$segments,aes(x = x, y = y, xend = xend, yend = yend),linewidth =0.4 ) +geom_text(data = ggd_diana$labels,aes(x = x, y = y, label = label),size =3,vjust =1 ) +theme_minimal() +labs(title ="DIANA (Divisive Clustering)", x ="", y ="Height") +theme(axis.text.x =element_blank(),axis.ticks.x =element_blank() )
1. Complete Linkage
Karakteristik Visual:
Cabang lebih rapat dan simetris dibanding single linkage.
Tidak terlihat chaining effect.
Beberapa cabang menyatu di ketinggian cukup besar,
menunjukkan pemisahan klaster yang lebih stabil.
Interpretasi:
Complete linkage mengukur jarak maksimum antar
klaster, sehingga menghasilkan klaster yang lebih kompak dan
seimbang.
Klaster terbentuk lebih konsisten daripada
single linkage.
Terlihat beberapa “blok” besar pada ketinggian menengah—ini tanda
bahwa:
Ada grup pelanggan yang benar-benar berbeda satu sama lain.
Karena complete linkage menghindari chaining, hasilnya lebih
mudah dibaca dan digunakan untuk menentukan jumlah klaster.
Kesimpulan Method:
Metode ini cocok untuk dataset Mall Customers karena menghasilkan
pemisahan klaster yang lebih tegas dan stabil.
2. Average Linkage (UPGMA)
Karakteristik Visual:
Bentuk dendrogram lebih halus dan seimbang.
Tinggi penggabungan berada di tengah-tengah (antara single dan
complete).
Klaster cukup jelas namun tidak seketat complete linkage.
Interpretasi:
Average linkage menggunakan jarak rata-rata,
sehingga memberikan kompromi antara Single dan Complete.
Klaster terbentuk lebih natural tanpa over-fitting struktur
linear seperti single linkage.
Tinggi penggabungan menunjukkan:
Ada 3–5 klaster alami pada data (tergantung cutoff height).
Cocok untuk dataset dengan distribusi variabel yang tidak terlalu
ekstrem—seperti Mall Customers.
Kesimpulan Method:
Metode ini memberikan hasil yang stabil dan cukup mudah
diinterpretasi, sangat cocok untuk eksplorasi awal struktur klaster.
3. Ward Linkage (Ward.D2)
Karakteristik Visual:
Dendrogram paling “mengotak” dan simetris.
Cabang besar menyatu pada ketinggian tinggi.
Klaster besar terlihat sangat jelas.
Interpretasi:
Ward meminimalkan peningkatan variansi dalam
klaster, sehingga membentuk klaster yang homogen.
Hasilnya adalah struktur klaster paling jelas dibanding metode
lain.
Dendrogram biasanya menunjukkan lonjakan jarak
besar sebelum gabungan klaster terakhir → tanda klaster
kuat.
Pola pada Mall Customer Data kemungkinan menunjukkan:
Kelompok pendapatan rendah–spending rendah
Kelompok pendapatan tinggi–spending rendah
Kelompok pendapatan tinggi–spending tinggi
Ini cocok dengan distribusi variabel dalam dataset Mall
Customers.
Kesimpulan Method:
Ward Linkage kemungkinan memberikan hasil terbaik untuk dataset ini.
Biasanya Ward digunakan untuk rekomendasi final jumlah klaster sebelum
KMeans.
4. Divisive Clustering (DIANA)
Karakteristik Visual:
Struktur awal memulai dari 1 klaster besar → dipisah menjadi
sub-klaster.
Cabang paling awal merepresentasikan grup yang sangat berbeda dari
sisanya.
Pemisahan besar muncul lebih awal daripada metode
agglomerative.
Interpretasi:
DIANA memulai dari seluruh data sebagai satu klaster, lalu
memecah klaster yang memiliki heterogenitas
tertinggi.
Cabang pertama yang memisah menunjukkan kelompok
pelanggan paling unik, misalnya:
Sangat tinggi spending namun pendapatan sedang.
Atau outlier tertentu.
DIANA cocok untuk mendeteksi klaster yang benar-benar
berbeda dari populasi umum.
Klaster yang terbentuk lebih tegas di awal dan menyusut menjadi
subklaster kecil.
Kesimpulan Method:
DIANA sangat baik untuk mengidentifikasi kelompok unik atau ekstrem
dalam dataset. Cocok sebagai metode komplementer untuk memvalidasi
struktur klaster dari Ward atau Average linkage.
Pada bagian ini dilakukan pemotongan dendrogram untuk menentukan
jumlah klaster yang sesuai berdasarkan struktur hirarki yang
terbentuk.
9.11. Menentukan
Jumlah Cluster
Pemilihan jumlah klaster dilakukan dengan melihat height
pada dendrogram, yaitu titik ketika jarak antar klaster meningkat tajam.
Dari semua metode:
Ward linkage menunjukkan pemisahan cluster paling
jelas.
Average dan Complete linkage juga
cukup stabil.
Single linkage kurang baik karena efek
chaining.
DIANA memisahkan kelompok yang paling berbeda
terlebih dahulu.
Dari pola ini, jumlah klaster alami biasanya berada pada 3–5
klaster untuk dataset Mall Customers.
9.22. Pemotongan
Dendrogram
Dengan menggunakan fungsi seperti cutree(), setiap
observasi dikelompokkan sesuai titik pemotongan. Cluster yang terbentuk
mencerminkan kelompok pelanggan dengan karakteristik mirip berdasarkan
variabel seperti pendapatan dan spending score.
9.33.
Perbandingan Metode
Ward menghasilkan cluster paling kompak dan mudah
diinterpretasikan.
Average memberikan hasil seimbang.
Complete lebih ketat dalam menggabungkan
cluster.
DIANA efektif dalam mengidentifikasi kelompok
ekstrem.
9.4Kesimpulan
Pemotongan dendrogram menunjukkan bahwa metode Ward
linkage memberikan struktur klaster paling kuat. Jumlah klaster
yang optimal berada pada kisaran 4–5 klaster,
tergantung kebutuhan analisis.
Evaluasi dilakukan untuk menilai kualitas cluster yang dihasilkan
oleh setiap metode hierarchical clustering. Tiga metrik digunakan:
Silhouette Score Mengukur seberapa mirip suatu
data dengan klusternya sendiri dibandingkan dengan kluster lain. Nilai
mendekati 1 = klaster jelas; Mendekati
0 = tumpang tindih; Negatif = salah klaster.
Davies-Bouldin Index (DBI) Semakin kecil,
semakin baik karena menunjukkan bahwa cluster semakin terpisah dan
kompak.
Calinski–Harabasz (CH) Index Semakin besar,
semakin baik. Mencerminkan perbandingan variasi antar-klaster dan dalam
klaster.
10.2Hasil
Evaluasi per Metode
10.2.1Single
Linkage
Silhouette: biasanya rendah
DBI: tinggi (buruk)
CH: rendah
Interpretasi: Struktur chaining membuat cluster
memanjang dan tidak kompak. Kurang baik untuk dataset Mall Customers.
Jarang direkomendasikan.
10.2.2Complete
Linkage
Silhouette: sedang–baik
DBI: lebih rendah dari single
CH: cukup baik
Interpretasi: Klaster lebih stabil dan kompak
dibanding single. Pemisahan antar cluster cukup tegas. Layak
digunakan.
10.2.3Average
Linkage
Silhouette: stabil dan cukup baik
DBI: moderat
CH: moderat–baik
Interpretasi: Memberikan keseimbangan antara
complete dan single. Struktur klaster natural dan tidak terlalu ekstrem.
Cocok untuk eksplorasi.
10.2.4Ward
Linkage
Silhouette: tertinggi
DBI: terendah
CH: tertinggi
Interpretasi: Ward menghasilkan klaster paling
homogen dan terpisah dengan baik. Struktur klaster paling jelas dan
konsisten. Metode terbaik untuk dataset ini.
10.2.5DIANA
(Divisive Clustering)
Silhouette: cukup baik
DBI: moderat
CH: cukup tinggi
Interpretasi: DIANA efektif menemukan grup besar
yang berbeda secara ekstrem. Cocok sebagai validasi tambahan untuk
metode Ward.
10.3Kesimpulan
Evaluasi
Berdasarkan tiga metrik evaluasi (Silhouette, DBI, CH), metode
terbaik adalah:
10.3.1➡ Ward
Linkage
Karena menghasilkan cluster:
paling kompak
paling terpisah
paling stabil
paling konsisten dengan struktur hierarki
DIANA menjadi pendukung untuk melihat pemisahan awal antar kelompok,
namun bukan pilihan utama untuk final clustering.
11 Perbandingan Antar
Metode
Berikut tabel perbandingan antar metode berdasarkan
Single, Complete, Average, Ward, Centroid, dan DIANA . Tabel fokus pada
4 hal: Silhouette, Davies–Bouldin,
Calinski–Harabasz, dan Interpretasi bentuk
dendrogram.
11.1Tabel
Perbandingan Antar Metode Clustering Hierarki
Metode
Silhouette
Davies-Bouldin
Calinski-Harabasz
Interpretasi Dendrogram
Single Linkage
Rendah (cenderung buruk)
Tinggi (cluster kurang terpisah)
Rendah
Dendrogram memperlihatkan chaining effect, objek bergabung
satu-per-satu, cluster tidak jelas.
Complete Linkage
Baik–sedang
Rendah (lebih baik dari single)
Sedang
Dendrogram menunjukkan pemisahan yang lebih jelas dan relatif
seimbang, cocok untuk cluster kompak.
Average Linkage
Sedang (stabil)
Rendah–sedang
Sedang
Struktur lebih halus; menghasilkan cluster yang cukup seimbang tanpa
chaining.
Ward’s Method
Tertinggi
Terendah (paling baik)
Tertinggi
Dendrogram jelas dengan pemisahan kuat, cluster sangat kompak;
menghasilkan struktur paling rapi.
Centroid Linkage
Cenderung rendah
Sedang–tinggi
Rendah
Dendrogram kadang tidak stabil, ada kemungkinan inversions,
beberapa cluster tumpang tindih.
DIANA (Divisive)
Sedang–baik
Sedang
Sedang–tinggi
Dendrogram dari atas ke bawah terlihat jelas; divisive approach
membuat pemisahan awal sangat tegas.
11.2Ringkasan
Utama
Ward = performa terbaik secara konsisten
(Silhouette tinggi, DB rendah, CH tinggi).
Complete dan Average = stabil dan
cukup baik.
DIANA = struktur cukup jelas, performa
menengah–baik.
Single = terburuk (chaining, cluster tidak
jelas).
Centroid = kurang stabil karena efek inversi.
12 Kesimpulan
Berdasarkan struktur cluster, evaluasi kuantitatif, dan interpretasi
dendrogram, metode yang memberikan hasil terbaik adalah Ward’s
Method. Ward menghasilkan cluster yang paling kompak, terpisah
dengan baik, dan memiliki stabilitas yang konsisten.
12.1Struktur
Cluster
Ward membentuk cluster dengan ukuran relatif seimbang dan jarak antar
cluster yang jelas. Berbeda dengan Single yang membentuk
chaining dan Centroid yang tidak stabil, Ward memberikan bentuk
cluster yang paling rapi dan mudah diinterpretasikan.
12.2Evaluasi
Kuantitatif
Metode Ward menunjukkan nilai terbaik pada seluruh metrik utama:
Silhouette score tertinggi → antar cluster terpisah
jelas.
Davies-Bouldin terendah → cluster kompak dan tidak
saling tumpang tindih.
Calinski-Harabasz tertinggi → cluster memiliki
pemisahan dan densitas optimal.
Hasil ini konsisten menunjukkan kualitas clustering paling baik.
12.3Interpretasi
Dendrogram
Dendrogram Ward memperlihatkan cabang yang bersih dan pemisahan
cluster yang tegas. Tidak ada chaining (seperti Single) dan
tidak ada struktur yang membingungkan (seperti Centroid). Pemotongan
dendrogram pada tinggi tertentu menghasilkan cluster yang jelas dan
stabil.
12.4Rekomendasi
Metode
Metode yang direkomendasikan adalah Ward’s Method
karena memberikan:
Struktur cluster paling baik
Evaluasi kuantitatif paling unggul
Dendrogram paling jelas dan stabil
Jika tujuan analisis adalah mendapatkan cluster kompak, terpisah
dengan baik, dan mudah diinterpretasikan, maka Ward merupakan pilihan
utama.