Hiyerarşik Kümeleme Analizi
Giriş
Bu rapor, 50 kişilik bir veri seti kullanılarak gerçekleştirilen hiyerarşik kümeleme analizini sunmaktadır. Analiz adımları ve sonuçlar aşağıda detaylı olarak açıklanmıştır.
Hiyerarşik Kümeleme Nedir?
- Hiyerarşik kümeleme, veri noktalarını hiyerarşik bir yapıda gruplayan bir yöntemdir. Bu yöntem, veri noktalarının benzerliklerine göre birbirine en yakın olanları önce gruplayarak başlar ve bu grupları daha büyük gruplar halinde birleştirerek devam eder. Sonuçta, tüm veri noktalarını kapsayan bir hiyerarşi oluşturur.
Veri Seti Oluşturma
Öncelikle, rastgele bir veri seti oluşturuyoruz.
set.seed(123) # Tekrarlanabilirlik için
Veri setini bir araya getirme
Veri setini inceleme
## age income education_years spending_score purchase_frequency
## 1 59 58959 10 46 10
## 2 45 66592 11 94 5
## 3 47 62118 11 41 6
## 4 57 62643 18 8 7
## 5 33 66097 12 76 3
## 6 49 67605 12 53 8
## 7 23 65037 15 53 9
## 8 34 23583 18 100 8
## 9 38 42200 17 44 5
## 10 37 75306 13 7 6
Veriyi Ölçekleme
Veriyi standartlaştırıyoruz.
## age income education_years spending_score purchase_frequency
## [1,] 1.6901045 0.2829028 -1.0014551 -0.1530459 1.62869558
## [2,] 0.4138659 0.7159585 -0.7217190 1.4166555 -0.05384118
## [3,] 0.5961857 0.4621276 -0.7217190 -0.3165564 0.28266617
## [4,] 1.5077847 0.4919133 1.2364334 -1.3957262 0.61917353
## [5,] -0.6800528 0.6878748 -0.4419830 0.8280175 -0.72685588
## [6,] 0.7785055 0.7734307 -0.4419830 0.0758689 0.95568088
## [7,] -1.5916518 0.6277361 0.3972252 0.0758689 1.29218823
## [8,] -0.5888929 -1.7241425 1.2364334 1.6128682 0.95568088
## [9,] -0.2242534 -0.6679133 0.9566973 -0.2184501 -0.05384118
## [10,] -0.3154133 1.2103443 -0.1622469 -1.4284283 0.28266617
Hiyerarşik Kümeleme
Hiyerarşik kümeleme analizini gerçekleştiriyoruz.
Ward’s yöntemini kullanarak kümeleme
- Ward’s yöntemi, hiyerarşik kümelemede en yaygın kullanılan yöntemlerden biridir. Bu yöntemde, kümeleme sırasında toplam varyansı en az artıracak şekilde veri noktaları birleştirilir. Amaç, küme içindeki benzerliği maksimize ederken, kümeler arası farkı da maksimize etmektir.
Kümeleme dendrogramı çizimi
- Dendrogram, hiyerarşik kümeleme sonucunda elde edilen hiyerarşiyi görsel olarak temsil eden bir ağaç diyagramıdır. Veri noktalarının ve kümelerin birleşme sıralarını ve birleşme noktalarını gösterir. Dikey eksen, kümelerin birleşme mesafelerini (benzerliklerini) gösterirken, yatay eksen veri noktalarını veya kümeleri temsil eder.
plot(hc, main="Dendrogram", xlab="", sub="", cex=0.9)
k <- 4 # Örneğin 4 küme
rect.hclust(hc, k=k, border="orange")Küme Sayısını Belirleme ve Kesme
Dendrogramı inceleyerek kaç küme kullanacağımıza karar veriyoruz ve dendrogram üzerinde bu kümeleri belirtiyoruz.
Analizin Yorumu
Hiyerarşik kümeleme analizi sonucunda verileri belirli kümelere ayırdık. Dendrogram üzerinde belirgin şekilde ayrılan dallar, veri noktalarının benzerliklerine göre gruplandığını gösterir. Bu analiz sonucunda:
- Aynı kümede yer alan kişiler, belirlenen özellikler açısından birbirlerine daha çok benzerlik gösterirler.
- Örneğin, aynı kümede yer alan kişilerin benzer yaş gruplarında, benzer gelir seviyelerinde veya benzer harcama alışkanlıklarına sahip olduklarını görebiliriz.
- Kümeler arasındaki mesafeler, gruplar arasındaki farklılıkları gösterir. Uzak kümeler, birbirinden daha fazla farklı olan grupları temsil eder.
- Bu tür bir kümeleme analizi, müşteri segmentasyonu, pazar araştırması ve hedef kitle belirleme gibi alanlarda kullanılabilir. Analiz sonucunda elde edilen kümeler, ilgili stratejilerin geliştirilmesinde önemli bir rol oynayabilir.
Bu analizle, hiyerarşik kümeleme sonucunda elde edilen kümeleri ve bu kümelerdeki bireylerin özelliklerini detaylı bir şekilde yorumlayabiliriz:
- Küme 1: Daha genç, orta gelirli, orta eğitim seviyesine sahip bireyler.
- Küme 2: Orta yaş, yüksek gelirli, yüksek eğitim seviyesine sahip bireyler.
- Küme 3: Genç, düşük gelirli, düşük eğitim seviyesine sahip bireyler.
- Küme 4: Daha yaşlı, orta-yüksek gelirli, orta eğitim seviyesine sahip bireyler.