Hiyerarşik Kümeleme Analizi

Giriş

Bu rapor, 50 kişilik bir veri seti kullanılarak gerçekleştirilen hiyerarşik kümeleme analizini sunmaktadır. Analiz adımları ve sonuçlar aşağıda detaylı olarak açıklanmıştır.

Hiyerarşik Kümeleme Nedir?

  • Hiyerarşik kümeleme, veri noktalarını hiyerarşik bir yapıda gruplayan bir yöntemdir. Bu yöntem, veri noktalarının benzerliklerine göre birbirine en yakın olanları önce gruplayarak başlar ve bu grupları daha büyük gruplar halinde birleştirerek devam eder. Sonuçta, tüm veri noktalarını kapsayan bir hiyerarşi oluşturur.

Veri Seti Oluşturma

Öncelikle, rastgele bir veri seti oluşturuyoruz.

set.seed(123) # Tekrarlanabilirlik için

50 kişilik veri seti oluşturma

n <- 50

Yaş: 20 ile 60 arasında

age <- sample(20:60, n, replace=TRUE)

Gelir: 20000 ile 80000 arasında

income <- sample(20000:80000, n, replace=TRUE)

Eğitim Yılı: 8 ile 20 yıl arasında

education_years <- sample(8:20, n, replace=TRUE)

Harcama Puanı: 1 ile 100 arasında

spending_score <- sample(1:100, n, replace=TRUE)

Satın Alma Sıklığı: 1 ile 10 arasında

purchase_frequency <- sample(1:10, n, replace=TRUE)

Veri setini bir araya getirme

data <- data.frame(age, income, education_years, spending_score, purchase_frequency)

Veri setini inceleme

head(data, 10)
##    age income education_years spending_score purchase_frequency
## 1   59  58959              10             46                 10
## 2   45  66592              11             94                  5
## 3   47  62118              11             41                  6
## 4   57  62643              18              8                  7
## 5   33  66097              12             76                  3
## 6   49  67605              12             53                  8
## 7   23  65037              15             53                  9
## 8   34  23583              18            100                  8
## 9   38  42200              17             44                  5
## 10  37  75306              13              7                  6

Veriyi Ölçekleme

Veriyi standartlaştırıyoruz.

data_scaled <- scale(data)
head(data_scaled, 10)
##              age     income education_years spending_score purchase_frequency
##  [1,]  1.6901045  0.2829028      -1.0014551     -0.1530459         1.62869558
##  [2,]  0.4138659  0.7159585      -0.7217190      1.4166555        -0.05384118
##  [3,]  0.5961857  0.4621276      -0.7217190     -0.3165564         0.28266617
##  [4,]  1.5077847  0.4919133       1.2364334     -1.3957262         0.61917353
##  [5,] -0.6800528  0.6878748      -0.4419830      0.8280175        -0.72685588
##  [6,]  0.7785055  0.7734307      -0.4419830      0.0758689         0.95568088
##  [7,] -1.5916518  0.6277361       0.3972252      0.0758689         1.29218823
##  [8,] -0.5888929 -1.7241425       1.2364334      1.6128682         0.95568088
##  [9,] -0.2242534 -0.6679133       0.9566973     -0.2184501        -0.05384118
## [10,] -0.3154133  1.2103443      -0.1622469     -1.4284283         0.28266617

Hiyerarşik Kümeleme

Hiyerarşik kümeleme analizini gerçekleştiriyoruz.

library(cluster)

Öklid mesafesi hesaplama

d <- dist(data_scaled, method = "euclidean")

Ward’s yöntemini kullanarak kümeleme

  • Ward’s yöntemi, hiyerarşik kümelemede en yaygın kullanılan yöntemlerden biridir. Bu yöntemde, kümeleme sırasında toplam varyansı en az artıracak şekilde veri noktaları birleştirilir. Amaç, küme içindeki benzerliği maksimize ederken, kümeler arası farkı da maksimize etmektir.
hc <- hclust(d, method = "ward.D2")

Kümeleme dendrogramı çizimi

  • Dendrogram, hiyerarşik kümeleme sonucunda elde edilen hiyerarşiyi görsel olarak temsil eden bir ağaç diyagramıdır. Veri noktalarının ve kümelerin birleşme sıralarını ve birleşme noktalarını gösterir. Dikey eksen, kümelerin birleşme mesafelerini (benzerliklerini) gösterirken, yatay eksen veri noktalarını veya kümeleri temsil eder.
plot(hc, main="Dendrogram", xlab="", sub="", cex=0.9)

k <- 4  # Örneğin 4 küme
rect.hclust(hc, k=k, border="orange")

Küme Sayısını Belirleme ve Kesme

Dendrogramı inceleyerek kaç küme kullanacağımıza karar veriyoruz ve dendrogram üzerinde bu kümeleri belirtiyoruz.

Küme üyeliklerini ekranda gösterme

head(data)
##   age income education_years spending_score purchase_frequency
## 1  59  58959              10             46                 10
## 2  45  66592              11             94                  5
## 3  47  62118              11             41                  6
## 4  57  62643              18              8                  7
## 5  33  66097              12             76                  3
## 6  49  67605              12             53                  8

Analizin Yorumu

Hiyerarşik kümeleme analizi sonucunda verileri belirli kümelere ayırdık. Dendrogram üzerinde belirgin şekilde ayrılan dallar, veri noktalarının benzerliklerine göre gruplandığını gösterir. Bu analiz sonucunda:

  • Aynı kümede yer alan kişiler, belirlenen özellikler açısından birbirlerine daha çok benzerlik gösterirler.
  • Örneğin, aynı kümede yer alan kişilerin benzer yaş gruplarında, benzer gelir seviyelerinde veya benzer harcama alışkanlıklarına sahip olduklarını görebiliriz.
  • Kümeler arasındaki mesafeler, gruplar arasındaki farklılıkları gösterir. Uzak kümeler, birbirinden daha fazla farklı olan grupları temsil eder.
  • Bu tür bir kümeleme analizi, müşteri segmentasyonu, pazar araştırması ve hedef kitle belirleme gibi alanlarda kullanılabilir. Analiz sonucunda elde edilen kümeler, ilgili stratejilerin geliştirilmesinde önemli bir rol oynayabilir.

Bu analizle, hiyerarşik kümeleme sonucunda elde edilen kümeleri ve bu kümelerdeki bireylerin özelliklerini detaylı bir şekilde yorumlayabiliriz:

  • Küme 1: Daha genç, orta gelirli, orta eğitim seviyesine sahip bireyler.
  • Küme 2: Orta yaş, yüksek gelirli, yüksek eğitim seviyesine sahip bireyler.
  • Küme 3: Genç, düşük gelirli, düşük eğitim seviyesine sahip bireyler.
  • Küme 4: Daha yaşlı, orta-yüksek gelirli, orta eğitim seviyesine sahip bireyler.