Analisis Cluster Hirarki untuk Mengelompokkan Kabupaten/Kota di Sumatera Utara Berdasarkan Indikator Pembentuk IPM di Sumatera Utara

Novtry Rezki Simamora

03-01-2023

Library yang Dibutuhkan

> library("knitr")
> library(rmarkdown)
> library(prettydoc)
> library(tinytex)
> library(readxl)
> library(psych)
> library(GPArotation)
> library(clValid)
> library(ggplot2)
> library(cluster)
> library(factoextra)
> library(tidyverse)
> library(car)

1 PENDAHULUAN

1.1 Latar Belakang

Manusia merupakan kekayaan bangsa yang sesungguhnya, sehingga sudah sepantasnya apabila manusia menjadi tujuan utama dalam pembangunan. Keberhasilan pembangunan suatu negara tidak hanya diukur dari tingginya tingkat pertumbuhan ekonomi, tetapi juga dari kualitas sumber daya manusianya. Salah satu tolak ukur yang dapat diamati untuk melihat kualitas sumber daya manusia adalah Indeks Pembangunan Manusia (IPM). IPM dibentuk oleh 3 dimensi dasar, yaitu panjang umur dan hidup sehat, pengetahuan, dan standar hidup layak. Pada 3 dimensi pembentuk IPM ini, terdapat banyak indikator yang digunakan untuk perhitungan IPM, di antaranya adalah Angka Harapan Hidup, Rata Rata Lama Sekolah, dan Harapan Lama Sekolah. Penelitian ini bertujuan untuk mengelompokkan kabupaten/kota di Sumatera Utara berdasarkan indikator pembentuk IPM.

1.2 Tinjauan Pustaka

Analisis cluster adalah teknik multivariat yang mempunyai tujuan utama untuk mengelompokkan objek objek berdasarkan karakteristik yang dimilikinya. Analisis cluster mengklasifikasi objek objek sehingga objek yang memiliki sifat yang mirip (paling dekat kesamaannya) dikelompokkan ke dalam cluster yang sama. Analisis cluster yang baik adalah analisis yang homogen di dalam cluster dan heterogen antar cluster.

Tujuan Analisis Cluster :

  • Sebagai analisis yang berdiri sendiri, untuk mendapatkan insight terkait distribusi data.
  • Sebagai tahap processing data sebelum dilakukan analisis lainnya (Cth : PCA) Deteksi outlier Membuat hipotesis Mereduksi data Identifikasi model

Untuk mengukur kedekatan suatu pengamatan dengan pengamatan lainnya, dilakukan perhitungan jarak.

  • Jarak Euclidean
    Yaitu perhitungan jarak dari dua buah titik dalam euclidean space untuk mempelajari hubungan antara sudut dan jarak. Jarak ini paling sering digunakan karena mudah dipahami dan berdasarkan prinsip phytagoras. Jarak ini digunakan ketika antar variabel tidak berkorelasi, skala pengukuran rasio atau interval dan variabel kontinu.
    \[ d = {\sqrt\sum(X_j-Y_j)^2)} \]

  • Jarak Mahalanobis
    Jarak mahalanobis bersifat unitless dan scale invariant. Bisa dipakai ketika data terdeteksi berkorelasi, dikarenakan memperhitungkan adanya korelasi dalam data. \[ d = {\sqrt(X-\mu)^T) \lambda^-1 (X-\mu)} \] dengan
    ๐œ† = matriks kovarians
    (X-๐œ‡)^T = vektor transpose

  • Jarak Manhattan Yaitu jarak yang perhitungannya paling sederhana. \[ d = {\sqrt\sum(X_j-Y_j)} \] Algoritma Analisis Cluster

  • Metode Non-Hirarki
    Yaitu pengelompokan n objek menjadi k kelompok di mana k sudah diketahui/ditetapkan.

  • Metode Hirarki
    Yaitu pengelompokan n objek menjadi k kelompok di mana k belum diketahui/ditetapkan.

Pengelompokan pada analisis cluster berdasarkan pada kemiripan sifat antar objek yang ditentukan berdasarkan jarak antara objek. Semakin dekat jarak antar objek (jarak kecil) maka semakin mirip objek objek tersebut dan berada dalam cluster yang sama.

Validasi Cluster
Validasi cluster digunakan untuk menguji kebaikan/ketepatan hasil clustering. Secara umum metode validasi cluster dapat dikategorikan menjadi 3, yaitu :

  • Validasi Cluster Internal
    Menggunakan informasi internal dari proses clustering untuk mengevaluasi kebaikan struktur cluster tanpa mengacu pada informasi eksternal.
  • Validasi Cluster Eksternal
    Membandingkan hasil analisis cluster dengan hasil yang diketahui secara eksternal.
  • Validasi Cluster relative
    Mengevaluasi struktur cluster dengan memvariasikan banyaknya cluster k. Metode ini digunakan untuk mengetahui banyak cluster yang optimal.

Validasi Cluster Internal

  • Koefisien Silhouette
    Mengukur seberapa baik pengamatan dikelompokkan serta mengestimasi jarak rata rata antar clster. Cluster semakin baik apabila koefisien silhouette semakin mendekati 1. \[ S_i = \frac{b_i-a_i} {max (a_i,b_i)} \]

  • Indeks Dunn
    Menghasilkan cluster terbaik jika nilai Dunn yang diperoleh semakin besar dan untuk nilai yang besar menerangkan jika cluster yang terbentuk telah terpecah antara cluster yang satu dengan yang lainnya dengan teratur. \[ Dunn = \frac{dmin}{dmax} \]

  • Indeks Connectivity Membentuk jumlah cluster terbaik apabila nilai yang dihasilkan semakin kecil dibandingkan dengan nilai dari cluster yang lain.

Koefisien Korelasi Cophenetic
Menunjukkan korelasi antara jarak 2 obyek pada matriks ketidakmiripan dan jarak cophenetic. Cluster semakin baik apabila koefisien cophenetic semakin mendekati 1. \[ rcoph = \frac{\sum(dij-d\bar)(dcoph(i,j)-d\bar coph)}{\sqrt(\sum(dij-d\bar)^2)(\sum((dcoph(i,j)-d\bar coph)))} \] Ukuran Linkage dalam analisis cluster :

  • Single Linkage : pengelompokan berdasarkan jarak terkecil antara obyek
  • Complete Linkage : pengelompokan berdasarkan jarak terbesar antara obyek
  • Average Linkage : pengelompokan berdasarkan jarak rata rata antara obyek
  • Centroid Linkage : pengelompokan berdasarkan jarak titik pusat (mean) antar cluster
  • Medoid Linkage : pengelompokan berdasarkan jarak titik pusat (median) antar cluster

1.3 Studi Kasus

Seorang peneliti ingin melakukan pengelompokan terhadap Kabupaten/ Kota di Provinsi Sumatera Utara berdasarkan indikator pembentuk IPM. Peneliti ini bertujuan untuk mempermudah dalam mencari kesamaan tertentu penyebab rendahnya IPM di Kabupaten/Kota di Sumatera Utara. Karakteristik yang diamati adalah , yaitu Angka Harapan Hidup, Rata Rata Lama Sekolah, dan Harapan Lama Sekolah. Kabupaten/Kota yang cenderung memiliki kesamaan karakteristik pada ketiga karakteristik tersebut akan berada dalam satu kelompok yang sama. Untuk mencapai tujuan penelitian tersebut, dilakukan analisis cluster hirarki.

2 HASIL DAN PEMBAHASAN

2.1 Data

Data yang digunakan dalam penelitian ini bersumber dari Badan Pusat Statistik Provinsi Sumatera Utara. Data yang digunakan adalah data indikator yang menggambarkan Indeks Pembangunan Manusia di Provinsi Sumatera Utara . Data yang digunakan merupakan data numerik sebanyak 33 Kabupaten/Kota di Sumatera Utara.

2.2 Analisis Cluster Hirarki

2.2.1 Input Data

> data <- read_excel("C:/Users/Novtry Rezki/Documents/Sem 5/Anmul/Praktikum/data1.xlsx")
> data<-data.frame(data)

2.2.2 Statistika Deskriptif

> statdes <- summary(data)
> statdes
 Kabupaten.Kota     Angka.Harapan.Hidup..Tahun. Harapan.Lama.Sekolah..Tahun.
 Length:33          Min.   :62.65               Min.   :12.27               
 Class :character   1st Qu.:68.37               1st Qu.:12.79               
 Mode  :character   Median :69.25               Median :13.19               
                    Mean   :69.15               Mean   :13.25               
                    3rd Qu.:70.95               3rd Qu.:13.48               
                    Max.   :73.77               Max.   :14.75               
 Rata.rata.Lama.Sekolah..Tahun.
 Min.   : 5.640                
 1st Qu.: 8.660                
 Median : 9.290                
 Mean   : 9.181                
 3rd Qu.:10.000                
 Max.   :11.480                

Angka harapan hidup terkcecil sebesar 62,65 yaitu pada Kabupaten Mandailing Natal, dan tertinggi sebesar 73,77 yaitu pada Kota Pematangsiantar.dengan rata rata sebesar 69,15. Harapan Lama Sekolah terkecil sebesar 12,27 yaitu pada Kabupaten Nias Selatan, dan tertinggi sebesar 14,75 yaitu pada Kota Medan, dengan rata rata sebesar 13,25. Rata Rata Lama Sekolah terkecil sebesar 5,640 yaitu pada Kabupaten Nias, dan tertinggi sebesar 11,480 yaitu pada Kota Medan, dengan rata rata sebesar 9,181.

2.2.3 Uji Asumsi

  • Asumsi Sampel Representatif
> kmo <- KMO(data[,2:4])
> kmo
Kaiser-Meyer-Olkin factor adequacy
Call: KMO(r = data[, 2:4])
Overall MSA =  0.6
MSA for each item = 
   Angka.Harapan.Hidup..Tahun.   Harapan.Lama.Sekolah..Tahun. 
                          0.77                           0.58 
Rata.rata.Lama.Sekolah..Tahun. 
                          0.57 

Uji KMO pada masing masing variabel bernilai lebih dari 0,5 sehingga dapat disimpulkan bahwa sampel telah cukup representatif atau mewakili populasi.

  • Uji Non-Multikolinieritas
> korelasi <- cor(data[,2:4], method = 'pearson')
> korelasi
                               Angka.Harapan.Hidup..Tahun.
Angka.Harapan.Hidup..Tahun.                      1.0000000
Harapan.Lama.Sekolah..Tahun.                     0.2961945
Rata.rata.Lama.Sekolah..Tahun.                   0.3306161
                               Harapan.Lama.Sekolah..Tahun.
Angka.Harapan.Hidup..Tahun.                       0.2961945
Harapan.Lama.Sekolah..Tahun.                      1.0000000
Rata.rata.Lama.Sekolah..Tahun.                    0.5916437
                               Rata.rata.Lama.Sekolah..Tahun.
Angka.Harapan.Hidup..Tahun.                         0.3306161
Harapan.Lama.Sekolah..Tahun.                        0.5916437
Rata.rata.Lama.Sekolah..Tahun.                      1.0000000

Menurut Gujarati (1995), apabila nilai mutlak dari korelasi lebih dari 0,8 maka dapat dikatakan terjadi multikolinieritas, Pada output, dilihat bahwa nilai korelasi antar variabel kurang dari 0,8, sehingga dapat disimpulkan bahwa tidak terjadi multikolinieritas antar variabel.

2.2.4 Stadarisasi Data dan Perhitungan Jarak

> datastand <- scale(data[,2:4])

Karena terdapat perbedaan rentang variabel, maka dilakukan standarisasi data.

> jarak <- dist(datastand, method = "euclidean")

Digunakan jarak Euclidean karena antar variabel tidak berkorelasi.

2.2.5 Perhitungan Korelasi Cophenetic

> d1 <- dist(data[,2:4])
> #Single Linkage
> hiers <- hclust(dist(data[,2:4]), method = "single")
> #korelasi cophenetic
> hc1 <- hclust(d1, "single")
> d2 <- cophenetic(hc1)
> cors <- cor(d1,d2)
> cors
[1] 0.6626354
> #Average Linkage
> hierave <- hclust(dist(data[,2:4]), method = "ave")
> #korelasi cophenetic
> hc2 <- hclust(d1, "ave")
> d3 <- cophenetic(hc2)
> corave <- cor(d1,d3)
> corave
[1] 0.7868426
> #Complete Linkage
> hiercomp <- hclust(dist(data[,2:4]), method = "complete")
> #korelasi cophenetic
> hc3 <- hclust(d1, "complete")
> d4 <- cophenetic(hc3)
> corcomp <- cor(d1,d4)
> corcomp
[1] 0.6447221
> #Centorid Linkage
> hiercen <- hclust(dist(data[,2:4]), method = "centroid")
> #korelasi cophenetic
> hc4 <- hclust(d1, "centroid")
> d5 <- cophenetic(hc4)
> corcen <- cor(d1,d5)
> corcen#Ward
[1] 0.7524235
> hierward <- hclust(dist(data[,2:4]), method = "ward.D")
> #korelasi cophenetic
> hc5 <- hclust(d1,"ward.D")
> d6 <- cophenetic(hc5)
> corward <- cor(d1,d6)
> corward
[1] 0.6096731
> KorCop<-data.frame(cors,corave,corcomp,corcen,corward)
> KorCop
       cors    corave   corcomp    corcen   corward
1 0.6626354 0.7868426 0.6447221 0.7524235 0.6096731

Koefisien Korelasi dengan Single Linkage yaitu sebesar 0,6626354
Koefisien Korelasi dengan Average Linkage yaitu sebesar 0,7868426
Koefisien Korelasi dengan Complete Linkage yaitu sebesar 0,6447221
Koefisien Korelasi dengan Centeroid Linkage yaitu sebesar 0,7524235
Koefisien Korelasi dengan Wardโ€™s Method yaitu sebesar 0,6096731

Nilai korelasi yang paling mendekati 1 adalah dengan metode Average Linkage, sehingga terpilih sebagai metode terbaik.

2.2.6 Validasi Cluster dan Pembentukan Dendogram

> #Indeks Validitas
> inval <- clValid(datastand, 2:4, clMethods = "hierarchical",
+                  validation = "internal", metric = "euclidean", method =
+                    "average")
> summary(inval)

Clustering Methods:
 hierarchical 

Cluster sizes:
 2 3 4 

Validation Measures:
                                 2       3       4
                                                  
hierarchical Connectivity   4.5647  9.2056 16.3325
             Dunn           0.3819  0.2841  0.2620
             Silhouette     0.4640  0.3708  0.3962

Optimal Scores:

             Score  Method       Clusters
Connectivity 4.5647 hierarchical 2       
Dunn         0.3819 hierarchical 2       
Silhouette   0.4640 hierarchical 2       
> optimalScores(inval)
                 Score       Method Clusters
Connectivity 4.5646825 hierarchical        2
Dunn         0.3818543 hierarchical        2
Silhouette   0.4639992 hierarchical        2

Berdasarkan indeks connectivity, dunn dan Silhouette terpilih jumlah cluster sebanyak 2 sebagai cluster optimal pada metode pengelompokan Average Linkage berdasarkan indikator pembentuk IPM.

> #Metode Average Linkage
> hirave <- hclust(dist(scale(data[,2:4])), method = "average")
> hirave

Call:
hclust(d = dist(scale(data[, 2:4])), method = "average")

Cluster method   : average 
Distance         : euclidean 
Number of objects: 33 
> plot(hirave, labels(data$Kabupaten.Kota), hang = 1, col =
+        "blue", main = "Cluster Dendogram", sub = " ", xlab =
+        "KABUPATEN/KOTA", ylab = "Jarak")

Cluster 1 pada dendogram terdiri dari 22 Kabupaten/Kota yaitu Nias, Mandailing Natal, Tapanuli Selatan, Tapanuli Utara, Toba Samosir, Labuhan Batu, Asahan, Deli Serdang, Langkat, Nias Selatan, Pakpak Bharat, Samosir, Serdang Bedagai, Batu Bara, Padang Lawas Utara, Labuhanbatu Selatan, Labuhanbatu Utara, Nias Utara, Nias Barat, Tanjungbalai, Binjai, dan Gunungsitoli.
Cluster 2 pada dendogram terdiri dari 11 Kabupaten/Kota yaitu Padangsidimpuan, Medan, Pematangsiantar, Tebing Tinggi, Simalungun, Karo, Sibolga, Humbang Hasundutan, Dairi, Tapanuli Tengah, dan Padang Lawas.

> clus_hier <- eclust(datastand, FUNcluster = "hclust", k = 2,
+                     hc_method = "centroid", graph = TRUE)
> fviz_dend(clus_hier, rect = TRUE, cex = 0.5)

> idclus = clus_hier$clusteridclus
> aggregate(data,list(idclus),mean)
Error in aggregate.data.frame(data, list(idclus), mean): arguments must have same length

Cluster 1 variabel Angka Harapan hidup, Harapan Lama Sekolah dan Rata Rata Lama Sekolah memiliki karakteristik yang rendah.
Cluster 2 variabel Angka Harapan hidup, Harapan Lama Sekolah dan Rata Rata Lama Sekolah memiliki karakteristik yang tinggi dibandingkan dengan cluster 1.

Berdasarkan hal tersebut dapat disimpulkan cluster 1 merupakan kelompok dengan indikator pembentuk IPM yang rendah dan cluster 2 merupakan kelompok dengan indikator pembentuk IPM yang tinggi. Informasi ini dapat digunakan oleh pemerintah atau instansi terkait untuk melakukan upaya peningkatan indikator pembentuk IPM di Kabupaten/Kota di Sumatera Utara terutama yang termasuk cluster 1 untuk meningkatkan kualitas SDM di provinsi Sumatera Utara.

3 KESIMPULAN

Cluster 1 merupakan kelompok dengan indikator pembentuk IPM yang rendah, dan terdiri dari 22 Kabupaten/Kota yaitu Nias, Mandailing Natal, Tapanuli Selatan, Tapanuli Utara, Toba Samosir, Labuhan Batu, Asahan, Deli Serdang, Langkat, Nias Selatan, Pakpak Bharat, Samosir, Serdang Bedagai, Batu Bara, Padang Lawas Utara, Labuhanbatu Selatan, Labuhanbatu Utara, Nias Utara, Nias Barat, Tanjungbalai, Binjai, dan Gunungsitoli.
Cluster 2 merupakan kelompok dengan indikator pembentuk IPM yang tinggi, dan terdiri dari 11 Kabupaten/Kota yaitu Padangsidimpuan, Medan, Pematangsiantar, Tebing Tinggi, Simalungun, Karo, Sibolga, Humbang Hasundutan, Dairi, Tapanuli Tengah, dan Padang Lawas.