1 PENDAHULUAN

1.1 Latar Belakang

Analisis klaster ialah metode dalam analisis multivariat yang digunakan untuk mengelompokkan objek berdasarkan karakteristik yang dimiliki. Klaster yang terbentuk harus menunjukkan adanya homogenitas dalam klaster dan heterogenitas antar klaster. Jika divisualisasikan menggunakan plot, objek yang berada dalam satu klaster akan berdekatan titiknya, dan setiap klaster akan terpisah (Hair, dkk., 2009). Analisis klaster selanjutnya dibagi kedalam dua metode, yaitu metode hirarki dan metode non-hirarki. Dalam analisis klaster non-hirarki terdapat beberapa algoritma yaitu K-Means Clustering dan Fuzzy C-Means, keduanya akan mengelompokkan data menjadi beberapa klaster sehingga data yang mirip akan dikelompokkan ke dalam klaster yang sama dan data yang tidak mirip akan dikelompokkan ke dalam klaster lain. Irianto, dkk (2022) menjelaskan perbedaan algoritma Fuzzy C-Means dan algoritma K-Means Clustering yang terletak pada cara pengelompokkannya. Algoritma Fuzzy C-Means mengelompokkan data dengan memperbolehkan satu data masuk ke dalam beberapa klaster. Sedangkan dalam algoritma K-Means Clustering, satu data hanya dapat masuk ke dalam satu klaster. Pada kasus seperti pengelompokkan daerah kabupaten/kota berdasarkan Indeks Pembangunan Manusia (IPM), lebih cocok menggunakan algoritma K-Means. Setiap kabupaten/kota hanya boleh masuk ke dalam satu klaster.
Indeks Pembangunan Manusia (IPM) merupakan indikator komposit untuk mengukur capaian pembangunan kualitas hidup manusia. Menurut Direktorat Analisis dan Pengembangan Statistik BPS (2020) IPM terbentuk dari rata-rata ukur capaian tiga dimensi utama pembangunan manusia, yaitu umur panjang dan hidup sehat, pengetahuan, dan standar hidup layak. Pada tahun 2023, terdapat dua provinsi di Indonesia yang masih masuk dalam kategori sedang, yaitu Papua dan Papua Barat, dengan IPM yang paling rendah yaitu Papua sebesar 63,01. Perlu dilakukan analisis lebih dalam untuk mengetahui karakteristik indikator-indikator penyusun IPM di kabupaten/kota sebagai penyumbang nilai IPM Papua, agar dapat dilakukan upaya untuk peningkatan pembangunan manusia sebagai bukti peningkatan kesejahteraan masyarakat di wilayah Provinsi Papua. Pengelompokan kabupaten/kota berdasarkan kemiripan karakteristik indikator penyusun IPM dilakukan sebagai pertimbangan dalam perencanaan dan evaluasi pembangunan di daerah sebagai upaya meningkatkan indeks pembangunan manusia dan mengurangi kesenjangan antar daerah di Papua. Maka dari itu, digunakan analisis klaster metode K-Means untuk mengelompokkan kabupaten/kota berdasarkan indikator penyusun IPM. Dalam metode K-Means akan ditentukan klaster agar Pemerintah Provinsi Papua dapat lebih fokus dalam mementukan kebijakan pada kabupaten/kota berdasarkan karakteristik masing-masing klaster.

1.2 Data dan Sumber Data

Penelitian ini menggunakan analisis klaster dengan algoritma K-Means. Software yang digunakan pada penelitian ini adalah RStudio. Sumber data diperoleh dari Direktorat Analisis dan Pengembangan Statistik BPS Volume 18, 2024 tentang Indeks Pembangunan Manusia 2023.
Tabel 1. Variabel Penelitian

Keterangan:

Kabupaten/Kota = Kabupaten/Kota di Provinsi Papua

UHS = Umur Harapan Hidup

HLS = Harapan Lama Sekolah

RLS = Rata-rata Lama Sekolah

Pengeluaran = Pengeluaran per Kapita Riil per Tahun yang Disesuaikan

Struktur data yang digunakan pada penelitian ini dapat dilihat pada tabel 2.
Tabel 2. Struktur Data Penelitian

1.3 Tinjauan Pustaka

1.3.1 Analisis Kluster

Analisis klaster merupakan analisis yang bertujuan untuk menemukan pola dalam kumpulan data dengan mengelompokkan objek-objek pengamatan ke dalam kelompok sehingga objek dalam setiap klaster serupa, tetapi klasternya berbeda satu sama lain. Karena analisis kluster mencoba mengidentifikasi objek yang serupa dan mengelompokkannya ke dalam kelompok, maka menggunakan indeks kesamaan atau ukuran kedekatan antara setiap pasangan objek (Rencher, 2002). Fungsi jarak yang umum adalah jarak Euclidean antara dua vektor \(x=(x_1,x_2,…,x_p)'\) dan \(x=(y_1,y_2,…,y_p)'\), didefinisikan sebagai
\(d(x,y)=\sqrt((x-y)'(x-y))=\sqrt(\sum_{j=1}^{p}(x_j-y_j )^2)\)

Terdapat dua asumsi dalam analisis klaster menurut Hair, dkk (2009)

  1. Sampel yang mewakili atau representatif adalah sampel yang diambil dapat dikatakan merepresentasikan atau mewakili populasi yang ada. Pengujian sampel yang mewakili (sampel representatif) dapat dilakukan dengan uji Kaiser-Mayer-Olkin (KMO). Hasil uji Kaiser-Mayer-Olkin (KMO) memiliki nilai berkisar antara 0 sampai dengan 1. Jika nilai KMO berkisar 0,5 sampai 1 maka sampel dapat dikatakan mewakili populasi atau sampel representatif.

  2. Multikolinieritas. Indikasi adanya multikolinieritas salah satunya dengan menggunakan nilai VIF

\(VIF_j=1/(1-(R_j)^2)\)

Nilai VIF >10 artinya terjadi multikolinieritas. Sehingga perlu dilakukan analisis lanjutan untuk menangani multikolinieritas.

1.3.2 K-Means

Prasetyo dalam Ningrat, dkk (2016) menerangkan langkah-langkah algoritma K-Means sebagai berikut

  1. Menentukan k jumlah klaster yang akan dibentuk
  2. Mengalokasikan data ke dalam klaster secara acak
  3. Menentukan centroid dari data pada masing-masing klaster dengan persamaan
\(C_{kj}=(x_{1j}+x_{2j}+⋯+x_{nj})/n\)
\(C_{kj}\)= pusat klaster ke-k pada variabel ke-j
n= banyak data pada klaster ke-k
  1. Menentukan jarak setiap objek dengan setiap centroid dengan perhitungan jarak menggunakan jarak Euclidean.
  2. Menghitung fungsi objektif dengan formula:
\(J=\sum_{i=1}^{n}\sum_{j=1}^{k}a_{ij} d(x_i,C_{kj})^2\)
  1. Mengalokasikan setiap data ke centroid terdekat
\(a_{ij}=1\), jika s=\(min(d(x_i,C_{kj})\) \(a_{ij}=0\), lainnya
  1. Mengulangi Kembali langkah 3-6 sampai tidak ada lagi perubahan pada fungsi objektifnya

1.3.3 Sillhouette Coefficient

Jika nilai indeks Silhouette mendekati 1 artinya proses klastering berhasil, dan jika mendekati 0 artinya proses klastering tidak berhasil. Pengelompokkan nilai Silhouette Coefficient menurut Nugroho dan Adhinata (2022) Range Interpretasi

0,71-1,00 : Struktur yang dihasilkan kuat

0,51-0,70 : Struktur yang dihasilkan baik

0,26-0,50 : Struktur yang dihasilkan lemah

≤0,25 : Tidak terstruktur

1.4 Diagram Alir Penelitian

Gambar 1. Diagram Alir Penelitian

2 SOURCE CODE

2.1 Input Data

Data yang akan diinput harus di-import dari excel. Untuk itu, memerlukan packages readxl.
library(readxl)
IPM_Papua <- read_excel("C:/Users/U S E R/Downloads/IPM Papua.xlsx", 
                        col_types = c("text", "numeric", "numeric", 
                                      "numeric", "numeric", "numeric"))
View(IPM_Papua)

2.2 Uji Multikolinieritas

Pada uji ini, menggunakan library (car) yaitu packages yang berfungsi untuk melakukan analisis regresi. Karena pada tahap ini akan diuji multikolinieritas menggunakan nilai VIF, maka memerlukan library (car)

\(H_0 :\) Tidak terjadi multikolinieritas

\(H_1 :\) Terjadi multikolinieritas

library(car)
modelIPM<-lm(IPM_Papua$IPM~IPM_Papua$UHH+IPM_Papua$HLS+IPM_Papua$RLS+
               IPM_Papua$Pengeluaran)
summary(modelIPM)
vif(modelIPM)

2.3 Uji KMO

Pada uji ini, menggunakan library (psych). Dalam packages ini tersedia function KMO yang dapat digunakan untuk uji KMO.

\(H_0 :\) Sampel representatif

\(H_1 :\) Sampel tidak representatif

library(psych)
dataIPM<-IPM_Papua[ ,-c(1,6)]
KMO(dataIPM)

2.4 K-Means Clustering

library (cluster) digunakan karena analisis yang dipakai adalah analisis klaster sehingga packages ini diaktifkan.

library (factoextra) digunakan untuk visualisasi hasil analisis multivariat, dalam hal ini untuk visualisasi data hasil analisis clustering menggunakan metode K-Means.

library (ggplot2) digunakan karena dalam visualisasi data nantinya akan memanfaatkan plot/grafik. Sehingga untuk menghasilkan visualisasi grafik yang baik, digunakan library (ggplot2).
#aktifkan library yang dibutuhkan
library(cluster)
library(factoextra)
library(tidyverse)
library(ggplot2)

summary(dataIPM)
#normalisasi data IPM
dataIPM<-distinct(dataIPM)
#Silhouette Coefficient
fviz_nbclust(dataIPM, kmeans, method = "silhouette")
#k-means
kluster=kmeans(dataIPM,centers=2,nstart=25)
datakluster=data.frame(IPM_Papua,kluster$cluster)
view(datakluster)
Untuk menampilkan visualisasi pemetaan klaster yang terbentuk menggunakan syntax sebagai berikut.
fviz_cluster(kluster,data=dataIPM)

3 Hasil dan Pembahasan

3.1 Uji Multikolinieritas

\(H_0 :\) Tidak terjadi multikolinieritas

\(H_1 :\) Terjadi multikolinieritas

## 
## Call:
## lm(formula = IPM_Papua$IPM ~ IPM_Papua$UHH + IPM_Papua$HLS + 
##     IPM_Papua$RLS + IPM_Papua$Pengeluaran)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.01252 -0.27852  0.05766  0.68485  0.97981 
## 
## Coefficients:
##                         Estimate Std. Error t value Pr(>|t|)    
## (Intercept)           -6.6338292 10.7071887  -0.620  0.54138    
## IPM_Papua$UHH          0.5306919  0.1717952   3.089  0.00502 ** 
## IPM_Papua$HLS          1.3940762  0.1463271   9.527 1.26e-09 ***
## IPM_Papua$RLS          1.3692506  0.1435276   9.540 1.22e-09 ***
## IPM_Papua$Pengeluaran  0.0009301  0.0001215   7.656 6.80e-08 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.8604 on 24 degrees of freedom
## Multiple R-squared:  0.9947, Adjusted R-squared:  0.9938 
## F-statistic:  1129 on 4 and 24 DF,  p-value: < 2.2e-16
##         IPM_Papua$UHH         IPM_Papua$HLS         IPM_Papua$RLS 
##              4.887765              6.240541              7.401433 
## IPM_Papua$Pengeluaran 
##              3.695876

Berdasarkan hasil uji, nilai VIF yang diperoleh oleh seluruh variabel berturut-turut yaitu, VIF(UHH) 4.88, VIF(HLS) 6.24, VIF(RLS) 7.40, VIF(Pengeluaran) 3.69

Keputusan: Nilai VIF < 10, maka \(H_0\) diterima

Kesimpulan: Tidak terjadi multikolinieritas antar variabel dalam model

3.2 Uji KMO

\(H_0 :\) Sampel representatif

\(H_1 :\) Sampel tidak representatif

## Kaiser-Meyer-Olkin factor adequacy
## Call: KMO(r = dataIPM)
## Overall MSA =  0.82
## MSA for each item = 
##         UHH         HLS         RLS Pengeluaran 
##        0.87        0.79        0.79        0.85

Berdasarkan hasil uji, nilai MSA yang diperoleh oleh seluruh variabel berturut-turut yaitu, MSA(UHH) 0.87, MSA(HLS) 0.79, MSA(RLS) 0.79, MSA(Pengeluaran) 0.85

Keputusan: Nilai MSA > 5%, maka \(H_0\) diterima

Kesimpulan: Sampel yang digunakan representatif

3.3 K-Means Clustering

##       UHH             HLS             RLS          Pengeluaran   
##  Min.   :63.88   Min.   : 4.33   Min.   : 1.710   Min.   : 4352  
##  1st Qu.:66.68   1st Qu.: 9.27   1st Qu.: 3.680   1st Qu.: 5397  
##  Median :68.90   Median :11.04   Median : 5.980   Median : 6259  
##  Mean   :68.49   Mean   :10.80   Mean   : 6.536   Mean   : 7346  
##  3rd Qu.:69.79   3rd Qu.:12.84   3rd Qu.: 9.360   3rd Qu.: 8396  
##  Max.   :72.83   Max.   :15.26   Max.   :11.840   Max.   :15272

Berdasarkan grafik Silhouette Coefficient yang diperoleh, jumlah klaster yang optimal ditunjukkan pada nilai k=2. Sehingga pada analisis K-Means, jumlah klaster yang akan digunakan yaitu dua klaster.

Untuk menampilkan visualisasi pemetaan klaster yang terbentuk menggunakan syntax sebagai berikut.
fviz_cluster(kluster,data=dataIPM)

Data yang sudah diklasterisasi kemudian dikelompokan berdasarkan klaster, didapati data seperti tabel berikut.
Tabel 3. Data Berdasarkan Klaster

Dapat dilihat pada tabel tersebut bahwa pada kolom klaster menunjukkan nomor klaster dari Kabupaten/Kota. Dengan demikian dapat diinterpretasikan sebagai berikut:

  • Klaster 1: Jayawijaya, Kepulauan Yapen, Paniai, Puncak Jaya, Boven Digoel, Mappi, Asmat, Yahukimo, Pegunungan Bintang, Tolikara, Sarmi, Waropen, Supiori, Mamberamo Raya, Nduga, Lanny Jaya, Mamberamo Tengah, Yalimo. Puncak, Dogiyak, Intan Jaya, dan Deiyai memiliki karakteristik yang sama pada indikator IPM yaitu nilai UHH, HLS, RLS, dan pengeluaran yang rendah.

  • Klaster 2: Merauke, Jayapura, Nabire, Biak Numfor, Mimika, Keerom, dan Kota Jayapura memiliki karakteristik yang sama pada indikator IPM yaitu nilai UHH, HLS, RLS, dan pengeluaran yang tinggi.

4 Kesimpulan dan Saran

4.1 Kesimpulan

Berdasarkan hasil penelitian yang dilakukan dengan K-Means Cluster pada data indikator penyusun IPM Kabupaten/Kota di Provinsi Papua 2023, diperoleh kesimpulan pengelompokan Kabupaten/Kota berdasarkan indikator Umur Harapan Hidup saat Lahir (UHH), Rata-Rata Lama Sekolah (RLS), Harapan Lama Sekolah (HLS) dan Pengeluaran Riil per Kapita per Tahun yang Disesuaikan diperoleh 2 klaster berdasarkan metode Silhouette coefficient sebagai berikut:

  1. Klaster 1 yaitu Kabupaten/Kota dengan indikator IPM rendah, yaitu, Jayawijaya, Kepulauan Yapen, Paniai, Puncak Jaya, Boven Digoel, Mappi, Asmat, Yahukimo, Pegunungan Bintang, Tolikara, Sarmi, Waropen, Supiori, Mamberamo Raya, Nduga, Lanny Jaya, Mamberamo Tengah, Yalimo. Puncak, Dogiyak, Intan Jaya, dan Deiyai, hal ini dikarenakan karakteristik Kabupaten/ Kota di kluster 1 memiliki kesamaan karakteristik yaitu nilai semua indikator IPM rendah jika dibandingkan dengan nilai indikator pada kluster lain.

  2. Klaster 2 yaitu Kabupaten/Kota dengan indikator IPM tinggi, yaitu Merauke, Jayapura, Nabire, Biak Numfor, Mimika, Keerom, dan Kota Jayapura, hal ini dikarenakan karakteristik Kabupaten/ Kota di kluster 2 memiliki kesamaan karakteristik yaitu nilai semua indikator IPM tinggi jika dibandingkan dengan indikator pada kluster lain.

4.2 Saran

Perlu dilakukan analisis lanjutan untuk melihat masing-masing indikator dan mengkategorikan mana indikator yang urgensinya lebih tinggi, yang perlu ditangani lebih dulu untuk selanjutnya dapat dilakukan pengembangan-pengembangan pada daerah-daerah di provinsi Papua dengan IPM yang rendah.

5 DAFTAR PUSTAKA

Badan Pusat Statistik. 2021. Indeks Pembangunan Manusia 2020. Direktorat Analisis dan Pengembangan Statistik. Jakarta.

Badan Pusat Statistik. 2024. Indeks Pembangunan Manusia 2023. Volume 18. Direktorat Analisis dan Pengembangan Statistik. Jakarta.

Hair Jr, J. F., W. C. Black, B. J. Babin, dan R. E. Anderson. 2009. Multivariate Data Analysis. 7th ed. Pearson.

Irianto, M. R., A. Maududie, dan F. N. Arifin. 2022. Implementasi Metode K-Means Clustering Untuk Analisis Trend Topik Skripsi (Studi Kasus: Fakultas Ilmu Komputer Universitas Jember). Berkala Sainstek 10(4):210-226.

Ningrat, D. R., D. A. I. Maruddani, dan T. Wuryandari. 2016. Analisis Cluster Dengan Algoritma K-Means dan Fuzzy C-Means Clustering Untuk Pengelompokan Data Obligasi Korporasi. Jurnal Gaussian 5(4):641-650.

Nugroho, N., dan F. D. Adhinata. 2022. Penggunaan Metode K-Means dan K-Means++ Sebagai Clustering Data Covid-19 di Pulau Jawa. TEKNIKA 11(3):170-179.

Rencher A. C. 2002. Methods of Multivariate Analysis. 2nd ed. John Wiley & Sons, Inc. Kanada.