1 PENDAHULUAN

1.1 Latar Belakang Kasus

Keberhasilan sebuah negara dalam pembangunan nasional tidak hanya dapat diukur dari pertumbuhan ekonomi saja. Meskipun pertumbuhan ekonomi yang tinggi sering dianggap sebagai indikator utama, hal tersebut tidak selalu menjamin peningkatan kualitas hidup sebagian besar penduduk. Data empiris menunjukkan bahwa beberapa negara dengan tingkat pertumbuhan ekonomi yang tinggi masih menghadapi berbagai tantangan, seperti pengangguran, kemiskinan, dan masalah sosial lainnya. Oleh karena itu, keberhasilan pembangunan juga harus dinilai dari peningkatan kualitas hidup manusia yang mencakup berbagai aspek kehidupan manusia. Indikator yang digunakan untuk mengukur keberhasilan dalam upaya membangun kualitas hidup manusia tersebut adalah Indeks Pembangunan Manusia (IPM). IPM dihitung berdasarkan tiga dimensi utama, yaitu:

Umur panjang dan hidup sehat, diukur melalui indikator Umur Harapan Hidup (UHH) saat lahir.
Pendidikan, yang mencakup Harapan Lama Sekolah (HLS) dan Rata-rata Lama Sekolah (RLS).
Standar hidup layak, diukur menggunakan pengeluaran riil per kapita yang telah disesuaikan untuk mencerminkan tingkat pendapatan dan kesejahteraan masyarakat.

Berdasarkan data Badan Pusat Statistik (BPS) tahun 2023, Indeks Pembangunan Manusia (IPM) Indonesia sudah tergolong berstatus tinggi (di atas 70) sejak 2016 dan terus mengalami peningkatan yang konsisten sejak tahun 2020 hingga 2023. Nilainya tercatat sebesar 72.81 pada tahun 2020, kemudian meningkat menjadi 73.16 pada tahun 2021, dan mencapai 73.77 pada tahun 2022. Namun, di balik peningkatan ini, Indonesia masih menghadapi tantangan berupa ketimpangan pembangunan antarwilayah. Ketimpangan ini berpotensi menciptakan kelompok masyarakat yang tertinggal, memperlebar jurang kesejahteraan, dan memicu berbagai persoalan sosial, ekonomi, maupun politik. Sebagai langkah awal untuk memahami distribusi pembangunan manusia di Indonesia, dapat dilakukan klasterisasi provinsi berdasarkan indikator-indikator yang digunakan dalam penghitungan IPM. Pendekatan ini dapat membantu mengidentifikasi provinsi-provinsi yang membutuhkan perhatian lebih untuk mendukung pemerataan pembangunan manusia.

1.2 Tujuan

Tujuan dari project ini adalah untuk mengelompokkan provinsi-provinsi di Indonesia berdasarkan indikator-indikator Indeks Pembangunan Manusia (IPM) tahun 2023 dengan menggunakan metode klaster non-hierarki algoritma K-Means. Melalui proses klasterisasi ini, penulis berharap dapat memberikan wawasan yang lebih mendalam mengenai perbedaan dan kesamaan antarprovinsi. Hal ini dapat menjadi dasar bagi pengambilan keputusan dalam perencanaan pembangunan daerah yang lebih terarah dan efektif.

1.3 Data

Data yang digunakan berasal dari data 34 Provinsi di Indonesia pada tahun 2023 yang diperoleh dari situs resmi Badan Pusat Statistik (BPS) yang meliputi sejumlah indikator Indeks Pembangunan Manusia (IPM), yakni:

UHH : Umur Harapan Hidup saat lahir hasil LF SP2020
HLS : Harapan Lama Sekolah
RLS : Rata-rata Lama Sekolah
Pengeluaran : Pengeluaran per Kapita Riil per Tahun yang disesuaikan

Adapun data tersebut dapat dilihat pada tabel berikut:

> library(readxl)
> library(DT)
> data_anmul <- read_excel("C:/Users/Elyssa/Downloads/IPM_2023_Provinsi.xlsx") 
> datatable(data_anmul, caption = "Data Indikator IPM Tahun 2023")

1.4 Latar Belakang Penggunaan Metode

Untuk melakukan klasterisasi provinsi-provinsi di Indonesia berdasarkan indikator-indikator Indeks Pembangunan Manusia (IPM), dapat digunakan berbagai metode, baik berbasis hierarki maupun non-hierarki. Dalam project ini, penulis memilih untuk menggunakan metode non-hierarki, yaitu K-Means Clustering, karena memiliki beberapa keunggulan berikut:

Kompleksitas rendah.
Perhitungan yang cepat.
Mampu menangani dataset yang besar.
Anggota klaster dapat disesuaikan sesuai kebutuhan.

1.5 Tinjauan Pustaka

1.5.1 Analisis Klaster

Analisis klaster merupakan salah satu metode analisis multivariat yang bertujuan untuk mengelompokkan objek berdasarkan kemiripan dan ketidakmiripan karakteristiknya, sehingga objek yang terletak pada suatu klaster memiliki kesamaan yang tinggi antar anggota dalam satu klaster dan perbedaan yang tinggi antarklaster yang satu dengan yang lain. Dalam analisis kluster terdapat beberapa proses yang harus dilakukan, yaitu:

Uji Sampel Representatif
Sampel yang representatif adalah sampel yang dianggap mampu mencerminkan atau mewakili populasi. Untuk menguji apakah sampel tersebut representatif, dapat digunakan uji Kaiser-Meyer-Olkin (KMO). Uji KMO ini sering digunakan untuk menilai kecukupan sampel. Nilai KMO berada dalam rentang 0 hingga 1. Jika nilai KMO berada antara 0.5 dan 1, maka sampel dapat dianggap cukup mewakili populasi atau disebut representatif.
Uji Non-Multikolinieritas
Menurut Gujarati (1995), jika nilai mutlak koefisien korelasi antarvariabel independen lebih dari 0.8, maka dapat disimpulkan bahwa terjadi masalah multikolinieritas. Sebaliknya, jika nilai koefisien korelasi kurang dari 0.8, model dianggap bebas dari masalah multikolinieritas dan telah memenuhi asumsi non-multikolinieritas.
Memilih suatu prosedur analisis Klaster
Prosedur cluster atau pengelompokan data dapat dilakukan dengan dua metode berikut:
- Metode Hierarki
  Metode hierarki merupakan metode yang membuat sebuah dekomposisi berhierarki (tingkatan) dari himpunan data berdasarkan kesamaan karakteristik objeknya. Beberapa metode untuk proses klastering secara hierarki yaitu single linkage, complete linkage, average linkage, ward’s method, dan centroid method (Santoso, 2010).
- Metode Non-Hierarki
  Metode Non-Hierarki adalah metode yang digunakan untuk pengelompokan objek, di mana jumlah klaster yang akan dibentuk dapat ditentukan sebelumnya. Beberapa metode analisis non-hierarki adalah K-Means, K-Medoids, dan DBSCAN.

1.5.2 K-Means

K-Means merupakan metode yang mencoba mempartisi data menjadi dua atau lebih kelompok menggunakan nilai rata-rata sebagai pusat klaster (Oktarina, dkk., 2020). Proses clustering dengan menggunakan metode K-Means memiliki langkah-langkah sebagai berikut:
1. Tentukan nilai \(k\), yaitu banyak klaster yang ingin dibentuk. Terdapat tiga metode yang sering digunakan untuk menentukan banyak klaster, yaitu:

Metode elbow : Menentukan banyak klaster optimal dengan cara menganalisis perubahan persentase hasil klasterisasi. Titik optimal biasanya terlihat ketika grafik membentuk sudut siku (elbow).
Silhouette coefficient : Metode ini digunakan untuk mengevaluasi kualitas klaster dengan mengukur seberapa baik data dalam klaster tertentu terpisah dari klaster lainnya. Nilai yang lebih tinggi menunjukkan hasil klasterisasi yang lebih baik.
Gap statistics : Digunakan untuk menentukan banyak klaster optimal dengan membandingkan hasil klasterisasi pada data asli dengan hasil pada data acak. Perbedaan ini membantu mengidentifikasi kualitas pengelompokan.

Pilih secara acak \(k\) titik awal sebagai pusat klaster (centroid). Hitung jarak setiap data terhadap masing-masing centroid menggunakan rumus jarak Euclidean Distance berikut:

\[ d(x_i, \mu_j) = \sqrt{\sum (x_i - \mu_j)^2} \]

dengan:
- \(x_i\): Data yang akan dikelompokkan.
- \(\mu_j\): Centroid untuk klaster ke-\(j\).
Kelompokkan setiap data ke dalam klaster berdasarkan jarak terdekat dengan centroid.
Perbarui nilai centroid baru untuk setiap klaster sebagai rata-rata dari semua data dalam klaster tersebut. Rumusnya adalah:

\[ \mu_j(t+1) = \frac{1}{N_{S_j}} \sum_{x_j \in S_j} x_j \]

dengan:
- \(\mu_j(t+1)\): Centroid baru pada iterasi ke-\((t+1)\).
- \(N_{S_j}\): Banyak data dalam klaster \(S_j\).
- \(x_j\): Data yang termasuk dalam klaster \(S_j\).
Ulangi langkah 3 dan 4 sampai tidak ada lagi perubahan dalam pengelompokan data, atau telah mencapai batas iterasi yang ditentukan.

2 Source Code

2.1 Library

> library(knitr)
> library(readxl)
> library(DT)
> library(corrplot)
> library(factoextra)
> library(dplyr)
> library(psych)

Kegunaan dari setiap library tersebut sebagai berikut.

knitr : digunakan untuk mengonversi dokumen R Markdown ke dalam format lain, seperti HTML, PDF, atau dokumen Word.
readxl : digunakan untuk membaca file Excel (.xls dan .xlsx).
DT : untuk membuat tabel interaktif di dalam dokumen R Markdown, aplikasi Shiny, atau bahkan HTML.
corrplot : digunakan untuk membuat visualisasi matriks korelasi.
factoextra : digunakan untuk memvisualisasikan hasil dari analisis klaster.
dplyr : untuk menyederhanakan proses manipulasi, pengurutan, peringkasan, dan penggabungan frame data. Fungsi dasar dari transformasi data yang ditawarkan paket dplyr ini adalah select(), filter(), group_by(), summarise(), arrange(), join(), mutate().
psych : digunakan untuk analisis psikometrik, namun dalam konteks penelitian ini, fungsinya digunakan untuk uji KMO.

2.2 Syntax

2.2.1 Import Data

> data_anmul <- read_excel("C:/Users/Elyssa/Downloads/IPM_2023_Provinsi.xlsx")
> names(data_anmul) <- c("Provinsi","UHH", "HLS", "RLS", "Pengeluaran")
> data_anmul
> data_pk <- data_anmul[,-1]
> data_pk

Menyimpan data yang akan digunakan dalam variabel data_anmul, kemudian mengubah nama kolomnya secara berurutan menjadi Provinsi, UHH, HLS, RLS, dan Pengeluaran agar lebih singkat, serta menampilkan hasilnya. Selanjutnya, membuang kolom pertama yang bukan numerik dan menyimpannya dalam variabel data_pk untuk digunakan dalam analisis.

2.2.2 Statistika Deskriptif

> summary(data_pk)

Menampilkan ringkasan ringkasan statistik deskriptif dari data. Fungsi ini memberikan informasi seperti rata-rata , nilai tengah , kuartil, minimum, dan maksimum untuk setiap variabel pada data.

2.2.3 Uji Asumsi

Uji Sampel Representatif

> KMO(data_pk)

Uji sampel representatif dijalankan dengan syntax KMO() dari paket psych yang digunakan untuk menghitung nilai Kaiser-Meyer-Olkin (KMO) untuk variabel yang ditentukan. Pada syntax ini perhitungan KMO dilakukan pada numerik yang tersimpan dalam variabel data_pk.

Uji Non-Multikolinieritas

> korelasi <- cor(data_pk, method = 'pearson')
> corrplot(korelasi, method="number")

Uji ini dilakukan dengan menghitung matriks korelasi menggunakan metode Pearson melalui fungsi cor() dan divisualisasikan dengan corrplot(). Metode Pearson digunakan untuk mengukur hubungan linier antar variabel numerik dalam data yang tersimpan di variabel data_pk.

2.2.4 Standarisasi Data

> data_scale <- scale(data_pk)
> data_scale

Sebelum dilakukan pengelompokan, perlu dilakukan standarisasi data terlebih dahulu agar data yang diolah memiliki rentang yang tidak jauh berbeda. Proses standarisasi dilakukan dengan mengurangi setiap nilai data dengan rata-rata (mean) dan membaginya dengan standar deviasi. Dalam RStudio, proses ini dapat dengan mudah dilakukan menggunakan fungsi bawaan scale().

2.2.5 K-Means Clustering

Dengan menggunakan data yang telah distandarisasi, dilakukan beberapa proses berikut dalam analisis klaster menggunakan metode k-means:

Menentukan Banyak Klaster Optimal

Metode yang digunakan untuk mengestimasi banyak klaster dalam project ini adalah metode Elbow, Shilouette, dan Gap statistic.

Metode Elbow

> fviz_nbclust(data_scale, kmeans, method = "wss") +
+   geom_vline(xintercept = 4, linetype = 2) +
+   labs(subtitle = "Elbow method")

Metode Silhouette

> fviz_nbclust(data_scale, kmeans, method = "silhouette")

Metode Gap Statistic

> fviz_nbclust(data_scale, kmeans, method = "gap_stat")

Membentuk Klaster

> set.seed(42)
> km.out <- kmeans(data_scale,4)
> print(km.out)
> km.cluster <- km.out$cluster
> final <- data.frame(data_anmul[,1], km.cluster)
> final[order(final$km.cluster),]

Membagi data menjadi 4 klaster dengan menggunakan fungsi kmeans() dan menerapkan fungsi set.seed() agar hasil clustering tetap konsisten setiap kali program dijalankan. Kemudian, data ditampilkan berdasarkan urutan klaster.

> cluster_summary <- final %>%
+   group_by(km.cluster) %>%
+   summarise(
+     `Anggota Klaster` = paste(Provinsi, collapse = ", "),
+     `Banyak Anggota Klaster` = n()
+   ) %>%
+   rename(`Klaster Ke-` = km.cluster)  
> kable(cluster_summary, format = "markdown")

Hasil clustering disajikan dalam bentuk tabel untuk tampilan yang lebih rapi.

Visualisasi Klaster

> rownames(data_scale) <- paste(data_anmul$Provinsi)
> fviz_cluster(list(data = data_scale, cluster = km.cluster))

Karakteristik Setiap Klaster

Rata-Rata Setiap Klaster

> as.data.frame(data_anmul) %>%
+   mutate(Klaster = km.cluster) %>%
+   select(-Provinsi) %>% 
+   group_by(Klaster) %>%
+   summarise_all("mean")

Untuk mengetahui karakteristik dari setiap klaster yang dibentuk dapat dihitung rata-rata dari setiap variabel pada setiap klaster.

Rata-Rata umum

> colMeans(data_pk)
         UHH          HLS          RLS  Pengeluaran 
   73.125588    13.295588     8.927647 11470.323529

Menampilkan rata-rata umum setiap variabel untuk dibandingkan dengan rata-rata variabel setiap cluster.

3 Hasil dan Pembahasan

3.1 Import Data

# A tibble: 34 × 5
   Provinsi                    UHH   HLS   RLS Pengeluaran
   <chr>                     <dbl> <dbl> <dbl>       <dbl>
 1 Aceh                       73.1  14.4  9.55       10334
 2 Sumatera Utara             73.7  13.5  9.82       11049
 3 Sumatera Barat             74.1  14.1  9.28       11380
 4 Riau                       74.2  13.3  9.32       11448
 5 Jambi                      73.8  13.1  8.81       11160
 6 Sumatera Selatan           74.0  12.6  8.5        11472
 7 Bengkulu                   73.1  13.7  9.03       11172
 8 Lampung                    74.2  12.8  8.29       10769
 9 Kepulauan Bangka Belitung  73.9  12.3  8.25       13589
10 Kepulauan Riau             74.9  13.0 10.4        14998
# ℹ 24 more rows
# A tibble: 34 × 4
     UHH   HLS   RLS Pengeluaran
   <dbl> <dbl> <dbl>       <dbl>
 1  73.1  14.4  9.55       10334
 2  73.7  13.5  9.82       11049
 3  74.1  14.1  9.28       11380
 4  74.2  13.3  9.32       11448
 5  73.8  13.1  8.81       11160
 6  74.0  12.6  8.5        11472
 7  73.1  13.7  9.03       11172
 8  74.2  12.8  8.29       10769
 9  73.9  12.3  8.25       13589
10  74.9  13.0 10.4        14998
# ℹ 24 more rows

3.2 Statistika Deskriptif

      UHH             HLS             RLS          Pengeluaran   
 Min.   :68.17   Min.   :11.15   Min.   : 7.150   Min.   : 7562  
 1st Qu.:71.85   1st Qu.:12.87   1st Qu.: 8.160   1st Qu.:10125  
 Median :73.78   Median :13.26   Median : 8.895   Median :11276  
 Mean   :73.13   Mean   :13.30   Mean   : 8.928   Mean   :11470  
 3rd Qu.:74.56   3rd Qu.:13.67   3rd Qu.: 9.422   3rd Qu.:12285  
 Max.   :75.81   Max.   :15.66   Max.   :11.450   Max.   :19373

Interpretasi:

Rata-rata Umur Harapan Hidup (UHH) di seluruh Provinsi di Indonesia adalah 73.13 tahun, dengan nilai terendah 68.17 tahun dan tertinggi 75.81 tahun.
Rata-rata Harapan Lama Sekolah (HLS) di seluruh Provinsi di Indonesia adalah 13.30 tahun, dengan nilai terendah 11.15 tahun dan tertinggi 15.66 tahun.
Rata-rata Lama Sekolah (RLS) di seluruh Provinsi di Indonesia adalah 8.93 tahun, dengan nilai terendah 7.15 tahun dan tertinggi 11.45 tahun.
Rata-rata Pengeluaran per Kapita di seluruh Provinsi di Indonesia adalah 11.47 juta rupiah, dengan nilai terendah 7.56 juta rupiah dan tertinggi 19.37 juta rupiah.

3.3 Uji Asumsi

Uji Sampel Representatif

Kaiser-Meyer-Olkin factor adequacy
Call: KMO(r = data_pk)
Overall MSA =  0.62
MSA for each item = 
        UHH         HLS         RLS Pengeluaran 
       0.63        0.58        0.66        0.59

Dari output di atas, dapat diketahui bahwa nilai KMO dari ketiga variabel yaitu sebesar 0,62 dan nilai KMO pada masing-masing variabel bernilai lebih dari 0.5. Jadi, dapat disimpulkan bahwa sampel data tersebut dapat dikatakan mewakili populasi atau sampel representatif.

Uji Non-Multikolinieritas Dari output di atas, dapat diketahui bahwa nilai koefisien korelasi antarvariabel kurang dari 0.8, sehingga dapat disimpulkan bahwa tidak terjadi multikolinearitas antarvariabelnya.

3.4 Standarisasi Data

Berikut adalah hasil standarisasi data yang akan digunakan dalam analisis-analisis berikutnya.

               UHH          HLS         RLS   Pengeluaran
 [1,] -0.034133916  1.470039484  0.68247094 -0.5016079316
 [2,]  0.283326813  0.249990441  0.97855237 -0.1859850814
 [3,]  0.527927702  1.104024772  0.38638950 -0.0398715661
 [4,]  0.548744799  0.005980633  0.43025342 -0.0098542881
 [5,]  0.371799475 -0.224473076 -0.12901152 -0.1369862893
 [6,]  0.475884960 -0.902278100 -0.46895687  0.0007400454
 [7,] -0.008112545  0.602449054  0.11224002 -0.1316891226
 [8,]  0.543540525 -0.712492693 -0.69924243 -0.3095856381
 [9,]  0.403025120 -1.336073315 -0.74310635  0.9352485402
[10,]  0.923452545 -0.332921879  1.62554514  1.5572241988
[11,]  1.397041502  0.046648934  2.76600697  3.4884828974
[12,]  0.928656820 -0.834497597 -0.10707956  0.0991790602
[13,]  0.814162786 -0.604043889 -1.00628985  0.1609793385
[14,]  1.069172224  3.205220346  0.98951835  1.5245583374
[15,]  0.907839723  0.114429436 -0.89663006  0.4196576465
[16,]  0.855796980 -0.278697478  0.24383177  0.4991151472
[17,]  0.913043997  0.385551446  0.57281114  1.2853029740
[18,] -0.575378438  0.914239365 -1.30237128 -0.1656792756
[19,] -0.809570779 -0.102468171 -1.21464345 -1.4224320791
[20,]  0.304143910 -0.848053698 -1.33526922 -0.7329175448
[21,]  0.215671248 -0.726048793 -0.21673935  0.1799608526
[22,]  0.439455040 -0.590487789 -0.41412698  0.6544987042
[23,]  0.829775609  0.982019867  1.16497402  0.7644149136
[24,]  0.215671248 -0.129580372  0.45218537 -0.7664662674
[25,]  0.377003749 -0.454926784  0.92372248  0.0117758093
[26,] -1.283159736  0.046648934  0.03547817 -0.5832725851
[27,]  0.262509716  0.331327044 -0.18384141  0.1636279219
[28,] -0.695076746  0.548224652  0.41928744 -0.5973983630
[29,] -1.366428124 -0.183804774 -0.90759604 -0.1771564702
[30,] -1.231116994 -0.563375588 -0.87469810 -0.7735291563
[31,] -1.392449495  1.063356470  1.39525958 -0.9677586026
[32,] -1.231116994  0.602449054  0.36445754 -1.1637537711
[33,] -2.402078699  0.060205034 -1.09401768 -1.3535689118
[34,] -2.579024024 -2.908580971 -1.94936405 -1.7252534430
attr(,"scaled:center")
         UHH          HLS          RLS  Pengeluaran 
   73.125588    13.295588     8.927647 11470.323529 
attr(,"scaled:scale")
         UHH          HLS          RLS  Pengeluaran 
   1.9214975    0.7376753    0.9119113 2265.3619648

3.5 K-Means Clustering

Menentukan Banyak Klaster Optimal

Dalam melakukan analisis klaster k-means, diperlukan banyak klaster optimal sebelum dilakukannya pengelompokan data. Metode yang digunakan untuk mengestimasi banyak klaster dalam penelitian ini adalah metode Elbow, Shilouette, dan Gap statistic. Berikut hasil estimasi banyak klaster dengan berbagai metode.

Metode Elbow Dengan metode elbow diperoleh banyak klaster optimal adalah 4 klaster.
Metode Silhouette Dengan metode silhouette diperoleh banyak klaster optimal adalah 3 klaster.
Metode Gap Statistic Dengan metode gap statistic diperoleh banyak klaster optimal adalah 1 klaster.

Estimasi banyak klaster dengan ketiga metode menghasilkan banyak klaster optimal yang berbeda. Karena setiap metode menghasilkan banyak klaster optimal yang berbeda, maka digunakan metode Elbow yaitu 4 klaster karena klasifikasi menurut BPS, Indeks Pembangunan Manusia (IPM) diklasifikasikan ke dalam empat kategori berdasarkan nilai IPM: rendah (IPM < 60), sedang (60 ≤ IPM < 70), tinggi (70 ≤ IPM < 80), dan sangat tinggi (IPM ≥ 80).

Membentuk Klaster Membentuk klaster dari data yang telah distandarisasi sebelumnya dengan menggunakan metode k-means.

K-means clustering with 4 clusters of sizes 10, 5, 5, 14

Cluster means:
         UHH        HLS       RLS Pengeluaran
1 -0.4192502  0.6471842  0.352395  -0.5103483
2 -1.6776437 -0.7396049 -1.208064  -1.0903880
3  1.0264972  0.8573037  1.423771   1.7239967
4  0.5320168 -0.5043097 -0.328749   0.1382457

Clustering vector:
 [1] 1 1 1 4 4 4 1 4 4 3 3 4 4 3 4 4 3 1 2 4 4 4 3 1 4 1 4 1 2 2 1 1 2 2

Within cluster sum of squares by cluster:
[1] 12.63431 10.75810 15.14217 10.37993
 (between_SS / total_SS =  62.9 %)

Available components:

[1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
[6] "betweenss"    "size"         "iter"         "ifault"      
                    Provinsi km.cluster
1                       Aceh          1
2             Sumatera Utara          1
3             Sumatera Barat          1
7                   Bengkulu          1
18       Nusa Tenggara Barat          1
24          Kalimantan Utara          1
26           Sulawesi Tengah          1
28         Sulawesi Tenggara          1
31                    Maluku          1
32              Maluku Utara          1
19       Nusa Tenggara Timur          2
29                 Gorontalo          2
30            Sulawesi Barat          2
33               Papua Barat          2
34                     Papua          2
10            Kepulauan Riau          3
11               DKI Jakarta          3
14           D.I. Yogyakarta          3
17                      Bali          3
23          Kalimantan Timur          3
4                       Riau          4
5                      Jambi          4
6           Sumatera Selatan          4
8                    Lampung          4
9  Kepulauan Bangka Belitung          4
12                Jawa Barat          4
13               Jawa Tengah          4
15                Jawa Timur          4
16                    Banten          4
20          Kalimantan Barat          4
21         Kalimantan Tengah          4
22        Kalimantan Selatan          4
25            Sulawesi Utara          4
27          Sulawesi Selatan          4

Hasil tersebut dapat disajikan dalam bentuk tabel di bawah ini agar terlihat lebih ringkas.

Klaster Ke-	Anggota Klaster	Banyak Anggota Klaster
1	Aceh, Sumatera Utara, Sumatera Barat, Bengkulu, Nusa Tenggara Barat, Kalimantan Utara, Sulawesi Tengah, Sulawesi Tenggara, Maluku, Maluku Utara	10
2	Nusa Tenggara Timur, Gorontalo, Sulawesi Barat, Papua Barat, Papua	5
3	Kepulauan Riau, DKI Jakarta, D.I. Yogyakarta, Bali, Kalimantan Timur	5
4	Riau, Jambi, Sumatera Selatan, Lampung, Kepulauan Bangka Belitung, Jawa Barat, Jawa Tengah, Jawa Timur, Banten, Kalimantan Barat, Kalimantan Tengah, Kalimantan Selatan, Sulawesi Utara, Sulawesi Selatan	14

Visualisasi Klaster

Berikut merupakan hasil dari visualisasi klaster yang terbentuk.

Karakteristik Setiap Klaster

Rata-Rata Setiap Klaster

# A tibble: 4 × 5
  Klaster   UHH   HLS   RLS Pengeluaran
    <int> <dbl> <dbl> <dbl>       <dbl>
1       1  72.3  13.8  9.25      10314.
2       2  69.9  12.8  7.83       9000.
3       3  75.1  13.9 10.2       15376.
4       4  74.1  12.9  8.63      11784.

Rata-Rata umum

         UHH          HLS          RLS  Pengeluaran 
   73.125588    13.295588     8.927647 11470.323529

Dengan membandingkan hasil rata-rata variabel setiap klaster dengan rata-rata umum yang diperoleh pada statistika deskriptif, diperoleh bahwa

Klaster 1 : Pada klaster 1 diperoleh bahwa pada tahun 2023 angka HLS dan RLS berada di atas rata-rata umum, sedangkan angka UHH dan Pengeluaran berada di bawah rata-rata umum.
Klaster 2 : Pada klaster 2 diperoleh bahwa pada tahun 2023 angka UHH, HLS, RLS, dan Pengeluaran berada di bawah rata-rata umum.
Klaster 3 : Pada Klaster 3 diperoleh bahwa pada tahun 2023 angka UHH, HLS, RLS, dan Pengeluaran berada di atas rata-rata umum.
Klaster 4 : Pada klaster 4 diperoleh bahwa pada tahun 2023 angka UHH dan pengeluaran berada di atas rata-rata umum, sedangkan angka HLS dan RLS berada di bawah rata-rata umum.

4 Penutup

4.1 Kesimpulan

Dari analisis K-Means, diperoleh 4 klaster provinsi di Indonesia berdasarkan Indeks Pembangunan Manusia (IPM) sebagai berikut:

Klaster 1 terdiri dari Aceh, Sumatera Utara, Sumatera Barat, Bengkulu, Nusa Tenggara Barat, Kalimantan Utara, Sulawesi Tengah, Sulawesi Tenggara, Maluku, dan Maluku Utara. Pada klaster ini, perlu adanya peningkatan pada aspek kesehatan (Umur Harapan Hidup) dan standar hidup layak (Pengeluaran), sementara aspek pendidikan (Harapan Lama Sekolah dan Rata-rata Lama Sekolah) sudah cukup baik.
Klaster 2 terdiri dari Nusa Tenggara Timur, Gorontalo, Sulawesi Barat, Papua Barat, dan Papua. Pada klaster ini, diperlukan perhatian menyeluruh pada semua aspek pembangunan manusia (kesehatan, pendidikan, dan standar hidup layak) karena seluruh indikator IPM berada di bawah rata-rata seluruh provinsi.
Klaster 3 terdiri dari Kepulauan Riau, DKI Jakarta, DI Yogyakarta, Bali, dan Kalimantan Timur. Klaster ini tidak memerlukan intervensi khusus karena semua indikator IPM berada di atas rata-rata seluruh provinsi. Hal ini menunjukkan bahwa tingkat pembangunan manusia pada klaster ini sangat baik.
Klaster 4 terdiri dari Riau, Jambi, Sumatera Selatan, Lampung, Kepulauan Bangka Belitung, Jawa Barat, Jawa Tengah, Jawa Timur, Banten, Kalimantan Barat, Kalimantan Tengah, Kalimantan Selatan, Sulawesi Utara, dan Sulawesi Selatan. Pada klaster ini, diperlukan peningkatan pada aspek pendidikan (Harapan Lama Sekolah dan Rata-rata Lama Sekolah), sementara aspek kesehatan dan standar hidup layak sudah berada di atas rata-rata seluruh provinsi.

Hasil ini menunjukkan bahwa masih terdapat kesenjangan pembangunan manusia antarprovinsi di Indonesia, sehingga diperlukan kebijakan yang difokuskan pada kebutuhan spesifik masing-masing klaster untuk mendukung pemerataan pembangunan.

4.2 Saran

Untuk pengembangan project serupa, disarankan untuk membandingkan hasil klasterisasi menggunakan metode lain, seperti Hierarchical Clustering. Perbandingan ini dapat membantu mengevaluasi kekuatan dan kelemahan masing-masing metode, serta memastikan bahwa metode yang digunakan memberikan hasil yang paling sesuai dengan karakteristik data dan tujuan analisis.

4.3 Daftar Pustaka

Badan Pusat Statistik. (2023). Indikator Indeks Pembangunan Manusia 2023 [Data file]. Diakses dari https://web-api.bps.go.id/download.php?f=On3dCzLMLGxJlKZVHc49X0ZNQ0t5VHJwZjliQklLZ05BUVZiWHlJR005cEhCVDYxYWJXWUxjWFVVdlo4Z0dYNXY4bHE2bTk0TStZcm5oTUJ0UUtQUEFuT2Mva1hxVGx2MHlyRE9xNTVBb2M3dG9RdHplM2hmYmwrU1dyTFEzU2pZN3REQTd2M3ErMkFobDVrbkY4OEkreGxrNDVtNHRTSmJqVGljelpVZ05WSkRUTUh1cFV2RGlHU2pqcU5rTm15TE9mYkJmQy8ySkJhb0JwUzBWZ0c4RlVSTTJrRmwwSlUyeXdqWWFLWUdUWUhmOUxPNlZqWGU1SzBBUUcwRUJnbVVmeDgxaGNZV2Fpd05nTkg=&_gl=1*c0jcxd*_ga*NDgxNjkyNDI0LjE3MDk3MTM2OTk.*_ga_XXTTVXWHDB*MTczMjM4NzEzMC4yMi4xLjE3MzIzODgzMDYuMC4wLjA.

Gujarati, D. N. (1995). Ekonometrika Dasar. Jakarta: Erlangga.

Oktarina, C., Notodiputro, K. A., & Indahwati, I. (2020). Comparison of K-Means Clustering Method and KMedoids on Twitter Data. Indonesian Journal of Statistics and Its Applications, 4(1), 189–202

Santosa, B. (2007). Data Mining Teknik Pemanfaatan Data untuk Keperluan Bisnis. Graha Ilmu. Yogyakarta, Indonesia

Klasterisasi Provinsi di Indonesia berdasarkan Indikator-Indikator Indeks Pembangunan Manusia Tahun 2023 dengan Metode K-Means

Elyssa Jocelina

27 November 2024