1 PENDAHULUAN
1.1 Latar Belakang Kasus
Keberhasilan sebuah negara dalam pembangunan nasional tidak hanya dapat diukur dari pertumbuhan ekonomi saja. Meskipun pertumbuhan ekonomi yang tinggi sering dianggap sebagai indikator utama, hal tersebut tidak selalu menjamin peningkatan kualitas hidup sebagian besar penduduk. Data empiris menunjukkan bahwa beberapa negara dengan tingkat pertumbuhan ekonomi yang tinggi masih menghadapi berbagai tantangan, seperti pengangguran, kemiskinan, dan masalah sosial lainnya. Oleh karena itu, keberhasilan pembangunan juga harus dinilai dari peningkatan kualitas hidup manusia yang mencakup berbagai aspek kehidupan manusia. Indikator yang digunakan untuk mengukur keberhasilan dalam upaya membangun kualitas hidup manusia tersebut adalah Indeks Pembangunan Manusia (IPM). IPM dihitung berdasarkan tiga dimensi utama, yaitu:- Umur panjang dan hidup sehat, diukur melalui indikator Umur Harapan Hidup (UHH) saat lahir.
- Pendidikan, yang mencakup Harapan Lama Sekolah (HLS) dan Rata-rata Lama Sekolah (RLS).
- Standar hidup layak, diukur menggunakan pengeluaran riil per kapita yang telah disesuaikan untuk mencerminkan tingkat pendapatan dan kesejahteraan masyarakat.
Berdasarkan data Badan Pusat Statistik (BPS) tahun 2023, Indeks Pembangunan Manusia (IPM) Indonesia sudah tergolong berstatus tinggi (di atas 70) sejak 2016 dan terus mengalami peningkatan yang konsisten sejak tahun 2020 hingga 2023. Nilainya tercatat sebesar 72.81 pada tahun 2020, kemudian meningkat menjadi 73.16 pada tahun 2021, dan mencapai 73.77 pada tahun 2022. Namun, di balik peningkatan ini, Indonesia masih menghadapi tantangan berupa ketimpangan pembangunan antarwilayah. Ketimpangan ini berpotensi menciptakan kelompok masyarakat yang tertinggal, memperlebar jurang kesejahteraan, dan memicu berbagai persoalan sosial, ekonomi, maupun politik. Sebagai langkah awal untuk memahami distribusi pembangunan manusia di Indonesia, dapat dilakukan klasterisasi provinsi berdasarkan indikator-indikator yang digunakan dalam penghitungan IPM. Pendekatan ini dapat membantu mengidentifikasi provinsi-provinsi yang membutuhkan perhatian lebih untuk mendukung pemerataan pembangunan manusia.
1.2 Tujuan
Tujuan dari project ini adalah untuk mengelompokkan provinsi-provinsi di Indonesia berdasarkan indikator-indikator Indeks Pembangunan Manusia (IPM) tahun 2023 dengan menggunakan metode klaster non-hierarki algoritma K-Means. Melalui proses klasterisasi ini, penulis berharap dapat memberikan wawasan yang lebih mendalam mengenai perbedaan dan kesamaan antarprovinsi. Hal ini dapat menjadi dasar bagi pengambilan keputusan dalam perencanaan pembangunan daerah yang lebih terarah dan efektif.
1.3 Data
Data yang digunakan berasal dari data 34 Provinsi di Indonesia pada tahun 2023 yang diperoleh dari situs resmi Badan Pusat Statistik (BPS) yang meliputi sejumlah indikator Indeks Pembangunan Manusia (IPM), yakni:
- UHH : Umur Harapan Hidup saat lahir hasil LF SP2020
- HLS : Harapan Lama Sekolah
- RLS : Rata-rata Lama Sekolah
- Pengeluaran : Pengeluaran per Kapita Riil per Tahun yang disesuaikan
Adapun data tersebut dapat dilihat pada tabel berikut:
1.4 Latar Belakang Penggunaan Metode
Untuk melakukan klasterisasi provinsi-provinsi di Indonesia berdasarkan indikator-indikator Indeks Pembangunan Manusia (IPM), dapat digunakan berbagai metode, baik berbasis hierarki maupun non-hierarki. Dalam project ini, penulis memilih untuk menggunakan metode non-hierarki, yaitu K-Means Clustering, karena memiliki beberapa keunggulan berikut:
- Kompleksitas rendah.
- Perhitungan yang cepat.
- Mampu menangani dataset yang besar.
- Anggota klaster dapat disesuaikan sesuai kebutuhan.
1.5 Tinjauan Pustaka
1.5.1 Analisis Klaster
Analisis klaster merupakan salah satu metode analisis multivariat yang bertujuan untuk mengelompokkan objek berdasarkan kemiripan dan ketidakmiripan karakteristiknya, sehingga objek yang terletak pada suatu klaster memiliki kesamaan yang tinggi antar anggota dalam satu klaster dan perbedaan yang tinggi antarklaster yang satu dengan yang lain. Dalam analisis kluster terdapat beberapa proses yang harus dilakukan, yaitu:
Uji Sampel Representatif
Sampel yang representatif adalah sampel yang dianggap mampu mencerminkan atau mewakili populasi. Untuk menguji apakah sampel tersebut representatif, dapat digunakan uji Kaiser-Meyer-Olkin (KMO). Uji KMO ini sering digunakan untuk menilai kecukupan sampel. Nilai KMO berada dalam rentang 0 hingga 1. Jika nilai KMO berada antara 0.5 dan 1, maka sampel dapat dianggap cukup mewakili populasi atau disebut representatif.Uji Non-Multikolinieritas
Menurut Gujarati (1995), jika nilai mutlak koefisien korelasi antarvariabel independen lebih dari 0.8, maka dapat disimpulkan bahwa terjadi masalah multikolinieritas. Sebaliknya, jika nilai koefisien korelasi kurang dari 0.8, model dianggap bebas dari masalah multikolinieritas dan telah memenuhi asumsi non-multikolinieritas.Memilih suatu prosedur analisis Klaster
Prosedur cluster atau pengelompokan data dapat dilakukan dengan dua metode berikut:
-
Metode Hierarki
Metode hierarki merupakan metode yang membuat sebuah dekomposisi berhierarki (tingkatan) dari himpunan data berdasarkan kesamaan karakteristik objeknya. Beberapa metode untuk proses klastering secara hierarki yaitu single linkage, complete linkage, average linkage, ward’s method, dan centroid method (Santoso, 2010). -
Metode Non-Hierarki
Metode Non-Hierarki adalah metode yang digunakan untuk pengelompokan objek, di mana jumlah klaster yang akan dibentuk dapat ditentukan sebelumnya. Beberapa metode analisis non-hierarki adalah K-Means, K-Medoids, dan DBSCAN.
-
1.5.2 K-Means
K-Means merupakan metode yang mencoba mempartisi data menjadi dua
atau lebih kelompok menggunakan nilai rata-rata sebagai pusat klaster
(Oktarina, dkk., 2020). Proses clustering dengan menggunakan metode
K-Means memiliki langkah-langkah sebagai berikut:
1. Tentukan nilai \(k\), yaitu banyak
klaster yang ingin dibentuk. Terdapat tiga metode yang sering digunakan
untuk menentukan banyak klaster, yaitu:
- Metode elbow : Menentukan banyak klaster optimal dengan
cara menganalisis perubahan persentase hasil klasterisasi. Titik optimal
biasanya terlihat ketika grafik membentuk sudut siku
(elbow).
- Silhouette coefficient : Metode ini digunakan untuk
mengevaluasi kualitas klaster dengan mengukur seberapa baik data dalam
klaster tertentu terpisah dari klaster lainnya. Nilai yang lebih tinggi
menunjukkan hasil klasterisasi yang lebih baik.
- Gap statistics : Digunakan untuk menentukan banyak klaster
optimal dengan membandingkan hasil klasterisasi pada data asli dengan
hasil pada data acak. Perbedaan ini membantu mengidentifikasi kualitas
pengelompokan.
Pilih secara acak \(k\) titik awal sebagai pusat klaster (centroid). Hitung jarak setiap data terhadap masing-masing centroid menggunakan rumus jarak Euclidean Distance berikut:
\[ d(x_i, \mu_j) = \sqrt{\sum (x_i - \mu_j)^2} \]
dengan:
- \(x_i\): Data yang akan
dikelompokkan.
- \(\mu_j\): Centroid untuk klaster ke-\(j\).
- \(x_i\): Data yang akan
dikelompokkan.
Kelompokkan setiap data ke dalam klaster berdasarkan jarak terdekat dengan centroid.
Perbarui nilai centroid baru untuk setiap klaster sebagai rata-rata dari semua data dalam klaster tersebut. Rumusnya adalah:
\[ \mu_j(t+1) = \frac{1}{N_{S_j}} \sum_{x_j \in S_j} x_j \]
dengan:
- \(\mu_j(t+1)\): Centroid baru pada iterasi ke-\((t+1)\).
- \(N_{S_j}\): Banyak data dalam klaster \(S_j\).
- \(x_j\): Data yang termasuk dalam klaster \(S_j\).
Ulangi langkah 3 dan 4 sampai tidak ada lagi perubahan dalam pengelompokan data, atau telah mencapai batas iterasi yang ditentukan.
2 Source Code
2.1 Library
> library(knitr)
> library(readxl)
> library(DT)
> library(corrplot)
> library(factoextra)
> library(dplyr)
> library(psych) Kegunaan dari setiap library tersebut sebagai berikut.
knitr: digunakan untuk mengonversi dokumen R Markdown ke dalam format lain, seperti HTML, PDF, atau dokumen Word.
readxl: digunakan untuk membaca file Excel (.xls dan .xlsx).
DT: untuk membuat tabel interaktif di dalam dokumen R Markdown, aplikasi Shiny, atau bahkan HTML.
corrplot: digunakan untuk membuat visualisasi matriks korelasi.factoextra: digunakan untuk memvisualisasikan hasil dari analisis klaster.
dplyr: untuk menyederhanakan proses manipulasi, pengurutan, peringkasan, dan penggabungan frame data. Fungsi dasar dari transformasi data yang ditawarkan paket dplyr ini adalahselect(),filter(),group_by(),summarise(),arrange(),join(),mutate().
psych: digunakan untuk analisis psikometrik, namun dalam konteks penelitian ini, fungsinya digunakan untuk uji KMO.
2.2 Syntax
2.2.1 Import Data
> data_anmul <- read_excel("C:/Users/Elyssa/Downloads/IPM_2023_Provinsi.xlsx")
> names(data_anmul) <- c("Provinsi","UHH", "HLS", "RLS", "Pengeluaran")
> data_anmul
> data_pk <- data_anmul[,-1]
> data_pkMenyimpan data yang akan digunakan dalam variabel data_anmul, kemudian mengubah nama kolomnya secara berurutan menjadi Provinsi, UHH, HLS, RLS, dan Pengeluaran agar lebih singkat, serta menampilkan hasilnya. Selanjutnya, membuang kolom pertama yang bukan numerik dan menyimpannya dalam variabel data_pk untuk digunakan dalam analisis.
2.2.2 Statistika Deskriptif
Menampilkan ringkasan ringkasan statistik deskriptif dari data. Fungsi ini memberikan informasi seperti rata-rata , nilai tengah , kuartil, minimum, dan maksimum untuk setiap variabel pada data.
2.2.3 Uji Asumsi
- Uji Sampel Representatif
Uji sampel representatif dijalankan dengan syntax KMO() dari paket psych yang digunakan untuk menghitung nilai Kaiser-Meyer-Olkin (KMO) untuk variabel yang ditentukan. Pada syntax ini perhitungan KMO dilakukan pada numerik yang tersimpan dalam variabel data_pk.
- Uji Non-Multikolinieritas
Uji ini dilakukan dengan menghitung matriks korelasi menggunakan metode Pearson melalui fungsi cor() dan divisualisasikan dengan corrplot(). Metode Pearson digunakan untuk mengukur hubungan linier antar variabel numerik dalam data yang tersimpan di variabel data_pk.
2.2.4 Standarisasi Data
Sebelum dilakukan pengelompokan, perlu dilakukan standarisasi data
terlebih dahulu agar data yang diolah memiliki rentang yang tidak jauh
berbeda. Proses standarisasi dilakukan dengan mengurangi setiap nilai
data dengan rata-rata (mean) dan membaginya dengan standar deviasi.
Dalam RStudio, proses ini dapat dengan mudah dilakukan menggunakan
fungsi bawaan scale().
2.2.5 K-Means Clustering
Dengan menggunakan data yang telah distandarisasi, dilakukan beberapa proses berikut dalam analisis klaster menggunakan metode k-means:
- Menentukan Banyak Klaster Optimal
Metode yang digunakan untuk mengestimasi banyak klaster dalam project ini adalah metode Elbow, Shilouette, dan Gap statistic.
- Metode Elbow
> fviz_nbclust(data_scale, kmeans, method = "wss") +
+ geom_vline(xintercept = 4, linetype = 2) +
+ labs(subtitle = "Elbow method")- Metode Silhouette
- Metode Gap Statistic
- Membentuk Klaster
> set.seed(42)
> km.out <- kmeans(data_scale,4)
> print(km.out)
> km.cluster <- km.out$cluster
> final <- data.frame(data_anmul[,1], km.cluster)
> final[order(final$km.cluster),]Membagi data menjadi 4 klaster dengan menggunakan fungsi
kmeans() dan menerapkan fungsi set.seed() agar
hasil clustering tetap konsisten setiap kali program
dijalankan. Kemudian, data ditampilkan berdasarkan urutan klaster.
> cluster_summary <- final %>%
+ group_by(km.cluster) %>%
+ summarise(
+ `Anggota Klaster` = paste(Provinsi, collapse = ", "),
+ `Banyak Anggota Klaster` = n()
+ ) %>%
+ rename(`Klaster Ke-` = km.cluster)
> kable(cluster_summary, format = "markdown")Hasil clustering disajikan dalam bentuk tabel untuk tampilan yang lebih rapi.
- Visualisasi Klaster
> rownames(data_scale) <- paste(data_anmul$Provinsi)
> fviz_cluster(list(data = data_scale, cluster = km.cluster))- Karakteristik Setiap Klaster
Rata-Rata Setiap Klaster
> as.data.frame(data_anmul) %>%
+ mutate(Klaster = km.cluster) %>%
+ select(-Provinsi) %>%
+ group_by(Klaster) %>%
+ summarise_all("mean")Untuk mengetahui karakteristik dari setiap klaster yang dibentuk
dapat dihitung rata-rata dari setiap variabel pada setiap klaster.
Rata-Rata umum
Menampilkan rata-rata umum setiap variabel untuk dibandingkan dengan rata-rata variabel setiap cluster.
3 Hasil dan Pembahasan
3.1 Import Data
# A tibble: 34 × 5
Provinsi UHH HLS RLS Pengeluaran
<chr> <dbl> <dbl> <dbl> <dbl>
1 Aceh 73.1 14.4 9.55 10334
2 Sumatera Utara 73.7 13.5 9.82 11049
3 Sumatera Barat 74.1 14.1 9.28 11380
4 Riau 74.2 13.3 9.32 11448
5 Jambi 73.8 13.1 8.81 11160
6 Sumatera Selatan 74.0 12.6 8.5 11472
7 Bengkulu 73.1 13.7 9.03 11172
8 Lampung 74.2 12.8 8.29 10769
9 Kepulauan Bangka Belitung 73.9 12.3 8.25 13589
10 Kepulauan Riau 74.9 13.0 10.4 14998
# ℹ 24 more rows
# A tibble: 34 × 4
UHH HLS RLS Pengeluaran
<dbl> <dbl> <dbl> <dbl>
1 73.1 14.4 9.55 10334
2 73.7 13.5 9.82 11049
3 74.1 14.1 9.28 11380
4 74.2 13.3 9.32 11448
5 73.8 13.1 8.81 11160
6 74.0 12.6 8.5 11472
7 73.1 13.7 9.03 11172
8 74.2 12.8 8.29 10769
9 73.9 12.3 8.25 13589
10 74.9 13.0 10.4 14998
# ℹ 24 more rows
3.2 Statistika Deskriptif
UHH HLS RLS Pengeluaran
Min. :68.17 Min. :11.15 Min. : 7.150 Min. : 7562
1st Qu.:71.85 1st Qu.:12.87 1st Qu.: 8.160 1st Qu.:10125
Median :73.78 Median :13.26 Median : 8.895 Median :11276
Mean :73.13 Mean :13.30 Mean : 8.928 Mean :11470
3rd Qu.:74.56 3rd Qu.:13.67 3rd Qu.: 9.422 3rd Qu.:12285
Max. :75.81 Max. :15.66 Max. :11.450 Max. :19373
Interpretasi:
- Rata-rata Umur Harapan Hidup (UHH) di seluruh Provinsi di Indonesia
adalah 73.13 tahun, dengan nilai terendah 68.17 tahun dan tertinggi
75.81 tahun.
- Rata-rata Harapan Lama Sekolah (HLS) di seluruh Provinsi di
Indonesia adalah 13.30 tahun, dengan nilai terendah 11.15 tahun dan
tertinggi 15.66 tahun.
- Rata-rata Lama Sekolah (RLS) di seluruh Provinsi di Indonesia adalah
8.93 tahun, dengan nilai terendah 7.15 tahun dan tertinggi 11.45
tahun.
- Rata-rata Pengeluaran per Kapita di seluruh Provinsi di Indonesia adalah 11.47 juta rupiah, dengan nilai terendah 7.56 juta rupiah dan tertinggi 19.37 juta rupiah.
3.3 Uji Asumsi
- Uji Sampel Representatif
Kaiser-Meyer-Olkin factor adequacy
Call: KMO(r = data_pk)
Overall MSA = 0.62
MSA for each item =
UHH HLS RLS Pengeluaran
0.63 0.58 0.66 0.59
Dari output di atas, dapat diketahui bahwa nilai KMO dari ketiga variabel yaitu sebesar 0,62 dan nilai KMO pada masing-masing variabel bernilai lebih dari 0.5. Jadi, dapat disimpulkan bahwa sampel data tersebut dapat dikatakan mewakili populasi atau sampel representatif.
- Uji Non-Multikolinieritas
Dari output di atas, dapat diketahui bahwa nilai koefisien korelasi antarvariabel kurang dari 0.8, sehingga dapat disimpulkan bahwa tidak terjadi multikolinearitas antarvariabelnya.
3.4 Standarisasi Data
Berikut adalah hasil standarisasi data yang akan digunakan dalam analisis-analisis berikutnya.
UHH HLS RLS Pengeluaran
[1,] -0.034133916 1.470039484 0.68247094 -0.5016079316
[2,] 0.283326813 0.249990441 0.97855237 -0.1859850814
[3,] 0.527927702 1.104024772 0.38638950 -0.0398715661
[4,] 0.548744799 0.005980633 0.43025342 -0.0098542881
[5,] 0.371799475 -0.224473076 -0.12901152 -0.1369862893
[6,] 0.475884960 -0.902278100 -0.46895687 0.0007400454
[7,] -0.008112545 0.602449054 0.11224002 -0.1316891226
[8,] 0.543540525 -0.712492693 -0.69924243 -0.3095856381
[9,] 0.403025120 -1.336073315 -0.74310635 0.9352485402
[10,] 0.923452545 -0.332921879 1.62554514 1.5572241988
[11,] 1.397041502 0.046648934 2.76600697 3.4884828974
[12,] 0.928656820 -0.834497597 -0.10707956 0.0991790602
[13,] 0.814162786 -0.604043889 -1.00628985 0.1609793385
[14,] 1.069172224 3.205220346 0.98951835 1.5245583374
[15,] 0.907839723 0.114429436 -0.89663006 0.4196576465
[16,] 0.855796980 -0.278697478 0.24383177 0.4991151472
[17,] 0.913043997 0.385551446 0.57281114 1.2853029740
[18,] -0.575378438 0.914239365 -1.30237128 -0.1656792756
[19,] -0.809570779 -0.102468171 -1.21464345 -1.4224320791
[20,] 0.304143910 -0.848053698 -1.33526922 -0.7329175448
[21,] 0.215671248 -0.726048793 -0.21673935 0.1799608526
[22,] 0.439455040 -0.590487789 -0.41412698 0.6544987042
[23,] 0.829775609 0.982019867 1.16497402 0.7644149136
[24,] 0.215671248 -0.129580372 0.45218537 -0.7664662674
[25,] 0.377003749 -0.454926784 0.92372248 0.0117758093
[26,] -1.283159736 0.046648934 0.03547817 -0.5832725851
[27,] 0.262509716 0.331327044 -0.18384141 0.1636279219
[28,] -0.695076746 0.548224652 0.41928744 -0.5973983630
[29,] -1.366428124 -0.183804774 -0.90759604 -0.1771564702
[30,] -1.231116994 -0.563375588 -0.87469810 -0.7735291563
[31,] -1.392449495 1.063356470 1.39525958 -0.9677586026
[32,] -1.231116994 0.602449054 0.36445754 -1.1637537711
[33,] -2.402078699 0.060205034 -1.09401768 -1.3535689118
[34,] -2.579024024 -2.908580971 -1.94936405 -1.7252534430
attr(,"scaled:center")
UHH HLS RLS Pengeluaran
73.125588 13.295588 8.927647 11470.323529
attr(,"scaled:scale")
UHH HLS RLS Pengeluaran
1.9214975 0.7376753 0.9119113 2265.3619648
3.5 K-Means Clustering
- Menentukan Banyak Klaster Optimal
Dalam melakukan analisis klaster k-means, diperlukan banyak klaster optimal sebelum dilakukannya pengelompokan data. Metode yang digunakan untuk mengestimasi banyak klaster dalam penelitian ini adalah metode Elbow, Shilouette, dan Gap statistic. Berikut hasil estimasi banyak klaster dengan berbagai metode.
Metode Elbow
Dengan metode elbow diperoleh banyak klaster optimal adalah 4 klaster.
Metode Silhouette
Dengan metode silhouette diperoleh banyak klaster optimal adalah 3 klaster.
Metode Gap Statistic
Dengan metode gap statistic diperoleh banyak klaster optimal adalah 1 klaster.
Estimasi banyak klaster dengan ketiga metode menghasilkan banyak klaster optimal yang berbeda. Karena setiap metode menghasilkan banyak klaster optimal yang berbeda, maka digunakan metode Elbow yaitu 4 klaster karena klasifikasi menurut BPS, Indeks Pembangunan Manusia (IPM) diklasifikasikan ke dalam empat kategori berdasarkan nilai IPM: rendah (IPM < 60), sedang (60 ≤ IPM < 70), tinggi (70 ≤ IPM < 80), dan sangat tinggi (IPM ≥ 80).
- Membentuk Klaster Membentuk klaster dari data yang telah distandarisasi sebelumnya dengan menggunakan metode k-means.
K-means clustering with 4 clusters of sizes 10, 5, 5, 14
Cluster means:
UHH HLS RLS Pengeluaran
1 -0.4192502 0.6471842 0.352395 -0.5103483
2 -1.6776437 -0.7396049 -1.208064 -1.0903880
3 1.0264972 0.8573037 1.423771 1.7239967
4 0.5320168 -0.5043097 -0.328749 0.1382457
Clustering vector:
[1] 1 1 1 4 4 4 1 4 4 3 3 4 4 3 4 4 3 1 2 4 4 4 3 1 4 1 4 1 2 2 1 1 2 2
Within cluster sum of squares by cluster:
[1] 12.63431 10.75810 15.14217 10.37993
(between_SS / total_SS = 62.9 %)
Available components:
[1] "cluster" "centers" "totss" "withinss" "tot.withinss"
[6] "betweenss" "size" "iter" "ifault"
Provinsi km.cluster
1 Aceh 1
2 Sumatera Utara 1
3 Sumatera Barat 1
7 Bengkulu 1
18 Nusa Tenggara Barat 1
24 Kalimantan Utara 1
26 Sulawesi Tengah 1
28 Sulawesi Tenggara 1
31 Maluku 1
32 Maluku Utara 1
19 Nusa Tenggara Timur 2
29 Gorontalo 2
30 Sulawesi Barat 2
33 Papua Barat 2
34 Papua 2
10 Kepulauan Riau 3
11 DKI Jakarta 3
14 D.I. Yogyakarta 3
17 Bali 3
23 Kalimantan Timur 3
4 Riau 4
5 Jambi 4
6 Sumatera Selatan 4
8 Lampung 4
9 Kepulauan Bangka Belitung 4
12 Jawa Barat 4
13 Jawa Tengah 4
15 Jawa Timur 4
16 Banten 4
20 Kalimantan Barat 4
21 Kalimantan Tengah 4
22 Kalimantan Selatan 4
25 Sulawesi Utara 4
27 Sulawesi Selatan 4
Hasil tersebut dapat disajikan dalam bentuk tabel di bawah ini agar terlihat lebih ringkas.
| Klaster Ke- | Anggota Klaster | Banyak Anggota Klaster |
|---|---|---|
| 1 | Aceh, Sumatera Utara, Sumatera Barat, Bengkulu, Nusa Tenggara Barat, Kalimantan Utara, Sulawesi Tengah, Sulawesi Tenggara, Maluku, Maluku Utara | 10 |
| 2 | Nusa Tenggara Timur, Gorontalo, Sulawesi Barat, Papua Barat, Papua | 5 |
| 3 | Kepulauan Riau, DKI Jakarta, D.I. Yogyakarta, Bali, Kalimantan Timur | 5 |
| 4 | Riau, Jambi, Sumatera Selatan, Lampung, Kepulauan Bangka Belitung, Jawa Barat, Jawa Tengah, Jawa Timur, Banten, Kalimantan Barat, Kalimantan Tengah, Kalimantan Selatan, Sulawesi Utara, Sulawesi Selatan | 14 |
- Visualisasi Klaster
Berikut merupakan hasil dari visualisasi klaster yang terbentuk.
- Karakteristik Setiap Klaster
Rata-Rata Setiap Klaster
# A tibble: 4 × 5
Klaster UHH HLS RLS Pengeluaran
<int> <dbl> <dbl> <dbl> <dbl>
1 1 72.3 13.8 9.25 10314.
2 2 69.9 12.8 7.83 9000.
3 3 75.1 13.9 10.2 15376.
4 4 74.1 12.9 8.63 11784.
Rata-Rata umum
UHH HLS RLS Pengeluaran
73.125588 13.295588 8.927647 11470.323529
Dengan membandingkan hasil rata-rata variabel setiap klaster dengan rata-rata umum yang diperoleh pada statistika deskriptif, diperoleh bahwa
- Klaster 1 : Pada klaster 1 diperoleh bahwa pada
tahun 2023 angka HLS dan RLS berada di atas rata-rata umum, sedangkan
angka UHH dan Pengeluaran berada di bawah rata-rata umum.
- Klaster 2 : Pada klaster 2 diperoleh bahwa pada
tahun 2023 angka UHH, HLS, RLS, dan Pengeluaran berada di bawah
rata-rata umum.
- Klaster 3 : Pada Klaster 3 diperoleh bahwa pada
tahun 2023 angka UHH, HLS, RLS, dan Pengeluaran berada di atas rata-rata
umum.
- Klaster 4 : Pada klaster 4 diperoleh bahwa pada tahun 2023 angka UHH dan pengeluaran berada di atas rata-rata umum, sedangkan angka HLS dan RLS berada di bawah rata-rata umum.
4 Penutup
4.1 Kesimpulan
Dari analisis K-Means, diperoleh 4 klaster provinsi di Indonesia berdasarkan Indeks Pembangunan Manusia (IPM) sebagai berikut:
- Klaster 1 terdiri dari Aceh, Sumatera Utara, Sumatera Barat,
Bengkulu, Nusa Tenggara Barat, Kalimantan Utara, Sulawesi Tengah,
Sulawesi Tenggara, Maluku, dan Maluku Utara. Pada klaster ini, perlu
adanya peningkatan pada aspek kesehatan (Umur Harapan Hidup) dan standar
hidup layak (Pengeluaran), sementara aspek pendidikan (Harapan Lama
Sekolah dan Rata-rata Lama Sekolah) sudah cukup baik.
- Klaster 2 terdiri dari Nusa Tenggara Timur, Gorontalo, Sulawesi
Barat, Papua Barat, dan Papua. Pada klaster ini, diperlukan perhatian
menyeluruh pada semua aspek pembangunan manusia (kesehatan, pendidikan,
dan standar hidup layak) karena seluruh indikator IPM berada di bawah
rata-rata seluruh provinsi.
- Klaster 3 terdiri dari Kepulauan Riau, DKI Jakarta, DI Yogyakarta,
Bali, dan Kalimantan Timur. Klaster ini tidak memerlukan intervensi
khusus karena semua indikator IPM berada di atas rata-rata seluruh
provinsi. Hal ini menunjukkan bahwa tingkat pembangunan manusia pada
klaster ini sangat baik.
- Klaster 4 terdiri dari Riau, Jambi, Sumatera Selatan, Lampung, Kepulauan Bangka Belitung, Jawa Barat, Jawa Tengah, Jawa Timur, Banten, Kalimantan Barat, Kalimantan Tengah, Kalimantan Selatan, Sulawesi Utara, dan Sulawesi Selatan. Pada klaster ini, diperlukan peningkatan pada aspek pendidikan (Harapan Lama Sekolah dan Rata-rata Lama Sekolah), sementara aspek kesehatan dan standar hidup layak sudah berada di atas rata-rata seluruh provinsi.
Hasil ini menunjukkan bahwa masih terdapat kesenjangan pembangunan manusia antarprovinsi di Indonesia, sehingga diperlukan kebijakan yang difokuskan pada kebutuhan spesifik masing-masing klaster untuk mendukung pemerataan pembangunan.
4.2 Saran
Untuk pengembangan project serupa, disarankan untuk membandingkan hasil klasterisasi menggunakan metode lain, seperti Hierarchical Clustering. Perbandingan ini dapat membantu mengevaluasi kekuatan dan kelemahan masing-masing metode, serta memastikan bahwa metode yang digunakan memberikan hasil yang paling sesuai dengan karakteristik data dan tujuan analisis.
4.3 Daftar Pustaka
Badan Pusat Statistik. (2023). Indikator Indeks Pembangunan Manusia 2023 [Data file]. Diakses dari https://web-api.bps.go.id/download.php?f=On3dCzLMLGxJlKZVHc49X0ZNQ0t5VHJwZjliQklLZ05BUVZiWHlJR005cEhCVDYxYWJXWUxjWFVVdlo4Z0dYNXY4bHE2bTk0TStZcm5oTUJ0UUtQUEFuT2Mva1hxVGx2MHlyRE9xNTVBb2M3dG9RdHplM2hmYmwrU1dyTFEzU2pZN3REQTd2M3ErMkFobDVrbkY4OEkreGxrNDVtNHRTSmJqVGljelpVZ05WSkRUTUh1cFV2RGlHU2pqcU5rTm15TE9mYkJmQy8ySkJhb0JwUzBWZ0c4RlVSTTJrRmwwSlUyeXdqWWFLWUdUWUhmOUxPNlZqWGU1SzBBUUcwRUJnbVVmeDgxaGNZV2Fpd05nTkg=&_gl=1*c0jcxd*_ga*NDgxNjkyNDI0LjE3MDk3MTM2OTk.*_ga_XXTTVXWHDB*MTczMjM4NzEzMC4yMi4xLjE3MzIzODgzMDYuMC4wLjA.
Gujarati, D. N. (1995). Ekonometrika Dasar. Jakarta: Erlangga.
Oktarina, C., Notodiputro, K. A., & Indahwati, I. (2020). Comparison of K-Means Clustering Method and KMedoids on Twitter Data. Indonesian Journal of Statistics and Its Applications, 4(1), 189–202
Santosa, B. (2007). Data Mining Teknik Pemanfaatan Data untuk Keperluan Bisnis. Graha Ilmu. Yogyakarta, Indonesia