Analisis K-Means Cluster Pada Kabupaten/Kota di Provinsi Jawa Timur Berdasarkan Indikator Indeks Pembangunan Manusia (IPM) Tahun 2015

Nurul Salma

November 2023

Library

> #install.packages("knitr")
> #install.packages("rmarkdown")
> #install.packages("prettydoc")
> #install.packages("equatiomatic")

1 Pendahuluan

1.1 Latar Belakang

Pembangunan manusia dalam suatu negara diperlukan untuk menciptakan kesejahteraan dan membuat perkembangan dalam suatu negara sehingga perlu dilihat terlebih dahulu kualitas sumber daya manusia dalam negara tersebut. Diharapkan dengan meningkatnya kualitas sumber daya manusia dapat meningkatkan kualitas hidup manusia pada negara tersebut sehingga membuat negara tersebut tidak terjadi kesenjangan sosial. Menurut (Badan Pusat Statistik, 2018) indikator penting untuk mengukur keberhasilan dalam upaya membangun kualitas hidup manusia adalah Indeks Pembangunan Manusia. (Pratowo, 2013) juga menjelaskan bahwa IPM merupakan indeks komposit yang dihitung sebagai rata-rata sederhana dari tiga indeks dari dimensi yang menggambarkan kemampuan dasar manusia dalam memperluas pilihan-pilihan. Dimana 3 indeks tersebut adalah indeks harapan hidup, pendidikan, dan standar hidup layak.

IPM juga merupakan suatu tolak ukur bahwa maju atau tidaknya suatu wilayah ataupun daerah, karena dengan tingkat IPM yang tinggi suatu daerah akan dikatakan berhasil dalam program pembangunannya. Untuk membangun IPM yang berkualitas tinggi pemerintah harus membuat program-program serta fasilitas yang memadai untuk meningkatkan IPM, namun juga harus dengan dukungan masyarakat agar program-program tersebut dapat berjalan.

Berdasarkan penjabaran latar belakang tersebut, penelitian dilakukan untuk mengetahui pengelompokkan kabupaten/kota di Provinsi Jawa Timur menggunakan analisis K-Means Cluster berdasarkan indikator penyusun Indeks Pembangunan Manusia (IPM) tahun 2015.

1.2 Statistika Deskriptif

Menurut Mason (1996), Statistika deskriptif adalah metode-metode statistika yang digunakan untuk menggambarkan data yang telah dikumpulkan. Data yang telah dikumpulkan perlu disajikan agar mudah dimengerti, menarik, komunikatif, dan informatif bagi pembaca.

1.3 Analisis Cluster

Pada ilmu statistika, apabila variabel yang digunakan lebih dari dua, maka akan semakin rumit untuk melakukan analisis statistik. Maka dari itu, dapat digunakan analisis multivariat yaitu metode statistik yang dapat melibatkan lebih dari dua variabel. Salah satu teknik dari analisis multivariat yang tepat digunakan untuk memahami dan menjelaskan seperangkat variabel adalah analisis cluster.

Analisis cluster bertujuan untuk mengelompokkan objek ke dalam suatu kelompok sedemikian sehingga objek yang berada dalam satu kelompok akan memiliki kesamaan yang tinggi dibandingkan dengan objek yang berada di kelompok lain (Sharma, 1996). Cluster atau ‘kluster’ dapat diartikan ‘kelompok’. Dengan demikian, pada dasarnya analisis cluster akan menghasilkan sejumlah kluster (kelompok).

Analisis ini diawali dengan pemahaman bahwa sejumlah data tertentu sebenarnya mempunyai kemiripan di antara anggotanya; karena itu, dimungkinkan untuk mengelompokkan anggota-anggota yang mirip atau mempunyai karakteristik yang serupa tersebut dalam satu atau lebih dari satu kluster (Santoso, 2014).

1.3.1 Proses Dasar dari Analisis Cluster

  1. Menetapkan ukuran jarak antar data Pada analisis cluster terdapat beberapa ukuran kemiripan diantaranya adalah ukuran asosiasi, ukuran korelasi dan ukuran jarak. Ukuran kemiripan dengan menghitung jarak antar dua objek. Dalam mengukur kedektan antara dua objek dapat digunakan metode pengukuran Euclidean Distance, dengan rumus berikut:

Dimana, xi dan yi adalah atribut ke-i dari objek x dan y.

  1. Melakukan proses standarisasi data Hal pertama yang harus dilakukan dalam analisis clustering adalah melakukan standarisasi data yaitu menggunakan z-score, dimana tujuan dilakukan standarisasi data adalah untuk mempersempit perbedaan satuan lebar serta dapat digunakan untuk menyamakan peubah yang memiliki satuan yang berbeda-beda.

  2. Melakukan proses Clustering Setelah data yang dianggap mempunyai satuan yang sangat berbeda diseragamkan, dan metode Cluster ditentukan (misal dipilih Eucledian),langkah selanjutnya adalah membuat Cluster. Proses inti dari Clustering adalah pengelompokkan data, yang bisa dilakukan dengan 2 metode, yaitu Metode Hierarki dan Metode Non-Hierarki.

  3. Menentukan Banyaknya Cluster Masalah utama dalam analisis cluster adalah menetukan berapa banyaknya cluster.

  4. Menginterpretasi Hasil Cluster Tahap terakhir adalah interpretasi masing-masing cluster yang terbentuk. Saat memulai interpretasi digunakan rata-rata pada peubah.

1.3.2 Metode Cluster Non-Hierarki

Ada tiga prosedur dalam metode non-hierarki yaitu:

  1. Sequential Threshold

    Proses clusteing dengan menggunakan metode Sequential Threshold dimulai dengan memilih sebuah klaster seed dan kemudian menggabungkan setiap objek yang ada dalam jarak yang telah ditentukan sebelumnya. Klaster tersebut akan disebut sebagai klaster pertama. Setelah klaster pertama terbentuk, maka klaster seed kedua digunakan dan kemudian objek-objek yang mempunyai jarak terdekat akan digabungkan. Jika telah selesai, maka klaster berikutnya akan dibentuk dengan cara yang sama. Metode ini disebut Sequential Threshold karena proses Clustering dilakukan berurutan dari klaster pertama, kedua, ketiga dan berikutnya. Metode ini tidak memperbolehkan suatu objek pindah ke klaster lain.

  1. Parallel Thereshold

    Proses Clustering dengan menggunakan metode Parallel Threshold dimulai dengan memiliki klaster seed yang akan dijadikan patokan pembuatan klaster. Setiap objek akan diukur tehadap klaster seed tersebut. Sebuah objek akan masuk ke suatu klaster jika mempunyai nilai jarak terhadap suatu klaster seed lebih dekat daripada klaster seed yang lain. Langkah ini mengakibatkan penentuan klaster tidak berurutan. Metode ini disebut Parallel Threshold karena proses Clustering dilakukan tidak berurutan. Metode ini tidak memperbolehkan suatu objek yang sudah menjadi anggota suatu klaster berpindah ke klaster lain.

  2. Optimalisasi

    Proses Clustering dengan menggunakan metode ini mirip dengan Sequential Threshol atau Parallel Threshold Clustering, perbedaannya adalah diperbolehkannya suatu objek berpindah dari suatu klaster ke klaster lain. Ini tejadi ketika jarak ke suatu klaster ternyata lebih dekat daripada jarak objek tersebut ke klaster yang sekarang. Proses optimalisasi dilakukan dengan menghitung ulang setiap objek terhadap semua centroid klaster yang ada. Jika objek tersebut mempunyai jarak yang lebih kecil terhadap suatu centroid klaster lain daripada centroid klaster sekarang, maka objek tersebut di relokasi ke klaster terdekat tersebut.

1.4 Metode K-Means

K-Means adalah metode clustering berbasis jarak yang membagi data ke dalam sejumlah cluster dan algoritma ini hanya bekerja pada atribut numerik.

K-Means merupakan salah satu metode data clustering non hirarki yang berusaha mempartisi data yang ada ke dalam bentuk satu atau lebih cluster/kelompok. Metode ini mempartisi data ke dalam cluster/kelompok sehingga data yang memiliki karakteristik yang sama dikelompokkan ke dalam satu cluster yang sama dan data yang mempunyai karakteristik yang berbeda dikelompokkan ke dalam kelompok yang lain.

Dasar algoritma K-means adalah sebagai berikut:

  1. Tentukan sebanyak ‘k’ klaster yang ingin dibentuk. Kemudian secara acak menempatkan sebanyak ‘k’ titik sebagai centroid awal.
  2. Alokasikan objek ke dalam klaster berdasarkan jarak ke centroid awal terdekat.
  3. Hitung centroid baru yang ada dalam klaster.
  4. Alokasikan kembali objek ke centroid baru yang terdekat.
  5. Kembali langkah 3, sampai tidak terdapat objek yang berpindah klaster atau perubahan nilai centroid.

1.5 Sumber Data

Pada penelitian ini data yang digunakan adalah indikator IPM di kabupaten/kota Jawa Timur yang bersumber dari Badan Pusat Statistik (BPS) Provinsi Jawa Timur pada tahun 2015. Unit observasi penelitian ini adalah 29 kabupaten dan 9 kota di Provinsi Jawa Timur.

Aspek yang diukur dalam data ini adalah:

  1. Persentase Tingkat Partisipasi Angkatan Kerja
  2. Persentase Tingkat Pengangguran Terbuka
  3. Persentase Angka Harapan Hidup
  4. Persentase Tidak Bersekolah
  5. Persentase Penduduk Miskin
Error: `path` does not exist: 'C:/Users/nurul/OneDrive/Dokumen/SEMESTER 5 SEMOGA AMAN YA ALLAH/Analisis Multivariat I/Data Mentah IPM.xlsx'
Error in eval(expr, envir, enclos): object 'Data_IPM' not found

Tujuan dilakukannya analisis cluster adalah untuk mengetahui pengelompokkkan kabupaten/kota di Provinsi Jawa Timur berdasarkan Indeks Pembangunan Manusia (IPM) serta untuk mengetahui variabel-variabel yang mencirikan tiap kelompok berdasarkan IPM.

2 SOURCE CODE

2.1 Library yang Dibutuhkan

> #Library
> library(readxl)
> library(gridExtra)
> library(factoextra)
> library(DT)

2.2 Import Data

> library(readxl)
> Data_IPM <- read_excel("C:/Users/nurul/OneDrive/Dokumen/SEMESTER 5 SEMOGA AMAN YA ALLAH/Analisis Multivariat I/Data Mentah IPM.xlsx")
Error: `path` does not exist: 'C:/Users/nurul/OneDrive/Dokumen/SEMESTER 5 SEMOGA AMAN YA ALLAH/Analisis Multivariat I/Data Mentah IPM.xlsx'

Untuk memasukkan data, digunakan perintah read_excel() untuk membaca data pada excel yang memiliki format fie .xls atau .xlsx

2.3 Statistika Deskriptif

> summary(Data_IPM)

summary() digunakan untuk melihat gambaran data secara keseluruhan.

2.4 Grafik Jarak Antar Objek

> library(factoextra)
> jarak <- get_dist(Data_IPM[,3:7])
> fviz_dist(jarak, gradient = list(low = "green", mid = "white", high = "red"))

Untuk membentuk visualisasi jarak antar objek digunakan perintah fviz_dist()

2.5 Clustering K-Means

> cluster <- kmeans(Data_IPM[,3:7], centers = 4, nstart = 25)
> fviz_cluster(cluster, data = Data_IPM[,3:7])

Analisis cluster dengan metode K-Means dilakukan dengan menggunakan fungsi ‘kmeans’ yang kemudian dibentuk plot menggunakan fungsi fviz_cluster

> letak = data.frame(Data_IPM[,2], cluster$cluster)
> colnames(letak)[colnames(letak)=="cluster.cluster"]="Cluster"
> letak

Untuk memudahkan melihat cluster dari masing-masing provinsi, maka dibuat data frame dari menggunakan perintah data.frame

3 Hasil dan Pembahasan

3.1 Statistika Deskriptif

Statistika deskriptif pada penelitian ini digunakan untuk memberikan gambaran umum dan menyajikan data Indikator Pembangunan Manusia (IPM) pada variabel Tingkat Partisipasi Angkatan Kerja (X1), Pengangguran Terbuka (X2), Angka Harapan Hidup (X3), Tidak Bersekolah (X4), dan Penduduk Miskin (X5)

Error in eval(expr, envir, enclos): object 'Data_IPM' not found
  • Provinsi Jawa Timur memiliki 38 Kabupaten/Kota, setiap Kabupaten/Kota mempunyai Tingkat Partisipasi Angkatan Kerja (X1). Wilayah yang memiliki partisipasi angkatan kerja terendah adalah Kabupaten Mojokerto yaitu sebesar 60,64%. Sedangkan, wilayah yang memiliki partisipasi angkatan kerja tertinggi adalah Kabupaten Pacitan sebesar 80,28%.
  • Provinsi Jawa Timur memiliki 38 Kabupaten/Kota, setiap Kabupaten/Kota mempunyai Tingkat Pengangguran Terbuka (X2). Wilayah yang memiliki tingkat pengangguran terbuka terendah adalah Sumenep sebesar 1,01%. Sedangkan, wilayah yang memiliki tingkat pengangguran terbuka tertinggi adalah Kota Kediri sebesar 7,66%.
  • Provinsi Jawa Timur memiliki 38 Kabupaten/Kota, setiap Kabupaten/Kota mempunyai Tingkat Angka Harapan Hidup (X3). Wilayah yang memiliki angka harapan hidup terendah adalah Kota Pasuruan sebesar 48,30%. Sedangkan, wilayah yang memiliki angka harapan hidup tertinggi adalah Kabupaten Mojokerto sebesar 99,13%.
  • Provinsi Jawa Timur memiliki 38 Kabupaten/Kota, setiap Kabupaten/Kota mempunyai Tingkat Tidak Bersekolah (X4). Wilayah yang memiliki tingkat tidak bersekolah terendah adalah Kota Madiun sebesar 1,11%. Sedangkan, wilayah yang memiliki tingkat tidak bersekolah tertinggi adalah Kabupaten Sampang sebesar 26,27%.
  • Provinsi Jawa Timur memiliki 38 Kabupaten/Kota, setiap Kabupaten/Kota mempunyai Tingkat Penduduk Miskin (X5). Wilayah yang memiliki tingkat penduduk miskin terendah adalah Kota Batu sebesar 4,77%. Sedangkan, wilayah yang memiliki tingkat penduduk miskin tertinggi adalah Kabupaten Sampang sebesar 27,08%.

3.2 Grafik Jarak Antar Objek

Error in eval(expr, envir, enclos): object 'Data_IPM' not found
Error in eval(expr, envir, enclos): object 'jarak' not found

Berdasarkan grafik dapat dilihat bahwa semakin merah warnanya maka jaraknya akan semakin jauh, sedangkan semakin hijau warnanya maka jaraknya akan semakin dekat.

3.3 Clustering K-Means

Error in eval(expr, envir, enclos): object 'Data_IPM' not found
Error in eval(expr, envir, enclos): object 'cluster' not found

Berdasarkan gambar di atas, dapat dilihat bahwa warna merah mewakili cluster 1, warna hijau mewakili cluster 2, warna biru mewakili cluster 3, dan warna ungu mewakili cluster 4.

Berikut ini merupakan tabel untuk memudahkan melihat cluster dari masing-masing kabupaten/kota di Provinsi Jawa Timur.

Error in eval(expr, envir, enclos): object 'Data_IPM' not found
Error: object 'letak' not found
Error in eval(expr, envir, enclos): object 'letak' not found

4 Penutup

4.1 Kesimpulan

Berdasarkan hasil analisis cluster dengan metode K-Means, dapat disimpulkan bahwa:

  1. Cluster 1 terdiri dari 13 kabupaten/kota, diantaranya : Kabupaten Tulungagung, Kabupaten Sidoarjo, Kabupaten Mojokerto, Kabupaten Jombang, Kabupaten Ngawi, Kabupaten Lamongan, Kabupaten Gresik, Kota Kediri, Kota Malang, Kota Probolinggo, Kota Madiun, Kota Surabaya, dan Kota Batu.
  2. Cluster 2 terdiri dari 5 kabupaten/kota, diantaranya : Kabupaten Madiun, Kabupaten Magetan, Kota Blitar, Kota Pasuruan, dan Kota Mojokerto.
  3. Cluster 3 terdiri dari 15 kabupaten/kota, diantaranya : Kabupaten Pacitan, Kabupaten Ponorogo, Kabupaten Trenggalek, Kabupaten Blitar, Kabupaten Kediri, Kabupaten Malang, Kabupaten Banyuwangi, Kabupaten Bondowoso, Kabupaten Situbondo, Kabupaten Probolinggo, Kabupaten Nganjuk, Kabupaten Bojonegoro, Kabupaten Tuban, Kabupaten Pamekasan, dan Kabupaten Sumenep.
  4. Cluster 4 terdiri dari 5 kabupaten/kota, diantaranya : Kabupaten Lumajang, Kabupaten Jember, Kabupaten Pasuruan, Kabupaten Bangkalan, dan Kabupaten Sampang.

4.2 Saran

Saran yang dapat diberikan untuk penelitian selanjutnya adalah dapat diteruskan melalui beberapa metode analisis cluster lainnya seperti Metode Hierarki dengan tujuan sebagai perbandingan untuk melihat apakah terdapat perbedaan yang signifikan dalam pengelompokkan data. Selain itu, juga dapat di tambahkan faktor-faktor lainnya yang berbeda dari pada yang sudah dilakukan dalam penelitian ini.

4.3 Daftar Pustaka

Sirojuddin, Achmad. (2016). Analisis Cluster Pada Kabupaten/Kota di Provinsi Jawa Timur Berdasarkan Indikator Indeks Pembangunan Manusia.

Ramadanti, E., & Mushlih, M. (2021). Analisis Persebaran Kasus COVID-19 di Jawa Barat Menggunakan Metode K-Means Clustering. SISMATIK, Prosiding Seminar Nasional Sistem Informasi dan Manajemen Informatika, 1, 1-8.

Sari, D., & Sukestiyarno, Y. (2021). Analisis Cluster Dengan Metode K-Means Pada Persebaran Kasus COVID-19 Berdasarkan Provinsi di Indonesia. PRISMA, Prosiding Seminar Nasional Matematika, 4, 602-610.

Talakua, M., Leleury, Z., & Taluta, A. (2017). ANALISIS CLUSTER DENGAN MENGGUNAKAN METODE K-MEANS UNTUK PENGELOMPOKKAN KABUPATEN/KOTA DI PROVINSI MALUKU BERDASARKAN INDIKATOR INDEKS PEMBANGUNAN MANUSIA TAHUN 2014. BAREKENG: Jurnal Ilmu Matematika Dan Terapan, 11(2), 119-128.