1 PENDAHULUAN

1.1 Latar Belakang

Kemiskinan merupakan kondisi ketidakmampuan individu atau kelompok dalam memenuhi kebutuhan dasar. Menurut Subanidja dan Suharto (2014), kemiskinan disebabkan oleh empat faktor utama, Indeks Pembangunan Manusia (IPM), tingkat pengangguran , tingkat pendidikan, dan tingkat pengangguran, Upah Minimum Regional (UMR).

Provinsi Jawa Tengah terdiri atas 35 kabupaten/kota dengan karakteristik sosial dan ekonomi yang beragam. Menurut data BPS, Provinsi Jawa Tengah merupakan provinsi dengan persentase kemiskinan tertinggi kedua di Pulau Jawa setelah Provinsi Yogyakarta. Berikut merupakan data faktor penyebab kemiskinan di kabupaten/kota di Provinsi Jawa Tengah.

kabupaten/kota	IPM	TPT	RLS	UMK
Kabupaten Cilacap	72.38	7.83	7.40	2479106
Kabupaten Banyumas	74.52	6.18	7.91	2195690
Kabupaten Purbalingga	70.69	4.96	7.36	2195571
Kabupaten Banjarnegara	69.60	5.57	6.87	2038005
Kabupaten Kebumen	71.93	5.07	7.87	2121947
…	…	…	…	…

note : digunakan Tingkat Pengangguran Terbuka (TPT) untuk mewakili faktor “tingkat pengangguran” dan Upah Minimum Kabupaten/Kota (UMK) untuk mewakili faktor “Upah Minimum Regional”.

Dari data tersebut dapat diketahui bahwa terdapat variasi karakteristik sosial dan ekonomi antar kabupaten/kota di Jawa Tengah sehingga penyebab kemiskinan di setiap wilayah pun dapat berbeda-beda. Oleh karena itu, diperlukan pendekatan yang mampu mengelompokkan kabupaten/kota berdasarkan kesamaan faktor-faktor penyebab kemiskinan. Digunakan Metode clustering hierarki untuk mengelompokan kabupaten/kota di Provinsi Jawa Tengah sehingga diperoleh cluster-cluster dengan faktor penyebab kemiskinan yang serupa.

2 Tinjauan Pustaka

2.1 Jarak Euclidean

Rencher (2002) menjelaskan bahwa jarak digunakan untuk mengukur kedekatan antara objek pengamatan yang satu dengan yang lain. Jarak juga dapat dianggap sebagai ukuran ketidaksamaan, karena jarak akan semakin meningkat ketika dua unit menjadi semakin jauh. Selain itu, Rencher (2002) juga menyebutkan bahwa jarak yang umum digunakan adalah jarak euclidean dengan persamaan sebagai berikut

\[ d(\mathbf{x}, \mathbf{y}) = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2} \]

2.2 Clustering Hirarki

Analisis cluster bertujuan untuk mengelompokan objek-objek pengamatan ke dalam cluster-cluster berdasarkan kemiripan. Analisis cluster memiliki dua pendekatan, yaitu hirarki dan non hirarki. Rencher (2002) menjelaskan bahwa langkah-langkah cluster hirarki dimulai dengan menganggap setiap objek pengamatan sebagai cluster yang terpisah, kemudian secara bertahap mengelompokan objek pengamatan tersebut ke dalam cluster berdasarakan kemiripan hingga diperoleh cluster utama yang memuat seluruh objek pengamatan.

Berikut merupakan pendekatan yang digunakan dalam cluster hirarki

2.2.1 Single Linkage

Pendekatan single linkage menyatakan bahwa jarak dari cluster A dan cluster B merupakan jarak minimum dari sebuah titik di cluster A dan titik di cluster B (Rencher, 2002). Berikut persamaan single linkage

\[ D(A, B) = \min \{ d(\mathbf{y}_i, \mathbf{y}_j) \} \]

2.2.2 Complete Linkage

Pendekatan complete linkage menyatakan bahwa jarak dari cluster A dan cluster B merupakan jarak maksimum dari sebuah titik di cluster A dan titik di cluster B (Rencher, 2002). Berikut persamaan complete linkage \[ D(A, B) = \max \{ d(\mathbf{y}_i, \mathbf{y}_j) \} \]

2.2.3 Average Linkage

Pendekatan average linkage menyatakan bahwa jarak dari cluster A dan cluster B dihitung dari rata-rata jarak antar pasangan titik cluster A dan cluster B yang dinotasikan dengan \(n_A n_B\) (Rencher, 2002). Berikut persamaan average linkage

\[ D(A, B) = \frac{1}{n_A n_B} \sum_{i=1}^{n_A} \sum_{j=1}^{n_B} d(\mathbf{y}_i, \mathbf{y}_j) \] cluster yang terbentuk dari pendekatan ini diperoleh dari gabungan dua cluster dengan jarak terkecil.

2.2.4 Centroid Linkage

Pendekatan centroid linkage menyatakan bahwa jarak dari cluster A dan cluster B merupakan hasil perhitungan dari jarak euclidean antara rata-rata vektor (centroid) dari cluster A dan cluster B (Rencher, 2002). Berikut persamaan centroid linkage

\[ D(A, B) = d(\overline{y}_i, \overline{y}_j) \] Setelah cluster A dan B tergabung, diperoleh centroid bagi cluster baru, yaitu cluster AB, dengan persamaan sebagai berikut \[ \overline{y}_{AB} = \frac{n_A\overline{y}_A+n_B\overline{y}_B}{n_A+n_B} \]

2.2.5 Median Linkage

Pendekatan median linkage menggunakan nilai median dari cluster A dan cluster B untuk menghitung jarak baru menuju cluster yang lainnya (Rencher, 2002). Berikut persamaan median linkage \[ {m}_{AB} = \frac {1}{2}{\overline{y}_A+\overline{y}_B} \] cluster yang terbentuk dari pendekatan ini diperoleh dari gabungan dua cluster dengan jarak median terkecil.

2.2.6 Ward Linkage

Ward (1963, dikutip dalam Rencher, 2002) menjelaskan bahwa pendekatan ward linkage menggunakan jarak kuadrat dalam cluster dan jarak kuadrat antar cluster. Berikut persamaan jumlah kuadrat dalam cluster AB yang merupakan hasil penggabungan dari cluster A dan cluster B \[ SSE_A = \sum_{i=1}^{n_A} (\mathbf{y}_i - \overline{\mathbf{y}}_A)' (\mathbf{y}_i - \overline{\mathbf{y}}_A) \]

\[ SSE_B = \sum_{i=1}^{n_B} (\mathbf{y}_i - \overline{\mathbf{y}}_B)' (\mathbf{y}_i - \overline{\mathbf{y}}_B) \]

\[ SSE_{AB} = \sum_{i=1}^{n_{AB}} (\mathbf{y}_i - \overline{\mathbf{y}}_{AB})' (\mathbf{y}_i - \overline{\mathbf{y}}_{AB}) \] cluster yang terbentuk dari pendekatan ward linkage diperoleh dari gabungan dua cluster yang meminimumkan peningkatan nilai dari jumlah kuadrat, dengan persamaan sebagai berikut \[ I_{AB} = SSE_{AB} - (SSE_A + SSE_B) \]

2.3 Korelasi Cophenetic

Menurut Silva & Dias (2013, dalam Widodo et al., 2018), koefisien korelasi cophenetic merupakan koefisien korelasi antara elemen-elemen asli matriks ketidakmiripan (matriks jarak euclidean) dan elemen-elemen yang dihasilkan oleh matriks cophenetic.

Korelasi cophenetic digunakan untuk menentukan pendekatan linkage yang paling tepat untuk digunakan berdasarkan nilai korelasi terbesar yang dihasilkan.

Berikut persamaan korelasi cophenetic \[ r_{\text{Coph}} = \frac{\sum_{i<k} (d_{ik} - \bar{d})(d_{c_{ik}} - \bar{d}_c)} {\sqrt{\left[ \sum_{i<k} (d_{ik} - \bar{d})^2 \right] \left[ \sum_{i<k} (d_{c_{ik}} - \bar{d}_c)^2 \right]}} \] \(r_{\text{Coph}}\) : koefisien korelasi cophenetic

\(d_{ik}\) : jarak euclidean objek ke-i dan objek ke-k

\(\bar{d}\) : rata-rata \(d_{ik}\)

\(d_{c_{ik}}\) : jarak cophenetic objek ke-i dan objek ke-k

\(\bar{d}_c\) : rata-rata \(d_{Cik}\)

2.4 Indeks Silhoutte

Indeks silhoutte digunakan untuk menentukan jumlah cluster optimal yang terbentuk.

Rousseeuw (1987, dikutip dalam Charrad et al., 2014) memperkenalkan indeks silhoutte yang dihitung menggunakan persamaan berikut

\[ Silhoutte= \frac{\sum_{i=1}^{n} S_{i} }{n} \] di mana \[ S_{i} = \frac{b_{i} - a_{i}}{\max\{a_{i}, b_{i}\}} \]

\(a_{i}\) : rata-rata ketidaksamaan antara objek ke-i dengan seluruh objek pengamatan antar cluster ke r.

\(b_{i}\) : rata-rata ketidaksamaan antara objek ke-i dengan seluruh objek pengamatan di dalam cluster ke r.

Nilai indeks yang paling maksimum digunakan untuk menentukan jumlah cluster yang optimal.

3 HASIL DAN PEMBAHASAN

3.1 Library

> library(readxl)     #mengimpor file format xlsx dan csv ke dalam RStudio
> library(clValid)    #menguji validitas jumlah cluster yang terbentuk
> library(dendextend) #memvisualisasikan cluster
> library(factoextra) #mengetahui karakteristik dari cluster

3.2 Data

> data <- read_excel("C:/Users/ASUS/Downloads/Faktor Penyebab Kemsikinan Provinsi Jawa Tengah.xlsx")
> str(data)
tibble [35 × 5] (S3: tbl_df/tbl/data.frame)
 $ Kabupaten / Kota: chr [1:35] "Kabupaten Cilacap" "Kabupaten Banyumas" "Kabupaten Purbalingga" "Kabupaten Banjarnegara" ...
 $ IPM             : num [1:35] 72.4 74.5 70.7 69.6 71.9 ...
 $ TPT (Persen)    : num [1:35] 7.83 6.18 4.96 5.57 5.07 3.89 4.02 3.55 3.16 3.97 ...
 $ RLS (Tahun)     : num [1:35] 7.4 7.91 7.36 6.87 7.87 8.65 6.9 7.83 8.17 9.29 ...
 $ UMK (Rupiah)    : num [1:35] 2479106 2195690 2195571 2038005 2121947 ...

Bentuk data frame

> datapoverty <- as.data.frame(data[,2:5])
> datapoverty

3.3 Menghitung Jarak Euclid

> jarak_euclid <- dist(datapoverty, method = "euclidean")
> jarak_euclid

3.4 Menentukan Pendekatan Hirarki Terbaik

> #single linkage
> link_single <- hclust(jarak_euclid, "single")
> coph_single <- cophenetic(link_single)
> cor_single  <- cor(jarak_euclid, coph_single)
> 
> #average linkage
> link_average <- hclust(jarak_euclid, "ave")
> coph_average <- cophenetic(link_average)
> cor_average  <- cor(jarak_euclid, coph_average)
> 
> #complete linkage
> link_complete <- hclust(jarak_euclid, "complete")
> coph_complete <- cophenetic(link_complete)
> cor_complete  <- cor(jarak_euclid, coph_complete)
> 
> #centroid linkage
> link_centroid <- hclust(jarak_euclid, "centroid")
> coph_centroid <- cophenetic(link_centroid)
> cor_centroid  <- cor(jarak_euclid, coph_centroid)
> 
> #median linkage
> link_median <- hclust(jarak_euclid, "median")
> coph_median <- cophenetic(link_median)
> cor_median  <- cor(jarak_euclid, coph_median)
> 
> #ward linkage
> link_ward <- hclust(jarak_euclid, "ward.D")
> coph_ward <- cophenetic(link_ward)
> cor_ward  <- cor(jarak_euclid, coph_ward)

Bentuk tabel berisi nilai korelasi setiap metode hirarki

> cor_table <- data.frame(Method = c("Single", "Average", "Complete", 
+                                    "Centroid", "Median", "Ward"),
+                         Correlation = c(cor_single, cor_average, cor_complete, 
+                                         cor_centroid, cor_median, cor_ward))
> print(cor_table)
    Method Correlation
1   Single   0.8651144
2  Average   0.8581674
3 Complete   0.8715567
4 Centroid   0.9085110
5   Median   0.8822044
6     Ward   0.6185959

Berdasarkan tabel di atas, dapat dilihat bahwa centroid lingkage memiliki nilai korelasi tertinggi dan merupakan metode hirarki yang paling tepat untuk digunakan.

3.5 Indeks Silhoutte

> fviz_nbclust(datapoverty, FUN = hcut, method = "silhouette", 
+              k.max = 10, hc_method = "centroid")

Berdasarkan plot silhouette di atas dapat dilihat bahwa terbentuk 2 cluster optimal menggunakan centroid lingkage.

3.6 Visualisasi

> dendogram <- as.dendrogram(link_centroid)
> dendogram <- color_branches(dendogram, k = 2) 
> plot(dendogram, main = "Dendrogram", sub=" ",
+      xlab = "Kabupaten / Kota", ylab = "Jarak", cex.axis = 0.8)

> link_centroid  <- eclust(datapoverty, FUNcluster = "hclust", 
+                          k = 2, hc_method = "centroid", graph = TRUE)
> cluster_member <- link_centroid$cluster
> cluster_member
 [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1

Berdasarkan plot di atas, terbentuk dua cluster. garis berwarna merah menunjukan cluster kedua, yang hanya terdiri dari Kota Semarang. Sementara itu, garis berwarna hijau menunjukan cluster pertama yang terdiri dari 34 kabupaten/kota selain Kota Semarang.

3.7 Karakteristik Cluster

> Karakteristik_cluster <- aggregate(datapoverty,list(cluster_member),mean)
> Karakteristik_cluster
  Group.1   IPM TPT (Persen) RLS (Tahun) UMK (Rupiah)
1       1 74.44     4.481471    8.240588      2260224
2       2 85.25     5.820000   11.050000      3243969

Berdasarkan hasil di atas, diperoleh kesimpulan bahwa cluster 2 memiliki karakteristik variabel IPM, TPT, RLS, dan UMK yang lebih tinggi dari cluster 1.

4 KESIMPULAN

Berdasarkan hasil analisis cluster dengan menggunakan jarak euclidean dan metode centroid linkage serta indeks silhoutte untuk menentukan jumlah cluster optimal, dapat disimpulkan bahwa terbentuk dua cluster optimal di mana cluster 1 yang terdiri dari 34 kabupaten/kota memiliki karakteristik variabel-variabel yang mempengaruhi kemiskinan lebih rendah daripada cluster 2 yang hanya terdiri dari Kota Semarang.

5 DAFTAR PUSTAKA

Badan Pusat Statistik Jawa Tengah (2024, November 15). [Metode Baru] Indeks Pembangunan Manusia Menurut Kabupaten/Kota, 2022-2024. Retrieved from Badan Pusat Statistik Jawa Tengah: https://jateng.bps.go.id/id/statistics-table/2/ODMjMg==/-metode-baru--indeks-pembangunan-manusia-menurut-kabupaten-kota.html

Badan Pusat Statistik Jawa Tengah (2024, November 5). Tingkat Pengangguran Terbuka (TPT) di Provinsi Jawa Tengah (Persen), 2023-2024. Retrieved from Badan Pusat Statistik Jawa Tengah: https://jateng.bps.go.id/id/statistics-table/2/NjQjMg==/tingkat-pengangguran-terbuka--tpt-.html

Charrad, M., Ghazzali, N., Boiteau, V., & Niknafs, A. (2014). NbClust: An R Package for Determining the Relevant Number of Clusters in a Data Set. Journal of Statistical Software, 61(6), 13.

jatengprov.go.id. (2023, November 30). UMK Jateng 2024 Diumumkan, Kota Semarang Tertinggi. Retrieved from Portal Berita Pemerintah Provinsi Jawa Tengah: https://jatengprov.go.id/publik/umk-jateng-2024-diumumkan-kota-semarang-tertinggi/

RENCHER, A. C. (2002). Methods of Multivariate Analysis (2nd ed.). New York: John Wiley & Sons, Inc

Subanidja, S., & Suharto, E. (2014). THE DOMINANT FACTORS IN THE CAUSES OF POVERTY LEVEL IN INDONESIA. Humanities and Social Sciences Review, 1-10.

Widodo, E., Sari, N. N., Hidayati, I., Yubinas, F., Yuniarti, M., & Novyantika, R. D. (2018). ANALISIS CLUSTER PENDERITA DISABILITAS MENTAL DI PROVINSI DAERAH ISTIMEWA YOGYAKARTA TAHUN 2016. Prosiding Konferensi Nasional Penelitian Matematika dan Pendidikan Matematika (KNPMP III 2018), 580.

Analisis Cluster Hierarki

Haical Nahr Yudhastira

27 November 2024