Library:
> # install.packages("knitr")
> # install.packages("rmarkdown")
> # install.packages("prettydoc")
> # install.packages("equatiomatic")
1 PENDAHULUAN
Analisis cluster merupakan teknik variabel ganda yang mempunyai tujuan utama untuk mengelompokkan objek-objek berdasarkan kemiripan karakteristik yang dimilikinya (Hair dkk., 2014). Tujuan utama dari analisis cluster adalah untuk pengelompokan sejumlah data/objek ke dalam sebuah clustersehingga dalam setiap cluster akan berisi data yang semirip mungkin (Nurjanah dkk., 2014). Objek yang akan dicluster bisa berupa produk (barang dan jasa), makhluk hidup (tumbuhan dan binatang), atau manusia (disebut responden, konsumen, partisipan dalam kegiatan eksperimen, atau yang lain).Secara garis besar metode clustering dibagi menjadi dua, yaitu metode hierarki dan metode clustering nonhierarki. Metode hierarki terdiri dari beberapa metode yaitu Single, Average, Complete, Centroid, dan Ward Linkage. Metode nonhierarki salah satu metodenya adalah K-Means. Dalam mengukur kemiskinan, BPS menggunakan konsep kemampuan memenuhi kebutuhan dasar (basic needs approach). Pendekatan ini menjelaskan bahwa kemiskinan dipandang sebagai ketidakmampuan dari sisi ekonomi untuk memenuhi kebutuhan dasar makanan dan bukan makanan yang diukur dari sisi pengeluaran. Jawa Timur memiliki keberagaman karakteristik setiap wilayahnya salah satu contohnya dalam sektor Ekonomi, PDRB Jawa Timur menurut lapangan usaha pada tahun 2016 didominasi oleh kota Surabaya dengan angka 24,19%, diikuti kabupaten Sidoarjo sebesar 8,57%, kabuapaten Pasuruan 6,15%, dan kabupaten Gresik 5,78%. Berdasarkan keberagaman karakteristik tersebut, maka akan dilakukan pengelompokan untuk memahami karakteristik di Jawa Timur secara mudah. Penelitian ini akan mengelompokkan Kabupaten/Kota di Jawa Timur dengan menggunakan Cluster Hierarki.
2 Tinjauan Pustaka
2.1 Analisis Cluster
Analisis cluster merupakan analisis variabel ganda yang memiliki tujuan untuk mengelompokkan n objek ke dalam k cluster dengan k<n berdasarkan p variabel, sehingga tiap unit objek dalam satu cluster memiliki karakteristik yang lebih homogen dibandingkan unit objek dalam cluster lain (Siswadi & Suharjo, 1998). Cluster-cluster yang terbentuk dalam satu cluster mempunyai ciri yang relatif sama (homogen), sedangkan antar cluster mempunyari ciri yang berbeda (heterogen). Pengelompokan ini dilakukan berdasarkan variabel-variabel yang diamati (Usman dan Sobari,2013). Prinsip utama metode hierarki yaitu mengelompokkan objek yang memiliki kesamaan dengan satu kelompok. Sedangkan metode nonhierarki digunakan ketika informasi mengenai jumlah cluster diketahui atau sudah ditentukan (Johnson dan Wichern, 2007).
2.1.1 Merode Hierarki
Metode hierarki adalah suatu metode analisis cluster yang membentuk tingkatan tertentu seperti pada struktur pohon karena proses cluster dilakukan secara bertingkat atau bertahap. Metode ini biasa digunakan untuk individu yang tidak terlalu banyak, dan jumlah kelompok yang akan dibentuk belum diketahui. Hasil dari cluster dengan metode hierarki adalah dengan bentuk dendogram. Metode hierarki memiliki dua prosedur yang digunakan untuk cluster yaitu metode aglomeratif dan metode divisif. Hasil pengelompokan biasanya ditampilkan dalam bentuk diagram dendogram. Dendogram digunakan untuk memperjelas pengelompokan dalam metode hierarki (Jhonson and Winchern, 2007). Metode agglomeratif memiliki beberapa algoritma yang digunakan untuk membentuk cluster, yaitu single linkage, complete linkage, average linkage dan ward linkage. Pada penelitian ini belum diketahui jumlah dari kelompok yang akan dibentuk. Oleh karena itu, penelitian ini menggunakan metode hierarki.
2.1.1.1 Single Linkage
Untuk menentukan jarak antar cluster dengan menggunakan single lnkage¸ maka dipilih jarak yang paling dekat atau aturan tetangga dekat (nearest neighbour rule). Langkah-langkah menggunakan metode single linkage (Johnson & Wichern, 2007):
- Menentukan jarak minimum dalam D=\(d_{(ij)k}\)
- Menghitung jarak antara cluster yang telah dibentuk pada langkah a dengan objek lainnya
- Dari algoritma di atas jarak-jarak antara (IJ) dan cluster K yang lain dihitung dengan cara: \[ d_{(ij)k}= min(d_{ik},d_{jk}) \]
2.1.1.2 Complate Linkange
Pada metode complete linkage, jarak antar cluster ditentukan oleh jarak terjauh (farthest-neighbour) antara dua objek dalam cluster yang berbeda (Johnson & Wichern, 2007) \[ d_{(ij)k}= max(d_{ik},d_{jk}) \] Dimana \(d_{(ij)k}\) dan \(d_{(ij)k}\) masing-masing adalah jarak antara anggota yang paling jauh dari cluster I dan J serta cluster J dan K (Johnson & Wichern, 2007).
2.1.1.3 Average Linkage
Metode ini akan mengelompokkan objek berdasarkan jarak antara dua cluster dianggap sebagai jarak ratarata antara semua anggota dalam satu cluster dengan semua anggota cluster lain (Johnson & Wichern, 2007). \[ d_{(ij)k}= \frac{\sum _a \sum _b d_{ab} }{N_{ij}N_{k} } \] Dimana :
\(d_{ij}\) : jarak antara objek i pada cluster (IJ) dan objek b pada cluster K
\(N_{ij}\) : jumlah item pada cluster (IJ)
\(N_{k}\) : jumlah item pada cluster (IJ) dan K
2.1.1.4 Ward’s Method
Metode varians bertujuan untuk memperoleh cluster yang memiliki varians internal cluster yang sekecil mungkin. Metode varians yang umum dipakai adalah metode ward dimana rata-rata untuk setiap cluster dihitung. Kemudian, dihitung jarak Euclidean antara setiap obyek dan nilai rata-rata itu, lalu jarak itu dihitung semua. Pada setiap tahap, dua cluster yang memiliki kenaikan ’sum of squares I dalam cluster’ yang terkecil digabungkan (Simamora, 2005). Metode ward adalah metode cluster hirarki yang bersifat agglomerative untuk memperoleh cluster yang memiliki varian internal sekecil mungkin. Formula untuk SSE adalah sebagai berikut (Rencher, 2002):
\[ ESS = \sum_i (x_{i}- \widehat x )'(x_i- \widehat x) \]
2.1.2 Dendogram
Dendogram adalah representasi secara matematis dan visual dari prosedur pengelompokan yang dilakukan dengan menggunakan analisis cluster hierarki. Bentuk dendogram identik dengan diagram pohon. Titik-titik pada dendogram menunjukkan cluster, sedangkan panjang batang mempresentasikan jarak di mana objek-objek digabungkan dalam cluster. Dendogram sebagai representasi proses pengelompokan analisis cluster hierarki akan membentuk struktur yang berbeda tergantung pada jarak maupun linkage yang dipakai pada proses pengelompokan. Dendogram akan dipotong untuk mengetahui banyaknya cluster yang terbentuk dari selisih terpanjang. Berikut merupakan contoh dendogram secara matematis dan visual.
3 SOURCE CODE
3.1 Library yang Dibutuhkan
> # Library
> library(car)
> library(lmtest)
> library(mctest)
> library(rstatix)
> library(cluster)
> library(clValid)
3.2 Data
> library(readxl)
> data <- read_excel("~/data.xlsx")
> View(data)
> data
# A tibble: 38 x 2
`Kabupaten/kota` `Jumlah Penduduk miskin 2019`
<chr> <dbl>
1 Pacitan 75.9
2 Ponorogo 84.0
3 Trenggalek 76.4
4 Tulungagung 70.0
5 Blitar 104.
6 Kediri 164.
7 Malang 247.
8 Lumajang 98.9
9 Jember 227.
10 Banyuwangi 121.
# ... with 28 more rows
4 HASIL DAN PEMBAHASAN
4.1 Metode Single Linkage
Pada metode single linkage diperoleh indeks validitas sebagai berikut
Single Linkage | Score | Method Cluster | |
---|---|---|---|
Connectivity | 5.8269841 | hierarchical | 2 |
Dunn | 0.2062974 | hierarchical | 4 |
Silhouette | 0.4653710 | hierarchical | 4 |
Kemudian indeks yang dipilih adalah indeks Dunn sehingga diperoleh bahwa penduduk miskin di Jawa Timur pada tahun 2019 dikelompokkan kedalam 4 cluster.
Berikut merupakan dendogram yang dihasilkan dari metode single linkage dengan jarak euclidean.
4.2 Metode Complete Linkage
Pada metode complete linkage diperoleh indeks validitas sebagai berikut
Complete Linkage | Score | Method Cluster | |
---|---|---|---|
Connectivity | 3.4865079 | hierarchical | 2 |
Dunn | 0.3945677 | hierarchical | 5 |
Silhouette | 0.5858067 | hierarchical | 5 |
Kemudian indeks yang dipilih adalah indeks Dunn sehingga diperoleh bahwa penduduk miskin di Jawa Timur pada tahun 2019 dikelompokkan kedalam 5 cluster
Berikut merupakan dendogram yang dihasilkan dari metode complete linkage dengan jarak euclidean.
4.3 Metode Averege Linkage
Pada metode Averege linkage diperoleh indeks validitas sebagai berikut
AVERAGE LINKAGE | Score | Method Cluster | |
---|---|---|---|
Connectivity | 5.7563492 | hierarchical | 2 |
Dunn | 0.2873523 | hierarchical | 5 |
Silhouette | 0.5870476 | hierarchical | 5 |
Kemudian indeks yang dipilih adalah indeks Dunn sehingga diperoleh bahwa penduduk miskin di Jawa Timur pada tahun 2019 dikelompokkan kedalam 5 cluster
Berikut merupakan dendogram yang dihasilkan dari metode averege linkage dengan jarak euclidean.
4.4 Metode Ward Linkage
Pada metode ward linkage diperoleh indeks validitas sebagai berikut
WARD LINKAGE | Score | Method Cluster | |
---|---|---|---|
Connectivity | 4.8686508 | hierarchical | 2 |
Dunn | 0.3945677 | hierarchical | 5 |
Silhouette | 0.5858067 | hierarchical | 5 |
Kemudian indeks yang dipilih adalah indeks Dunn sehingga diperoleh bahwa penduduk miskin di Jawa Timur pada tahun 2019 dikelompokkan kedalam 5 cluster
Berikut merupakan dendogram yang dihasilkan dari metode ward linkage dengan jarak euclidean.
4.5 Pemilihan Analisis Cluster Terbaik
Akan dipilih metode terbaik yang akan digunakan untuk analisis cluster berdasarkan nilai korelasi dari masing-masing metode. Metode terbaik akan dipilih dari metode dengan nilai korelasi terbesar. Nilai korelasi untuk masing-masing metode dapat dilhat pada tabel di bawah ini.
Metode Cluster | Nilai Korelasi Cophenetic |
---|---|
Single linkage | 0.7159635 |
Complete linkage | 0.6936196 |
Average linkage | 0.76971 |
Ward’s | 0.6720969 |
Dari tabel di atas dapat dilihat bahwa antar metode cluster hierarki memiliki nilai yang hampir sama. Namun demikian metode average linkage memiliki nilai korelasi terbesar sehingga metode terbaik yang dipilih untuk hasil analisis cluster adalah metode average linkage.
5 Kesimpulan
Berdasarkan hasil analisis diatas dapat disimpulkan bahwa :
Penerapan 4 metode yang digunakan dalam analisis cluster hirarki yakni metode single linkage, complete linkage, average linkage, dan metode ward. Dengan Metode single linkage terbentuk 4 cluster, metode complate linkage terbentuk 5 cluster, metode average linkage terbentuk 5 cluster dan metode Ward’s terbentuk 5 cluster.
Dari keempat metode yang telah digunakan metode terbaik untuk penelitian ini yaitu metode average linkage. Hal ini diketahui berdasarkan nilai korelasi dari masing-masing metode. Metode average linkage ini memiliki nilai korelasi sebesar 0,76971 yang mana nilai tersebut merupakan nilai tertinggi diantara nilai korelasi metode yang lain.
Dengan metode average linkage ini dapat diketahui bahwa penduduk miskin di Jawa Timur pada tahun 2019 dikelompokkan kedalam 5 cluster.
6 DAFTAR PUSTAKA
Johnson, R. A., dan Wichern, D. W., 2007. Applied Multivariate Statistical Analysis 6th edition. Pearson Education Inc. United States of America.
Rencher, A. 2002. Method of Multivariate Analysis. 2nd ed. New York: John Wiley and Sons, Inc.
Siswadi dan B. Suharjo. 1998. Analisis Eksplorasi Data Peubah Ganda. Tugas Akhir Tidak Diterbitkan. Bogor: Jurusan Matematika Fakultas MIPA IPB, Bogor.
Simamora B. 2005. Analisis Multivariat Pemasaran. PT. Gramedia Pustaka Utama: Jakarta
Usman & Sobari. 2013. Aplikasi Teknik Multivariate. Jakarta: Rajawali Pers