Library:
> # install.packages('psych')
> # install.packages('GPArotation')
> # install.packages('clValid')
> # install.packages('ggplot2')
> # install.packages('cluster')
> # install.packages('factoextra')
> # install.packages('tidyverse')
> # install.packages('car')
> # install.packages('readxl')PENDAHULUAN
Latar Belakang
Pencemaran lingkungan di Indonesia, baik tanah, udara, maupun air, menjadi masalah yang semakin memprihatinkan, mengancam kualitas hidup manusia, mengganggu ekosistem, dan berpotensi menyebabkan berbagai masalah kesehatan. Seiring dengan meningkatnya populasi dan perkembangan industri, pencemaran yang terjadi akibat aktivitas manusia dan proses alami semakin meluas. Pengelompokkan provinsi berdasarkan tingkat pencemaran dapat membantu merumuskan kebijakan yang lebih efektif untuk mengatasi masalah ini, dengan menggunakan pendekatan analisis cluster untuk mengelompokkan daerah yang memiliki karakteristik serupa. Hal ini akan memudahkan dalam merumuskan kebijakan yang tepat sesuai dengan kebutuhan daerah tersebut.
Pencemaran lingkungan, yang terjadi ketika sumber daya alam digunakan melebihi kapasitas alam untuk memulihkan diri, berdampak buruk pada kehidupan, flora, fauna, dan kesehatan manusia. Polusi udara, air, tanah, serta ancaman lainnya, seperti hujan asam, penipisan lapisan ozon, dan perubahan iklim global, merupakan contoh dampak serius yang perlu ditangani. Isu pencemaran ini telah diatur dalam Undang-Undang Nomor 32 Tahun 2009 tentang Perlindungan dan Pengelolaan Lingkungan Hidup, yang memberikan dasar hukum untuk tindakan pengendalian dan pelaksanaan kebijakan yang dapat mencegah pencemaran lebih lanjut. Penting untuk memahami sumber dan proses terjadinya pencemaran serta tindakan yang diperlukan mulai dari skala individu hingga skala yang lebih luas untuk menjaga keberlanjutan hidup manusia dan makhluk hidup lainnya.
Lingkungan hidup merupakan kesatuan ruang yang mencakup elemen kehidupan yang memengaruhi kelangsungan hidup dan kesejahteraan makhluk hidup, termasuk manusia. Dalam hal ini, kualitas lingkungan yang sehat dengan udara segar yang bebas dari polusi sangat penting untuk kesejahteraan masyarakat. Namun, peningkatan jumlah populasi dan perkembangan industri telah menyebabkan pergeseran penggunaan lahan, yang menyebabkan pencemaran tanah dan kerusakan lingkungan lainnya. Pencemaran tanah akibat limbah industri, bahan kimia, dan sampah dapat membahayakan kesehatan serta mengurangi kesuburan tanah yang digunakan untuk pertanian. Oleh karena itu, penting untuk menerapkan literasi lingkungan melalui pendidikan agar generasi mendatang memiliki sikap peduli terhadap lingkungan dan mampu ikut serta dalam pengelolaan serta perlindungannya.
Pencemaran udara perkotaan semakin menjadi masalah serius dengan meningkatnya urbanisasi dan industrialisasi. Polusi udara yang disebabkan oleh emisi kendaraan bermotor, industri, pembakaran sampah, serta kegiatan konstruksi, berkontribusi pada meningkatnya polutan seperti karbon monoksida, nitrogen dioksida, partikel halus, sulfur dioksida, dan senyawa organik volatil. Polutan ini berkaitan langsung dengan peningkatan penyakit pernapasan dan kardiovaskular, seperti asma, bronkitis, dan PPOK. Meskipun dampak jangka panjang dari polusi udara terhadap kesehatan masyarakat masih perlu dieksplorasi lebih lanjut, penelitian yang lebih mendalam diperlukan untuk mengevaluasi kebijakan mitigasi yang telah diterapkan dan untuk mengatasi polusi udara yang terus meningkat di banyak kota besar.
Tinjauan Pustaka
Analisis Cluster
Analisis cluster adalah metode multivariat yang digunakan untuk mengelompokkan objek berdasarkan kesamaan atau perbedaan karakteristik mereka. Objek yang berada dalam satu kelompok atau cluster memiliki karakteristik yang serupa, sementara perbedaan antar cluster cenderung lebih besar. Metode ini bertujuan untuk mengidentifikasi pola kesamaan yang dapat membantu dalam pengelompokan objek, sehingga dapat mempermudah pengambilan keputusan terkait pengelolaan objek-objek tersebut.
Dalam konteks pencemaran lingkungan, analisis cluster dapat digunakan untuk mengelompokkan provinsi berdasarkan pola pencemaran yang serupa, baik itu pencemaran udara, tanah, atau tanpa adanya pencemaran. Pendekatan ini memungkinkan identifikasi kelompok provinsi dengan karakteristik pencemaran yang sama, yang kemudian dapat menjadi dasar bagi penyusunan kebijakan atau tindakan mitigasi yang lebih tepat sasaran untuk masing-masing kelompok.
Asumsi Analisis Cluster
Pada analisis data, terutama yang melibatkan metode statistik dan teknik multivariat, dilakukan uji asumsi untuk memastikan hasil yang valid dan dapat diinterpretasikan dengan baik. Beberapa uji asumsi yang umum digunakan antara lain uji sampel representatif, uji Non-Multikolinearitas, serta standarisasi data.
Uji Sampel Representatif
Uji sampel representatif bertujuan untuk memastikan bahwa sampel yang diambil dari populasi memiliki karakteristik yang sesuai dengan populasi tersebut. Dalam konteks analisis cluster, sampel yang representatif diperlukan agar hasil pengelompokan dapat digeneralisasi dengan baik pada populasi yang lebih besar. Salah satu cara untuk menguji ini adalah dengan menggunakan Kaiser Meyer Olkin (KMO) test.
\[ KMO = \frac{{\sum_{j=1}^n \sum_{i=1}^n r_{ij}^2}}{\sum_{i=1}^n \sum_{j=1}^n r_{ij}^2 + \sum_{i=1}^n \sum_{j=1}^na_{ij}^2} \]
\[ a_{ij} = \frac{-v_{ij}}{\sqrt{v_{i}^2v_{j}^2}} \]
Keterangan :
n = Banyaknya variabel
rij = Korelasi antar variabel Xi dan Xj
aij = korelasi parsial antara Xi dan Xj
vij = invers matriks korelasi antara Xi dan Xj
Jika nilai uji KMO menunjukkan sebesar 0.5 sampai 1, maka sampel dikatakan telah representatif atau mewakili populasi.
Uji Non-Multikolinearitas
Uji non-multikolinearitas digunakan untuk memastikan bahwa variabel-variabel dalam analisis tidak memiliki korelasi yang sangat tinggi satu sama lain. Multikolinearitas dapat mengganggu interpretasi model statistik karena mengindikasikan adanya redundansi informasi. Untuk mengetahui ada tidaknya multikolinearitas, dapat dilihat dari nilai-nilai korelasi pada matriks korelasi. Koefisien korelasi dapat diperoleh dari persamaan berikut:
\[ r_{xy} = \frac{s_{xy}}{\sqrt{s_{xx}}\sqrt{s_{yy}}} \]Menurut Gujarati (1995), apabila nilai koefisien korelasi antar variabel independent menunjukkan nilai lebih dari 0.8 maka dikataka telah terjadi masalah multikolinearitas. Sebaliknya abila koefisien korelasi menunjukkan nilai kurang dari 0.8 maka model tidak mengalami masalah multikolinearitas atau telah memenuhi asumsi non-multikolinearitas.
Standarisasi
Standarisasi data adalah proses mengubah data menjadi skala yang seragam, sehingga setiap variabel memiliki rata-rata 0 dan deviasi standar 1. Hal ini penting terutama dalam analisis multivariat, karena perbedaan satuan pada variabel dapat mempengaruhi hasil analisis. Dalam analisis klaster, standarisasi memastikan bahwa semua variabel memiliki kontribusi yang sama terhadap pembentukan cluster.
\[ Z=\frac{x_i - \bar{x}}{\sigma} \]
Keterangan :
xi : data ke-i
xbar : rata-rata data
σ : simpangan baku
Ukuran Jarak Euclidean
Jarak Euclidean adalah ukuran jarak yang paling umum digunakan dalam berbagai analisis statistik, termasuk clustering. Jarak ini dihitung berdasarkan rumus Pythagoras yang mengukur jarak linier antara dua titik dalam ruang berdimensi banyak. Dalam konteks clustering, semakin kecil nilai jarak Euclidean antara dua titik, semakin mirip keduanya. Jarak Euclidean digunakan dalam penghitungan kedekatan antar objek atau data dalam analisis cluster.
\[ d=\sqrt{(x-y)'S^{-1}(x-y)} \]
Keterangan:
d : jarak Euclidean
x : nilai data dari objek ke x
y : nilai data dari objek ke y
Metode Linkage
Metode linkage dalam hierarchical clustering digunakan untuk menentukan bagaimana dua klaster digabungkan selama proses pengelompokan. Berbagai jenis metode linkage yang umum digunakan antara lain single linkage, average linkage, complete linkage, centroid linkage, dan Ward’s method.
Single Linkage
Single linkage adalah metode yang menggabungkan dua cluster berdasarkan jarak terkecil antara dua titik pada cluster yang berbeda. Metode ini cenderung menghasilkan cluster yang lebih longgar dan lebih rentan terhadap efek outlier.
\[ d(uv)w = min(d_{uv}d_{vw}) \]
Average Linkage
Average linkage menggabungkan dua klaster dengan menghitung rata-rata jarak antara semua pasangan titik data dari kedua cluster tersebut. Metode ini lebih robust dibandingkan dengan single linkage, karena memberikan representasi yang lebih stabil dari kedekatan antara dua cluster.
\[ d(uv)w=average(d_{uv}d_{vw}) \]
Complete Linkage
Complete linkage adalah kebalikan dari single linkage, yaitu menggabungkan dua cluster berdasarkan jarak terbesar antara titik-titik data pada cluster yang berbeda. Metode ini menghasilkan cluster yang lebih kompak dan memiliki ukuran yang relatif lebih seragam, meskipun cenderung mengabaikan pola data yang lebih kompleks.
\[ d(uv)w = max(d_{uv}d_{vw}) \]
Centroid Linkage
Centroid linkage menggabungkan dua cluster berdasarkan perbedaan antara pusat (centroid) kedua cluster. Pusat ini dihitung sebagai rata-rata koordinat titik data dalam setiap cluster. Metode ini cenderung menghindari masalah yang mungkin terjadi pada metode lainnya, seperti ketidakstabilan pada ukuran cluster.
\[ d(A,B) = s(\bar{x},\bar{y}) \]
Ward’s Method
Ward’s method adalah teknik yang menggabungkan dua cluster berdasarkan pengurangan varians total yang dihasilkan oleh penggabungan tersebut. Metode ini menghasilkan cluster yang lebih homogen dan lebih efisien dalam menjaga integritas data. Ward’s method sering dianggap sebagai metode linkage yang paling stabil dan efektif untuk banyak aplikasi clustering.
\[ ESS = \sum_{j=1}^n x_{ij}^2 - \frac{1}{n}(\sum_{j=1}^nx_{ij}) \]
Koefisien Korelasi Cophenetic
Koefisien korelasi cophenetic digunakan untuk mengukur sejauh mana hasil clustering yang dihasilkan sesuai dengan jarak asli data. Korelasi cophenetic tinggi menunjukkan bahwa hasil clustering yang dihasilkan mampu mempertahankan hubungan jarak antar titik data secara akurat. Korelasi cophenetic dapat dihitung dengan cara membandingkan jarak yang dihitung menggunakan clustering dengan jarak yang asli (dari data mentah).
Indeks Validitas dalam Clustering
Indeks validitas digunakan untuk mengevaluasi kualitas hasil clustering dengan mengukur sejauh mana cluster yang terbentuk relevan dan bermakna. Beberapa indeks validitas yang sering digunakan dalam analisis clustering antara lain Silhouette Index, Dunn Index, dan Connectivity Index.
- Indeks Connectivity: Mengukur sejauh mana elemen-elemen dalam cluster terhubung dengan erat. Semakin rendah nilai indeks ini, semakin baik.
- Indeks Dunn: Mengukur pemisahan antar cluster. Nilai yang lebih tinggi menunjukkan pemisahan yang lebih baik.
- Indeks Silhouette: Mengukur sejauh mana elemen dalam cluster lebih mirip dengan anggota cluster lain dibandingkan dengan klaster lainnya. Nilai yang lebih tinggi menunjukkan kualitas cluster yang lebih baik.
Validasi cluster ini penting untuk memastikan bahwa jumlah dan karakteristik klaster yang terbentuk sesuai dengan data yang ada.
Data
Data yang digunakan dalam penelitian ini diambil dari situs resmi Badan Pusat Statistik (BPS) Indonesia yang menyediakan informasi mengenai jumlah desa/kelurahan di 38 provinsi di Indonesia pada tahun 2014. Data tersebut mencakup berbagai jenis pencemaran lingkungan hidup, yaitu pencemaran air, pencemaran tanah, pencemaran udara, dan daerah yang tidak mengalami pencemaran. Namun, dalam penelitian ini, hanya tiga variabel yang digunakan, yaitu pencemaran tanah, pencemaran udara, dan tidak ada pencemaran. Berikut merupakan cuplikan data yang digunakan dalam penelitian ini:
Tujuan
Tujuan dari penelitian ini adalah untuk mengelompokkan provinsi-provinsi di Indonesia berdasarkan tingkat pencemaran lingkungan yang terjadi, dengan menggunakan metode analisis cluster hierarki dan validasi cluster untuk menentukan jumlah cluster yang optimal. Selain itu, penelitian ini bertujuan untuk mengevaluasi kualitas cluster yang terbentuk melalui ukuran validitas cluster seperti Connectivity, Dunn, dan Silhouette, serta untuk memberikan wawasan bagi pengambilan kebijakan dalam penanggulangan pencemaran lingkungan di Indonesia.
SOURCE CODE
Library
> # Library
> library(psych)
> library(GPArotation)
> library(clValid)
> library(ggplot2)
> library(cluster)
> library(factoextra)
> library(tidyverse)
> library(car)
> library(readxl)Sebelum melakukan analisis, penting untuk mengaktifkan paket-paket yang diperlukan terlebih dahulu guna mendukung proses analisis.
Impor Data
> DataLaprak2 <- read_excel("C:/Users/ACER/Downloads/Data laprak ckp.xlsx")
> DataLaprakAnmul <-data.frame(DataLaprak2)
> DataLaprakAnmul
cayman PROVINSI Pencemaran.Tanah Pencemaran.Udara Tidak.Ada.Pencemaran
cayman 1 ACEH 63 713 5499
cayman 2 SUMATERA UTARA 65 2076 3800
cayman 3 SUMATERA BARAT 19 674 421
cayman 4 RIAU 17 1537 262
cayman 5 JAMBI 24 379 891
cayman 6 SUMATERA SELATAN 44 218 2801
cayman 7 BENGKULU 9 98 1270
cayman 8 LAMPUNG 17 248 2237
cayman 9 KEP. BANGKA BELITUNG 55 33 208
cayman 10 KEP. RIAU 4 51 339
cayman 11 DKI JAKARTA 2 17 200
cayman 12 JAWA BARAT 118 833 4327
cayman 13 JAWA TENGAH 183 1123 6823
cayman 14 DI YOGYAKARTA 4 415 21
cayman 15 JAWA TIMUR 104 1589 6450
cayman 16 BANTEN 43 239 1141
cayman 17 BALI 5 55 595
cayman 18 NUSA TENGGARA BARAT 27 79 940
cayman 19 NUSA TENGGARA TIMUR 14 89 3145
cayman 20 KALIMANTAN BARAT 100 217 1264
cayman 21 KALIMANTAN TENGAH 51 167 970
cayman 22 KALIMANTAN SELATAN 60 220 1440
cayman 23 KALIMANTAN TIMUR 45 131 720
cayman 24 KALIMANTAN UTARA 4 27 410
cayman 25 SULAWESI UTARA 12 116 1609
cayman 26 SULAWESI TENGAH 21 57 1812
cayman 27 SULAWESI SELATAN 25 233 2667
cayman 28 SULAWESI TENGGARA 29 113 2095
cayman 29 GORONTALO 64 41 585
cayman 30 SULAWESI BARAT 6 43 585
cayman 31 MALUKU 13 26 1006
cayman 32 MALUKU UTARA 15 67 1079
cayman 33 PAPUA BARAT 8 26 1512
cayman 34 PAPUA 31 48 4717Secara keseluruhan, kode ini digunakan untuk membaca data dari file
Excel yang terletak di folder Downloads pada perangkat dengan nama
pengguna ACER. Data yang dibaca tersebut kemudian disimpan dalam
variabel DataLaprak2. Selanjutnya, data tersebut dikonversi
menjadi format data frame menggunakan fungsi data.frame(),
dan hasilnya disimpan dalam variabel DataLaprakAnmul.
Dengan begitu, data siap untuk digunakan dalam analisis lebih
lanjut.
Statistik Deskriptif
> statdes <- summary(DataLaprak2)
> statdes
cayman PROVINSI Pencemaran Tanah Pencemaran Udara Tidak Ada Pencemaran
cayman Length:34 Min. : 2.00 Min. : 17.0 Min. : 21.0
cayman Class :character 1st Qu.: 12.25 1st Qu.: 52.0 1st Qu.: 587.5
cayman Mode :character Median : 24.50 Median : 123.5 Median :1202.5
cayman Mean : 38.26 Mean : 352.9 Mean :1877.7
cayman 3rd Qu.: 54.00 3rd Qu.: 346.2 3rd Qu.:2559.5
cayman Max. :183.00 Max. :2076.0 Max. :6823.0Secara umum, kode ini digunakan untuk menghasilkan dan menampilkan
ringkasan statistik dari data yang ada dalam DataLaprak2,
yang membantu pengguna untuk lebih memahami karakteristik dan distribusi
data tersebut. Ringkasan statistik yang dimaksud meliputi nilai minimum,
nilai maksimum, mean, median, dan nilai kuartil.
Uji Asumsi
Uji Sampel Representatif
> kmo <- KMO(DataLaprak2[,2:4])
> kmo
cayman Kaiser-Meyer-Olkin factor adequacy
cayman Call: KMO(r = DataLaprak2[, 2:4])
cayman Overall MSA = 0.68
cayman MSA for each item =
cayman Pencemaran Tanah Pencemaran Udara Tidak Ada Pencemaran
cayman 0.66 0.79 0.65Secara keseluruhan, kode ini digunakan untuk menghitung dan
menampilkan nilai Kaiser-Meyer-Olkin (KMO) untuk kolom 2 hingga 4 dalam
data DataLaprak2, yang memberikan indikasi kelayakan data
tersebut untuk analisis faktor.
Uji Non-Multikolinearitas
> korelasi <- cor(DataLaprak2[,2:4], method = 'pearson')
> korelasi
cayman Pencemaran Tanah Pencemaran Udara Tidak Ada Pencemaran
cayman Pencemaran Tanah 1.0000000 0.5039730 0.6833193
cayman Pencemaran Udara 0.5039730 1.0000000 0.5269164
cayman Tidak Ada Pencemaran 0.6833193 0.5269164 1.0000000Syntax ini digunakan untuk menghitung koefisien korelasi Pearson
antara kolom-kolom ke-2 hingga ke-4 dalam dataset
DataLaprak2. Hasil korelasi ini kemudian disimpan dalam
variabel korelasi dan dapat digunakan atau ditampilkan.
Standarisasi
> datastand <- scale(DataLaprak2[,2:4])
> datastand
cayman Pencemaran Tanah Pencemaran Udara Tidak Ada Pencemaran
cayman [1,] 0.6238616 0.70418616 1.98450555
cayman [2,] 0.6743046 3.36944219 1.05344404
cayman [3,] -0.4858850 0.62792425 -0.79826685
cayman [4,] -0.5363281 2.31546347 -0.88539974
cayman [5,] -0.3597775 0.05107133 -0.54070422
cayman [6,] 0.1446528 -0.26375349 0.50598646
cayman [7,] -0.7381002 -0.49840552 -0.33301010
cayman [8,] -0.5363281 -0.20509048 0.19691130
cayman [9,] 0.4220894 -0.62550871 -0.91499204
cayman [10,] -0.8642077 -0.59031090 -0.84320331
cayman [11,] -0.9146508 -0.65679565 -0.91937609
cayman [12,] 2.0110448 0.93883819 1.34224299
cayman [13,] 3.6504432 1.50591394 2.71006495
cayman [14,] -0.8642077 0.12146694 -1.01746909
cayman [15,] 1.6579436 2.41714601 2.50565886
cayman [16,] 0.1194313 -0.22268938 -0.40370283
cayman [17,] -0.8389862 -0.58248917 -0.70291388
cayman [18,] -0.2841129 -0.53555876 -0.51385195
cayman [19,] -0.6119926 -0.51600443 0.69450038
cayman [20,] 1.5570576 -0.26570892 -0.33629814
cayman [21,] 0.3212034 -0.36348060 -0.49741178
cayman [22,] 0.5481970 -0.25984262 -0.23984915
cayman [23,] 0.1698743 -0.43387621 -0.63441318
cayman [24,] -0.8642077 -0.63724131 -0.80429491
cayman [25,] -0.6624356 -0.46320772 -0.14723621
cayman [26,] -0.4354420 -0.57857830 -0.03599107
cayman [27,] -0.3345560 -0.23442198 0.43255371
cayman [28,] -0.2336699 -0.46907402 0.11909451
cayman [29,] 0.6490831 -0.60986524 -0.70839393
cayman [30,] -0.8137647 -0.60595437 -0.70839393
cayman [31,] -0.6372141 -0.63919675 -0.47768358
cayman [32,] -0.5867711 -0.55902397 -0.43767917
cayman [33,] -0.7633217 -0.63919675 -0.20039275
cayman [34,] -0.1832269 -0.59617721 1.55596517
cayman attr(,"scaled:center")
cayman Pencemaran Tanah Pencemaran Udara Tidak Ada Pencemaran
cayman 38.26471 352.88235 1877.67647
cayman attr(,"scaled:scale")
cayman Pencemaran Tanah Pencemaran Udara Tidak Ada Pencemaran
cayman 39.64869 511.39552 1824.79890
> rownames(datastand) <- 1:nrow(datastand)Kode ini melakukan standarisasi pada kolom-kolom ke-2 hingga ke-4
dari dataset DataLaprak2, mengubah nilai-nilai menjadi
memiliki rata-rata 0 dan standar deviasi 1. Selain itu, kode ini juga
memberikan penomoran yang teratur dan konsisten pada setiap baris
dataset yang telah distandarisasi, dimulai dari angka 1 hingga jumlah
total baris, untuk menjaga keteraturan dan konsistensi data.
Jarak Euclidean
> jarak <- dist(datastand, method = "euclidean")
> jarak
cayman 1 2 3 4 5 6 7
cayman 2 2.82365185
cayman 3 2.99686096 3.50582285
cayman 4 3.48978665 2.51706531 1.69053993
cayman 5 2.78761351 3.82390110 0.64420565 2.29727162
cayman 6 1.83100161 3.71218960 1.70110077 3.00866259 1.20379647
cayman 7 2.94483366 4.34481165 1.24446577 2.87466606 0.69870575 1.24025385
cayman 8 2.31696291 3.86995653 1.29878312 2.74309850 0.80054085 0.75013581 0.63840614
cayman 9 3.19623007 4.46071584 1.55213936 3.09334078 1.09962166 1.49231961 1.30418486
cayman 10 3.44760935 4.65230437 1.27641852 2.92451882 0.87024523 1.71602808 0.53352303
cayman 11 3.55693972 4.75682557 1.35978406 2.99643233 0.97588545 1.81886354 0.63252084
cayman 12 1.54655750 2.78892722 3.30349943 3.65329957 3.15506235 2.37254522 3.52561207
cayman 13 3.21393842 3.88259337 5.49440342 5.57779438 5.36338856 4.50335996 5.70411387
cayman 14 3.40084749 4.14789641 0.66908646 2.22228895 0.69764617 1.86738083 0.93200273
cayman 15 2.06764551 1.99583106 4.32588036 4.04035221 4.35314092 3.67096186 4.72223550
cayman 16 2.61095526 3.91593802 1.11607892 2.66538405 0.56864342 0.91096486 0.90353586
cayman 17 3.31928911 4.58176862 1.26446561 2.91942332 0.81077241 1.59077911 0.39252625
cayman 18 2.93311699 4.31555481 1.21461785 2.88617186 0.59209883 1.13920522 0.49009035
cayman 19 2.16340331 4.10853945 1.88489521 3.24330386 1.38235950 0.81956104 1.03536981
cayman 20 2.68284941 3.99060895 2.27719340 3.36841607 1.95355780 1.64448605 2.30692599
cayman 21 2.71871806 4.05765287 1.31331226 2.83947815 0.79841247 1.02368141 1.08044282
cayman 22 2.42545469 3.85489541 1.47284963 2.86794903 1.00578274 0.84801768 1.31154553
cayman 23 2.89137090 4.19148456 1.25868525 2.84966397 0.72421440 1.15329493 0.95886678
cayman 24 3.43382962 4.67672181 1.32053334 2.97196039 0.89314290 1.69532593 0.50723551
cayman 25 2.74985305 4.23293194 1.28280161 2.87781203 0.71477407 1.05729541 0.20365645
cayman 26 2.61725339 4.24326198 1.42802565 3.01780563 0.81050548 0.85402828 0.43156685
cayman 27 2.05136634 3.79356579 1.51045052 2.87743446 1.01458048 0.48568893 0.90477798
cayman 28 2.36466868 4.05359512 1.45209143 2.97561081 0.84958147 0.57876590 0.67801830
cayman 29 2.99651044 4.35196471 1.68177066 3.16134127 1.21768492 1.35976578 1.44139295
cayman 30 3.32188879 4.59588959 1.27985885 2.93989529 0.81603126 1.58441955 0.39774979
cayman 31 3.07528288 4.48705017 1.31577723 2.98436382 0.74660077 1.31144205 0.22567804
cayman 32 2.98802778 4.38709547 1.24460738 2.90958351 0.65905730 1.22990666 0.19372842
cayman 33 2.91594505 4.43937632 1.42829274 3.04150911 0.86898207 1.21010202 0.19505295
cayman 34 1.58933428 4.08827896 2.67066186 3.81609676 2.20139123 1.14911527 1.97121061
cayman 8 9 10 11 12 13 14
cayman 2
cayman 3
cayman 4
cayman 5
cayman 6
cayman 7
cayman 8
cayman 9 1.52697239
cayman 10 1.15660636 1.28877964
cayman 11 1.26224529 1.33711349 0.11299120
cayman 12 3.01818919 3.17286469 3.92193188 4.02748839
cayman 13 5.17421789 5.30153454 6.11571311 6.22014772 2.20910363
cayman 14 1.29956322 1.49098444 0.73280028 0.78604032 3.80833481 6.01608480
cayman 15 4.12568391 4.74193377 5.15954672 5.27240207 1.91405615 2.20049545 4.90344985
cayman 16 0.88941969 0.71783148 1.13835495 1.23437954 2.82412372 5.01514348 1.20942066
cayman 17 1.02162473 1.27950759 0.14275303 0.24104453 3.82358214 6.01372001 0.77145013
cayman 18 0.82341130 0.81714513 0.66931316 0.75942490 3.29949751 5.48105671 1.01085260
cayman 19 0.59159741 1.91618964 1.56002134 1.64803561 3.06862555 5.13020596 1.84413169
cayman 20 2.16107618 1.32381839 2.49496391 2.56948842 2.11531049 4.09893144 2.54488205
cayman 21 1.11468927 0.50319976 1.25547733 1.33844055 2.81707790 4.98662014 1.38232893
cayman 22 1.17044955 0.77809558 1.57102919 1.66109969 2.46571995 4.63074731 1.65679719
cayman 23 1.11452461 0.42315480 1.06648527 1.14328106 3.03008634 5.20218025 1.23469168
cayman 24 1.13871564 1.29110494 0.06096168 0.12716347 3.91902140 6.10949364 0.78808720
cayman 25 0.44829135 1.33865054 0.73568839 0.83503818 3.36627073 5.53556985 1.06764306
cayman 26 0.45156912 1.22890413 0.91409480 1.00803178 3.19176748 5.34606297 1.27953213
cayman 27 0.31160819 1.59415829 1.42644450 1.53056319 2.77595334 4.90877221 1.58422033
cayman 28 0.40907790 1.23443393 1.15684633 1.25594408 2.91839906 5.06952065 1.42761808
cayman 29 1.54551601 0.30733304 1.51940943 1.57860047 2.90835587 5.01702553 1.70892460
cayman 30 1.02822202 1.25315628 0.14478531 0.23932467 3.81720377 6.00624683 0.79196825
cayman 31 0.80851995 1.14610213 0.43303649 0.52189375 3.57988858 5.75736447 0.95994986
cayman 32 0.72836700 1.11805518 0.49234113 0.59084372 3.48717096 5.66800197 0.93605305
cayman 33 0.63073359 1.38421063 0.65251302 0.73494711 3.54500052 5.70557483 1.12089294
cayman 34 1.45762022 2.54418902 2.49394843 2.58185396 2.68640608 4.52191989 2.75704769
cayman 15 16 17 18 19 20 21
cayman 2
cayman 3
cayman 4
cayman 5
cayman 6
cayman 7
cayman 8
cayman 9
cayman 10
cayman 11
cayman 12
cayman 13
cayman 14
cayman 15
cayman 16 4.21902080
cayman 17 5.05246562 1.06655861
cayman 18 4.64838624 0.52236770 0.58807419
cayman 19 4.12750251 1.35168965 1.41729070 1.25219919
cayman 20 3.90955345 1.43984838 2.44454139 1.86929212 2.41453350
cayman 21 4.30548395 0.26327841 1.19843056 0.62951491 1.52143777 1.25014096
cayman 22 3.99194438 0.46050889 1.49760044 0.91860588 1.51151179 1.01347738 0.35861601
cayman 23 4.49474475 0.31681484 1.02204586 0.48060250 1.54404410 1.42878625 0.21592919
cayman 24 5.16200769 1.14011975 0.11794929 0.65666311 1.52469610 2.49390916 1.25471978
cayman 25 4.55175238 0.85728646 0.59512675 0.53176108 0.84489791 2.23626926 1.04886327
cayman 26 4.45158533 0.75482000 0.77951861 0.50309262 0.75412424 2.03914837 0.91196949
cayman 27 3.91134662 0.95161287 1.29030512 0.99444031 0.47421074 2.04213460 1.14521276
cayman 28 4.19573083 0.67727608 1.02711666 0.63842458 0.69023362 1.85888263 0.83613058
cayman 29 4.52887758 0.72337599 1.48833118 0.95614999 1.88871230 1.03986370 0.46122006
cayman 30 5.05753036 1.05384225 0.03488225 0.56862390 1.42018148 2.42384415 1.17960146
cayman 31 4.84864024 0.86687012 0.30766283 0.36976943 1.17890954 2.23031638 0.99748319
cayman 32 4.74969163 0.78294134 0.36675951 0.31297743 1.13327726 2.16617476 0.93071094
cayman 33 4.74620607 0.99702867 0.51133977 0.58192657 0.91592061 2.35417146 1.15777128
cayman 34 3.65676683 2.01776951 2.35217819 2.07316075 0.96560308 2.59199915 2.12719405
cayman 22 23 24 25 26 27 28
cayman 2
cayman 3
cayman 4
cayman 5
cayman 6
cayman 7
cayman 8
cayman 9
cayman 10
cayman 11
cayman 12
cayman 13
cayman 14
cayman 15
cayman 16
cayman 17
cayman 18
cayman 19
cayman 20
cayman 21
cayman 22
cayman 23 0.57366936
cayman 24 1.56713623 1.06749373
cayman 25 1.23108323 0.96485314 0.70903160
cayman 26 1.05389576 0.86339769 0.88180054 0.27787039
cayman 27 1.10996605 1.19693368 1.40448885 0.70427576 0.59004727
cayman 28 0.88540059 0.85548855 1.13071050 0.50478363 0.27704640 0.40434669
cayman 29 0.59348803 0.51583556 1.51657361 1.43404593 1.27644002 1.55250278 1.21811826
cayman 30 1.48130595 1.00131403 0.11278461 0.59847731 0.77201239 1.29206767 1.01979574
cayman 31 1.26715205 0.84741514 0.39774978 0.37523823 0.48936576 1.04114192 0.74022548
cayman 32 1.19029358 0.79175659 0.46636482 0.31506030 0.42969314 0.96243659 0.66540843
cayman 33 1.36585053 1.04946893 0.61227416 0.20970396 0.37176281 0.86504559 0.64151762
cayman 34 1.96800685 2.22458522 2.45687787 1.77432152 1.61190784 1.18988262 1.44336309
cayman 29 30 31 32 33
cayman 2
cayman 3
cayman 4
cayman 5
cayman 6
cayman 7
cayman 8
cayman 9
cayman 10
cayman 11
cayman 12
cayman 13
cayman 14
cayman 15
cayman 16
cayman 17
cayman 18
cayman 19
cayman 20
cayman 21
cayman 22
cayman 23
cayman 24
cayman 25
cayman 26
cayman 27
cayman 28
cayman 29
cayman 30 1.46285301
cayman 31 1.30715265 0.29240799
cayman 32 1.26617804 0.35639171 0.10282279
cayman 33 1.50127037 0.51158065 0.30461996 0.30643536
cayman 34 2.41251930 2.35053094 2.08415027 2.03441541 1.85017670Kode ini menghitung jarakEuclidean antara setiap pasangan baris dalam
dataset datastand yang telah distandarisasi. Hasilnya
disimpan dalam variabel jarak, yang berisi matriks jarak
yang menggambarkan kedekatan antar titik (baris) dalam ruang
multivariat.
Koefisien Korelasi Cophenetic
Koefisien Korelasi Cophenetic
> d1 <- dist(DataLaprak2[,2:4])
> d1
cayman 1 2 3 4 5 6 7
cayman 2 2178.15840
cayman 3 5078.34038 3658.60096
cayman 4 5301.62815 3579.14361 877.52721
cayman 5 4620.25335 3368.05151 554.93243 1317.82169
cayman 6 2743.09861 2109.64594 2423.41928 2861.29534 1916.87793
cayman 7 4273.82522 3211.93400 1026.00049 1756.94308 472.04555 1536.09440
cayman 8 3295.29741 2405.58870 1865.29783 2358.42023 1352.37791 565.44230 978.59747
cayman 9 5334.52388 4132.36167 676.42147 1505.44877 766.26758 2599.61439 1064.98122
cayman 10 5202.62674 4010.34500 628.55230 1488.05040 642.40797 2467.98156 932.19901
cayman 11 5344.86090 4147.70418 693.38229 1521.33790 780.39029 2609.09295 1073.08434
cayman 12 1179.41045 1351.14285 3910.48820 4126.74715 3467.13830 1646.92957 3146.00620
cayman 13 1391.21386 3171.85466 6419.82095 6576.14424 5980.58868 4124.90364 5649.48759
cayman 14 5486.41677 4128.37535 476.76619 1147.66459 870.97417 2787.25833 1288.60972
cayman 15 1293.62205 2694.65953 6098.63026 6188.83002 5689.72592 3898.51792 5391.15071
cayman 16 4383.74726 3231.92419 841.54679 1567.83960 287.16023 1660.13313 194.10822
cayman 17 4948.28698 3789.46777 643.14306 1518.99868 439.26416 2212.35757 676.38007
cayman 18 4603.01347 3488.41698 789.58850 1607.96393 303.99013 1866.26124 331.03625
cayman 19 2435.79412 2092.79598 2786.11306 3226.20551 2272.60115 368.61498 1875.02827
cayman 20 4264.10718 3144.58296 962.31959 1659.30497 413.70158 1538.02016 149.92665
cayman 21 4561.80896 3413.70429 747.97995 1542.50446 227.84644 1831.72351 310.68473
cayman 22 4088.83101 3002.39255 1116.31447 1767.49031 572.69364 1361.09551 215.37177
cayman 23 4814.34201 3642.77710 620.42405 1478.98073 301.97020 2082.81804 552.16392
cayman 24 5135.36737 3961.59337 647.26733 1517.29134 596.37656 2398.95019 862.94032
cayman 25 3935.87474 2940.21938 1312.53838 1957.97727 764.74636 1196.78402 339.49080
cayman 26 3745.13938 2833.80327 1521.70102 2143.10896 975.67105 1002.28289 543.68097
cayman 27 2872.64129 2163.77864 2288.89340 2735.78234 1781.99130 136.16901 1403.59895
cayman 28 3456.64172 2600.32498 1765.53023 2321.16544 1233.04379 713.92297 825.37870
cayman 29 4959.73598 3804.92457 655.44641 1531.19365 457.68985 2223.14754 689.56436
cayman 30 4959.79284 3804.31268 652.09355 1528.55684 454.81425 2223.22401 687.21103
cayman 31 4545.49425 3465.78130 873.02062 1684.24256 371.42294 1805.50547 273.67134
cayman 32 4467.21614 3382.66493 895.22567 1681.78269 364.37481 1728.85106 193.59236
cayman 33 4046.12938 3072.57107 1268.97833 1961.04615 714.49703 1303.71814 252.48564
cayman 34 1027.02142 2225.94452 4341.38641 4697.26963 3840.29764 1923.57090 3447.43281
cayman 8 9 10 11 12 13 14
cayman 2
cayman 3
cayman 4
cayman 5
cayman 6
cayman 7
cayman 8
cayman 9 2040.71311
cayman 10 1908.24055 141.72509
cayman 11 2050.11097 55.93747 143.11184
cayman 12 2172.67715 4196.44254 4065.54597 4208.49629
cayman 13 4671.67818 6705.42385 6574.45671 6717.15163 2513.63104
cayman 14 2222.32176 428.36200 483.34253 436.40463 4327.74260 6841.08975
cayman 15 4422.12833 6433.20301 6302.36186 6445.47035 2253.63284 602.10132 6536.07811
cayman 16 1096.34529 955.54644 824.66296 967.70140 3241.76757 5752.05876 1134.41483
cayman 17 1653.34721 390.83628 256.03320 396.83498 3813.90574 6321.41535 677.55221
cayman 18 1308.00229 733.97820 602.09136 743.01346 3471.10444 5976.95248 978.76759
cayman 19 921.82102 2937.81994 2806.27511 2945.90445 1400.52704 3824.31706 3140.97947
cayman 20 977.02559 1072.85460 944.66767 1087.06026 3124.37978 5632.95713 1262.32682
cayman 21 1270.04173 773.70279 643.29309 786.00318 3423.08253 5932.02908 981.99491
cayman 22 798.65011 1246.12118 1115.30175 1257.84458 2951.93191 5459.59953 1433.43015
cayman 23 1521.76279 521.39045 391.46136 534.08333 3675.40229 6184.63556 755.60439
cayman 24 1840.36382 208.42505 74.94665 210.24747 4000.69007 6508.44267 549.42242
cayman 25 641.74216 1404.11502 1271.68746 1412.50912 2812.97867 5313.10512 1615.92357
cayman 26 465.96352 1604.53981 1473.11031 1612.60814 2633.78245 5125.69225 1826.50869
cayman 27 430.33592 2467.30237 2335.19785 2476.54477 1767.55453 4253.16353 2652.33501
cayman 28 196.29824 1888.87400 1757.27203 1897.62220 2346.94376 4837.12725 2096.02123
cayman 29 1665.58158 377.19226 253.40876 390.69809 3825.27698 6332.26097 679.39090
cayman 30 1664.70718 380.30251 246.13817 385.89765 3826.12180 6333.27506 675.63600
cayman 31 1250.86410 799.13516 667.52903 806.12530 3419.25650 5921.97585 1059.06893
cayman 32 1172.06186 872.58066 740.25469 880.51689 3338.69271 5842.67884 1113.81731
cayman 33 758.28095 1304.86551 1173.27320 1312.04459 2930.45628 5425.93356 1540.91466
cayman 34 2488.09083 4509.08882 4378.08428 4517.19946 880.84845 2369.38072 4710.39637
cayman 15 16 17 18 19 20 21
cayman 2
cayman 3
cayman 4
cayman 5
cayman 6
cayman 7
cayman 8
cayman 9
cayman 10
cayman 11
cayman 12
cayman 13
cayman 14
cayman 15
cayman 16 5478.29371
cayman 17 6053.42729 577.42186
cayman 18 5713.67911 257.40435 346.53283
cayman 19 3630.58191 2009.81517 2550.24254 2205.06100
cayman 20 5364.41945 137.33900 694.85970 359.65122 1887.31052
cayman 21 5661.73940 185.71214 394.06218 96.02083 2176.71266 302.22012
cayman 22 5193.86147 300.08499 862.71374 520.54779 1710.64374 180.51316 473.06448
cayman 23 5912.87959 434.63663 151.66081 226.77742 2425.56179 553.49526 252.64996
cayman 24 6239.50671 762.11941 187.10959 533.04127 2735.72093 880.13181 579.14506
cayman 25 5060.97560 484.88555 1015.85727 670.19027 1536.23859 370.09458 642.21725
cayman 26 4885.17727 695.59255 1217.10682 872.29811 1333.40241 576.32022 849.68465
cayman 27 4019.46091 1526.11795 2079.72787 1733.85380 499.34057 1405.09430 1698.48197
cayman 28 4598.93749 962.38662 1501.31276 1155.50206 1050.38136 840.48676 1126.51010
cayman 29 6065.98129 590.57684 61.45730 358.94011 2560.93811 702.36244 405.30236
cayman 30 6066.13097 590.69535 15.65248 357.43811 2560.42575 707.21496 406.97174
cayman 31 5664.66115 253.95669 412.09950 85.79627 2139.92780 332.58683 150.40279
cayman 32 5583.19317 184.96486 484.25200 140.03214 2066.11737 252.88337 152.23994
cayman 33 5180.35028 429.22605 917.46335 574.76430 1634.22581 326.26523 561.68853
cayman 34 2320.19374 3581.11728 4122.08794 3777.12933 1572.62647 3457.82171 3748.94252
cayman 22 23 24 25 26 27 28
cayman 2
cayman 3
cayman 4
cayman 5
cayman 6
cayman 7
cayman 8
cayman 9
cayman 10
cayman 11
cayman 12
cayman 13
cayman 14
cayman 15
cayman 16
cayman 17
cayman 18
cayman 19
cayman 20
cayman 21
cayman 22
cayman 23 725.63489
cayman 24 1049.42127 329.54059
cayman 25 204.15925 889.73873 1202.32525
cayman 26 408.01225 1094.76756 1402.42397 211.59159
cayman 27 1227.56792 1949.77255 2266.47877 1064.52900 872.93585
cayman 28 664.40575 1375.21089 1687.37844 486.30649 288.59834 584.46557
cayman 29 873.54565 163.35850 185.52897 1028.05885 1227.85748 2091.19798 1512.12070
cayman 30 874.79712 165.80109 175.74129 1026.61629 1227.17154 2090.73791 1511.79661
cayman 31 477.70388 306.34131 596.06879 609.68024 806.63561 1673.89187 1092.58684
cayman 32 394.65808 365.89206 670.28501 532.26873 733.09276 1596.68406 1017.13716
cayman 33 213.36354 799.78622 1102.00771 132.38202 301.87746 1173.52588 589.82964
cayman 34 3281.63892 3997.88619 4307.13582 3108.80186 2905.03115 2058.33938 2622.80632
cayman 29 30 31 32 33
cayman 2
cayman 3
cayman 4
cayman 5
cayman 6
cayman 7
cayman 8
cayman 9
cayman 10
cayman 11
cayman 12
cayman 13
cayman 14
cayman 15
cayman 16
cayman 17
cayman 18
cayman 19
cayman 20
cayman 21
cayman 22
cayman 23
cayman 24
cayman 25
cayman 26
cayman 27
cayman 28
cayman 29
cayman 30 58.03447
cayman 31 424.34302 421.40123
cayman 32 497.10462 494.66453 83.74963
cayman 33 928.81107 927.15802 506.02470 434.99310
cayman 34 4132.13770 4132.07865 3711.10886 3638.08480 3205.15803Kode ini menghitung jarak Euclidean antar baris dalam subset dataset
DataLaprak2, yang terdiri dari kolom ke-2 hingga ke-4.
Hasil perhitungan jarak disimpan dalam variabel d1.
Hasilnya adalah matriks jarak yang menggambarkan kedekatan antar baris
berdasarkan kolom yang dipilih.
Single Linkage
> #Single Linkage
> hiers <- hclust(dist(DataLaprak2[,2:4]), method = "single")
> #korelasi cophenetic
> hc1 <- hclust(d1, "single")
> d2 <- cophenetic(hc1)
> cors <- cor(d1,d2)
> cors
cayman [1] 0.8572906Secara keseluruhan, kode ini melakukan klasterisasi hierarkis
menggunakan metode single linkage pada subset data
DataLaprak2[,2:4] dan data dalam d1. Setelah
itu, dihitung jarak cophenetic yang terbentuk dari klasterisasi dan
korelasi antara matriks jarak asli (d1) dengan jarak
cophenetic (d2) untuk mengevaluasi seberapa baik
klasterisasi tersebut mencerminkan struktur data yang asli.
Average Linkage
> #Average Linkage
> hierave <- hclust(dist(DataLaprak2[,2:4]), method = "ave")
> #korelasi cophenetic
> hc2 <- hclust(d1, "ave")
> d3 <- cophenetic(hc2)
> corave <- cor(d1,d3)
> corave
cayman [1] 0.8946437Secara keseluruhan, kode ini digunakan untuk menilai dan membandingkan kualitas klasterisasi hierarkis dengan metode average linkage berdasarkan kesesuaiannya dengan jarak antar data yang asli.
Complete Linkage
> #Complete Linkage
> hiercomp <- hclust(dist(DataLaprak2[,2:4]), method = "complete")
> #korelasi cophenetic
> hc3 <- hclust(d1, "complete")
> d4 <- cophenetic(hc3)
> corcomp <- cor(d1,d4)
> corcomp
cayman [1] 0.8712884Secara umum, kode ini digunakan untuk menilai kualitas klasterisasi hierarkis dengan menggunakan complete linkage berdasarkan seberapa besar korelasi antara jarak asli antar data dan jarak cophenetic yang terbentuk setelah klasterisasi.
Centroid Linkage
> #Centorid Linkage
> hiercen <- hclust(dist(DataLaprak2[,2:4]), method = "centroid")
> #korelasi cophenetic
> hc4 <- hclust(d1, "centroid")
> d5 <- cophenetic(hc4)
> corcen <- cor(d1,d5)
> corcen
cayman [1] 0.8936698Secara keseluruhan, kode ini digunakan untuk melakukan clustering
hierarkis dengan metode centroid linkage, lalu mengevaluasi seberapa
baik hasil clustering tersebut dengan membandingkan jarak asli antar
data (dari matriks d1) dan jarak yang dihasilkan dari
dendrogram clustering (dari matriks cophenetic d5).
Korelasi antara keduanya diukur untuk mengetahui kualitas dari
pengelompokan tersebut.
Ward
> #Ward
> hierward <- hclust(dist(DataLaprak2[,2:4]), method = "ward.D")
> #korelasi cophenetic
> hc5 <- hclust(d1,"ward.D")
> d6 <- cophenetic(hc5)
> corward <- cor(d1,d6)
> corward
cayman [1] 0.8637462Kode ini melakukan klasterisasi hierarkis pada dataset menggunakan metode Ward untuk meminimalkan variansi dalam setiap klaster. Setelah itu, dihitung korelasi antara matriks jarak asli dan jarak cophenetic untuk menilai sejauh mana hasil klasterisasi mencocokkan struktur jarak dalam data asli. Korelasi cophenetic yang lebih tinggi menunjukkan bahwa klasterisasi yang dihasilkan lebih baik mencerminkan hubungan antar objek dalam data.
Koefisien Cophenetic Gabungan
> KorCop<-data.frame(cors,corave,corcomp,corcen,corward)
> KorCop
cayman cors corave corcomp corcen corward
cayman 1 0.8572906 0.8946437 0.8712884 0.8936698 0.8637462Kode ini membuat sebuah data frame yang berisi beberapa variabel
(seperti cors, corave, corcomp,
corcen, dan corward) dalam kolom-kolomnya.
Data frame ini memungkinkan untuk mengorganisir hasil-hasil yang
diperoleh dari berbagai perhitungan atau analisis korelasi dalam satu
struktur yang mudah dibaca dan dikelola.
Analisis Cluster
Indeks Validitas
> inval <- clValid(datastand, 2:4, clMethods = "hierarchical",
+ validation = "internal", metric = "euclidean", method = "average")
> summary(inval)
cayman
cayman Clustering Methods:
cayman hierarchical
cayman
cayman Cluster sizes:
cayman 2 3 4
cayman
cayman Validation Measures:
cayman 2 3 4
cayman
cayman hierarchical Connectivity 8.0794 10.6238 12.9571
cayman Dunn 0.2849 0.4945 0.5765
cayman Silhouette 0.6176 0.6067 0.5669
cayman
cayman Optimal Scores:
cayman
cayman Score Method Clusters
cayman Connectivity 8.0794 hierarchical 2
cayman Dunn 0.5765 hierarchical 4
cayman Silhouette 0.6176 hierarchical 2
> optimalScores(inval)
cayman Score Method Clusters
cayman Connectivity 8.0793651 hierarchical 2
cayman Dunn 0.5764624 hierarchical 4
cayman Silhouette 0.6176012 hierarchical 2
> plot(inval)Secara keseluruhan, kode ini melakukan validasi terhadap klasterisasi
hierarkis yang diterapkan pada dataset datastand dengan
jumlah klaster antara 3 dan 5. Fungsi clValid() digunakan
untuk melakukan validasi internal dengan metrik Euclidean dan metode
rata-rata. Kemudian, hasilnya dirangkum, skor optimal ditampilkan, dan
plot visual dari hasil validasi dibuat. Semua langkah ini bertujuan
untuk mengevaluasi kualitas klasterisasi yang dilakukan dan untuk
menentukan jumlah klaster yang paling sesuai berdasarkan data.
Analisis Cluster dengan Metode Average Linkage
> hirave <- hclust(d, method = "average")
cayman Error in eval(expr, envir, enclos): object 'd' not found
> hirave
cayman Error in eval(expr, envir, enclos): object 'hirave' not found
> plot(hirave, labels = DataLaprak2$PROVINSI, hang = 1, col = "blue",
+ main = "Cluster Dendrogram", sub = " ", xlab = "PROVINSI", ylab = "Jarak")
cayman Error in h(simpleError(msg, call)): error in evaluating the argument 'x' in selecting a method for function 'plot': object 'hirave' not found
>
> anggotaave <- data.frame(id = DataLaprak2$PROVINSI, cutree(hirave, k = 2))
cayman Error in eval(expr, envir, enclos): object 'hirave' not found
> anggotaave
cayman Error in eval(expr, envir, enclos): object 'anggotaave' not found
> clus_hier <- eclust(datastand, FUNcluster = "hclust", k = 2, hc_method = "average", graph = TRUE)
> fviz_dend(clus_hier, rect = TRUE, cex = 0.5)>
> idclus = clus_hier$cluster
> idclus
cayman 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
cayman 1 1 2 1 2 2 2 2 2 2 2 1 1 2 1 2 2 2 2 2 2 2 2 2 2 2
cayman 27 28 29 30 31 32 33 34
cayman 2 2 2 2 2 2 2 2
> aggregate(DataLaprak2[,2:4],list(idclus),mean)
cayman Group.1 Pencemaran Tanah Pencemaran Udara Tidak Ada Pencemaran
cayman 1 1 91.66667 1311.8333 4526.833
cayman 2 2 26.82143 147.3929 1310.000Secara keseluruhan, kode ini melakukan klasterisasi hierarkis pada
dataset datastand menggunakan metode average
linkage, menghasilkan dendrogram, dan memvisualisasikan hasilnya.
Setelah klasterisasi dilakukan, keanggotaan klaster untuk setiap
provinsi dihitung, dan data agregat seperti rata-rata nilai
variabel-variabel tertentu dihitung untuk setiap klaster yang terbentuk.
Kode ini bertujuan untuk mengelompokkan data (provinsi) berdasarkan
kesamaan karakteristik dan memvisualisasikan serta menganalisis hasil
klasterisasi tersebut.
HASIL DAN PEMBAHASAN
Statistika Deskriptif
Berdasarkan Data yang digunakan, diperoleh hasil analisis statistika deskriptif sebagai berikut :
| Pencemaran Tanah | Pencemaran Udara | Tidak Ada Pencemaran | |
|---|---|---|---|
| Minimal | 2 | 17 | 21 |
| Mean | 38.26 | 352.9 | 1877.7 |
| Median | 24.5 | 123.5 | 1202.5 |
| Maksimal | 183 | 2076183 | 6823 |
Berdasarkan tabel tersebut, diperoleh bahwa rata-rata Pencemaran Tanah di Indonesia sebanyak 38.26 desa/kelurahan, dengan nilai pencemaran paling sedikit sebanyak 2 desa/kelurahan yaitu di Provinsi DKI Jakarta dan paling banyak yaitu 183 desa/kelurahan di Provinsi Jawa Tengah. Median untuk Pencemaran Tanah adalah 24.50, yang berarti bahwa separuh dari provinsi memiliki nilai pencemaran tanah di bawah angka tersebut, menunjukkan bahwa sebagian besar provinsi memiliki tingkat pencemaran tanah yang relatif lebih rendah.
Rata-rata Pencemaran Udara di Indonesia sebesar 352.9 desa/kelurahan, dengan nilai pencemaran paling sedikit 17 desa/kelurahan di Provinsi DKI Jakarta, dan paling banyak sebesar 2076 desa/kelurahan di Provinsi Sumatera Utara. Median untuk Pencemaran Udara adalah 123.5, yang menunjukkan bahwa sebagian besar provinsi memiliki tingkat pencemaran udara yang lebih rendah dibandingkan dengan rata-rata, dengan hanya beberapa provinsi yang memiliki pencemaran udara yang sangat tinggi.
Rata-rata Tidak Ada Pencemaran di Indonesia sebesar 1877.70 desa/kelurahan, dengan nilai terendah sebanyak 21 desa/kelurahan yaitu di Provinsi DI Yogyakarta dan nilai tertinggi sebanyak 6823 desa/kelurahan yaitu di Provinsi Jawa Tengah. Median untuk kategori ini adalah 1202.5, yang berarti bahwa separuh dari provinsi memiliki nilai “Tidak Ada Pencemaran” di bawah angka tersebut, menunjukkan bahwa sebagian besar provinsi mengalami sedikit atau tidak ada pencemaran.
Uji Asumsi
Uji Sampel Representatif
Uji asumsi pertama adalah uji sampel representatif menggunakan uji Kaiser Mayer Olkin (KMO) yang dilakukan untuk menguji apakah sampel telah representatif atau mewakili populasi. Berikut disajikan tabel uji KMO:
| Pencemaran Tanah | Pencemaran Udara | Tidak Ada Pencemaran | |
|---|---|---|---|
| Uji KMO | 0.66 | 0.79 | 0.65 |
Dari tabel diatas, dapat dilihat bahwa nilai uji KMO pada Pencemaran Tanah di Indonesia sebesar 0.66, nilai uji KMO pada Pencemaran Udara sebesar 0.79, dan nilai uji KMO pada Tidak Ada Pencemaran sebesar 0.65. Nilai uji KMO pada masing-masing variabel tersebut bernilai lebih dari 0.5, sehingga dapat disimpulkan bahwa sampel telah representatif atau mewakili populasi.
Uji Non-Multikolinearitas
Uji asumsi yang kedua adalah Uji Non-Multikolinearitas yang dapat dilihat dari korelasi antar variabel. Apabila nilai mutlak dari korelasi lebih dari 0.8 maka dapat dikatakan terjadi multikolinearitas. Berikut disajikan tabel korelasi antar variabel:
| Pencemaran Tanah | Pencemaran Udara | Tidak Ada Pencemaran | |
|---|---|---|---|
| Pencemaran Tanah | 1.0000000 | 0.5039730 | 0.6833193 |
| Pencemaran Udara | 1.0000000 | 0.5269164 | |
| Tidak Ada Pencemaran | 1.0000000 |
Dari tabel diatas, dapat dilihat bahwa nilai korelasi antar variabel kurang dari 0.8, sehingga dapat dikatakan bahwa tidak terjadi multikolinearitas antar variabel.
Standarisasi
Setelah dilakukan uji asumsi dan memperoleh hasil yang memenuhi kriteria asumsi yang diperlukan, langkah selanjutnya adalah melakukan standarisasi variabel ke dalam bentuk Z-score, seperti yang ditunjukkan pada hasil analisis di bagian 2.5. Proses standarisasi ini bertujuan untuk mengubah variabel-variabel ke dalam skala yang sama, sehingga dapat memudahkan dalam membandingkan data antar provinsi. Hasil standarisasi tersebut kemudian digunakan untuk mengelompokkan provinsi-provinsi di Indonesia berdasarkan jenis pencemaran lingkungan hidup yang ada, guna memperoleh wawasan yang lebih jelas mengenai pola distribusi pencemaran di setiap provinsi.
Koefisien Korelasi Cophenetic
Koefisien korelasi cophenetic digunakan untuk menentukan metode terbaik dalam analisis cluster. Metode yang dipilih adalah yang memiliki nilai koefisien korelasi mendekati 1. Berikut ini adalah hasil koefisien korelasi cophenetic tersebut.
| Metode | Nilai Korelasi |
|---|---|
| Single Linkage | 0.8572906 |
| Average Linkage | 0.8946437 |
| Complete Linkage | 0.8712884 |
| Centroid Linkage | 0.8936698 |
| Ward’s Method | 0.8637462 |
Dari tabel di atas, terlihat bahwa metode Average Linkage memiliki nilai korelasi yang paling mendekati 1, sehingga metode ini dipilih sebagai metode terbaik. Pemilihan ini didasarkan pada fakta bahwa nilai korelasi yang lebih tinggi menunjukkan hasil klasterisasi yang lebih konsisten dengan struktur data yang ada, menjadikannya pilihan yang paling tepat untuk analisis cluster dalam penelitian ini.
Analisis Cluster Metode AverageLinkage
Berdasarkan hasil analisis indeks validitas clustering menggunakan metode hierarchical pada data yang telah distandarisasi, terdapat evaluasi untuk tiga ukuran klaster yang diuji, yaitu 2, 3, dan 4. Analisis ini bertujuan untuk menilai kualitas klaster yang terbentuk berdasarkan tiga ukuran validitas internal: Connectivity, Dunn, dan Silhouette. Masing-masing ukuran ini memberikan gambaran berbeda tentang kualitas klaster yang terbentuk pada berbagai ukuran klaster yang diuji. Berikut hasil perhitungan indeks validitas analisis klaster menggunakan metode hierarchical pada data yang telah distandarisasi:
| Indeks | Cluster 2 | Cluster 3 | Cluster 4 |
|---|---|---|---|
| Connectivity | 8.0794 | 10.6238 | 12.9571 |
| Dunn | 0.2849 | 0.4945 | 0.5765 |
| Silhouette | 0.6176 | 0.6067 | 0.5669 |
Pertama, untuk ukuran Connectivity, yang mengukur sejauh mana elemen-elemen dalam klaster terhubung erat satu sama lain, nilai yang diperoleh untuk masing-masing ukuran klaster adalah 8.0794 untuk 2 klaster, 10.6238 untuk 3 klaster, dan 12.9571 untuk 4 klaster. Semakin kecil nilai Connectivity, semakin baik, karena menunjukkan bahwa klaster-klaster tersebut lebih terhubung dengan baik. Dalam hal ini, klaster dengan dua anggota menghasilkan nilai Connectivity terendah, yang menunjukkan bahwa klaster dengan dua kelompok lebih terhubung secara internal dibandingkan dengan klaster yang lebih banyak anggotanya.
Untuk ukuran Dunn, yang digunakan untuk mengukur pemisahan antar klaster, nilai yang lebih tinggi menunjukkan pemisahan klaster yang lebih baik. Nilai Dunn untuk 2 klaster adalah 0.2849, untuk 3 klaster adalah 0.4945, dan untuk 4 klaster adalah 0.5765. Dengan demikian, klaster yang terdiri dari 4 anggota memberikan pemisahan antar klaster yang paling baik, karena menghasilkan nilai Dunn tertinggi. Hal ini menunjukkan bahwa pemisahan antar klaster menjadi lebih jelas dan lebih baik dengan menambah jumlah klaster.
Sedangkan untuk ukuran Silhouette, yang mengukur sejauh mana elemen dalam klaster tersebut lebih mirip dengan anggota klaster lain dibandingkan dengan klaster lainnya, nilai yang lebih tinggi menunjukkan kualitas klaster yang lebih baik. Nilai Silhouette untuk 2 klaster adalah 0.6176, untuk 3 klaster adalah 0.6067, dan untuk 4 klaster adalah 0.5669. Dalam hal ini, klaster dengan dua anggota menunjukkan nilai Silhouette tertinggi, yang berarti klaster dengan dua kelompok memiliki struktur internal yang lebih terpisah dengan baik dan lebih homogen dibandingkan dengan klaster dengan lebih banyak anggota.
Dari hasil evaluasi ini, terlihat bahwa skor optimal untuk masing-masing ukuran validitas adalah sebagai berikut:
| Indeks | Nilai | Jumlah Cluster |
|---|---|---|
| Connectivity | 8.0794 | 2 |
| Dunn | 0.5765 | 4 |
| Silhouette | 0.6176 | 2 |
Berdasarkan hasil ini, meskipun klaster dengan 4 anggota memberikan hasil terbaik untuk ukuran Dunn, klaster dengan 2 anggota lebih unggul untuk ukuran Connectivity dan Silhouette. Hal ini mengindikasikan bahwa pemilihan jumlah klaster yang optimal harus mempertimbangkan keseimbangan antara pemisahan klaster (Dunn) dan keseragaman dalam klaster (Connectivity dan Silhouette).
Secara keseluruhan, meskipun klaster dengan 4 anggota memberikan pemisahan antar klaster yang lebih baik, hasil terbaik secara keseluruhan, terutama jika dilihat dari segi Connectivity dan Silhouette, diperoleh dengan 2 klaster. Oleh karena itu, berdasarkan hasil ini, ukuran klaster yang optimal untuk data ini adalah 2 klaster, karena menghasilkan skor terbaik pada dua dari tiga ukuran validitas yang digunakan.
Interpretasi
Setelah jumlah klaster dan anggota yang terbentuk ditentukan, langkah berikutnya adalah mengidentifikasi ciri spesifik untuk menggambarkan isi dari setiap klaster. Setiap klaster memiliki karakteristik unik berdasarkan jenis pencemaran lingkungan hidup di masing-masing provinsi. Karakteristik faktor-faktor dalam setiap klaster dapat diuraikan melalui nilai rata-rata dari masing-masing variabel. Tinggi atau rendahnya nilai rata-rata setiap variabel dalam masing-masing klaster yang dihasilkan dengan metode Average Linkage disajikan dalam tabel berikut.
| Variabel | Cluster 1 | Cluster 2 |
|---|---|---|
| X1 | 91.66667 | 26.82143 |
| X2 | 1311.8333 | 147.3929 |
| X3 | 4526.833 | 1310.000 |
Keterangan :
X1 = Pencemaran Tanah
X2 = Pencemaran Udara
X3 = Tidak Ada Pencemaran
Berdasarkan hasil analisis cluster menggunakan metode Average Linkage, terbentuk dua cluster dengan karakteristik yang berbeda terkait tingkat pencemaran lingkungan di masing-masing provinsi. Karakteristik cluster ini didasarkan pada rata-rata nilai dari tiga variabel: pencemaran tanah (X1), pencemaran udara (X2), dan kondisi tanpa pencemaran (X3).
Cluster 1 menunjukkan rata-rata pencemaran tanah (X1) sebesar 91.67, pencemaran udara (X2) sebesar 1311.83, dan tidak adanya pencemaran (X3) sebesar 4526.83. Nilai rata-rata yang tinggi pada variabel X3 mengindikasikan bahwa cluster ini terdiri dari wilayah yang relatif memiliki kondisi lingkungan yang lebih baik, dengan tingkat pencemaran tanah dan udara yang lebih terkendali jika dibandingkan dengan cluster lainnya.
Di sisi lain, Cluster 2 memiliki rata-rata pencemaran tanah (X1) sebesar 26.82, pencemaran udara (X2) sebesar 147.39, dan tidak adanya pencemaran (X3) sebesar 1310.00. Nilai X3 yang lebih rendah serta pencemaran tanah dan udara yang juga lebih rendah menunjukkan bahwa cluster ini mencakup wilayah dengan tingkat pencemaran yang lebih tinggi atau kondisi lingkungan yang lebih buruk dibandingkan dengan Cluster 1.
Berdasarkan hasil ini, dapat disimpulkan bahwa Cluster 1 menggambarkan wilayah dengan kondisi lingkungan yang lebih bersih dan terjaga dari pencemaran, sementara Cluster 2 lebih menggambarkan wilayah yang memiliki tingkat pencemaran yang lebih tinggi. Temuan ini memberikan wawasan yang penting untuk merumuskan kebijakan yang lebih terfokus dan sesuai dengan kebutuhan untuk mengatasi pencemaran lingkungan di masing-masing cluster.
KESIMPULAN
Berdasarkan hasil analisis cluster menggunakan metode Average Linkage, diketahui bahwa tingkat pencemaran lingkungan di Indonesia terbagi menjadi dua cluster utama. Cluster 1 meliputi wilayah dengan kondisi lingkungan yang lebih baik, ditandai dengan tingkat pencemaran tanah dan udara yang relatif terkendali serta jumlah desa/kelurahan bebas pencemaran yang lebih banyak. Sebaliknya, Cluster 2 mencerminkan wilayah dengan tingkat pencemaran yang lebih tinggi, ditandai oleh lebih sedikit wilayah yang bebas pencemaran dan tingkat pencemaran tanah serta udara yang lebih signifikan.
Dalam menentukan jumlah cluster yang optimal, evaluasi indeks validitas menunjukkan bahwa meskipun cluster dengan empat anggota memberikan pemisahan antar cluster yang lebih baik (berdasarkan nilai Dunn yang tertinggi), cluster dengan dua anggota lebih unggul dalam ukuran Connectivity dan Silhouette. Oleh karena itu, dua cluster dipilih sebagai jumlah optimal karena mempertimbangkan keseimbangan antara pemisahan antar cluster yang jelas dan keseragaman internal cluster, sehingga menghasilkan struktur model yang lebih konsisten dan terorganisasi.
Hasil analisis ini memberikan wawasan penting bagi pihak terkait untuk merumuskan kebijakan yang lebih spesifik dan terfokus dalam menangani pencemaran lingkungan. Dengan memahami karakteristik setiap cluster, pemerintah dan lembaga lingkungan dapat menyusun strategi yang lebih efektif, baik untuk menangani wilayah dengan kondisi pencemaran yang buruk maupun untuk mempertahankan kualitas lingkungan di wilayah dengan pencemaran yang lebih rendah.
DAFTAR PUSTAKA
Rusmin, La Ode. “Analisis Pencemaran Lingkungan Terhadap Masyarakat Dusun Kranjang Desa Wayame Kecamatan Teluk Ambon.” Pattimura Mengabdi: Jurnal Pengabdian Kepada Masyarakat, vol. 2, no. 2, Mei 2024, pp. 217-222.
Umah, Rosatul, dan Eva Gusmira. “Dampak Pencemaran Udara terhadap Kesehatan Masyarakat di Perkotaan.” Profit: Jurnal Manajemen, Bisnis dan Akuntansi, vol. 3, no. 3, Agustus 2024, pp. 103-112.
Gusti, Widia, et al. “Studi Pencemaran Tanah Sebagai Bahan Pengayaan Topik Teknologi Ramah Lingkungan untuk Siswa SMP.” Jurnal Pendidikan MIPA, vol. 12, no. 4, Desember 2022, pp. 1252.
Sompotan, Dale Dompas, and Janes Sinaga. “Pencegahan Pencemaran Lingkungan.” SAINTEKES, vol. 1, no. 1, 2022, pp. 6-16.
Musfiani. “Analisis Cluster dengan Menggunakan Metode Partisi pada Pengguna Alat Kontrasepsi di Kalimantan Barat.” Buletin Ilmiah Math. Stat. dan Terapannya (Bimaster), vol. 08, no. 4, 2019, pp. 893-902.
Puspitasari, Meilia Wulan, and Mathilda Susanti. “Pengelompokan Kabupaten/Kota Berdasarkan Faktor-Faktor yang Mempengaruhi Kemiskinan di Jawa Tengah Menggunakan Metode Ward dan Average Linkage.” Program Studi Matematika, Jurusan Pendidikan Matematika FMIPA UNY, 1.
Novaldi, Jeremia, and Arie Wahyu Wijayanto. “Analisis Cluster Kualitas Pemuda di Indonesia pada Tahun 2022 dengan Agglomerative Hierarchical dan K-Means.” Komputika: Jurnal Sistem Komputer, vol. 12, no. 2, 2023, pp. 211-219.