Library:
> library(knitr)
> library(rmarkdown)
> library(prettydoc)1 PENDAHULUAN
1.1 Latar Belakang
Penguin merupakan salah satu kelompok burung unik yang hidup di wilayah kutub dan memiliki peran penting dalam ekosistem laut. Terdapat berbagai spesies penguin yang memiliki perbedaan dalam karakteristik fisik, habitat, serta perilaku. Pengelompokkan jenis penguin menjadi penting untuk memahami pola adaptasi mereka terhadap lingkungan, kebutuhan konservasi, dan dampak perubahan iklim terhadap populasi mereka. Dengan memanfaatkan analisis data, pengelompokan ini dapat dilakukan secara lebih objektif berdasarkan data kuantitatif, seperti ukuran tubuh, panjang paruh, berat badan, dan lainnya.
Analisis cluster adalah salah satu teknik statistik yang digunakan untuk mengelompokkan data ke dalam beberapa kelompok (cluster) berdasarkan kemiripan atribut. Dalam konteks pengelompokkan penguin, analisis ini memungkinkan identifikasi kelompok spesies yang memiliki karakteristik fisik dan morfologi yang mirip. Misalnya, beberapa spesies seperti Adélie, Gentoo, dan Chinstrap dapat dibedakan berdasarkan ukuran paruh, panjang sirip, dan berat badan. Pendekatan ini lebih efisien dibandingkan metode tradisional yang bergantung pada observasi manual, karena dapat memproses data dalam jumlah besar secara cepat dan akurat.
Penggunaan analisis cluster juga memberikan wawasan yang lebih mendalam tentang hubungan antar spesies. Misalnya, dengan memetakan kelompok-kelompok berdasarkan karakteristik tertentu, peneliti dapat memahami bagaimana faktor lingkungan seperti suhu, ketersediaan makanan, dan lokasi geografis memengaruhi evolusi spesies penguin. Selain itu, hasil analisis ini dapat membantu mengidentifikasi spesies yang berisiko tinggi terhadap kepunahan sehingga upaya konservasi dapat difokuskan pada kelompok tertentu.
1.2 Rumusan Masalah
- Bagaimana cara mengelompokkan spesies penguin berdasarkan karakteristik morfologi seperti panjang paruh, lebar paruh, panjang sirip, dan berat badan menggunakan analisis cluster?
- Apakah metode analisis cluster dapat secara efektif mengidentifikasi perbedaan dan kesamaan antar spesies penguin yang terdapat dalam dataset Palmer Penguins?
- Bagaimana hasil pengelompokan ini dapat digunakan untuk mendukung pemahaman tentang adaptasi spesies penguin terhadap lingkungan dan upaya konservasi?
1.3 Tujuan Penelitian
Mengelompokkan spesies penguin berdasarkan karakteristik morfologi, seperti panjang paruh, lebar paruh, panjang sirip, dan berat badan, menggunakan metode analisis cluster.
Menganalisis efektivitas metode analisis cluster dalam mengidentifikasi perbedaan dan kesamaan antar spesies penguin yang terdapat dalam dataset Palmer Penguins.
Memanfaatkan hasil pengelompokan untuk mendukung pemahaman tentang adaptasi spesies penguin terhadap lingkungan dan sebagai dasar untuk upaya konservasi.
1.4 Tinjauan Pustaka
1.4.1 Analisis Cluster
Analisis cluster adalah teknik statistika yang digunakan untuk mengelompokkan objek berdasarkan kesamaan karakteristiknya dalam data multivariat (Hardle & Simar, 2003). Metode ini bertujuan membentuk kelompok (cluster) dengan homogenitas internal yang tinggi dan heterogenitas antar cluster yang tinggi, sehingga objek dalam satu cluster memiliki kesamaan yang signifikan dibandingkan dengan objek di cluster lain (Mattjik & Sumertajaya, 2002). Secara umum, analisis cluster terbagi menjadi dua metode utama, yaitu hierarki dan non-hierarki. Metode hierarki, yang dapat bersifat agglomerative (penggabungan bertahap) atau divisive (pemisahan bertahap), digunakan ketika jumlah cluster belum ditentukan, sedangkan pada metode non-hierarki, jumlah cluster ditetapkan di awal. Hasil dari metode hierarki sering divisualisasikan dalam bentuk dendogram, yang menunjukkan tingkat kemiripan antar objek, dengan skala yang lebih kecil menggambarkan kemiripan yang lebih tinggi (Supranto, 2004).
1.4.2 Asumsi Analisis Cluster
- Asumsi Representatif
Sampel representatif adalah keadaan ketika sampel yang diambil dapat merepresentasikan atau mewakili populasi yang ada. Asumsi sampel representatif ini dapat dilakukan menggunakan uji Kaise Mayer Olkin (KMO). Menurut Supranto (2004) rumus uji KMO didefinisikan sebagai berikut: \[ KMO = \frac{\sum_{i=1}^{n} \sum_{j \neq i} r_{ij}^2}{\sum_{i=1}^{n} \sum_{j \neq i} r_{ij}^2 + \sum_{i=1}^{n} \sum_{j \neq i} a_{ij}^2} \] Keterangan:
- \[a_{ij} = -\frac{v_{ij}}{\sqrt{v_{ii}v_{jj}}}\]
- \(n\) : banyaknya variabel
- \(r_{ij}\) : korelasi antar
variabel \(x_i\) dan \(x_j\)
- \(a_{ij}\) : korelasi parsial
antara \(x_i\) dan \(x_j\)
- \(v_{ij}\) : invers matriks korelasi antara \(x_i\) dan \(x_j\)
Jika nilai uji KMO lebih dari 0.5, maka sampel dikatakan telah representatif atau mewakili populasi.
- Asumsi Non-Multikolinearitas
Menurut Gujarati (1995), apabila nilai koefisien korelasi antar variabel independent menunjukkan nilai lebih dari 0.8 maka dikataka telah terjadi masalah multikolinearitas. Sebaliknya abila koefisien korelasi menunjukkan nilai kurang dari 0.8 maka model tidak mengalami masalah multikolinearitas atau telah memenuhi asumsi non-multikolinearitas.
- Koefisien Korelasi Chopenetic
Setelah mendapatkan hasil dari proses cluster maka dilakukan uji validitas cluster yang diperlukan untuk melihat kebaikan hasil analisis cluster. Ukuran yang digunakan untuk menguji validitas hasil clustering pada penelitian ini adalah koefisien korelasi cophenetic. Koefisien korelasi cophenetic merupakan koefisien korelasi antara elemen-elemen asli matrikS ketidakmiripan (matriks jarak squared euclidean) dan elemen-elemen yang dihasilkan oleh dendogram (matriks cophenetic) (Silva & Dias, 2013). Menurut Saracli, dkk (2013), rumus Untuk menghitung koefisien korelasi cophenetic adalah sebagai berikut :
\[ r_{coph} = \frac{\sum_{i<j} (d_{ij} - \bar{d})(d_{cij} - \bar{d}_c)} {\sqrt{\sum_{i<j} (d_{ij} - \bar{d})^2 \cdot \sum_{i<j} (d_{cij} - \bar{d}_c)^2}} \] Keterangan:
\(r_{coph}\) : koefisien korelasi cophenetic
\(d_{ij}\) : jarak Squared Euclidean antara objek i dan j
\(\bar{d}\) : rata-rata jarak Squared Euclidean antara objek i dan j
- Metode Average Linkage Metode average linkage melakukan pengelompokan berdasarkan rata-rata jarak dari semua objek pengamatan dari satu cluster terhadap semua objek pengamatan dari cluster lain. Ukuran kemiripan dua cluster merupakan rata-rata jarak semua objek dalam satu cluster dengan semua objek cluster lain (Johnson & Wichern, 2002). Metode ini dianggap lebih stabil dan tidak bias dibandingkan metode yang lain. Langkah yang dilakukan dalam analisis ini dengan mengelompokkan objek berdasarkan jara rata-rata yang didapat dengan melakukan perhitungan rerata semua jarak objek terlebih dahulu dengan rumus: \[ d_{(ij)k}=average(d_{ik},d_{jk}) \] keterangan:
- \(d_{(ij)k}\) : jarak antar kelompok (i,j) dan k
- \(d_{ik}\) : jarak rata-rata antara kelompok i dengan k
- \(d_{jk}\) : jarak rata-rata antara kelompok j dengan k
- Validasi Cluster
- Indeks Connectivity
Rumus perhitungan indeks connectivity didefinisikan sebagai berikut:
\[ Conn(C) = \sum_{i=1}^{N} \sum_{j=1}^{L} X_{i,nn(i,j)} \]
Keterangan:
\(Conn(C)\) : indeks Connectivity
\(nn(i,j)\) : pengamatan tetangga
terdekat \(i\) ke \(j\) dan \(L\)
\(N\) : banyak pengamatan
\(L\) : banyak cluster
Semakin kecil nilai indeks Connectivity maka diindikasikan banyak cluster yang terbentuk lebih baik atau optimal (Halim & Widodo, 2017).
- Indeks Silhoutte
Indeks Silhoutte dapat dihitung dengan rumus sebagai berikut:
\[ S(i) = \frac{b(i) - a(i)}{\max\{a(i), b(i)\}} \]
Keterangan: \(S(i)\) : indeks Silhouette \(a(i)\): rata-rata kemiripan antara objek ke-\(i\) dengan objek lain di dalam clusternya \(b(i)\): nilai minimum dari rata-rata kemiripan antara objek ke-\(i\) dengan objek lain di luar cluster
Indeks ini mengukur derajat kepercayaan dalam proses clustering pada pengamatan tertentu dengan cluster yang dikatakan terbentuk baik bila nilai indeks mendekati 1 dan sebaliknya jika nilai indeks mendekati -1.
- Indeks Dunn
Indeks dunn adalah rasio jarak terkecil antara observasi pada cluster yang berbeda dengan jarak terbesar pada masing cluster data. Rumus perhitungan indeks dunn didefinisikan sebagai berikut:
\[ C=\frac{d_{min}}{d_{max}} \]
Keterangan: \(d_{min}\) : jarak terkecil antara obsevasi pada cluster yang berbeda \(d_{max}\) : jarak terbesar pada masing-masing cluster
1.5 Data
Jelaskan data yang digunakan dan dari mana data diperoleh beserta cuplikan datanya Data didapatkan dari Kaggle.com pada tautan
https://www.kaggle.com/datasets/youssefaboelwafa/clustering-penguins-species
pada data tersebut terdapat panjang paruh, kedalaman paruh, panjang sayap, dan berat pinguin
> data <- read.csv("E:/KULIAH/Semester 5/ANMUL1/penguins.csv", sep = ";")
> head(data)
culmen_length_mm culmen_depth_mm flipper_length_mm body_mass_g
1 39.1 18.7 181 3750
2 39.5 17.4 186 3800
3 40.3 18.0 195 3250
4 36.7 19.3 193 3450
5 39.3 20.6 190 3650
6 38.9 17.8 181 36252 SOURCE CODE
2.1 Library
> # Library
> library(psych)
> library(GPArotation)
> library(clValid)
> library(ggplot2)
> library(cluster)
> library(factoextra)
> library(tidyverse)
> library(car)2.2 Impor Data
> data <- read.csv("E:/KULIAH/Semester 5/ANMUL1/penguins.csv", sep = ";")
> head(data)
culmen_length_mm culmen_depth_mm flipper_length_mm body_mass_g
1 39.1 18.7 181 3750
2 39.5 17.4 186 3800
3 40.3 18.0 195 3250
4 36.7 19.3 193 3450
5 39.3 20.6 190 3650
6 38.9 17.8 181 36252.3 Analisis Cluster
2.3.1 Statistika Deskriptif
> statdes <- summary(data)
> statdes
culmen_length_mm culmen_depth_mm flipper_length_mm body_mass_g
Min. :33.10 Min. :13.1 Min. :172.0 Min. :2700
1st Qu.:38.20 1st Qu.:17.0 1st Qu.:187.0 1st Qu.:3450
Median :41.30 Median :18.0 Median :193.0 Median :3800
Mean :42.75 Mean :17.8 Mean :195.5 Mean :3928
3rd Qu.:46.95 3rd Qu.:18.9 3rd Qu.:200.5 3rd Qu.:4250
Max. :59.60 Max. :21.5 Max. :230.0 Max. :6300 Menghitung statistika deskriptif dengan perintah “summary” yang disimpan dalam statdesk. Hasil dari perintah tersebut menunjukkan rangkuman ukuran pemusatan dan persebaran data pada masing-masing variabel.
2.3.2 Uji Asumsi
- Uji Sampel Representatif
> kmo <- KMO(data)
> kmo
Kaiser-Meyer-Olkin factor adequacy
Call: KMO(r = data)
Overall MSA = 0.63
MSA for each item =
culmen_length_mm culmen_depth_mm flipper_length_mm body_mass_g
0.70 0.55 0.59 0.67 - Uji Non-Multikolinearitas
> korelasi <- cor(data, method = 'pearson')
> korelasi
culmen_length_mm culmen_depth_mm flipper_length_mm
culmen_length_mm 1.00000000 -0.06354201 0.5814312
culmen_depth_mm -0.06354201 1.00000000 -0.4159243
flipper_length_mm 0.58143122 -0.41592434 1.0000000
body_mass_g 0.47395707 -0.28779567 0.7842679
body_mass_g
culmen_length_mm 0.4739571
culmen_depth_mm -0.2877957
flipper_length_mm 0.7842679
body_mass_g 1.00000002.3.3 Standarisasi
> datastand <- scale(data)
> head(datastand)
culmen_length_mm culmen_depth_mm flipper_length_mm body_mass_g
[1,] -0.6650582 0.519780809 -1.29085533 -0.2635347
[2,] -0.5922294 -0.234168292 -0.84425078 -0.1895655
[3,] -0.4465717 0.113808216 -0.04036259 -1.0032269
[4,] -1.1020312 0.867757317 -0.21900441 -0.7073500
[5,] -0.6286438 1.621706418 -0.48696714 -0.4114731
[6,] -0.7014726 -0.002183953 -1.29085533 -0.4484577
> rownames(datastand) <- 1:nrow(datastand)2.3.4 Jarak Euclidien
> jarak <- dist(datastand, method = "euclidean")2.3.5 Koefisien Korelasi Cophenetic
> d1 <- dist(data)
> #Single Linkage
> hiers <- hclust(dist(data), method = "single")
> #korelasi cophenetic
> hc1 <- hclust(d1, "single")
> d2 <- cophenetic(hc1)
> cors <- cor(d1,d2)
> cors
[1] 0.7511501
> #Average Linkage
> hierave <- hclust(dist(data), method = "ave")
> #korelasi cophenetic
> hc2 <- hclust(d1, "ave")
> d3 <- cophenetic(hc2)
> corave <- cor(d1,d3)
> corave
[1] 0.8299495
> #Complete Linkage
> hiercomp <- hclust(dist(data), method = "complete")
> #korelasi cophenetic
> hc3 <- hclust(d1, "complete")
> d4 <- cophenetic(hc3)
> corcomp <- cor(d1,d4)
> corcomp
[1] 0.6911774
> #Ward
> hierward <- hclust(dist(data), method = "ward.D")
> #korelasi cophenetic
> hc5 <- hclust(d1,"ward.D")
> d6 <- cophenetic(hc5)
> corward <- cor(d1,d6)
> corward
[1] 0.5663032.3.6 Indeks Validitas
> inval <- clValid(datastand,2:5, clMethods = "hierarchical", validation = "internal", metric = "euclidean", method = "average")
> summary(inval)
Clustering Methods:
hierarchical
Cluster sizes:
2 3 4 5
Validation Measures:
2 3 4 5
hierarchical Connectivity 0.0000 2.9290 17.1429 20.0718
Dunn 0.2870 0.2870 0.1303 0.1303
Silhouette 0.5243 0.4988 0.3718 0.3525
Optimal Scores:
Score Method Clusters
Connectivity 0.0000 hierarchical 2
Dunn 0.2870 hierarchical 2
Silhouette 0.5243 hierarchical 2
> optimalScores(inval)
Score Method Clusters
Connectivity 0.0000000 hierarchical 2
Dunn 0.2870381 hierarchical 2
Silhouette 0.5242688 hierarchical 2
> plot(inval)2.3.7 Metode Average Linkage
> hirave <- hclust(dist(scale(data)), method = "average")
> hirave
Call:
hclust(d = dist(scale(data)), method = "average")
Cluster method : average
Distance : euclidean
Number of objects: 239
> plot(hirave, labels(data$culmen_length_mm), hang = 0.5, col = "black", main = "Cluster Dendogram", sub = " ", xlab = "Label Pinguin", ylab = "Jarak")>
>
> anggotaave <- data.frame(id = data$culmen_length_mm, cutree(hirave, k = 2))
> clus_hier <- eclust(datastand, FUNcluster = "hclust", k = 2, hc_method = "average", graph = TRUE)
> fviz_dend(clus_hier, rect = TRUE, cex = 0.5)>
> idclus = clus_hier$cluster
> idclus
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220
1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
> aggregate(data,list(idclus),mean)
Group.1 culmen_length_mm culmen_depth_mm flipper_length_mm body_mass_g
1 1 41.94677 18.37114 191.6965 3715.299
2 2 47.01579 14.80263 215.3158 5053.9473 HASIL DAN PEMBAHASAN
3.1 Statistika Deskriptif
> statdes <- summary(data)
> statdes
culmen_length_mm culmen_depth_mm flipper_length_mm body_mass_g
Min. :33.10 Min. :13.1 Min. :172.0 Min. :2700
1st Qu.:38.20 1st Qu.:17.0 1st Qu.:187.0 1st Qu.:3450
Median :41.30 Median :18.0 Median :193.0 Median :3800
Mean :42.75 Mean :17.8 Mean :195.5 Mean :3928
3rd Qu.:46.95 3rd Qu.:18.9 3rd Qu.:200.5 3rd Qu.:4250
Max. :59.60 Max. :21.5 Max. :230.0 Max. :6300 Berdasarkan analisis deskriptif, atribut pengukuran menunjukkan variasi yang signifikan. Panjang culmen (culmen_length_mm) memiliki rentang antara 33.10 mm hingga 59.60 mm, dengan rata-rata 42.75 mm dan median 41.30 mm, yang menunjukkan distribusi data yang cenderung simetris. Kedalaman culmen (culmen_depth_mm) berkisar antara 13.1 mm hingga 21.5 mm, dengan rata-rata 17.8 mm dan median 18.0 mm, menunjukkan bahwa mayoritas nilai berada di sekitar rentang ini. Panjang sirip (flipper_length_mm) bervariasi dari 172.0 mm hingga 230.0 mm, dengan rata-rata 195.5 mm dan median 193.0 mm, mengindikasikan distribusi yang relatif seragam. Berat badan (body_mass_g) memiliki rentang yang paling luas, dari 2700 g hingga 6300 g, dengan rata-rata 3928 g dan median 3800 g, menunjukkan adanya kemungkinan outlier pada nilai berat badan tertinggi. Secara keseluruhan, data menunjukkan keragaman yang cukup besar dalam ukuran tubuh dan morfologi, yang dapat mencerminkan perbedaan biologis atau lingkungan dalam populasi yang dianalisis.
3.2 Uji Asumsi
3.2.1 Uji Sampel Representatif
> kmo <- KMO(data)
> kmo
Kaiser-Meyer-Olkin factor adequacy
Call: KMO(r = data)
Overall MSA = 0.63
MSA for each item =
culmen_length_mm culmen_depth_mm flipper_length_mm body_mass_g
0.70 0.55 0.59 0.67 Berdasarkan nilai KMO pada masing-masing variable bernilai lebih dari 0.5 maka dapat disimpulkan bahwa sampel cukup untuk dilanjutkan analisis cluster
3.2.2 Uji Non-Multikolinearitas
> korelasi <- cor(data, method = 'pearson')
> korelasi
culmen_length_mm culmen_depth_mm flipper_length_mm
culmen_length_mm 1.00000000 -0.06354201 0.5814312
culmen_depth_mm -0.06354201 1.00000000 -0.4159243
flipper_length_mm 0.58143122 -0.41592434 1.0000000
body_mass_g 0.47395707 -0.28779567 0.7842679
body_mass_g
culmen_length_mm 0.4739571
culmen_depth_mm -0.2877957
flipper_length_mm 0.7842679
body_mass_g 1.0000000berdasarkan analisis, dapat dilihat bahwa nilai korelasi antar variable bernilai kurang dari 0.8 maka dapat disimpulkan bahwa tidak terjadi multikolinearitas antar variable
3.3 Koefisien Korelasi Cophenetic
> KorCop<-data.frame(cors,corave,corcomp,corward)
> KorCop
cors corave corcomp corward
1 0.7511501 0.8299495 0.6911774 0.566303Berdasarkan hasil perhitungan koefisien korelasi cophenetic, metode terbaik yang akan digunakan dalam penelitian ini adalah metode average linkage karena memiliki nilai terbesar disbanding koefisien lainnya
3.4 Indeks Validitas
> optimalScores(inval)
Score Method Clusters
Connectivity 0.0000000 hierarchical 2
Dunn 0.2870381 hierarchical 2
Silhouette 0.5242688 hierarchical 2Berdasarkan indeks connectivity, indeks dunn dan indeks silhouette terpilih jumlah cluster sebanyak dua sebagai cluster optimal pada metode pengelompokkan Average Linkage berdasarkan faktor-faktor yang membedakan spesies penguin.
3.5 Analisis Cluster
> anggotaave <- data.frame(id = data$culmen_length_mm, cutree(hirave, k = 2))
> clus_hier <- eclust(datastand, FUNcluster = "hclust", k = 2, hc_method = "average", graph = TRUE)
> fviz_dend(clus_hier, rect = TRUE, cex = 0.5)
Berdasarkan Hasil Analisis Cluster didapatkan 2 cluster dengan batasan
seperti diatas
4 Kesimpulan
> Cluster = c(1,2)
> Objek = c(paste(1:201, collapse =","), paste(202:239, collapse = ","))
> Label = c("Spesies 1","Spesies 2")
> tabelhasil=data.frame(Cluster,Objek,Label)
> tabelhasil
Cluster
1 1
2 2
Objek
1 1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,51,52,53,54,55,56,57,58,59,60,61,62,63,64,65,66,67,68,69,70,71,72,73,74,75,76,77,78,79,80,81,82,83,84,85,86,87,88,89,90,91,92,93,94,95,96,97,98,99,100,101,102,103,104,105,106,107,108,109,110,111,112,113,114,115,116,117,118,119,120,121,122,123,124,125,126,127,128,129,130,131,132,133,134,135,136,137,138,139,140,141,142,143,144,145,146,147,148,149,150,151,152,153,154,155,156,157,158,159,160,161,162,163,164,165,166,167,168,169,170,171,172,173,174,175,176,177,178,179,180,181,182,183,184,185,186,187,188,189,190,191,192,193,194,195,196,197,198,199,200,201
2 202,203,204,205,206,207,208,209,210,211,212,213,214,215,216,217,218,219,220,221,222,223,224,225,226,227,228,229,230,231,232,233,234,235,236,237,238,239
Label
1 Spesies 1
2 Spesies 2Anggota cluster yang terbentuk adalah seperti diatas yaitu, pinguin label 1 hingga 201 merupakan spesies 1 dan pinguin pengamatan 202 hingga 239 merupakan spesies 2
5 Daftar Pustaka
Hardle, W., & Simar, L. (2003). Applied Multivariate Statistical Analysis. Springer. Hair, J. F., dkk. (2006). Multivariate Data Analysis Sixth Edition. New Jersey: Pearson Education Inc. Johnson, N. & Wichern, D. (2002). Applied Multivariate Statistical Analysis. Prentice-Hall.