Library:
> # install.packages("knitr")
> # install.packages("rmarkdown")
> # install.packages("prettydoc")
> # install.packages("equatiomatic")1 PENDAHULUAN
1.1 Latar Belakang
Pada umumnya, banyak penelitian dalam berbagai bidang yang melibatkankan lebih dari satu variabel yang diamati. Bahkan sangat jarang ditemukan penelitian yang hanya melibatkan satu variabel saja. Penelitian-penelitian yang melibatkan lebih dari satu variabel, biasa dianalisis dengan menggunakan analisis multivariat. Analisis multivariat ini merupakan analisis statistika yang dapat mengukur lebih dari satu variabel secara bersamaan.
Salah satu analisis multivariat yang cukup sering digunakan ialah analisis cluster atau biasa disebut juga dengan analisis gerombol. Menurut Weeb (2002), Analisis cluster adalah pengelompokan suatu objek dalam populasi untuk menemukan struktur dalam data, dengan harapan objek dalam kelompok mirip satu sama lain, tetapi berbeda dengan objek dalam kelompok lain. Sehingga pada dasarnya analisis cluster merupakan metode dalam eksplorasi data.
Salah satu metode pada analisis cluster adalah algoritma k-means. Menurut Weeb (2002), Algoritma k-means bertujuan untuk mempartisi data ke dalam k cluster, sehingga jumlah kuadrat dalam kelompok dapat diminimalkan. Algoritma k-means ini termasuk dalam analisis cluster non-hierarchy.
Analisis Cluster dengan menggunakan algoritma k-means biasa digunakan untuk penelitian-penelitian yang berhubungan dengan pemasaran, karena dengan analisis tersebut dapat diketahui kelompok-kelompok yang tepat untuk dijadikan sasaran dari pemasaran suatu produk. Namun, sebenernya analisis ini juga cocok untuk digunakan pada bidang-bidang yang lain, termasuk dalam bidang olahraga catur.
Dalam olahraga catur, pemeringkatan kekuatan pemain didasarkan pada suatu nilai yang disebut dengan sistem elo rating. Sistem ini secara resmi dikelola oleh FIDE (Federation Internationale des Echecs). Berdasarkan hal tersebut penulis dapat memperoleh data mengenai pemeringkatan pemain terbaik di suatu Negara, termasuk Indonesia. Dengan adanya data tersebut, penulis ingin mengelompokkan pecatur terbaik Indonesia dalam beberapa kelompok dengan mempertimbangkan beberapa variabel lain berdasarkan kemiripannya. Hal tersebut dapat dilakukan dengan menggunakan analisis cluster dengan algoritma k-means. Ke depannya hasil analisis ini diharapkan dapat membantu PERCASI (Persatuan Catur Seluruh Indonesia) untuk memberikan kebijakan mengenai perbedaan perlakuan antara kelompok kelompok yang dihasilkan, agar dapat meningkatkan potensi pecatur di Indonesia.
1.2 Statistika Deskriptif
Menurut Walpole (1992), Statistika deskriptif merupakan metode yang berhubungan dengan cara pengumpulan dan penyajian atas sekelompok data sehingga bisa menghasilkan informasi yang berguna. Metode ini sebatas memberikan informasi terkait data yang tersedia, tidak bisa digunakan untuk menarik kesimpulan apapun terkait populasi. Statistika deskriptif seringkali disajikan dalam bentuk tabel maupun grafik.
1.3 Analisis Cluster
Menurut Everitt dkk (2011), analisis gerombol (cluster analysis) pada dasarnya adalah tentang bagaimana menemukan kelompok dalam data. Analisis ini bertujuan untuk membangun aturan dalam mengklasifikasikan individu atau objek baru ke dalam kelompok yang sudah ada. Pengelompokan analisis ini didasarkan pada homogenitas atau kemiripan dalam objek yang diamati.
Menurut Rencher (2002), dalam analisis cluster dicari pola dalam kumpulan data dengan mengelompokkan pengamatan ke dalam gerombol-gerombol tertentu. Tujuannya adalah untuk menemukan pengelompokan optimal, yaitu setiap objek dalam gerombol cenderung serupa, akan tetapi berbeda antargerombolnya.
Algoritma k-means merupakan salah satu metode dalam analisis cluster non-hierarchy yang dilakukan dengan pendekatan partisi. Menurut Rencher (2002), metode ini memungkinkan suatu item untuk dapat dipindahkan dari satu cluster ke cluster lainnya. Realokasi seperti ini tidak dapat dilakukan pada hierarchical methods.
Metode algoritma k-means juga dianggap sebagai perbaikan dari hierarchical methods. Misal, pertama setiap item dikelompokkan menggunakan hierarchical methods, kemudian menggunakan centroid dari cluster tersebut sebagai pendekatan k-means yang akan memungkinkan terjadinya realokasi item dari satu cluster ke cluster lainnya. Menurut Santosa (2007), langkah-langkah analisis cluster dengan menggunakan algoritma k-means adalah sebagai berikut:
1. Memilih jumlah kelompok (k).
2. Melakukan inisialisasi k pusat cluster (centroid) biasanya dilakukan dengan menggunakan bilangan acak.
3. Mengelompokkan semua data ke centroid terdekat dengan jarak metrik yang telah ditetapkan. Jarak metrik bisa ditetapkan dengan teori Euclidean.
4. Menghitung ulang centroid berdasarkan data pada setiap cluster.
5. Realokasikan setiap objek ke centroid yang baru, proses analisis cluster selesai jika nilai centroid tidak lagi berubah.
1.4 Data
Data yang digunakan pada penelitian ini adalah data sekunder yang didapatkan dari website resmi milik FIDE. Data yang digunakan adalah data seratus pecatur terbaik Indonesia yang diukur berdasarkan elo rating catur standar periode September 2021. Dalam pengambilan data ini tidak ditetapkan usia minimal maupun maksimal dari setiap objek.
Variabel penelitian yang digunakan adalah elo rating catur standar periode September 2021 dan usia.
2 SOURCE CODE
2.1 Statistika Deskriptif
> datarpubs <- read_excel("C:/Users/oke/Downloads/datarpubs.xlsx")
Error in read_excel("C:/Users/oke/Downloads/datarpubs.xlsx"): could not find function "read_excel"
> View(datarpubs)
Error in as.data.frame(x): object 'datarpubs' not found
> head(datarpubs)
Error in head(datarpubs): object 'datarpubs' not found
> summary(datarpubs)
Error in summary(datarpubs): object 'datarpubs' not found
> str(datarpubs)
Error in str(datarpubs): object 'datarpubs' not found Nama Rating Usia
Length:100 Min. :1989 Min. :15.00
Class :character 1st Qu.:2059 1st Qu.:23.00
Mode :character Median :2110 Median :39.50
Mean :2144 Mean :38.58
3rd Qu.:2187 3rd Qu.:52.00
Max. :2548 Max. :70.00
tibble [100 x 3] (S3: tbl_df/tbl/data.frame)
$ Nama : chr [1:100] "Megaranto, Susanto" "Priasmoro, Novendra" "Taher, Yoseph Theolifus" "Cuhendi, Sean Winshand" ...
$ Rating: num [1:100] 2548 2502 2455 2419 2406 ...
$ Usia : num [1:100] 34 22 22 24 29 28 23 42 24 31 ...
2.2 Install packages yang dibutuhkan
> # install.packages("cluster")
> # install.packages("factoextra") 2.3 Panggil packages yang dibutuhkan
> # library(readxl)
> # library(cluster)
> # library(factoextra) 2.4 Buat dataframe yang berisikan variabel yang akan diikutsertakan
> datarpubs.Rating= c(2548,2502,2455,2419,2406,2405,2389,2386,2367,2332,2308,2304,2280,2280,2279,2276,2274,2254,2229,2227,2208,2207,2204,2201,2193,2185,2185,2184,2176,2175,2169,2164,2164,2159,2154,2150,2149,2146,2145,2143,2141,2140,2136,2132,2130,2130,2120,2114,2113,2112,2107,2102,2101,2098,2096,2090,2089,2087,2085,2083,2079,2077,2077,2073,2071,2070,2069,2067,2067,2066,2065,2065,2064,2062,2059,2059,2059,2054,2053,2051,2050,2049,2048,2047,2046,2040,2038,2035,2031,2027,2026,2023,2017,2009,2008,2004,2002,2000,1997,1989)
> datarpubs.Usia= c(34,22,22,24,29,28,23,42,24,31,51,35,51,58,25,36,15,61,20,22,42,45,22,15,46,43,61,23,38,50,52,40,19,21,44,51,18,18,20,52,21,46,47,35,58,53,21,17,53,55,25,27,23,17,20,62,19,64,52,25,59,53,44,17,41,27,61,61,52,66,26,47,42,23,42,58,50,43,58,18,25,39,25,59,65,27,55,21,65,60,21,19,39,61,19,45,52,70,37,53)
> dataa<-data.frame(datarpubs.Rating,datarpubs.Usia)
> dataa
datarpubs.Rating datarpubs.Usia
1 2548 34
2 2502 22
3 2455 22
4 2419 24
5 2406 29
6 2405 28
7 2389 23
8 2386 42
9 2367 24
10 2332 31
11 2308 51
12 2304 35
13 2280 51
14 2280 58
15 2279 25
16 2276 36
17 2274 15
18 2254 61
19 2229 20
20 2227 22
21 2208 42
22 2207 45
23 2204 22
24 2201 15
25 2193 46
26 2185 43
27 2185 61
28 2184 23
29 2176 38
30 2175 50
31 2169 52
32 2164 40
33 2164 19
34 2159 21
35 2154 44
36 2150 51
37 2149 18
38 2146 18
39 2145 20
40 2143 52
41 2141 21
42 2140 46
43 2136 47
44 2132 35
45 2130 58
46 2130 53
47 2120 21
48 2114 17
49 2113 53
50 2112 55
51 2107 25
52 2102 27
53 2101 23
54 2098 17
55 2096 20
56 2090 62
57 2089 19
58 2087 64
59 2085 52
60 2083 25
61 2079 59
62 2077 53
63 2077 44
64 2073 17
65 2071 41
66 2070 27
67 2069 61
68 2067 61
69 2067 52
70 2066 66
71 2065 26
72 2065 47
73 2064 42
74 2062 23
75 2059 42
76 2059 58
77 2059 50
78 2054 43
79 2053 58
80 2051 18
81 2050 25
82 2049 39
83 2048 25
84 2047 59
85 2046 65
86 2040 27
87 2038 55
88 2035 21
89 2031 65
90 2027 60
91 2026 21
92 2023 19
93 2017 39
94 2009 61
95 2008 19
96 2004 45
97 2002 52
98 2000 70
99 1997 37
100 1989 53
> set.seed(100) 2.5 Analisis cluster dengan algoritma kmeans
> clust<-kmeans(dataa,centers = 2,nstart = 25)
> clust
K-means clustering with 2 clusters of sizes 20, 80
Cluster means:
datarpubs.Rating datarpubs.Usia
1 2346.00 32.6500
2 2093.25 40.0625
Clustering vector:
[1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
[38] 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
[75] 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
Within cluster sum of squares by cluster:
[1] 159700.5 289931.7
(between_SS / total_SS = 69.5 %)
Available components:
[1] "cluster" "centers" "totss" "withinss" "tot.withinss"
[6] "betweenss" "size" "iter" "ifault" 2.6 Membuat cluster plot
> fviz_cluster(clust, data = dataa)
Error in fviz_cluster(clust, data = dataa): could not find function "fviz_cluster"Cluster plot
2.7 Memunculkan hasil pembagian cluster
> clust$cluster
[1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
[38] 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
[75] 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 22.8 Memunculkan center dari setiap cluster
> clust$centers
datarpubs.Rating datarpubs.Usia
1 2346.00 32.6500
2 2093.25 40.06252.9 Memunculkan berapa banyak anggota setiap cluster
> clust$size
[1] 20 802.10 Jumlah kuadrat antarcluster
> clust$betweenss
[1] 10230002.11 Jumlah kuadrat dalamcluster
> clust$withinss
[1] 159700.5 289931.73 HASIL DAN PEMBAHASAN
3.1 Statistika Deskriptif
Berdasarkan Data yang digunakan, rata rata rating adalah sebesar 2144 dan rata rata usia adalah sebesar 38,58. Rating bernilai antara 1989 hingga 2548, sedangkan usia bernilai antara 15 hingga 70 tahun.
3.2 Analisis Cluster
20 pemain catur Indonesia termasuk ke cluster 1, sedangkan 80 pemain sisanya termasuk cluster 2.
rata-rata rating pada cluster 1 sebesar 2093,25 sedangkan cluster 2 sebesar 2346,00
rata-rata usia pada cluster 1 sebesar 40,0625 sedangkan cluster 2 sebesar 32,6500
maka dapat disimpulkan dari kedua cluster yang terbentuk bahwa, cluster 1 terdiri dari pemain dengan rating FIDE yang lebih tinggi serta usia yang lebih tua, sedangkan cluster 2 terdiri dari pemain dengan rating FIDE yang lebih rendah dan berusia lebih muda.
3.3 Cluster Plot
4 DAFTAR PUSTAKA
Everitt, B.S., Landau, S., Leese, M., Stahl, D. (2011). Cluster Analysis Fifth Edition. John Wiley and Sons, Ltd. West Sussex. Fajrianti, F., Bustan, M,N., Tiro, M.A. (2019). Penggunaan Analisis Cluster K-Means dan Analisis Diskriminan dalam Pengelompokan Desa Miskin di Kabupaten Pangkep. Variansi: Journal of Statistics and Its Application on Teaching and Research. 1(2). Hlm 7-12. DOI: 10.35580. Rencher, A.C. (2002). Methods of Multivariate Analysis Second Edition, John Wiley and Sons, Inc. Canada.
Santosa, B. 2007. Data Mining: Teknik Pemanfaatan Data untuk Keperluan Bisnis. Yogyakarta: Graha Ilmu.
Sari, D.N.P., Sukestiyarno, Y.L. (2021). Analisis Cluster dengan Metode K-Means pada Persebaran Kasus COVID-19 Berdasarkan Provinsi di Indonesia. PRISMA. 4(2021). Hlm 602-610.
Sari, D.P. (2015). Analisis Cluster Menggunakan Algoritma K-Means Untuk Mengelompokkan Siswa Kelas IV Sekolah Dasar Brawijaya Smart School Malang. Skripsi.
Sitepu, R., Irmeilyana, & Gultom, B. (2011). Analisis Cluster terhadap Tingkat Pencemaran Industri di Sumatra Selatan. Jurnal Penelitian Sains , 3.
Solimun, S., Nurjannah N., Amaliana, L., Fernandes, A.A.R. (2019). Metode Statistika Multivariat. Malang: UB Press.
Walpole, R.E. (1992). Pengantar Statistika Third Edition. Jakarta: PT Gramedia Pustaka Utama.
Weeb, A.R. (2002). Statistical Pattern Recognition Second Edition. John Wiley and Sons Ltd England.