Library:

> # install.packages("knitr")
> # install.packages("rmarkdown")
> # install.packages("prettydoc")
> # install.packages("equatiomatic")

1 PENDAHULUAN

1.1 Latar Belakang

Pada umumnya, banyak penelitian dalam berbagai bidang yang melibatkankan lebih dari satu variabel yang diamati. Bahkan sangat jarang ditemukan penelitian yang hanya melibatkan satu variabel saja. Penelitian-penelitian yang melibatkan lebih dari satu variabel, biasa dianalisis dengan menggunakan analisis multivariat. Analisis multivariat ini merupakan analisis statistika yang dapat mengukur lebih dari satu variabel secara bersamaan.
Salah satu analisis multivariat yang cukup sering digunakan ialah analisis cluster atau biasa disebut juga dengan analisis gerombol. Menurut Weeb (2002), Analisis cluster adalah pengelompokan suatu objek dalam populasi untuk menemukan struktur dalam data, dengan harapan objek dalam kelompok mirip satu sama lain, tetapi berbeda dengan objek dalam kelompok lain. Sehingga pada dasarnya analisis cluster merupakan metode dalam eksplorasi data.
Salah satu metode pada analisis cluster adalah algoritma k-means. Menurut Weeb (2002), Algoritma k-means bertujuan untuk mempartisi data ke dalam k cluster, sehingga jumlah kuadrat dalam kelompok dapat diminimalkan. Algoritma k-means ini termasuk dalam analisis cluster non-hierarchy.
Analisis Cluster dengan menggunakan algoritma k-means biasa digunakan untuk penelitian-penelitian yang berhubungan dengan pemasaran, karena dengan analisis tersebut dapat diketahui kelompok-kelompok yang tepat untuk dijadikan sasaran dari pemasaran suatu produk. Namun, sebenernya analisis ini juga cocok untuk digunakan pada bidang-bidang yang lain, termasuk dalam bidang olahraga catur.
Dalam olahraga catur, pemeringkatan kekuatan pemain didasarkan pada suatu nilai yang disebut dengan sistem elo rating. Sistem ini secara resmi dikelola oleh FIDE (Federation Internationale des Echecs). Berdasarkan hal tersebut penulis dapat memperoleh data mengenai pemeringkatan pemain terbaik di suatu Negara, termasuk Indonesia. Dengan adanya data tersebut, penulis ingin mengelompokkan pecatur terbaik Indonesia dalam beberapa kelompok dengan mempertimbangkan beberapa variabel lain berdasarkan kemiripannya. Hal tersebut dapat dilakukan dengan menggunakan analisis cluster dengan algoritma k-means. Ke depannya hasil analisis ini diharapkan dapat membantu PERCASI (Persatuan Catur Seluruh Indonesia) untuk memberikan kebijakan mengenai perbedaan perlakuan antara kelompok kelompok yang dihasilkan, agar dapat meningkatkan potensi pecatur di Indonesia.

1.2 Statistika Deskriptif

Menurut Walpole (1992), Statistika deskriptif merupakan metode yang berhubungan dengan cara pengumpulan dan penyajian atas sekelompok data sehingga bisa menghasilkan informasi yang berguna. Metode ini sebatas memberikan informasi terkait data yang tersedia, tidak bisa digunakan untuk menarik kesimpulan apapun terkait populasi. Statistika deskriptif seringkali disajikan dalam bentuk tabel maupun grafik.

1.3 Analisis Cluster

Menurut Everitt dkk (2011), analisis gerombol (cluster analysis) pada dasarnya adalah tentang bagaimana menemukan kelompok dalam data. Analisis ini bertujuan untuk membangun aturan dalam mengklasifikasikan individu atau objek baru ke dalam kelompok yang sudah ada. Pengelompokan analisis ini didasarkan pada homogenitas atau kemiripan dalam objek yang diamati.
Menurut Rencher (2002), dalam analisis cluster dicari pola dalam kumpulan data dengan mengelompokkan pengamatan ke dalam gerombol-gerombol tertentu. Tujuannya adalah untuk menemukan pengelompokan optimal, yaitu setiap objek dalam gerombol cenderung serupa, akan tetapi berbeda antargerombolnya.
Algoritma k-means merupakan salah satu metode dalam analisis cluster non-hierarchy yang dilakukan dengan pendekatan partisi. Menurut Rencher (2002), metode ini memungkinkan suatu item untuk dapat dipindahkan dari satu cluster ke cluster lainnya. Realokasi seperti ini tidak dapat dilakukan pada hierarchical methods.
Metode algoritma k-means juga dianggap sebagai perbaikan dari hierarchical methods. Misal, pertama setiap item dikelompokkan menggunakan hierarchical methods, kemudian menggunakan centroid dari cluster tersebut sebagai pendekatan k-means yang akan memungkinkan terjadinya realokasi item dari satu cluster ke cluster lainnya. Menurut Santosa (2007), langkah-langkah analisis cluster dengan menggunakan algoritma k-means adalah sebagai berikut:
1. Memilih jumlah kelompok (k).
2. Melakukan inisialisasi k pusat cluster (centroid) biasanya dilakukan dengan menggunakan bilangan acak.
3. Mengelompokkan semua data ke centroid terdekat dengan jarak metrik yang telah ditetapkan. Jarak metrik bisa ditetapkan dengan teori Euclidean.
4. Menghitung ulang centroid berdasarkan data pada setiap cluster.
5. Realokasikan setiap objek ke centroid yang baru, proses analisis cluster selesai jika nilai centroid tidak lagi berubah.

1.4 Data

Data yang digunakan pada penelitian ini adalah data sekunder yang didapatkan dari website resmi milik FIDE. Data yang digunakan adalah data seratus pecatur terbaik Indonesia yang diukur berdasarkan elo rating catur standar periode September 2021. Dalam pengambilan data ini tidak ditetapkan usia minimal maupun maksimal dari setiap objek.

Variabel penelitian yang digunakan adalah elo rating catur standar periode September 2021 dan usia.

2 SOURCE CODE

2.1 Statistika Deskriptif

> datarpubs <- read_excel("C:/Users/oke/Downloads/datarpubs.xlsx")
Error in read_excel("C:/Users/oke/Downloads/datarpubs.xlsx"): could not find function "read_excel"
> View(datarpubs)
Error in as.data.frame(x): object 'datarpubs' not found
> head(datarpubs)  
Error in head(datarpubs): object 'datarpubs' not found
> summary(datarpubs)  
Error in summary(datarpubs): object 'datarpubs' not found
> str(datarpubs) 
Error in str(datarpubs): object 'datarpubs' not found
 Nama               Rating          Usia      
 Length:100         Min.   :1989   Min.   :15.00  
 Class :character   1st Qu.:2059   1st Qu.:23.00  
 Mode  :character   Median :2110   Median :39.50  
                    Mean   :2144   Mean   :38.58  
                    3rd Qu.:2187   3rd Qu.:52.00  
                    Max.   :2548   Max.   :70.00  
tibble [100 x 3] (S3: tbl_df/tbl/data.frame)
 $ Nama  : chr [1:100] "Megaranto, Susanto" "Priasmoro,   Novendra" "Taher, Yoseph Theolifus" "Cuhendi, Sean Winshand" ...
 $ Rating: num [1:100] 2548 2502 2455 2419 2406 ...
 $ Usia  : num [1:100] 34 22 22 24 29 28 23 42 24 31 ...

2.2 Install packages yang dibutuhkan

> # install.packages("cluster")  
> # install.packages("factoextra")  

2.3 Panggil packages yang dibutuhkan

> # library(readxl)
> # library(cluster)  
> # library(factoextra)  

2.4 Buat dataframe yang berisikan variabel yang akan diikutsertakan

> datarpubs.Rating= c(2548,2502,2455,2419,2406,2405,2389,2386,2367,2332,2308,2304,2280,2280,2279,2276,2274,2254,2229,2227,2208,2207,2204,2201,2193,2185,2185,2184,2176,2175,2169,2164,2164,2159,2154,2150,2149,2146,2145,2143,2141,2140,2136,2132,2130,2130,2120,2114,2113,2112,2107,2102,2101,2098,2096,2090,2089,2087,2085,2083,2079,2077,2077,2073,2071,2070,2069,2067,2067,2066,2065,2065,2064,2062,2059,2059,2059,2054,2053,2051,2050,2049,2048,2047,2046,2040,2038,2035,2031,2027,2026,2023,2017,2009,2008,2004,2002,2000,1997,1989)
> datarpubs.Usia= c(34,22,22,24,29,28,23,42,24,31,51,35,51,58,25,36,15,61,20,22,42,45,22,15,46,43,61,23,38,50,52,40,19,21,44,51,18,18,20,52,21,46,47,35,58,53,21,17,53,55,25,27,23,17,20,62,19,64,52,25,59,53,44,17,41,27,61,61,52,66,26,47,42,23,42,58,50,43,58,18,25,39,25,59,65,27,55,21,65,60,21,19,39,61,19,45,52,70,37,53)
> dataa<-data.frame(datarpubs.Rating,datarpubs.Usia)  
> dataa  
    datarpubs.Rating datarpubs.Usia
1               2548             34
2               2502             22
3               2455             22
4               2419             24
5               2406             29
6               2405             28
7               2389             23
8               2386             42
9               2367             24
10              2332             31
11              2308             51
12              2304             35
13              2280             51
14              2280             58
15              2279             25
16              2276             36
17              2274             15
18              2254             61
19              2229             20
20              2227             22
21              2208             42
22              2207             45
23              2204             22
24              2201             15
25              2193             46
26              2185             43
27              2185             61
28              2184             23
29              2176             38
30              2175             50
31              2169             52
32              2164             40
33              2164             19
34              2159             21
35              2154             44
36              2150             51
37              2149             18
38              2146             18
39              2145             20
40              2143             52
41              2141             21
42              2140             46
43              2136             47
44              2132             35
45              2130             58
46              2130             53
47              2120             21
48              2114             17
49              2113             53
50              2112             55
51              2107             25
52              2102             27
53              2101             23
54              2098             17
55              2096             20
56              2090             62
57              2089             19
58              2087             64
59              2085             52
60              2083             25
61              2079             59
62              2077             53
63              2077             44
64              2073             17
65              2071             41
66              2070             27
67              2069             61
68              2067             61
69              2067             52
70              2066             66
71              2065             26
72              2065             47
73              2064             42
74              2062             23
75              2059             42
76              2059             58
77              2059             50
78              2054             43
79              2053             58
80              2051             18
81              2050             25
82              2049             39
83              2048             25
84              2047             59
85              2046             65
86              2040             27
87              2038             55
88              2035             21
89              2031             65
90              2027             60
91              2026             21
92              2023             19
93              2017             39
94              2009             61
95              2008             19
96              2004             45
97              2002             52
98              2000             70
99              1997             37
100             1989             53
> set.seed(100)  

2.5 Analisis cluster dengan algoritma kmeans

> clust<-kmeans(dataa,centers = 2,nstart = 25)  
> clust 
K-means clustering with 2 clusters of sizes 20, 80

Cluster means:
  datarpubs.Rating datarpubs.Usia
1          2346.00        32.6500
2          2093.25        40.0625

Clustering vector:
  [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 [38] 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 [75] 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2

Within cluster sum of squares by cluster:
[1] 159700.5 289931.7
 (between_SS / total_SS =  69.5 %)

Available components:

[1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
[6] "betweenss"    "size"         "iter"         "ifault"      

2.6 Membuat cluster plot

> fviz_cluster(clust, data = dataa)  
Error in fviz_cluster(clust, data = dataa): could not find function "fviz_cluster"

Cluster plot

2.7 Memunculkan hasil pembagian cluster

> clust$cluster  
  [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 [38] 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 [75] 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2

2.8 Memunculkan center dari setiap cluster

> clust$centers  
  datarpubs.Rating datarpubs.Usia
1          2346.00        32.6500
2          2093.25        40.0625

2.9 Memunculkan berapa banyak anggota setiap cluster

> clust$size  
[1] 20 80

2.10 Jumlah kuadrat antarcluster

> clust$betweenss  
[1] 1023000

2.11 Jumlah kuadrat dalamcluster

> clust$withinss  
[1] 159700.5 289931.7

3 HASIL DAN PEMBAHASAN

3.1 Statistika Deskriptif

Berdasarkan Data yang digunakan, rata rata rating adalah sebesar 2144 dan rata rata usia adalah sebesar 38,58. Rating bernilai antara 1989 hingga 2548, sedangkan usia bernilai antara 15 hingga 70 tahun.

3.2 Analisis Cluster

20 pemain catur Indonesia termasuk ke cluster 1, sedangkan 80 pemain sisanya termasuk cluster 2.
rata-rata rating pada cluster 1 sebesar 2093,25 sedangkan cluster 2 sebesar 2346,00
rata-rata usia pada cluster 1 sebesar 40,0625 sedangkan cluster 2 sebesar 32,6500

maka dapat disimpulkan dari kedua cluster yang terbentuk bahwa, cluster 1 terdiri dari pemain dengan rating FIDE yang lebih tinggi serta usia yang lebih tua, sedangkan cluster 2 terdiri dari pemain dengan rating FIDE yang lebih rendah dan berusia lebih muda.

3.3 Cluster Plot

4 DAFTAR PUSTAKA

Everitt, B.S., Landau, S., Leese, M., Stahl, D. (2011). Cluster Analysis Fifth Edition. John Wiley and Sons, Ltd. West Sussex. Fajrianti, F., Bustan, M,N., Tiro, M.A. (2019). Penggunaan Analisis Cluster K-Means dan Analisis Diskriminan dalam Pengelompokan Desa Miskin di Kabupaten Pangkep. Variansi: Journal of Statistics and Its Application on Teaching and Research. 1(2). Hlm 7-12. DOI: 10.35580. Rencher, A.C. (2002). Methods of Multivariate Analysis Second Edition, John Wiley and Sons, Inc. Canada.
Santosa, B. 2007. Data Mining: Teknik Pemanfaatan Data untuk Keperluan Bisnis. Yogyakarta: Graha Ilmu.
Sari, D.N.P., Sukestiyarno, Y.L. (2021). Analisis Cluster dengan Metode K-Means pada Persebaran Kasus COVID-19 Berdasarkan Provinsi di Indonesia. PRISMA. 4(2021). Hlm 602-610.
Sari, D.P. (2015). Analisis Cluster Menggunakan Algoritma K-Means Untuk Mengelompokkan Siswa Kelas IV Sekolah Dasar Brawijaya Smart School Malang. Skripsi.
Sitepu, R., Irmeilyana, & Gultom, B. (2011). Analisis Cluster terhadap Tingkat Pencemaran Industri di Sumatra Selatan. Jurnal Penelitian Sains , 3.
Solimun, S., Nurjannah N., Amaliana, L., Fernandes, A.A.R. (2019). Metode Statistika Multivariat. Malang: UB Press.
Walpole, R.E. (1992). Pengantar Statistika Third Edition. Jakarta: PT Gramedia Pustaka Utama.
Weeb, A.R. (2002). Statistical Pattern Recognition Second Edition. John Wiley and Sons Ltd England.