Analisis K-Means Clustering Pada Data Hasil Produksi Sayuran di Indonesia Tahun 2020

Dea Felycia Arista Purnama Sari

Mei 2022


1 PENDAHULUAN

1.1 Latar Belakang

Sektor pertanian yang luas dan sumber daya yang beraneka ragam membuat Indonesia dijuluki sebagai negara agraris, yaitu negara yang sebagian besar penduduknya bekerja pada bidang pertanian. Di negara agraris seperti Indonesia, pertanian mempunyai peranan yang sangat penting dalam sektor sosial, ekonomi dan perdagangan nasional. Selain itu, pertanian juga ikut berperan dalam penyerapan tenaga kerja, mengurangi tingkat pengangguran, penyumbang devisa negara, sebagai penentu stabilitas harga dan penghasil makanan masyarakat. Indonesia adalah salah satu negara di Asia Tenggara yang terkenal kaya akan hasil produksi pertanian yang melimpah, salah satunya adalah produksi sayuran. Meskipun tidak seperti padi yang merupakan sumber makanan pokok utama di Indonesia, komoditas sayuran juga menyumbang peranan yang tidak kalah penting jika dibandingkan dengan padi. Guna mengatur kebutuhan sayuran di Indonesia, pemerintah perlu mengoptimalkan produksi sayuran di Indonesia. Hasil panen atau produksi sayuran di setiap provinsi di Indonesia dapat digunakan sebagai dasar untuk melakukan pemetaan produksi sayuran. Langkah ini dilakukan bertujuan untuk mengetahui provinsi di Indonesia yang memiliki hasil produksi sayuran yang kurang maksimal. Sehingga nantinya pemerintah dapat melakukan langkah-langkah perbaikan terhadap provinsi yang menghasilkan hasil produksi sayuran yang kurang maksimal tersebut. Langkah-langkah perbaikan tersebut tentunya harus disertai dan didukung dengan data yang relevan dan juga pengetahuan yang tersedia. Salah satu metode analisis yang dapat digunakan adalah dengan menggunakan analisis K-Means Clustering.

K-Means Clustering merupakan salah satu metode data clustering nonhirarki yang berusaha mempartisi data yang ada dalam bentuk satu atau lebih cluster. Data dengan karakteristik yang sama dikelompokkan dalam satu cluster yang sama, sedangkan data dengan karakteristik yang berbeda dikelompokkan dalam satu cluster yang berbeda. Oleh karena itu, analisis ini bertujuan untuk mengetahui pengelompokkan provinsi di Indonesia berdasarkan produksi komoditas sayuran dan mengetahui cluster provinsi mana yang memproduksi sayuran yang paling banyak dan paling sedikit di Indonesia pada tahun 2020.

1.2 Statistika Deskriptif

Menurut Mason (1996), Statistika Deskriptif adalah metode-metode statistika yang digunakan untuk menggambarkan data yang telah dikumpulkan. Data yang telah dikumpulkan perlu disajikan agar mudah dimengerti, menarik, komunikatif, dan informatif bagi pembaca. Berdasarkan ruang lingkup kajiannya, statistika deskriptif meliputi:
- Distribusi Frekuensi
- Penyajian Grafik, Gambar dan Diagram.
- Pengukuran tendensi sentral data meliputi: Mean, Median dan Modus.
- Pengukuran letak data meliputi: Kuartil, Desil dan Persentil.
- Penyebaran data meliputi: Range, Mean Deviasi, Standar Deviasi, Varians.
- Angka Indeks.
- Time series meliputi: Rata-Rata Bergerak, Pemulusan Eksponensial dan lain-lain.
- Korelasi dan Regresi Sederhana.

1.3 K-Means Clustering

K-Means Clustering merupakan salah satu metode data clustering non hirarki yang berusaha mempartisi data yang ada ke dalam bentuk satu atau lebih cluster atau kelompok sehingga data yang memiliki karakteristik yang sama dikelompokkan ke dalam satu cluster yang sama dan data yang mempunyai karakteristik yang berbeda dikelompokkan ke dalam kelompok lainnya.
K-Means adalah metode clustering berbasis jarak yang membagi data ke dalam sejumlah cluster dan algoritma ini hanya bekerja pada data dengan atribut numerik. Algoritma K-Means termasuk partitioning clustering yang memisahkan data ke k daerah bagian yang terpisah. Algoritma K-Means sangat terkenal karena kemudahan dan kemampuannya meng-cluster data yang besar dan data outlier dengan sangat cepat. K-Means merupakan metode non hirarki yang pada awalnya mengambil sebagian banyaknya komponen populasi untuk dijadikan pusat cluster awal. Berikutnya K-Means menguji masing-masing komponen di dalam populasi data dan menandai komponen tersebut ke salah satu pusat cluster yang telah didefinisikan tergantung dari jarak minimum antar komponen dengan tiap-tiap cluster. Posisi pusat cluster akan dihitung kembali sampai semua komponen data digolongkan ke dalam tiap-tiap pusat cluster dan terakhir akan terbentuk posisi pusat cluster yang baru.

Menurut Sarwono, berikut adalah langkah-langkah dari algoritma K-Means:

  1. Menentukan banyak k-cluster yang ingin dibentuk.
  2. Membangkitkan nilai acak untuk pusat cluster awal (centroid) sebanyak k-cluster.
  3. Menghitung jarak setiap data input terhadap masing-masing centroid menggunakan rumus jarak Euclidean (Euclidean Distance) hingga ditemukan jarak yang paling dekat dari setiap data dengan centroid. Berikut adalah persamaan Euclidean Distance:
    \[ d(x_i, \mu_i) = \sqrt{(x_i - \mu_i)^2 } \] dimana:
    \(d(x_i, \mu_i)\) = jarak antara cluster x dengan pusat cluster \(\mu\) pada data ke-i.
    \(x_i\) = bobot data ke-i pada cluster yang ingin dicari jaraknya.
    \(\mu_i\) = bobot data ke-i pada pusat cluster.
  4. Mengklasifikasikan setiap data berdasarkan kedekatannya dengan centroid (jarak terkecil).
  5. Mengupdate nilai centroid. Nilai centroid baru diperoleh dari rata-rata cluster yang bersngkutan dengan menggunakan rumus: \[ C_k = \frac{1}{n_k} \Sigma d_i \] dimana:
    \(n_k\) = jumlah data dalam cluster
    \(d_i\) = jumlah dari nilai jarak yang masuk dalam masing-masing cluster
  6. Melakukan perulangan dari langkah 2 hingga 5 sampai anggota tiap cluster tidak ada yang berubah.
  7. Jika langkah 6 telah terpenuhi, maka nilai rata-rata pusat cluster \(\mu_j\) pada iterasi terakhir akan digunakan sebagai parameter untuk menentukan klasifikasi data.

1.4 Data

Data yang digunakan dalam melakukan analisis K-Means Clustering untuk mengetahui pengelompokkan provinsi di Indonesia berdasarkan produksi sayuran dan mengetahui cluster provinsi mana yang memproduksi sayuran yang paling banyak dan paling sedikit adalah dengan menggunakan data hasil produksi sayuran seperti bawang merah, bawang putih dan sawi di Indonesia pada tahun 2020. Data yang digunakan dalam analisis ini adalah data sekunder yang diperoleh dari Badan Pusat Statistik. Data yang digunakan adalah sebagai berikut.

Tabel 1. Data Hasil Produksi Sayuran di Indonesia
No. Provinsi Bawang Merah (Ton) Bawang Putih (Ton) Sawi (Ton)
1. Aceh 11246 796 3755
2. Sumatera Utara 29222 1339 75424
3. Sumatera Barat 153770 4906 33929
4. Riau 263 0 1423
5. Jambi 11977 502 7359
6. Sumatera Selatan 934 115 4383
7. Bengkulu 1153 971 33409
8. Lampung 2105 808 10572
9. Kep. Bangka Belitung 157 0 1231
10. Kep. Riau 123 0 2793
11. DKI Jakarta 0 0 2554
12. Jawa Barat 164827 3253 189354
13. Jawa Tengah 611165 33304 87597
14. DI Yogyakarta 18811 1 3337
15. Jawa Timur 454584 5898 77716
16. Banten 1404 0 7054
17. Bali 14207 1329 29052
18. Nusa Tenggara Barat 188740 24609 5195
19. Nusa Tenggara Timur 10424 974 11880
20. Kalimantan Barat 227 0 4499
21. Kalimantan Tengah 79 0 2471
22. Kalimantan Selatan 462 0 1447
23. Kalimantan Timur 267 0 7694
24. Kalimantan Utara 90 0 3857
25. Sulawesi Utara 4937 875 28495
26. Sulawesi Tengah 5725 934 7606
27. Sulawesi Selatan 124381 307 13863
28. Sulawesi Tenggara 655 0 929
29. Gorontalo 476 0 18
30. Sulawesi Barat 631 886 272
31. Maluku 1106 0 2840
32. Maluku Utara 951 0 838
33. Papua Barat 136 0 1293
34. Papua 209 0 3333

Sumber Data : https://www.bps.go.id/

2 SOURCE CODE

2.1 Library yang Dibutuhkan

Library yang diperlukan untuk analisis Cluster dengan metode K-Means adalah sebagai berikut.

> library(cluster)
> library(factoextra)
> library(tidyverse)
> library(knitr)
> library(rmarkdown)
> library(prettydoc)
> library(equatiomatic)
> library(magrittr)
> library(readxl)

2.2 Mengimport Data

data <- read_excel("datalaprak1.xlsx")
Data diperoleh dengan cara input data ke excel lalu disimpan dengan format excel dan selanjutnya diimport ke RStudio. Fungsi read_excel() digunakan untuk mengimport data yang memiliki format excel dari file directory lokal. Di dalam fungsi read_excel terdapat argumen datalaprak1.xlxs yang berarti mengimport data bernama datalaprak1 yang memiliki format excel. Datalaprak1 didefinisikan dengan nama data.

dataku = data[,-1]
Didefinisikan dataku sebagai fungsi dari data dengan menghilangkan kolom pertama, kolom yang dihilangkan adalah kolom Provinsi di Indonesia, kolom Provinsi dihilangkan agar memudahkan dalam analisis di RStudio.

2.3 Analisis Data

summary(data)
Fungsi summarydigunakan untuk melihat ringkasan (summary) dari suatu kolom (variable) atau grup kolom (group variable). Argumen yang diisikan dalam fungsi yaitu data yang berarti melihat ringkasan dari data yang telah diberi nama data. Dengan menggunakan fungsi summary, diperoleh ringkasan dari data produksi sayuran pada setiap Provinsi di Indonesia.

fviz_nbclust(dataku, kmeans, method = "wss")
Fungsi fviz_nbclust dari package factoextra digunakan untuk memilih banyaknya cluster (gerombol). Argumen yang diisikan dalam fungsi yaitu dataku, kmeans, method = "wss", yang berarti menggunakan data yang telah diberi nama dataku dengan analisis kmeans dan metode wss (elbow).

fviz_nbclust(dataku, kmeans, method = "silhouette")
Fungsi fviz_nbclust dari package factoextra digunakan untuk memilih banyaknya cluster (gerombol). Argumen yang diisikan dalam fungsi yaitu dataku, kmeans, method = "silhouette", yang berarti menggunakan data yang telah diberi nama dataku dengan analisis kmeans dan metode silhouette.

kmeans_clustering = kmeans(dataku, 2, nstart = 25)
Fungsi kmeans di RStudio digunakan untuk mengelompokkan data. Argumen yang diisikan dalam fungsi yaitu dataku dan 2. 2 adalah hasil penentuan banyaknya cluster dari metode wss dan silhoutte, menggunakan data yang telah diberi nama dataku. Dengan menggunakan patokan cluster sebanyak 2 dibentuk fungsi dari kmeans yang diberi nama kmeans_clustering.

hasil_kmeans = data.frame(dataku, kmeans_clustering$cluster)
Fungsi data.frame di RStudio adalah fungsi yang dapat digunakan untuk membuat kerangka data yang disusun mirip seperti tabel yang terdiri dari baris dan kolom. Argumen yang diisikan dalam fungsi yaitu dataku dan kmeans_clustering$cluster. Dengan fungsi data.frame diperoleh data frame dengan menggunakan data dataku yang diberi nama hasil_kmeans.

hasil_kmeans[order(hasil_kmeans$kmeans_clustering.cluster),]
Fungsi order digunakan untuk mengurutkan data berdasarkan cluster yang sama dari hasil_kmeans. Argumen yang diisikan dalam fungsi yaitu hasil_kmeans$kmeans_clustering.cluster, yang berarti mengurutkan data berdasarkan cluster yang terbentuk.

dataku%>% mutate(cluster = kmeans_clustering$cluster)%>% group_by(cluster)%>%summarise_all("mean")
Fungsi mutate adalah fungsi yang dapat membuat kolom baru (new column or new variable) berdasarkan suatu fungsi. Fungsi mutate biasanya diikuti dengan function group_by. Argumen yang diisikan dalam fungsi yaitu cluster = kmeans_clustering$cluster, yang berarti meng-clusterkan data berdasarkan mean (nilai rata-rata).

2.4 Plot Klaster

fviz_cluster(kmeans_clustering, data = dataku)
Fungsi fviz_cluster adalah fungsi di RStudio yang digunakan untuk memvisualisasikan data berdasarkan cluster atau juga dapat dikatakan sebagai fungsi untuk membuat plot berdasarkan cluster. Argumen yang diisikan dalam fungsi yaitu kmeans_clustering, data = dataku, yang berarti memvisualisasikan data yang telah diberi nama dataku.

3 HASIL DAN PEMBAHASAN

3.1 Statistika Deskriptif

Mean (Rata-Rata) adalah ukuran pemusatan data atau wakil dari sekumpulan data. Simbol notasi untuk Mean (rata-rata) adalah \(\mu\).

Varians (Ragam) adalah ukuran statistik tentang seberapa tersebar titik-titik data dalam kumpulan data. Simbol notasi untuk Varians (Ragam) adalah \(\sigma^2\) untuk populasi dan \(s^2\) untuk sampel.

Standard Deviation (Simpangan Baku) adalah ukuran statistik untuk menentukan seberapa dekat data dari suatu sampel dengan rata-rata data. Simbol notasi untuk Standard Deviation (Simpangan Baku) adalah \(\sigma\) untuk populasi dan \(s\) untuk sampel.

Median (Nilai Tengah) adalah nilai tengah dari sekumpulan data setelah diurutkan dari data terkecil hingga terbesar, maupun sebaliknya. Simbol notasi untuk Median (Nilai Tengah) biasanya adalah \(Me\).

Modus adalah ukuran pemusatan yang menyatakan kejadian yang paling banyak terjadi. Simbol notasi untuk Modus biasanya adalah \(Mod\).

Tabel 2. Statistika Deskriptif Hasil Produksi Sayuran
Statistika Deskriptif Bawang Merah (Ton) Bawang Putih (Ton) Sawi (Ton)
Minimal 0 0 18
Maksimal 611165 33304 189354
Rata-Rata (Mean) 53395 2406.1 19632
Median 1130 58 4441
Ragam (Varians) 17787791496 48390342 1421142498
Standar Deviasi 133370.88 6956.317 37698.044

Berdasarkan Data yang digunakan, diperoleh nilai rata-rata bawang merah adalah 53395, yang menjelaskan bahwa rata-rata hasil produksi bawang merah sebanyak 53395 ton dari seluruh provinsi di Indonesia, dengan hasil produksi terendah adalah tidak ada produksi dan produksi tertinggi sebanyak 611165 ton pada tahun 2020. Penyebaran hasil produksi bawang merah di seluruh provinsi di Indonesia sebanyak 17787791496 ton dengan simpangan baku sebesar 133370.88 ton pada tahun 2020.

Untuk hasil produksi bawang putih, diperoleh nilai rata-rata bawang putih adalah 2406.1, yang menjelaskan bahwa rata-rata hasil produksi bawang putih sebanyak 2406.1 ton dari seluruh provinsi di Indonesia, dengan hasil produksi terendah adalah tidak ada produksi dan produksi tertinggi sebanyak 33304 ton pada tahun 2020. Penyebaran hasil produksi bawang putih di seluruh provinsi di Indonesia sebanyak 48390342 ton dengan simpangan baku sebesar 6956.317 ton pada tahun 2020.

Untuk hasil produksi sawi, diperoleh nilai rata-rata sawi adalah 19632, yang menjelaskan bahwa rata-rata hasil produksi sawi sebanyak 19632 ton dari seluruh provinsi di Indonesia, dengan hasil produksi terendah sebanyak 18 ton dan produksi tertinggi sebanyak 189354 ton pada tahun 2020. Penyebaran hasil produksi sawi di seluruh provinsi di Indonesia sebanyak 1421142498 ton dengan simpangan baku sebesar 37698.044 ton pada tahun 2020.

3.2 K-Means Clustering

Sebelum melakukan analisis cluster dengan metode K-Means pada RStudio, data diimport terlebih dahulu ke RStudio, data yang digunakan bernama datalaprak1 yang berformat excel. Setelah data diimport diperoleh data sayuran untuk bawang merah, bawang putih dan sawi dari seluruh Provinsi di Indonesia pada tahun 2020, datanya adalah sebagai berikut.

> data <- read_excel("datalaprak1.xlsx")
> data
# A tibble: 34 × 4
   Provinsi             `Bawang Merah (Ton)` `Bawang Putih (Ton)` `Sawi (Ton)`
   <chr>                               <dbl>                <dbl>        <dbl>
 1 ACEH                                11246                  796         3755
 2 SUMATERA UTARA                      29222                 1339        75424
 3 SUMATERA BARAT                     153770                 4906        33929
 4 RIAU                                  263                    0         1423
 5 JAMBI                               11977                  502         7359
 6 SUMATERA SELATAN                      934                  115         4383
 7 BENGKULU                             1153                  971        33409
 8 LAMPUNG                              2105                  808        10572
 9 KEP. BANGKA BELITUNG                  157                    0         1231
10 KEP. RIAU                             123                    0         2793
# … with 24 more rows

Tabel 3. Hasil Produksi Sayuran di Indonesia

Untuk memudahkan perhitungan dengan RStudio, digunakan syntax berikut untuk menampilkan data tanpa kolom provinsi, berikut tampilannya datanya.

> dataku = data[,-1]
> dataku
# A tibble: 34 × 3
   `Bawang Merah (Ton)` `Bawang Putih (Ton)` `Sawi (Ton)`
                  <dbl>                <dbl>        <dbl>
 1                11246                  796         3755
 2                29222                 1339        75424
 3               153770                 4906        33929
 4                  263                    0         1423
 5                11977                  502         7359
 6                  934                  115         4383
 7                 1153                  971        33409
 8                 2105                  808        10572
 9                  157                    0         1231
10                  123                    0         2793
# … with 24 more rows

Tabel 4. Hasil Produksi Sayuran Tanpa Kolom Provinsi

Penentuan Banyaknya Cluster
Dalam melakukan analisis cluster dengan metode K-Means di RStudio, langkah awal adalah menentukan jumlah Cluster optimum yang terbentuk, terdapat 2 cara untuk menentukan jumlah cluster yaitu dengan menggunakan metode wss (elbow) dan metode silhouette. Banyaknya cluster yang dipilih adalah bagian “siku” atau titik dimana terdapat penurunan yang tajam sebelum titik tersebut dan diikuti penurunan yang tidak tajam setelah titik tersebut. Hal ini karena penambahan jumlah cluster tidak membawa pengaruh banyak atas variasi yang ada di dalam cluster tersebut. Berikut adalah hasil banyaknya cluster yang diperoleh dengan menggunakan metode wss (elbow) dan silhoutte.

> fviz_nbclust(dataku, kmeans, method = "wss")

Plot 1. Banyaknya Cluster Menggunakan Metode WSS (Elbow)

Berdasarkan plot 1, terlihat bahwa titik yang menurun tajam dibandingkan dengan titik yang lain adalah titik kedua, sehingga dengan menggunakan metode wss (elbow) dapat diperoleh banyaknya cluster adalah 2 cluster.

> fviz_nbclust(dataku, kmeans, method = "silhouette") 

Plot 2. Banyaknya Cluster Menggunakan Metode Silhouette

Berdasarkan plot 2, terlihat bahwa titik yang naik tajam dibandingkan dengan titik yang lain adalah titik kedua, sehingga dengan menggunakan metode silhouette dapat diperoleh banyaknya cluster adalah 2 cluster.

Dengan menggunakan metode wss (elbow) dan metode silhouette menghasilkan hasil yang sama, dengan cluster sebanyak 2. Sehingga dapat dijelaskan bahwa hasil produksi sayuran bawang putih, bawang merah dan sawi di seluruh provinsi di Indonesia terdapat 2 cluster (gerombol).

Analisis Cluster
Analisis cluster dilakukan dengan menggunakan fungsi kmeans. Hal yang perlu diperhatikan ketika melakukan analisis cluster dengan metode K-Means adalah inisiasi centroid awal, hal ini karena algoritma K-Means dimulai dengan menempatkan (menginisiasi) centroid awal secara acak dalam data. Akibatnya, hasil cluster yang dihasilkan dapat berbeda-beda jika hanya menggunakan sekali inisiasi. Maka dari itu, perlu dilakukan pengulangan algoritma K-Means beberapa kali dengan nilai inisiasi awal yang berbeda guna menghasilkan cluster yang optimum.
Dalam fungsi kmeans() terdapat parameter nstart yang digunakan untuk memberitahu fungsi beberapa kali inisiasi awal yang pengguna inginkan.

Dalam data ini, digunakan nilai inisiasi sebanyak 25 kali dilihat dari nstart = 25. Algoritma K-Means akan memilih hasil cluster terbaik dengan nilai total within-cluster variation yang terkecil dari ke-25 inisiasi centroid awal. Total within-cluster variation yang kecil menjelaskan bahwa secara umum cluster yang terbentuk diisikan oleh observasi yang homogen atau serupa.
Output dari fungsi kmeans() memiliki beberapa informasi sebagai berikut.
* cluster : vector yang berisikan lokasi cluster tiap objek
* centers : matriks yang berisikan centroid atau rata-rata tiap cluster.
* withinss : vektor yang berisikan simpangan tiap cluster yang terbentuk.
* tot.withinss : total dari simpangan tiap cluster yang terbentuk.
* size : jumlah objek pada tiap cluster.

> kmeans_clustering = kmeans(dataku, 2, nstart = 25)
> kmeans_clustering
K-means clustering with 2 clusters of sizes 32, 2

Cluster means:
  Bawang Merah (Ton) Bawang Putih (Ton) Sawi (Ton)
1           23427.97           1331.406   15692.47
2          532874.50          19601.000   82656.50

Clustering vector:
 [1] 1 1 1 1 1 1 1 1 1 1 1 1 2 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

Within cluster sum of squares by cluster:
[1] 125201519881  12683166279
 (between_SS / total_SS =  78.3 %)

Available components:

[1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
[6] "betweenss"    "size"         "iter"         "ifault"      

Gambar 1. Hasil Analisis K-Means Clustering

> dataku%>% mutate(cluster = kmeans_clustering$cluster)%>%
+   group_by(cluster)%>%summarise_all("mean")
# A tibble: 2 × 4
  cluster `Bawang Merah (Ton)` `Bawang Putih (Ton)` `Sawi (Ton)`
    <int>                <dbl>                <dbl>        <dbl>
1       1               23428.                1331.       15692.
2       2              532874.               19601        82656.

Tabel 5. Hasil Analisis Cluster

Berdasarkan tabel 5, diperoleh cluster sebanyak 2 cluster, dengan rata-rata tertinggi pada cluster ke-2 untuk bawang merah sebanyak 532874.50 ton, untuk bawang putih sebanyak 19601 ton dan sawi sebanyak 82656.5 ton. Sedangkan untuk cluster ke-1 bawang merah sebanyak 23427.97 ton, bawang putih sebanyak 1331.406 ton dan sawi sebanyak 15692.47 ton untuk provinsi di Indonesia.

Setelah itu, untuk mengetahui provinsi mana saja di Indonesia berdasarkan hasil produksi sayuran bawang putih, bawang merah dan sawi yang berada pada cluster 1 dan cluster 2, disajikan pada tabel berikut.

> hasil_kmeans = data.frame(dataku, kmeans_clustering$cluster)
> hasil_kmeans
   Bawang.Merah..Ton. Bawang.Putih..Ton. Sawi..Ton. kmeans_clustering.cluster
1               11246                796       3755                         1
2               29222               1339      75424                         1
3              153770               4906      33929                         1
4                 263                  0       1423                         1
5               11977                502       7359                         1
6                 934                115       4383                         1
7                1153                971      33409                         1
8                2105                808      10572                         1
9                 157                  0       1231                         1
10                123                  0       2793                         1
11                  0                  0       2554                         1
12             164827               3253     189354                         1
13             611165              33304      87597                         2
14              18811                  1       3337                         1
15             454584               5898      77716                         2
16               1404                  0       7054                         1
17              14207               1329      29052                         1
18             188740              24609       5195                         1
19              10424                974      11880                         1
20                227                  0       4499                         1
21                 79                  0       2471                         1
22                462                  0       1447                         1
23                267                  0       7694                         1
24                 90                  0       3857                         1
25               4937                875      28495                         1
26               5725                934       7606                         1
27             124381                307      13863                         1
28                655                  0        929                         1
29                476                  0         18                         1
30                631                886        272                         1
31               1106                  0       2840                         1
32                951                  0        838                         1
33                136                  0       1293                         1
34                209                  0       3333                         1

Tabel 6. Hasil Analisis K-Means Clustering Sebelum Diurutkan

> hasil_kmeans[order(hasil_kmeans$kmeans_clustering.cluster),]
   Bawang.Merah..Ton. Bawang.Putih..Ton. Sawi..Ton. kmeans_clustering.cluster
1               11246                796       3755                         1
2               29222               1339      75424                         1
3              153770               4906      33929                         1
4                 263                  0       1423                         1
5               11977                502       7359                         1
6                 934                115       4383                         1
7                1153                971      33409                         1
8                2105                808      10572                         1
9                 157                  0       1231                         1
10                123                  0       2793                         1
11                  0                  0       2554                         1
12             164827               3253     189354                         1
14              18811                  1       3337                         1
16               1404                  0       7054                         1
17              14207               1329      29052                         1
18             188740              24609       5195                         1
19              10424                974      11880                         1
20                227                  0       4499                         1
21                 79                  0       2471                         1
22                462                  0       1447                         1
23                267                  0       7694                         1
24                 90                  0       3857                         1
25               4937                875      28495                         1
26               5725                934       7606                         1
27             124381                307      13863                         1
28                655                  0        929                         1
29                476                  0         18                         1
30                631                886        272                         1
31               1106                  0       2840                         1
32                951                  0        838                         1
33                136                  0       1293                         1
34                209                  0       3333                         1
13             611165              33304      87597                         2
15             454584               5898      77716                         2

Tabel 7. Hasil Analisis K-Means Clustering Setelah Diurutkan

Fungsi order() digunakan untuk mengurutkan provinsi di Indonesia berdasarkan hasil produksi sayuran bawang merah, bawang putih dan sawi berdasarkan cluster yang sama. Jika diringkas menjadi bentuk tabel, pengelompokkan provinsi di Indonesia berdasarkan hasil produksi sayuran pada bawang putih, bawang merah dan sawi adalah sebagai berikut.

Provinsi pada Cluster 1

Tabel 8. Provinsi Pada Cluster 1
No. Provinsi Bawang Merah (Ton) Bawang Putih (Ton) Sawi (Ton) Cluster
1. Aceh 11246 796 3755 1
2. Sumatera Utara 29222 1339 75424 1
3. Sumatera Barat 153770 4906 33929 1
4. Riau 263 0 1423 1
5. Jambi 11977 502 7359 1
6. Sumatera Selatan 934 115 4383 1
7. Bengkulu 1153 971 33409 1
8. Lampung 2105 808 10572 1
9. Kep. Bangka Belitung 157 0 1231 1
10. Kep. Riau 123 0 2793 1
11. DKI Jakarta 0 0 2554 1
12. Jawa Barat 164827 3253 189354 1
14. DI Yogyakarta 18811 1 3337 1
16. Banten 1404 0 7054 1
17. Bali 14207 1329 29052 1
18. Nusa Tenggara Barat 188740 24609 5195 1
19. Nusa Tenggara Timur 10424 974 11880 1
20. Kalimantan Barat 227 0 4499 1
21. Kalimantan Tengah 79 0 2471 1
22. Kalimantan Selatan 462 0 1447 1
23. Kalimantan Timur 267 0 7694 1
24. Kalimantan Utara 90 0 3857 1
25. Sulawesi Utara 4937 875 28495 1
26. Sulawesi Tengah 5725 934 7606 1
27. Sulawesi Selatan 124381 307 13863 1
28. Sulawesi Tenggara 655 0 929 1
29. Gorontalo 476 0 18 1
30. Sulawesi Barat 631 886 272 1
31. Maluku 1106 0 2840 1
32. Maluku Utara 951 0 838 1
33. Papua Barat 136 0 1293 1
34. Papua 209 0 3333 1

Provinsi pada Cluster 2

Tabel 9. Provinsi Pada Cluster 2
No. Provinsi Bawang Merah (Ton) Bawang Putih (Ton) Sawi (Ton) Cluster
13. Jawa Tengah 611165 33304 87597 2
15. Jawa Timur 454584 5898 77716 2

Berdasarkan tabel 8, diperoleh 32 provinsi yang berada pada cluster 1. Dengan hasil produksi bawang merah terbanyak pada Provinsi Nusa Tenggara Barat sebanyak 188740 ton, hasil produksi bawang merah tertinggi kedua adalah Jawa Barat sebanyak 164827 ton, selanjutnya Provinsi Sumatera Barat sebanyak 153770 ton, Sulawesi Selatan sebanyak 124381 ton, Sumatera Utara sebanyak 29222 ton, DI Yogyakarta sebanyak 18811 ton, Bali sebanyak 14207 ton, Jambi sebanyak 11977 ton, Aceh sebanyak 11246 ton, Nusa Tenggara Timur sebanyak 10424 ton, diikuti provinsi lain seperti Sulawesi Tengah, Sulawesi Utara, Lampung, Banten, Bengkulu, Maluku, Maluku Utara, Sumatera Selatan, Sulawesi Tenggara, Sulawesi Barat, Gorontalo, Kalimantan Selatan, Kalimantan Timur, Riau, Kalimantan Barat, Papua, Kep. Bangka Belitung, Papua Barat, Kep. Riau, Kalimantan Utara, Kalimantan Tengah dan DKI Jakarta. Hasil produksi bawang merah terendah pada Provinsi DKI Jakarta tidak memproduksi dalam ton pada tahun 2020, terendah kedua adalah Kalimantan Tengah dengan hasil produksi 79 ton dan terendah ketiga adalah Kalimantan Utara sebanyak 90 ton. Hal ini diduga karena 32 provinsi ini memiliki kondisi wilayah yang hampir sama dan berdekatan sehingga hasil produksinya tidak berbeda jauh pada tahun 2020.

Provinsi di Indonesia yang berada pada cluster 1 berdasarkan hasil produksi bawang putih terbanyak pertama adalah Provinsi Nusa Tenggara Barat sebanyak 24609 ton, tertinggi kedua adalah Provinsi Sumatera Barat sebesar 4906 ton, tertinggi ketiga adalah Provinsi Jawa Barat sebesar 3253, selanjutnya Provinsi Sumatera Utara sebanyak 1339 ton, Bali sebanyak 1329 ton, Nusa Tenggara Timur sebanyak 974 ton, Bengkulu sebanyak 971 ton, Sulawesi Tengah sebanyak 934 ton, Sulawesi Barat sebanyak 886 ton, diikuti Provinsi Sulawesi Utara, Lampung, Aceh, Jambi, Sulawesi Selatan, Sumatera Selatan dan DI Yogyakarta. Provinsi yang menghasilkan hasil produksi bawang putih terendah yaitu Provinsi DI Yogyakarta sebanyak 1 ton, terendah kedua adalah Provinsi Sumatera Selatan sebanyak 115 ton dan terendah ketiga adalah Provinsi Sulawesi Selatan sebanyak 307 ton. Untuk provinsi seperti Banten, Maluku, Maluku Utara, Sulawesi Tenggara, Gorontalo, Kalimantan Selatan, Kalimantan Timur, Riau, Kalimantan Barat, Papua, Kep. Bangka Belitung, Papua Barat, Kep. Riau, Kalimantan Utara, Kalimantan Tengah dan DKI Jakarta tidak memproduksi bawang putih dalam ton pada tahun 2020. Hal ini juga diduga karena 32 provinsi ini memiliki kondisi wilayah yang hampir sama dan berdekatan sehingga hasil produksinya tidak berbeda jauh pada tahun 2020.

Provinsi di Indonesia yang berada pada cluster 1 berdasarkan hasil produksi sawi terbanyak pertama adalah Provinsi Jawa Barat sebanyak 189354 ton, tertinggi kedua adalah Provinsi Sumatera Utara sebanyak 75424 ton, tertinggi ketiga adalah Provinsi Sumatera Barat sebanyak 33929 ton, selanjutnya Provinsi Bengkulu sebanyak 33409 ton, Bali sebanyak 29052 ton, Sulawesi Utara sebanyak 28495 ton, Sulawesi Selatan sebanyak 13863 ton, Nusa Tenggara Timur sebanyak 11880 ton, Lampung sebanyak 10572 ton, diikuti Provinsi Kalimantan Timur, Sulawesi Tengah, Jambi, Banten, Nusa Tenggara Barat, Kalimantan Barat, Sumatera Selatan, Kalimantan Utara, Aceh, DI Yogyakarta, Papua, Maluku, Kep. Riau, DKI Jakarta, Kalimantan Tengah, Kalimantan Selatan, Riau, Papua Barat, Kep. Bangka Belitung, Sulawesi Tenggara, Maluku Utara, Sulawesi Barat dan Gorontalo. Provinsi yang menghasilkan hasil produksi sawi terendah pertama adalah Provinsi Gorontalo sebanyak 18 ton, terendah kedua adalah Provinsi Sulawesi Barat sebanyak 272 ton dan terendah ketiga adalah Provinsi Maluku Utara sebanyak 838 ton. Kondisi iklim dan kedekatan wilayah pada cluster juga mempengaruhi hasil produksi sawi pada tahun 2020.

Sedangkan berdasarkan tabel 9, diperoleh 2 provinsi yang berada pada cluster 2. Dengan hasil produksi terbanyak adalah Provinsi Jawa Tengah dengan hasil produksi bawang merah sebanyak 611165 ton, bawang putih sebanyak 33304 ton dan hasil produksi sawi sebanyak 87597 ton. Diikuti dengan Provinsi Jawa Timur dengan hasil produksi bawang merah sebanyak 454584 ton, bawang putih sebanyak 5898 ton dan hasil produksi sawi sebanyak 77716 ton pada tahun 2020. Jika dilihat di peta, kedua provinsi ini cukup dekat sehingga mempunyai kondisi iklim yang sama sehingga hasil produksi keduanya tidak jauh berbeda.

3.3 Plot Klaster

> fviz_cluster(kmeans_clustering, data = dataku)

Plot 3. Plot Hasil Analisis K-Means Clustering

Berdasarkan plot, terlihat bahwa terdapat titik-titik yang membentuk segitiga merah dan garis lurus. Titik-titik yang membentuk segitiga menjelaskan bahawa provinsi di Indonesia berdasarkan hasil produksi sayuran bawang merah, bawang putih dan sawi yang berada pada cluster 1 terdapat 32 provinsi yaitu Provinsi Aceh, Sumatera Utara, Sumatera Barat, Riau, Jambi, Sumatera Selatan, Bengkulu, Lampung, Kep. Bangka Belitung, Kep. Riau, DKI Jakarta, Jawa Barat, DI Yogyakarta, Banten, Bali, Nusa Tenggara Barat, Nusa Tenggara Timur, Kalimantan Barat, Kalimantan Tengah, Kalimantan Selatan, Kalimantan Timur, Kalimantan Utara, Sulawesi Utara, Sulawesi Tengah, Sulawesi Selatan, Sulawesi Tenggara, Gorontalo, Sulawesi Barat, Maluku, Maluku Utara, Papua Barat dan Provinsi Papua. Maka dapat disimpulkan 32 wilayah tersebut memiliki karakteristik hasil produksi pertanian yang hampir sama, hal ini diduga karena kondisi wilayah yang berdekatan yang menyebabkan kondisi iklim yang sama sehingga jumlah hasil produksi yang hampir sama pula. Sedangkan titik-titik yang membentuk garis lurus berwarna hijau adalah 2 provinsi yaitu provinsi Jawa Tengah dan Provinsi Jawa Timur menjelaskan bahwa 2 wilayah ini terletak pada cluster 2, hal ini diduga oleh kondisi iklim yang sama karena kedua wilayah ini berdekatan sehingga hasil produksi sayuran bawang merah, bawang putih dan sawi tidak jauh berbeda pada tahun 2020.

4 DAFTAR PUSTAKA

Badan Pusat Statistik. 2022. Produksi Tanaman Sayuran. https://www.bps.go.id/indicator/55/61/1/produksi-tanaman-sayuran.html. Diakses pada 18 Mei 2022.

Mason, R. D. 1996. Teknik Statistika untuk Bisnis & Ekonomi. Jakarta: Erlangga.

Rivani, E. 2009. Aplikasi K-Means Cluster Untuk Pengelompokkan Provinsi Berdasarkan Produksi Padi, Jagung, Kedelai, Dan Kacang Hijau Tahun 2009. Bandung: Jurusan Statistika Terapan Universitas Padjadjaran.

Rahmawati, L., Sihwi, S. W dan Suryani, E. 2016. Analisa Clustering Menggunakan Metode K-Means Dan Hierarchical Clustering (Studi Kasus: Dokumen Skripsi Jurusan Kimia, FMIPA, Universitas Sebelas Maret). Surakarta: Jurusan Informatika Universitas Sebelas Maret.