Sektor pertanian yang luas dan sumber daya yang beraneka ragam membuat Indonesia dijuluki sebagai negara agraris, yaitu negara yang sebagian besar penduduknya bekerja pada bidang pertanian. Di negara agraris seperti Indonesia, pertanian mempunyai peranan yang sangat penting dalam sektor sosial, ekonomi dan perdagangan nasional. Selain itu, pertanian juga ikut berperan dalam penyerapan tenaga kerja, mengurangi tingkat pengangguran, penyumbang devisa negara, sebagai penentu stabilitas harga dan penghasil makanan masyarakat. Indonesia adalah salah satu negara di Asia Tenggara yang terkenal kaya akan hasil produksi pertanian yang melimpah, salah satunya adalah produksi sayuran. Meskipun tidak seperti padi yang merupakan sumber makanan pokok utama di Indonesia, komoditas sayuran juga menyumbang peranan yang tidak kalah penting jika dibandingkan dengan padi. Guna mengatur kebutuhan sayuran di Indonesia, pemerintah perlu mengoptimalkan produksi sayuran di Indonesia. Hasil panen atau produksi sayuran di setiap provinsi di Indonesia dapat digunakan sebagai dasar untuk melakukan pemetaan produksi sayuran. Langkah ini dilakukan bertujuan untuk mengetahui provinsi di Indonesia yang memiliki hasil produksi sayuran yang kurang maksimal. Sehingga nantinya pemerintah dapat melakukan langkah-langkah perbaikan terhadap provinsi yang menghasilkan hasil produksi sayuran yang kurang maksimal tersebut. Langkah-langkah perbaikan tersebut tentunya harus disertai dan didukung dengan data yang relevan dan juga pengetahuan yang tersedia. Salah satu metode analisis yang dapat digunakan adalah dengan menggunakan analisis K-Means Clustering.
K-Means Clustering merupakan salah satu metode data clustering nonhirarki yang berusaha mempartisi data yang ada dalam bentuk satu atau lebih cluster. Data dengan karakteristik yang sama dikelompokkan dalam satu cluster yang sama, sedangkan data dengan karakteristik yang berbeda dikelompokkan dalam satu cluster yang berbeda. Oleh karena itu, analisis ini bertujuan untuk mengetahui pengelompokkan provinsi di Indonesia berdasarkan produksi komoditas sayuran dan mengetahui cluster provinsi mana yang memproduksi sayuran yang paling banyak dan paling sedikit di Indonesia pada tahun 2020.
Menurut Mason (1996), Statistika
Deskriptif adalah metode-metode statistika yang
digunakan untuk menggambarkan data yang telah dikumpulkan. Data yang
telah dikumpulkan perlu disajikan agar mudah dimengerti, menarik,
komunikatif, dan informatif bagi pembaca. Berdasarkan ruang lingkup
kajiannya, statistika deskriptif meliputi:
- Distribusi Frekuensi
- Penyajian Grafik, Gambar dan Diagram.
- Pengukuran tendensi sentral data meliputi: Mean, Median dan
Modus.
- Pengukuran letak data meliputi: Kuartil, Desil dan Persentil.
- Penyebaran data meliputi: Range, Mean Deviasi, Standar Deviasi,
Varians.
- Angka Indeks.
- Time series meliputi: Rata-Rata Bergerak, Pemulusan Eksponensial dan
lain-lain.
- Korelasi dan Regresi Sederhana.
K-Means Clustering merupakan salah satu
metode data clustering non hirarki yang berusaha mempartisi
data yang ada ke dalam bentuk satu atau lebih cluster atau
kelompok sehingga data yang memiliki karakteristik yang sama
dikelompokkan ke dalam satu cluster yang sama dan data yang
mempunyai karakteristik yang berbeda dikelompokkan ke dalam kelompok
lainnya.
K-Means adalah metode clustering
berbasis jarak yang membagi data ke dalam sejumlah cluster dan
algoritma ini hanya bekerja pada data dengan atribut numerik. Algoritma
K-Means termasuk partitioning clustering yang
memisahkan data ke k daerah bagian yang terpisah. Algoritma
K-Means sangat terkenal karena kemudahan dan kemampuannya
meng-cluster data yang besar dan data outlier dengan sangat
cepat. K-Means merupakan metode non hirarki yang pada awalnya
mengambil sebagian banyaknya komponen populasi untuk dijadikan pusat
cluster awal. Berikutnya K-Means menguji masing-masing
komponen di dalam populasi data dan menandai komponen tersebut ke salah
satu pusat cluster yang telah didefinisikan tergantung dari
jarak minimum antar komponen dengan tiap-tiap cluster. Posisi
pusat cluster akan dihitung kembali sampai semua komponen data
digolongkan ke dalam tiap-tiap pusat cluster dan terakhir akan
terbentuk posisi pusat cluster yang baru.
Menurut Sarwono, berikut adalah langkah-langkah dari algoritma K-Means:
Data yang digunakan dalam melakukan analisis K-Means Clustering untuk mengetahui pengelompokkan provinsi di Indonesia berdasarkan produksi sayuran dan mengetahui cluster provinsi mana yang memproduksi sayuran yang paling banyak dan paling sedikit adalah dengan menggunakan data hasil produksi sayuran seperti bawang merah, bawang putih dan sawi di Indonesia pada tahun 2020. Data yang digunakan dalam analisis ini adalah data sekunder yang diperoleh dari Badan Pusat Statistik. Data yang digunakan adalah sebagai berikut.
No. | Provinsi | Bawang Merah (Ton) | Bawang Putih (Ton) | Sawi (Ton) |
---|---|---|---|---|
1. | Aceh | 11246 | 796 | 3755 |
2. | Sumatera Utara | 29222 | 1339 | 75424 |
3. | Sumatera Barat | 153770 | 4906 | 33929 |
4. | Riau | 263 | 0 | 1423 |
5. | Jambi | 11977 | 502 | 7359 |
6. | Sumatera Selatan | 934 | 115 | 4383 |
7. | Bengkulu | 1153 | 971 | 33409 |
8. | Lampung | 2105 | 808 | 10572 |
9. | Kep. Bangka Belitung | 157 | 0 | 1231 |
10. | Kep. Riau | 123 | 0 | 2793 |
11. | DKI Jakarta | 0 | 0 | 2554 |
12. | Jawa Barat | 164827 | 3253 | 189354 |
13. | Jawa Tengah | 611165 | 33304 | 87597 |
14. | DI Yogyakarta | 18811 | 1 | 3337 |
15. | Jawa Timur | 454584 | 5898 | 77716 |
16. | Banten | 1404 | 0 | 7054 |
17. | Bali | 14207 | 1329 | 29052 |
18. | Nusa Tenggara Barat | 188740 | 24609 | 5195 |
19. | Nusa Tenggara Timur | 10424 | 974 | 11880 |
20. | Kalimantan Barat | 227 | 0 | 4499 |
21. | Kalimantan Tengah | 79 | 0 | 2471 |
22. | Kalimantan Selatan | 462 | 0 | 1447 |
23. | Kalimantan Timur | 267 | 0 | 7694 |
24. | Kalimantan Utara | 90 | 0 | 3857 |
25. | Sulawesi Utara | 4937 | 875 | 28495 |
26. | Sulawesi Tengah | 5725 | 934 | 7606 |
27. | Sulawesi Selatan | 124381 | 307 | 13863 |
28. | Sulawesi Tenggara | 655 | 0 | 929 |
29. | Gorontalo | 476 | 0 | 18 |
30. | Sulawesi Barat | 631 | 886 | 272 |
31. | Maluku | 1106 | 0 | 2840 |
32. | Maluku Utara | 951 | 0 | 838 |
33. | Papua Barat | 136 | 0 | 1293 |
34. | Papua | 209 | 0 | 3333 |
Sumber Data : https://www.bps.go.id/
Library yang diperlukan untuk analisis Cluster dengan metode K-Means adalah sebagai berikut.
> library(cluster)
> library(factoextra)
> library(tidyverse)
> library(knitr)
> library(rmarkdown)
> library(prettydoc)
> library(equatiomatic)
> library(magrittr)
> library(readxl)
data <- read_excel("datalaprak1.xlsx")
Data diperoleh dengan cara input data ke excel lalu disimpan dengan
format excel dan selanjutnya diimport ke RStudio. Fungsi
read_excel()
digunakan untuk mengimport data yang memiliki
format excel dari file directory lokal. Di dalam fungsi
read_excel
terdapat argumen datalaprak1.xlxs
yang berarti mengimport data bernama datalaprak1
yang
memiliki format excel. Datalaprak1 didefinisikan dengan nama
data.
dataku = data[,-1]
Didefinisikan dataku sebagai fungsi dari
data
dengan menghilangkan kolom pertama, kolom yang
dihilangkan adalah kolom Provinsi di Indonesia, kolom Provinsi
dihilangkan agar memudahkan dalam analisis di RStudio.
summary(data)
Fungsi summary
digunakan untuk melihat ringkasan
(summary) dari suatu kolom (variable) atau grup kolom
(group variable). Argumen yang diisikan dalam fungsi yaitu
data
yang berarti melihat ringkasan dari data yang telah
diberi nama data. Dengan menggunakan fungsi
summary
, diperoleh ringkasan dari data produksi sayuran
pada setiap Provinsi di Indonesia.
fviz_nbclust(dataku, kmeans, method = "wss")
Fungsi fviz_nbclust
dari package factoextra
digunakan untuk memilih banyaknya cluster (gerombol). Argumen
yang diisikan dalam fungsi yaitu dataku
,
kmeans
, method = "wss"
, yang berarti
menggunakan data yang telah diberi nama dataku dengan
analisis kmeans dan metode wss
(elbow).
fviz_nbclust(dataku, kmeans, method = "silhouette")
Fungsi fviz_nbclust
dari package factoextra
digunakan untuk memilih banyaknya cluster (gerombol). Argumen
yang diisikan dalam fungsi yaitu dataku
,
kmeans
, method = "silhouette"
, yang berarti
menggunakan data yang telah diberi nama dataku dengan
analisis kmeans dan metode
silhouette.
kmeans_clustering = kmeans(dataku, 2, nstart = 25)
Fungsi kmeans
di RStudio digunakan untuk mengelompokkan
data. Argumen yang diisikan dalam fungsi yaitu dataku
dan
2
. 2
adalah hasil penentuan banyaknya
cluster dari metode wss
dan
silhoutte
, menggunakan data yang telah diberi nama
dataku. Dengan menggunakan patokan cluster
sebanyak 2 dibentuk fungsi dari kmeans
yang diberi nama
kmeans_clustering.
hasil_kmeans = data.frame(dataku, kmeans_clustering$cluster)
Fungsi data.frame
di RStudio adalah fungsi yang dapat
digunakan untuk membuat kerangka data yang disusun mirip seperti tabel
yang terdiri dari baris dan kolom. Argumen yang diisikan dalam fungsi
yaitu dataku
dan kmeans_clustering$cluster
.
Dengan fungsi data.frame
diperoleh data frame dengan
menggunakan data dataku
yang diberi nama
hasil_kmeans.
hasil_kmeans[order(hasil_kmeans$kmeans_clustering.cluster),]
Fungsi order
digunakan untuk mengurutkan data berdasarkan
cluster yang sama dari hasil_kmeans. Argumen
yang diisikan dalam fungsi yaitu
hasil_kmeans$kmeans_clustering.cluster
, yang berarti
mengurutkan data berdasarkan cluster yang terbentuk.
dataku%>% mutate(cluster = kmeans_clustering$cluster)%>%
group_by(cluster)%>%summarise_all("mean")
Fungsi mutate
adalah fungsi yang dapat membuat kolom baru
(new column or new variable) berdasarkan suatu fungsi. Fungsi
mutate
biasanya diikuti dengan function
group_by
. Argumen yang diisikan dalam fungsi yaitu
cluster = kmeans_clustering$cluster
, yang berarti
meng-clusterkan data berdasarkan mean (nilai
rata-rata).
fviz_cluster(kmeans_clustering, data = dataku)
Fungsi fviz_cluster
adalah fungsi di RStudio yang digunakan
untuk memvisualisasikan data berdasarkan cluster atau juga
dapat dikatakan sebagai fungsi untuk membuat plot berdasarkan
cluster. Argumen yang diisikan dalam fungsi yaitu
kmeans_clustering, data = dataku
, yang berarti
memvisualisasikan data yang telah diberi nama
dataku.
Mean (Rata-Rata) adalah ukuran pemusatan data atau wakil dari sekumpulan data. Simbol notasi untuk Mean (rata-rata) adalah \(\mu\).
Varians (Ragam) adalah ukuran statistik tentang seberapa tersebar titik-titik data dalam kumpulan data. Simbol notasi untuk Varians (Ragam) adalah \(\sigma^2\) untuk populasi dan \(s^2\) untuk sampel.
Standard Deviation (Simpangan Baku) adalah ukuran statistik untuk menentukan seberapa dekat data dari suatu sampel dengan rata-rata data. Simbol notasi untuk Standard Deviation (Simpangan Baku) adalah \(\sigma\) untuk populasi dan \(s\) untuk sampel.
Median (Nilai Tengah) adalah nilai tengah dari sekumpulan data setelah diurutkan dari data terkecil hingga terbesar, maupun sebaliknya. Simbol notasi untuk Median (Nilai Tengah) biasanya adalah \(Me\).
Modus adalah ukuran pemusatan yang menyatakan kejadian yang paling banyak terjadi. Simbol notasi untuk Modus biasanya adalah \(Mod\).
Statistika Deskriptif | Bawang Merah (Ton) | Bawang Putih (Ton) | Sawi (Ton) |
---|---|---|---|
Minimal | 0 | 0 | 18 |
Maksimal | 611165 | 33304 | 189354 |
Rata-Rata (Mean) | 53395 | 2406.1 | 19632 |
Median | 1130 | 58 | 4441 |
Ragam (Varians) | 17787791496 | 48390342 | 1421142498 |
Standar Deviasi | 133370.88 | 6956.317 | 37698.044 |
Berdasarkan Data yang digunakan, diperoleh nilai rata-rata bawang merah adalah 53395, yang menjelaskan bahwa rata-rata hasil produksi bawang merah sebanyak 53395 ton dari seluruh provinsi di Indonesia, dengan hasil produksi terendah adalah tidak ada produksi dan produksi tertinggi sebanyak 611165 ton pada tahun 2020. Penyebaran hasil produksi bawang merah di seluruh provinsi di Indonesia sebanyak 17787791496 ton dengan simpangan baku sebesar 133370.88 ton pada tahun 2020.
Untuk hasil produksi bawang putih, diperoleh nilai rata-rata bawang putih adalah 2406.1, yang menjelaskan bahwa rata-rata hasil produksi bawang putih sebanyak 2406.1 ton dari seluruh provinsi di Indonesia, dengan hasil produksi terendah adalah tidak ada produksi dan produksi tertinggi sebanyak 33304 ton pada tahun 2020. Penyebaran hasil produksi bawang putih di seluruh provinsi di Indonesia sebanyak 48390342 ton dengan simpangan baku sebesar 6956.317 ton pada tahun 2020.
Untuk hasil produksi sawi, diperoleh nilai rata-rata sawi adalah 19632, yang menjelaskan bahwa rata-rata hasil produksi sawi sebanyak 19632 ton dari seluruh provinsi di Indonesia, dengan hasil produksi terendah sebanyak 18 ton dan produksi tertinggi sebanyak 189354 ton pada tahun 2020. Penyebaran hasil produksi sawi di seluruh provinsi di Indonesia sebanyak 1421142498 ton dengan simpangan baku sebesar 37698.044 ton pada tahun 2020.
Sebelum melakukan analisis cluster dengan metode K-Means pada RStudio, data diimport terlebih dahulu ke RStudio, data yang digunakan bernama datalaprak1 yang berformat excel. Setelah data diimport diperoleh data sayuran untuk bawang merah, bawang putih dan sawi dari seluruh Provinsi di Indonesia pada tahun 2020, datanya adalah sebagai berikut.
> data <- read_excel("datalaprak1.xlsx")
> data
# A tibble: 34 × 4
`Bawang Merah (Ton)` `Bawang Putih (Ton)` `Sawi (Ton)`
Provinsi <chr> <dbl> <dbl> <dbl>
1 ACEH 11246 796 3755
2 SUMATERA UTARA 29222 1339 75424
3 SUMATERA BARAT 153770 4906 33929
4 RIAU 263 0 1423
5 JAMBI 11977 502 7359
6 SUMATERA SELATAN 934 115 4383
7 BENGKULU 1153 971 33409
8 LAMPUNG 2105 808 10572
9 KEP. BANGKA BELITUNG 157 0 1231
10 KEP. RIAU 123 0 2793
# … with 24 more rows
Tabel 3. Hasil Produksi Sayuran di Indonesia
Untuk memudahkan perhitungan dengan RStudio, digunakan syntax berikut untuk menampilkan data tanpa kolom provinsi, berikut tampilannya datanya.
> dataku = data[,-1]
> dataku
# A tibble: 34 × 3
`Bawang Merah (Ton)` `Bawang Putih (Ton)` `Sawi (Ton)`
<dbl> <dbl> <dbl>
1 11246 796 3755
2 29222 1339 75424
3 153770 4906 33929
4 263 0 1423
5 11977 502 7359
6 934 115 4383
7 1153 971 33409
8 2105 808 10572
9 157 0 1231
10 123 0 2793
# … with 24 more rows
Tabel 4. Hasil Produksi Sayuran Tanpa Kolom Provinsi
Penentuan Banyaknya Cluster
Dalam melakukan analisis cluster dengan metode K-Means
di RStudio, langkah awal adalah menentukan jumlah Cluster
optimum yang terbentuk, terdapat 2 cara untuk menentukan jumlah
cluster yaitu dengan menggunakan metode wss (elbow)
dan metode silhouette. Banyaknya cluster yang dipilih
adalah bagian “siku” atau titik dimana terdapat penurunan yang tajam
sebelum titik tersebut dan diikuti penurunan yang tidak tajam setelah
titik tersebut. Hal ini karena penambahan jumlah cluster tidak
membawa pengaruh banyak atas variasi yang ada di dalam cluster
tersebut. Berikut adalah hasil banyaknya cluster yang diperoleh
dengan menggunakan metode wss (elbow) dan
silhoutte.
> fviz_nbclust(dataku, kmeans, method = "wss")
Plot 1. Banyaknya Cluster Menggunakan Metode WSS (Elbow)
Berdasarkan plot 1, terlihat bahwa titik yang menurun tajam dibandingkan dengan titik yang lain adalah titik kedua, sehingga dengan menggunakan metode wss (elbow) dapat diperoleh banyaknya cluster adalah 2 cluster.
> fviz_nbclust(dataku, kmeans, method = "silhouette")
Plot 2. Banyaknya Cluster Menggunakan Metode Silhouette
Berdasarkan plot 2, terlihat bahwa titik yang naik tajam dibandingkan dengan titik yang lain adalah titik kedua, sehingga dengan menggunakan metode silhouette dapat diperoleh banyaknya cluster adalah 2 cluster.
Dengan menggunakan metode wss (elbow) dan metode silhouette menghasilkan hasil yang sama, dengan cluster sebanyak 2. Sehingga dapat dijelaskan bahwa hasil produksi sayuran bawang putih, bawang merah dan sawi di seluruh provinsi di Indonesia terdapat 2 cluster (gerombol).
Analisis Cluster
Analisis cluster dilakukan dengan menggunakan fungsi
kmeans
. Hal yang perlu diperhatikan ketika melakukan
analisis cluster dengan metode K-Means adalah inisiasi
centroid awal, hal ini karena algoritma K-Means
dimulai dengan menempatkan (menginisiasi) centroid awal secara
acak dalam data. Akibatnya, hasil cluster yang dihasilkan dapat
berbeda-beda jika hanya menggunakan sekali inisiasi. Maka dari itu,
perlu dilakukan pengulangan algoritma K-Means beberapa kali
dengan nilai inisiasi awal yang berbeda guna menghasilkan
cluster yang optimum.
Dalam fungsi kmeans()
terdapat parameter
nstart
yang digunakan untuk memberitahu fungsi beberapa
kali inisiasi awal yang pengguna inginkan.
Dalam data ini, digunakan nilai inisiasi sebanyak 25 kali dilihat
dari nstart = 25
. Algoritma K-Means akan memilih
hasil cluster terbaik dengan nilai total within-cluster
variation yang terkecil dari ke-25 inisiasi centroid awal.
Total within-cluster variation yang kecil menjelaskan bahwa
secara umum cluster yang terbentuk diisikan oleh observasi yang
homogen atau serupa.
Output dari fungsi kmeans()
memiliki beberapa informasi
sebagai berikut.
* cluster
: vector yang berisikan lokasi cluster tiap
objek
* centers
: matriks yang berisikan centroid atau
rata-rata tiap cluster.
* withinss
: vektor yang berisikan simpangan tiap
cluster yang terbentuk.
* tot.withinss
: total dari simpangan tiap cluster
yang terbentuk.
* size
: jumlah objek pada tiap cluster.
> kmeans_clustering = kmeans(dataku, 2, nstart = 25)
> kmeans_clustering
-means clustering with 2 clusters of sizes 32, 2
K
:
Cluster meansMerah (Ton) Bawang Putih (Ton) Sawi (Ton)
Bawang 1 23427.97 1331.406 15692.47
2 532874.50 19601.000 82656.50
:
Clustering vector1] 1 1 1 1 1 1 1 1 1 1 1 1 2 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
[
:
Within cluster sum of squares by cluster1] 125201519881 12683166279
[/ total_SS = 78.3 %)
(between_SS
:
Available components
1] "cluster" "centers" "totss" "withinss" "tot.withinss"
[6] "betweenss" "size" "iter" "ifault" [
Gambar 1. Hasil Analisis K-Means Clustering
> dataku%>% mutate(cluster = kmeans_clustering$cluster)%>%
+ group_by(cluster)%>%summarise_all("mean")
# A tibble: 2 × 4
`Bawang Merah (Ton)` `Bawang Putih (Ton)` `Sawi (Ton)`
cluster <int> <dbl> <dbl> <dbl>
1 1 23428. 1331. 15692.
2 2 532874. 19601 82656.
Tabel 5. Hasil Analisis Cluster
Berdasarkan tabel 5, diperoleh cluster sebanyak 2 cluster, dengan rata-rata tertinggi pada cluster ke-2 untuk bawang merah sebanyak 532874.50 ton, untuk bawang putih sebanyak 19601 ton dan sawi sebanyak 82656.5 ton. Sedangkan untuk cluster ke-1 bawang merah sebanyak 23427.97 ton, bawang putih sebanyak 1331.406 ton dan sawi sebanyak 15692.47 ton untuk provinsi di Indonesia.
Setelah itu, untuk mengetahui provinsi mana saja di Indonesia berdasarkan hasil produksi sayuran bawang putih, bawang merah dan sawi yang berada pada cluster 1 dan cluster 2, disajikan pada tabel berikut.
> hasil_kmeans = data.frame(dataku, kmeans_clustering$cluster)
> hasil_kmeans
Bawang.Merah..Ton. Bawang.Putih..Ton. Sawi..Ton. kmeans_clustering.cluster1 11246 796 3755 1
2 29222 1339 75424 1
3 153770 4906 33929 1
4 263 0 1423 1
5 11977 502 7359 1
6 934 115 4383 1
7 1153 971 33409 1
8 2105 808 10572 1
9 157 0 1231 1
10 123 0 2793 1
11 0 0 2554 1
12 164827 3253 189354 1
13 611165 33304 87597 2
14 18811 1 3337 1
15 454584 5898 77716 2
16 1404 0 7054 1
17 14207 1329 29052 1
18 188740 24609 5195 1
19 10424 974 11880 1
20 227 0 4499 1
21 79 0 2471 1
22 462 0 1447 1
23 267 0 7694 1
24 90 0 3857 1
25 4937 875 28495 1
26 5725 934 7606 1
27 124381 307 13863 1
28 655 0 929 1
29 476 0 18 1
30 631 886 272 1
31 1106 0 2840 1
32 951 0 838 1
33 136 0 1293 1
34 209 0 3333 1
Tabel 6. Hasil Analisis K-Means Clustering Sebelum Diurutkan
> hasil_kmeans[order(hasil_kmeans$kmeans_clustering.cluster),]
Bawang.Merah..Ton. Bawang.Putih..Ton. Sawi..Ton. kmeans_clustering.cluster1 11246 796 3755 1
2 29222 1339 75424 1
3 153770 4906 33929 1
4 263 0 1423 1
5 11977 502 7359 1
6 934 115 4383 1
7 1153 971 33409 1
8 2105 808 10572 1
9 157 0 1231 1
10 123 0 2793 1
11 0 0 2554 1
12 164827 3253 189354 1
14 18811 1 3337 1
16 1404 0 7054 1
17 14207 1329 29052 1
18 188740 24609 5195 1
19 10424 974 11880 1
20 227 0 4499 1
21 79 0 2471 1
22 462 0 1447 1
23 267 0 7694 1
24 90 0 3857 1
25 4937 875 28495 1
26 5725 934 7606 1
27 124381 307 13863 1
28 655 0 929 1
29 476 0 18 1
30 631 886 272 1
31 1106 0 2840 1
32 951 0 838 1
33 136 0 1293 1
34 209 0 3333 1
13 611165 33304 87597 2
15 454584 5898 77716 2
Tabel 7. Hasil Analisis K-Means Clustering Setelah Diurutkan
Fungsi order()
digunakan untuk mengurutkan provinsi di
Indonesia berdasarkan hasil produksi sayuran bawang merah, bawang putih
dan sawi berdasarkan cluster yang sama. Jika diringkas menjadi
bentuk tabel, pengelompokkan provinsi di Indonesia berdasarkan hasil
produksi sayuran pada bawang putih, bawang merah dan sawi adalah sebagai
berikut.
Provinsi pada Cluster 1
No. | Provinsi | Bawang Merah (Ton) | Bawang Putih (Ton) | Sawi (Ton) | Cluster |
---|---|---|---|---|---|
1. | Aceh | 11246 | 796 | 3755 | 1 |
2. | Sumatera Utara | 29222 | 1339 | 75424 | 1 |
3. | Sumatera Barat | 153770 | 4906 | 33929 | 1 |
4. | Riau | 263 | 0 | 1423 | 1 |
5. | Jambi | 11977 | 502 | 7359 | 1 |
6. | Sumatera Selatan | 934 | 115 | 4383 | 1 |
7. | Bengkulu | 1153 | 971 | 33409 | 1 |
8. | Lampung | 2105 | 808 | 10572 | 1 |
9. | Kep. Bangka Belitung | 157 | 0 | 1231 | 1 |
10. | Kep. Riau | 123 | 0 | 2793 | 1 |
11. | DKI Jakarta | 0 | 0 | 2554 | 1 |
12. | Jawa Barat | 164827 | 3253 | 189354 | 1 |
14. | DI Yogyakarta | 18811 | 1 | 3337 | 1 |
16. | Banten | 1404 | 0 | 7054 | 1 |
17. | Bali | 14207 | 1329 | 29052 | 1 |
18. | Nusa Tenggara Barat | 188740 | 24609 | 5195 | 1 |
19. | Nusa Tenggara Timur | 10424 | 974 | 11880 | 1 |
20. | Kalimantan Barat | 227 | 0 | 4499 | 1 |
21. | Kalimantan Tengah | 79 | 0 | 2471 | 1 |
22. | Kalimantan Selatan | 462 | 0 | 1447 | 1 |
23. | Kalimantan Timur | 267 | 0 | 7694 | 1 |
24. | Kalimantan Utara | 90 | 0 | 3857 | 1 |
25. | Sulawesi Utara | 4937 | 875 | 28495 | 1 |
26. | Sulawesi Tengah | 5725 | 934 | 7606 | 1 |
27. | Sulawesi Selatan | 124381 | 307 | 13863 | 1 |
28. | Sulawesi Tenggara | 655 | 0 | 929 | 1 |
29. | Gorontalo | 476 | 0 | 18 | 1 |
30. | Sulawesi Barat | 631 | 886 | 272 | 1 |
31. | Maluku | 1106 | 0 | 2840 | 1 |
32. | Maluku Utara | 951 | 0 | 838 | 1 |
33. | Papua Barat | 136 | 0 | 1293 | 1 |
34. | Papua | 209 | 0 | 3333 | 1 |
Provinsi pada Cluster 2
No. | Provinsi | Bawang Merah (Ton) | Bawang Putih (Ton) | Sawi (Ton) | Cluster |
---|---|---|---|---|---|
13. | Jawa Tengah | 611165 | 33304 | 87597 | 2 |
15. | Jawa Timur | 454584 | 5898 | 77716 | 2 |
Berdasarkan tabel 8, diperoleh 32 provinsi yang berada pada cluster 1. Dengan hasil produksi bawang merah terbanyak pada Provinsi Nusa Tenggara Barat sebanyak 188740 ton, hasil produksi bawang merah tertinggi kedua adalah Jawa Barat sebanyak 164827 ton, selanjutnya Provinsi Sumatera Barat sebanyak 153770 ton, Sulawesi Selatan sebanyak 124381 ton, Sumatera Utara sebanyak 29222 ton, DI Yogyakarta sebanyak 18811 ton, Bali sebanyak 14207 ton, Jambi sebanyak 11977 ton, Aceh sebanyak 11246 ton, Nusa Tenggara Timur sebanyak 10424 ton, diikuti provinsi lain seperti Sulawesi Tengah, Sulawesi Utara, Lampung, Banten, Bengkulu, Maluku, Maluku Utara, Sumatera Selatan, Sulawesi Tenggara, Sulawesi Barat, Gorontalo, Kalimantan Selatan, Kalimantan Timur, Riau, Kalimantan Barat, Papua, Kep. Bangka Belitung, Papua Barat, Kep. Riau, Kalimantan Utara, Kalimantan Tengah dan DKI Jakarta. Hasil produksi bawang merah terendah pada Provinsi DKI Jakarta tidak memproduksi dalam ton pada tahun 2020, terendah kedua adalah Kalimantan Tengah dengan hasil produksi 79 ton dan terendah ketiga adalah Kalimantan Utara sebanyak 90 ton. Hal ini diduga karena 32 provinsi ini memiliki kondisi wilayah yang hampir sama dan berdekatan sehingga hasil produksinya tidak berbeda jauh pada tahun 2020.
Provinsi di Indonesia yang berada pada cluster 1 berdasarkan hasil produksi bawang putih terbanyak pertama adalah Provinsi Nusa Tenggara Barat sebanyak 24609 ton, tertinggi kedua adalah Provinsi Sumatera Barat sebesar 4906 ton, tertinggi ketiga adalah Provinsi Jawa Barat sebesar 3253, selanjutnya Provinsi Sumatera Utara sebanyak 1339 ton, Bali sebanyak 1329 ton, Nusa Tenggara Timur sebanyak 974 ton, Bengkulu sebanyak 971 ton, Sulawesi Tengah sebanyak 934 ton, Sulawesi Barat sebanyak 886 ton, diikuti Provinsi Sulawesi Utara, Lampung, Aceh, Jambi, Sulawesi Selatan, Sumatera Selatan dan DI Yogyakarta. Provinsi yang menghasilkan hasil produksi bawang putih terendah yaitu Provinsi DI Yogyakarta sebanyak 1 ton, terendah kedua adalah Provinsi Sumatera Selatan sebanyak 115 ton dan terendah ketiga adalah Provinsi Sulawesi Selatan sebanyak 307 ton. Untuk provinsi seperti Banten, Maluku, Maluku Utara, Sulawesi Tenggara, Gorontalo, Kalimantan Selatan, Kalimantan Timur, Riau, Kalimantan Barat, Papua, Kep. Bangka Belitung, Papua Barat, Kep. Riau, Kalimantan Utara, Kalimantan Tengah dan DKI Jakarta tidak memproduksi bawang putih dalam ton pada tahun 2020. Hal ini juga diduga karena 32 provinsi ini memiliki kondisi wilayah yang hampir sama dan berdekatan sehingga hasil produksinya tidak berbeda jauh pada tahun 2020.
Provinsi di Indonesia yang berada pada cluster 1 berdasarkan hasil produksi sawi terbanyak pertama adalah Provinsi Jawa Barat sebanyak 189354 ton, tertinggi kedua adalah Provinsi Sumatera Utara sebanyak 75424 ton, tertinggi ketiga adalah Provinsi Sumatera Barat sebanyak 33929 ton, selanjutnya Provinsi Bengkulu sebanyak 33409 ton, Bali sebanyak 29052 ton, Sulawesi Utara sebanyak 28495 ton, Sulawesi Selatan sebanyak 13863 ton, Nusa Tenggara Timur sebanyak 11880 ton, Lampung sebanyak 10572 ton, diikuti Provinsi Kalimantan Timur, Sulawesi Tengah, Jambi, Banten, Nusa Tenggara Barat, Kalimantan Barat, Sumatera Selatan, Kalimantan Utara, Aceh, DI Yogyakarta, Papua, Maluku, Kep. Riau, DKI Jakarta, Kalimantan Tengah, Kalimantan Selatan, Riau, Papua Barat, Kep. Bangka Belitung, Sulawesi Tenggara, Maluku Utara, Sulawesi Barat dan Gorontalo. Provinsi yang menghasilkan hasil produksi sawi terendah pertama adalah Provinsi Gorontalo sebanyak 18 ton, terendah kedua adalah Provinsi Sulawesi Barat sebanyak 272 ton dan terendah ketiga adalah Provinsi Maluku Utara sebanyak 838 ton. Kondisi iklim dan kedekatan wilayah pada cluster juga mempengaruhi hasil produksi sawi pada tahun 2020.
Sedangkan berdasarkan tabel 9, diperoleh 2 provinsi yang berada pada cluster 2. Dengan hasil produksi terbanyak adalah Provinsi Jawa Tengah dengan hasil produksi bawang merah sebanyak 611165 ton, bawang putih sebanyak 33304 ton dan hasil produksi sawi sebanyak 87597 ton. Diikuti dengan Provinsi Jawa Timur dengan hasil produksi bawang merah sebanyak 454584 ton, bawang putih sebanyak 5898 ton dan hasil produksi sawi sebanyak 77716 ton pada tahun 2020. Jika dilihat di peta, kedua provinsi ini cukup dekat sehingga mempunyai kondisi iklim yang sama sehingga hasil produksi keduanya tidak jauh berbeda.
> fviz_cluster(kmeans_clustering, data = dataku)
Plot 3. Plot Hasil Analisis K-Means Clustering
Berdasarkan plot, terlihat bahwa terdapat titik-titik yang membentuk segitiga merah dan garis lurus. Titik-titik yang membentuk segitiga menjelaskan bahawa provinsi di Indonesia berdasarkan hasil produksi sayuran bawang merah, bawang putih dan sawi yang berada pada cluster 1 terdapat 32 provinsi yaitu Provinsi Aceh, Sumatera Utara, Sumatera Barat, Riau, Jambi, Sumatera Selatan, Bengkulu, Lampung, Kep. Bangka Belitung, Kep. Riau, DKI Jakarta, Jawa Barat, DI Yogyakarta, Banten, Bali, Nusa Tenggara Barat, Nusa Tenggara Timur, Kalimantan Barat, Kalimantan Tengah, Kalimantan Selatan, Kalimantan Timur, Kalimantan Utara, Sulawesi Utara, Sulawesi Tengah, Sulawesi Selatan, Sulawesi Tenggara, Gorontalo, Sulawesi Barat, Maluku, Maluku Utara, Papua Barat dan Provinsi Papua. Maka dapat disimpulkan 32 wilayah tersebut memiliki karakteristik hasil produksi pertanian yang hampir sama, hal ini diduga karena kondisi wilayah yang berdekatan yang menyebabkan kondisi iklim yang sama sehingga jumlah hasil produksi yang hampir sama pula. Sedangkan titik-titik yang membentuk garis lurus berwarna hijau adalah 2 provinsi yaitu provinsi Jawa Tengah dan Provinsi Jawa Timur menjelaskan bahwa 2 wilayah ini terletak pada cluster 2, hal ini diduga oleh kondisi iklim yang sama karena kedua wilayah ini berdekatan sehingga hasil produksi sayuran bawang merah, bawang putih dan sawi tidak jauh berbeda pada tahun 2020.
Badan Pusat Statistik. 2022. Produksi Tanaman Sayuran. https://www.bps.go.id/indicator/55/61/1/produksi-tanaman-sayuran.html. Diakses pada 18 Mei 2022.
Mason, R. D. 1996. Teknik Statistika untuk Bisnis & Ekonomi. Jakarta: Erlangga.
Rivani, E. 2009. Aplikasi K-Means Cluster Untuk Pengelompokkan Provinsi Berdasarkan Produksi Padi, Jagung, Kedelai, Dan Kacang Hijau Tahun 2009. Bandung: Jurusan Statistika Terapan Universitas Padjadjaran.
Rahmawati, L., Sihwi, S. W dan Suryani, E. 2016. Analisa Clustering Menggunakan Metode K-Means Dan Hierarchical Clustering (Studi Kasus: Dokumen Skripsi Jurusan Kimia, FMIPA, Universitas Sebelas Maret). Surakarta: Jurusan Informatika Universitas Sebelas Maret.