1. Pendahuluan
1.1 Latar Belakang
Pariwisata merupakan salah satu sektor terpenting dalam perekonomian
suatu negara. Pariwisata merupakan sektor yang menyumbang pendapatan
bagi banyak negara di dunia, sehingga peningkatan sektor pariwisata akan
berdampak pula pada peningkatan perekonomian negara. Pariwisata mampu
penciptakan lapangan kerja, peluang usaha, pendapatan daerah, dan lain
sebagainya.
Sebagai negara yang kaya akan tempat wisata, Indonesia
menjadi salah satu destinasi wisata, baik bagi wisatawan mancanegara
maupun wisatawan domestik. Berdasarkan data yang dicatat oleh Kementrian
Pariwisata dan Ekonomi Kreatif (Kemenparekraf), pada tahun 2022,
Indonesia menerima 5,5 juta kunjungan wisatawan mancanegara. Selain
wisman (wisatawan mancanegara), terdapat sekitar 800 juta perjalanan
yang dilakukan oleh wisatawan domestik. Melihat angka yang perjalanan
wisatawan yang sangat besar, maka sektor pariwisata perlu menjadi
perhatian seluruh pihak.
Oleh karena itu, peneliti tertarik untuk
melakukan penelitian lebih lanjut mengenai sektor pariwisata. Peneliti
menetapkan variabel yang diteliti, yaitu jumlah kunjungan wisatawan
Nusantara menurut provinsi tujuan tahun 2021, 2022, dan 2023. Data
kunjungan wisatawan diambil dari halaman website Badan Pusat
Statistik (BPS) Indonesia.
1.2 Data
> library(readxl)
> data <- read_excel("C:/Users/LENOVO/OneDrive/Documents/Data Laprak I Anmul I.xlsx")
> data
# A tibble: 34 × 5
No Provinsi `2021` `2022` `2023`
<dbl> <chr> <dbl> <dbl> <dbl>
1 1 Aceh 5534405 6954578 6044779
2 2 Sumatera Utara 17758183 23204456 20532719
3 3 Sumatera Barat 9603912 12339263 11315449
4 4 Riau 6143269 8404236 8142026
5 5 Jambi 3047167 3780983 3416089
6 6 Sumatera Selatan 6827337 8492364 8037321
7 7 Bengkulu 1770693 2113649 1879000
8 8 Lampung 9176866 10925704 10262614
9 9 Kepulauan Bangka Belitung 1063989 1578407 1671218
10 10 Kepulauan Riau 835672 1511354 1656946
# ℹ 24 more rows1.3 Latar Belakang Penggunaan Metode
Peneliti tertarik untuk menelusuri provinsi mana saja yang ramai dan jarang dikunjungi. Oleh karena itu, peneliti menggunakan analisis cluster untuk mengelompokkan provinsi-provinsi di Indonesia menjadi provinsi yang ramai dan jarang dikunjungi wisatawan domestik.
1.4 Tinjauan Pustaka
Analisis cluster adalah salau satu analisis multivariat yang bertujuan untuk mengelompokkan objek-objek menjadi suatu gerombol berdasarkan kemiripan karakteristiknya. Analisis cluster dibagi menjadi dua metode, yaitu metode hierarki dan non-hierarki.
a. Metode hirarki
Metode hierarki dimulai dengan mengelompokkan objek yang memiliki kemiripan karakterirstik yang paling dekat. Kemudian dilanjutkan dengan mengelompokkan data lain. Proses ini dilanjutkan sampai membentuk diagram mirip pohon yang disebut dengan dendogram. Objek pada cabang sama memiliki kemiripan yang tinggi, sedangkan objek pada cabang yang berlainan memiliki kemiripan yang rendah.
b. Metode non-hirarki
Metode non-hirarki diawali dengan menentukan banyak gerombol terlebih dahulu. Metode yang digunakan dalam metode hirarki adalah metode k-means. Setelah menentukan banyak gerombol, maka selanjutnya akan ditentukan centroid (rata-rata) setiap klaster. Kemudian, jarak setiap objek dengan setiap centroid dihitung dan centroid yang baru kembali dihitung. Proses dilanjutkan sampai tidak ada pemindahan objek ke gerombol yang lain.
Asumsi yang harus dipenuhi dalam analisis cluster ada dua, yaitu sampel representatif dan multikolinieritas.
a. Sampel representatif
Sampel dikatakan representatif apabila sampel yang diambil mewakili karakteristik populasi. Uji yang digunakan untuk menguji sampel representative adalah uji Kaiser-Mayer-Olkin (KMO) yang dapat mengukur kecukupan sampling setiap indikator. Statistik uji KMO berkisar antara 0 sampai 1. Jika nilai statistik uji berkisar antara 0,5 hingga 1, maka sampel dapat dikatakan representatif.
b. Multikolinieritas
Multikolinieritas adalah suatu keadaan dimana terdapat hubungan linier antara Sebagian atau seluruh variabel (Gujarati, 1978). Multikolinieritas dapat diukur dengan nilai VIF (Variance Inflating Factor). Jika nilai VIF >= 10, maka terdapat gejala multikolinieritas. Multikolinieritas dapat ditangani dengan PCA (Principal Component Analysis).
PCA adalah salah satu analisis multivariat yang digunakan untuk mereduksi variabel menjadi dimensi yang lebih kecil. Walaupun demikian, PCA tidak menghilangkan informasi dari variabel awal. Setelah direduksi, maka masalah multikolinieritas dapat tertangani.
Validitas cluster digunakan untuk mencari banyak klaster optimal. Ada tiga indeks validitas yang dapat digunakan, yaitu sebagai berikut.
1. Connectivity
Indeks connectivity berkisar antara 0 sampai tak hingga. Semakin kecil nilai indeksnya, maka semakin baik.
2. Dunn
Indeks Dunn adalah indeks yang menunjukkan rasio antara jarak terdekat objek dengan klaster berbeda dengan jarak terjauh objek di dalam klaster. Indeks Dunn berkisar antara 0 sampai tak hingga. Semakin besar nilainya, maka semakin baik.
3. Silhouette
Indeks Silhouette menggambarkan ketepatan titik objek berada dalam suatu klaster. Indeks Silhouette berkisar antara -1 hingga 1. Semakin mendekati satu, maka semakin tepat pengklasterannya.
1.5 Tujuan Penelitian
Tujuan penelitian ini adalah untuk mengelompokkan provinsi-provinsi di Indonesia berdasarkan provinsi tujuan wisatawan domestik menjadi provinsi yang ramai,dan jarang dikunjungi wisatawan domestik.
2. Source Code
> library(psych)
> library(GPArotation)
> library(clValid)
> library(cluster)
> library(factoextra)
> library(tidyverse)
> library(car)
> library(ggplot2)
> library(readxl)Kegunaan dari setiap library yaitu sebagai berikut.
1. psych, adalah paket yang menyimpan beberapa fungsi dalam berbagai analisis statistik.
2. GPArotation, adalah paket untuk rotasi faktor yang digunakan dalam analisis faktor.
3. clValid, adalah paket yang digunakan untuk validasi analisis cluster.
4. cluster, adalah paket yang menyimpan fungsi-fungsi yang digunakan dalam analisis cluster.
5. factoextra, adalah paket yang digunakan untuk visualisasi hasil analisis komponen utama daan cluster.
6. tidyverse, adalah paket yang digunakan untuk membuat data lebih bersih dan efisien.
7. car (companion to applied regression), adalah paket yang digunakan untuk menguji asumsi-asumsi dalam analisis regresi, termasuk asumsi multikolinieritas.
8. ggplot2, adalah paket yang digunakan untuk membuat grafik hasil analisis.
9. readxl, adalah paket yang digunakan untuk mengimpor dan membaca data dari Excel.
Sintaks di atas digunakan untuk memanggil data jumlah wisatawan domestik menurut provinsi tujuan dari Excel serta menampilkan datanya.
> summary(data)
No Provinsi 2021 2022
Min. : 1.00 Length:34 Min. : 308841 Min. : 354580
1st Qu.: 9.25 Class :character 1st Qu.: 1334296 1st Qu.: 2256138
Median :17.50 Mode :character Median : 3123802 Median : 5371227
Mean :17.50 Mean : 18038219 Mean : 21613667
3rd Qu.:25.75 3rd Qu.: 9889810 3rd Qu.: 13890547
Max. :34.00 Max. :159077924 Max. :200548137
2023
Min. : 393694
1st Qu.: 2073360
Median : 5351836
Mean : 18414275
3rd Qu.: 14209075
Max. :160324462 Output di atas merupakan statistik deskriptif dari data yang meliputi data minimum, maksimum, dan kuartil data.
Sebelum melakukan analisis cluster, maka uji asumsi dilakukan terlebih dahulu. Asumsi pertama yaitu sampel representatif dengan uji KMO.
Asumsi yang kedua yaitu multikolinieritas yang dilihat menggunakan matriks korelasi.
> correlation_matrix <- cor(data[,3:5], method = 'pearson')
> print(correlation_matrix)
2021 2022 2023
2021 1.0000000 0.9643517 0.9611268
2022 0.9643517 1.0000000 0.9970542
2023 0.9611268 0.9970542 1.0000000Karena korelasi mendekati satu, maka dilakukan penanganan dengan PCA.
> #PCA
> #Dengan matriks kovarian
> s <- cov(data[,3:5])
> s_eig <- eigen(s)
> #Menggambar scree plot dengan nilai eigen
> plot(s_eig$values, xlab="Eigen Value Number", ylab="Eigen Value Size", main="Scree Plot")
> lines(s_eig$values)> #Nilai kumulatif eigen
> for (eg in s_eig$values) {
+ print(eg / sum(s_eig$values))
+ }
[1] 0.9830201
[1] 0.01604814
[1] 0.0009317813
> #Satu komponen PC sudah menggambarkan 98,28% keragaman, maka menggunakan PC1
> #Persamaan PC
> s_eig$vectors[,1]
[1] 0.5710828 0.6336649 0.5218556
>
> #Fungsi PCA
> PCA1 <- prcomp(x=data[,3:5], scale=FALSE, center=TRUE)
> print(PCA1$rotation[,1], digits=4)
2021 2022 2023
0.5711 0.6337 0.5219
> summary(PCA1)
Importance of components:
PC1 PC2 PC3
Standard deviation 6.672e+07 8.525e+06 2.054e+06
Proportion of Variance 9.830e-01 1.605e-02 9.300e-04
Cumulative Proportion 9.830e-01 9.991e-01 1.000e+00
>
> #Skor pca
> pca_score <- PCA1$xSetelah melakukan PCA, maka data yang digunakan untuk analisis cluster yaitu sebagai berikut.
Pada k-means cluster, kita perlu menetapkan banyak klaster terlebih dahulu. Ada beberapa metode yang dapat digunakan untuk menentukan banyak klaster optimal, yaitu metode Elbow dan Silhouette.
> #Cluster K-Means
> #Pemilihan k optimal
> #metode elbow
> fviz_nbclust(matrix(datacluster[,2]), kmeans, method = "wss")Setelah menentukan banyak klaster, kita dapat lanjutkan dengan analisis cluster.
> banyak_cluster <- 2
> k_means <- kmeans(datacluster[,2], centers = banyak_cluster)
> print(k_means)
K-means clustering with 2 clusters of sizes 31, 3
Cluster means:
[,1]
1 -19176761
2 198159860
Clustering vector:
[1] 1 1 1 1 1 1 1 1 1 1 1 2 2 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
Within cluster sum of squares by cluster:
[1] 1.034446e+16 7.351159e+15
(between_SS / total_SS = 88.0 %)
Available components:
[1] "cluster" "centers" "totss" "withinss" "tot.withinss"
[6] "betweenss" "size" "iter" "ifault"
> print(k_means$cluster)
[1] 1 1 1 1 1 1 1 1 1 1 1 2 2 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1Berikut merupakan tabel provinsi beserta klasternya.
> print(data.frame(
+ "Provinsi"=data$Provinsi,
+ "Klaster"=k_means$cluster
+ ))
Provinsi Klaster
1 Aceh 1
2 Sumatera Utara 1
3 Sumatera Barat 1
4 Riau 1
5 Jambi 1
6 Sumatera Selatan 1
7 Bengkulu 1
8 Lampung 1
9 Kepulauan Bangka Belitung 1
10 Kepulauan Riau 1
11 DKI Jakarta 1
12 Jawa Barat 2
13 Jawa Tengah 2
14 DI. Yogyakarta 1
15 Jawa Timur 2
16 Banten 1
17 Bali 1
18 Nusa Tenggara Barat 1
19 Nusa Tenggara Timur 1
20 Kalimantan Barat 1
21 Kalimantan Tengah 1
22 Kalimantan Selatan 1
23 Kalimantan Timur 1
24 Kalimantan Utara 1
25 Sulawesi Utara 1
26 Sulawesi Tengah 1
27 Sulawesi Selatan 1
28 Sulawesi Tenggara 1
29 Gorontalo 1
30 Sulawesi Barat 1
31 Maluku 1
32 Maluku Utara 1
33 Papua Barat 1
34 Papua 1Selanjutnya, rata-rata kunjungan wisatawan dicari berdasarkan klaster yang sama.
> rata2 <- data %>%
+ mutate(cluster = k_means$cluster) %>%
+ group_by(cluster) %>%
+ summarise_all(mean, na.rm = TRUE)- Berikut merupakan visualisasi analisis cluster dalam bentuk plot.
> #Visualisasi
> fviz_cluster(k_means, data = datacluster, geom = "point", stand = FALSE, ellipse.type = "convex",
+ main = "K-Means Clustering Plot")Setelah mendapatkan hasil analisis cluster, validitas hasil diuji dengan indeks validitas.
3. Hasil dan Pembahasan
3.1 Asumsi
1. Sampel representatif
> kmo
Kaiser-Meyer-Olkin factor adequacy
Call: KMO(r = data[, 3:5])
Overall MSA = 0.74
MSA for each item =
2021 2022 2023
0.96 0.66 0.68 Nilai statistik uji KMO untuk setiap variabel lebih besar dari 0,5.
Maka, dapat disimpulkan bahwa sampel sudah representatif.
2.
Multikolinieritas
> print(correlation_matrix)
2021 2022 2023
2021 1.0000000 0.9643517 0.9611268
2022 0.9643517 1.0000000 0.9970542
2023 0.9611268 0.9970542 1.0000000Berdasarkan matriks korelasi, terdapat nilai korelasi yang mendekati satu. Maka, terdapat gejala multikolinieritas dan diatasi dengan PCA (Principal Component Analysis). Matriks yang digunakan dalam PCA adalah matriks kovarian karena satuan data setiap variabel seragam (kunjungan).
> for (eg in s_eig$values) {
+ print(eg / sum(s_eig$values))
+ }
[1] 0.9830201
[1] 0.01604814
[1] 0.0009317813Berdasarkan nilai kumulatif eigen, komponen pertama telah menggambarkan 98,28%. Maka, banyak komponen yang akan digunakan adalah satu komponen.
> print(PCA1$rotation[,1], digits=4)
2021 2022 2023
0.5711 0.6337 0.5219
> summary(PCA1)
Importance of components:
PC1 PC2 PC3
Standard deviation 6.672e+07 8.525e+06 2.054e+06
Proportion of Variance 9.830e-01 1.605e-02 9.300e-04
Cumulative Proportion 9.830e-01 9.991e-01 1.000e+00Berdasarkan output di atas, maka dapat dibentuk persamaan PCA, yaitu:
\[
Y=0.5711X_1+0.6337X_2+0.5219X_3
\] \(X_1=\)kunjungan wisatawan
domestik berdasarkan provinsi tujuan tahun 2021
\(X_2=\)kunjungan wisatawan domestik
berdasarkan provinsi tujuan tahun 2022
\(X_3=\)kunjungan wisatawan domestik
berdasarkan provinsi tujuan tahun 2023
3.2 Analisis Cluster
Analisis diawali dengan menentukan banyak klaster optimal. Metode yang digunakan yaitu metode Elbow dan Silhouette.
> #Pemilihan k optimal
> #metode elbow
> fviz_nbclust(matrix(datacluster[,2]), kmeans, method = "wss")
Berdasarkan plot, titik yang menyebabkan grafik membentuk siku
yaitu 2. Maka, berdasarkan metode Elbow, banyak klaster optimal
adalah dua klaster.
Berdasarkan plot, titik yang berada di puncak garis yaitu pada
saat banyak klaster sebanyak dua. Maka, berdasarkan metode silhouette,
banyak klaster optimal adalah dua klaster.
Berdasarkan kedua metode pemilihan klaster optimal, maka banyak klaster yang digunakan adalah dua klaster.
> print(data.frame(
+ "Provinsi"=data$Provinsi,
+ "Klaster"=k_means$cluster
+ ))
Provinsi Klaster
1 Aceh 1
2 Sumatera Utara 1
3 Sumatera Barat 1
4 Riau 1
5 Jambi 1
6 Sumatera Selatan 1
7 Bengkulu 1
8 Lampung 1
9 Kepulauan Bangka Belitung 1
10 Kepulauan Riau 1
11 DKI Jakarta 1
12 Jawa Barat 2
13 Jawa Tengah 2
14 DI. Yogyakarta 1
15 Jawa Timur 2
16 Banten 1
17 Bali 1
18 Nusa Tenggara Barat 1
19 Nusa Tenggara Timur 1
20 Kalimantan Barat 1
21 Kalimantan Tengah 1
22 Kalimantan Selatan 1
23 Kalimantan Timur 1
24 Kalimantan Utara 1
25 Sulawesi Utara 1
26 Sulawesi Tengah 1
27 Sulawesi Selatan 1
28 Sulawesi Tenggara 1
29 Gorontalo 1
30 Sulawesi Barat 1
31 Maluku 1
32 Maluku Utara 1
33 Papua Barat 1
34 Papua 1Berdasarkan hasil analisis di atas, terdapat tiga provinsi yang berada di klaster 2, yaitu Jawa Barat, Jawa Tengah, dan Jawa Timur. Sisanya berada di klaster satu.
> rata2
# A tibble: 2 × 6
cluster No Provinsi `2021` `2022` `2023`
<int> <dbl> <dbl> <dbl> <dbl> <dbl>
1 1 17.9 NA 6781679. 9691584. 8461832.
2 2 13.3 NA 134355807. 144808532. 121256189.Rata-rata jumlah kunjungan wisatawan domestik dihitung dan berdasarkan nilai rata-rata, klaster 1 memiliki banyak kunjungan yang lebih sedikit dibandingkan klaster 2. Maka, klaster 1 dapat diberi nama klaster provinsi yang jarang dikunjungi dan klaster 2 dapat diberi nama klaster provinsi yang ramai dikunjungi.
Visualisasi hasil analisis cluster dapat digambarkan dengan plot cluster sebagai berikut.
> fviz_cluster(k_means, data = datacluster, geom = "point", stand = FALSE, ellipse.type = "convex",
+ main = "K-Means Clustering Plot")
Titik-titik yang berwarna jingga merupakan provinsi-provinsi pada
klaster 1 sedangkan titik-titik yang berwarna toska merupakan
provinsi-provinsi pada klaster 2.
Berikut merupakan uji validitas hasil analisis cluster.
> summary(validity)
Clustering Methods:
kmeans
Cluster sizes:
2 3 4 5 6 7 8 9 10
Validation Measures:
2 3 4 5 6 7 8 9 10
kmeans Connectivity 4.2869 6.7869 12.8067 17.2690 19.2690 23.9183 25.9183 28.4183 33.7075
Dunn 1.0281 1.2586 0.2430 0.1836 0.1836 0.1148 0.1148 0.1148 0.1150
Silhouette 0.8924 0.8700 0.7495 0.6951 0.6615 0.6070 0.5530 0.5288 0.4708
Optimal Scores:
Score Method Clusters
Connectivity 4.2869 kmeans 2
Dunn 1.2586 kmeans 3
Silhouette 0.8924 kmeans 2 Validitas cluster semakin baik jika indeks
connectivity semakin kecil serta indeks Dunn dan
Silhouette semakin besar.
1. Indeks Connectivity
sebesar 4,2869, yang merupakan nilai terkecil di antara nilai yang lain.
Maka, banyak klaster optimalnya adalah dua.
2. Indeks Dunn
sebesar 1,2586, yang merupakan nilai terbesar di antara nilai yang lain.
Nilainya tidak jauh berbeda ketika \(k=2\), yaitu 1,0281.
3. indeks
Silhouette sebesar 0.8924, yang merupakan nilai terbesar di
antara nilai lainnya. Semakin mendekati satu, maka semakin baik. Maka,
banyak klaster optimal adalah dua.
Berdasarkan ketiga indeks di
atas, maka banyak klaster yang optimal adalah dua klaster.
4. Penutup
4.1 Kesimpulan
Berdasarkan hasil analisis cluster, dapat disimpulkan bahwa provinsi-provinsi di Indonesia dapat dibagi menjadi dua berdasarkan jumlah kunjungan wisatawan domestik, yaitu klaster 1 dan klaster 2. Klaster 1 merupakan klaster provinsi-provinsi yang jarang dikunjungi wisatawan domestik antara lain sebagai berikut.
1. Aceh
2. Sumatera Utara
3. Sumatera Barat
4. Riau
5. Jambi
6. Sumatera Selatan
7. Bengkulu
8. Lampung
9. Kepulauan Bangka Belitung
10. Kepulauan Riau
11. DKI Jakarta
12. DI Yogyakarta
13. Banten
14. Bali
15. Nusa Tenggara Barat
16. Nusa Tenggara Timur
17. Kalimantan Barat
18. Kalimantan Tengah
19. Kalimantan Selatan
20. Kalimantan Timur
21. Kalimantan Utara
22. Sulawesi Utara
23. Sulawesi Tengah
24. Sulawesi Selatan
25. Sulawesi Tenggara
26. Gorontalo
27. Sulawesi Barat
28. Maluku
29. Maluku Utara
30. Papua Barat
31. Papua
Klaster 2 merupakan klaster provinsi yang ramai dikunjungi wisatawan domestik antara lain sebagai berikut.
1. Jawa Barat
2. Jawa Tengah
3. Jawa Timur
4.2 Saran
Pemerintah perlu memperhatikan provinsi-provinsi dengan jumlah kunjungan wisatawan domestik yang lebih rendah (klaster 1) agar pemerintah daerah melakukan upaya untuk meningkatkan daya tarik setiap provinsi sehingga jumlah kunjungan wisatawan dapat meningkat dan perekonomian daerah pun meningkat.
Daftar Pustaka
Ningrat, D.R., D.A.I. Maruddani, dan T. Wuryandari. 2016. Analisis Cluster dengan Algoritma K-Means dan Fuzzy C-Means Clustering untuk Pengelompokkan Data Obligasi Korporasi. Jurnal Gaussian. 4(5):641-650.
Novaldi, J. dan A.W. Wijayanto. 2023. Analisis Cluster Kualitas Pemuda di Indonesia pada Tahun 2022 dengan Agglomerative Hierarichal dan K-Means. Komputika: Jurnal Sistem Komputer. 2(12):91-99.
Purwowidhu, C.S. 16 Mei 2023. Kian Melesat di 2023, Pariwisata Indonesia Bersiap Menuju Level Prapandemi. (Online) (https://mediakeuangan.kemenkeu.go.id/article/show/kian-melesat-di-2023-pariwisata-indonesia-bersiap-menuju-level-prapandemi#:~:text=Organization%20for%20Economic%20Co%2DOperation,domestik%20bruto%20(PDB)%20Indonesia. , diakses pada 9 November 2023).
Rihardi, E.L. 2021. Pengembangan Manajemen Sumber Daya Manusia sebagai Sebuah Keunggulan Kompetitif pada Industri Pariwisata dan Perhotelan. Komitmen: Jurnal Ilmiah Manajemen. 1(2):10-20.
Sari, D.R.P. 2023. Metode Principal Component Analysis (PCA) sebagai Penanganan Asumsi Multikolinieritas (Studi Kasus: Data Produksi Tapioka). Parameter. 2(2):115-124.
Sitepu, R., Irmeilyana, dan B. Gultom. 2011. Analisis Cluster terhadap Tingkat Pencemaran Udara pada Sektor Industri di Sumatera Selatan. Jurnal Penelitian Sains. 3(14):11-17.