Library:
> # install.packages("knitr")
> # install.packages("rmarkdown")
> # install.packages("prettydoc")
> # install.packages("equatiomatic")
Pariwisata merupakan sektor yang penting dalam perekonomian Indonesia. Dengan beragamnya budaya serta keindahan alamnya, Indonesia sangat berpotensi dalam mengembangkan sektor pariwisata. Keberhasilan dalam sektor pariwisata dapat dilihat pada industri perhotelan, salah satu indikatornya adalah hotel bintang. Kualitas hotel bintang dapat menjadi cerminan kualitas layanan dan fasilitas yang ditawarkan kepada wisatawan lokal maupun mancanegara.
Untuk mengetahui bagaimana pengelompokan provinsi di Indonesia pada sektor pariwisata dengan indikator hotel bintang dapat menggunakan analisis cluster. Data hotel bintang, seperti jumlah tamu, rata-rata lama menginap, dan banyaknya akomodasi dapat digunakan untuk membantu pengelompokan. Penggunaan analisis cluster dapat melihat seberapa mirip suatu provinsi dengan provinsi lain perdasarkan indikator yang telah dipilih. Karena belum mengetahui berapa cluster yang akan dibentuk, maka dalam studi kasus ini menggunakan analisis cluster hirarki.
Implementasi analisis cluster menggunakan software RStudio akan menggunakan data pariwisata yang diperoleh dari website resmi BPS. Variabel yang digunakan untuk clustering adalah Rata-rata lama menginap tamu asing pada hotel bintang (hari), Jumlah tamu asing pada hotel bintang (ribu orang), Jumlah Akomodasi pada hotel bintang. Ketiga variabel diambil diamati pada 34 provinsi di tahun 2023.
Tujuan dilakukan analisis clustering pada data pariwisata adalah
Mengelompokkan provinsi di Indonesia berdasarkan sektor pariwisata dengan indikator hotel bintang.
Melihat provinsi mana saja yang memiliki kemiripan pada sektor pariwisata dengan indikator hotel bintang.
Mengetahui metode cluster hirarki apa yang paling cocok pada data pariwisata.
Rumusan masalah untuk studi kasus analisis cluster pada data pariwisata adalah
Bagaimana pengelompokan provinsi indonesia berdasarkan sektor pariwisata dengan indikator hotel bintang?
Provinsi mana saja yang memiliki kemiripan pada sektor pariwisata dengan indikator hotel bintang?
Metode cluster hirarki apa yang paling cocok pada pengelompokan data pariwisata?
> # install.packages('psych')
> # install.packages('GPArotation')
> # install.packages('clValid')
> # install.packages('ggplot2')
> # install.packages('cluster')
> # install.packages('factoextra')
> # install.packages('tidyverse')
> # install.packages('car')
> # install.packages('readxl')
> # library('psych')
> # library('GPArotation')
> # library('clValid')
> # library('ggplot2')
> # library('cluster')
> # library('factoextra')
> # library('tidyverse')
> # library('car')
> # library('readxl')
>
Melakukan impor data dengan bantuan package
readxl. Setelah itu gunakan fungsi head()
untuk melihat
> head(data)
# A tibble: 6 × 4
Provinsi X1 X2 X3
<chr> <dbl> <dbl> <dbl>
1 Aceh 1.5 7.3 43
2 Sumatera Utara 1.65 113. 146
3 Sumatera Barat 1.62 30.1 92
4 Riau 3.14 14.9 100
5 Jambi 2.22 3.37 35
6 Sumatera Selatan 2.89 7.55 83
Berdasarkan Data yang digunakan, diperoleh statistika deskriptif
menggunakan fungsi summary(data)
Provinsi X1 X2 X3
Length:34 Min. :1.350 Min. : 0.090 Min. : 6.00
Class :character 1st Qu.:1.962 1st Qu.: 3.107 1st Qu.: 27.25
Mode :character Median :2.270 Median : 11.240 Median : 55.00
Mean :2.255 Mean : 200.114 Mean :121.44
3rd Qu.:2.538 3rd Qu.: 108.450 3rd Qu.:139.25
Max. :3.410 Max. :3628.480 Max. :598.00
Berdasarkan output summary tersebut menunjukkan bahwa rata-rata untuk masing-masing variabel adalah \[ \bar{x_1} = 2.255 \] Sehingga rata-rata lama menginap tamu asing masing-masing provinsi pada hotel bintang adalah 2.255 hari.
\[ \bar{x_2} = 200.114 \] Sehingga rata-rata tamu asing masing-masing provinsi pada hotel bintang adalah 200.114 ribu orang. Namun nilai maksimum pada variabel kedua yang bernilai 3628.480 ribu orang terlihat jauh dari quartil 3, hal ini dapat menandakan adanya pencilan pada data.
\[ \bar{x_3} = 121.44 \] Sehingga rata-rata akomodasi hotel bintang pada masing-masing provinsi adalah 121.44 akomodasi.
Sebelum melakukan analisis cluster terdapat asumsi yang harus dipenuhi
Uji kecukupan sampel yang digunakan adalah Uji Kaiser-Meyer-Olkin
factor adequacy atau Uji KMO dengan ketentuan apabila nilai kmo
kurang dari 0.5, maka variabel tersebut belum dapat digunakan. Fungsi
yang digunakan adalah KMO
Kaiser-Meyer-Olkin factor adequacy
Call: KMO(r = data[, 2:4])
Overall MSA = 0.55
MSA for each item =
X1 X2 X3
0.75 0.54 0.54
Dapat dilihat bahwa nilai MSA untuk setiap variabel dan MSA untuk keseluruhan bernilai lebih besar dibandingkan 0.5. Sehingga asumsi kecukupan sampel sudah terpenuhi dan semua variabel dapat digunakan dalam analisis.
Setelah variabel dinyatakan cukup untuk analisis, selanjutnya adalah
melakukan uji Non Multikolinieritas untuk memastikan variabel yang
digunakan pada analisis tidak saling berkorelasi sempurna. Pada
pendeteksian multikolinieritas menggunakan nilai korelasi antar
variabel. Fungsi yang digunakan adalah cor dengan metode
korelasi pearson.
X1 X2 X3
X1 1.0000000 0.1950021 0.2577701
X2 0.1950021 1.0000000 0.6104826
X3 0.2577701 0.6104826 1.0000000
Dapat dilihat bahwa semua korelasi kurang dari 0.8 sehingga tidak ada multikolinieritas yang tinggi antar variabel. Semua variabel dapat digunakan dalam analisis.
Standarisasi diperlukan untuk membuat semua variabel memiliki nilai
yang mirip. Jika tidak dilakukan standarisasi, maka variabel yang
memiliki nilai berbeda jauh (misal satuan dan ribuan) akan menghasilkan
jarak antar objek yang jauh. Standarisasi dapat memanfaatkan fungsi
scale .
> datastand<-scale(data[,c(2:4)])
> datastand
X1 X2 X3
[1,] -1.39654901 -0.30203669 -0.50485180
[2,] -1.11908895 -0.13594383 0.15806196
[3,] -1.17458096 -0.26638383 -0.18948506
[4,] 1.63701441 -0.29008452 -0.13799661
[5,] -0.06474068 -0.30819292 -0.55634025
[6,] 1.17458096 -0.30164507 -0.24740956
[7,] -1.37805168 -0.31281401 -0.67218926
[8,] 0.36069809 -0.30803627 -0.60139264
[9,] 2.13644253 -0.30592154 -0.42761913
[10,] -0.24971406 0.78391893 -0.01571155
[11,] 0.39769277 1.16121900 2.10175088
[12,] 1.39654901 0.04080103 3.06715928
[13,] -0.15722737 -0.20342738 1.52894189
[14,] 0.32370341 -0.11565804 0.46055660
[15,] -0.47168212 0.01836917 1.46458133
[16,] -1.43354369 0.12996452 0.17093408
[17,] 1.15608362 5.37043470 2.70030409
[18,] 0.12023270 0.01655206 -0.16374084
[19,] -0.36069809 -0.16652134 -0.48554364
[20,] 0.56416881 -0.27734912 -0.46623547
[21,] 0.17572471 -0.30595287 -0.60139264
[22,] 0.39769277 -0.30396345 -0.41474702
[23,] 0.37919543 -0.28135928 -0.31177012
[24,] -1.19307830 -0.31104390 -0.73011377
[25,] -0.36069809 -0.25828517 -0.44692730
[26,] -1.48903570 -0.30874119 -0.69149743
[27,] -0.28670874 -0.28450789 0.47342871
[28,] 0.19422205 -0.31179580 -0.60782870
[29,] 1.08209427 -0.31102823 -0.73011377
[30,] -1.67400908 -0.31333094 -0.74298588
[31,] 1.21157564 -0.30209935 -0.61426476
[32,] -0.56416881 -0.31190546 -0.69793349
[33,] -0.43468744 -0.31171748 -0.64000898
[34,] 1.10059161 -0.31151384 -0.42761913
attr(,"scaled:center")
X1 X2 X3
2.2550 200.1135 121.4412
attr(,"scaled:scale")
X1 X2 X3
0.5406183 638.3778334 155.3746579
Dapat dilihat bahwa ketiga variabel memiliki nilai yang relatif sama atau kecil. Sehingga dapat menghitung jarak antar objek tanpa mengkhawatirkan satuan data yang berbeda.
Untuk melihat jarak antar objek dapat menggunakan matriks jarak
dengan fungsi dist.
> d1<-dist(datastand, method = "euclidean")
Matriks jarak dapat digunakan untuk clustering secara manual atau hanya untuk melihat jarak antar objek.
Untuk melihat metode clustering apa yang cocok, dapat
menggunakan koefisien korelasi cophenetic dengan ketentuan melihat
koefisien korelasi cophentetic yang paling besar. Pada kasus ini akan
membandingkan metode Single Linkage, Average Linkage, Complete
Linkage, Centorid Linkage, dan metode Ward. Untuk
clustering dapat menggunakan fungsi hclust dan
menggunakan metode yang ingin dibandingkan. Sedangkan untuk mencari
koefisien korelasi cophenetic dapat menggunakan fungsi
cophenetic.
cors corave corcomp corcen corward
1 0.9009459 0.9125797 0.8411458 0.9152866 0.4864003
Dari kelima metode dapat dilihat bahwa metode avarage linkage memiliki nilai koefisien korelasi cophenetic paling tinggi, sehingga metode avarage linkage merupakan metode terbaik untuk data ini.
Indeks validitas digunakan untuk melihat berapa cluster
valid yang dihasilkan. Fungsi yang digunakan adalah
clValid.
Score Method Clusters
Connectivity 2.9289683 hierarchical 2
Dunn 0.8802450 hierarchical 2
Silhouette 0.7098428 hierarchical 2
Berdasarkan ketiga indeks validitas, didapatkan bahwa banyak pengelompokan yang valid adalah 2, sehingga akan terdapat 2 cluster yang dibentuk.
Setelah mendapatkan metode terbaik dan banyak cluster yang valid,
maka akan dibentuk dendogram yang akan menunjukkan bentuk
cluster dan anggota dalam cluster tersebut. Fungsi
yang digunakan yaitu hclust.
Dapat dilihat bahwa jika terbentuk 2 cluster akan menghasilkan provinsi ke-17 menjadi 1 cluster sendiri, sedangkan 33 provinsi lainnya menjadi 1 cluster yang lain. Provinsi ke-17 adalah Bali, hal ini sejalan dengan kondisi sebenarnya. Bali menjadi tujuan utama para wisatawan asing yang berkunjung ke Indonesia. pengelompokan ini menunjukkan perbedaan yang besar antara Bali denan provinsi lainnya dalam sektor pariwisata.
Setelah melakukan pengelompokan pada data pariwisata dapat disimpulkan bahwa
Berdasarkan sektor pariwisata dengan indikator hotel bintang, terbentuk 2 cluster dari 34 provinsi. Dengan cluster 2 hanya berisi satu provinsi yaitu Bali.
Bali memiliki sektor pariwisata yang jauh berbeda dengan provinsi lain di Indonesia. Hal ini selaras dengan kondisi sebenarnya, dimana Bali menjadi tujuan utama untuk wisatawan asing yang berkunjung ke Indonesia.
Metode yang paling cocok untuk data ini adalah average linkage yang memiliki koefisien korelasi cophenetic sebesar 0.91258 dan menghasilkan 2 cluster
Jumlah Akomodasi, Kamar, dan Tempat Tidur yang Tersedia pada Hotel Bintang, 2022-2023. Diakses pada 29 November 2024 dari https://www.bps.go.id/id/statistics-table/2/MzA3IzI=/jumlah-akomodasi--kamar--dan-tempat-tidur-yang-tersedia-pada-hotel-bintang.html
Jumlah Tamu Asing pada Hotel Bintang (Ribu Orang), 2021-2023. Diakses pada 29 November 2024 dari https://www.bps.go.id/id/statistics-table/2/MzEwIzI=/jumlah-tamu-asing-pada-hotel-bintang--ribu-orang-.html
Rata-Rata Lama Menginap Tamu Pada Hotel Bintang Menurut Provinsi (Hari), 2021-2023. Diakses pada 29 November 2024 dari https://www.bps.go.id/id/statistics-table/2/MzYyIzI=/rata-rata-lama-menginap-tamu-pada-hotel-bintang-menurut-provinsi--hari-.html