Library:

> # install.packages("knitr")
> # install.packages("rmarkdown")
> # install.packages("prettydoc")
> # install.packages("equatiomatic")

1 PENDAHULUAN

1.1 Latar Belakang

Pariwisata merupakan sektor yang penting dalam perekonomian Indonesia. Dengan beragamnya budaya serta keindahan alamnya, Indonesia sangat berpotensi dalam mengembangkan sektor pariwisata. Keberhasilan dalam sektor pariwisata dapat dilihat pada industri perhotelan, salah satu indikatornya adalah hotel bintang. Kualitas hotel bintang dapat menjadi cerminan kualitas layanan dan fasilitas yang ditawarkan kepada wisatawan lokal maupun mancanegara.

Untuk mengetahui bagaimana pengelompokan provinsi di Indonesia pada sektor pariwisata dengan indikator hotel bintang dapat menggunakan analisis cluster. Data hotel bintang, seperti jumlah tamu, rata-rata lama menginap, dan banyaknya akomodasi dapat digunakan untuk membantu pengelompokan. Penggunaan analisis cluster dapat melihat seberapa mirip suatu provinsi dengan provinsi lain perdasarkan indikator yang telah dipilih. Karena belum mengetahui berapa cluster yang akan dibentuk, maka dalam studi kasus ini menggunakan analisis cluster hirarki.

1.2 Data

Implementasi analisis cluster menggunakan software RStudio akan menggunakan data pariwisata yang diperoleh dari website resmi BPS. Variabel yang digunakan untuk clustering adalah Rata-rata lama menginap tamu asing pada hotel bintang (hari), Jumlah tamu asing pada hotel bintang (ribu orang), Jumlah Akomodasi pada hotel bintang. Ketiga variabel diambil diamati pada 34 provinsi di tahun 2023.

1.3 Tujuan

Tujuan dilakukan analisis clustering pada data pariwisata adalah

Mengelompokkan provinsi di Indonesia berdasarkan sektor pariwisata dengan indikator hotel bintang.
Melihat provinsi mana saja yang memiliki kemiripan pada sektor pariwisata dengan indikator hotel bintang.
Mengetahui metode cluster hirarki apa yang paling cocok pada data pariwisata.

1.4 Rumusan Masalah

Rumusan masalah untuk studi kasus analisis cluster pada data pariwisata adalah

Bagaimana pengelompokan provinsi indonesia berdasarkan sektor pariwisata dengan indikator hotel bintang?
Provinsi mana saja yang memiliki kemiripan pada sektor pariwisata dengan indikator hotel bintang?
Metode cluster hirarki apa yang paling cocok pada pengelompokan data pariwisata?

2 SOURCE CODE

2.1 Library

> # install.packages('psych')
> # install.packages('GPArotation')
> # install.packages('clValid')
> # install.packages('ggplot2')
> # install.packages('cluster')
> # install.packages('factoextra')
> # install.packages('tidyverse')
> # install.packages('car')
> # install.packages('readxl')

> # library('psych')
> # library('GPArotation')
> # library('clValid')
> # library('ggplot2')
> # library('cluster')
> # library('factoextra')
> # library('tidyverse')
> # library('car')
> # library('readxl')
>

2.2 Impor Data

Melakukan impor data dengan bantuan package readxl. Setelah itu gunakan fungsi head() untuk melihat

>   head(data)
# A tibble: 6 × 4
  Provinsi            X1     X2    X3
  <chr>            <dbl>  <dbl> <dbl>
1 Aceh              1.5    7.3     43
2 Sumatera Utara    1.65 113.     146
3 Sumatera Barat    1.62  30.1     92
4 Riau              3.14  14.9    100
5 Jambi             2.22   3.37    35
6 Sumatera Selatan  2.89   7.55    83

3 HASIL DAN PEMBAHASAN

3.1 Statistika Deskriptif

Berdasarkan Data yang digunakan, diperoleh statistika deskriptif menggunakan fungsi summary(data)

   Provinsi               X1              X2                 X3        
 Length:34          Min.   :1.350   Min.   :   0.090   Min.   :  6.00  
 Class :character   1st Qu.:1.962   1st Qu.:   3.107   1st Qu.: 27.25  
 Mode  :character   Median :2.270   Median :  11.240   Median : 55.00  
                    Mean   :2.255   Mean   : 200.114   Mean   :121.44  
                    3rd Qu.:2.538   3rd Qu.: 108.450   3rd Qu.:139.25  
                    Max.   :3.410   Max.   :3628.480   Max.   :598.00

Berdasarkan output summary tersebut menunjukkan bahwa rata-rata untuk masing-masing variabel adalah \[ \bar{x_1} = 2.255 \] Sehingga rata-rata lama menginap tamu asing masing-masing provinsi pada hotel bintang adalah 2.255 hari.

\[ \bar{x_2} = 200.114 \] Sehingga rata-rata tamu asing masing-masing provinsi pada hotel bintang adalah 200.114 ribu orang. Namun nilai maksimum pada variabel kedua yang bernilai 3628.480 ribu orang terlihat jauh dari quartil 3, hal ini dapat menandakan adanya pencilan pada data.

\[ \bar{x_3} = 121.44 \] Sehingga rata-rata akomodasi hotel bintang pada masing-masing provinsi adalah 121.44 akomodasi.

3.2 Uji Asumsi

Sebelum melakukan analisis cluster terdapat asumsi yang harus dipenuhi

3.2.1 Uji Kecukupan Sampel

Uji kecukupan sampel yang digunakan adalah Uji Kaiser-Meyer-Olkin factor adequacy atau Uji KMO dengan ketentuan apabila nilai kmo kurang dari 0.5, maka variabel tersebut belum dapat digunakan. Fungsi yang digunakan adalah KMO

Kaiser-Meyer-Olkin factor adequacy
Call: KMO(r = data[, 2:4])
Overall MSA =  0.55
MSA for each item = 
  X1   X2   X3 
0.75 0.54 0.54

Dapat dilihat bahwa nilai MSA untuk setiap variabel dan MSA untuk keseluruhan bernilai lebih besar dibandingkan 0.5. Sehingga asumsi kecukupan sampel sudah terpenuhi dan semua variabel dapat digunakan dalam analisis.

3.2.2 Uji Non Multikolinieritas

Setelah variabel dinyatakan cukup untuk analisis, selanjutnya adalah melakukan uji Non Multikolinieritas untuk memastikan variabel yang digunakan pada analisis tidak saling berkorelasi sempurna. Pada pendeteksian multikolinieritas menggunakan nilai korelasi antar variabel. Fungsi yang digunakan adalah cor dengan metode korelasi pearson.

          X1        X2        X3
X1 1.0000000 0.1950021 0.2577701
X2 0.1950021 1.0000000 0.6104826
X3 0.2577701 0.6104826 1.0000000

Dapat dilihat bahwa semua korelasi kurang dari 0.8 sehingga tidak ada multikolinieritas yang tinggi antar variabel. Semua variabel dapat digunakan dalam analisis.

3.3 Standarisasi

Standarisasi diperlukan untuk membuat semua variabel memiliki nilai yang mirip. Jika tidak dilakukan standarisasi, maka variabel yang memiliki nilai berbeda jauh (misal satuan dan ribuan) akan menghasilkan jarak antar objek yang jauh. Standarisasi dapat memanfaatkan fungsi scale .

> datastand<-scale(data[,c(2:4)])
> datastand
               X1          X2          X3
 [1,] -1.39654901 -0.30203669 -0.50485180
 [2,] -1.11908895 -0.13594383  0.15806196
 [3,] -1.17458096 -0.26638383 -0.18948506
 [4,]  1.63701441 -0.29008452 -0.13799661
 [5,] -0.06474068 -0.30819292 -0.55634025
 [6,]  1.17458096 -0.30164507 -0.24740956
 [7,] -1.37805168 -0.31281401 -0.67218926
 [8,]  0.36069809 -0.30803627 -0.60139264
 [9,]  2.13644253 -0.30592154 -0.42761913
[10,] -0.24971406  0.78391893 -0.01571155
[11,]  0.39769277  1.16121900  2.10175088
[12,]  1.39654901  0.04080103  3.06715928
[13,] -0.15722737 -0.20342738  1.52894189
[14,]  0.32370341 -0.11565804  0.46055660
[15,] -0.47168212  0.01836917  1.46458133
[16,] -1.43354369  0.12996452  0.17093408
[17,]  1.15608362  5.37043470  2.70030409
[18,]  0.12023270  0.01655206 -0.16374084
[19,] -0.36069809 -0.16652134 -0.48554364
[20,]  0.56416881 -0.27734912 -0.46623547
[21,]  0.17572471 -0.30595287 -0.60139264
[22,]  0.39769277 -0.30396345 -0.41474702
[23,]  0.37919543 -0.28135928 -0.31177012
[24,] -1.19307830 -0.31104390 -0.73011377
[25,] -0.36069809 -0.25828517 -0.44692730
[26,] -1.48903570 -0.30874119 -0.69149743
[27,] -0.28670874 -0.28450789  0.47342871
[28,]  0.19422205 -0.31179580 -0.60782870
[29,]  1.08209427 -0.31102823 -0.73011377
[30,] -1.67400908 -0.31333094 -0.74298588
[31,]  1.21157564 -0.30209935 -0.61426476
[32,] -0.56416881 -0.31190546 -0.69793349
[33,] -0.43468744 -0.31171748 -0.64000898
[34,]  1.10059161 -0.31151384 -0.42761913
attr(,"scaled:center")
      X1       X2       X3 
  2.2550 200.1135 121.4412 
attr(,"scaled:scale")
         X1          X2          X3 
  0.5406183 638.3778334 155.3746579

Dapat dilihat bahwa ketiga variabel memiliki nilai yang relatif sama atau kecil. Sehingga dapat menghitung jarak antar objek tanpa mengkhawatirkan satuan data yang berbeda.

3.4 Matriks Jarak

Untuk melihat jarak antar objek dapat menggunakan matriks jarak dengan fungsi dist.

> d1<-dist(datastand, method = "euclidean")

Matriks jarak dapat digunakan untuk clustering secara manual atau hanya untuk melihat jarak antar objek.

3.5 Koefisien Korelasi Cophenetic

Untuk melihat metode clustering apa yang cocok, dapat menggunakan koefisien korelasi cophenetic dengan ketentuan melihat koefisien korelasi cophentetic yang paling besar. Pada kasus ini akan membandingkan metode Single Linkage, Average Linkage, Complete Linkage, Centorid Linkage, dan metode Ward. Untuk clustering dapat menggunakan fungsi hclust dan menggunakan metode yang ingin dibandingkan. Sedangkan untuk mencari koefisien korelasi cophenetic dapat menggunakan fungsi cophenetic.

       cors    corave   corcomp    corcen   corward
1 0.9009459 0.9125797 0.8411458 0.9152866 0.4864003

Dari kelima metode dapat dilihat bahwa metode avarage linkage memiliki nilai koefisien korelasi cophenetic paling tinggi, sehingga metode avarage linkage merupakan metode terbaik untuk data ini.

3.6 Indeks Validitas

Indeks validitas digunakan untuk melihat berapa cluster valid yang dihasilkan. Fungsi yang digunakan adalah clValid.

                 Score       Method Clusters
Connectivity 2.9289683 hierarchical        2
Dunn         0.8802450 hierarchical        2
Silhouette   0.7098428 hierarchical        2

Berdasarkan ketiga indeks validitas, didapatkan bahwa banyak pengelompokan yang valid adalah 2, sehingga akan terdapat 2 cluster yang dibentuk.

3.7 Metode Average Linkage

Setelah mendapatkan metode terbaik dan banyak cluster yang valid, maka akan dibentuk dendogram yang akan menunjukkan bentuk cluster dan anggota dalam cluster tersebut. Fungsi yang digunakan yaitu hclust.

Dapat dilihat bahwa jika terbentuk 2 cluster akan menghasilkan provinsi ke-17 menjadi 1 cluster sendiri, sedangkan 33 provinsi lainnya menjadi 1 cluster yang lain. Provinsi ke-17 adalah Bali, hal ini sejalan dengan kondisi sebenarnya. Bali menjadi tujuan utama para wisatawan asing yang berkunjung ke Indonesia. pengelompokan ini menunjukkan perbedaan yang besar antara Bali denan provinsi lainnya dalam sektor pariwisata.

4 KESIMPULAN

Setelah melakukan pengelompokan pada data pariwisata dapat disimpulkan bahwa

Berdasarkan sektor pariwisata dengan indikator hotel bintang, terbentuk 2 cluster dari 34 provinsi. Dengan cluster 2 hanya berisi satu provinsi yaitu Bali.
Bali memiliki sektor pariwisata yang jauh berbeda dengan provinsi lain di Indonesia. Hal ini selaras dengan kondisi sebenarnya, dimana Bali menjadi tujuan utama untuk wisatawan asing yang berkunjung ke Indonesia.
Metode yang paling cocok untuk data ini adalah average linkage yang memiliki koefisien korelasi cophenetic sebesar 0.91258 dan menghasilkan 2 cluster

5 DAFTAR PUSTAKA

Jumlah Akomodasi, Kamar, dan Tempat Tidur yang Tersedia pada Hotel Bintang, 2022-2023. Diakses pada 29 November 2024 dari https://www.bps.go.id/id/statistics-table/2/MzA3IzI=/jumlah-akomodasi--kamar--dan-tempat-tidur-yang-tersedia-pada-hotel-bintang.html

Jumlah Tamu Asing pada Hotel Bintang (Ribu Orang), 2021-2023. Diakses pada 29 November 2024 dari https://www.bps.go.id/id/statistics-table/2/MzEwIzI=/jumlah-tamu-asing-pada-hotel-bintang--ribu-orang-.html

Rata-Rata Lama Menginap Tamu Pada Hotel Bintang Menurut Provinsi (Hari), 2021-2023. Diakses pada 29 November 2024 dari https://www.bps.go.id/id/statistics-table/2/MzYyIzI=/rata-rata-lama-menginap-tamu-pada-hotel-bintang-menurut-provinsi--hari-.html

Pengelompokan Provinsi Indonesia Pada Sektor Pariwisata Berdasarkan Indikator Hotel Bintang Menggunakan Pendekatan Analisis Cluster

Natasha Aulia

2024-11-30