|
3338240001 |
|
3338240007 |
|
3338240012 |
|
3338240013 |
|
3338240028 |
Puji syukur penulis panjatkan ke hadirat Allah SWT, karena berkat rahmat dan karunia-Nya, laporan proyek mata kuliah Analisis Regresi yang berjudul “Analisis Faktor–Faktor yang Mempengaruhi Tarif Harian Hotel (ADR) Menggunakan Seleksi Model Regresi” dapat diselesaikan dengan baik.
Laporan ini disusun sebagai bentuk penerapan materi perkuliahan mengenai pemilihan model regresi, khususnya melalui metode Akaike Information Criterion (AIC), Bayesian Information Criterion (BIC), dan Seleksi Model Stepwise. Metode–metode ini digunakan untuk menentukan model regresi terbaik dengan mempertimbangkan ketepatan, efisiensi, serta keseimbangan antara ketelitian prediksi dan kompleksitas model. Dengan memanfaatkan pendekatan tersebut, penulis berupaya mengidentifikasi variabel-variabel yang berpengaruh terhadap Average Daily Rate (ADR) pada industri perhotelan.
Penulis menyadari bahwa laporan ini masih memiliki kekurangan. Oleh sebab itu, kritik dan saran yang membangun sangat diharapkan demi penyempurnaan di masa mendatang. Harapannya, laporan ini dapat memberikan manfaat bagi pembaca, terutama dalam memahami penerapan metode seleksi model regresi pada studi kasus nyata.
Cilegon, 2025
Penulis
Industri perhotelan merupakan salah satu sektor strategis yang memiliki peranan besar dalam mendukung perkembangan pariwisata, mobilitas penduduk, serta pertumbuhan ekonomi nasional. Perkembangan sektor ini tidak hanya berkaitan dengan penyediaan fasilitas akomodasi, tetapi juga dengan kontribusinya dalam menciptakan peluang kerja, menarik investasi, serta memperkuat dinamika ekonomi lokal melalui berbagai aktivitas bisnis yang berkaitan dengan layanan perhotelan (Dogru & Sirakaya-Turk, 2018).
Dalam konteks persaingan yang semakin ketat, hotel dituntut untuk mengoptimalkan strategi penetapan harga kamar agar mampu mempertahankan pangsa pasar dan profitabilitas. Penetapan harga bukan sekadar keputusan operasional, melainkan bagian dari strategi manajemen pendapatan yang sangat dipengaruhi oleh permintaan pasar, karakteristik tamu, serta faktor internal dan eksternal hotel. Penelitian terdahulu menegaskan bahwa tarif kamar hotel mencerminkan kombinasi dari kualitas layanan, fasilitas fisik, daya tarik lokasi, reputasi digital, dan kondisi ekonomi yang sedang berlangsung (Özdemir, 2018).
Untuk memahami bagaimana harga kamar terbentuk, pendekatan hedonic pricing banyak digunakan karena memungkinkan peneliti untuk menguraikan tarif kamar ke dalam komponen-komponen nilai berdasarkan karakteristik hotel. Melalui pendekatan tersebut, berbagai studi menunjukkan bahwa atribut seperti jumlah fasilitas, kualitas layanan, keberadaan fasilitas rekreasi, hingga kemudahan akses berpengaruh signifikan terhadap harga kamar. Dalam penelitian di Antalya, misalnya, fasilitas seperti kolam renang, akses pantai, jumlah kamar, hingga karakter spasial lingkungan hotel ditemukan memiliki pengaruh kuat terhadap variasi tarif antarhotel (Ozdemir, 2018).
Selain faktor atribut hotel, dinamika musiman atau tourism seasonality juga berperan besar dalam menentukan harga kamar. Pada periode high season seperti libur panjang atau puncak kunjungan wisata, hotel cenderung menaikkan tarif untuk mengakomodasi peningkatan permintaan. Sebaliknya, pada low season, fleksibilitas harga lebih tinggi dan strategi promosi lebih sering dilakukan untuk mempertahankan tingkat hunian. Studi mengenai pola musiman ini menunjukkan bahwa struktur harga hotel sangat responsif terhadap perubahan permintaan sepanjang tahun (Zhang et al., 2018).
Di tengah perubahan perilaku konsumen dan perkembangan teknologi digital, faktor yang berkaitan dengan pola pemesanan semakin mendapat perhatian dalam kajian penentuan harga kamar. Salah satu variabel penting adalah lead time, yaitu rentang waktu antara pemesanan dilakukan dan tanggal kedatangan tamu. Lead time berperan sebagai indikator yang mencerminkan karakteristik permintaan, sensitivitas konsumen terhadap harga, serta kecenderungan pasar dalam melakukan pemesanan. Penelitian menunjukkan bahwa pemesanan mendekati tanggal kedatangan sering kali dikaitkan dengan harga lebih tinggi karena peningkatan risiko keterbatasan kamar dan fluktuasi permintaan, menjadikannya salah satu variabel kritis dalam strategi dynamic pricing (Guizzardi et al., 2019).
Di samping itu, lama menginap (length of stay) pada hari kerja dan akhir pekan turut memengaruhi tarif kamar. Tamu yang menginap pada hari kerja umumnya terkait dengan perjalanan bisnis dan memiliki karakteristik pemesanan yang berbeda dibandingkan tamu yang menginap pada akhir pekan untuk tujuan rekreasi. Kedua segmen ini sering kali menunjukkan perbedaan sensitivitas harga, preferensi layanan, dan pola pemesanan. Penelitian dalam bidang revenue management menunjukkan bahwa variasi durasi menginap dapat memengaruhi strategi alokasi kamar dan struktur tarif yang ditetapkan manajemen hotel (Noone & Mattila, 2018).
Variabel lainnya seperti jumlah permintaan khusus (special requests) dan arrival week number turut berhubungan dengan varian ADR. Permintaan khusus dapat mencerminkan preferensi tamu terhadap fasilitas tambahan, sedangkan minggu kedatangan berkaitan dengan faktor musiman, perayaan, hari libur nasional, atau event tertentu yang dapat meningkatkan permintaan kamar. Studi-studi terbaru dalam bidang perhotelan menunjukkan bahwa variabel-variabel ini memiliki implikasi yang signifikan terhadap keputusan harga karena mencerminkan kondisi permintaan mikro dan faktor operasional harian hotel (García et al., 2018).
Untuk menghasilkan pemodelan harga yang akurat, diperlukan metode statistik yang mampu memilih variabel paling relevan dari sekumpulan variabel yang tersedia. Pendekatan seleksi model regresi seperti stepwise regression, AIC, BIC, hingga metode regularisasi seperti LASSO menjadi pilihan penting dalam Analisis data kontemporer karena dapat menangani multikolinearitas, mengurangi kompleksitas model, dan meningkatkan interpretabilitas hasil. Penggunaan metode seleksi model telah terbukti efektif dalam berbagai penelitian terkait analisis harga kamar hotel dan prediksi perilaku permintaan (García et al., 2018).
Dalam dataset yang digunakan pada analisis data ini, variabel yang tersedia antara lain Average Daily Rate (ADR) sebagai variabel dependen, serta variabel independen berupa lead time, lama menginap pada hari kerja dan akhir pekan, jumlah permintaan khusus, dan minggu kedatangan. Variabel-variabel ini merupakan faktor-faktor operasional yang sangat relevan dalam analisis tarif kamar hotel. Dengan demikian, analisis data mengenai “Analisis Faktor–Faktor yang Mempengaruhi Tarif Harian Hotel (ADR) Menggunakan Seleksi Model Regresi” menjadi penting untuk memberikan pemahaman komprehensif mengenai bagaimana karakteristik pemesanan dan perilaku tamu memengaruhi struktur harga dalam industri perhotelan.
Berdasarkan latar belakang yang telah dipaparkan, maka rumusan masalah dalam analisis data ini adalah sebagai berikut:
Istilah “regresi” pertama kali dikemukakan oleh Sir Francis Galton (1822–1911), seorang antropolog dan ahli meteorologi terkenal dari Inggris. Dalam makalahnya yang berjudul “Regression towards mediocrity in hereditary stature”, yang dimuat dalam Journal of the Anthropological Institute, volume 15, halaman 246 sampai dengan 263, tahun 1885, Galton menjelaskan bahwa biji keturunan tidak cenderung menyerupai biji induknya dalam hal besarnya, namun lebih mendekati rata-rata (medioker) lebih kecil daripada induknya apabila induknya besar, dan lebih besar daripada induknya apabila induknya sangat kecil.
Dalam analisis regresi, diperlukan suatu model yang digunakan untuk mengetahui hubungan antara variabel tidak bebas (respon) dengan satu atau lebih variabel bebas (prediktor) serta untuk melakukan peramalan terhadap variabel respon. Model regresi dapat diperoleh dengan melakukan estimasi terhadap parameter-parameternya menggunakan metode tertentu. Adapun metode yang dapat digunakan untuk mengestimasi parameter model regresi, khususnya parameter model regresi linier berganda, adalah dengan metode kuadrat terkecil (ordinary least squares) dan metode kemungkinan maksimum (maximum likelihood) (Fathurahman,2009).
Secara umum model regresi linier berganda dengan \(k\) variabel bebas dapat ditulis sebagai berikut (Fathurahman,2009): \[y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_k x_k + \varepsilon (1)\]
Bila pengamatan mengenai \(y, x_1, x_2,...,x_k\) dinyatakan masing-masing dengan \(y_i, x_i1, x_i2,...,x_ik\) dan sisa (error) , maka persamaan (1) dapat dituliskan sebagai:
\[y_i = \beta_0 + \beta_1 x_1 + \beta_2 x_i2 + \cdots + \beta_k x_ik + \varepsilon_i,i=1,2,\cdots,n (2)\]
Dalam notasi vektor dan matriks, persamaan (2) dapat ditulis menjadi:
\[\mathbf{Y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon},\]
Dengan:
\(\mathbf{Y}\) = vektor respon berukuran \(n \times 1\),
\(\mathbf{X}\) = matriks prediktor berukuran \(n \times p\),
\(\boldsymbol{\beta}\) = vektor parameter berukuran \(p \times 1\),
\(\boldsymbol{\varepsilon}\) = vektor sisa berukuran \(n \times 1\).
Dalam praktiknya, peneliti sering dihadapkan pada banyak kandidat variabel prediktor. Namun, tidak semua variabel tersebut memberikan kontribusi signifikan terhadap model. Memasukkan variabel yang tidak relevan dapat menyebabkan model yang tidak efisien dan meningkatkan risiko . Oleh karena itu, diperlukan metode seleksi variabel untuk mendapatkan model yang parsimoni.
Metode seleksi model bertujuan untuk mendapatkan model terbaik yang parsimoni dengan hanya mempertahankan variabel-variabel yang signifikan.
Metode seleksi maju merupakan teknik yang digunakan untuk mengurangi jumlah variabel melalui seleksi bertahap satu per satu variabel independen. Metode ini dimulai dengan memasukkan satu per satu variabel secara berurutan untuk dimodelkan dengan menggunakan metode yang ditentukan, Kemudian memilih model terbaik berdasarkan kriteria tertentu seperti \(R^2\) terbesar untuk dipertahankan. Pada langkah kedua, dari model yang telah ditetapkan sebelumnya, masing-masing variabel independen yang tersisa ditambahkan secara berturut-turut sedemikian sehingga variabel berdasarkan kriteria \(R^2\) terbesar dimasukkan ke dalam model. Proses dilakukan berulang hingga mendapatkan model regresi terbaik dengan jumlah variabel optimum. (Aprihartha et al. (2025))
Metode eliminasi mundur merupakan metode yang digunakan untuk mereduksi jumlah variabel melalui eliminasi variabel independen secara bertahap satu per satu. Metode ini dimulai dengan membuat model yang mencakup semua variabel independen. Pembatasan jumlah variabel independen pada model akan dicapai melalui tahapan berturut-turut dengan membandingkan efek setiap variabel dalam model berdasarkan ambang batas kriteria eliminasi. Variabel independen yang memiliki nilai kontribusi lebih rendah dari nilai yang ditetapkan dari kriteria eliminasi akan dihapus dari model, dengan kata lain variabel yang memberikan penurunan kinerja paling sedikit berdasarkan kriteria \(F_{value}\) atau \(P_{ value}\) . Nilai \(P_{value}\) atau nilai probabilitas adalah tingkat signifikasi marjinal dalam uji hipotesis statistik, yang menggambarkan seberapa besar kemungkinan hasil akan terjadi jika hipotesis nol benar . Pada setiap langkah, variabel yang tidak penting dieliminasi sedemikian hingga menghasilkan model dengan variabel optimum. Proses eliminasi terhenti ketika model memiliki nilai \(F_{value}\) lebih rendah atau \(P_{value}\) lebih tinggi dibandingkan model sebelumnya.
Dalam kasus metode regresi linier berganda, ada kemungkinan untuk menguji tingkat signifikansi statistik dari koefisien variabel prediksi. Disarankan untuk mempertahankan variabel dalam model (dengan toleransi tinggi) yang memiliki koefisien signifikan secara statistik. Semakin tinggi rasio jumlah variabel independen yang signifikan secara statistik terhadap jumlah total variabel independen, maka semakin kuat prediksi model regresi dengan kesalahan model regresi. Model regresi bertahap digunakan jika jumlah variabel independen tinggi .Teknik ini telah diterapkan untuk memilih jumlah prediktor optimal yang akan disertakan dalam setiap model regresi berganda .Metode bertahap dapat diterapkan dalam dua varian, yaitu metode regresi dengan seleksi maju dan metode regresi dengan eliminasi mundur. Tahapan pembentukan model diawali dari model konstan, algoritma akan menambahkan dan menghapus variabel di dalam model berdasarkan nilai \(F_{value}\) atau \(P_{value}\). Proses berhenti ketika nilai \(P_{value}\) terendah masih signifikan dan tidak ada lagi variabel independen yang dapat ditambahkan atau dihapus.
Selain pendekatan berbasis uji signifikansi statistik seperti metode stepwise, terdapat pendekatan lain dalam seleksi model yang berdasarkan pada prinsip teori informasi, yaitu Akaike Information Criterion (AIC) dan Schwarz Information Criterion (SIC).
Metode AIC dan SIC adalah metode yang dapat digunakan untuk memilih model regresi terbaik yang ditemukan oleh Akaike dan Schwarz . Analisis regresi merupakan salah satu teknik analisis data dalam statistika yang seringkali digunakan untuk mengkaji hubungan antara beberapa variabel dan meramal suatu variable. Jika suatu model regresi digunakan untuk tujuan peramalan, maka diperlukan model terbaik. Beberapa metode yang dapat digunakan untuk mendapatkan model regresi terbaik, di antaranya adalah dengan metode AIC dan SIC . Kedua metode tersebut mempunyai kelebihan dibanding menggunakan metode koefisien determinasi (\(R^2\)) yang banyak digunakan selama ini. Kelebihan AIC dan SIC terutama pada pemilihan model regresi terbaik untuk tujuan peramalan (forecasting), yaitu dapat menjelaskan kecocokan model dengan data yang ada (in-sample forecasting) dan nilai yang terjadi di masa mendatang (out-of-sample forecasting). Adapun kelemahan dari metode \(R^2\), di antaranya adalah:
Penelitian ini merupakan penelitian kuantitatif dengan pendekatan analisis regresi linear berganda. Penelitian ini bertujuan untuk mengetahui pengaruh variabel-variabel independen terhadap variabel dependen serta menentukan model regresi terbaik menggunakan beberapa teknik pemilihan model (model selection).
Data yang digunakan dalam penelitian ini merupakan data sekunder yang diunduh dari platform Kaggle. Dataset tersebut kemudian dikonversi ke dalam format Excel agar dapat diproses menggunakan perangkat lunak R Studio. Data terdiri dari satu variabel dependen (Y) dan lima variabel independen (X1–X5) yang digunakan dalam analisis pemilihan model regresi. Proses pemanggilan dan pengolahan data dilakukan melalui beberapa tahap, yaitu mengimpor data, memberi nama variabel, serta mengonversi seluruh variabel ke tipe numerik. Tahapan tersebut dilakukan menggunakan sintaks berikut:
#menggunakan Package readxl
library(readxl)
#Impor data berada
data_booking = read_excel("C:/Users/Lenovo/Downloads/booking hotel.xlsx")
colnames(data_booking) <- c("Y","X1","X2","X3","X4","X5")
# konversi menjadi numerik
data_booking$Y <- as.numeric(data_booking$Y)
data_booking$X1 <- as.numeric(data_booking$X1)
data_booking$X2 <- as.numeric(data_booking$X2)
data_booking$X3 <- as.numeric(data_booking$X3)
data_booking$X4 <- as.numeric(data_booking$X4)
data_booking$X5 <- as.numeric(data_booking$X5)
# Mendefinisikan variabel
Y <- data_booking$Y
X1 <- data_booking$X1
X2 <- data_booking$X2
X3 <- data_booking$X3
X4 <- data_booking$X4
X5 <- data_booking$X5
Penelitian ini menggunakan satu variabel dependen (Y) dan lima
variabel independen (X1–X5). Adapun definisi variabel adalah sebagai
berikut:
• Y = adr
• X1 = lead_time
• X2 = stays_in_week_nights
• X3 = stays_in_weekend_nights
• X4 = total_of_special_requests
• X5 = previous_bookings_not_canceled
Semua variabel telah dikonversi menjadi numerik.
Analisis dilakukan dengan beberapa metode pemilihan model regresi (model selection), yaitu:
• All Possible Regression
• Forward Selection
• Backward Elimination
• Stepwise Selection
• Uji Multikolinearitas (VIF)
Metode All Possible Regression mengevaluasi seluruh kemungkinan kombinasi variabel independen untuk menentukan model terbaik. Dengan jumlah variabel independen sebanyak 5, total kombinasi model yang dianalisis dapat dihitung menggunakan rumus: \(2^n - 1\), dengan n = variabel independen. Sehingga untuk penelitian ini: \(2^5 - 1 = 31\) model. Setiap model kemudian dianalisis dan dibandingkan, misalnya menggunakan AIC, untuk memilih model yang paling optimal.
intercept = lm(Y ~ 1)
forward = step(intercept,
scope = formula(lm(Y ~ X1 + X2 + X3 + X4 + X5)),
direction = "forward")
## Start: AIC=1.78
## Y ~ 1
##
## Df Sum of Sq RSS AIC
## + X5 1 28.8423 0.9431 -99.792
## + X1 1 2.8418 26.9437 0.777
## + X3 1 2.1356 27.6499 1.553
## <none> 29.7855 1.785
## + X2 1 1.8489 27.9365 1.862
## + X4 1 0.0107 29.7748 3.774
##
## Step: AIC=-99.79
## Y ~ X5
##
## Df Sum of Sq RSS AIC
## + X2 1 0.094663 0.84848 -100.965
## <none> 0.94314 -99.792
## + X3 1 0.021536 0.92161 -98.485
## + X4 1 0.019015 0.92413 -98.403
## + X1 1 0.003422 0.93972 -97.901
##
## Step: AIC=-100.97
## Y ~ X5 + X2
##
## Df Sum of Sq RSS AIC
## <none> 0.84848 -100.965
## + X1 1 0.0302798 0.81820 -100.055
## + X4 1 0.0123416 0.83614 -99.405
## + X3 1 0.0007548 0.84772 -98.992
backward = step(lm(Y ~ X1 + X2 + X3 + X4 + X5),
direction = "backward")
## Start: AIC=-97.18
## Y ~ X1 + X2 + X3 + X4 + X5
##
## Df Sum of Sq RSS AIC
## - X3 1 0.0142 0.8023 -98.644
## - X4 1 0.0196 0.8077 -98.441
## - X1 1 0.0475 0.8356 -97.423
## <none> 0.7881 -97.179
## - X2 1 0.1170 0.9051 -95.026
## - X5 1 22.9062 23.6943 2.921
##
## Step: AIC=-98.64
## Y ~ X1 + X2 + X4 + X5
##
## Df Sum of Sq RSS AIC
## - X4 1 0.0159 0.8182 -100.055
## - X1 1 0.0338 0.8361 -99.405
## <none> 0.8023 -98.644
## - X2 1 0.1164 0.9187 -96.581
## - X5 1 23.0747 23.8770 1.152
##
## Step: AIC=-100.06
## Y ~ X1 + X2 + X5
##
## Df Sum of Sq RSS AIC
## - X1 1 0.0303 0.8485 -100.965
## <none> 0.8182 -100.055
## - X2 1 0.1215 0.9397 -97.901
## - X5 1 23.0709 23.8891 -0.833
##
## Step: AIC=-100.97
## Y ~ X2 + X5
##
## Df Sum of Sq RSS AIC
## <none> 0.8485 -100.965
## - X2 1 0.0947 0.9431 -99.792
## - X5 1 27.0881 27.9365 1.862
stepwise = step(lm(Y ~ X1 + X2 + X3 + X4 + X5),
direction = "both")
## Start: AIC=-97.18
## Y ~ X1 + X2 + X3 + X4 + X5
##
## Df Sum of Sq RSS AIC
## - X3 1 0.0142 0.8023 -98.644
## - X4 1 0.0196 0.8077 -98.441
## - X1 1 0.0475 0.8356 -97.423
## <none> 0.7881 -97.179
## - X2 1 0.1170 0.9051 -95.026
## - X5 1 22.9062 23.6943 2.921
##
## Step: AIC=-98.64
## Y ~ X1 + X2 + X4 + X5
##
## Df Sum of Sq RSS AIC
## - X4 1 0.0159 0.8182 -100.055
## - X1 1 0.0338 0.8361 -99.405
## <none> 0.8023 -98.644
## + X3 1 0.0142 0.7881 -97.179
## - X2 1 0.1164 0.9187 -96.581
## - X5 1 23.0747 23.8770 1.152
##
## Step: AIC=-100.06
## Y ~ X1 + X2 + X5
##
## Df Sum of Sq RSS AIC
## - X1 1 0.0303 0.8485 -100.965
## <none> 0.8182 -100.055
## + X4 1 0.0159 0.8023 -98.644
## + X3 1 0.0105 0.8077 -98.441
## - X2 1 0.1215 0.9397 -97.901
## - X5 1 23.0709 23.8891 -0.833
##
## Step: AIC=-100.97
## Y ~ X2 + X5
##
## Df Sum of Sq RSS AIC
## <none> 0.8485 -100.965
## + X1 1 0.0303 0.8182 -100.055
## - X2 1 0.0947 0.9431 -99.792
## + X4 1 0.0123 0.8361 -99.405
## + X3 1 0.0008 0.8477 -98.992
## - X5 1 27.0881 27.9365 1.862
library(car)
## Warning: package 'car' was built under R version 4.5.2
## Loading required package: carData
m <- lm(Y ~ X1 + X2 + X3 + X4 + X5)
vif(m)
## X1 X2 X3 X4 X5
## 2.094670 2.020931 2.143157 1.033442 1.357753
m_best <- lm(Y ~ X1 + X4 + X5)
vif(m_best)
## X1 X4 X5
## 1.130739 1.013940 1.124268
Data penelitian terdiri dari 30 observasi dengan satu variabel dependen dan lima variabel independen yang telah dikonversi ke bentuk numerik.
summary(lm(Y ~ X1 + X2 + X3 + X4 + X5, data = data_booking))
##
## Call:
## lm(formula = Y ~ X1 + X2 + X3 + X4 + X5, data = data_booking)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.30564 -0.11289 0.02983 0.08609 0.32196
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.103e+02 4.850e-01 227.370 <2e-16 ***
## X1 -7.519e-04 6.251e-04 -1.203 0.2408
## X2 4.998e-02 2.648e-02 1.888 0.0712 .
## X3 -6.945e-02 1.057e-01 -0.657 0.5174
## X4 3.132e-02 4.052e-02 0.773 0.4471
## X5 -3.795e-01 1.437e-02 -26.411 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.1812 on 24 degrees of freedom
## Multiple R-squared: 0.9735, Adjusted R-squared: 0.968
## F-statistic: 176.6 on 5 and 24 DF, p-value: < 2.2e-16
Kriteria Seleksi Model
Kriteria pemilihan model terbaik dalam penelitian ini adalah Adjusted R-squared tertinggi, yang menunjukkan seberapa besar variasi variabel dependen (Y) dapat dijelaskan oleh variabel independen dalam model, sekaligus mempertimbangkan jumlah variabel yang digunakan.
Interpretasi:
Keberartian model:
• Adjusted R² = 0.968 (sangat baik)
• F-statistic = 176.6, p-value < 0.001
Interpretasi sementara: Hanya X5 (arrival_date_week_number) yang sangat signifikan memengaruhi Y, sedangkan X1, X3, dan X4 tidak signifikan. Adjusted R² sebesar 0.968 menunjukkan model menjelaskan 96.8% variasi Y. Dari hasil pengujian koefisien, hanya X5 yang signifikan memengaruhi Y.
Pada metode All Possible Regression, seluruh kombinasi variabel independen dianalisis untuk mencari model yang memiliki nilai AIC (Akaike Information Criterion) paling kecil. Nilai AIC digunakan sebagai indikator kualitas model: semakin kecil AIC, semakin baik model.
vars <- c("X1","X2","X3","X4","X5")
library(stats)
aic_results <- list()
for (k in 1:5){
combs <- combn(vars,k)
for (i in 1:ncol(combs)){
form <- as.formula(paste("Y ~", paste(combs[,i], collapse = "+")))
model_tmp <- lm(form, data = data_booking)
aic_results[[length(aic_results)+1]] <- list(model=combs[,i], AIC=AIC(model_tmp))
}
}
best_model <- aic_results[[which.min(sapply(aic_results, function(x) x$AIC))]]
best_model
## $model
## [1] "X2" "X5"
##
## $AIC
## [1] -13.8289
Penjelasan dan interpretasi:
Pada data yang digunakan, variabel independen yang tersedia adalah X1, X2, X3, X4, dan X5, sehingga total kombinasi model yang dianalisis adalah 31 model. Hasil analisis menunjukkan bahwa model terbaik berdasarkan AIC adalah model yang hanya memasukkan variabel X2 (stays_in_week_nights) dan X5 (arrival_date_week_number). Model ini menunjukkan bahwa kedua variabel tersebut memberikan kontribusi signifikan terhadap prediksi Y, sedangkan variabel lainnya tidak memberikan perbaikan yang berarti karena penambahan variabel lain justru meningkatkan AIC. Dengan demikian, Model terbaik berdasarkan AIC adalah X2 + X5 Kombinasi keduanya menghasilkan model yang paling optimal dalam menyeimbangkan kesesuaian data dan kesederhanaan model
forward
##
## Call:
## lm(formula = Y ~ X5 + X2)
##
## Coefficients:
## (Intercept) X5 X2
## 109.94174 -0.37219 0.03323
Penjelasan:
Metode Forward Selection dimulai dengan model kosong yang hanya memuat intersep. Pada tahap awal, setiap variabel kandidat diuji secara individual untuk melihat variabel mana yang memberikan penurunan nilai AIC paling besar. Hasil evaluasi menunjukkan bahwa variabel X5 menghasilkan nilai AIC paling kecil (AIC = -99.792) sehingga dipilih sebagai variabel pertama yang dimasukkan ke dalam model. Model pada tahap ini dapat dituliskan sebagai:
\[Y = \beta_0 + \beta_5 X_5 + \varepsilon\]
Setelah variabel X5 masuk ke dalam model, proses seleksi dilanjutkan dengan menguji penambahan variabel lain. Pada tahap kedua, penambahan variabel X2 menghasilkan penurunan nilai AIC menjadi -100.965, yaitu nilai AIC terendah dibandingkan dengan penambahan variabel lain. Dengan demikian, X2 dipilih sebagai variabel kedua yang masuk model. Model hasil tahap kedua adalah:
\[Y = \beta_0 + \beta_5 X_5 + \beta_2 X_2 + \varepsilon.\]
Pada tahap selanjutnya, model yang kini berisi X5 dan X2 kembali diuji dengan menambahkan variabel lainnya (X1, X3, dan X4). Namun, seluruh variabel tersebut justru meningkatkan nilai AIC ketika ditambahkan, sehingga tidak ada yang memberikan perbaikan terhadap model. Karena tidak ada variabel tambahan yang mampu menurunkan nilai AIC, proses Forward Selection berhenti. Model terbaik yang diperoleh dari prosedur ini adalah:
\[\hat{Y} = 109.94 - 0.37219 X_5 + 0.03323 X_2.\]
Model tersebut menunjukkan bahwa variabel arrival_date_week_number (X5) memberikan pengaruh negatif dan merupakan variabel yang paling dominan dalam menjelaskan Y, sedangkan stays_in_week_nights (X2) memberikan pengaruh positif meskipun dengan pengaruh yang relatif lebih kecil. Variabel lain tidak dimasukkan ke dalam model karena tidak memberikan kontribusi terhadap penurunan nilai AIC.
backward
##
## Call:
## lm(formula = Y ~ X2 + X5)
##
## Coefficients:
## (Intercept) X2 X5
## 109.94174 0.03323 -0.37219
Penjelasan:
Metode Backward Elimination dimulai dengan memasukkan seluruh variabel prediktor (X1–X5) ke dalam model. Pada tahap awal, model penuh ini menghasilkan nilai AIC sebesar (-97.18). Selanjutnya, setiap variabel dievaluasi kontribusinya dengan mengamati bagaimana perubahan nilai AIC apabila variabel tersebut dikeluarkan dari model.
Pada langkah pertama, hasil evaluasi menunjukkan bahwa penghapusan variabel X3 menghasilkan penurunan nilai AIC terbesar, yaitu menjadi (-98.644). Hal ini menunjukkan bahwa model menjadi lebih baik ketika X3 dihilangkan. Oleh karena itu, X3 dikeluarkan pada tahap ini, dan model dihitung ulang tanpa variabel tersebut.
Proses berlanjut dengan mengevaluasi kembali variabel yang tersisa. Pada langkah berikutnya, penghapusan variabel X4 memberikan penurunan nilai AIC berikutnya yang paling besar, yaitu menjadi (-100.055). Dengan demikian, X4 dikeluarkan dari model. Model yang tersisa kini terdiri dari variabel X1, X2, dan X5.
Evaluasi kembali dilakukan terhadap model ini. Hasil analisis menunjukkan bahwa penghapusan variabel X1 memberikan penurunan nilai AIC dari (-100.055) menjadi (-100.965), yang merupakan nilai AIC terendah sejauh ini. Hal ini mengindikasikan bahwa X1 tidak memberikan kontribusi signifikan terhadap model, sehingga dikeluarkan dari model.
Model yang tersisa kini hanya berisi X2 dan X5. R kembali mengevaluasi kemungkinan penghapusan variabel lain, namun penghapusan X2 maupun X5 justru meningkatkan nilai AIC, sehingga tidak memberikan perbaikan model. Oleh karena itu, proses Backward Elimination dihentikan pada tahap ini.
Model terbaik yang diperoleh dari metode ini dapat dituliskan sebagai:
\[\hat{Y} = 109.94 + 0.03323 X_2 - 0.37219 X_5.\]
Model tersebut menunjukkan bahwa hanya variabel X2 (stays_in_week_nights) dan X5 (arrival_date_week_number) yang memberikan kontribusi signifikan terhadap prediksi nilai Y. Variabel X5 memiliki pengaruh negatif paling kuat, sedangkan X2 memberikan pengaruh positif yang lebih kecil. Sementara itu, variabel X1, X3, dan X4 dieliminasi karena tidak memberikan penurunan nilai AIC yang berarti.
stepwise
##
## Call:
## lm(formula = Y ~ X2 + X5)
##
## Coefficients:
## (Intercept) X2 X5
## 109.94174 0.03323 -0.37219
Penjelasan:
Metode Stepwise Selection merupakan teknik pemilihan model yang menggabungkan proses penambahan dan penghapusan variabel secara simultan. Analisis dimulai dari model penuh yang memuat seluruh variabel X1–X5, dengan nilai AIC awal sebesar (-97.18). Pada langkah pertama, evaluasi menunjukkan bahwa penghapusan variabel X3 menurunkan nilai AIC menjadi (-98.644), sehingga X3 dikeluarkan dari model.
Model kemudian dihitung ulang tanpa X3, dan evaluasi berikutnya kembali menunjukkan bahwa penghapusan variabel X4 memberikan perbaikan model dengan menurunkan AIC menjadi (-100.055). Proses dilanjutkan pada model yang memuat X1, X2, dan X5. Pada tahap selanjutnya, penghapusan variabel X1 menghasilkan penurunan AIC paling besar, yaitu menjadi (-100.965), sehingga X1 dikeluarkan karena tidak memberikan kontribusi signifikan.
Setelah model hanya memuat variabel X2 dan X5, analisis dilanjutkan dengan mengevaluasi kemungkinan penambahan ataupun penghapusan variabel lain. Namun, tidak ada perubahan yang dapat kembali menurunkan nilai AIC. Dengan demikian, proses Stepwise Selection dihentikan.
Model terbaik yang diperoleh dari prosedur ini adalah:
\[\hat{Y} = 109.94 + 0.03323 X_2 - 0.37219 X_5.\]
Model tersebut menunjukkan bahwa variabel X2 berpengaruh positif terhadap Y, sedangkan X5 memberikan pengaruh negatif yang dominan. Variabel X1, X3, dan X4 dikeluarkan karena tidak memberikan penurunan nilai AIC yang berarti dan tidak meningkatkan kualitas model.
Model Penuh
vif(m)
## X1 X2 X3 X4 X5
## 2.094670 2.020931 2.143157 1.033442 1.357753
Model Terbaik (X2 + X5)
vif(lm(Y ~ X2 + X5, data = data_booking))
## X2 X5
## 1.104581 1.104581
Penjelasan: Semua nilai VIF < 10 menunjukkan tidak ada multikolinearitas.
Model terbaik adalah:
\[Y = \beta_0 + \beta_2 X_2 + \beta_5 X_5\]
Model ini memberikan nilai AIC paling rendah dan hasil yang paling stabil.
Berdasarkan hasil analisis regresi linear berganda dan seleksi model pada penelitian ini, dapat ditarik beberapa kesimpulan sebagai berikut:
Dari lima variabel independen yang dianalisis (lead time, lama menginap pada hari kerja, lama menginap pada akhir pekan, jumlah permintaan khusus, dan minggu kedatangan), hanya variabel stays_in_week_nights (X2) dan arrival_date_week_number (X5) yang berpengaruh signifikan terhadap Average Daily Rate (ADR) hotel.
Model regresi terbaik yang diperoleh melalui metode seleksi model (All Possible Regression, Forward, Backward, Stepwise) adalah:
\[\hat{Y} = 109.94 + 0.03323 X_2 - 0.37219 X_5\]
Model ini memiliki AIC paling rendah dan menjelaskan sebagian besar variasi ADR secara efisien (Adjusted R² tinggi).
Uji multikolinearitas menunjukkan bahwa semua variabel dalam model terbaik memiliki VIF < 10, sehingga tidak terjadi multikolinearitas yang signifikan.
Secara keseluruhan, hasil penelitian menunjukkan bahwa variabel operasional pemesanan hotel yang berpengaruh terhadap ADR dapat diidentifikasi secara jelas menggunakan metode seleksi model regresi, sehingga memberikan pemahaman lebih baik bagi manajemen hotel dalam menentukan strategi harga.
Berdasarkan temuan penelitian, beberapa saran yang dapat diberikan adalah:
2.Pengembangan penelitian selanjutnya:
Aprihartha, M. A., Azzahra, S. P., & Azizo, R. (2025). Pemilihan model regresi linear berganda terbaik untuk menentukan faktor-faktor penyebab kasus balita gizi buruk di Jawa Tengah. Jurnal EurekaMatika, 13(1), 35–46.
Dogru, T., & Sirakaya-Turk, E. (2018). Revenue management and the profitability of hotels in the United States. International Journal of Hospitality Management, 73, 109–117. https://doi.org/10.1016/j.ijhm.2017.11.011
Fathurahman, M. (2009). Pemilihan model regresi terbaik menggunakan metode Akaike’s Information Criterion dan Schwarz Information Criterion. Jurnal Informatika Mulawarman, 4(3), 37–41.
García, R., Ortuño, M., & Sánchez, A. (2018). Demand forecasting, revenue management, and price optimization in the hotel industry. Tourism Management, 69, 1–13. https://doi.org/10.1016/j.tourman.2018.05.017
Guizzardi, A., Cannas, R., & Mastrobuoni, G. (2019). Long-term and short-term forecasting in hospitality: Booking behavior and dynamic pricing. Tourism Management, 74, 21–39. https://doi.org/10.1016/j.tourman.2019.03.020
Noone, B. M., & Mattila, A. S. (2018). Consumer behavior in hospitality: The role of length of stay, timing, and pricing strategies. International Journal of Hospitality Management, 70, 45–55. https://doi.org/10.1016/j.ijhm.2017.12.004
Özdemir, G. (2018). Determination of hedonic hotel room prices with spatial effect in Antalya tourism center. Revista de Administração Pública, 52(1), 29–49. https://www.redalyc.org/journal/111/11159483004/
Zhang, H., Song, H., Wen, L., & Liu, C. (2018). Forecasting seasonal tourism demand using a novel seasonal decomposition approach. International Journal of Hospitality Management, 72, 123–131. https://doi.org/10.1016/j.ijhm.2017.10.016