{r include=FALSE} library(knitr) opts_chunk\(set(message = FALSE) opts_chunk\)set(warning = FALSE) opts_chunk\(set(comment = "") opts_chunk\)set(collapse = TRUE) opts_chunk\(set(error = TRUE) opts_chunk\)set(prompt = TRUE) opts_chunk$set(fig.align = ‘center’)
Library:
{r} # install.packages(“knitr”) # install.packages(“rmarkdown”) # install.packages(“prettydoc”) # install.packages(“equatiomatic”)
1 PENDAHULUAN
1.1 Latar Belakang
Pesawat merupakan salah satu transportasi yang cukup banyak dipilih karena memiliki jadwal penerbangan yang bervariasi dan jauh lebih efisien dalam segi waktu. Selain itu, banyak penumpang memilih pesawat karena memiliki jadwal penerbangan dengan rute yang relatif panjang dan tidak dimiliki oleh transportasi yang lain. Karena panjangnya rute perjalanan yang berhubungan erat pula pada lama waktu perjalanan, maka kenyamanan dan kepuasan penumpang terhadap pelayanan maskapai yang dipilih perlu diperhatikan.
Airline Customer Satisfaction merupakan data mengenai beberapa variabel yang dijadikan tolak ukur atas kepuasan penumpang pesawat. Beberapa variabel yang dipilih dan dilakukan analisis adalah letak gerbang keberangkatan, pelayanan internet selama perjalanan, dan hiburan selama perjalanan yang memiliki skala nilai satu hingga lima. Diharapkan dengan adanya analisis ini, dapat membantu maskapai untuk meningkatkan atau memperbaiki hal-hal yang diamati agar kepuasan penumpang semakin meningkat.
2 TINJAUAN PUSTAKA
2.1 Regresi Logistik Biner
Regresi logistik biner adalah metode analisis yang berfungsi untuk melihat apakah terdapat hubungan anatara variabel dependen dan independen ketika variabel dependennya bersifat kategorik. Variabel dependen yang digunakan bersifat diskrit dan hanya memiliki dua kemungkinan, yaitu gagal atau sukses. Pernyataan sukses atau gagal dinyatakan dengan Y=0 sebagai gagal dan Y=1 sebagai sukses.
Regresi logistik dapat didefinisikan dengan \[ \pi(x)= \frac {exp(\beta_0+\beta_1X_1+...+\beta_iX_i)}{1+exp(\beta_0+\beta_1X_1+...+\beta_iX_i)} \] Dengan \[ i=1,2,3,...,n \]
Logit dari model ini dapat didefinisikan dengan \[ logit\pi(x)=log(\frac{\pi(x)}{1-\pi(x)})=\beta_0+\beta_1X_1+...+\beta_iX_i \] Dari persamaan di atas, regresi logistik mengindikasikan 1. untuk $_1>0 $, kenaikan satu satuan x mempengaruhi terhadap kenaikan nilai logit. 2. untuk $_1<0 $, kenaikan satu satuan x mempengaruhi terhadap penurunan nilai logit. 3. terdapat hubungan linear antara \(log\frac{\pi(x)}{1-\pi(x)}\) dan variabel X.
2.2 Asumsi Multikolinearitas
Multikolinearitas merupakan hubungan linear antarvariabel bebas yang terbentuk karena terdapat korelasi antarvariabel bebas dan mengakibatkan variabel yang lain berubah. Dalam praktiknya, adanya multikolinearitas sulit untuk dihindari yang berarti sulit menemukan variabel bebas meskipun dalam matematis tidak berkolerasi. Jika ditemukan kolinearitas sempurna, maka berdampak pada koefisien regresi yang tidak dapat dihitung.
2.2.1 Dampak Multikolinearitas
Dampak yang ditimbulkan oleh kolinearitas adalah
- Varian koefisien regresi besar.
- Tingginya koefisien determinasi.
- Angka estimasi koefisien regresi tidak sesuai dengan substansi dan berpeluang untuk menyesatkan interpretasi.
2.2.2 Teknik Mendeteksi Multikolinearitas
Beberapa cara yang dapat digunakan untuk mendeteksi multikolinearitas adalah
VIF (Varianve Inflation Factor) menghasilkan indeks dari jumlah dari varians yang masing-masing koefisien regresinnya meningkat dan relatif terhadap situasi saat semua variabel prediktornya terdapat korelasi. Rumus dari \(VIF\) adalah \[ VIF_j=\frac {1}{1-R^2_j}, j=1,2,...,k \] Asumsi multikolinearitas akan terpenuhi jika nilai VIF<10.
Tolerance (TOL) bersifat berbanding terbalik dengan VIF, dan memiliki hubungan sebagai berikut \[ TOL_i=\frac{1}{VIF}(1-R_j^2) \] Sehingga, jika \(TOL_j=0\) maka antarvariabel bebas tidak memilikki korelasi dan sebaliknya.
2.2.3 Mengatasi Multikolinearitas
Cara untuk mengatasi multikolinearitas adalah
- Mengganti atau mengeluarkan variabel yang terindikasi memiliki korelasi yang tinggi. Namun, perlakuan ini harus diperhatikan karena terdapat kemungkinan bahwa variabel yang dikeluarkan adalah variabel terpenting.
- Menambah jumlah observasi. Dengan penambahan jumlah observasi, diharapkan kolinearitas dapat berkurang karena ada kemungkinan bahwa sapel lain tidak memiliki kasus multikolinearitas yang serius.
- Mentransformasikan data ke dalam bentuk lain seperti logaritma natural, akar kuadrat, atau bentuk first difference dan ratio transformation method.
- Menggunakan metode-metode regresi yang lebih advance.
2.3 Uji Signifikansi Keseluruhan Model
Pengujian ini digunakan untuk menentukan apakah variabel independen yang terdapat pada model memiliki hubungan yang signifikan dengan variabel dependennya. Pengujian ini dilakukan dengan dua pengujian.
- Uji Simultan: untuk menguji hubungan koefisien \(\beta\) secara keseluruhan dengan menggunakan Likelihood Ratio Test.
Hipotesis: \[ H_0:\beta_1=\beta_2=...=\beta_i \] \[ H_1: \beta_1 \ne \beta_i \] Dengan statistik uji: \[ -2ln+[\frac{l_0}{l_i}]=-2[lnl_0-lnl_i]=-2(l_0-l_i) \]
- Uji Parsial: dilakukan untuk menguji hubungan koefisien \(\beta\) secara parsial dengan menggunakan uji Wald.
Hipotesis: \[ H_0=\beta1=0 \] \[ H_1=\beta_1\ne 0 \]
Statistik Uji: \[ W=\frac{\beta_i}{SE(\beta1)} \] Dengan kriteria pengujian rasio yang dihasilkan dari statistik uji akan mengikuti sebaran normal baku.
2.4 Odds Ratio
Odds merupakan cara penyajian probabilitas yang menjelaskan bahwa probabilitas kejadian tersebut akan terjadi dibagi dengan probabilitas komplemennya. Odds ratio dituliskan dengan \[ Odds=\frac {\pi} {1-\pi} \] Ketika odds bernilai satu, berarti probabilitas sukses sama dengan probabilitas gagal. Odds yang kurang dari satu berarti probabilitas suskes lebih kecil dari probabilitas gagal.
Probabilitas sukses (\(\pi\)) merupakan fungsi dari odds, yaitu \[ \pi=\frac{odds}{(odds+1)} \] Odds Ratio merupakan salah satu statistik yang berfungsi untuk menilai risiko suatu kejadian jika terdapat faktor tertentu. \[ OR=\frac{odds1} {odds2} \] \[ OR=\frac{\pi1/(1-\pi1)}{\pi2/(1-\pi2)}=\frac{\pi1(1-\pi2)}{\pi2(1- \pi1)} \]
2.5 Uji Kelayakan Model
Uji kelayakan model dilakukan dengan menggunakan uji Goodness of Fit. Uji Goodness of Fit bertujuan untuk mengetahui apakah distribusi data mengikuti distribusi teoritis atau tidak. Uji ini akan membandingkan dua distribusi, teoritis dan observasi, dan akan memiliki lebih dari dua kemungkinan jawaban.
Hipotesis:
\(H_0\): Data mengikuti distribusi teoritis.
\(H_1\): Data tidak mengikuti distribusi teoritis.
\[ \chi^2=\sum^k_{i=1}{\frac{(O-E)^2}{E}} \]
3 SOURCE CODE
3.1 Library
{r}
{r} # Library library(knitr) library(readxl) library(car) library(pscl) library(generalhoslem)
3.2 Data
{r} library(readxl) UAP = read_excel(“C:/Users/ASUS/OneDrive/Documents/SEM 4/Komstat/UAP.xlsx”)
Y = c(as.factor(UAP\(satisfaction)) x1 =
c(UAP\)Gate location) x2 = c(UAP\(`Inflight wifi service`) x3 =
c(UAP\)Inflight entertainment)
datalog = data.frame(x1,x2,x3,Y) str(datalog)
3.3 Analisis Regresi Logistik
{r} reglog = glm(Y~x1 + x2 + x3, family = binomial, data = datalog) summary(reglog) dataduga = round(fitted(reglog)) dataduga str(dataduga)
3.4 Asumsi Multikolinearitas
{r} library(car) vif(reglog)
3.5 Uji Signifikasi Keseluruhan Model
{r} pR2(reglog) qchisq(0.95,2)
3.6 Odds Ratio
{r} beta = (coef(reglog)) OR_beta = exp(beta) sk_OR = exp(confint(reglog)) cbind(beta, OR_beta, sk_OR)
3.7 Membentuk Klasifikasi
{r} yp_hat = fitted(reglog) datalog\(yp_hat = yp_hat yp_hat class = table(datalog\)Y, datalog$yp_hat>0.5) class
3.8 Uji Kelayakan Model
{r} logitgof(datalog$Y,fitted(reglog))
{r} library(rmarkdown) paged_table(as.data.frame(datalog))
3.9 ScatterPlot
{r fig.width=6, fig.height=6} smoothScatter(x1, Y, xlab = “Gate Location”, ylab = “Satisfaction”, main = “Kepuasan Penumpang terhadap Lokasi Gerbang Keberangkatan”) smoothScatter(x2, Y, xlab = “Inflight WiFi Service”, ylab = “Satisfaction”, main = “Kepuasan Penumpang terhadap Layanan Internet”) smoothScatter(x3, Y, xlab = “Inflight Entertainment”, ylab = “Satisfaction”, main = “Kepuasan Penumpang terhadap Hiburan selama Perjalanan”)
4 HASIL DAN PEMBAHASAN
4.1 Model Regresi Logistik
\[ \pi(x)= \frac {exp(-3.18387+1.22778X1-0.06774X3+0.60293X4)} {1+exp(-3.18387+1.22778X1-0.06774X3+0.60293X4)} \] \[ logit(\pi(x))=ln \frac{\pi(x)} {1-\pi(x)}=-3.18387+1.22778X1-0.06774X3+0.60293X4 \]
4.2 Asumsi Multikolinearitas
4.2.1 Output VIF
\[ x1 = 1.296214 \] \[ x2 = 1.050297 \] \[ x3 = 1.299687 \] > Karena semua hasil VIF bernilai <10, maka asumsi multikolinearitas terpenuhi.
4.3 Uji Signifikasi Keseluruhan Model
4.3.1 Hipotesis
\[ H_{0}:\beta1=\beta2=\beta3=0 \] \[H_{1}:\beta{i} \neq 0\] \[;i=1,2,3\]
4.3.2 Statistik Uji dan Titik Kritis
\[ G{2} = 10.4964362 \] \[ X^{2}(0.05,2) = 5.991465\] Keputusan: \(G > X^{2}(0.05,2)\), maka tolak \(H_{0}\) Interpretasi: Dengan taraf nyata 5%, terbukti bahwa semua variabel independen yaitu gate location, inflight WiFi service, dan inflight entertainment secara simultan berpengaruh signifikan terhadap kepuasan penumpang pesawat.
4.4 Uji Parsial Parameter Model
{r} summary(reglog)
Gate Location > Berdasarkan output di atas, dapat dilihat bahwa variabel x1 (gate location) memiliki p-value kurang dari \(\alpha\) \((0.05)\), sehingga memberikan keputusan tolak \(H_{0}\). Jadi, terbukti bahwa lokasi gerbang keberangkatan mempengaruhi kepuasan penumpang pesawat.
Inflight WiFi Service > Berdasarkan output di atas, dapat dilihat bahwa variabel x2 (Inflight WiFi service) memiliki p-value lebih dari \(\alpha\) \((0.05)\), sehingga memberikan keputusan terima \(H_{0}\). Jadi, terbukti bahwa WiFi selama perjalanan tidak berpengaruh signifikan terhadap kepuasan penumpang pesawat.
Inflight Entertainment > Berdasarkan output di atas, dapat dilihat bahwa variabel x2 (Inflight entertainment) memiliki p-value lebih dari \(\alpha\) \((0.05)\), sehingga memberikan keputusan terima \(H_{0}\). Jadi, terbukti bahwa hiburan selama perjalanan tidak berpengaruh signifikan terhadap kepuasan penumpang pesawat.
4.5 Odds Ratio
{r} beta = (coef(reglog)) OR_beta = exp(beta) sk_OR = exp(confint(reglog)) cbind(beta, OR_beta, sk_OR)
Interpretasi:
- x1 = Setiap peningkatan score yang diberikan penumpang pesawat terhadap lokasi gerbang keberangkatan, memperbesar peluang kepuasan penumpang 1,23 kali lebih besar.
- x2 = Setiap peningkatan score yang diberikan penumpang pesawat terhadap pelayanan internet, menurunkan peluang kepuasan penumpang 0,07 kali lebih rendah.
- x3 = Setiap peningkatan score yang diberikan penumpang pesawat terhadap hiburan selama penerbangan, memperbesar peluang kepuasan penumpang 1,23 kali lebih besar.
4.6 Klasifikasi
{r} yp_hat = fitted(reglog) datalog\(yp_hat = yp_hat yp_hat class = table(datalog\)Y, datalog$yp_hat>0.5) class
Interpretasi: Berdasarkan tabel klasifikasi yang ada, didapatkan tabel class sebagai klasifikasi dari model.
4.7 Uji Kelayakan Model
Berdasarkan output yang ada di atas, terdapat ekspetasi yang dibawah satu.
5 KESIMPULAN
Berdasarkan hasil penelitian, dari tiga variabel yang diteliti, secara parsial terbukti hanya salah satu variabel saja yang berpengaruh secara signifikan terhadap kepuasan penumpang, yaitu lokasi gerbang keberangkatan. Sedangkan secara simultan terbukti bahwa ketiga variabel berpengaruh secara signifikan terhadap kepuasan penumpang pesawat.
6 DAFTAR PUSTAKA
- Kurniawan, R. & Yuniarto, B. 2016. ANALISIS REGRESI: Dasar dan Penerapannya dengan R Edisi Pertama. Kencana, Jakarta.
- Yujana, L. H. 2019. MODEL REGRESI LOGISTIK KUALITAS PENGELOLAAN KEUANGAN DESA. Fokusmedia, Bandung.
- Nugraha, J. 2014. PENGANTAR ANALISIS DATA KATEGORIK. Deepublish, Yogyakarta.
Sumber data: https://www.kaggle.com/datasets/raminhuseyn/airline-customer-satisfaction